前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从新浪新闻看AI时代的自媒体个性化推荐实践

从新浪新闻看AI时代的自媒体个性化推荐实践

作者头像
软件绿色联盟
发布于 2022-03-31 06:53:43
发布于 2022-03-31 06:53:43
9390
举报

——正文开始——

本文根据新浪资深技术专家高翔在软件绿色联盟开发者大会发表的人工智能时代的自媒体个性化推荐实践》主题演讲整理而成,介绍了新浪新闻多个业务场景下(push、信息流、视频等)的人工智能技术迭代和业务驱动,如何在内容审核、内容理解和内容分发等多个领域进行持续赋能提效。

简介

在(后)移动互联网的时代,内容生产、分发越来越便捷,媒体无处不在。普通用户拥有了生产专业媒体内容的能力,新闻的生产和传播越来越走向实时,信息交互方式更加高效,社会信息透明度进一步提高。

中国推荐生态进入到下半场,格局已经基本稳定,用户习惯逐渐被培养。在中国,随着互联网技术的发展,网络监管也越来越完善。几年前,你在网上发表言论,进行一些不当的网络攻击以及谩骂,这种情况下惩罚的力度非常低。而现在,信息越来越透明,如果你在网上发表不当言论,有可能会被国家进行监管,接受法律惩罚。与此同时,随着国内监管越来越严格,对内容生产、内容审核分发也提出了更高的挑战。

为此,新浪搭建了基于人工智能技术的推荐生态体系,分为三个维度:内容审核、内容理解、内容分发

内容审核方面,新浪新闻App突破了原有模式审核技术,与科研机构合作,针对自媒体千万级别新闻物料进行自动化审核和过滤,完成对文本关键词的监测,以及对涉敏内容的过滤,实现全景化的智能审核防线。高翔举例介绍,凭借人工审核+机器辅助双驱动模式,新浪新闻App看点平台现已实现了日均百万级别审核量。

内容理解方面,围绕内容热度、内容相关性、内容标签,新浪新闻App构建“热点内容池”,基于微博数据和全网数据实时检测热点话题、话题匹配相关物料,通过对新闻物料的多维度建模,实时监测热点变化走向,第一时间发现潜在新闻热点并向用户进行推荐。这里会根据内容热度理解和内容图谱理解两大维度来判断哪些内容是用户更喜欢看的。

内容分发方面,基于推荐生态、用户体验、理解用户及业务导向四个维度,新浪新闻App在用户兴趣理解、召回排序、多目标优化等方向上进行了个性化推荐的深度学习技术迭代和建模优化,以深度模型提升、优质热点内容挖掘提升内容分发效果。

内容审核

内容有优质、低俗之分,在内容审核方面,审核的技术挑战有两部分,一方面是识别效果,把这些问题识别出来,另一方面是服务效率,不仅仅识别得要好,而且要识别得足够多,足够快,因为每天量级很大,稍微出现服务效率的问题,会出现物料审核的堆积情况。下面一起来看优化之路:

1.Baseline模型 :CTPN + DenseNet +CTC loss

思想是垂直Anchor + Fine-Scale 策略 + RNN机制 + Bounding Box回归定位,在2016年是主流的思想。优点是综合考虑图像上下文特征,垂直Anchor机制可以更好的定位,方便处理各种比例和纵横比的文本行。缺点是检测速度慢,对倾斜字符、小字符等复杂场景处理效果不佳。

2.模型优化:Psenet + DenseNet +CTC-Loss

思想是FPN + 语义分割 + 多维度扩展合并,优点是适配小字符和倾斜字符,引入FPN提升模型识别效果和识别效率。先将图片送入CNN网络(作者使用Resnet),取其中四层Feature Map大小为1:2:4:8,前三层Feature Map分别进行上采样8,4,2倍让他们有相同的宽高,再进行融合得到S1到Sn这n个输出,代表不同尺度的文本区域掩码,之后进行一些后处理得到最后的文字区域,后处理规则的核心思想是广度优先搜索算法,对于文字区域冲突的像素采用"先到先得"原则。Psenet大致的思路是就是预测多个分割结果,分别是S1,S2,S3…Sn代表不同的等级面积的结果,S1最小,Sn最大。然后在后处理的过程中,先用最小的预测结果去区分文本,再逐步扩张成正常文本大小。

3.性能优化:轻量级网络替代BackBone网络

为了优化性能,用一些轻量级网络替代BackBone网络,对MobileNet、ShuffleNet、SqueezeNet做了对应的实验探索,参数量级能从billion级别降到million级别,计算量得到大幅降低,预测性能减少至少50%以上。这是目前尝试效果较好的模型性能优化。

4.效果优化 - 结合业务场景做数据增强,提升训练图片数量+质量

机器审核会有“漏网之鱼”的情况,一般有两方面的原因:一方面字体比较复杂,可能不是常规的微软雅黑、宋体,或是生僻字体;另外一方面背景不是纯色、白底、黑底,可能是一个花纹、木纹。对策是基于业务方反馈到的问题,会持续做一些数据增强,把这个数据放模型里面,提升训练图片数量、质量。目前已经积累了近千万级别的数据,能够大幅度提高模型的容错,提升审核效果。

内容理解

内容理解有3个维度,分别是内容热度,内容相关性,内容标签。如下图所示:

微博是中国社交事件的一个广场,有突发热门事件发生,基本上第一时间会在微博上关注。基于微博数据搭建一套机器学习的实时触发系统,进行热点的触发。有一个事件通过微博发出,两分钟内基本上都可以检测到,同时会有热点加工。比如一个事件如果很火的话,不止一个微博,是多个微博,把多个微博转化为一个话题,提交给运营,让运营分析这个事件是不是热点事件,如果这个事件是热点事件,运营者会写相关的文章,推送相关的物料。

建模时依据的特征如下图所示,主要分为两类,一类是原始类特征,另一类是传播类特征。原始类特征如微博本身是什么内容的,因为不同领域的内容可能不太一样。传播类特征如微博扩散速度快不快,每分钟转发多少,收藏多少,话题有多少讨论量,这都是建模的一些特征。

对于微博热点,是如何触发的呢?基于算法挖掘出来的规则以及运营给的经验性规则进行触发,触发概率是比较低的,而且公式复杂,参数较多,规则热点率是24.5%,相当于触发四条,有一条运营认为是热点。把原始特征和规则类特征转化为模型,通过模型的方式进行预测,用DeepFM模型,热点触发率可以提升到40%。这是人工智能落地的具体实践。

接下来讲一下图谱,图谱是游戏如《王者荣耀》,影视、综艺、娱乐类相关IP,这是大家理解的一个大IP。

大IP标签如何建模?视频有一个持续序列的图片,另外会有一些音频,不要小看音频,尤其是抖音类的视频,单纯通过音频就可以做一个分类,是搞笑还是美食类的。同时会有一些标题,像这个视频标题是什么,会有多个维度的信息进行建模。以一个多模态和单目标的思想,把多模态进行特征的抽取,多模态内容理解建模,完善视频标签体系,这是我们最开始的思想。

如何持续优化效果?解决方案是引入多模态Attention + 多目标建模思想。

思路是充分利用图像、音频和文本特征,考虑学习多模态特征的分类贡献度,优化分支网络,模型拟合更好。

方法:多目标联合

  • 单类Loss
  • 联合Loss
  • AttentionLoss

通过多目标的思想可以进一步提升模型识别能力和多模态的识别能力。在优化最终目标的同时优化了分支网络,可以使各分支模型的特征更准确,在单目标基础上进一步提升效果。

如何“筛选”大IP内容池?先分析哪些内容是IP,然后把IP反馈给技术,通过技术进行视频库的加工、抽取、CV理解,进行模型训练,逐步迭代到整个模型体系中。每一个视频通过视频 Embedding的思想,转成Embedding,提供到线上直接使用。

那如何对视频Embedding?设计方案是孪生神经网络(Siamese Network),包含两部分:中下部分为视频1的网络,输入为视频特征信息,经过3层全连接及L2正则,输出Video Embedding;右上部分为视频2的网络,结构和参数同网络1完全一致,并共享参数。目标函数为两个Embedding的相似性距离。解决方案是将视频转化为图片序列,计算序列整体相似度Embedding。

内容分发

对于新用户而言,对平台没有太多的认知,推什么内容?应该推平台优质,能够沉淀用户、吸引用户的内容。对于老用户而言,已形成用户黏性,应该推更符合兴趣的内容。基于用户分层机制,针对不同用户做不同策略,用不同的内容池进行实验,进行线上配置。目前而言是可以快速配置,基本没太多开发成本。

下面讲解一下召回策略,在单塔基础上,引入item tower。支持item冷启动,支持item侧特征接入联合学习。这也是目前各大厂主流的配置方法。

在双塔召回的基础上引入多目标的思想,以多目标的方式训练推荐模型,同时在中间层加Self-Attention Layer,不同field 特征由Concat 操作变成Self Attention,动态决定样本权重。同时会对推荐多样化也会有更好效果,既能考虑短视频也能考虑长视频。

接下来说下多目标,对于算法工程师而言,考核目标是各种各样的KPI指标,如平台DAU,CTR,播放时长等等。满足业务指标是不是用户体验就OK了?其实不是这样的,会有擦边、低质的情况,如标题党。

要素1:样本,更关注有价值的正样本

点击高互动少是标题党,文不对题概率大。点击少互动高,优质内容概率大。策略是样本reweight,优质正样本加权。对于时长类目标,低时长(3s),误点击、低俗概率大;高时长(20s+),优质内容概率大;完播率,如何Trade-Off 短视频和长视频。策略是对低时长样本进行降权or过滤,时长+完播率,转化为分类问题处理。

要素2:目标,单任务线性加权VS多任务联合训练

多个目标如点击率、转化率、互动率,每一个目标训练一个模型,上线的时候去组合,加权组合出最优、最大化平台效果,这种方法比较简单。缺点是每一个模型都单独训练,数据有其他依赖关系,不能很好学习和引入。业内的发展趋势是多目标做一个联合训练,设多个目标,可以同时有点击率、互动、转化率等。

要素3:模型,底层 Bottom-share + 顶层 业务定制

对模型角度而言,有一些通用的方案,像阿里ESMM,针对 CVR 预估场景的样本稀疏/选择偏差问题。基于广告场景,全局样本对 CTR/CVR 综合建模。

第一个优化方案是Reweight。首先对样本做Reweight,对优质的样本进行加权,对于低质的样本,如播放时长小于3S,会做一个对应的过滤甚至是降权。

第二个优化方案是模型改造。主目标是CTR,辅助目标是阅读 + 播放 + 互动。因为不同目标维度不同,且双塔需要保证User/Item Embedding相关性,所以主任务没有加DNN层,而辅助任务增加了MLP层。

Final优化方案是双塔DNN + 多目标。在双塔召回的基础上引入多目标的思想,以多目标的方式训练推荐模型,同时在中间层加Self-Attention Layer,不同Field 特征由Concat 操作变成Self Attention,动态决定样本权重。同时会对推荐多样化也会有更好效果,既能考虑短视频也能考虑长视频。

最后是2019年效果指标的增长,效果提升主要源于两方面:一是深度模型提升,二是优质热点内容挖掘。基于动态分发的机制,能够让不同层级的用户看到更符合自己兴趣的内容,对线上指标有正向的影响。

·END·

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 软件绿色联盟 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
【iOS】越狱后的“救命稻草”
pwn最近更新了好几次unc0ver,相信各位朋友已经在各大公众号,论坛看到了,这里就不说它了
zby1101
2020/08/05
9890
【iOS】越狱后的“救命稻草”
全系(iOS7-iOS14)清除越狱教程
前几天一个群友11.0.3想清除越狱了,这系统一看就是买来手机没升级过系统,为了保留系统,清除掉越狱,众所周知,10.3+有了系统快照(system snap)那就直接用snapback呗,后来询问得知,越狱环境也有问题,cydia装不上插件,后来小编请教了一位大佬,回忆起11.0-11.3可以利用脚本清理越狱,今天就整理一下iOS7-iOS14系清理越狱的教程吧(全凭小编自己的知识存储,可能某些系统还有别的方法,我尽可能的多写几种方法)
zby1101
2020/10/23
15.1K0
全系(iOS7-iOS14)清除越狱教程
【教程】checkra1n越狱教程+常用插件推荐
重要:越狱骨灰级玩家请忽略本篇文章,篇幅较长,大约2500+字,突有不适感,请返回上一页,继续忙你的事情
zby1101
2020/08/05
11K0
【教程】checkra1n越狱教程+常用插件推荐
iOS越狱是什么?大佬来解释来咯(一)
那么root是什么呢,无论安卓和iOS都有两个用户,一个是root,另一个是mobile,前者相当于windowns的system,也就是管理员administrator,后者相当于一个非管理员用户,没有拥有系统管理权限,通过一些特殊手段,例如第三方root工具,这里我就不详细说了,因为我接触安卓不多,不再赘述。
zby1101
2020/08/05
1.1K0
afc2add是什么_appsync怎么使用
APPsync是iPhone、iPad、iPod touch越狱后最常安装的补丁,安装后可以绕过系统验证,随意安装运行破解的ipa软件。
全栈程序员站长
2022/08/18
1.3K0
afc2add是什么_appsync怎么使用
iOS逆向工具之Cydia(iOS)软件介绍
我之前的工具介绍中,也有OpenSSH的介绍. 文章地址: 汇编逆向工具集(二) --> OpenSSH
conanma
2021/11/04
1.3K0
iOS逆向-ipa包重签名及非越狱手机安装多个微信
前一段时间学了点儿逆向相关的一些东西,但是都是基于越狱手机上的操作,给视频类应用去广告之类的。随着苹果生态圈的逐渐完善、及苹果对自身系统的保护越来越严格,导致现在的iPhone手机并不像以前那样存在大量的越狱用户。 前段时间我自己申请了个微信小号,申请小号的目的就是原来微信号好友中乱七八糟的人实在太多,感觉自己的朋友圈都是一些无关紧要的垃圾信息,曾经关闭了一段时间的朋友圈,但是最近遇到了好多技术上很强的同行,还想了解大佬们的动态。于是我就想着申请了个小号,但是麻烦来了,iPhone手机并不像安卓手机那
czjwarrior
2018/05/31
3.9K0
运维:推荐一款功能强大的磁盘分析工具——Files Inspector
Files Inspector是一款功能强大的磁盘分析工具,能够帮助用户随时查找并清除电脑磁盘中不需要的文件,同时还能清理不需要的数据。它还能够对Express测试进行分析,并分析文件夹、文档、图像、视频、音乐和其他文件,并显示磁盘上占用的空间。如果您需要此款工具,欢迎下载使用。
小明互联网技术分享社区
2024/04/16
5430
运维:推荐一款功能强大的磁盘分析工具——Files Inspector
如何在iPhone上安装Android操作系统,而且还不需要刷机,体验也很流畅
本文是教各位如何安装谷歌的Android操作系统到iPhone上。事先警告,动手能力不强,不喜欢折腾的同学还是不要试了。
知识与交流
2024/04/02
4K0
如何在iPhone上安装Android操作系统,而且还不需要刷机,体验也很流畅
iOS逆向之使用unc0ver越狱 iOS13.5
因为工作需要,笔者最近在研究越狱,网上看了很多文章,这篇文章记录了给iOS 13设备越狱的方式和过程,希望对你有帮助。
VV木公子
2020/09/11
13.1K0
iOS逆向之使用unc0ver越狱 iOS13.5
偏执的iOS逆向研究员:收集全版本的macOS iOS+越狱+内核调试
Intro 虽然“只有偏执狂才能够生存”这句话已经被假药停给毁了,但是作为一只有逼格的高大上的iOS逆向分析研究员,难道如果有现成的macOS/iOS全版本镜像可以下载并且无限“漫游”,难道你就不想来一套么? 在本文中,你将能够获得的是: 1.macOS:10.12、10.11、10.10、10.9、10.8、10.7:六个版本的虚拟机一键安装; 2 .使用苹果的KDK套件(Kernel Develop Kit)对虚拟机里的macOS Sierra 10.12进行内核调试; 3 .iPhone 4s
FB客服
2018/02/27
3K0
偏执的iOS逆向研究员:收集全版本的macOS iOS+越狱+内核调试
【iOS】浅析近期越狱工具+“平刷”工具
越狱工具:unc0ver,chimera,checkra1n(chimera1n)
zby1101
2020/08/05
6.2K0
【iOS】浅析近期越狱工具+“平刷”工具
IOS7完美越狱方法教程及工具下载
就在几天之前,Apple发布了IOS7 beta2测试版。相比于beta1而言,第二个测试版对于性能和稳定性都做出了不少优化,并且带来了Ipad支持。相信不少喜欢尝鲜的朋友已然更新到IOS7 beta2了。但对于国内的很多用户而言,越狱仍然是必不可少的一个步骤。虽然IOS7的越狱工具还没有出现,但如果你有一台iPhone 4,则可以利用已有的工具对IOS7进行越狱。
reizhi
2022/09/26
1.3K0
IOS7完美越狱方法教程及工具下载
iOS逆向之必要软件安装
通常,在iOS设备越狱后,需要安装一些必要的插件来增强越狱设备的可操作性。过去iOS设备越狱后大家首先会在cydia上添加pp源(http://apt.25pp.com)。但因为pp助手已停止服务,所以这个源已经不可用,对于一些cydia官方源没有提供的插件,我们需要自己寻找源或者寻找插件安装包。
VV木公子
2020/09/17
9.7K0
iOS逆向之必要软件安装
ios13.6降级13.3_ios14强制降级ios13
大家好,又见面了,我是你们的朋友全栈君。 演示 https://player.bilibili.com/player.html?aid=88886632 7p IOS13.3 bypass i
全栈程序员站长
2022/09/27
9540
(1)越狱环境搭建
什么是iOS Jailbreak(iOS越狱) 利用iOS系统漏洞,获取iOS系统的最高权限(Root),解开各种限制(合法行为) Jailbreak优缺点: 优点 自由安装各种实用的插件、主题、APP 修改系统APP的一些默认行为 自由安装非AppSore来源的APP 灵活管理文件系统,让iPhone可以像U盘那样灵活 给开发者提供了逆向工程的环境 缺点 不予保修 费电,越狱后的iOS系统会常驻一些进程,耗电速度约提升10%~20% 不再受iOS系统默认的安全保护,容易被恶意软件攻击,个人隐私
czjwarrior
2018/05/28
1.3K0
如何通过U盘越狱iPhone绕ID最新详细简单教程
3.将准备的U盘插上电脑,点击"Select drive",选中插上的U盘
知识与交流
2021/04/02
7.1K0
如何通过U盘越狱iPhone绕ID最新详细简单教程
手把手教大家学习,全网最详细的手机全机型 刷机教程
通俗来讲刷机就是给手机重装系统。刷机可以使手机的功能更加完善并且可以使手机还原到原始状态。一般情况下Android手机出现系统被损坏造成功能失效或无法开机也通常通过刷机来解决。一般Andriod手机刷机分为线刷卡刷。
知识与交流
2024/05/07
7K0
手把手教大家学习,全网最详细的手机全机型 刷机教程
iOS逆向之手动安装ipa
在对iOS app进行安全分析时,为了动态调试iOS app或者hook iOS app,需要先将app安装到手机中。有的iOS app可以通过App Store或者其他手机助手app直接下载安装,而另外的app如未签名app、或者从网上下载得到的app的安装文件ipa则需要通过手动安装到手机中。下文则主要介绍通过手动安装ipa到iOS设备中。
用户4682003
2022/05/19
3.5K0
iOS逆向之手动安装ipa
IOS 越狱插件介绍与一点经验
总体来说,如果你的系统是13.5的话(尚未升级到13.5.1),实际上整个流程比Android的Root还要简单。因为Iphone是我的主力机,为了避免不必要的麻烦,一直没有做越狱操作。
xuing
2020/06/17
3.1K0
IOS 越狱插件介绍与一点经验
相关推荐
【iOS】越狱后的“救命稻草”
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档