Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >今日头条技术剖析

今日头条技术剖析

作者头像
架构师小秘圈
发布于 2018-04-02 09:13:14
发布于 2018-04-02 09:13:14
2.4K0
举报
文章被收录于专栏:架构师小秘圈架构师小秘圈

作者:杜江 来自:21CTO(21cto.com)社区创始人。多年架构与管理经验, 原赶集网创始工程师,正和岛CTO以及今日头条今日特卖技术负责人。

今日头条创立于2012年3月,到目前仅4年时间。从十几个工程师开始研发,到上百人,再到200余人。产品线由内涵段子,到今日头条,今日特卖,今日电影等产品线。

一、产品背景

今日头条是为用户提供个性化资讯客户端。下面就和大家分享一下当前今日头条的数据(据内部与公开数据综合):

  • 5亿注册用户

2014年5月1.5亿,2015年5月3亿,2016年5月份为5亿。几乎为成倍增长。

  • 日活4800万用户

2014年为1000万日活,2015年为3000万日活。

  • 日均5亿PV

5亿文章浏览,视频为1亿。页面请求量超过30亿次。

  • 用户停留时长超过65分钟以上

二、技术与架构演进

1、文章抓取与分析

我们日常产生原创新闻在1万篇左右,包括各大新闻网站和地方站,另外还有一些小说,博客等文章。这些对于工程师来讲,写个Crawler并非困难的事。

接下来,今日头条会用人工方式对敏感文章进行审核过滤。此外,今日头条头条号目前也有为数不少的原创文章加入到了内容遴选队列中。

接下来我们会对文章进行文本分析,比如分类,标签、主题抽取,按文章或新闻所在地区,热度,权重等计算。

2、用户建模

当用户开始使用今日头条后,对用户动作的日志进行实时分析。使用的工具如下:

- Scribe

- Flume

- Kafka

我们对用户的兴趣进行挖掘,会对用户的每个动作进行学习。主要使用:

- Hadoop

- Storm

产生的用户模型数据和大部分架构一样,保存在MySQL/MongoDB(读写分离)以及Memcache/Redis中。

随着用户量的不断扩展大,用户模型处理的机器集群数量较大。2015年前为7000台左右。其中,用户推荐模型包括以下维度:

1 用户订阅

2 标签

3 部分文章打散推送

此时,需要每时每刻做推荐。

3、新用户的“冷启动”

今日头条会通过用户使用的手机,操作系统,版本等“识别”。另外,比如用户通过社交帐号登录,如新浪微博,头条会对其好友,粉丝,微博内容及转发、评论等维度进行对用户做初步“画像”。

分析用户的主要参数如下:

- 关注、粉丝关系

- 关系

- 用户标签

除了手机硬件,今日头条还会对用户安装的APP进行分析。例如机型和APP结合分析,用小米,用三星的和用苹果的不同,另外还有用户浏览器的书签。头条会实时捕捉用户对APP频道的动作。另外还包括用户订阅的频道,比如电影,段子,商品等。

4、推荐系统

推荐系统,也称推荐引擎。它是今日头条技术架构的核心部分。包括自动推荐与半自动推荐系统两种类型:

1 自动推荐系统

- 自动候选

- 自动匹配用户,如用户地址定位,抽取用户信息

- 自动生成推送任务

这时需要高效率,大并发的推送系统,上亿的用户都要收到。

2 半自动推荐系统

- 自动选择候选文章

- 根据用户站内外动作

头条的频道,在技术侧划分的包括分类频道、兴趣标签频道、关键词频道、文本分析等,这些都分成相对独立的开发团队。目前已经有300+个分类器,仍在不断增加新的用户模型,原来的用户模型不用撤消,仍然发挥作用。

在还没有推出头条号时,内容主要是抓取其它平台的文章,然后去重,一年几百万级,并不太大。主要是用户动作日志收集,兴趣收集,用户模型收集。

资讯App的技术指标,比如屏幕滑动,用户是不是对一篇都看完,停留时间等都需要我们特别关注。

5、数据存储

今日头条使用MySQL或Mongo持久化存储+Memched(Redis),分了很多库(一个大内存库),亦尝试使用了SSD的产品。

今日头条的图片存储,直接放在数据库中,分布式保存文件,读取的时候采用CDN。

6、消息推送

消息推送,对于用户: 及时获取信息。对运营来讲,能够 提⾼⽤用户活跃度。比如在今日头条推送后能够提升20%左右的DAU,如果没有推送,会影响10%左右 DAU(2015年数据)。

推送后要关注的ROI:点击率,点击量。能够监测到App卸载和推送禁用数量。

今日头条推送的主要内容包括突发与热点咨讯,有人评论回复,站外好友注册加入。

在头条,推送也是个性化:

- 频率个性化

- 内容个性化

- 地域

- 兴趣

比如:

按照城市:辽宁朝阳发生的某个新闻事件,发给朝阳本地的用户。

按照兴趣:比如京东收购一号店,发给互联网兴趣的用户。

推送平台的工具和选择,需要具备如下的标准:

- 通道,首先速度要快,但是要可控,可靠,并且节省资源

- 推送的速度要快,有不同维度的策略支持,可跟踪,开发接口要友好

- 推送运营的后台,反馈也要快,包括时效性,热度,工具操作方便

- 对于运营侧,清晰是否确定推荐,包括推送的文案处理

因此,推送后台应该提供日报,完整的数据后台,提供A/B Test方案支持。

推送系统一部分使用自有IDC,在发送量特别大,消耗带宽较严重。可以使用类似阿里云的服务,可有效节省成本。

7、延展思考

现在很多客户端都会需要推荐技术,比如电商、旅游类的商品推荐,也可以有娱乐头条、健康头条、体育头条等类似的应用,这些产品在技术侧的实现,包括用户,模型,数据都是相通的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-12-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 架构师小秘圈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
今日头条技术架构分析
来源:blog.csdn.net/mucaoyx/article/details/84498468
互扯程序
2019/11/06
1.9K0
今日头条技术架构分析
《今日头条,走好》背后的算法瓶颈
当各大互联网公司豪掷千金在各大春晚上怒刷一波存在感时,本来也准备大干一场的今日头条旗下两款产品——“火山小视频”、“抖音”,却遭遇了春晚冠名被多家卫视临时撤下的尴尬窘境,最后不得不用刚刚收购的自拍相机App激萌救场。
养码场
2018/08/13
8380
为什么今日头条捂着直播这张好牌不打?
7月底我在《不需要网红的资讯直播》一文中断言直播会成为各大新闻客户端标配,8月网易高调发布“天网计划”进军泛资讯直播,将从自制和PGC两个维度发力直播,并将之升级为平台战略,验证了我的断言。各大数据机构排名中的新闻客户端老大腾讯新闻虽尚未公布直播战略,但一直在闷声发力,对直播重视有增无减,其App中直播拥有与新闻、推荐并列的一级入口,旗下个性化资讯客户端天天快报中直播则与视频并列存在。 然而,在网易和腾讯两家都在发力直播时,而移动资讯市场的另一个玩家,今日头条对直播却并不上心,这是完全出人意料的。 没错,今
罗超频道
2018/04/27
7190
为什么今日头条捂着直播这张好牌不打?
个性化推荐系统(一)---今日头条等的内容划分、分类
这篇文章搞头条号、运营知乎等流量的兄弟们可以看看,可以让你了解到你的文章是怎么被推荐的、通过很好的配合头条、知乎等的技术架构、机制可以增加你文章的曝光。        今日头条以前进入各大app的流量
杉枫
2018/01/15
3.2K0
个性化推荐系统(一)---今日头条等的内容划分、分类
不到一年就被百度超过?!今日头条还能坚持不站队吗?
近日,一位百度高层对《财经》表态说,百度已直起对标今日头条。“一年内打趴他。”他说。 这是1月下旬,《财经》宋玮在稿件《百度巨变:陆奇来了,马东敏也来了》中的一句话。这句话给我留下了深刻印象,没想到3个月过后,百度就已经在一个重要维度上超过了今日头条。 4月28日百度公布2017年第一季度财报。2017年重点发力的内容业务交出了首份成绩单:截至本月手机百度资讯流日活用户已达到8300万,QuestMobile不久之前公布的移动互联网春季报告中,2017年3月今日头条DAU为7478万,按照DAU衡量,手机百
罗超频道
2018/04/25
1.6K0
不到一年就被百度超过?!今日头条还能坚持不站队吗?
【PPT详解】曹欢欢:今日头条算法原理
作者:曹欢欢博士 今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。今日头条的推荐算法,从2012年9月第一版开发运行至今,已经经
钱塘数据
2018/03/06
5.9K0
【PPT详解】曹欢欢:今日头条算法原理
今日头条遭最严整顿 智能算法显瓶颈
企鹅号小编
2018/01/05
7590
今日头条与腾讯缘尽,谁会拿下个性化资讯市场的“大小王”
腾讯投资今日头条的消息被传得沸沸扬扬。今天凌晨今日头条CEO 张一鸣在头条问答进行了侧面辟谣:“最近有同事郑重地跟我说,他加入头条的目的不是为了成为腾讯员工。我当然也不是,多没意思。”,几乎封死了今日
罗超频道
2018/04/27
6530
今日头条与腾讯缘尽,谁会拿下个性化资讯市场的“大小王”
技术帖:解析今日头条公开的推荐算法
1月11日,北京今日头条总部,一场问诊算法、建言算法的“让算法公开透明”分享会正在进行,雷锋网(公众号:雷锋网)观察到,包括BAT等在内的诸多科技公司算法工程师、产品经理等100多人参与现场讨论。资深算法架构师、中国科学技术大学曹欢欢博士于现场介绍了今日头条的推荐算法原理。 曹欢欢表示,今日头条资讯推荐系统本质上要解决用户、环境和资讯的匹配,要达到这一效果,其算法推荐系统输入三个维度变量: 一是内容特征,图文、视频、UGC小视频、问答、微头条等,每种内容有很多自己的特征,需要分别提取; 二是用户特征
小莹莹
2018/04/24
3.2K2
技术帖:解析今日头条公开的推荐算法
【机器学习】今日头条与大数据的初夜:机器学习和个性化发展
大家想象一下,如果我们是一个高中生,这时候我问大家,大数据是什么?大数据就是你的初夜,大家谁的初夜是在高中时代发生的?大家请举一下手,接下来我会说四个原因,为什么这个初夜更像大数据,第一在座的每一位人都在谈论大数据,就仿佛一个高中生都在谈论初夜一样,第二每一个高中生都几乎没有过初夜。第三每一个都以为别人有,第四每个人都跟别人说我有。大家觉得是不是很形象。 我接下来会简单的介绍一下今日头条,然后会介绍一下今日头条在大数据方面的实践,算是介绍一下今日头条的初夜吧,看看大家相信不相信,有没有过。首先介绍一下什么是
陆勤_数据人网
2018/02/27
1K0
【机器学习】今日头条与大数据的初夜:机器学习和个性化发展
​今日头条们乱战移动资讯市场,微博要做收割者
几个月前,成立十年的Twitter给自己找了一个新的定位,其首席执行官杰克·多西表示公司的使命是成为“大众新闻网络”,Twittter希望告诉用户这个世界正在发生的事情。已经过去的2016年,不论是里约奥运会还是特朗普大选,诸多热点事件,Twitter都是最核心的舆论阵地和新闻源头。作为Twitter曾经在中国的对标者,微博却走上了一条不同的道路。2014年启动垂直化战略带来了内容的大发展,2016年实现逆袭,市值从不及30亿美元一度爬升到110多亿美元,成为市场表现最好的中概股之一,更是一度超过了Twit
罗超频道
2018/04/27
7270
​今日头条们乱战移动资讯市场,微博要做收割者
今日头条公布算法:解密“垃圾信息”是如何诞生的
“算法分发并非是把所有决策都交给机器,我们会不断纠偏,设计、监督并管理算法模型。”曹欢欢希望这次分享能让更多的人理解算法,并共同参与到算法模型的制定中来。此外,他还重点讲解了今日头条的内容安全机制及相关举措,公开了风险内容识别技术以及泛低质内容识别技术。 中央电视台、新华社、人民日报等媒体机构从业者,和阿里、腾讯、百度、美团、新浪、网易等科技公司的算法工程师、产品经理等100多人,参加了活动。 1. 资讯推荐系统本质上要解决用户、环境和资讯的匹配。 今日头条算法推荐系统,主要输入三个维度的变量。 一是内容特
BestSDK
2018/03/02
1.4K0
今日头条公布算法:解密“垃圾信息”是如何诞生的
今日头条发布“穿山甲联盟”,SDK合作伙伴获100%分成
今日头条宣布穿山甲联盟今日正式开启开放注册,SDK合作伙伴可获得100%分成,携手合作伙伴一起打造全新移动生态联盟。
BestSDK
2018/10/08
2.9K0
今日头条发布“穿山甲联盟”,SDK合作伙伴获100%分成
头条继续跳动
9月27日,外媒The Information引援知情人士消息,今日头条母公司字节跳动正在寻求15亿美元的股权融资,本轮融资后估值最高可达到750亿美元。
罗超频道
2019/07/17
9080
头条继续跳动
今日头条千万购“牌”:短视频监管趋紧
本文为《21世纪经济报道》关于今日头条收购运城阳光的报道,罗超频道接受采访分享了相关观点,原文作者为杨清清。 短视频监管的风声越来越紧了,短视频玩家也走到了一个新的路口。 新春伊始,刚刚上线三个月的短视频项目“梨视频”遭遇北京市网信办、市公安局及市文化市场行政执法总队三部门联合执法调查。经查,梨视频在未取得相关资质情况下,大量发布所谓“独家”时政类视听新闻信息。随后三部门责令梨视频立即停止违法违规行为,进行全面整改。 无独有偶,近日今日头条官方表示,头条视频业务会进行升级调试。头条视频与运城市阳光文化传媒有
罗超频道
2018/04/25
8700
今日头条千万购“牌”:短视频监管趋紧
今日头条杨震原:好的架构源于产品需求
杨震原,今日头条技术副总裁,主要负责内容推荐和数据平台。2005-2014年初,任职于百度,网页搜索部技术副总监。主要负责搜索架构。 CSDN:请简单介绍下您和目前负责的主要工作? 杨震原:主要负责头条的内容推荐和相关技术支持。 CSDN:你曾任职于百度搜索部长达9年时间,主要负责搜索架构,能否谈谈您对架构的理解? 杨震原:搜索的架构,特点是: 投入大,发展早,复杂度高。 因为搜索的产品本身价值很高。使得在搜索技术上的投入很大,搜索的架构才得以发展。 搜索架构是互联网大数据应用的起源。早在2004年,G
用户1737318
2018/06/05
2.8K0
腾讯投资估值80亿美元的今日头条,钱多任性?
今天,靠谱爆料自媒体“开八”爆料,腾讯即将投资今日头条,估值为80亿美元。这让许多业内人士以及自媒体大跌眼镜,要知道许多自媒体都只重点运营两个平台:微信公众账号和今日头条,再加上腾讯的新闻客户端、天天快报客户端,腾讯和头条简直就是针尖对麦芒。腾讯将头条视作重要竞争对手,今年启动芒种计划,拿出10亿人民币补贴扶持内容创业;头条也十分忌惮自媒体将读者导入到微信公众账号,分别是行业老大和老二的两家早已成劲敌。 如果说传言为真,对今日头条无疑是巨大的好消息:腾讯在不控股的情况下让头条独立发展,头条少了一个劲敌,与
罗超频道
2018/04/27
8200
腾讯投资估值80亿美元的今日头条,钱多任性?
谋求“去微博化”的微博,正在四面树敌?
2014年4月17日,新浪微博成功登顶纳斯达克,代码为WB。3个月后,腾讯对网络媒体事业群进行调整,微博团队与新闻团队被合二为一,办公大厦“腾讯微博”标志被“腾讯视频”取而代之,这被外界视作是腾讯放弃微博业务的标志事件。在此之前,腾讯微博与新浪微博缠斗多年,在搜狐、网易早已事实上放弃微博业务之后,腾讯战略放弃微博业务,让“新浪微博”一夜之间缩短为“微博”——因为,微博类玩家,就只剩新浪一家了,新浪在这场为期五年的大战中胜出了。 2014年下半年到2015年这段时间,微博颇有几分“拔尖四顾心茫然”的感觉,环
罗超频道
2018/04/27
8450
吴刚和吴京谁更红?今日头条用大数据找到了答案
年底各个平台都在做盛典,不过,能吸引众多主流一线明星集体前往的盛典不多,说白了,不是每个平台都有这样的影响力和号召力。12月17日,今日头条今年举办“我是头条·2017今日头条年度盛典”就证明了自己已成为娱乐行业的重量级平台。 吴刚和吴京谁更红?数据会说话 行业里面,今日头条年度盛典这样的活动并不少见。12月18日,花椒之夜在北京举办,明年1月陌陌惊喜之夜则将在上海举办,此前还有微博V影响力峰会,这些活动都少不了明星参加。不过,今日头条不是从粉丝数等维度给明星评奖,而是通过用户大数据而得出的榜单。 看到今日
罗超频道
2018/04/25
1.1K0
吴刚和吴京谁更红?今日头条用大数据找到了答案
百度信息流超过今日头条,然而它的野心却不止于此
昨夜今晨,百度股价延续近几个月来的强势表现,正如我前几天预测的那样:其市值超越2014年的历史峰值,站上874.64亿美元的历史高位,这也标志着百度“All in AI”、“夯实移动基础、决胜AI时代
罗超频道
2018/04/25
5460
百度信息流超过今日头条,然而它的野心却不止于此
推荐阅读
相关推荐
今日头条技术架构分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档