前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【独家】影视大数据:来源、方法论与应用案例

【独家】影视大数据:来源、方法论与应用案例

作者头像
数据派THU
发布2018-01-26 17:34:22
1.8K0
发布2018-01-26 17:34:22
举报
文章被收录于专栏:数据派THU

演讲信息:

RONG系列论坛 · 第一场

主讲:郭锐 艾漫智汇科技有限公司首席技术官

主题:大数据与新闻传播

内容摘要:

图一:影视大数据观点分享

图二:互联网大数据的来源

图三:平台整体技术架构

图四:影视大数据指数

图五:影视大数据的服务模式

案例分析一:《小时代》VS《深海挑战》

图六:精准用户画像

图七:《小时代》受众基本属性

图八:《小时代》受众喜好属性

图九:《深海挑战》受众基本属性

图十:《深海挑战》受众喜好属性

案例分析二:《小时代》VS《北京爱情故事》

图十一:影片内容的决策

图十二:《小时代》的演员角色筛选

图十三:《北爱》的剧本内容决策

案例分析三:电影营销

图十四:电影营销的支撑决策

图十五:《小时代》受众对[男色]具有强烈的反射

案例分析四:事件跟踪

图十六:大数据跟踪事件传播路径

图十七:大数据跟踪事件传播路径

案例分析五:票仓城市

图十八:大数据对影片发行策略的支持

案例分析六:蔡依林VS杨幂

图十九:大数据实时跟踪营销效果

案例分析七:活动主题

图二十:大数据支持营销活动主题的决策

图二十一:影视大数据的发展趋势探讨

演讲正文:

图一:影视大数据观点分享

这是一个好的时代。这个时代,需要我们从事大数据研究——产业开发从业者,齐心协力,从各个领域,找到让大数据从云端、学术、概念到落地的途径

图二:互联网大数据的来源

艾漫智汇如何做影视大数据。

数据来源:互联网。

  • 论坛、新闻、博客、贴吧、纸媒的电子版、微博。

PPT数据解释。

  • 论坛下方数字(100+),是覆盖的媒体的数量。
  • 新闻站点,有3200多家。
  • 微博,主要是新浪微博。
  • 纸媒,主要指纸媒的电子版。

首要工具:各种各样的爬虫。

  • 通用&定向,以适应不同类型的网站。
  • 搜狗微信公众帐号搜索(通过微信用搜狗进行搜索)。

研究对象:文化产业各个领域。

  • 电影、电视、音乐、艺人等。
  • 对研究对象在底层进行分门别类地整理。

分析过程。

  • 以各产业的对象为索引。
  • 对其进行持续的、不间断得抓取。
  • 底下数据流持续地分析、挖掘。
  • 最后出来我们的结果。

图三:平台整体技术架构

三个层面:数据处理层、数据挖掘层、业务应用层。

为什么各家的数据分析结果不一样?

  • 难以得到统一的数据源。
  • 抽样方式与标准不统一。

中国的大数据源现状。

  • 国人缺乏共享意识(美国国家层面提倡公开透明共享的大数据精神,所以大数据走在一个非常健康的产业道路上)。
  • 对于研究和产业,缺乏一个持续的、稳定的、可靠的数据来源。
  • 数据不纯净,存在数据干扰和数据噪音。
  • 数据来源不透明、不规范。
  • 以上因素,阻碍了中国大数据产业的发展。

现在,中国的社会和政治、经济、产业发展,越来越开放透明,这是一个非常利好的趋势。

数据清洗。

建立了爬虫体系以后,有各种各样的数据清洗。

  • 整体的数据都是来自于文本,文本挖掘是最主要的挖掘方式
  • 文本抽取格式化。
  • 对于一些网页要做转码。
  • 对于下载的网络数据要进行资料的存储、清洗、过滤。
  • 文章去重、聚类。

数据监控

  • 数据的监控机制,保证数据能够7x24小时不间断地继续
  • 当数据获取到足够量的时候,才能进行挖掘。
  • 否则信息不准确,没有价值。

数据挖掘。

主要针对口碑挖掘、事件传播分析、舆情预警。

基本步骤如下:

1)对研究对象建立知识图谱(挖掘好的技术模块)。

2)进行识别,建立一个稳定关系对象。

  • 具体到电影行业。

哪些艺人参与过哪些电影,这个艺人的别名是什么,上下文提及的关系是什么。

  • 在娱乐行业。

文章,可能有一位很有争议的演员,也可能一个名词。

成龙,有一部电影叫《楼》,还有一部电影叫《风暴》,这些跟常用词在一起,歧义非常大。

3)每一篇文章都进行对象识别、指数计算,得到一系列的指标。

领域拓展。

我们的领域,只是大数据分析平台的垂直领域之一。

在这个领域之上,加上一些新的数据来源和领域知识库,可以切换到其他领域。未来我们也可能会进行拓展。

业务层

对象的挖掘结果,可以传递到业务层面。

我们对外提供正式商业服务——SAAS的服务,用户可以登陆进来看到每一天电影的状态,明星艺人的动态。

图四:影视大数据指数

大数据指数——在理解行业的基础上,加上数据挖掘的分析和结果,提取出来的指数,与我们的业务范围息息相关。

媒体关注度。

  • 是反应媒体对于我们娱乐对象的整体曝光的情况
  • 比如说一个电影或者一个艺人,他在纸媒上、在互联网新闻、在网络视频中曝光的到底是什么样的程度
  • 对于我们来说,他经过了去虫、实体识别。

PK百度指数

  • 百度指数是关健词为主,在百度上搜《风暴》,可能是反腐风暴、热带风暴;在我们这里就是各个媒体来源的加权系数。
  • 我们的计算是公开的,我们对客户都会说每个指数是怎么计算的,怎么加权的,最后得到一个媒体的关注度。

公众影响力。

  • 是跟媒体关注度相对应的。
  • 媒体关注度反映的是对象公关层面做的怎么样,它的影响做的怎么样,在媒体的传播做的怎么样。
  • 公众影响力,反映的是从普通大众的言论,他提及这部电影的情况。
  • 来源是来自于web2.0,社区、博客的评论、豆瓣的评论、时光的评论、每个视频网站的视频下面的评论。

观影期待指数。

  • 这是进一步的数据挖掘,表达的是网友愿意看这个电影的指数。

好评率。

  • 电影或者是演员的好评是如何变化的?
  • 可以很明显的看到,经过某个事件变化是怎么样的。比如说文章经过出轨门事件,他的好评率是下降的。
  • 一个电影会有画面、声音的好评率。一个艺人会有外貌、人气、艺德、演技等等细分纬度的好评率。

五大门户首页曝光量。

  • 现在我们曝光量已经大大扩展。
  • 可以对50家左右媒体和500家左右纸媒的媒体,每隔五分钟不间断的扫描,可以得到每个对象会在媒体上出现的次数,他的曝光、停留时长。

图五:影视大数据的服务模式

服务对象。

主要是影视版权方、电视视频网站、营销或者代理机构。他们是上下游的关系。

  • 最上游的是影视版权方,我们会从商业立项和版权售卖等等方面给他们支持。
  • 对于电视台、媒体、视频网站来讲,他会有版权购买决策。腾讯是我们重要的合作伙伴,他的自制剧、自制综艺节目,他也是希望对商业立项的时候有一个数据支持。

对象营销。

目前大数据最能立竿见影的应用。我们业务最大的部分,是对于营销效果的评估、营销策略的制订。

图六:精准用户画像

《小时代》VS《深海挑战》

下面简单讲一下我们做的案例。

每个人分析大数据的角度不同。分析角度,数据用途,认知不同,导致分析的结果不一样。

《小时代》VS《深海挑战》

  • 他们在前期样本分析时,或者立项时,需要决策支持。
  • 他们更加依赖或接受样本或数据来源于社交媒体(主要是新浪微博,因为微信相对比较封闭)。
  • 这两个客户,在很多情况下,会借助社交媒体和新媒体,做营销、宣传。

电影类型片的属性特点。

  • 青春片,艺术片,现实片,在这些题材覆盖的受众有天壤之别。
  • 《小时代》的导演郭敬明,是新生代作家,他转型做了导演。
  • 《深海挑战》是大导演卡梅隆做的3D海洋纪录片。

他们背后的受众会有什么不同?

图七:《小时代》受众基本属性

《小时代》

  • 女性受众78%。
  • 南方省份比较多。
  • 71%的好评来自于90后。
  • 很多都是90后的女生相约一起看《小时代》,而且她们是看《小时代》的系列片。

图八:《小时代》受众喜好属性

  • 兴趣爱好,娱乐、音乐、电影、时尚是他们关注的主要类别。
  • 关注的品牌,有一些奢侈品或者大品牌。
  • 电商,喜欢美丽说、蘑菇街。
  • APP,喜欢用美图秀秀、啪啪,喜欢听韩流音乐。

这都说明《小时代》是典型的拍给少女看的青春题材的片子。

图九:《深海挑战》受众基本属性

《深海挑战》

  • 截然不同的。
  • 观众是男性为绝大多数。
  • 70、80后是主力人群。

图十:《深海挑战》受众喜好属性

图十一:影片内容的决策

《小时代》VS《北爱》

为影片内容提供决策建议和支撑。

  • 为《小时代》提供了全程的决策服务。
  • 在演员选角色、排片、营销等方面提供了一系列的辅助。
  • 《北京爱情故事》在剧本构思后期,受邀为其进行数据分析。

图十二:《小时代》的演员角色筛选

演员替换。

  • 《小时代1》和《小时代2》里,有一个演员叫李悦铭。他饰演一个比较重要的角色——女主角(杨幂扮演)的男友。
  • 但是他的负面口碑非常大,在负面排行榜里,领先其他人很多。
  • 他的各种分析里,有很多非常尖锐的评价,比如说丑绝人寰。
  • 最后《小时代3》和《小时代4》里李悦铭就被替换掉了

口碑跟踪。

  • 提供持续的口碑跟踪服务,即他整体给人的公关形象。
  • 在一定程度上,改变了之前主要依据导演个人喜好选角的状况。
  • 我们的数据库里面有几万名艺人的基础资料(作品、几年以来的口碑跟踪等)。
  • 这些会在导演和剧组挑选演员时,提供支持。

图十三:《北爱》的剧本内容决策

《北爱》,剧本制作阶段的数据分析。

那时剧组比较困惑的是大家的议论焦点

我们为剧组提供的决策支持。

  • 针对“北京”、“爱情”等关键词,在微博、视频网站上抓取信息。《北爱》电视剧,每一集播出的时候有很多评论。
  • 我们发现提及较多的话题是“房子与爱情”,“爱情如何保鲜”。
  • 电影里第一个桥段,就是房子与婚姻的纠结。
  • 好评率最高的桥段,刘嘉玲和梁家辉扮演的一段中年夫妇应对爱情危机。

图十四:电影营销的支撑决策

在电影行业,我们会针对他的数据分析,给他决策建议。

  • 你面向什么人
  • 在什么时间
  • 通过什么渠道
  • 以什么内容
  • 触达对方

能够给他产生心灵共鸣的方式,达到你营销的目的。

图十五:《小时代》受众对[男色]具有强烈的反射

《小时代》的受众就是90后宅基腐小女生。她们对90后的小帅哥比较感兴趣,现在叫小鲜肉。

  • 顾源,也就是柯振东扮演的角色,他洗澡的桥段,提及上的排名在第二,网友评论中到处充斥着对于他外貌、肌肉的评论。
  • 我们给发行方的建议是把裸上身作为一个重要元素放在电影宣传的平面。
  • 所以他们在第二、第三部开始,以这个为题,做了大量的内容。传播的反响和口碑提及率都是非常好的。

【小编说:“好”仅指当时此项的宣传效果】

图十六:大数据跟踪事件传播路径

图十七:大数据跟踪事件传播路径

事件在各种媒体之间他是怎么传播的?在哪个时间段从一个新闻站点传播到另外一个新闻站点?它的传播路径是什么样的?

我们经过分析以后,会提供一个传播效率指数——被转载的次数和原始稿的次数作比。

  • 现在虽然社交媒体越来越重要,但是传统的门户网站和大的官方网站还是有非常大的影响力。这些影响力可以被充分利用。
  • 我们应该结合各种互联网媒体、新媒体、传统媒体一起来做事件每个阶段传播效率的跟踪。

图十八:大数据对影片发行策略的支持

什么样的城市可以作为重点票仓城市?

我们给出建议的城市,与最后《小时代》统计的票仓城市的重合度,在85%以上。

图十九:大数据实时跟踪营销效果

媒体关注度和观影期待会给营销方指导。

左侧黑色点——高媒体关注度,低观影期待。

  • 他可能花了很多精力,很多的代价,使得他的传播效率在媒体中还是非常高的。
  • 但是观众对他并不买单,引起他的观影期待的愿望并不多。
  • 这是说他的营销效果是事倍功半的。
  • 是《小时代》发布蔡依林的MV。

右侧红色点——低的媒体关注,高观影期待。

  • 我们认为,这个效果还是不错的,他起到了事半功倍的效果。
  • 是杨幂现身的新闻。

数据显示蔡依林对现在90后女生来说有点老了,她们更喜欢杨幂。此外,还可以查看——共同被关注的影片是什么,哪些营销内容引起了关注。

图二十:大数据支持营销活动主题的决策

图二十一:影视大数据的发展趋势探讨

下面讲一下我从事影视大数据研究之后的心得。

大数据将成为一个核心竞争力。

电影营销应该会最先用到大数据,并起到立竿见影的作用。

通过大数据可以为90后量身定制产品。借助互联网产品,影视剧从艺术品变成产品。

  • 我们的用户会成为主导我们产品最重要的来源,他们会成为真正的上帝。通过大数据可以让我们知道他们的上帝在想什么。
  • 因为互联网、社交媒体不断兴起,并成为一种非常普遍的生活方式,所以90后群体会越来越多的在社交媒体上表达观点。

大数据在影视剧全周期中都会产生作用,好莱坞也给我们良好的借鉴。 可以借助大数据实现艺术创作向工业流程的升级。

希望整合与开放。

  • 希望越来越多的数据源让我们厂商获得。
  • 也希望与越来越多的学术机构有良好的合作,在整合、融合、合作方面进行创新,能够推动大数据产业的发展。
  • 我们也希望能够为中国影视产业做出一些微薄的贡献。

谢谢大家!

转载须知

如需转载,请在开篇显著位置注明作者和出处“转自:数据派THU(ID:DatapiTHU)”,并在文章结尾放置数据派醒目二维码。发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-12-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档