前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >6万部豆瓣电影数据,如何做数据分析?

6万部豆瓣电影数据,如何做数据分析?

作者头像
机器学习AI算法工程
发布于 2018-03-14 10:01:17
发布于 2018-03-14 10:01:17
2.2K0
举报

1 前言

豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。你可以记录想看、在看和看过的电影电视剧,顺便打分、写影评,极大地方便了人们的生活。

豆瓣电影是这样介绍自己的:“国内最权威电影评分和精彩影评,千万影迷的真实观影感受,为你的观影做决策。”而它也确实做到了这一点。

然而,前些日子,朋友圈又因一事沸腾了。《中国电影报》2016年12月27日发布题为“豆瓣电影评分,面临信用危机”的文章,随后人民日报客户端转发了该文,并将标题改为“豆瓣、猫眼电影评分面临信用危机,恶评伤害电影产业”。

基于此,特地把以前抓取的豆瓣电影数据拿出来分析一下,重点比较中国电影与其他国家和地区的电影的差异,以为豆瓣评分正名。

2 数据概况

这个数据只抓取到2016年上半年,总计 58127 部电影。包括id,电影名称,豆瓣评分,评分人数,上映时间,导演,主演,制片国家,影片简介等等信息。按照评分人数从高到低排序,数据库截图如下。

可以发现,评分人数最多的电影是周星驰的《美人鱼》,这是一部国产片,说明国人对国产电影还是非常关心的,并不像人民日报所抨击的那样——国人崇洋媚外,不关心国产电影。

相关爬虫

[Python]从豆瓣批量获取看过电影的用户列表,并应用kNN算法预测用户性别

[Python]豆瓣用户读书短评下载

另外,也可以发现,评分人数越多,电影得分基本在7.0以上,属于中等以上的好片。(《小时代》除外)

3 各国电影质量分析

豆瓣评分最低打一星,换算成分数就是2.0分,因此豆瓣电影理论上的最低分不是0分,而是2.0分。

由于变量有点多,饼状图不直观,所以各个国家评分的百分比使用了 Treemap 来展示。

以下,选取了拍片频数比较高的15个国家和地区的数据进行简单的展示和分析。

3.1 美国

总电影数:16773,评分柱状图如下:

可以发现,美国拍片最多,但是烂片也多,基本上满足标准的良性正态分布的关系。

3.2 中国大陆

总电影数:7516,评分柱状图如下:

可以发现,中国拍片也多,但是烂片更多,好片很少,在8分出现了明显的断层现象。

3.3 日本

总电影数:8598,评分柱状图如下:

可以发现,日本电影的正态分布左移,说明其电影质量很高。

3.4 英国

总电影数:3667,评分柱状图如下:

3.5 法国

总电影数:3210,评分柱状图如下:

3.6 韩国

总电影数:2126,评分柱状图如下:

3.7 德国

总电影数:1344,评分柱状图如下:

3.8 加拿大

总电影数:1054,评分柱状图如下:

3.9 意大利

总电影数:1073,评分柱状图如下:

3.10 印度

总电影数:548,评分柱状图如下:

3.11 西班牙

总电影数:669,评分柱状图如下:

3.12 泰国

总电影数:598,评分柱状图如下:

3.13 澳大利亚

总电影数:454,评分柱状图如下:

3.14 中国香港

总电影数:3327,评分柱状图如下:

3.15 中国台湾

总电影数:1036,评分柱状图如下:

4 中国电影质量分析

说了这么多,接下来主要看看中国电影和其他国家、地区电影的比较吧。(没有对比,就没有伤害。)

4.1 中美电影对比

首先是美国的,单单从频数折线图的趋势,看不出什么,除了数目上的差距,两者基本一样。那么换成频率折线图呢?

可以发现,中等片(6.5分以上),美国的蓝线始终是高于中国的绿线。然而,在中等质量以下的片子,蓝线始终是低于绿线的,差距不是一星半点……

4.2 中日电影对比

再看看电影质量很好的日本,单单从频数折线图就能发现两者的巨大差距了。

在频率折线图中,可以发现两线的交点较中美折线图而言,左移了0.5分左右,并且两线的绝对距离也比中美折线图要大得多。可见中日电影的差距又比中美差距大了一步……如果说中美电影的差距是“望其项背”,那么中日电影的差距就是“望尘莫及”了。

4.3 中国大陆与中国香港电影对比

那再来看看中国大陆和中国香港的电影差距比较吧。

乍一看,还挺好的嘛~

其实不然,只是大陆拍片比较多而造成的假象。当频数转成频率之后,一切又变得不一样了。

可以看出在生产好片的水平上,两者半斤八两的差,而在中等片上,中国香港明显比大陆要好的多;在烂片上,大陆一如既往始终遥遥领先……

5 年度电影质量分析

5.1 近百年来的电影数目

我把每十年的电影汇总了一下,由于21世纪10年代才过去一半,所以最后一个柱状图低一点是完全正常的。去掉它之后,发现满足指数级增长的规律(可以预见未来五年会诞生出2万部影片)。

5.2 近十年每年的电影数目

近十年电影产出始终维持在一个比较高的水平。

5.3 近十年9.5分以上的极品好片

近十年极品电影仿佛是随运气而出现,参差不齐,没有发现规律。

5.4 近十年8分以上的好片

近十年8分以上好片的产出也始终维持在一个比较高的水平。

5.5 近十年6分以下的烂片

但是,近十年6分以下烂片的产出居然出现逐年递增的趋势。

http://blog.ursb.me/2017/01/16/6

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-05-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据挖掘DT数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
豆瓣电影数据分析
这篇报告是我转行数据分析后的第一篇报告,当时学完了Python,SQL,BI以为再做几个项目就能找工作了,事实上……分析思维、业务,这两者远比工具重要的多。一个多月后回过头来看,这篇报告虽然写得有模有样,但和数据分析报告还是有挺大差别的,主要原因在于:
贺思聪
2022/05/13
3.6K2
豆瓣电影数据分析
数据分享|数据视角可视化分析豆瓣电影评分爬虫数据
豆瓣已经成为国内影迷和影评人的聚集地。豆瓣评分已经成为评价中国电影的重要指标。豆瓣积累了大量的电影数据,为电影行业分析提供了重要资源。豆瓣电影被用来衡量国内外电影的发展。本文对豆瓣电影评分爬虫数据进行可视化分析。
拓端
2022/06/08
1.3K0
数据分享|数据视角可视化分析豆瓣电影评分爬虫数据
[AI安全论文] 26.基于Excel可视化分析的论文实验图表绘制总结——以电影市场为例
前文详细介绍了向量表征系列文章,从Word2vec和Doc2vec到Deepwalk和Graph2vec,再到Asm2vec和Log2vec。这篇文章将描述Excel可视化分析的基本知识,以2022年电影市场为例。在论文中,一个好的图表胜千言万语,而实验数据生成后如何可视化表示至关重要,之前作者通常利用Python、Echarts等编写代码实现,而这篇文章将利用Excel生成,不论是代码、工具还是Office,它们都只是论文的辅助工具,更重要的是论文的创新和实验所生成的结果。
Eastmount
2023/02/28
1.4K0
[AI安全论文] 26.基于Excel可视化分析的论文实验图表绘制总结——以电影市场为例
Tableau数据分析-Chapter02数据预处理、折线图、饼图
根据上面的操作得到了条形图,但是我们需要对比的是酒店价格等级,虽然我们看到上图右上角推荐到就是这种类型,但是很明显饼图更能直观的表达出来我们想要的效果。因此,我们可以上图的右上角的饼图。
北山啦
2022/11/27
6910
Tableau数据分析-Chapter02数据预处理、折线图、饼图
数据分析证明最靠谱的电影评分网站不是 IMDB, 也不是烂番茄,而是...
原作者 Alexandru Olteanu 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 前言 去影院看电影前我们都习惯上网看看影片的评分,从而选出想看的电影。 各种各样的电影评分网站都提供他们对电影的评分,那么他们的评分依据是什么?哪个电影评分网站给出的评分最靠谱呢? 一位数据科学家就从数据的角度分析了美国四个热门电影评分网站, IMDB ,烂番茄, Metacritic ,和 Fandango 。从而得出了评分最值得推荐的电影评分网站。 评判的标准 本文的推荐需基于一定的标
CDA数据分析师
2018/02/26
6.5K0
数据分析证明最靠谱的电影评分网站不是 IMDB, 也不是烂番茄,而是...
你知道豆瓣电影是怎么评分的吗?
“假设,是针对我们的分析结果而言。你希望最后输出一个什么结果,或者你需要证明什么结果,都可以当做假设!”
小一不二三
2019/12/31
1.3K0
你知道豆瓣电影是怎么评分的吗?
Python实锤:谁是带资进组最厉害的明星?
在第一小梯队,黄渤荣获了一个局部最高分和一个最不劳模的称号:电影平均评分6.28,参演电影仅为15部。
数据森麟
2019/09/28
5550
爱数科案例 | 迪士尼电影票房可视化分析
迪士尼电影公司是知名好莱坞电影巨头公司。它先后收购了独立电影界巨头米拉麦克斯、3D动画霸主皮克斯 、动漫巨头漫威和卢卡斯影业,是目前世界上最成功的电影公司之一。本案例使用迪士尼历年的电影票房销量来探究使迪士尼电影成功的因素。
数据科学人工智能
2022/03/30
1.9K0
爱数科案例 | 迪士尼电影票房可视化分析
Python数据可视化:豆瓣电影TOP250
首先任意文件夹下命令行运行scrapy startproject doubanTop250,创建一个名为doubanTop250的文件夹。
小F
2020/10/09
1.9K0
Python数据可视化:豆瓣电影TOP250
我敢打赌,你猜不到去年电影国内票房最高的演员是谁
去年末的时候,我招收了新的“实训生”。本文是其中一位 @齐大圣 同学在实训两个月时完成的项目案例。(码上行动群里同学应该都看过这个名字,现在也是助教之一。)项目最初的想法是,从互联网上的公开信息中采集2018年在国内上映电影的票房、评分、类型、演员等信息,然后做一些数据分析和可视化展示。这样一个项目,除了需要对 python 基本语法和数据结构的掌握之外,还涉及到网页分析、爬虫、文本解析、数据库存储、数据处理、数据分析、数据可视化,并且需要对一个完整项目有整体的模块设计,对于编程学习者来说是从入门到进阶的一个很好案例。经常跟我说学了基础不知道做什么项目的同学们,别光顾着看热闹,回头自己也动手做一做。代码已上传,获取见文末。
Crossin先生
2019/04/30
6000
我敢打赌,你猜不到去年电影国内票房最高的演员是谁
用Python分析一下那些"吸粉"无数的高票房电影
奈何烂片层出不穷,电影荒就成了常事,不如回归经典,看一看电影历史上票房排行位于前端的一些电影,票房高的电影不一定精彩,但烂片票房低则是必然
数据森麟
2020/02/20
6380
用Python分析一下那些"吸粉"无数的高票房电影
python采集豆瓣网top250前10和后10电影短评并进行语义分析
今天收到一个订单需求,需要爬取豆瓣电影网top250中前10部和后10部的影评并对其进行语义分析比较这20部电影的质量,所以我们计划每部电影爬取100条短评并对评论进行语义分析,最后对其进行简单的数据可视化来比较其电影质量。话不多说,我们现在便开始抓取分析工作。
你像时光唯美i
2022/08/26
6481
python采集豆瓣网top250前10和后10电影短评并进行语义分析
爬取了《默杀》48240条豆瓣影评,真的有这么烂吗?!
大家好,我是老表。最近几周《默杀》很火,在各种短视频平台经常刷到宣传片,看着那种校园霸凌咬牙切齿,看到最后反转又喜笑颜开,准备周末去电影院看看,犒劳犒劳帮我上了一周班的身体和大脑,而且我看猫眼上评分也很高,票房也不错,更感兴趣了。
老表
2024/07/31
8330
爬取了《默杀》48240条豆瓣影评,真的有这么烂吗?!
Python爬取豆瓣电影Top250并进行数据分析
利用Python爬取豆瓣电影TOP250并进行数据分析,爬取’排名’,‘电影名称’,‘导演’,‘上映年份’,‘制作国家’,‘类型’,‘评分’,‘评价分数’,’短评’等字段。
全栈程序员站长
2022/09/05
2.2K0
豆瓣电影评分数据分析
在前面对接口测试的知识体系相对来说写了很多的文章,今晚就结合部分的知识体系,把获取到的知识体系,结合pyecharts来数据进行一个简单的分析。实现的思路是访问豆瓣最新的电影,然后使用requests库对它进行请求,获取到服务端返回的数据后,依据获取的数据,分别取出电影的名称,电影的评分,然后形成可视化的东西,这样在可视化的界面中,就可以看到最近电影哪些是比较受欢迎的并且它的评分比较高,对我们出去看电影来说,也是一个刚需。
无涯WuYa
2018/12/25
1.3K0
java抓取豆瓣电影数据,分析电影评分,生成统计图表 ---servlet
    最近花时间学习了一下使用Java获取网站数据的方法,自己也亲自动手实践一下;共获取3000+数据,去除重复的数据剩余2000+,使用JFreeChart根据电影评分做出几张简单的统计图。
醉生萌死
2018/11/05
2.6K0
众志成城硬造《流浪地球》,中国电影撞进重工业时代
在阅读今天的文章之前,强烈推荐大家关注这篇取错标题的文章,《点我可直达-就聊挣钱》。因为错过今天,就错过了最佳机会(最后十几个特惠名额),同样点击下方图片也可到达。
纯洁的微笑
2019/05/06
4670
众志成城硬造《流浪地球》,中国电影撞进重工业时代
用数据解读《上海堡垒》| 鹿晗是不是糊了?
由流量元老鹿晗主演的《上海堡垒》自8月9日上映以来,争议批评声音不绝于耳,电影票房也败走麦城。豆瓣评分3.2,猫眼评分5.8,观众用低评分表达了对于这部电影主创人员的强烈不满,特别是对导演滕华涛和主演鹿晗。
CDA数据分析师
2019/08/20
6340
用数据解读《上海堡垒》| 鹿晗是不是糊了?
数据分析案例:谁是2018当之无愧的“第一”国产电影
酒香也怕巷子深,虽然票房不是衡量影片好坏的唯一标准,但是票房一定程度反映了包括你我在内的广大群众对该影片的偏好。这里,我们简单粗暴地挑选2018年三部年度总票房突破“30亿”的大片:《红海行动》、《唐人街探案2》和《我不是药神》。
TOMOCAT
2020/06/09
5000
数据分析案例:谁是2018当之无愧的“第一”国产电影
豆瓣大数据分析告诉你,高评分影视密码
随着暑期档热映,最新电影成为广大影迷的热门话题,暑期档从来都是电影市场最热门的档期之一,也一贯盛产票房奇迹。国外大片经常选择在这一时期上映,对应到国内,暑期档是大IP能有出彩表现的最佳竞技场。
拓端
2020/08/17
4460
豆瓣大数据分析告诉你,高评分影视密码
推荐阅读
相关推荐
豆瓣电影数据分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档