项目最初的想法是,从互联网上的公开信息中采集2018年在国内上映电影的票房、评分、类型、演员等信息,然后做一些数据分析和可视化展示。...我们将所有电影按评分和票房做成散点分布图,得到上述图片。此图是动态可交互的,这里我截几张有代表性的(点击图片后可放大): ? 依次是动作、喜剧、剧情、动画四类电影分布。...第一名:王成思 参演电影:《西虹市首富》25亿;《唐人街探案2》34亿;《李茶的姑妈》6亿 这……是谁啊,演的谁…… ? 斯坦·李凭借各种客串,位列第3。...项目整体思路: 通过 中国票房网 获得2018年大陆上映电影和每部电影票房数据 根据已有的票房数据,通过豆瓣 api 和详细页面,获得每部电影的导演,演员和豆瓣评分等详细数据 分别通过 猫眼、时光网 和...imdb,获取这三个网站的电影评分数据 新建影人条目,利用豆瓣获得的影人数据,对2018年每个演员年参演电影进行统计 根据已有数据作图,分析2018年电影票房排名、不同网站评分差异、电影票房-评分关系等
下面这个柱状图表示表示的是每个演员出演的部数,和出演电影的平均分。 在第一小梯队,黄渤荣获了一个局部最高分和一个最不劳模的称号:电影平均评分6.28,参演电影仅为15部。...但是别看人家是众多演员中出演数量最少的,就觉得人家不勤劳不红了。 友情提示,这张图说明的是参演电影,可不是主演电影哦! 看见与黄渤明显相反的劳模 + 低分的林雪了吗?...当我们把参演电影,和主演电影(演员表前两位)都找出来的时候,瞬间就能get到林雪“中国香港配角之王”的称号。...冰冰的人气,是紧紧排在人气之万古天乐之后的;在电影评分方面,也是艳压了同组大花杨幂同学。不得不尴尬地指出一下,杨幂同学喜提了一个局部最烂电影奖哦,评分垫底,拖了明星们的后腿呀!...至于安吉拉大宝贝为什么没有出现在列表里呢,主要是因为我在数据处理上,是根据电影评分的网友人数来确定的。
IMDb简介 互联网电影资料库(Internet Movie Database,简称IMDb)是一个关于电影演员、电影、电视节目、电视明星、电子游戏和电影制作的在线数据库。...为了保护结果不受恶意投票的影响,并且,只有“经常投票的用户”的投票被记入结果,为保护公平性,成为该类用户的条件是保密的。...此外,《教父》和《肖申克的救赎》的平均评分分别是9.11和9.10,另外三部拿过第一的电影在平均评分上与前二者有明显差距。...由此可见,平衡评分人数和得分,避免小众高分影片排前,是这个计算方法的出发点。可问题在于:调节整个榜单的排序主要依赖于评分人数预设值。...它还收录了173.7万男演员,101.1万女演员的个人资料,有多少人有昵称,谁最近八卦新闻多,哪些演员的主页中同时收录了他/她说过的经典的话,它的采访视频甚至是收入信息。
; b.最低评分为2分,最高评分为9.8分,平均分为6.50分; c.最多的评分数量为2091401条,最少的评分数量为100条,平均每部电影评分人数为1765371条; 表格 1 电影数据总体描述...5-8分的区间内; 分析图20(b)反映了,对于评价人数而言,评价人数多的电影,票房未必高,说明网友中有很大一部分是白嫖党; 分析图20(c)可知,对于时长而言,过长或过短的电影一般都不能取得好的票房,...图 22 执导电影总票房前30的导演分布情况 图 23参与电影总票房前30的演员分布情况 表格 5 执导电影总票房排名前30的导演 表格 6参演电影总票房排名前30的演员 5.5 影片票房排名...分钟,评分主要集中在6-8分,评分高的电影往往时间更长、评论人数更多。...此外,还列举了票房排名前30的导演与演员,发现高票房导演与演员作品数量多的,评价往往较低。另外,列举了票房排名前20的电影,发现国产电影与好莱坞大片占据内地电影市场的较大份额。
01 进入正文 对于喜好电影的同学来说,猫眼电影和豆瓣电影应该是比较熟悉的电影评分的平台。但是,如何通过Python抓取猫眼电影评分前100的信息呢? URL获取 我们还是先分析URL。...打开猫眼电影TOP100榜,可以看到如下页面: ? URL为:http://maoyan.com/board/4。但是,这一页只有排名前10的电影,如何获取下页的URL呢?...页面解析 下面看一下具体的页面,在查看网页源码可以看到具体的内容。以排名第一的霸王别姬为例,HTML码如下: ? 本文是通过正则表达式来获取影片的信息,所以先要生成正则表达式的Pattern。...这里要注意的是,因为写入的内容包括汉字,所以需要设置系统编码,设置为UTF-8,如下代码前三行所示: import sys reload(sys) sys.setdefaultencoding('utf...演员": ":费雯·丽,罗伯特·泰勒,露塞尔·沃特森", "评分": "9.2"} 完整代码 # coding:utf-8 import requests from flask import json
电影宇宙第三阶段的结束篇复联4的导演仍旧是罗素兄弟,将继续保持第一位置。而滚导前段时间因为“不恰当”发言被迪士尼从银护3开除,不过最近又有小道消息传又被找回来了,如果消息为真,那么滚导可能成为第二。...03 演员 说完导演,再看看演员。由于豆瓣给的主演名单连一些配角也在里面,所以小编仅取前4名作为电影主演。大家要不要猜一下主演电影数目和参演数目最多分别是谁? ?...现在妮妮在电影主演名单上绝对的C位,永远是演员表的第一位。 其次是美队的演员Chris(EC)和雷神演员Chris(锤哥),寡姐随后(寡姐要有个人电影了,开心)。...那么漫威的口碑如何呢?这里以国外的IMDb和豆瓣数据为例。 ? 从评分人数上看,蓝色的IMDb评分人数一直都比紫色的豆瓣评分人数多,但近几年,豆瓣评分人数逐渐提高,和IMDb不相上下。那么评分呢?...蓝色的IMDb评分最高的是复联3,最低的是无敌浩克。紫色的豆瓣评分最高是复联3,最低的是黑豹。而且黑豹是国内外口碑差距最大的电影。虽然黑豹在国内口碑差,但国外收获了大大小小各项提名,也得了不少奖。
问句理解 针对用户提问的自然语言问句,首先需要理解其中的深层次语义信息,即获取问句实体和目标属性信息。以问句“流浪地球的导演是谁?”...构建规则模型可利用Python Refo库进行构建,比如构建某某电影的导演是谁?模糊匹配规则,方法如下所示。...# 某电影的图片/上映地区/语言/上映时间/时长/其他名称/介绍/评分/ 评价人数 # 某电影的类型 # 某电影有哪些演员 # 某电影有哪些编剧 # 某电影有哪些导演 # 某电影的详细信息 # 某人的图片...# 某电影的评分是否大于8 # 哪些喜剧电影的评分小于4 # ......# 某人出演了多少部电影 # 某演员参演的评分大于X的电影有哪些 # 某演员出演过哪些类型的电影 # 演员A和演员B合作出演了哪些电影 # ...
作者 | 赵鹿鸣 数据 | 诸岳锋 设计师 | 郭晓静 本文经授权转自公众号 网易数读 打开购票软件,我们决定看哪一部电影的因素可以有很多:也许是影片的类型、场次的安排,还有可能是豆瓣的评分...这是因为观众对知名演员的市场定位和选片原则都有一个大概的判断,这些判断直接影响了电影的市场表现,也就是票房。 那么,成百上千位中国演员里,谁主演的电影通常伴随着优质的市场表现?...反观中国香港老牌演员,如成龙、梁朝伟、古天乐、周润发等人,尽管尚位列累计票房榜前二十,在不考虑通货膨胀的情况下,已经被白百何、井柏然等新兴演员超过。...数读菌以多次(≥5次)主演电影为筛选门槛,结果可见:沈腾位列第一,8部主演电影(如《西虹市首富》、《夏洛特烦恼》)几乎片片卖座,片均票房超13亿,是名副其实的票房锦鲤。...以刘德华为例,2000至2004年,在历年票房最高的10部国产电影,也就是共计50部电影中,刘德华主演的影片就占到了8部,远远高出其他演员。
文|彭博社 《速度与激情》系列重磅影片已经累计录得近14小时的总片长和40亿美元的总票房 《速度与激情8》将以一种观众已经为之疯狂、让片方赚得盆满钵满的语言继续讲述故事 到目前为止,《速度与激情》(Fast...《速度与激情8》将以一种观众已经为之疯狂、让片方赚得盆满钵满的语言继续讲述故事:变速换挡、引擎咆哮、飞车追逐、关于汽车的愤怒嘲讽,以及啜饮Corona啤酒。...《速度与激情7》是该系列电影迄今为止最成功的一部影片,其全球票房收入达到15亿美元,在影评聚合网站烂番茄(Rotten Tomatoes)上获得79%的评分。 赛车镜头减少!...赛车文化曾经是这个系列电影不可或缺的一部分,其中关键情节点往往取决于谁率先冲过终点线。...在所有8部电影中,《速度与激情》系列做到了维持演员阵容的持续性,并确保粉丝注意到这点。随着续集数量的增长,影片中的拥抱镜头也越来越多。
达叔作品类型分布 在达叔238部作品中有67部电视剧和171部电影,其中83版的《射雕英雄传》里达叔出演的是丐帮净衣帮彭长老,彼时的星爷是宋兵乙。...达叔作品评分分布 达叔出演过的电视剧评分基本都在6分左右及以上,达叔出演过的电影则大部分集中在6-8分。 ? 达叔作品评分分布 达叔作品中评分前五: ? 评分前5的作品 1.6....达叔作品的评价数分布 除了电视剧普遍都是较低评价数之外,达叔的高分电影的评价数也都较多。 ? 达叔作品的评价数分布 达叔作品中评价数前五: ? 评价数前5的作品 2....和达叔合作过的导演云图 2.2. 达叔合作过的演员 达叔合作过的演员则高达1,157位,其中星爷首屈一指,合作剧作高达30部+,其次是黄一飞和张敏的21部以及华仔的18部。...与星爷合作的30不戏除了01年的《少年足球》之前,其余全部为上个世纪的作品,不过星爷作为演员在01年之后也只出演过三部电影而已; ?
诚然,豆瓣的评分会存在一些“文艺滤镜”,对文艺片比较宽容,对此我们认为,“豆瓣评分高的不一定是真的高,但是被豆瓣打了低分的是真的低”。此次选择的影片范围是2010年至今的国产影片: ?...可以看到豆瓣用户对国产片还是比较严格,大多数电影都是在6分一下,8分以上的电影可以说是“凤毛麟角”,因此后续对烂片的标准也要相应放低,下面看一下各个将分数向下取整后的统计数量: ?...2010年之后获得9分的国产电影只有一部,可以说是非常的不易,大家可以猜一下是哪部电影,看看是不是你心中的9分电影 下面为大家揭开谜底: ?...令人意想不到的是,就连超级烂片的TOP10都可以收割5000万以上的票房,更是有四部票房过亿,在此提醒大家“观影有风险,选片需谨慎” 演员榜 一部烂片的诞生想必也离不开“演员”的努力,下面就来分别看看所出演电影平均分最高和最低的演员...评分高的演员就无须赘述了,都是经过了市场和观众的挑战,但是目前还没有一位演员在主演影片数量超过5部之后,分数可以上7,诚然有一部分是因为豆瓣对国产的严格要求,但另一方面也在敦促电影人不断进步 下面看一下评分排在倒数的演员
诚然,豆瓣的评分会存在一些“文艺滤镜”,对文艺片比较宽容,对此我们认为,“豆瓣评分高的不一定是真的高,但是被豆瓣打了低分的是真的低”。此次选择的影片范围是2010年至今的国产影片: ?...可以看到豆瓣用户对国产片还是比较严格,大多数电影都是在6分以下,8分以上的电影可以说是“凤毛麟角”,因此后续对烂片的标准也要相应放低,下面看一下各个将分数向下取整后的统计数量: ?...2010年之后获得9分的国产电影只有一部,可以说是非常的不易,大家可以猜一下是哪部电影,看看是不是你心中的9分电影 下面为大家揭开谜底: ?...令人意想不到的是,就连超级烂片的TOP10都可以收割5000万以上的票房,更是有四部票房过亿,在此提醒大家“观影有风险,选片需谨慎” 演员榜 一部烂片的诞生想必也离不开“演员”的努力,下面就来分别看看所出演电影平均分最高和最低的演员...评分高的演员就无须赘述了,都是经过了市场和观众的挑战,但是目前还没有一位演员在主演影片数量超过5部之后,分数可以上7,诚然有一部分是因为豆瓣对国产的严格要求,但另一方面也在敦促电影人不断进步 下面看一下评分排在倒数的演员
3 月 8 号是国际劳动妇女节,漫威在这天“搞事”了。上映《惊奇队长》,这部是漫威电影宇宙的第一部女性超级英雄电影,也算是给妇女节献礼。身为漫威粉丝的我,当时不会错过这部电影,趁着周末去观影。...漫威转型后第一部电影《钢铁侠》,虽然主演是三线污点演员的唐尼,不到 2 亿美金的制作成本,但确在全球狂揽 5.8 亿票房。这也为漫威 10 年计划打个响炮。...NO.3 数据分析 究竟谁才是票房收割机,当然需要一个评定标准。考虑到有些导演会指导多部电影,如下图所示。其中排行榜首的罗素兄弟(乔·罗素与安东尼·罗素的合称)一共指导三部电影。 ?...真的是难以抉择,不得不说。这几位导演乔斯·惠登、瑞恩·库格勒、罗素兄弟,都是拍摄电影的好手,能指导出成功的商业片。 如果硬要要评选出最强票房收割期,那我只能算是电影的评分。...我根据豆瓣上各部电影的评分,计算出各位导演拍摄电影的平均得分,最后生成柱形图。 ? 拍摄影片口碑排行前三名是詹姆斯·古恩、罗素兄弟、乔恩·法夫罗。
比较懒,不想一页页地去翻100部电影的介绍,想在一个页面内进行总体浏览(比如在excel表格中); ? 想深入了解一些比较有意思的信息,比如:哪部电影的评分最高?哪位演员的作品数量最多?...爬虫目标 从网页中提取出top100电影的电影名称、封面图片、排名、评分、演员、上映国家/地区、评分等信息,并保存为csv文本文件。 根据爬取结果,进行简单的可视化分析。...,按照评分和评分人数从高到低综合排序取前100名,每天上午10点更新。...下面根据excel的数据结果,进行简单的数据可视化分析,并用图表呈现。 4.1. 电影评分最高top10 首先,想看一看评分最高的前10部电影是哪些?...那会儿应该还是黑白电影时代吧,看来电影的口碑好坏跟外在的技术没有绝对的关系,质量才是王道。 4.3.1. 拥有电影作品数量最多的演员 最后,看看前100部电影中哪些演员的作品数量最多。
用facebook-fasttext无监督学习 用cnn做中文文本分类 用rnn做中文文本分类 用gru来完成中文文本分类 总评分最高的前10部电影 最受欢迎的电影类别排名 最受欢迎的电影出品国家排名...最受欢迎的电影导演排名 最受欢迎的电影演员排名 最受欢迎的电影语言排名 根据电影时长的电影排名 根据电影投票数的电影排名 根据电影评价数的电影排名 根据电影提问数的电影排名 根据电影发布时间的规律 1...总评分?)/电影类别(按出现频次)/导演(按出现频次)/演员(按出现频次)/语言(按出现频次,可以对其根据**分类?)...从电影简介中分析情感关键词,看其与电影类别的关联、与导演的性格关联、与演员的关联。...所有短评的统计分析:对每个电影爬取的短评量大致分布均匀;取前10电影,分别观察,短评喜欢和不喜欢为label构建模型。
两天时间内共爬取20W+条数据,包括电影信息、电影演员信息、书籍信息、书籍作者信息,GitHub链接为https://github.com/weizhixiaoyi/DouBan-Spider。...电影演员信息包括演员id、姓名、图片链接、性别、星座、出生日期、出生地、职业、更多中文名、更多外文名、家庭成员、简介,共89592条数据信息。这里所指的演员包括电影演员、编剧、导演。...总结一下,获取电影信息和电影演员信息流程为 获取https://movie.douban.com/tag/#/界面所有电影类别genres,循环电影类别genres。...获取电影演员id,存到到redis已爬取队列之中,返回去重后的演员id list。 多线程爬取演员id list之中的电影信息。 start加20循环2-7步骤。...爬取过程中为了省事,我用的是收费的ip代理池,蘑菇代理,每三分钟请求10个ip。如果你要使用的话,可以找一些免费的ip代理工具,成功之后,将有效ip写入到iplist之中即可。
目标 爬取当前时间段豆瓣电影中正在上映的电影的相关信息,如电影名、导演、演员表、上映时间、制作方等信息,然后再通过字典的方式,将其保存在本地文件当中,以便我们查询; Code #!.../usr/bin/python3 # -*- coding:utf-8 -*- # @Time : 2018-11-15 8:24 # @Author : Manu # @Site :...doubanMovie.py # @Software: PyCharm import pprint import requests from lxml import etree ''' 爬取豆瓣电影上当前正在上映的电影信息...//img/@src')[0] movie = { '电影名':title, '评分':score, "上映时间":release,...movie_file.write('评分:' + movie['评分'] + '\n') movie_file.write('上映时间:' + movie['上映时间'] + '\n')
虽然全部镜头非实拍,但叙事还是很流畅 整部电影,就像是一个巧妙设计、适时推出的优质产品,恰好也在最近占据了「Movie Store」的前几位。...而在豆瓣上,它的评分高达 8.5,好于 96% 的悬疑片,截至目前,这部电影的全球票房已经达到了 8000 万美元。...用百万预算撑起千万票房的导演是谷歌前员工 最了不起的是,这部电影仅仅用了 13 天进行拍摄,花了不到 100 万美元的制作预算,所以目前的票房成绩对这部小成本电影来说,无疑是名利双收。...拍电影之前,用产品思路做了个 Demo 起初,《网络谜踪》只是一个 8 分钟的构想,但在投资人的鼓励支持,以及编剧的头脑风暴之下,它最终扩展成了一部电影长片,为了专心拍摄这部影片,阿尼什果断辞去了谷歌的工作...同样,这部电影的背后站着导演编剧团队,为电影提供了优秀的脚本和逻辑支撑,但呈现影片的是主演们对角色的深入理解和投入演出。
阿里著名的协同过滤推荐算法swing,寻找图中更加稳固的形状,共同评分过两个物品的用户集合中,每两个用户和这个两个物品形成了一个四边形(下图红边为一个swing结构),统计有多少个这样的结构,每一个结构的权重是不同的...LINE算法考虑顶点的二阶相似,两个顶点有边为一阶相似,两个顶点有共同的邻居顶点为二阶相似,它虽不做随机游走,但可以看作是广度优先的采样。...然后按照采样的反方向做前向传播,这就是一个k层的图网络,下图是一个k为2的例子。 ? 在用户和物品的二部图基础上,增加物品的属性作为顶点,建立新的边,就得到了一个异质信息网络。...比如一个电影推荐系统,除了用户和电影外,还有导演,演员,电影类型,导演拍摄电影,电影属于某种类型,演员出演电影,导演与演员合作,诸如此类就能建立很多边。...其中一类推荐算法叫做meta-path,通过专家经验人工挑选出一些图中路径,如用户->演员->电影,用户->导演->电影,这样的路径称之为meta-path,计算每一条meta-path的权重,将用户和物品间的所有
领取专属 10元无门槛券
手把手带您无忧上云