首页
学习
活动
专区
圈层
工具
发布

Python统计共同参演电影最多的演员组合

问题描述和样本数据请参考昨天的文章Python读取Excel文件统计演员参演电影 下面的代码是昨天代码的继续,在获取了每个演员参演的电影之后,继续使用最后排好序的那个列表actors,然后获取共同参演电影最多的一对演员组合...defgetActorPair(actors): result = [] # 遍历演员和参演电影 for index, actor1 in enumerate(actors[:-1]):...# 交集,共同参演的电影 films = actor1[1] & actor2[1] # 列表中每个元素是一个元组 # 其中包含演员组合和共同参演的电影集合...result.append((actorPair, films)) return result # 根据每个演员参演的电影 # 获取演员组合共同参演的电影 actorPairs...= getActorPair(actors) for item in actorPairs: print(item) # 获取共同参演电影最多的演员组合 closestPair = max(actorPairs

2K50

我敢打赌,你猜不到去年电影国内票房最高的演员是谁

项目最初的想法是,从互联网上的公开信息中采集2018年在国内上映电影的票房、评分、类型、演员等信息,然后做一些数据分析和可视化展示。...代码已上传,获取见文末。 项目之初,我们的想法主要是对去年国内上映电影的票房、评分进行一下排行,然后按不同类型对比下,什么片更受欢迎,什么片更赚钱。...) 导演、演员信息来自豆瓣电影 共 522 部电影,4723 位影人 由于从几个不同网站抓取数据,有些名称会不一致,或者出现部分数据缺失的情况。...项目整体思路: 通过 中国票房网 获得2018年大陆上映电影和每部电影票房数据 根据已有的票房数据,通过豆瓣 api 和详细页面,获得每部电影的导演,演员和豆瓣评分等详细数据 分别通过 猫眼、时光网 和...imdb,获取这三个网站的电影评分数据 新建影人条目,利用豆瓣获得的影人数据,对2018年每个演员年参演电影进行统计 根据已有数据作图,分析2018年电影票房排名、不同网站评分差异、电影票房-评分关系等

63220
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分

    其次,通过抓取曾经入选电影的生产国家、导演和演员、制作年份、风格流派以及当前入选的制作年份和各自的计数、平均打分,总结IMDb TOP250电影特征,最终得出互联网资料库Top250多为欧美国家制作于上世纪末本世纪初剧情片的分析结果...IMDb简介 互联网电影资料库(Internet Movie Database,简称IMDb)是一个关于电影演员、电影、电视节目、电视明星、电子游戏和电影制作的在线数据库。...IMDb创建于1990年10月17日,从1998年开始成为Amazon公司旗下网站,2010年是IMDb成立20周年纪念。对于电影的评分目前使用最多的就是IMDb评分。...它还收录了173.7万男演员,101.1万女演员的个人资料,有多少人有昵称,谁最近八卦新闻多,哪些演员的主页中同时收录了他/她说过的经典的话,它的采访视频甚至是收入信息。...面对良莠不齐的影片,通过集体智慧去粗取精,榜单是一种帮助建立品位的电影体并作为生产者参考标准之一: 在IMDb上的口碑直接影响电影公司对于导演、演员的选取。 ----

    51500

    Python电影市场特征:AR模型时间序列趋势预测、热图可视化评分影响分析IMDb数据|附数据代码

    本专题合集聚焦印度电影市场,通过IMDb数据集(IMDb Movies Dataset)的深入分析,揭示其发展脉络与潜在规律(点击文末“阅读原文”获取完整代码、数据、文档)。...研究发现,印度电影市场呈现剧情片主导、演员资源集中化等特征,并创新性地提出基于时间序列模型的市场预测方法。本专题合集已分享在交流社群,阅读原文进群和500+行业人士共同交流和成长。...与成熟的欧美、国产电影分析相比,印度电影市场的研究仍存在空白。本研究通过IMDb数据集(包含5,659部电影的10项属性),探索其类型偏好、评分机制及市场演变规律。...图7 近五年热门类型 图8 近五年热门导演 图9 近五年热门演员 4.2 时长与评分的非线性关系 研究发现,时长在120-150分钟的电影评分最高(均值6.8),过长或过短均可能降低观影体验。...这一结论为电影创作提供了量化参考。 五、结论与建议 本研究揭示了印度电影市场的三大特征: 类型集中化:剧情片主导,但体育、传记等新兴类型潜力显著。 资源垄断性:头部导演与演员占据超50%市场份额。

    18210

    分析11年21部漫威电影,一览导演、主演、口碑票房最佳......

    作者:胡萝卜酱 来源:DataGo数据狗(ID:DAT-2017) 01 上映时间 到目前为止,连上正在上映的《惊奇队长》,漫威电影宇宙共上映21部,包括三部钢铁侠、三部美队、三部雷神、三部复联、两部蚁人...03 演员 说完导演,再看看演员。由于豆瓣给的主演名单连一些配角也在里面,所以小编仅取前4名作为电影主演。大家要不要猜一下主演电影数目和参演数目最多分别是谁? ?...现在妮妮在电影主演名单上绝对的C位,永远是演员表的第一位。 其次是美队的演员Chris(EC)和雷神演员Chris(锤哥),寡姐随后(寡姐要有个人电影了,开心)。...那么漫威的口碑如何呢?这里以国外的IMDb和豆瓣数据为例。 ? 从评分人数上看,蓝色的IMDb评分人数一直都比紫色的豆瓣评分人数多,但近几年,豆瓣评分人数逐渐提高,和IMDb不相上下。那么评分呢?...蓝色的IMDb评分最高的是复联3,最低的是无敌浩克。紫色的豆瓣评分最高是复联3,最低的是黑豹。而且黑豹是国内外口碑差距最大的电影。虽然黑豹在国内口碑差,但国外收获了大大小小各项提名,也得了不少奖。

    70780

    基于Keras的imdb数据集电影评论情感二分类

    IMDB数据集下载速度慢,可以在我的repo库中找到下载,下载后放到~/.keras/datasets/目录下,即可正常运行。 电影评论分类:二分类 二分类可能是机器学习最常解决的问题。...我们将基于评论的内容将电影评论分类:正类和父类。 IMDB数据集 IMDB数据集有5万条来自网络电影数据库的评论;其中2万5千条用来训练,2万5千条用来测试,每个部分正负评论各占50%....和MNIST数据集类似,IMDB数据集也集成在Keras中,同时经过了预处理:电影评论转换成了一系列数字,每个数字代表字典中的一个单词。...加载数据集 from keras.datasets import imdb (train_data,train_labels),(test_data,test_labels) = imdb.load_data...变量train_data,test_data是电影评论的列表,每条评论由数字(对应单词在词典中出现的位置下标)列表组成。

    4.3K30

    Python深度学习精华笔记2:基于keras建模解决深度学习二分类问题

    数据IMDB数据集是一个非常著名和广泛使用的电影数据集,包含了大量的电影和演员的信息。...它由互联网电影数据库(IMDB)提供,包含了超过4700部电影和电视节目的信息,以及超过50万名演员和工作人员的信息。IMDB数据集非常适合用于电影推荐、电影属性预测、演员演技评估等任务。...使用IMDB数据集可以进行以下类型的机器学习实验和研究:电影推荐:利用机器学习算法根据用户的观影历史和喜好,向用户推荐适合他们观看的电影。...电影属性预测:根据电影的属性(例如类型、导演、主演等),利用机器学习算法预测电影的评分和评论。演员演技评估:利用机器学习算法评估演员的表演技巧和水平,以及他们在电影中的重要性。...总之,IMDB数据集是一个非常丰富和有用的数据集,可以用于电影推荐、电影属性预测、演员演技评估等任务。通过使用这个数据集,您可以深入了解电影和演员的信息,以及它们之间的关系和影响。

    58530

    好的设计要多分享,5款优秀在线原型设计案例

    就像使用打车服务一样,用户可以通过智能手机追踪其所订食品的送递进度。 这类APP中用的最多的组件就是图片,可以设计出图片轮播、滚动区等效果来展示丰富的图片素材。...2、电影资料库-IMDb APP IMDb(Internet Movie Database)隶属于亚马逊公司,是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库,包括了影片的众多信息、演员...对于电影的评分目前使用最多的就是IMDb评分。 本例子界面源自IMDb的移动端APP设计,风格简洁而严谨,兼具资料库类型产品的理性和电影产业的时尚感。...模板复现了IMDb移动端中随处可见的水平滚动效果,还加入了视频播放、下拉菜单、Tab选项卡、评分条、开关等多种预置组件。...2、游戏视频平台-Twitch Twitch海外著名的面向视频游戏的实时流媒体视频平台,具有非常个性的朋克元素设计,在年轻群体中拥有相当好的口碑。

    1.3K40

    手把手 | 教你爬下100部电影数据:R语言网页爬取入门指南

    网络中可用数据的增多为数据科学家开辟了可能性的新天地。我非常相信网页爬取是任何一个数据科学家的必备技能。在如今的世界里,我们所需的数据都在互联网上,使用它们唯一受限的是我们对数据的获取能力。...使用R语言实现网页爬取 现在,让我们开始爬取IMDb网站中2016年上映的100部最受欢迎的电影。您可以点击这里http://www.imdb.com/search/title?...Rating:电影的IMDb评分(用户打分)。 Metascore:电影在IMDb网站上的metascore评分(评论家打分)。 Votes:电影赞成票数。...Gross_Earning_in_Mil:电影总收入,以百万为单位。 Director:电影的主要导演。注意,如果有多个导演,我只选取第一个。 Actor:电影的主要演员。...您现在已经成功地在IMDb网站上爬取了2016年上映的最受欢迎的100部电影数据。

    1.8K70

    《Nature》最新研究:大数据预测你的偶像何时凉凉?

    这项研究的数据,搜集了从有记录开始,到 2016 年1月16日,在 IMDb 上 1512472 名男演员,和 896029 名女演员的职业生涯记录。 其中最早的数据,可以追溯到 1888 年。...研究发现影史上约有 100 多位男演员,他们集中了有史以来约 80% 的电影资源。...如图为该篇论文中的部分研究方法: L:为演员职业生涯时长; S:为演员有作品的年数,数量以每年 IMDb 的记录为标准; k:为该演员当年的作品数量; n:为该演员的作品生产效率; 如图片示例中是一名男演员...Netflix 数据集是一个有关电影评价信息的数据集。...该数据集来自于 netflixprize,netflixprize 比赛旨在大幅提高有关某人根据自己的电影喜好欣赏电影的预测准确性。该比赛由 2006 年持续至 2011 年。

    50340

    豆瓣已玩烂,爬点洋气的:用IMDB数据为你“订制”经典好片

    本文转载自:数据森麟(ID:shujusenlin) 作者:翻滚吧羊宝宝 转战Python半年,接触爬虫2个月,期间读了10本相关书籍,完成此作,算是对过去学习、实践的一次回顾。...网页分析 IMDB top250主页 ? IMDB电影详情页(1) ? IMDB 电影详情页(2) ?...基于以上网页构造,我们发现只需得到每个电影的详情页编码(唯一),通过2次“蛙跳”,实现详情页(1)(2)导出国家&类型,分数&人数的信息的获取。便于理解,爬取思维导图如下: ? 2....、电影名、导演・演员、上映年份、详情网页链接 film_info = ol.find_all('td',attrs={'class':'titleColumn'}) film_names =...top250电影详情页 #获取详情页数据------------------------------------------- def nextUrl(detail,detail1): #获取电影国家

    1.6K30

    Mybatis获取自增长的主键id

    ,所以完全可以获取到用户的userId,但是现在是要在创建的时候就分配,又因为我们的userId是在数据库中设置的自动增长,所以前端传给我们的user对象里面是不包含userId的....所以对于如何取得自增长的Id就比较麻烦.查阅资料后发现,还是有办法解决的.而且有两种方法,这里都分享给大家,并且我自己也都测试了,的确可用. 2.解决方案 2.1方案一 这段代码加在你的insert语句中...,after,这两个值分别表示一个是在执行插入操作之前再取出主键id,一个是执行插入操作之后再取出主键Id.前者使用与自己定义的自增长规则的id,后者就是用与我们的情况即自增长的id 小栗子: 的userId,数据也成功插入了. 2.2方案二 id="insertSelective" parameterType="请求对象" useGeneratedKeys... 同样的这里的keyProperty也和上述的注意点一样 小栗子: id="insertSelective" parameterType="ams.web.admin.entity.UserDao

    4K20

    php 获取连续id,WordPress文章ID连续及ID重新排列的方法

    请看让Wordpress文章ID重新排列的方法介绍。 前面我们介绍过让Wordpress文章ID连续的方法,如果以前Wordpress发表过文章造成ID不连续,我想让ID连续有什么办法,当然有咯。...AUTO_INCREMENT 的值为n+1,其中n为 wp_posts中最大ID数(PS:有点回到高考的感觉^_^) BUG:这种方法会造成文章没有关键字,评论不会对应原来的文章,对应的是原来的ID...ID是草稿到发布的文章,然后草稿和发布的文章按时间先后排列。...备注:其实之所以不连续的原因是里面有草稿 如何区分草稿和正式的文章,数据库里面有个post_status  值为publish就是正式的文章 未经允许不得转载:肥猫博客 » php 获取连续id,WordPress...文章ID连续及ID重新排列的方法

    10.2K40

    再谈谈获取 goroutine id 的方法

    通过Stack信息解析出ID 通过汇编获取runtime·getg方法的调用结果 直接修改运行时的代码,export一个可以外部调用的GoID()方法 每个方式都有些问题, #1比较慢, #2因为是hack...当时的petermattis/goid提供了 #2 的方法, 但是只能在 go 1.3中才起作用,所以只能选择#1的方式获取go id。...stable的获取go id的方法了。...你或许会遇到一些需要使用Go ID的场景, 比如在多goroutine长时间运行任务的时候,我们通过日志来跟踪任务的执行情况,可以通过go id来大致地跟踪程序并发执行的时候的状况。...不同的Go版本获取的数据结构可能是不同的,所以petermattis/goid针对1.5、1.6、1.9有变动的版本定制了不同的数据结构,因为我们只需要得到goroutine的ID,所以只需实现: func

    3K70
    领券