前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MovieLens官网数据集解释

MovieLens官网数据集解释

作者头像
木野归郎
发布2021-12-18 11:35:52
1.3K0
发布2021-12-18 11:35:52
举报
文章被收录于专栏:share ai happiness

https://grouplens.org/datasets/movielens/ 官网数据集地址

MovieLens

GroupLens Research已从MovieLens网站(http://movielens.org)收集并提供评级数据集。根据集合的大小,在不同的时间段收集数据集。在使用这些数据集之前,请查看其README文件以获取使用许可证和其他详细信息。

recommended for new research

MovieLens 25M Dataset

Movielens 25M电影评分。稳定的基准数据集。2500万个评分和一百万个标签应用程序将62,000部电影应用于162,000名用户。包括标记基因组数据,跨1,129标签的1500万相关性分数。发布12/2019.

  • Readme.txt.
  • ML-25M.zip(大小:250 MB,校验和链接)

https://files.grouplens.org/datasets/movielens/ml-25m-README.html README.txt

https://files.grouplens.org/datasets/movielens/ml-25m.zip ml-25m.zip

https://files.grouplens.org/datasets/movielens/ml-25m.zip.md5 ml-25m.zip校验和链接

永久链接:

https://grouplens.org/datasets/movielens/25m/

recommended for education and development

MovieLens最新数据集

这些数据集将随时间而变化,不适合报告研究结果。我们将保持下载链接稳定以进行自动下载。我们不会存档或提供以前发布的版本。

小:100,000家评级和3,600个标签应用程序应用于600个用户的9,000部电影。最后更新9/2018。

  • README.html
  • ml-latest-small.zip(大小:1 MB)

https://files.grouplens.org/datasets/movielens/ml-latest-small-README.html README.html

https://files.grouplens.org/datasets/movielens/ml-latest-small.zip ml-latest-small.zip

全部:27,000,000名评级和1,100,000个标签应用程序将58,000部电影应用于280,000名用户。包括标记基因组数据,跨1,100个标签的1400万相关分数。最后更新9/2018。

  • README.html
  • ml-latest.zip(大小:265 MB)

https://files.grouplens.org/datasets/movielens/ml-latest-small-README.html README.html

https://files.grouplens.org/datasets/movielens/ml-latest.zip ml-latest.zip

永久链接:

https://grouplens.org/datasets/movielens/latest/

synthetic datases

MOVIELENS 1B合成数据集

MOVIELENS 1B是一种合成数据集,从ML-20M的20万个真实额定值扩展,分布在MLPERF中。请注意,这些数据分发为.npz文件,您必须使用python和numpy读取。

  • README
  • ml-20mx16x32.tar (3.1 GB)
  • ML-25M.zip(大小:250 MB,校验和链接

https://files.grouplens.org/datasets/movielens/ml-20mx16x32-README.txt README https://files.grouplens.org/datasets/movielens/ml-20mx16x32.tar ml-20mx16x32.tar https://files.grouplens.org/datasets/movielens/ml-20mx16x32.tar.md5 ml-20mx16x32.tar.md5 此处提供扩展算法的代码要创建上面的数据集,我们运行了算法(使用提交1c6ae725a81d15437a2b2df05cac0673fde5c3a4),如自述文件所描述的“推荐基准的运行指令”部分中所述。 https://github.com/mlperf/training/tree/master/data_generation 扩展算法代码 永久链接: https://grouplens.org/datasets/movielens/movielens-1b/

older datasets

MovieLens 100K数据集

稳定的基准数据集。来自1700部电影,1000名用户的100,000个评分。发布于4/1998。

  • README.txt :
  • ml-100k.zip(大小:5 MB,校验和)
  • 解压缩文件的索引

https://files.grouplens.org/datasets/movielens/ml-100k-README.txt README.txt

https://files.grouplens.org/datasets/movielens/ml-100k.zip ml-100k.zip

https://files.grouplens.org/datasets/movielens/ml-100k.zip.md5 校验和链接

https://files.grouplens.org/datasets/movielens/ml-100k/ Index of unzipped files

永久链接:

https://grouplens.org/datasets/movielens/100k/

MovieLens 1M数据集

稳定的基准数据集。4000部电影的6000名用户获得100万评级。2003年2月发布。

  • README.txt
  • ml-1m.zip(大小:6 MB,校验和)

https://files.grouplens.org/datasets/movielens/ml-1m-README.txt README.txt

https://files.grouplens.org/datasets/movielens/ml-1m.zip ml-1m.zip

https://files.grouplens.org/datasets/movielens/ml-1m.zip.md5 校验和链接

永久链接:

https://grouplens.org/datasets/movielens/1m/

MovieLens 10M数据集

稳定的基准数据集。72,000个用户对于10,000部电影,进行了1000万个评级和100,000个标签。发布于2009年1月1日。

  • README.html
  • ml-10m.zip(大小:63 MB,校验和)

https://files.grouplens.org/datasets/movielens/ml-10m-README.html README.txt

https://files.grouplens.org/datasets/movielens/ml-10m.zip ml-10m.zip

https://files.grouplens.org/datasets/movielens/ml-10m.zip.md5 校验和链接

永久链接:

https://grouplens.org/datasets/movielens/10m/

MovieLens 20M数据集

Movielens 20M电影评分。稳定的基准数据集。使用2000万辆和465,000个标签应用程序适用于138,000名用户的27,000部电影。包括标记基因组数据,跨1,100个标签的1200万相关性分数。发布4/2015;更新10/2016以更新Links.csv并添加标记基因组数据。

  • README.html
  • ml-10m.zip(大小:63 MB,校验和)

https://files.grouplens.org/datasets/movielens/ml-20m-README.html README.txt https://files.grouplens.org/datasets/movielens/ml-20m.zip ml-20m.zip https://files.grouplens.org/datasets/movielens/ml-20m.zip.md5 校验和链接 也可以查看MovieLens 20M YouTube预告片数据集,链接:https://grouplens.org/datasets/movielens/20m-youtube/以获得在YouTube上托管的MovieLens电影和电影预告片之间的链接。

永久链接:

https://grouplens.org/datasets/movielens/20m/

MovieLens标签基因组数据集

对于于10,000部电影的1,100个标签池中获得1100万个计算标签 - 电影相关性分数。发布于2014年3月。

还可以考虑使用MovieLens 20M或最新数据集,这些数据集还包含(更新的)标签基因组数据。

  • README.html
  • tag-genome.zip(大小:41 MB)

https://files.grouplens.org/datasets/tag-genome/README.html README.html

https://files.grouplens.org/datasets/tag-genome/tag-genome.zip tag-genome.zip

永久链接:

https://grouplens.org/datasets/movielens/tag-genome/

数据集解movieId, title, genres

其中均包含四个文件:movies.csv , links.csv , ratings.csv ,tags.csv

movies.csv (电影文件)

movieId:电影id title:电影标题 genres:电影的题材(多种题材用|分割)

links.csv(链接文件)

movieId:电影在movielens上的id

通过https://movielens.org/movies/(movieId)访问

imdbId:电影在imdb网站上的id

通过http://www.imdb.com/title/(imdbId)访问

tmdbId:电影在themoviedb上的id

通过http://www.imdb.com/title/(tmdbId)访问

ratings.csv (评分文件)

userId: 用户id movieId: 电影id rating: 用户评分。5分制,0.5 stars - 5 stars,以0.5为间隔 timestamp: Unix时间戳,十位,精确到秒

tags.csv(标签文件)

userId: 用户id movieId: 电影id tag: 表示用户在某个时间为某个电影标记的标签,即分类 timestamp: 同上时间戳

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OnlyCoding 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MovieLens 25M Dataset
  • recommended for education and development
    • MovieLens最新数据集
    • synthetic datases
      • MOVIELENS 1B合成数据集
      • older datasets
        • MovieLens 100K数据集
          • MovieLens 1M数据集
            • 永久链接:
              • https://grouplens.org/datasets/movielens/1m/
                • MovieLens 10M数据集
                  • MovieLens 20M数据集
                    • MovieLens标签基因组数据集
                    • movies.csv (电影文件)
                    • links.csv(链接文件)
                    • ratings.csv (评分文件)
                    • tags.csv(标签文件)
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档