Huggingface排行榜默认数据集 Huggingface开源大模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4...本文主要介绍Huggingface开源大模型排行榜上默认使用的数据集以及如何搭建自己的大模型评估工具 搭建大模型评估工具 1.下载数据集到本地 from datasets import load_dataset...是一个包含8.5k的小学数学题,主要用于测试大模型的数学和逻辑推理能力。...包含113子集,每个子集包含train、validation两种数据集。...:openai/openai_humaneval · Datasets at Hugging Face 语言:English 介绍:OpenAI发布的测试大模型编程能力的数据集,编程问题是用Python
这些数据集在可作为基准的推荐系统中非常流行。...通过分析多种推荐系统算法在不同数据集上的性能,探讨了如何为新的应用选择推荐系统。...这个数据集包括评论(评级、文本、帮助投票)、产品元数据(描述、类别信息、价格、品牌和图像特性)和链接(也查看/购买图表)。...物理学家和计算机科学家对分析数据结构表示了兴趣,并经常要求提供数据集。以前,这是在一个特别的基础上完成的,它依赖于我们记住更新数据文件。...由于隐私问题,数据采集存在偏差,因此该数据集的统计结果会与天猫的实际情况相背离。 下面是上述数据集的一些统计数据.
开源大模型评测排行榜 https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard 其数据是由其后端lm-evaluation-harness...创建该数据集是为了支持对需要多步骤推理的基本数学问题进行问答的任务。 GSM8K 是一个高质量的英文小学数学问题测试集,包含 7.5K 训练数据和 1K 测试数据。...数据集分为挑战集和简单集,其中前者仅包含由基于检索的算法和单词共现算法错误回答的问题。我们还包括一个包含超过 1400 万个与该任务相关的科学句子的语料库,以及该数据集的三个神经基线模型的实现。...CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了大模型在中文知识储备和语言理解上的能力。...GAOKAO-Bench https://github.com/OpenLMLab/GAOKAO-Bench Gaokao 是一个中国高考题目的数据集,旨在直观且高效地测评大模型语言理解能力、逻辑推理能力的测评框架
下载数据集请登录爱数科(www.idatascience.cn) 由电商平台爬取的图书信息,包括书名、出版信息、当前价格等。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4....数据来源 当当网搜索页面爬取。
下载数据集请登录爱数科(www.idatascience.cn) 通过物理测量预测鲍鱼的年龄。...从原始数据中删除了缺失值的样本,并且对连续值的范围进行了缩放。数据集共4177个样本,8个字段 1. 字段描述 2. 数据预览 3. 字段诊断信息 4....数据来源 Warwick J Nash, Tracy L Sellers, Simon R Talbot, Andrew J Cawthorn and Wes B Ford (1994) "The Population...数据引用 Nash W J, Sellers T L, Talbot S R, et al.
下载数据集请登录爱数科(www.idatascience.cn) 其记录了2014年之前天文学家在恒星(除了太阳)周围发现的行星的信息。 1. 字段描述 2. 数据预览 3....数据来源 来源于UCI机器学习库。
下载数据集请登录爱数科(www.idatascience.cn) 数据集由 Jose Portilla 和 Pierian Data 为他的 Udemy 课程(Python 数据科学和机器学习训练营)...创建,适合用于数据分析与逻辑回归预测。...数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
下载数据集请登录爱数科(www.idatascience.cn) 小费数据集 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源
下载数据集请登录爱数科(www.idatascience.cn) 该数据集记录了一家全球超市4年的订购数据,包含订单的订单号、下单时间、发货时间、运输模式、顾客名称和地区等信息。 1....数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
数据集下载请登录爱数科(www.idatascience.cn) 根据世界卫生组织(WHO)的数据,中风是全球第二大死亡原因,约占总死亡人数的11%。...该数据集用于根据输入参数(例如性别,年龄,各种疾病和吸烟状况)预测患者是否可能中风。数据中的每一行都提供有关患者的相关信息。 1. 字段描述 2. 数据预览 3. 字段诊断信息
下载数据集请登录爱数科(www.idatascience.cn) 这个数据集涵盖了过去6年苹果公司的股价。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4....数据来源 来源于Kaggle。
下载数据集请登录爱数科(www.idatascience.cn) 人口稠密的城市中超市数量在快速增加,市场竞争也很激烈。...该数据集记录了几家超市在3个不同分店中3个月的历史销售额,包含顾客性别、商品单价、销售数量、销售日期、总收入和顾客评价等信息。预测数据分析方法很容易应用于此数据集。 1. 字段描述 2....数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
下载数据集请登录爱数科(www.idatascience.cn) 该数据集包含来自Udemy的4个科目(商业金融、平面设计、乐器和网页设计)的3.682条课程记录。...数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。 5. 数据引用
下载数据集请登录爱数科(www.idatascience.cn) 某社会实验内容为男人和女人签约嫁给一个他们以前从未见过的完全陌生的人。专家根据测试和面试对夫妇进行配对。...该数据集记录了十次该社会实验的数据。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
下载数据集请登录爱数科(www.idatascience.cn) 用于数据分析和机器学习的足球数据库,包括 25,000 场比赛 11个欧洲国家获得领先冠军, 2008 年至 2016 年多达 10...数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
下载数据集请登录爱数科(www.idatascience.cn) 本数据集记录了在对患有相同疾病的患者使用五种药物时,患者的个人信息以及对这些药物的反应。您可以使用这个数据集进行多分类任务。 1....数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle
下载数据集请登录爱数科(www.idatascience.cn) 该数据集记录了2010年至2015年美国某公司每周家具产品的订购数量,包括年份、季度、产品名称和订购数量等信息。 1....数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
下载数据集请登录爱数科(www.idatascience.cn) 该数据集包含3276个不同水体的水质指标。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4....数据来源 来源于Kaggle。
为了帮助构建对象识别模型,场景识别模型等,编制了最佳图像分类数据集的列表。这些数据集的范围和大小各不相同,可以适应各种用例。此外数据集已分为以下几类:医学成像,农业和场景识别等。...医学图像分类数据集 1. 递归蜂窝图像分类 –此数据来自递归2019挑战。竞赛的目标是利用生物显微镜数据开发可识别复制品的模型。关于比赛的全部信息可以在这里找到。...CoastSat图像分类数据集 –用于开放源代码海岸线测绘工具,该数据集包含从卫星获取的航空图像。数据集还包括与标签有关的元数据。...室内场景图像 –来自麻省理工学院的该数据集包含15,000多个室内位置图像。该数据集最初是为解决室内场景识别问题而构建的。所有图像均为JPEG格式,已分为67类。每个类别的图像数量有所不同。...TensorFlow Sun397图像分类数据集 –来自Tensorflow的另一个数据集,该数据集包含场景理解(SUN)基准中使用的108,000多幅图像。此外图像已分为397类。
如果是一位尚未尝试过数据科学项目的初学者,那么从“没有经验”的起点到称为“专家”的非常理想的目的地的可能过渡只不过是数据集。 使用具有各种主题的免费数据集的所有这些网站具有许多优点。...这种讨论板被称为subreddits,或/ r /数据集 - 一个分享,查找和讨论数据集的地方。这些数据集的范围和质量差异很大,因为它们都是用户提交的,但它们通常非常有趣且细致入微。...这些数据集包括各种各样的数据集,从流行的数据集,如Iris和泰坦尼克号的生存,到最近的贡献,如空气质量和GPS轨迹。存储库包含350多个数据集,其中包含域名,问题目的(分类/回归)等标签。...因此,这是数据聚合器,主要侧重于从科学论文中共享数据集。它由两部分组成:用户可以搜索数据集的站点,以及使共享数据可扩展且快速的BitTorrent主干。...它具有各种不寻常的(通常是大的)数据集,尽管在不阅读原始论文和/或在相关科学领域拥有一些专业知识的情况下获取特定数据集的上下文有时会很棘手。 数据集的重要性 ? 成为数据科学专家还有很长的路要走。
领取专属 10元无门槛券
手把手带您无忧上云