Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >[转载] 机器学习数据集统计系列一

[转载] 机器学习数据集统计系列一

作者头像
marsggbo
发布于 2018-12-12 10:01:00
发布于 2018-12-12 10:01:00
1.3K0
举报

作者:宋天龙 链接:https://www.zhihu.com/question/63383992/answer/222718972 来源:知乎

1. 综合数据集

UCI数据集

UCI数据集中包括了众多用于监督式和非监督式学习的数据集,数量大概400多个,其中很多数据集在其他众多数据工具中被反复引用,例如Iris、Wine、Adult、Car Evaluation、Forest Fires等。

每个数据集中都有关于数据实例数、数据产生领域、值域分布、特征数量、数据产生时间、模型方向、是否有缺失值等详细数据介绍,可用于分类、回归、聚类、时间序列、推荐系统等。

推荐度:★★★,推荐应用方向:监督式、非监督式机器学习数据挖掘

介绍和下载地址:http://archive.ics.uci.edu/ml/

UCI KDD数据集

UCI KDD(知识发现)是数据挖掘和可视化的研究项目,专注于大型数据收集中的实体事件关系。它是涉及几所大学的更广泛的KDD项目的一部分,UCI始于2002年10月。

推荐度:★★,推荐应用方向:监督式、非监督式机器学习

介绍地址:http://kdd.ics.uci.edu/

下载地址:http://kdd.ics.uci.edu/databases/

雅虎Webscope

雅虎Webscope用于为学者和其他科学家在非商业用途中使用。所有数据集已经过审查,以符合雅虎的数据保护标准,包括严格的隐私控制。数据集中包含了多个主题数据集:广告和市场营销、自然语言数据、科学数据、图形和社会化数据、图像数据等7个主题。需要注意的是:数据集只适用于同意数据共享协议的教师和大学研究人员的在学术上使用。

推荐度:★★★,推荐应用方向:监督式、非监督式机器学习、深度学习、自然语言理解等

介绍和下载地址:https://webscope.sandbox.yahoo.com/

AWS 公开数据集

亚马逊提供的数据集涵盖气候、红外图像、卫星遥感、人类微生物、日本人口普查、公共电子邮件档案、歌曲、材料安全、谷歌图书语料库、石油等非常多的主题数据,并且这些数据可直接集成到AWS进行数据挖掘和学习。

推荐度:★★★,推荐应用方向:监督式、非监督式机器学习、深度学习、神经网络、自然语言理解等

介绍和下载地址:https://aws.amazon.com/cn/datasets/

斯坦福网络数据集

斯坦福网络分析平台(SNAP)是一种用于分析和操纵大型网络的通用高性能系统,其本身使用的网络相关数据也对外开放,包括设计、社区、通信、网络图、互联网、道路、维基百度网络、在线社区和评论等不同主题,可用于分析大型社会和信息网络方面的研究成果。

推荐度:★★★,推荐应用方向:神经网络

介绍和下载地址:http://snap.stanford.edu/data/index.html

KONECT网络数据集

KONECT数据集是一个大型网络数据集的项目,在科布伦茨-兰道大学网络科学与技术研究所的网络科学和相关领域进行研究。KONECT包含数百种各种类型的网络数据集,包括有向、无向、二分、加权、未加权、签名和评级的网络。 KONECT的网络覆盖了许多不同领域,如社交网络,超链接网络、作者网络、物理网络、交互网络和通信网络等。

推荐度:★★★,推荐应用方向:神经网络

介绍和下载地址:http://konect.uni-koblenz.de/

2. 图像和视频数据集

MNIST数据集

机器学习领域内用于手写字识别的数据集,数据集中包含6个万训练集、10000个示例测试集。,每个样本图像的宽高为28*28。这些数据集的大小已经归一化,并且形成固定大小,因此预处理工作基本已经完成。在机器学习中,主流的机器学习工具(包括sklearn)很多都使用该数据集作为入门级别的介绍和应用。

推荐度:★★★,推荐应用方向:机器学习入门

介绍和下载地址:http://yann.lecun.com/exdb/mnist/

CIFAR 10 & CIFAR 100数据集

CIFAR-10数据集由10个类别的60000 32x32彩色图像组成,每个类别有6000张图像。 有50000个训练图像和10000个测试图像。数据集的类别涵盖航空、车辆、鸟类、猫类、狗类、狐狸类、马类、船类、卡车等日常生活类别,可用于计算机视觉相关方向。

推荐度:★★★,推荐应用方向:图像处理图像识别

介绍和下载地址:http://www.cs.toronto.edu/~kriz/cifar.html/

谷歌Open Images Dataset图像数据集

其中包括大约9百万标注图片、横跨6000个类别标签,平均每个图像拥有8个标签。该数据集的标签涵盖比拥有1000个类别标签的ImageNet具体更多的现实实体,可用于计算机视觉方向的训练。

推荐度:★★★,推荐应用方向:图像处理和图像识别

介绍地址:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

下载地址:https://github.com/openimages/dataset

ImageNet数据集

ImageNet数据集是目前深度学习图像领域应用得非常多的一个领域,该数据集有1000多个图像,涵盖图像分类、定位、检测等应用方向。Imagenet数据集文档详细,有专门的团队维护,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。很多大型科技公司都会参加ImageNet图像识别大赛,包括百度、谷歌、微软等。

推荐度:★★★,推荐应用方向:图像识别

介绍和下载地址:http://www.image-net.org/

Tiny Images Dataset

该数据集由79302017张图像组成,每张图像为32x32彩色图像。 该数据以二进制文件的形式存储,大约有400Gb图像。

推荐度:★★,推荐应用方向:图像识别

介绍和下载地址:http://horatio.cs.nyu.edu/mit/tiny/data/index.html

CoPhIR

CoPhIR是从Flickr中采集的大概1.06亿个图像数据集,图像中不仅包含了图表本身的数据,例如位置、标题、GPS、标签、评论等,还可提取出颜色模式、颜色布局、边缘直方图、均匀纹理等数据。

推荐度:★★,推荐应用方向:图像识别

介绍和下载地址:http://cophir.isti.cnr.it/whatis.html

LSUN数据集

国外的PASCAL VOC和ImageNet ILSVRC比赛使用的数据集,数据领域包括卧室、冰箱、教师、厨房、起居室、酒店等多个主题。

推荐度:★★,推荐应用方向:图像识别

介绍和下载地址:http://lsun.cs.princeton.edu

Labeled Faces in the Wild数据集

该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的13000多张图像。每张脸都贴上了所画的人的名字,图片中的1680人在数据集中有两个或更多不同的照片。

推荐度:★★,推荐应用方向:人脸识别

介绍和下载地址:http://vis-www.cs.umass.edu/lfw/

SVHN

SVHN数据来源于 Google 街景视图中房屋信息,它是一个真实世界的图像数据集,用于开发机器学习和对象识别算法,对数据预处理和格式化的要求最低。它跟MNIST相似,但是包含更多数量级的标签数据(超过60万个数字图像),并且来源更加多样,用来识别自然场景图像中的数字。

推荐度:★★,推荐应用方向:机器学习、图像识别

介绍和下载地址:http://ufldl.stanford.edu/housenumbers/

COCO

COCO(Common Objects in Context)是一个新的图像识别、分割和图像语义数据集,由微软赞助,图像中不仅有标注类别、位置信息,还有对图像的语义文本描述。COCO数据集的开源使得近两、三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。

推荐度:★★★,推荐应用方向:图像识别、图像语义理解

介绍和下载地址:http://mscoco.org/

谷歌YouTube-8M

YouTube-8M一个大型的多样性标注的视频数据集,目前拥有700万的YouTube视频链接、45万小时视频时长、3.2亿视频/音频特征、4716个分类、平均每个视频拥有3个标签。

推荐度:★★★,推荐应用方向:视频理解、表示学习(representation learning)、嘈杂数据建模、转移学习(transfer learning)和视频域适配方法(domain adaptation approaches)

数据集介绍和下载地址:https://research.google.com/youtube8m/

Udacity开源的车辆行使视频数据集

数据集大概有223G,主要是有关车辆驾驶的数据,其中除了车辆拍摄的图像以外,还包括车辆本身的属性和参数信息,例如经纬度、制动器、油门、转向度、转速等。这些数据可用于车辆自动驾驶方向的模型训练和学习。

推荐度:★★★,推荐应用方向:自动驾驶

介绍和下载地址:https://github.com/udacity/self-driving-car

牛津RobotCar视频数据集

RobotCar数据集包含时间范围超过1年,测试超过100次的相同路线的驾驶数据。数据集采集了天气、交通、行人、建筑和道路施工等不同组合的数据。

推荐度:★★★,推荐应用方向:自动驾驶

介绍和下载地址:http://robotcar-dataset.robots.ox.ac.uk/

Udacity开源的自然场景短视频数据集

数据集大概为9T,由3500万个视频剪辑组成,每个视频为短视频(32帧),大约1秒左右的时长。

推荐度:★★★,推荐应用方向:目标跟踪、视频目标识别

介绍和下载地址:http://web.mit.edu/vondrick/tinyvideo/#data

3. 自然语言数据集

MS MARCO

MS MARCO是一种新的大规模阅读理解和问答数据集。 在MS MARCO中,所有问题都是从真正的匿名用户查询中抽取的。使用先进的Bing搜索引擎版本,从实际的Web文档中提取数据集中的答案的上下文段落。

推荐度:★★★,推荐应用方向:自然语言理解、智能问答

介绍和下载地址:http://www.msmarco.org/

Question Pairs

第一个来源于 Quora 的包含重复/语义相似性标签的数据集。数据集由超过40万行的潜在问题的问答组成。每行数据包含问题ID、问题全文以及指示该行是否真正包含重复对的二进制值。

推荐度:★★★,推荐应用方向:自然语言理解、智能问答

介绍和下载地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

SQuAD

斯坦福问答回答数据集(SQuAD)是一个新的阅读理解数据集,从维基百科中提炼出的问题组成,每个问题的答案都是相应段落的一段文本。在500多篇文章中有超过10万个问答对。

推荐度:★★★,推荐应用方向:文本挖掘、自然语言理解、智能问答

介绍和下载地址:https://rajpurkar.github.io/SQuAD-explorer/

Maluuba NewsQA

Maluuba的NewsQA数据集的目的是帮助研究团队建立能够回答需要人为理解和推理技能的问题的算法。它包含了从DeepMind问答数据集中的CNN文章中抽取了120K个常见问题。

推荐度:★★,推荐应用方向:文本挖掘、自然语言理解、智能问答

介绍地址:https://datasets.maluuba.com/NewsQA

下载地址:https://github.com/Maluuba/newsqa

1 Billion Word Language Model Benchmark

这是一个大型、通用的语言建模数据集,该项目的目的是提供语言建模实验的标准培训和测试,常用于如 word2vec 或 Glove 的分布式词语表征。

推荐度:★★,推荐应用方向:文本挖掘、自然语言理解

介绍和下载地址:http://www.statmt.org/lm-benchmark/

Maluuba Datasets

这是一个用于自然语言理解研究的复杂的人工数据集,主要包括NewsQA和Frames。它主要用于机器阅读理解、面向对象的对话系统、对话界面和加强学习。

推荐度:★★,推荐应用方向:自然语言理解、智能问答

介绍和下载地址:https://datasets.maluuba.com/

Common Crawl

Common Crawl包含了超过7年的网络爬虫数据集,拥有PB级规模,常用于学习词嵌入。

推荐度:★★,推荐应用方向:文本挖掘、自然语言理解

介绍和下载地址:http://commoncrawl.org/the-data/

20 Newsgroups

该数据集包含大约20000个新闻组文档,在20个不同的新闻组中平均分配,是一个文本分类的经典数据集,它是机器学习技术的文本应用中的实验的流行数据集,如文本分类和文本聚类。

推荐度:★★,推荐应用方向:文本挖掘

介绍和下载地址:http://qwone.com/~jason/20Newsgroups/

4. 音频数据集

大型音乐分析数据集FMA

该数据集是免费音乐存档(FMA)的转储,这是一个高质量的合法音频下载的互动库。这些数据集中包含歌曲名称、音乐类型、曲目计数等信息,共计689种歌曲和68种类型。该数据集可用于音乐分析。

推荐度:★★★,推荐应用方向:音乐分析挖掘

介绍和下载地址:https://lts2.epfl.ch/datasets/fma/

音频数据集AudioSet

谷歌发布的大规模一品数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。

推荐度:★★★,推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音分析挖掘

介绍和下载地址:https://github.com/audioset/ontology

2000 HUB5 English Evaluation Transcripts

该数据集由NIST(国家标准与技术研究院)2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成,其仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。

推荐度:★★★,推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音识别

介绍和下载地址:https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech

该数据集为包含文本和语音的有声读物数据集,由Vassil Panayotov编写的大约1000小时的16kHz读取英语演讲的语料库。数据来源于LibriVox项目的阅读有声读物,并经过细致的细分和一致。

推荐度:★★,推荐应用方向:自然语音理解和分析挖掘

介绍和下载地址:http://www.openslr.org/12/

VoxForge

该数据集是带口音的语音清洁数据集,对测试模型在不同重音或语调下的鲁棒性非常有用。

推荐度:★★,推荐应用方向:语音识别

介绍和下载地址:http://www.voxforge.org/

TIMIT

这是一份英文语音识别数据集,包含630个扬声器的宽带录音,八个主要方言的美式英语,每个阅读十个语音丰富的句子。TIMIT语料库包括时间对齐的正字法,语音和单词转录以及每个话语的16位,16kHz语音波形文件。

推荐度:★★,推荐应用方向:语音识别

介绍和下载地址:https://catalog.ldc.upenn.edu/LDC93S1

CHIME

这份语音一份包含环境噪音的用于语音识别挑战赛(CHiME Speech Separation and Recognition Challenge)的数据集。该数据集包含了训练集、开发机、测试集三部分,每份里面包括了多个扬声器在不同噪音环境下的数据。

推荐度:★★★,推荐应用方向:语音识别

介绍和下载地址:http://spandh.dcs.shef.ac.uk/chime_challenge/index.html

TED-LIUM

TED Talk 的音频数据集,包含1495个录音和音频会议、159848条发音词典和部分WMT12公开的语料库。

推荐度:★★★,推荐应用方向:语音识别

介绍和下载地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

除了上述公开数据集外,不要忘记大多数机器学习和数据挖掘工具本身也附带有datasets资源,甚至像sklearn还提供了生成模拟数据的功能(实际上专业的数据工具都有很多),请见sklearn中的datasets方法。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-11-12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
收藏 | 全网最大机器学习数据集,视觉、NLP、音频都在这了
每年都有很多大型、高质量的数据集发布,其中大多数数据集都发布在各自的网站上,通过谷歌搜索很难找到所有这些数据集。
CDA数据分析师
2019/05/09
1.1K0
收藏 | 全网最大机器学习数据集,视觉、NLP、音频都在这了
资源 | 这是一份非常全面的开源数据集,你,真的不想要吗?
选自Medium 作者:Bharath Raj 机器之心编译 参与:高璇、王淑婷 近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现机器之心将其整理如下:(内附链接哦~) 最近新增数据集 开源生物识别数据:http://openbiometrics.org/ Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。 地址:https://resea
机器之心
2018/09/20
7640
【资源】最好用的 AI 开源数据集 Top 39:计算机视觉、NLP、语音等 6 大类
【新智元导读】本文按计算机视觉、自然语言处理、语音识别、地理空间数据等人工智能的子领域分类,精心整理,每个数据集均附有下载链接,是做 AI 研究不容错过资源。 今天,构造 AI 或机器学习系统比以往任何时候都更加容易。我们有许多开源的最前沿的工具,如 TesorFlow,Torch,Spark 等,也有 AWS、Google Cloud 以及其他云服务提供商提供的大量计算力,这意味着你可以悠哉地一边喝着咖啡一边用 laptop 训练模型。 虽然不算人工智能这列火车的车头,但 AI 革命的幕后英雄是数据——得
新智元
2018/03/27
1.8K0
【资源】最好用的 AI 开源数据集 Top 39:计算机视觉、NLP、语音等 6 大类
【数据集】机器学习数据集汇总(附下载地址)
(Stanford)69G大规模无人机(校园)图像数据集【Stanford】 http://cvgl.stanford.edu/projects/uav_data/
zenRRan
2020/02/18
5.8K0
500款各领域机器学习数据集,总有一个是你要找的
金融 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 沪深股票除权除息、配股增发全量数据,截止 2016.12.31 http://dataju.cn/Dataju/web/datasetInstanceDetail/344 上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票 http://dataju.cn/Dataju/web/datasetInstanceDetail/340
小莹莹
2018/04/20
4.3K0
玩机器学习要知道哪些开源数据库?
开发 AI 和机器学习系统从来没有像现在这样方便。 类似于 TensorFlow、Torch 和 Spark 这样的开源工具,在 AI 开发者群体中已是无处不在。再加上亚马逊 AWS、Google Cloud 等云服务带来的海量计算能力,将来使用笔记本电脑来训练 ML 模型或许不再难以想象。 公众对 AI 的遐想,总忽视了数据的角色。但海量被标记、注解过的数据,是当下 AI 革命当之无愧的主要推手之一。业内研究团队和公司机构,均明白“数据民主化”的意义——使任何开发者都能获取高质量的数据来训练、测试模型,是
AI研习社
2018/03/19
9910
玩机器学习要知道哪些开源数据库?
CNN测试成绩超越谷歌,初创企业拓展自然语言理解新疆界(论文下载)
【新智元导读】加拿大人工智能公司Maluuba昨日发布了一款基于机器学习的自然语言理解程序EpiReader,能理解并处理未经组织的自然语言在机器理解文本,并在常用的CNN和CBT数据集测试中取得了目前为止的最佳成绩,超越行业领导者IBM Waston、Facebook和谷歌 DeepMind。作为该公司顾问,Yoshua Bengio把EpiReader称为一个有意思的进步,并认为该技术将会推动Siri、Cortana、Alex等智能助理的问答能力。 加拿大人工智能初创公司Maluuba昨日发布了一款基于
新智元
2018/03/22
6590
机器学习经典开源数据集
"数据为王,使用相同机器学习算法,不同质量的数据能训练出不同效果的模型。本文将分享数据科学领域中经典的几个开源数据集。
木东居士
2018/05/25
2.5K8
深度学习公司Maluuba发布世界上最大的人造问答集来推动人工智能的研究
MALUUBA是一家深度学习公司,位于加拿大魁北克省蒙特利尔市,致力于从事促进机器人像人类一样思考、推理和交流的事业。该公司今天宣布即将公开发行两个复杂的自然语言理解数据集。在资源的可利用化过程中,MALUUBA公司旨在进一步推动和促进人工智能领域的研究,以取得突破性创新成果。 Maluuba公司的新数据集是自然产生的,而不是人工生成的,它探索了人类在读写和对话方面的基本能力。这些数据集具有一定的复杂性,目前已经应用于开发机器的阅读理解能力、面向目标的对话系统和对话接口领域的研究。 “我们相信,语言的理解
AI科技大本营
2018/04/26
8730
算法金 | 一文看懂人工智能、机器学习、深度学习是什么、有什么区别!
然而,随着时间的推移,AI不再仅仅是幻想的产物,它已经成为我们日常生活中不可或缺的一部分。
算法金
2024/06/16
2450
算法金 | 一文看懂人工智能、机器学习、深度学习是什么、有什么区别!
【机器学习】让大模型变得更聪明
当前的大模型,尽管能够生成类似人类的文本和在特定任务中表现优异,但在真正理解上下文和语义方面仍存在局限。例如,GPT-3等模型可以生成流畅的文章,但在遇到复杂逻辑推理或多步骤推理时,容易出现错误。这说明,模型在语义理解和逻辑推理方面的能力还有待提升。
屿小夏
2024/06/02
2690
【机器学习】让大模型变得更聪明
50种机器学习和预测应用的API,你想要的全都有
翻译 | Drei 编辑 | Just 出品 | 人工智能头条(公众号ID:AI_Thinker) API 是一套用于构建软件程序的协议和工具。对于应用开发者而言,有了开放的 API,就可以直接调用其他公司做好的功能为我所用,这在很大程度上提升了工作效率。 本文整理了以下四大类共 50 种 API,为你节省了寻找资源的时间。总之,你所需要的可能基本都在下面了: 人脸和图像识别(Face Image Recognition) 文本分析,自然语言处理,情感分析(Text Analysis, NLP, Senti
用户1737318
2018/06/05
1.6K0
最强数据集集合:50个最佳机器学习公共数据集丨资源
外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,量子位为大家分享一下~
量子位
2018/12/07
35.2K1
[当人工智能遇上安全] 7.基于机器学习的安全数据集总结
《当人工智能遇上安全》系列博客将详细介绍人工智能与安全相关的论文、实践,并分享各种案例,涉及恶意代码检测、恶意请求识别、入侵检测、对抗样本等等。只想更好地帮助初学者,更加成体系的分享新知识。该系列文章会更加聚焦,更加学术,更加深入,也是作者的慢慢成长史。换专业确实挺难的,系统安全也是块硬骨头,但我也试试,看看自己未来四年究竟能将它学到什么程度,漫漫长征路,偏向虎山行。享受过程,一起加油~
Eastmount
2022/03/30
2K0
[当人工智能遇上安全] 7.基于机器学习的安全数据集总结
从人脸识别到情感分析,这有50个机器学习实用API!
大数据文摘作品 编译:大茜、Shan LIU、云舟 还在为找不到机器学习的API而烦恼吗?本篇文章将介绍一个包含50+关于人脸和图像识别,文本分析,NLP,情感分析,语言翻译,机器学习和预测的API列表,快快收藏吧~ API是一套用于构建应用软件程序的规范,协议和工具。在本文中,我们从2017年的清单中删除了停用的API,并利用新元素对其进行了更新。并且,所有的API被归类到以下几个领域: 人脸和图像识别 文本分析,NLP,情感分析 语言翻译 机器学习和预测 在每组应用中,列表中的元素按字母顺序排列。相
大数据文摘
2018/06/29
2K0
8种寻找机器学习数据集的方法 | 附数据集资源
近日,亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法。
量子位
2019/04/24
1.3K0
8种寻找机器学习数据集的方法 | 附数据集资源
先搞懂这八大基础概念,再谈机器学习入门!
翻译 | AI科技大本营 参与 | 林椿眄 准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题。 这些机器学习的专业术语能够简要地介绍最重要的机器学习概念—包括商业界和科技界都感兴趣的话题。在你遇到一位AI指导者之前,这是一份不详尽,但清楚易懂又方便在工作、面试前快速浏览的内容。 概览: 自然语言处理 数据库 计算机视觉 监督学习 无监督学习 强化学习 神经网络 过拟合 1 自然语言处理 自然语言处理对于许多机器学习方法来说是
AI科技大本营
2018/04/27
6610
先搞懂这八大基础概念,再谈机器学习入门!
资源 | MIT自然语言处理数据集和语料库集合
选自Github 作者:Karthik Narasimhan等 机器之心编译 参与:李泽南 最近,麻省理工学院(MIT)的在读博士 Karthik Narasimhan 发起了一个为自然语言处理(NLP)准备的数据集/语料库列表,以时间顺序排列。该列表将持续更新。 项目地址:https://github.com/karthikncode/nlp-datasets 范围 问答系统 对话系统 面向目标的对话系统 问答系统 MS MARCO:人工生成的机器阅读理解数据集,来自微软,2016。 论文:https:/
机器之心
2018/05/07
1.1K0
自监督学习:引领机器学习的新革命
自监督学习(Self-Supervised Learning)近年来在机器学习领域取得了显著进展,成为人工智能研究的热门话题。不同于传统的监督学习和无监督学习,自监督学习通过利用未标注数据生成标签,从而大幅降低对人工标注数据的依赖。这种方法在图像、文本和音频等多个领域都展现出了优异的性能和广泛的应用前景。本文将深入探讨自监督学习的核心概念、先进方法及其在实际应用中的表现,并提供一些代码示例,帮助读者更好地理解这一引领新革命的技术。
平凡之路.
2024/10/14
1710
自监督学习:引领机器学习的新革命
大数据数据集下载_免费数据库有哪些
“聚数据”平台整理了网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。
全栈程序员站长
2022/11/03
1.2K0
推荐阅读
相关推荐
收藏 | 全网最大机器学习数据集,视觉、NLP、音频都在这了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档