Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Sklearn库中的数据集

Sklearn库中的数据集

作者头像
王荣胜
发布于 2020-03-13 09:47:25
发布于 2020-03-13 09:47:25
2K0
举报

一、Sklearn介绍

scikit-learn是Python语言开发的机器学习库,一般简称为sklearn,目前算是通用机器学习算法库中实现得比较完善的库了。其完善之处不仅在于实现的算法多,还包括大量详尽的文档和示例。其文档写得通俗易懂,完全可以当成机器学习的教程来学习。

二、Sklearn数据集种类

sklearn 的数据集有好多个种

  • 自带的小数据集(packaged dataset):sklearn.datasets.load_<name>
  • 可在线下载的数据集(Downloaded Dataset):sklearn.datasets.fetch_<name>
  • 计算机生成的数据集(Generated Dataset):sklearn.datasets.make_<name>
  • svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(...)
  • 从买了data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(...)

三、Sklearn数据集

1.有关数据集的工具类

clearn_data_home 清空指定目录

get_data_home 获取sklearn数据根目录

load_files 加载类目数据

dump_svmlight_file 转化文件格式为svmlight/libsvm

load_svmlight_file 加载文件并进行格式转换

load_svmlight_files 加载文件并进行格式转换

2.有关文本分类聚类数据集

fetch_20newsgroups 新闻文本分类数据集

fetch_20newsgroups_vectorized 新闻文本向量化数据集

fetch_rcv1 路透社英文新闻文本分类数据集

有关人脸识别的数据集

fetch_lfw_pairs 人脸数据集

fetch_lfw_people 人脸数据集

fetch_olivetti_faces 人脸数据集

3.有关图像的数据集

load_sample_image 图像数据集

load_sample_images 图像数据集

load_digits 手写体数据集

4.有关医学的数据集

load_breast_cancer 乳腺癌数据集

load_diabetes 糖尿病数据集

load_linnerud 体能训练数据集

5.其他数据集

load_wine 葡萄酒数据集

load_iris 鸢尾花数据集

load_boston 波士顿房屋数据集

fetch_california_housing 加利福尼亚房屋数据集

fetch_kddcup99 入侵检测数据集

fetch_species_distribution 物种分布数据集

fetch_covtype 森林植被数据集

load_mldata mldata.org 在线下载的数据集

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-02-5,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
43种机器学习开源数据集(附地址/调用方法)
学习机器学习是一个不断探索和实验的过程,因此,本文将主要介绍常见的开源数据集,便于学习和实验各种机器学习算法!
扬起
2022/06/30
1.4K0
43种机器学习开源数据集(附地址/调用方法)
4,数据的获取
sklearn 数据集一览 类型 获取方式 自带的小数据集 sklearn.datasets.load_... 在线下载的数据集 sklearn.datasets.fetch_... 计算机生成的数据集 sklearn.datasets.make_... svmlight/libsvm格式的数据集 sklearn.datasets.load_svmlight_file(...) mldata.org在线下载数据集 sklearn.datasets.fetch_mldata(...) 自带的小数据集: 鸢尾
lyhue1991
2020/07/20
8000
【机器学习基础】获取机器学习和深度学习的练习数据
初学者学习机器学习和深度学习的时候,经常会找不到练习的数据,本文提供了获取数据的一些方法。
黄博的机器学习圈子
2020/10/29
6250
一些著名的数据科学公开数据集与数据源
一些可视化库和机器学习库有着内置数据集的传统。因为库的文档和案例通常会使用一些数据集来举例、内置数据集后方便用户学习该库的可视化语法,方便复现效果。
蛰虫始航
2021/03/11
1.6K0
一些著名的数据科学公开数据集与数据源
训练机器学习模型,可使用 Sklearn 提供的 16 个数据集 【上篇】
数据是机器学习算法的动力,scikit-learn或sklearn提供了高质量的数据集,被研究人员、从业人员和爱好者广泛使用。Scikit-learn(sklearn)是一个建立在SciPy之上的机器学习的Python模块。它的独特之处在于其拥有大量的算法、十分易用以及能够与其他Python库进行整合。
Regan Yue
2023/04/27
1.7K0
训练机器学习模型,可使用 Sklearn 提供的 16 个数据集 【上篇】
dataset数据集有哪些_数据集类型
​ sklearn的数据集库datasets提供很多不同的数据集,主要包含以下几大类:
全栈程序员站长
2022/08/03
1.9K0
dataset数据集有哪些_数据集类型
sklearn提供的自带的数据集(make_blobs)
这些数据集都可以在官网上查到,以鸢尾花为例,可以在官网上找到demo,http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html
周小董
2019/03/25
3.5K0
sklearn提供的自带的数据集(make_blobs)
盘点 | Python自带的那些数据集
在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提供的函数load_dataset("数据集名称")来获取线上相应的数据,返回给我们的是一个pandas的DataFrame对象。
小萌哥
2020/07/21
3.4K0
盘点 | Python自带的那些数据集
NumPy Cookbook 带注释源码 十、Scikit 中的乐趣
# 来源:NumPy Cookbook 2e Ch10 加载示例数据集 from __future__ import print_function from sklearn import datas
ApacheCN_飞龙
2019/02/15
6250
NumPy Cookbook 带注释源码 十、Scikit 中的乐趣
快速入门Python机器学习(二)
lcenter_box:中心确定之后的数据边界,默认值(-10.0, 10.0)。
顾翔
2022/05/22
5800
如何使用sklearn加载和下载机器学习数据集
sklearn 中提供了很多常用(或高级)的模型和算法,但是真正决定一个模型效果的最后还是取决于训练(喂养)模型时所用的数据。sklearn 中的 sklearn.datasets 模块包含了数据生成相关的功能。主要包含以下几种类型的数据集:
abs_zero
2018/04/11
4.4K0
如何使用sklearn加载和下载机器学习数据集
使用scikit-learn构建数据集
数据是机器学习的必备条件,输入数据的质量高低,是影响机器学习模型效果的决定性因素条件之一。对于机器学习的学习者而言,拥有一个数据集来练手是第一步。在scikit-learn中,提供了多种构建数据的方法
生信修炼手册
2021/01/25
1.1K0
机器学习实战 | 第一章:sklearn常用工具介绍
写在前面: 花了大力气学了很多的理论,也用Python实现了其中大部分的算法.接下来开始就进入实战阶段了. 实战阶段有三个重点: 1.选择合适的机器学习框架来减轻负担 2.怎么把实际的问题抽闲成为机器学习的问题 3.理论和实践切换 接下来的过程中,会经常性的使用scikit-learn和pandas等等工具来把理论部分的算法都过一遍.然后讲讲算法在实践中的作用. scikit-learn自带数据集 scikit-learn自身带了一些数据集,这些数据集通常比较简单常见的.这些数据集可能还做不到足以
用户1332428
2018/03/08
5690
机器学习实战 | 第一章:sklearn常用工具介绍
scikit-learn 之人脸数据集
最近我要对人脸数据进行特征提取,免不了获取人脸数据集,第一次运行加载人脸数据集函数需要下载数据集下载好久,当然加速下载也是很简单的。
不可言诉的深渊
2020/02/17
1.1K0
scikit-learn 之人脸数据集
推荐一些数据集
我们平时经常遇到去哪里下载数据的问题,想必你也为找到想要的数据而颇费周折,我也经常花费不少精力在寻找数据。这几天,特意检索了下,以下所列都可正常打开。
double
2019/05/16
1.6K0
推荐一些数据集
21 句话入门机器学习!
机器学习有四种用途:分类、聚类、回归和降维。更严格一点,机器学习的目的只有三个:分类、聚类和回归,降维不过是达成目标的手段之一。
数据STUDIO
2023/09/04
3010
21 句话入门机器学习!
sklearn数据集的获取与划分
获取sklearn本地的数据集 from sklearn.datasets import load_iris li = load_iris() print("数据集描述为:") print(li.DESCR) print("目标值为:") print(li.target) print("数据为:") print(li.data) print("特征描述名称为:") print(li.feature_names) print("目标描述名为:") print(li.target_names) 从网络
zhaoolee
2018/04/19
1.7K0
sklearn数据集的获取与划分
sklearn API 文档 - 0.18 中文翻译
所有函数和类的确切API,由docstrings给出。API会为所有功能提供预期类型和允许的功能,以及可用于算法的所有参数。 原文链接 : http://scikit-learn.org/stab
片刻
2018/01/05
3.7K0
sklearn自带的数据集以及生成数据
load_boston([return_X_y]) 加载波士顿房价数据;用于回归问题
西西嘛呦
2020/08/26
1.8K0
sklearn自带的数据集以及生成数据
scikit-learn的核心用法
Scikit-learn是基于NumPy、 SciPy和 Matplotlib的开源Python机器学习包,它封装了一系列数据预处理、机器学习算法、模型选择等工具,是数据分析师首选的机器学习工具包。自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了,scikit-learn简称sklearn,在 Sklearn 里面有六大任务模块:分别是分类、回归、聚类、降维、模型选择和预处理,此外还有一个数据引入模块。
Here_SDUT
2022/09/19
1.2K0
scikit-learn的核心用法
相关推荐
43种机器学习开源数据集(附地址/调用方法)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档