击上方
“蓝色字”
可关注我们!
今日分享:数据来源 数据类型 数据集
一 数据来源
按照数据所有权来分
企业:无论是什么类型的公司,总会在业务进行中不断积累各种数据,只不过是在数据量的大小方面有所差异。
政府:毫无疑问该主体几乎拥有各行各业的大量数据,但是是否向社会开放仍是一个问题。部分发达国家在数据的公开获取方面做得还是不错的,当然了,部分发展中国家在数据公开方面在不断进步。
科研机构:该类型机构实验数据比较多
按照数据获取渠道来分
自有:对于企业来说,这是其数据来源的主要渠道
购买:通过向各行各业的数据供应平台购买获得
爬取:虽然这种方式的合理合法性有待商榷,但这确实是一种常见的数据获取途径,其就是通过爬虫在遵循(说是这样说,大家都明白)robots协议的基础上来合理合法地爬取各种数据,一般来说。对于初创公司,由于业务量较少,自有数据较少,除了购买数据外,多通过该途径获取数据。
二 数据类型
机器学习模型中经常使用的数据主要分为以下两种类型
离散型数据:
由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。
比如说某个体观察对象的身高、体重等描述性数据,这些都是离散型数据
连续型数据:
变量可以在某个范围内取任一数,即变量的取值可以是连续的,这类整数通常是非整数,含有小数部分。
比如,长度、时间、质量值等,这种都是连续型数据
简单来说:离散型数据在区间内不可分,1是1 ,2是2,其分别代表某固定的意义;而连续型数据在区间内可分,变化的无非是其精确度。
以上两种数据类型是机器学习模型中处理不同问题的重要依据。比如分类、回归算法,其目标值的数据类型是不同的,因此可在前期分析问题时根据目标值的数据类型来判断后期具体使用哪种算法,具体内容会在以后推文中具体阐述。
三 常用数据集
scikit-learn自带数据集,大家在安装该框架时,已自动将常用的几个数据集下载到本地,可在该模块下找到具体的csv数据文件。
特点:
1、数据量较小,分别包括几百到几千个观测对象的数据
2、方便学习,在学习某种算法模型时,直接用这些数据来跑程序,耗时较少,便于模型效果展示及程序调试。
网址:http://scikit-
learn.org/stable/datasets/index.html#datasets
UCI数据库是加州大学欧文分校提出的用于机器学习的数据库,这个数据库目前共有335个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。
特点:
1、收录了360个数据集 2、覆盖科学、生活、经济等领域 3、数据量几十万
网址:http://archive.ics.uci.edu/ml/
Kaggle数据集,参加kaggle数据科学竞赛的小伙伴应该对此不陌生,上面的数据多是来源于实际业务场景。
特点:
1、大数据竞赛平台 2、80万科学家参与 社区活跃度高 3、真实数据 4、数据量巨大
网址:https://www.kaggle.com/datasets
各位老铁点击文末广告支持一下小编,谢谢
公众号QQ群
扫QQ群二维码进交流学习群
领取专属 10元无门槛券
私享最新 技术干货