数据准备阶段通常会占到实际机器学习任务的79%的时间。包括数据采集、数据清洗(清理)、数据标注、数据验收、数据交付等阶段。
数据采集:采集之前,要对数据来源进行考察,越熟悉的数据来源越好。采集一般有四种途径,分别观测数据、人工收集、调查问卷、线上数据库
数据清理(也叫数据清洗):现实世界的数据是非常脏的,数据清理工作是繁琐的,但却是至关重要。做好版本管理,至少三种:原始数据、某一步处理过后的数据、最终有待分析的数据。主要处理以下几种数据:缺失的数据、重复的数据、内容错误的数据(逻辑、格式错误)、不需要的数据。
数据标注:可以对语音、文本、图像、视频等进行标注,形式有打点、分类、画框、3D画框、目标物体轮廓线、注释、文本转录等,这是一个标记数据对象的过程,目的是作为机器学习的标签。例如对一段语音进行文本注释,就是一个语音数据的标注过程,海量的语音片段和对应的文本,就形成了数据输入和标签,供机器学习使用。
数据划分:标注之后划分为训练集和测试集。拆分比例通常训练集比重较大,8:2或7:3等。
数据验收:就是检查,合法性(自身业务特点或约束程度)、准确性、完整性、一致性等。合法性举例,定义的业务规则,或者约束的程度。业务特点或者逻辑特点,数据约束:类型约束(布尔值 数字 日期等),范围约束(特定的日期范围内),唯一约束(保证在数据集中唯一),离散值(必须是离散型数,如性别只有男女两种)。
数据管理:数据作为一种资产,企业按照新型资产来管理。与数据治理的区别和联系。管理包含治理,治理是管理的一部分。
与数据相关的问题:数据不足(数据扩充)、隐私泄露、分类质量低、数据质量低
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。