首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI数据的主要类型和标注注意事项(一)

数据标注作为人工智能发展道路上的基石,是人工智能发展的重要环节。数据标注的过程是通过人工贴标签的方式,为机器提供可学习的样本数据,最终使机器可以自主识别数据。在深度学习模型的测试过程中,高质量的数据标注往往能更好地提高模型训练的质量

图像标注

图像标注是一个将标签添加到图像的过程。它可以为整个图像添加一个标签,也可以分别为图像内每组像素添加多个标签。

注意事项

l 在拉框标注或语义分割时,其标注对象就是将图像中所需标注类别分别进行框选/分割标注,框选之后每个框都会有一个对应的类别。

l 在被遮挡的情况下,遮挡部分需要脑补,但是不要脑补到图像外。

l 不遗漏框/打点数,不误标框/打点数,不多标框/打点数。

l 若出现图像较模糊无法标注的则不标。

文本标注

文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,通过标注好的训练数据,我们就可以教会机器如何来识别文本中所隐含的意图或者情感,使机器更加人性化的理解语言。

注意事项

l 同类标注属性,标注方式要保持一致。

l 在文字标注过程中,由于部分文字间隔近,若同页中有相同的元素,可以考虑隔行标注,避免标注都挤到一起。

l 标注标签的定义要细化到集体场景。

l 前期主观性的标签要具象化,明确好详细的标签边界。

l 同时标多个标签时,要避免漏标、错标、多标。

语音标注

语音标注主要是由标注员将听到的音频中的声音转写下来,并加上对应的标签。

语音标注的语种一般分为中文、方言、英文等。根据语音时长可以分为长语音和段语音,一般在三秒左右的语音分为短语音,其中语音的长短、声音质量、有无预打标结果,是否需要切割等因素都会有较大的影响语音转写的速度。

注意事项

l 确定是否包含有效语音;确定语音的噪声情况;确定说话人数量;确定说话人性别、确定是否有口音、有效语音内容转写。

l 整句话无法分辨出内容的,标为无效;背景噪音过大的,标为无效。

l 在语音标注中,除了被采集者的声音外,还可能听到其他的背景音,在一般情况下,这些都可以被当作杂音进行处理。

l 在前期语音清洗时,需要删去无效音频;在语音切割时,要保证有效音频前后静音两秒,截取时间过长或者过短都不符合语音数据标注规范。

l 语音标注的过程中的最好是使用降噪耳机,如果耳机质量不高在标注过程中,会产生很多的杂音不利于标注,容易出错

河北灵智互动科技有限公司是具备科研背景,以技术发展为导向的高新技术企业和AI基础数据服务公司,沉淀了多年的数据采集标注经验。灵智互动已为全球超百家单位提供人工智能基础数据服务,高效、超值是我们最常听到的反馈。灵智互动的服务遵旨是用最优的数据方案,最高质的数据。

灵智互动|与灵智互动携手,引领AI数据时代,共享智慧硕果

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ode_AQw1KLCFkY9k8Lf2VxoQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券