目前有很多开源的标注工具,但只解决了数据标注链路中的部分环节。对于可流程化的标注作业来说,除了支撑图像、文本和音视频的标注外,还需考虑数据的存取、人员的分配、标注进度管理和标注看板等内容。
图像的标注真可谓是费时费力。根据计算机视觉的细分领域,标注任务也可分为2D姿态标注、分割标注、分类标注和物体标注等。因此标注功能需要满足点、线、面的增删改查,还要注重可视化的设计,便于区分标注结果。
常见的NLP任务有文本分类、OCR、NER、文本摘要等,因此标注功能需要满足字、词、语句和段落的选中,和多标签的展示。
其他暂未接触,故不多说。
数据集管理基础是要实现数据的增删改查,此外要考虑数据的录入方式,如本地上传和数据库读取。
对于标签,自定义的需求比较大,因此标签管理除了常规的模版外,如果能支持可配置的能力,平台的通用性能将大大提升。
标签一般是由需求方确定并维护的,除了增删改查外,标签如何在标注页面交互、是否支持快捷键等,将影响标注效率
对于平台来说,人员管理也是基础的增删改查,但需要考虑人员与数据的关系、人员与任务的关系、人员与团体的关系。
对于团体来说,人员管理除了增删改查外,更多的是角色管理,例如打标人员和检查人员。
创建标注任务时,需要指定数据,需要指定人员,还需要指定任务的工作流程。工作流程可分为:
1、仅标注
2、标注+检查
3、标注+检查+驳回
这里建议工作流尽可能简单,后面牵扯的逻辑是比较复杂的,例如人员配置、任务回收、数据统计等。
任务管理除了增删改查外,还要增加任务的分发、任务的转派和任务进度看板。
标注页面要尽可能地增加交互,来提升标注效率。
例如图像标注,需要有图像的缩放功能;文本标注,需要对文本的展示进行优化;
看板可细分为数据看板、任务看板和人员看板。
数据看板主要是反馈标注关键指标,如标注数量、标注精度、检查数量和检查精度;
任务看板则是任务明细表的展示;
人员看板则关注标注数量、效率等指标;
对于大批量的数据标注来说,不适合人工手动创建任务,因此需要提供API。
对于上面的功能来说,API可开放增加和查询的能力,对删除和修改的能力进行限制,防止误操作。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。