Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >通用文本标注工具 labelme

通用文本标注工具 labelme

原创
作者头像
理查德
修改于 2017-11-09 03:17:29
修改于 2017-11-09 03:17:29
11.4K4
举报
文章被收录于专栏:理查德的专栏理查德的专栏

导语: 一个支持文本类目标注和关键词打分的通用标注工具,为文本分类模型和关键词抽取任务提供训练和测试数据。-- by 慕福楠 & 孙振龙

1. 背景

很多 NLP 任务训练和评估都依赖大量标注数据,对于文本分类,使用标注数据进行模型训练和评测,如商业兴趣分类、电商分类、APP分类;对于关键词抽取,使用标注数据进行评测。在标注数据获取过程中存在以下问题:Excel 标注方式效率低下;腾讯系数据源多,标注数据难于管理;标注质量难以保证,依赖人工抽样,费时费力。因此,我们快速开发了一个通用的文本标注工具并开源,工具名称为labelme,翻译成“来标我”,现在labelme已经支持组内所有的标注任务。

2. 支持的特性

图1 labelme支持的特性

2.1 多场景

目前支持文本类目标注(图2)和关键词标注(图3)两个场景。类目标注支持树状类目体系,标注时自顶向下标注,从root标注到叶节点,例如图2中,先标一级“餐饮美食”,再标二级“餐馆”。关键词标注支持正在打分的关键词在文档中高亮和增加候选中没有的关键词功能。

图2 类目标注界面

图3 关键词标注界面

2.2 多任务

labelme支持多个任务同时标注,通过简单的配置即可增加新的标注任务,配置如图4,然后在系统登录页选择相应的Task进行标注,如图5所示。

图4 配置定义

图5 系统登录页

2.3 质量校验

为了保证标注数据质量,labelme引入质量校验特性,利用专家标注的数据验证普通标注人员的标注数据的准确率。将开发或者产品定义为Owner(专家),将外包同学定义为Labeler(普通标注人员),Owner标注的数据作为Golden Set,Labeler每天的标注数据中掺一定比例的Golden Set,比例可配置(配置定义中的owner_sample_ratio字段),每天以Golden Set作为正确答案,计算Labeler标注的准确率。Labeler之间的标注数据不会有交集,见图6,每天分配给Labeler的Golden Set是Labeler没有标注过的,所以一旦Golden Set用完,系统无法计算准确率,需要Owner定期标注一些Golden Set计算Labeler的准确率。

图6 各角色标注数据交集情况

2.4 Active Learning(待实现)

对于类目标注, 为了提高标注效率和减少不必要的标注,可以利用已有标注数据训练弱分类器,对未标注数据进行预测,假定预测的结果为Pi (i = 1, 2, ...N;N是类目的个数),预测结果为c = argmax_i Pi,即样本的预测类别为c,概率为Pc,labelme将Pc低于threshold的样本返回给标注人员进行标注,Pc高于threshold的样本认为是跟已标注样本很相似,不需要再标注。每天重新训练弱分类器,重新预测未标注样本的类别,重新估计threshold。另外,为了降低系统复杂度,弱分类器与labelme解耦,labelme提供接口给弱分类器,接口包括获取已标注数据和未标注数据,更改未标注数据预测类别,弱分类器由用户自行选择。另外,labelme优先展示概率比较大的类目,提高标注效率。

2.5 CDB数据管理

labelme采用mysql管理标注数据,mysql使用CDB,保证数据安全,毕竟标注数据需要大量人力。

2.6 报表推送

labelme会向任务的owner和labeler推送报表,报告样本总量,已标数据,剩余数量,每个人前一天标注数量和准确率。

3. 未来计划

未来工作包括UI优化和Active Learning。UI优化包括上一页按钮和查询界面,上一页按钮为了修改误标的数据,查询界面是报表的扩展,提供更多维度的查询,比如某个外包同学特定时间段内所有任务的标注量和正确率。对于Active Learning上文提到了未来的实现方式,这里不再赘述。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
4 条评论
热度
最新
求地址
求地址
回复回复点赞举报
求开源、
求开源、
回复回复点赞举报
开源地址在哪里?
开源地址在哪里?
回复回复点赞举报
开源在哪里
开源在哪里
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
IJCAI2019报告:基于无监督学习和图学习的大数据挖掘
在IJCAI-2019期间举办的腾讯TAIC晚宴和Booth Talk中,来自TEG数据平台的张长旺向大家介绍了自己所在用户画像组的前沿科研结果: 1. 非监督短文本层级分类; 2. 大规模复杂网络挖掘和图表示学习。 其所在团队积极与学术界科研合作,并希望有梦想、爱学习的实力派加入,共同研究和应用半监督/弱监督/无监督学习、小样本学习、大规模复杂网络挖掘和图表示学习等做大数据挖掘。 科研结果1:非监督短文本层级分类 首先以下用户和AI算法的对话,显示了现实业务中使用现有监督文本分类算法的遇到
腾讯技术工程官方号
2019/08/20
1.5K0
IJCAI2019报告:基于无监督学习和图学习的大数据挖掘
Snorkel实战NLP文本分类
本文是作者一个tweet/微博文本分类实战项目的全程重现与总结。该项目的最大特点是使用了弱监督技术(Snorkel)来获得海量标注数据,同时使用预训练语言模型进行迁移学习。
用户1408045
2019/08/22
2.1K0
Snorkel实战NLP文本分类
标注工具labelme_数据标注从哪里接单
Labelme 是一个图形界面的图像标注软件。其的设计灵感来自于 http://labelme.csail.mit.edu/ 。它是用 Python 语言编写的,图形界面使用的是 Qt(PyQt)。
全栈程序员站长
2022/10/01
2.2K0
标注工具labelme_数据标注从哪里接单
【数据挖掘】文本挖掘:语义分析的一些方法
语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。 1 文本基本处理 在讲文本语义分析之前,我们先说下文本基本处理,因为它构成了语义分析的基础。而文本处理有很多方面,考虑到本文主题,这里只介绍中文分词以及Term Weighting。 1.1 中文分词 拿到一段文本后,通常情况下,首先要做分词。分词的方法一般有如下几种: 基于字符串匹配的分词方法。此方法按照不同的扫描方式,逐个查找词库进行分词。根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分(即最短路径);总
陆勤_数据人网
2018/02/27
9.3K0
【数据挖掘】文本挖掘:语义分析的一些方法
labelme图像标注_ai标注工具
参考:https://blog.csdn.net/u011574296/article/details/79740633
全栈程序员站长
2022/10/01
1.3K0
labelme图像标注_ai标注工具
干货 | 弱监督学习框架 Snorkel 在大规模文本数据集"自动标注"任务中的实践
近年来,得益于深度学习的巨大发展,自然语言处理(NLP)领域也爆发了多个如 BERT 等state-of-the-art模型,供从业人员使用。但是这些开源的最先进的模型大多是在通用的基准数据集上训练得到的,当我们在具体工业场景中使用时往往还是需要在具体使用场景的数据集上进行微调。获得这些特定领域数据集的传统方式是人工标注。这些手工标注的数据集创建起来既昂贵又耗时,特别是对于一些比较难的任务往往人工标记的准确度也无法达到要求。
携程技术
2021/09/10
2.4K0
干货 | 弱监督学习框架 Snorkel 在大规模文本数据集"自动标注"任务中的实践
NLP | 实用文本标注工具推荐
从事NLP以来,最常接触的就是各种文本标注工具,现在网上能找到的支持中文文本标注的开源工具不多。在我们团队发展前期,尝试了很多不同的开源工具,像是BRAT,YEDDA,DeepDive,由于之前做的大多是实体标注的项目,这些开源工具基本可以满足需求,但在使用过程中也存在着诸多不便,比如安装过程十分复杂,界面都是英文的,交互做的不够清晰,这些对标注人员都很不友好。
Ediwnaalee
2020/03/05
5.6K0
NLP | 实用文本标注工具推荐
美团获得小样本学习榜单FewCLUE第一!Prompt Learning+自训练实战
总第515篇 2022年 第032篇 近日,美团搜索与NLP部NLP中心语义理解团队的小样本学习模型FSL++在中文小样本语言理解权威评测基准FewCLUE榜单登顶,在自然语言推理(OCNLI)单任务中取得第一,并在极少数样本(一个类别仅100余个)的条件下,在新闻分类(TNEWS)、科学文献学科分类(CSLDCP)任务上超过了人类识别精确度。 1 概述 2 方法介绍 2.1 增强预训练 2.2 模型结构 2.3 数据增强 2.4 集成学习&自训练 3 实验结果 3.1 数据集介绍 3.2 实验对比 4
美团技术团队
2022/06/13
1.3K0
美团获得小样本学习榜单FewCLUE第一!Prompt Learning+自训练实战
美团大脑百亿级知识图谱的构建及应用进展
导读:美团作为中国最大的在线本地生活服务平台,连接着数亿用户和数千万商户,其背后蕴含着丰富的与日常生活相关的知识。美团知识图谱团队从2018年开始着力于图谱构建和利用知识图谱赋能业务,改善用户体验。具体来说,“美团大脑”是通过对美团业务中千万数量级的商家、十亿级别的商品和菜品、数十亿的用户评论和百万级别的场景进行深入的理解来构建用户、商户、商品和场景之间的知识关联,进而形成的生活服务领域的知识大脑。目前,“美团大脑”已经覆盖了数十亿实体、数百亿的三元组,在餐饮、外卖、酒店、到综等领域验证了知识图谱的有效性。今天我们介绍美团大脑中生活服务知识图谱的构建及应用,主要围绕以下3个方面展开:
DataFunTalk
2022/07/23
2.3K0
美团大脑百亿级知识图谱的构建及应用进展
广告行业中那些趣事系列32:美团搜索NER技术实践学习笔记
摘要:本篇主要是学习美团技术团队分享的《美团搜索中NER技术的探索与实践》学习笔记。首先介绍了背景,包括NER任务定义、美团搜索场景下的NER以及美团搜索NER任务面临的挑战;然后重点介绍了美团基于实体词典匹配+模型在线预测框架。通过实体词典匹配可以解决头部搜索NER匹配问题,而长尾复杂的搜索则通过模型在线预测解决。对于想了解美团搜索NER技术实践的小伙伴可能有所帮助。
数据拾光者
2022/05/05
7960
广告行业中那些趣事系列32:美团搜索NER技术实践学习笔记
Mask_RCNN训练自己的数据,标注工具Labelme的使用说明
https://blog.csdn.net/qq_15969343/article/details/80893844
全栈程序员站长
2022/11/10
1.3K0
Mask_RCNN训练自己的数据,标注工具Labelme的使用说明
业务安全(1)-天御内容安全
此系列将写一个系列给大家介绍腾讯云上的业务安全产品,希望加深大家对于腾讯业务安全产品的了解和熟悉,使用。
张瞳
2020/11/03
5.3K0
业务安全(1)-天御内容安全
干货 | 深度学习在携程搜索词义解析中的应用
携程旅游研发部大数据与AI研发团队,为旅游事业部提供丰富的AI技术产品和技术能力。
携程技术
2022/12/14
1.2K0
干货 | 深度学习在携程搜索词义解析中的应用
小样本学习及其在美团场景中的应用
美团的各个业务有着丰富的NLP场景,而这些场景中模型的构建需要很多的标注资源,成本很高。小样本学习致力于在数据资源稀少的情况下训练出比较好的模型。本文从主动学习、数据增强、半监督学习、领域迁移、集成学习&自训练几个方向介绍了现有的一些方法,并在美团场景进行了实验,效果上也取得了一定的提升。希望能对从事相关研究的同学有所帮助或者启发。
美团技术团队
2021/08/26
1.5K0
美团搜索中NER技术的探索与实践
命名实体识别NER是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要的地位。
美团技术团队
2020/07/27
2.3K2
美团搜索中NER技术的探索与实践
​吊打labelme,这款AI开发神器的图像标注yyds!
AI 的发展有三大内核:数据、算法、算力。现如今,算法和算力在市面上的差距显然已经没有那么大,能够给 AI 提供充足弹药支持的当属数据了。深度学习算法精度的提升严重依赖于数据,谁的数据既多又准,谁的算法精度就可能领先一步。
3D视觉工坊
2021/07/28
1.2K0
​吊打labelme,这款AI开发神器的图像标注yyds!
大众点评搜索相关性技术探索与实践
总第521篇 2022年 第038篇 搜索相关性用于衡量Query和Doc的相关程度,是搜索引擎的重要环节,本文主要讲述大众点评搜索团队在相关性计算上的技术探索和实践,通过多相似矩阵模型结构、多阶段训练等方法提升预训练模型在相关性问题上的效果,同时解决基于交互的模型在线预测的性能问题,希望为从事相关工作的同学能够带来一些启发或者帮助。 1. 背景 2. 搜索相关性现有技术 3. 点评搜索相关性计算 3.1 如何更好地构造POI侧模型输入信息 3.2 如何优化模型来更好地适配点评搜索相关性计算 3.3 如何
美团技术团队
2022/07/07
1.1K0
大众点评搜索相关性技术探索与实践
Python酒店评论文本数据分析:tf-idf、贝叶斯、逻辑回归,支持向量机SVM、K最邻近算法KNN、随机森林、LDA主题模型
随着互联网的普及和移动端的应用的飞速发展,消费者在各大电商平台进行活动交易时产生了大量的行为数据,在线评论文本就是其中一种。
拓端
2023/01/10
7630
美团外卖美食知识图谱的迭代及应用
菜品是外卖交易过程的核心要素,对菜品的理解也是实现外卖供需匹配的重点。今天我们将一次推送三篇文章,系统地介绍了美团外卖美食知识图谱的构建和应用。《美团外卖美食知识图谱的迭代及应用》会介绍外卖知识图谱的体系全貌,包括菜品类目、标准菜品、美食基础属性和美食业务主题属性。《外卖商品的标准化建设与应用》将重点介绍外卖菜品标准化建设思路、技术方案和业务应用。由于外卖的业务特点是搭配成单,而《外卖套餐搭配的探索和应用》一文会针对性地介绍外卖套餐搭配技术的迭代以及应用实践。希望对从事相关工作的同学能够带来一些启发或者帮助。
美团技术团队
2021/05/31
9260
美团外卖美食知识图谱的迭代及应用
labelme:图像数据标注
深度学习第一步就是制作数据集,手动去标注一些数据。本文将介绍一个用于图像数据标注的软件:labelme,并介绍它的安装方法,使用方法等。
数据科学工厂
2023/02/27
5K0
labelme:图像数据标注
推荐阅读
相关推荐
IJCAI2019报告:基于无监督学习和图学习的大数据挖掘
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档