首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >庖丁解词:一键分词 自由重组

庖丁解词:一键分词 自由重组

原创
作者头像
闪闪动听
修改于 2018-07-23 01:45:17
修改于 2018-07-23 01:45:17
1.2K1
举报
文章被收录于专栏:机器学习笔记机器学习笔记

导语:庖丁解词支持将整块文本拆分为若干语义块,并对其进行自由重组,方便对重组结果进行分享和收藏等操作。

1、创新特性名

庖丁解词:一键分词 自由重组

2、主创团队名

企点移动端团队

3、创意点的产品功能/使用场景介绍(what/where)

移动设备上的文字处理大多依赖软键盘,其文字重组等复杂操作比较笨拙,不如PC上鼠标和键盘操作便捷。庖丁解词解决了移动设备上这一难题,使得移动设备上文字重组操作可以像PC一样便捷。庖丁解词主要将一段文本拆分为具有语义的文字块,用户选取感兴趣的语义块后,可以对语义块进行增加、删除和拖放排序等操作,也可对重组后的文字进行复制、分享和收藏等操作,从而形成文字处理的闭环。

终端使用效果如下:

应用场景一 商务信息处理

在 to B 商务交流中,客户经常需要面对一些重要信息,如专业术语、会议的主题、时间和联系地址等。客户对接收到的信息有再次处理的需求,如筛选专业术语,会议时间地点等,并对处理后的信息进行复制、收藏、分享等操作。

应用场景二 复杂长文本处理

在某些场景下,比如在地铁、公交车、电梯上,用户常常只能腾出一只手使用手机。某公司白领小王是企点用户,在上班途中小王常常收到领导通知,要求他把会议的时间地址发给他。在没有庖丁解词的情况下,小王需要找到之前会议主办方发的密密麻麻一段文字(掺杂了寒暄语句、会议时间地址等),然后全选-->复制--> 粘贴到输入框,并小心翼翼地删除冗余文字,调整词语先后顺序,然后再点击发送,同时祈祷自己没有手误发错信息。有了庖丁解词,小王只需要轻松一点,再复杂的文字都立刻变成文字块,单手选择需要的信息之后一键就可以分享给老板。

4、创新点的创新处具体描述(innovation)

1)一键分词

痛点:在移动设备上,若需要复制或收藏聊天窗口中一部分内容,需经过全选-->复制-->粘贴在输入框中,删除冗余文字等一系列复杂操作。用户一个小小的需求需要如此繁琐的操作来实现,大大降低了用户的使用体验。

创新:用户选中文本后点击分词,文本就像魔法一样被智能拆分,即一键分词功能。

2)自由重组

痛点:移动设备上聊天窗口往往只能对文本进行整块操作,无法对部分文字进行添加、删除或者拖放排序等重组操作。

创新:庖丁解词在一键分词后,为用户提供了添加、删除、拖放排序等功能,使用户随心所欲编辑文本。

3)重组结果使用可定制化

痛点:用户选择自己感兴趣的文字后,可能会将重组后的文字进行复制、收藏、搜索或分享等操作,由于用户使用场景不同,想法也各有不同,固定的操作入口无法满足用户所有需求。

创新:为了更好的满足用户体验需求,庖丁解词允许用户定制控件,即用户可根据自己需求设置控件功能,如分享、复制和收藏等。

4)深度挖掘分词技术

目前,中文分词技术多样且相对成熟,然而分词的准确率是我们关注的重点,尤其是针对商务场景。对比多种分词方案的基础上,最终确定jieba分词,并在此分词基础上做了改进,以更好地适用于商务场景(如时间、地点、专业名词的准确率)。

5、创意产生过程(创新点相关小故事)(why)

腾讯企点是中国领先的SaaS级社会化客户关系管理平台,涉及医疗、教育、行业证券、汽车和航空等多领域,拉近了企业和客户的距离,提高客户满意度。

“与客户交流过程中,经常收到一些消息,只想获取其中感兴趣的内容,然后进行复制、收藏或者直接分享给他人,然而目前可行的解决办法是全文选择—>复制—>粘贴输入框—>删除冗余文字,这一办法操作比较繁琐“,这一呼声在客户中从没有停止过。

坚持“一切以用户体验为归依“的理念,我们企点终端组在提高用户体验的道路上勇往直前。有一天晚饭后,在腾云19楼阳光花园休息,突然听到来自远方的烟花声音,咿,灵感乍现,能否将整块文字像烟花一样炸开呢,于是就孕育出了庖丁解词。

6、怎么实现的(how)

如图1 庖丁解词总体结构所示,庖丁解词主要包含UI和分词引擎两层结构。UI交互主要实现文本块的增、删、顺序调整,以及重组后的复制、分享、收藏等操作。分词引擎是分词的核心部分,输入待分词文本,输出有语义的文字块。其中包含词典管理、分词处理和规则管理三大模块,分词引擎运行于独立进程,分词操作均采用异步处理保证用户体验流畅。字典以离线包的形式存储,用户每次登陆时后台自动更新离线包,省去用户频繁升级App的烦恼。

图1  庖丁解词总体结构
图1 庖丁解词总体结构

1)分词

图2和图3从多维度比较了几种常用的中文分词,最终采用jieba算法进行分词,由于算法介绍篇幅过长,具体算法介绍可见我的下篇文章。

图2 分词方法的比较
图2 分词方法的比较

图3 内存和CPU占用
图3 内存和CPU占用

2)重组

仿照Android N 分屏的效果,将手机屏幕划分为上下两部分,即素材区和微调区,拖动中间蓝色分割线可调整上下区域高度。素材区主要显示分词结果,并提供素材点击操作(点击某素材,此素材将在微调区显示);微调区用以语义块的重组操作,提供删除、光标处插入、拖放等操作。具体交互如图 4、图 5和图 6所示。

图 4 素材选择
图 4 素材选择

图 5 光标处插入素材
图 5 光标处插入素材

图 6 拖放重新排序
图 6 拖放重新排序

3)重组结果的操作可定制化

对于重组后的文本,目前主要提供了复制、分享和收藏等功能,由于用户需求多样,这里对外提供接口,用户可定制搜索等其他功能入口。

7、产品的意义对未来的展望(for future)

庖丁解词为移动端文字操作提供了新思路,庖丁解词就像PC上的鼠标和键盘组合便于用户随心所欲操作文本,解决了现有冗余的文本操作,尤其是处理复杂文本。

企点对庖丁解词进行了数据埋点,后期将在参考用户反馈的基础上,专注分词的准确性、分词性能和优化用户体验。接下来会将庖丁解词抽离出组件,此组件不仅可以在企点上使用,还可以集成到腾讯其他需要进行文本操作的应用中,比如QQ和微信等。

目前,IOS和Android 没有使用相同的分词算法。我们企点终端组推出了移动端全文搜索组件(QDFts) ,其自定义了jieba分词算法(C++版本,进行了分词性能优化)。后期庖丁解词将引用QDFts中分词技术,从而实现两端分词效果统一。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
写得真好,让我豁然开朗,感谢作者分享!
写得真好,让我豁然开朗,感谢作者分享!
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
智齿科技CTO吴立楠:NLP在对话系统中的应用
9月8日20:30,CSDN 人工智能用户微信群请来智齿博创科技有限公司(以下简称“智齿科技”)联合创始人&CTO吴立楠,介绍自然语言处理(NLP)技术在对话系统中的应用,并就相关问题与群友进行互动交流。 吴立楠介绍,智齿科技人工客服的实现模型,可简化为输入、词汇模型、计算系统和输出四层架构。其中,词汇模型并行的包括记忆和推理两个部分,记忆是多轮对话的基础,推理包括分词、主干提取、聚类、指代消解等,对于对话效果影响较大。 分词是语义理解的基础而重要的工作,智齿科技尝试过大部分分词工具,但经验表明最先进的技术
用户1737318
2018/06/05
1K0
​如何用AI一键建立一个企业官网?都在说没人教你做我教你-优雅草卓伊凡
这里卓伊凡以我们星云智控科技的星云智控系统官网为例,所以首先我得有个很好的简单的介绍,很明显上一篇发过,我们已经有了
卓伊凡
2025/04/24
4360
一键生成高逼格的可视化大屏!DeepSeek提示词完全指南
传统的数据可视化开发需要专业的前端团队或借助专业的可视化平台,耗时数周甚至数月。而现在,借助DeepSeek,我们可以在几分钟内生成专业级别的可视化大屏。
一臻AI
2025/04/18
7861
一键生成高逼格的可视化大屏!DeepSeek提示词完全指南
干掉PPT!我发现了用DeepSeek一键生成炫酷网页的神仙玩法(附完整提示词)
每次到季度、年中和年终总结汇报时,都要花上大半天时间整理数据、排版、调整图表...最后做出来的PPT还是那副千篇一律的模样,看得人昏昏欲睡。
一臻AI
2025/04/14
8160
干掉PPT!我发现了用DeepSeek一键生成炫酷网页的神仙玩法(附完整提示词)
NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/52275328
悟乙己
2019/05/26
1.5K0
NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较
【迅搜03】全文检索、文档、倒排索引与分词
今天还是概念性的内容,但是这些概念却是整个搜索引擎中最重要的概念。可以说,所有的搜索引擎就是实现了类似的概念才能称之为搜索引擎。而且今天的内容其实都是相关联的,所以不要以为标题上有四个名词就感觉好像内容很多一样,其实它们都是联系紧密的,一环套一环的。
硬核项目经理
2023/11/24
7500
【迅搜03】全文检索、文档、倒排索引与分词
WordCloud 中英文词云图绘制,看这一篇就够了
摘要: 当我们手中有一篇文档,比如书籍、小说、电影剧本,若想快速了解其主要内容是什么,则可以采用绘制 WordCloud 词云图,显示主要的关键词(高频词)这种方式,非常方便。本文将介绍常见的英文和中文文本的词云图绘制,以及 Frequency 频词频词云图。
数据森麟
2019/09/27
1.3K0
干货!三大招教你轻松挖掘客户意见(含Python代码)。
随着大数据营销模式的发展,精准了解客户需求越来越重要,这其中最好的方式,就是直接收集客户意见。但客户意见往往天马行空,既无序又杂乱。虽然收集的意见不少,但分析出有效的信息少之又少。因此怎样从大量意见中挖掘出有效信息,真正读懂客户的心,成为一个刚需。
1480
2020/02/26
1.4K0
《Python 黑科技》一键分析评论关键词,制作精美词云
评论情况: {'android': 545 次, 'ios': 110 次, 'pc': 44 次, 'uniapp': 1 次}
不吃西红柿
2022/09/19
6230
《Python 黑科技》一键分析评论关键词,制作精美词云
一键生成美观彩页 + AI训练揭秘:让你的内容瞬间高大上!
你是否曾为制作精美的演示文稿而烦恼?是否对AI的训练过程充满好奇?今天,让我们一起探索如何用AI一键生成美观彩页,同时揭秘ChatGPT的训练过程!
LeonAlgo
2025/02/26
2260
一键生成美观彩页 + AI训练揭秘:让你的内容瞬间高大上!
[Python从零到壹] 十五.文本挖掘之数据预处理、Jieba工具和文本聚类万字详解
欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解,真心想把自己近十年的编程经验分享给大家,希望对您有所帮助,文章中不足之处也请海涵。
Eastmount
2022/03/30
2.5K0
[Python从零到壹] 十五.文本挖掘之数据预处理、Jieba工具和文本聚类万字详解
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
2.快递单信息抽取【二】基于ERNIE1.0至ErnieGram + CRF预训练模型
汀丶人工智能
2022/11/04
1.9K0
公众号 AI 编辑器功能特点评测:数据分析与 AI 能力解析
在现代新媒体环境中,公众号运营者常面临内容创作、排版及数据分析等多方面的挑战。壹伴作为一款公众号 AI 编辑器,整合了多种功能,旨在辅助运营者提升工作效率。本文将从其基本定位、核心功能、特点等方面进行客观解析。
用户11744956
2025/08/04
1440
公众号 AI 编辑器功能特点评测:数据分析与 AI 能力解析
别找了,你最需要的公众号运营工具都在这!
除了功能齐全,学以致用很重要。为大家推荐一些实用的微信运营工具,例如数据分析工具、排版、图片、H5页面、二维码、等相关工具,都经过亲测使用。
用户6102055
2019/08/28
3.4K0
别找了,你最需要的公众号运营工具都在这!
Python stylecloud制作酷炫的词云图
这周参加一个创新培训,结束后有个答辩需要制作ppt,为了更好的展示内容,想到用词云图。本文分享一下如何基于Python的stylecloud制作酷炫的词云图。stylecloud是wordcloud优化改良版,操作简单,直接调用。
用户9925864
2022/07/27
9690
Python stylecloud制作酷炫的词云图
深度洞察与精确匹配:基于HAI部署DeepSeekR1的公考岗位推荐与智能分析
近年来,公务员考试与事业单位招聘在中国社会中持续保持高热度,吸引了数量庞大的考生和应聘者。对于很多人而言,成功考取一份稳定且具有发展前景的“公职”是颇具吸引力的选择。然而,每年各地发布的职位公告数量众多、类别多样,且不同岗位在学历、专业、工作经历等方面的要求不尽相同。面对海量信息,考生往往需要投入大量时间和精力去筛选自己符合资格、感兴趣或具有发展空间的岗位,这一过程既繁琐又容易出错。
fanstuck
2025/02/07
5630
深度洞察与精确匹配:基于HAI部署DeepSeekR1的公考岗位推荐与智能分析
一键中文数据增强工具
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程   公众号:datayx 使用:pip install nlpcda https://github.com/425776024/nlpcda 介绍 一键中文数据增强工具,支持: 1.随机实体替换 2.近义词 3.近义近音字替换 4.随机字删除(内部细节:数字时间日期片段,内容不会删) 5.NER类 BIO 数据增强 6.随机置换邻近的字:研表究明,汉字序顺并不定一影响文字的阅读理解<<是乱序的 7.中文等价字替换(1 一 壹 ①,2 二 贰 ②)
机器学习AI算法工程
2022/07/21
9600
一键中文数据增强工具
结巴分词原理及使用「建议收藏」
目前常用的分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等,现在项目使用的分词方法是结巴分词,本次来介绍一下。
全栈程序员站长
2022/07/04
2.6K0
结巴分词原理及使用「建议收藏」
从此,让你文案自由!
这个全能的创作工具,能让你快速实现文案自由,成本大减!效率翻倍!!通过标准化的接口封装,用户能够轻松调用系统,无需繁琐的操作步骤,让文案创作过程顺滑无比。
腾讯云AI
2023/08/18
6980
从此,让你文案自由!
简单NLP分析套路(2)----分词,词频,命名实体识别与关键词抽取
google 近期发布了颠覆性的NLP模型–BERT ,大家有空可以了解一下, 这是张俊林博士写的科普文章: https://mp.weixin.qq.com/s/EPEsVzbkOdz9GovrAM-p7g
流川疯
2019/01/17
3.6K0
推荐阅读
智齿科技CTO吴立楠:NLP在对话系统中的应用
1K0
​如何用AI一键建立一个企业官网?都在说没人教你做我教你-优雅草卓伊凡
4360
一键生成高逼格的可视化大屏!DeepSeek提示词完全指南
7861
干掉PPT!我发现了用DeepSeek一键生成炫酷网页的神仙玩法(附完整提示词)
8160
NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较
1.5K0
【迅搜03】全文检索、文档、倒排索引与分词
7500
WordCloud 中英文词云图绘制,看这一篇就够了
1.3K0
干货!三大招教你轻松挖掘客户意见(含Python代码)。
1.4K0
《Python 黑科技》一键分析评论关键词,制作精美词云
6230
一键生成美观彩页 + AI训练揭秘:让你的内容瞬间高大上!
2260
[Python从零到壹] 十五.文本挖掘之数据预处理、Jieba工具和文本聚类万字详解
2.5K0
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
1.9K0
公众号 AI 编辑器功能特点评测:数据分析与 AI 能力解析
1440
别找了,你最需要的公众号运营工具都在这!
3.4K0
Python stylecloud制作酷炫的词云图
9690
深度洞察与精确匹配:基于HAI部署DeepSeekR1的公考岗位推荐与智能分析
5630
一键中文数据增强工具
9600
结巴分词原理及使用「建议收藏」
2.6K0
从此,让你文案自由!
6980
简单NLP分析套路(2)----分词,词频,命名实体识别与关键词抽取
3.6K0
相关推荐
智齿科技CTO吴立楠:NLP在对话系统中的应用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档