先说结论,再和大家闲聊,对比jieba与PKUseg在公路货运切词能力上:
给大家的建议就是,如果大家赶时间求稳定适应范围需要非常广的时候,目前来说jieba是非常好的选择,如果说在面临一些精细化领域的特殊需求的时候,可以用PKUseg进行一波尝试,有意外惊喜。
那是一个风和日丽的早上,突然群里老大发出一条消息:
我感觉我的心脏有一丝隐隐作痛的感觉,人在办公室坐,活从天上来,虽然身后站着一堆催上线的产品,我还是屈服于老大的正义(淫威),简单测评了新出来的PKUseg与Jieba在公路货运/运输行业上的效果对比。
在我们的热词数据库中已经有人工切词完成的2万多条货运的词条:
description standard
高博集团装货卸宝华 高博 集团 装货 卸 宝华
北安到吉林农安饲料90吨每吨105 北安 到 吉林 农安 饲料 90吨 每吨 105
需要4个车 需要 4个 车
叶张公路装香闵路曲吴路两卸 叶张公路 装 香闵路 曲吴路 两卸
从福通物流到吴滩镇 从 福通 物流 到 吴滩镇
霞浦宏霞路到中通物流 霞浦宏霞路 到 中通物流
石大路3场到德兴西门山 石大路 3场 到 德兴 西门山
公园西路装 公园 西路 装
不押车每吨150 不 押车 每吨 150
速订价钱好商量 速订 价钱 好商量
慈溪胜山装 慈溪 胜山装
好装好卸高价急走 好装好卸 高价急走
九顶山路与东方大道位置装货可以配货 九顶 山路 与 东方 大道 位置 装货 可以 配货
要二部 要 二部
青浦工业园区久远路提货到奉贤新杨公路进仓 青浦 工业园区 久远路 提货 到 奉贤 新杨公路 进仓
园光路装博学南路卸 园光路 装 博学南路 卸
公兴装卸荣昌广顺 公兴 装卸 荣昌 广顺
打备注电话18458331112 打 备注 电话 18458331112
...
首先看,不加任何词库,预训练下的,最后的效果对比:
结果 | 切词准确率 |
---|---|
jieBa | 79.5% |
pkuSeg | 59.79% |
可以看到,在默认的分词模型下,jieBa分词还是拥有绝对优势的,但是在pkuSeg的git里面
所以我想看看能不能进行一下预训练下后再对比一下,可惜的是我在git(git地址传送门)上找了半天也没有找到预训练的入口,只有已经被官方预训练好的词库
等有时间了,可以邮件沟通一下再补充这个部分的效果对比,我觉得,应该还是有提升的。
但是,在我们实际去测的过程中,我们发现了一些差异话的东西比较有意思。我们其实现在在做一个语音发货的产品,涉及到把一串地址切分开的需求:
其中涉及到地址切分的时候,jieba的能力会比如PKUseg要弱不少,比如“山西大同”,“上海浦东”,我们需要把一级二级地址切开的时候,PKUseg可以做到,而jieba并不能按照需求切块。所以,我们已经打算在地址模块切换PKUseg的模型来适应了。
最后吐槽一下,虽然我知道PKUseg需要加载模型,但是一加载就是一二十秒也是有点夸张了。酒浆,各位下回见。
欢迎大家关注我的个人bolg,知乎,更多代码内容欢迎follow我的个人Github,如果有任何算法、代码、转行疑问都欢迎通过公众号发消息给我。