前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >读者Q&A: 分词时搜狗词库加载失败怎么办?

读者Q&A: 分词时搜狗词库加载失败怎么办?

作者头像
用户7652506
发布2020-10-23 16:29:03
9470
发布2020-10-23 16:29:03
举报
文章被收录于专栏:大猫的R语言课堂

在前面

话说前几天“R语言中文社区II群”中的@骑着白马唱着歌童鞋私信大猫,说大猫的R语言课堂中有一期介绍的中文分词词典包“cidian”无法导入某个搜狗词库,大猫试了以下,果然如此,不论更改编码还是其它方法全都无法导入。大猫赶紧在github上给作者@qinwf发起了一个issue,今天刚收到回复,作者是怎么说的呢?

猫在github上的issue

你好!在使用过程中发现有些scel无法正确导入。例如对于"网络流行新词【官方推荐】"包(click here ),导入的时候显示下图:

者回复

两天以后stringi包的作者@gagolews把这个issue和stringi的一个issue关联了起来,大猫有点纳闷,为什么stringi包的作者也跑过来了?待大猫细细一看,原来是@骑着白马唱着歌认为cidian无法加载搜狗词库是stringi的锅,给stringi发了一个issue……

三天过去了,cidian包的作者木有任何动静。就在大猫以为这个问题要不了了之的时候,伟大的@qinwf出现了,回复道:

你好,刚刚看到这个 issue,我待会看看。

对呀,人家毕竟也是要工作的嘛,没有每天check也很正常。然后@qinwf就以迅雷不及掩耳盗铃之势找到了问题的原因:

@Xiaomo2007 @everyones

这个词库格式跟其他词库有所不同,它在文件末端包括一小段额外的内容,这段内容在其他词库没有出现过。它被标记为 DELTBL9 ,可能是已经被删除的词 deleted table,其他词库没有这个部分。

暂时没有研究清楚这个 DELTBL 的起始规律,我待会更新一个临时的解决方案。

又过了一个小时,大猫再次收到github的邮件,@qinwf已经fix了这个issue:

已经更新了,重新安装应该就能导出词库了。

问题圆满解决!撒花!小伙伴们可以通过install_github来安装最新版本的cidian来愉快地导入搜狗词典啦!

最后,感谢@骑着白马唱着歌同学向大猫提出的问题!也欢迎大家提问哦,有价值的问题大猫会放到公众号上来哒~

stringi的作者@gagolews似乎也长出一口气,心里想stringi这么robust使用范围那么广,怎么可能会有问题,这锅老子可不要背,在github上回复道:

I guess the problem is on the cidian side. There is a similar issue already opened at qinwf/cidian#3……

github上的原帖请大家点击“阅读原文”或者以下链接:

https://github.com/qinwf/cidian/issues/3#

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-04-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大猫的R语言课堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档