写
在前面
话说前几天“R语言中文社区II群”中的@骑着白马唱着歌童鞋私信大猫,说大猫的R语言课堂中有一期介绍的中文分词词典包“cidian”无法导入某个搜狗词库,大猫试了以下,果然如此,不论更改编码还是其它方法全都无法导入。大猫赶紧在github上给作者@qinwf发起了一个issue,今天刚收到回复,作者是怎么说的呢?
大
猫在github上的issue
“
你好!在使用过程中发现有些scel无法正确导入。例如对于"网络流行新词【官方推荐】"包(click here ),导入的时候显示下图:
作
者回复
两天以后stringi包的作者@gagolews把这个issue和stringi的一个issue关联了起来,大猫有点纳闷,为什么stringi包的作者也跑过来了?待大猫细细一看,原来是@骑着白马唱着歌认为cidian无法加载搜狗词库是stringi的锅,给stringi发了一个issue……
三天过去了,cidian包的作者木有任何动静。就在大猫以为这个问题要不了了之的时候,伟大的@qinwf出现了,回复道:
“
你好,刚刚看到这个 issue,我待会看看。
对呀,人家毕竟也是要工作的嘛,没有每天check也很正常。然后@qinwf就以迅雷不及掩耳盗铃之势找到了问题的原因:
“
@Xiaomo2007 @everyones
这个词库格式跟其他词库有所不同,它在文件末端包括一小段额外的内容,这段内容在其他词库没有出现过。它被标记为 DELTBL9 ,可能是已经被删除的词 deleted table,其他词库没有这个部分。
暂时没有研究清楚这个 DELTBL 的起始规律,我待会更新一个临时的解决方案。
又过了一个小时,大猫再次收到github的邮件,@qinwf已经fix了这个issue:
“
已经更新了,重新安装应该就能导出词库了。
问题圆满解决!撒花!小伙伴们可以通过install_github来安装最新版本的cidian来愉快地导入搜狗词典啦!
最后,感谢@骑着白马唱着歌同学向大猫提出的问题!也欢迎大家提问哦,有价值的问题大猫会放到公众号上来哒~
插
曲
stringi的作者@gagolews似乎也长出一口气,心里想stringi这么robust使用范围那么广,怎么可能会有问题,这锅老子可不要背,在github上回复道:
“
I guess the problem is on the cidian side. There is a similar issue already opened at qinwf/cidian#3……
原
贴
github上的原帖请大家点击“阅读原文”或者以下链接:
https://github.com/qinwf/cidian/issues/3#