spaCy提供的词形还原器组件用于为词元分配基本形式(词元)。例如,它将句子"The kids bought treats from various stores."还原为基本形式:"the kid buy treat from various store."。
spaCy词形还原器对大多数语言使用两种机制:
编辑树是一种递归数据结构,包含两种节点类型:
该算法通过以下步骤构建规则:
将选择正确编辑树的任务视为分类任务:
实验数据显示,编辑树词形还原器在多语言测试中准确率普遍超过95%:
语言 | 向量 | 传统准确率 | 编辑树准确率 |
---|---|---|---|
德语 | de_core_news_lg | 0.70 | 0.97 |
西班牙语 | es_core_news_lg | 0.98 | 0.99 |
意大利语 | it_core_news_lg | 0.86 | 0.97 |
可通过以下命令获取示例项目:
python -m spacy project clone projects/edit_tree_lemmatizer
cd edit_tree_lemmatizer
pip install spacy-experimental==0.4.0
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。