首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何从表格中提取上下文数据来训练自定义命名实体识别器?

如何从表格中提取上下文数据来训练自定义命名实体识别器?
EN

Stack Overflow用户
提问于 2019-07-09 16:44:20
回答 2查看 420关注 0票数 2

我有一个包含表格的文档,我想提取上下文信息(例如,句子或任何其他形式),所以我可以标记它们并构建命名实体识别器。

是否有人知道如何构建上下文训练数据来训练命名实体识别器,或者如何注释表数据来训练命名实体识别器。

EN

回答 2

Stack Overflow用户

发布于 2019-09-14 12:05:06

您可以尝试使用Spacy构建一个客户NER。脚本可以根据您的需要进行修改。

Spacy NER格式:[https://dataturks.com/help/dataturks-ner-json-to-spacy-train.php]

如果您有一个非常固定的PDF布局,您可以使用此工具将其转换为文本并进行注释。这提供了一个免费的奇妙的注释体验。

Doccano注释工具:[https://github.com/chakki-works/doccano]

票数 1
EN

Stack Overflow用户

发布于 2020-12-05 02:33:46

spacy-annotator是一个很好的问题解决方案。

它允许您使用ipywidgets注释文本中的自定义实体。

另外,注释器以NLP库spaCy喜欢的格式生成输出。

注释示例:

代码语言:javascript
运行
复制
import pandas as pd
import re
from spacy_annotator.pandas_annotations import annotate as pd_annotate

# Data
df = pd.DataFrame.from_dict({'full_text' : ['New York is lovely but Milan is amazing!']})

# Annotations
pd_dd = pd_annotate(df,
            col_text = 'full_text',     # Column in pandas dataframe containing text to be labelled
            labels = ['GPE', 'PERSON'], # List of labels
            sample_size=1,              # Size of the sample to be labelled
            delimiter='~',              # Delimiter to separate entities in GUI
            model = None,               # spaCy model for noisy pre-labelling
            regex_flags=re.IGNORECASE   # One (or more) regex flags to be applied when searching for entities in text
            )

# Example output
pd_dd['annotations'][0]
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56948639

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档