我有一个包含表格的文档,我想提取上下文信息(例如,句子或任何其他形式),所以我可以标记它们并构建命名实体识别器。
是否有人知道如何构建上下文训练数据来训练命名实体识别器,或者如何注释表数据来训练命名实体识别器。
发布于 2019-09-14 12:05:06
您可以尝试使用Spacy构建一个客户NER。脚本可以根据您的需要进行修改。
Spacy NER格式:[https://dataturks.com/help/dataturks-ner-json-to-spacy-train.php]
如果您有一个非常固定的PDF布局,您可以使用此工具将其转换为文本并进行注释。这提供了一个免费的奇妙的注释体验。
Doccano注释工具:[https://github.com/chakki-works/doccano]
发布于 2020-12-05 02:33:46
spacy-annotator是一个很好的问题解决方案。
它允许您使用ipywidgets注释文本中的自定义实体。
另外,注释器以NLP库spaCy喜欢的格式生成输出。
注释示例:
import pandas as pd
import re
from spacy_annotator.pandas_annotations import annotate as pd_annotate
# Data
df = pd.DataFrame.from_dict({'full_text' : ['New York is lovely but Milan is amazing!']})
# Annotations
pd_dd = pd_annotate(df,
col_text = 'full_text', # Column in pandas dataframe containing text to be labelled
labels = ['GPE', 'PERSON'], # List of labels
sample_size=1, # Size of the sample to be labelled
delimiter='~', # Delimiter to separate entities in GUI
model = None, # spaCy model for noisy pre-labelling
regex_flags=re.IGNORECASE # One (or more) regex flags to be applied when searching for entities in text
)
# Example output
pd_dd['annotations'][0]https://stackoverflow.com/questions/56948639
复制相似问题