我正在训练Python Flair中的顺序标记模型。我的原始文本数据有一些概念短语,我希望模型能够识别在某些情况下是由一组不连续的标记表示的,这些标记之间有单词。一个例子是“钾和镁的替代”,其中“钾的替代”是一个由不连续的标记所代表的概念,而“镁的替代”是另一个连续但与第一个概念重叠的概念。我训练了另一个Flair模型,在这个模型中,所有的概念都可以用一个令牌来表示,并且为这些数据构建语料库CoNLL文件是非常直接的。在这种情况下,不连续和重叠的概念提出了三个问题:
“镁B-CONC1 1”
替换I-CONC1 1“
“钾B-CONC2
和O
镁氧
替换I-CONC2 2“
它必须在上下文中非常清楚,但我所说的单词概念,指的是一个单一的或多标记的标记/术语,我正在尝试训练模型来识别。
我感谢你的建议或信息。
发布于 2019-06-24 22:32:17
Flair不支持不连续和重叠的注释。参见https://github.com/zalandoresearch/flair/issues/824#issuecomment-504322361的更多信息
https://stackoverflow.com/questions/56676804
复制相似问题