我正在解析Game of Thrones script,以便可以使用word2vec。问题在于专有名词的解析。以下是示例代码: import spacy[token.lemma_ for token in nlp(s) if not token.is_stop我真的希望Night's Watch被识别为一个单一的令牌,例如Night's_Watch。 spacy能做到这一点吗?
我试图使用spaCy的四种选择中的两种来进行句子切分,它们在没有标点符号的短语上的表现似乎都同样糟糕。我正在尝试使用这样的解决方案,这些解决方案的文本范围是混合的,而不是数字化的(说话人的对话)。我的目标是识别句子的边界,我认为语言解析功能可以很好地将短语分解成单个的句子元素。python version and spacy version with language models:
============================== Info about spaCy我很高