文章/答案/技术大牛

发布

在spacy中，我如何确保一个特定的字符总是被认为是完整的标记？

在spacy中，可以通过自定义的标记规则来确保一个特定的字符总是被认为是完整的标记。具体步骤如下：

创建一个新的spacy语言模型，例如英语模型：

import spacy

nlp = spacy.blank("en")

定义一个函数来添加自定义的标记规则。该函数接受一个doc参数，表示待处理的文档，以及一个token_match参数，表示要匹配的字符。函数内部使用doc.retokenize()方法来重新标记文档中的标记。

from spacy.tokens import Doc

def add_custom_rule(doc, token_match):
    with doc.retokenize() as retokenizer:
        for match in token_match:
            start, end, label = match
            span = doc[start:end]
            retokenizer.merge(span)

调用自定义函数来添加标记规则。可以通过正则表达式或者其他方式来匹配特定的字符。下面是一个示例，将连字符（-）作为完整的标记：

import re

def add_hyphen_rule(doc):
    hyphen_match = [(m.start(), m.end(), "HYPHEN") for m in re.finditer(r"\-", doc.text)]
    add_custom_rule(doc, hyphen_match)

# 调用示例
text = "I like to eat apples and oranges."
doc = nlp(text)
add_hyphen_rule(doc)

通过以上步骤，就可以确保特定的字符（如连字符）被认为是完整的标记。在自定义标记规则中，可以根据具体需求添加其他的字符匹配规则。

注意：以上示例中的代码仅为演示目的，实际使用时可能需要根据具体情况进行适当的修改和调整。

参考链接：

在spacy中，我如何确保一个特定的字符总是被认为是完整的标记？

、、、

在空格中，我希望像“欧元”、“$”或“元”这样的字符总是被认为是一种象征。然而，有时它们似乎是一个更大的令牌的一部分。例如，这是好的(两个令牌)2>

浏览 24提问于2019-11-24得票数 1

回答已采纳

1回答

标记化在这两种情况下都不起作用。

、

我有一份文件当我想提取这个标记时，我会得到'x'，'xx'，'message‘和'id'，':’。万事如意。然后我创建了一个新文档如果我试图提取test_doc的标记，我将得到'i‘和'd’。有什么办法克服这个问

浏览 0提问于2018-06-18得票数 1

回答已采纳

2回答

如何在spaCy中强制某个标记？

、、

我使用的是spaCy '3.0.0rc2'和一个自定义模型。不幸的是，我的训练数据在连字符(-)中很低，因此连字符通常被标记为NOUN。是否有办法强制某个tag 或 pos，以确保 -令牌被标记为PUNCT 基本上，我正在寻找一个类似于这个问题的答案中提出

浏览 0提问于2021-01-13得票数 1

回答已采纳

1回答

使用spaCy匹配器不工作的简单示例

我试图使用spaCy Matcher获得以下简单示例：from spacy.matcher import Matcher 但是，没有一个模式是匹配的spaCy示例代码中提供的</

浏览 0提问于2017-11-30得票数 6

回答已采纳

4回答

使用spacy从文档中删除命名实体

、、、

我试着从一个被认为是命名实体的文档中删除单词，所以从字符串示例中基本上删除了“瑞典”和“诺基亚”。我无法找到解决实体存储为span的问题的方法。因此，当将它们与spacy文档中的单个标记进行比较时，会提示一个错误。在后面的步骤中，这个过程应该是一个应用于一个</em

浏览 4提问于2019-12-12得票数 7

回答已采纳

1回答

使用spaCy检索特定于模型的POS标记列表

、、、、

我正在寻找一种获取列表的方法，所有这些都可能是spaCy中特定语言模型的可用POS标记。在中，但是我不知道如何访问它。spaCy的文档显示。由于spaCy只对特定语言使用所有POS标记的特定子集，所以我希望检索当前与初始化的语言模型一起使用的</e

浏览 11提问于2022-09-27得票数 1

回答已采纳

1回答

如何用SpaCy生成的词性标签替换句子中的单词？

、、

如何有效地将句子中的单词替换为用SpaCy生成的各自的SpaCy标记？

浏览 0提问于2019-05-14得票数 1

回答已采纳

5回答

SpaCy安装(扩展)失败，出现pip安装

、、、

在需要一个python模块，它具有一个很好的德语词性标记器，SpaCy被推荐给我。在我的Python3.4的64位Win10上，我试着按照SpaCy主页上的说明安装它，首先准备virtualenv (部分安装，windows在.env/bin/activate源失败)，然后使用pip由于这并不是很有效，<em

浏览 1提问于2016-06-29得票数 2

2回答

Spacy柠檬化是起不了作用，还是把所有以"-ing“结尾的词都混淆了？

、、

当我运行喷鼻狐猴，它并没有混淆“咨询”一词，因此我怀疑它是失败的。这是我的代码：lemmatizer = nlp.get_pipe('lemmatizer')print([token.lemma_ for token in doc]

浏览 5提问于2022-10-23得票数 1

回答已采纳

1回答

Spacy令牌程序为n't添加异常

我想使用以下代码将n't转换为not：special_case = [{ORTH: u"not"}]print [text.orth_ for text in doc][u'this', u'', u'is',

浏览 0提问于2018-03-04得票数 1

1回答

spaCy 'IS_SPACE‘标志不工作

一直试图在spaCy上匹配“125.00美元/股”之类的东西，使用基于规则的匹配，如这里提到的。, span) 我回来了，相反，我想要匹配的模式，如‘$125.00/共享’之间没有空格。, {'IS_SP

浏览 1提问于2017-11-20得票数 1

回答已采纳

1回答

如何向spaCy令牌程序中添加自定义规则以分解单个标记中的HTML？

、、

我知道有很多资源可以解决这个问题，但是我不能让spaCy做我想做的事情。我想将规则添加到我的spaCy标记程序中，这样就可以使<br/>标记(例如<br/>等)在我的文本中只有一个标记。我现在使用的是"

浏览 0提问于2020-06-26得票数 3

回答已采纳

2回答

如何求出spaCy的NER概率

、

我想把spaCy的NER引擎和一个单独的NER引擎(一个BoW模型)结合起来。我目前正在比较两个引擎的输出，试图找出两者的最佳组合。这两种方法执行得都很得体，但spaCy经常会找到BoW引擎遗漏的实体，反之亦然。我想要的是，每当spaCy找到一个没有被BoW引擎找到的实体时，它就会从它那里访问

浏览 5提问于2017-10-25得票数 20

回答已采纳

1回答

spaCy 2.0:保存并加载自定义NER模型

、、

我已经使用自定义标记器在spaCy中训练了一个自定义NER模型。我想不使用记号赋予器来保存NER模型。我使用在spaCy支持论坛中找到的代码尝试了以下代码：nlp.tokenizer = some_custom_tokenizerNER model... nlp.tokenizer =

浏览 6提问于2018-01-30得票数 9

1回答

在标准SpaCy标记器中添加条件

、、、

我想保留SpaCy通常使用的标记器，但添加了一个条件。 SpaCy通常分隔点(".")从单词中提取并将其作为令牌。我想保留它，除非我有缩写："et al."，在这种情况下，我想作为标记返回：'et‘，'al.'，而不考虑将点作为另一个标记，只是在这种情况下。我一直在查看这些信息，在我看来，解决方

浏览 25提问于2021-09-29得票数 0

2回答

如何使spaCy使用通用依赖项

、、

Spacy的网站说，他们在注释规范页面中使用通用依赖机制。但当我解析“我爱你”时，“你”就成了“爱”的“多比”。在通用依赖关系文档中没有"dobj“。所以我有两个问题：

浏览 8提问于2019-11-21得票数 2

回答已采纳

2回答

我如何才能从像“在短信中批评特朗普的联邦调查局特工彼得·斯特佐克被解雇”这样的文本中找到使用SpaCy的正确NER？

、、

我如何才能从“在短信中批评特朗普的联邦调查局特工彼得·斯特佐克被解雇-- the SpaCy Times SectionsSEARCHSkip to contentSkip to site”这样的文本中找到使用SpaCy的正确NER。在这里，“被批评的特朗普”被认为是人，而不是“特朗普”作为人。如何对来自上述字符串的<

浏览 3提问于2019-07-03得票数 1

1回答

用spaCy标记已经标记的字符串

、、、

为了进行一项类似的研究，我正在使用已经被标记的数据(而不是spacy)。我需要使用这些令牌作为输入，以确保我全面处理相同的数据。我希望将这些标记添加到spaCy的标记中，但以下操作失败了： nlp = spacy.load('en', disab

浏览 1提问于2018-10-02得票数 2

回答已采纳

3回答

对于已经标记化的输入，可以使用spacy吗？

、、

我有一个句子已经被标记成文字了。我想得到句子中每个单词的词性标记部分。当我检查SpaCy中的文档时，我意识到它从原始句子开始。我不想这样做，因为在这种情况下，spacy可能会以不同的标记结束。因此，我想知道是否可以在单词列表(而不是字符串)中使用sp

浏览 0提问于2018-12-03得票数 9

回答已采纳

1回答

在spaCy中从词根(引理)和词性部分(POS)标记中获取完整的单词“文本”。

、、

如何将词根和部分词性标记组合成一个完全修改的单词？I希望逆转这个过程--获得一个给定特定“引理”/“POS”/“标记”组合的“文本”字符串。是否可以在spaCy中实现，如果可以，如何实现？我知道可以复数/

浏览 3提问于2017-12-26得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在spacy中，我如何确保一个特定的字符总是被认为是完整的标记？

相关·内容

在spacy中，我如何确保一个特定的字符总是被认为是完整的标记？

标记化在这两种情况下都不起作用。

如何在spaCy中强制某个标记？

使用spaCy匹配器不工作的简单示例

使用spacy从文档中删除命名实体

使用spaCy检索特定于模型的POS标记列表

如何用SpaCy生成的词性标签替换句子中的单词？

SpaCy安装(扩展)失败，出现pip安装

Spacy柠檬化是起不了作用，还是把所有以"-ing“结尾的词都混淆了？

Spacy令牌程序为n't添加异常

spaCy 'IS_SPACE‘标志不工作

如何向spaCy令牌程序中添加自定义规则以分解单个标记中的HTML？

如何求出spaCy的NER概率

spaCy 2.0:保存并加载自定义NER模型

在标准SpaCy标记器中添加条件

如何使spaCy使用通用依赖项

我如何才能从像“在短信中批评特朗普的联邦调查局特工彼得·斯特佐克被解雇”这样的文本中找到使用SpaCy的正确NER？

用spaCy标记已经标记的字符串

对于已经标记化的输入，可以使用spacy吗？

在spaCy中从词根(引理)和词性部分(POS)标记中获取完整的单词“文本”。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐