是否可以在Spacy中对批量标记的文档使用‘管道’？

基于此链接：Is it possible to use spacy with already tokenized input? 我可以让Spacy接受标记化的文档作为输入，并进一步处理文档。如果我想使用nlp.pipe()函数以批处理模式处理文档，该怎么办？类似于： nlp_docs = self.nlp.pipe(texts) 管道接受一个原始文本列表。如何处理这种情况？

浏览 30提问于2020-06-27得票数 0

回答已采纳

1回答

在spaCy管道处理后识别文档？

、、

我有很多文档是通过spaCy管道处理的。现在，管道只接受一个文本列表，所以我不能向它传递任何其他ID。是否有任何方法来指定在spaCy管道之后保存的文档ID，以便以后可以识别in？

浏览 5提问于2022-08-19得票数 0

回答已采纳

1回答

spaCy retokenizer是否会再次执行依赖项解析？

、、

我正在重新标记一些spaCy文档，然后我需要它们的依赖关系树("parser"管道组件)。然而，我不确定spaCy是否正确地处理了这个问题。我在文档和spacy教程中找不到任何关于retokenizer如何工作的信息。我发现的唯一一件事是原始retokenizer cython源代码，它们确实处理依赖关系，但是看起来它们只处理它们，它们不会再

浏览 7提问于2021-01-20得票数 0

回答已采纳

1回答

如何在spaCy中为新的不可分析标记分配词法特征？

我正在使用spaCy，版本2.3。我有一个不太正规的表达式扫描器，它可以识别我不想进一步分析的文本范围。我在管道的开头添加了一个管道，就在令牌器之后，它使用文档重新标记器将这些代码转换为单个令牌。我想把管道的其余部分当作专有名词来处理。怎么做才是对的？我已经在对retokenizer.merge()的<

浏览 2提问于2020-07-15得票数 0

回答已采纳

2回答

Python:空间和内存消耗

、

1-问题问题是:空间内存消耗一直在增长，直到整个内存被使用为止。2-背景我的硬件配置: Intel I7-8700K 3.7 GHz (12核)内存: 16 Gb SSD: 1 Tb GPU在机上，但不用于此任务。我使用“多重处理”将任务拆分到多个进程(工作人员)中。每个工作人员都收到

浏览 0提问于2019-04-25得票数 15

回答已采纳

4回答

在没有模型的情况下使用spacy的Matcher

、、、

我想在spaCy还没有工作模型的新语言(希伯来语)上使用spaCy的Matcher类。我发现了一个有效的标记器+POS标记器(来自斯坦福NLP)，但我更喜欢spaCy，因为它的匹配器可以帮助我做一些基于规则的NER。是否可以向基于规则的Matcher提供带POS标记的文本，而不是标准的

浏览 28提问于2019-09-19得票数 1

回答已采纳

1回答

如何在spaCy的norm_exceptions.py模块中添加自定义俚语？

、

SpaCy的文档中有一些关于添加新俚语的信息。(1)何时调用以下函数？，的典型用法如下：nlp = spacy.load('en')(2)<em

浏览 0提问于2018-03-26得票数 3

回答已采纳

2回答

spaCy:词汇表中的单词

、

我尝试用spaCy纠正打字错误，为此我需要知道一个单词是否存在于词汇表中。如果没有，想法是将单词一分为二，直到所有片段都存在。例如，"ofthe“不存在，"of”和"the“不存在。所以我首先需要知道一个单词是否存在于单词表中。这就是问题的开始。我在找一些简单的东西，比如 "andshy" in nlp.vocab = False, "andshy".is_oov = True &q

浏览 49提问于2019-12-30得票数 3

1回答

spacy -在保存span属性的同时从doc中删除一个令牌

、

我想在我的spacy文件中添加有关段落和标题的信息。为此，我在段落、文本和标题之间添加了信标(如段落开头的< p_start >)。为此，我将检测这些信标的自定义函数放置在标记器之后，但在tok2vec组件之前，将跨度标记为段落和/或标题。因此，管道标记文本，标记跨越，然后应用常规管道组件。现在我遇到了一个问题，因为我不希望这些信标在

浏览 3提问于2022-08-19得票数 1

1回答

如何使用标记化的句子作为Spacy的PoS标记器的输入？

、、

Spacy的pos标记器非常方便，它可以直接对原始句子进行标记。import spacy sen = sp(u"I am eating") 但我使用的是nltk的记号赋予器。那么，如何使用像['I', 'am', '

浏览 0提问于2019-06-04得票数 1

1回答

如何创建spaCy文档，因为我有原始文本和‘单词’，但没有‘空格’数据

我想创建spaCy doc，因为我有原始文本和words，但缺少空格数据。from spacy.tokens import Doc如何正确操作才不会丢失有关空格的信息？

浏览 1提问于2019-05-07得票数 0

1回答

如何异步输入spaCy管道？

、

我想设置一个spaCy管道，它可以进行一些解析和注释。我的文档来源是一个远程存储，因此获取文档是相对昂贵的。如何将文档流到管道中？import <em

浏览 1提问于2022-08-19得票数 0

回答已采纳

1回答

在空白英语spacy管道中添加标签

、、、

我很难弄清楚如何从spacy V3内置的模型中一点一点地组装spacy管道。现在我想要的是从空白构建一个英语管道，然后一点一点地添加组件。我做，而不是，希望加载整个en_core_web_sm管道并排除组件。为了具体起见，假设我只想在管道中使用spacy默认的tagger。哪个标签的例子？我从哪里拿来的？为什么默认的模型配置不能解决这个问题呢？我

浏览 25提问于2021-08-02得票数 1

回答已采纳

1回答

如何访问经过训练的Spacy* Thinc模型？*

、、

我正在尝试访问spaCy管道使用的经过训练的神经网络模型。我可以从spaCy文档中看到，config.cfg指定了作为管道一部分的模型实例，但我不知道如何从spaCy中访问这个模型实例(数据结构或其位置)。我想访问模型及其权重，这样我就可以在spaCy之外使用神经网络了。我在想，有没有人知道如何访问T

浏览 4提问于2022-06-18得票数 1

回答已采纳

1回答

如何使用Spacy* nlp自定义ner同时标识2种类型的文档*

、、、

我想要建立一个SPACY模型，它根据文档类型来识别和使用标记。{"text":{"a":"ABC DEF."text":"ABC"}, {"start":4,"end":6,"doc_type":"b","label":{"text":"SECOND"},

浏览 3提问于2021-05-27得票数 1

回答已采纳

2回答

使用Pandas和spaCy进行标记

、、、、

我正在做我的第一个Python项目，并且拥有相当大的数据集(10行，数千行)。我需要在5个文本列上做一些nlp (聚类，分类)(每个“cell”有多个文本句子)，并且一直在使用pandas来组织/构建数据集。我希望对所有的nlp都使用spaCy，但是不太清楚如何对我的专栏中的文本进行标记化。我已经阅读了大量的spaCy文档</e

浏览 0提问于2017-10-28得票数 13

回答已采纳

1回答

创建一个大型文档的空间与逐段创建

、、

我正在使用Spacy从文本中获取洞察力，并为我的特殊需求创建自己的定制管道。nlp = spacy.load("en_core_web_sm")如果我是这样做

浏览 5提问于2022-08-29得票数 0

1回答

有空间的多线程:有必要吗？

、

在文档的部分中，提到了nlp.pipe()并行工作，并给出了以下示例： pass在此之后，给出了另一个更长的例子，它使用了joblib。我不太明白两者之间的关系。正如我所理解的那样，如果我只是想并行化许多文档的标记，那么上面简单的for循环就可以</

浏览 1提问于2019-01-15得票数 6

回答已采纳

1回答

Spacy的空白模型的底层架构是什么。[spacy.blank("en")]

、

要么我错过了他们的文档，要么他们真的很难找到它。任何指向我在哪里可以找到关于底层模型的信息的指针都会很有帮助对于更多的上下文，我将它用于一个带有自定义标签的NER任务，但我认为这并不是很重要。

浏览 26提问于2020-11-07得票数 0

回答已采纳

1回答

spacy-为什么nlp()适用于单个字符串，而nlp.pipe()适用于字符串列表？

、、

我最近在使用spacy时遇到了一个奇怪的行为，那就是当我处理字符串时，在字符串是单个字符串对象的情况下，我必须使用nlp( string )，而对于由字符串元素组成的列表，我必须使用nlp.pipeis a string to be process by nlp' doc =['this','is','a','string','list'

浏览 42提问于2021-03-02得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在spaCy管道处理后识别文档？

spaCy retokenizer是否会再次执行依赖项解析？

如何在spaCy中为新的不可分析标记分配词法特征？

Python:空间和内存消耗

在没有模型的情况下使用spacy的Matcher

如何在spaCy的norm_exceptions.py模块中添加自定义俚语？

spaCy:词汇表中的单词

spacy -在保存span属性的同时从doc中删除一个令牌

如何使用标记化的句子作为Spacy的PoS标记器的输入？

如何创建spaCy文档，因为我有原始文本和‘单词’，但没有‘空格’数据

如何异步输入spaCy管道？

在空白英语spacy管道中添加标签

如何访问经过训练的Spacy* Thinc模型？*

如何使用Spacy* nlp自定义ner同时标识2种类型的文档*

使用Pandas和spaCy进行标记

创建一个大型文档的空间与逐段创建

有空间的多线程:有必要吗？

Spacy的空白模型的底层架构是什么。[spacy.blank("en")]

spacy-为什么nlp()适用于单个字符串，而nlp.pipe()适用于字符串列表？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐