spacy-为什么nlp()适用于单个字符串，而nlp.pipe()适用于字符串列表？

spaCy 是一个开源的自然语言处理库，用于处理和分析文本数据。nlp() 和 nlp.pipe() 都是 spaCy 中用于处理文本的方法，但它们在使用场景和效率上有所不同。

基础概念

nlp():
- nlp() 方法用于处理单个字符串。
- 它会返回一个 Doc 对象，该对象包含了文本的分析结果，如分词、命名实体识别、依存句法分析等。

nlp.pipe():
- nlp.pipe() 方法用于处理字符串列表。
- 它会返回一个生成器，每次迭代产生一个 Doc 对象。
- 这种方法在处理大量文本时效率更高，因为它可以批量处理文本，减少了重复的初始化开销。

优势和应用场景

nlp():
- 优势: 适用于处理单个文本或少量文本，代码简单直观。
- 应用场景: 当你需要对单个文档进行详细的自然语言处理时，可以使用 nlp()。

nlp.pipe():
- 优势: 适用于处理大量文本数据，效率更高。
- 应用场景: 当你需要批量处理多个文档时，使用 n昱.pipe() 可以显著提高处理速度。

原因和解决方法

为什么 `nlp()` 适用于单个字符串？

原因: nlp() 方法在每次调用时都会对输入文本进行完整的处理，包括分词、命名实体识别等。由于每次处理都是独立的，因此适用于单个字符串的处理。
解决方法: 如果你需要处理单个字符串，直接使用 nlp() 即可。

为什么 `nlp.pipe()` 适用于字符串列表？

原因: nlp.pipe() 方法通过批量处理文本，减少了重复的初始化开销。它会在内部维护一个处理管道，一次性处理多个文档，从而提高效率。
解决方法: 如果你需要处理大量文本数据，使用 nlp.pipe() 可以显著提高处理速度。

示例代码

import spacy

# 加载 spaCy 模型
nlp = spacy.load("en_core_web_sm")

# 使用 nlp() 处理单个字符串
text = "This is a sample sentence."
doc = nlp(text)
print(doc)

# 使用 nlp.pipe() 处理字符串列表
texts = ["This is the first sentence.", "This is the second sentence."]
docs = list(nlp.pipe(texts))
for doc in docs:
    print(doc)

参考链接

通过以上解释和示例代码，你应该能够理解 nlp() 和 nlp.pipe() 的区别及其适用场景。

使用spacy-stanza模型高效地创建doc对象

、

根据SPACY的创建者，从文本列表创建文档对象的最有效方法如下 docs = list(nlp(texts)) 其中： nlp：经过训练的空间模型 texts：我们想要转换为doc对象的文本列表 docs：从列表文本派生的文档对象列表但是，当我将此代码与spacy-stanza语言模型一起使用时，会收到一条错误消息： AssertionError: If neither 'pretokenized' or 'no_ssplit' option is enabled, the input to the TokenizerProcessor must be a

浏览 18提问于2020-09-27得票数 0

1回答

spacy nlp需要很长时间才能回答(django后端)

、、

我有django后端，我正在使用spacy进行文本处理以下是我的代码示例 nlp = spacy.load('en_core_web_sm') def process_data(jd): # print(jd) print('process_data start', time.time()) #doc = nlp(jd) doc = nlp.pipe([jd]) print('process_data pipe', time.time()) for each in doc: pr

浏览 2提问于2020-10-18得票数 0

1回答

从Pandas Series创建Python Spacy NLP对象的最佳方法

、、、

我想从存储在Pandas数据框列中的25万字符串对象中创建Spacy nlp对象。有没有办法优化下面的“应用”方法，也就是说，有没有办法向量化spacy nlp对象的调用？ import pandas as pd import spacy nlp = spacy.load("en_core_web_sm") df = pd.DataFrame({"id": [1, 2, 3], "text": ["this is a text", "another easy one", "oh you come on

浏览 18提问于2020-07-23得票数 1

回答已采纳

1回答

Spacy nlp(文本)线程安全吗？

、

以下线程在spacy中是安全的吗？ nlp = spacy.load('en') nlp(text)

浏览 1提问于2017-09-12得票数 4

1回答

是否可以在Spacy中对批量标记的文档使用‘管道’？

基于此链接：Is it possible to use spacy with already tokenized input? 我可以让Spacy接受标记化的文档作为输入，并进一步处理文档。代码如下： def nlp_process(self, token_tuple): # token_tuple = ("This is a test", ['This','is','a','test']) doc = Doc(self.nlp.vocab, words=token_tuple[1]) fo

浏览 30提问于2020-06-27得票数 0

回答已采纳

2回答

如何在python中使用多处理加速for循环执行

、、、、

我有两个列表。列表A包含500个单词。列表B包含10000个单词。我正在尝试为列表A查找与B相关的相似单词。我正在使用Spacy的相似度函数。我面临的问题是它需要很长时间才能计算出来。我是多进程使用的新手，因此请求帮助。如何在python中通过多处理来加速for循环部分的执行？以下是我的代码。 ListA =['Dell', 'GPU',......] #500 words lists ListB = ['Docker','Ec2'.......] #10000 words lists s_words = [] for to

浏览 4提问于2018-11-25得票数 3

1回答

如何使用spacy的nlp.pipe函数跟踪进度？

、、、、

我用Python和Spacy编写代码。我想跟踪nlp.pipe(sentences)的执行进度，因为它持续了很长时间。如何做到这一点？ nlp = spacy.load('en_core_web_sm') sentences = [...] docs = nlp.pipe(sentences, n_process=8)

浏览 32提问于2021-06-28得票数 1

2回答

在预标记化的文本上使用空格

、、

我想使用spacy来处理已经预标记化的文本。将令牌列表解析为spacy不起作用。 import spacy nlp = spacy.load("en_core_web_sm") nlp(["This", "is", "a", "sentence"]) 这给出了一个TypeError (这很有意义)：TypeError: Argument 'string' has incorrect type (expected str, got list) 我可以使用自定义的标记器替换标记器，但我觉得这会使事情变得

浏览 1提问于2019-11-30得票数 1

1回答

从nlp对象创建列表是不起作用的，而spacy课程采用的是这种方法

、、

我正试着跟上spacy.io的讲课。然而，我遇到了一个奇怪的问题。首先，我分享了官方spacy网页上的代码链接。 https://course.spacy.io/en/chapter3 在他们提供的示例代码中， import spacy from spacy.matcher import PhraseMatcher from spacy.tokens import Span nlp = spacy.load("en_core_web_sm") animals = ["Golden Retriever", "cat", "turtl

浏览 13提问于2021-03-02得票数 1

回答已采纳

1回答

SpaCy，在管道期间应用扩展

、、

在SpaCy中，您可以像这样设置文档的扩展名： Doc.set_extension('chapter_id', default='') doc = nlp('This is my text') doc._.chapter_id = 'This is my ID' 但是，我有数以千计的文本文件需要由NLP处理。SpaCy建议使用pipe实现这一点： docs = nlp.pipe(array_of_texts) 如何在pipe期间应用我的扩展值

浏览 1提问于2018-08-25得票数 0

回答已采纳

1回答

如何在文件中逐行部署Spacy训练的分类模型？

、

使用textcat进行spacy文本分类的例子很少。类似这样的东西 def load_data(limit=0, split=0.8): train_data = train np.random.shuffle(train_data) train_data = train_data[-limit:] texts, labels = zip(*train_data) cats = [{'POSITIVE': bool(y)} for y in labels] split = int(len(train_data) * spli

浏览 12提问于2019-08-10得票数 0

2回答

如何加快Spacy的nlp调用速度？

、、

我要处理数十万条短信。我发现在以下情况中，耗时最长的是： nlp = English() ruler = EntityRuler(nlp) patterns = [...] ruler.add_patterns(patterns) nlp.add_pipe(ruler) ... #This line takes longer than I would like doc = nlp(whole_chat) 诚然，我有很多模式。但是有没有办法加快速度呢？我只有实体标尺管道，没有其他的。

浏览 36提问于2020-05-29得票数 2

1回答

spacy nlp -哪些算法、api来自spacy NLP不是线程安全的？

、、

Spacy NLP的所有算法和API都是线程安全的吗？如果不是，那么哪些不是线程安全的？如果是，我们可以指定线程池大小吗？

浏览 3提问于2017-06-28得票数 3

1回答

如何在spaCy中使用生成器对象？

、、

第一次在这里使用NLP的经验。我有大约50万条推特。我试图使用spacy删除停止词、狐猴化等，然后将处理过的文本传递给分类模型。由于数据的大小，我需要多个处理才能以合理的速度完成这一任务，但一旦获得生成器对象，就无法知道该如何处理它。在这里，我加载spacy并通过标准管道传递数据： nlp = spacy.load('en') tweets = ['This is a dummy tweet for stack overflow', 'What do we do with generator objects?'] spacy

浏览 0提问于2018-10-14得票数 2

回答已采纳

1回答

使用Spacy中的nlp.pipe()获取Dataframe列的doc对象

、、、、

我正在使用Spacy nlp.pipe()来获取熊猫Dataframe列中文本数据的doc对象，但是在代码中作为" text“返回的解析文本只有32的length。而的形状为(14640，16)。这是数据，如果有人想要读取这些数据。 nlp = spacy.load("en_core_web_sm") for text in nlp.pipe(iter(df['text']), batch_size = 1000, n_threads=-1): print(text) len(text) 结果： 32 有人能帮我解决这件事吗？我做错什么了？

浏览 10提问于2019-11-13得票数 2

回答已采纳

1回答

如何使用spaCy (nlp.pipe)进行预处理来修复大型数据集的缓慢性能

、、、

我在spaCy 2.1中遇到了一个问题，它需要很长时间来预处理一些英语和德语文本，以便在与机器翻译相关的项目中使用它们。在使用正则表达式做了简单的清理之后，我正在使用spaCy的nlp.pipe()函数来执行一些过程(词汇化，用词性标记每个单词，以及拆分我自己开发的德语复合词)，但问题是这需要很长时间，我想知道是否有更好的方法来加快速度。我使用的数据集非常大:包括Project Gutenberg的英语和德语电子书，以及精选的两种语言的新闻文章和整个维基百科数据库。我在我的大学的HPC网格上运行这段代码，在那里我可以为每个作业分配多达40个CPU核心和250 of，或者选择高达RTX 20

浏览 43提问于2019-07-01得票数 2

1回答

使用SpaCy和python提取命名实体

、、、

我使用代码来使用lambda提取命名实体。 df['Place'] = df['Text'].apply(lambda x: [entity.text for entity in nlp(x).ents if entity.label_ == 'GPE']) 和 df['Text'].apply(lambda x: ([entity.text for entity in nlp(x).ents if entity.label_ == 'GPE'] or [''])[0]) 对于几百条记录，它可以提取

浏览 5提问于2021-01-01得票数 0

回答已采纳

1回答

TypeError：'spacy.tokens.token.Token‘对象不可迭代

、

我正在尝试将文本预处理应用到熊猫栏中，并使用spacy。我的目标是应用预处理，然后使用这个干净的列与其他列进行进一步的分析。数据： category content 0 business Quarterly profits at US media giant TimeWarne... 1 business The dollar has hit its highest level against ... 2 business The owners of embattled Russian oil giant Yuk... 3 business

浏览 3提问于2022-07-28得票数 1

1回答

有空间的多线程:有必要吗？

、

在文档的部分中，提到了nlp.pipe()并行工作，并给出了以下示例： for doc in nlp.pipe(texts, batch_size=10000, n_threads=3): pass 在此之后，给出了另一个更长的例子，它使用了joblib。我不太明白两者之间的关系。正如我所理解的那样，如果我只是想并行化许多文档的标记，那么上面简单的for循环就可以了，而且我不需要使用joblib，对吗？我的管道是这样的： nlp = spacy.load('en', disable=['parser', 'ner', 'text

浏览 1提问于2019-01-15得票数 6

回答已采纳

1回答

使用链接的语义相似性找到从一个维基百科页面到另一个维基百科页面的路径(Spacy)

、、

我在很长一段时间里第一次重新开始编写代码，所以我理解如果你眼睁睁地看着这段代码。这一切都很有效，但我很感谢您提供的任何提示(如何改进python代码、如何更好地使用Spacy的语义相似向量特性、如何使其工作得更快等)。代码的主要产品是list_of_matches列表，它显示了我是如何从一个页面到另一个页面的。很明显，这个例子从“青蛙”到“水晶”，但理论上可以是任何东西。 import spacy import wikipedia import en_core_web_lg nlp = en_core_web_lg.load() word_1 = 'frog' word_2

浏览 0提问于2021-03-15得票数 1

2回答

基于空间规则匹配器选择Pandas DataFrame的行

、、、

我需要根据基于spacy规则的配对结果分割一只熊猫DataFrame。以下是我尝试过的。 import pandas as pd import numpy as np import spacy from spacy.matcher import Matcher df = pd.DataFrame([['Eight people believed injured in serious SH1 crash involving truck and three cars at Hunterville', 'Fire and emergency responding to i

浏览 4提问于2020-07-20得票数 2

回答已采纳

1回答

与以前相比，Spacy运行时间太长

、

spacy模块对句子进行矢量化花费的时间太长。 for question in Question_Set: sentence = nlp(question) 该数据集包含近30万个问题。最初，此代码需要15分钟才能运行。然而，现在当我运行相同的代码时，它显示了大约4个小时。spacy模块对句子进行矢量化花费的时间太长。

浏览 22提问于2021-04-28得票数 1

1回答

spacy nlp.pipe然后检查num不起作用

、、

我读过一篇文档，说nlp.pipe()在处理大量数据时有更好的性能。迭代的方法是调用它的列表。但是当我运行这段代码时，检查标记是否像一个num是不起作用的。我检查了对象的类型，它返回doc对象，而不是token对象。我应该做什么来检查单个单词是否为like_num并删除它们？ dummylist=[]; for ingrendient in ingredients: dummylist.append(nlp.pipe(ingrendient)) dummylist[0] a=list(dummylist[0]) # [12 egg whites, # 12 eg

浏览 14提问于2021-03-03得票数 0

回答已采纳

1回答

将多个字符串处理为管道

请参阅以下代码，这是正确运行管道所必需的。 !pip install transformers import re from typing import List import spacy from spacy import Language, util from spacy.tokens import Doc, Span from transformers import pipeline def extract_triplets(text: str) -> List[str]: """ parses the text to triplets

浏览 12提问于2022-07-12得票数 0

1回答

Spacy ValueError：[E103]正在尝试设置冲突的doc.ents

、

我按照SpaCy上的教程来提取spans并使用spans覆盖doc.ents，如下所示： import spacy from spacy.tokens import Span from spacy.matcher import PhraseMatcher nlp = spacy.load('en_core_web_md') COUNTRIES = ['Morocco', 'Mozambique', 'Myanmar', 'Namibia', 'Nauru', 'Nepal', &

浏览 1提问于2019-07-21得票数 3

1回答

如何加快SpaCy的依赖性解析？

、

我正在使用spacy专门获取所有amod (形容词修饰符)在许多文件(大约12千兆压缩文件)。我试着让它在一个只有2.8MB的文件夹上工作，处理它花了4分钟！到目前为止，这是我的代码： with open("descriptions.txt", "w") as outf: canParse = False toParse = "" for file in getNextFile(): # Open zip file and get text out of it with zipfile.Z

浏览 3提问于2020-04-20得票数 0

回答已采纳

1回答

如何使用spacy在列上迭代以获得命名的实体？

、、、

我得到一个名为“类别”的列的dataframe。本专栏的一些数据看起来像这个{[], [], [amazon], [clothes], [telecommunication],[],...}。每一行都只有其中一个值。我现在的任务是给这个值他们的实体。我试了很多次，但不太顺利。这是我第一次尝试 import spacy nlp = spacy.load("de_core_news_sm") doc=list(nlp.pipe(df.categories)) print([(X.text, X.label_) for X in doc.ents]) AttributeError &

浏览 22提问于2022-09-16得票数 0

回答已采纳

2回答

如何用Python中的spacy加速句子相似度的计算？

、、、、

我有以下代码，它包含两个句子并返回相似度： nlp = spacy.load("en_core_web_md/en_core_web_md-3.2.0") def get_categories_nlp_sim(cat_1, cat_2): if (cat_1 != cat_1) or (cat_2 != cat_2): s = np.nan else: doc1 = nlp(cat_1) doc2 = nlp(cat_2) s = doc1.similarity(doc2) retu

浏览 19提问于2022-04-30得票数 1

1回答

进程间共享空间模型

、

我的代码使用Python的多处理进行并行计算。作为计算的一部分，Spacy被使用。使用nlp = spacy.load("de_core_news_lg")创建单个spacy对象并通过多个进程进行命名实体识别是否安全？

浏览 8提问于2022-01-31得票数 0

回答已采纳

1回答

如何限制Spacy使用的CPU数量？

如何限制Spacy使用的CPU数量？我想从大量句子中提取词性部分和命名实体。由于RAM方面的限制，我首先使用Python将文档解析为句子。然后，我遍历我的句子，并使用nlp.pipe()进行提取。然而，当我这样做时，Spacy消耗了我的整个计算机；Spacy使用所有可用的CPU。这样不好，因为我的电脑是共享的。如何限制Spacy使用的CPU数量？这是我迄今为止的代码： # require from nltk import * import spacy # initialize file = './walden.txt' nlp = spacy.load( 'en&

浏览 2提问于2018-05-25得票数 9

回答已采纳

1回答

迭代列表以获取并存储向量"ValueError:无法将输入数组从shape (96)广播到shape (0)“

、、

我正在尝试创建一个二维数组X，其中行的数量与句子数据集中的句子的数量相同，其中每一行都是描述该句子的向量。我尝试了下面的代码，但它给出了ValueError # Calculate the length of sentences n_sentences = len(sentences) # Calculate the dimensionality of nlp embedding_dim = nlp.vocab.vectors_length # Initialize the array with zeros: X X = np.zeros((n_sentences, embedding_

浏览 32提问于2020-11-29得票数 1

回答已采纳

1回答

如何使用nlp.pipe模式加快spacy管道的速度？

、

继spacy的之后，我一直试图使用nlp.pipe模式来加速我的管道。不过，我发现，与连续运行相比，无论我设置什么batch_size，速度都没有提高。我想知道这个问题是在我头上，还是批次不起作用？我正在30000条文本上测试这种行为，平均长度为1500个字符，我已经测试了5,50,500,5000批大小，但没有结果。所以我计时： for text in texts: doc = nlp(text) VS doc_gen = nlp.pipe(texts, batch_size, n_threads) 使用n_threads -1 &2测试批次大小为5，50,500,500

浏览 0提问于2019-10-10得票数 4

回答已采纳

1回答

如何在spaCy中处理非常长的文档？

、、

我试着用西班牙语对文本进行NLP分析。所以，为了做柠檬化，我使用Spacy，因为NLTK没有西班牙语版本的引理。斯派西的问题是，我对我能通过莱马提泽传递的字数有限制： ValueError:长度为6095095的 E088文本超过最大值1000000。解析器和NER模型在输入中每10万个字符需要大约1GB的临时内存。这意味着长文本可能会导致内存分配错误。如果您没有使用解析器或NER，那么增加nlp.max_length限制可能是安全的。限制是以字符数为限的，因此可以通过检查len(text)来检查输入是否太长。我试过使用nlp.max_length= 6095095，但会话在使用所有可用

浏览 16提问于2021-11-07得票数 2

2回答

我正在使用spaCy从字符串中查找位置

、、

我编写了一段代码来查找字符串中存在的位置。 import spacy nlp= spacy.load('en') doc1='Pune, India' doc2='India, Pune' doc3='Pune India' doc4='India Pune' print([(X.text, X.label_) for X in nlp(doc1).ents]) print([(X.text, X.label_) for X in nlp(doc2).ents]) print([(X.text, X.label

浏览 1提问于2019-11-01得票数 1

1回答

如何在spacy中保存单词向量

、、、

我有以下代码。目标是获得列表中每个单词的向量表示。我的意图是将这些单词向量用于其他应用目的，如单词聚类。 import numpy as np import pandas as pd from sklearn.preprocessing import normalize import en_vectors_web_lg nlp = en_vectors_web_lg.load() def vectorize(text): return nlp(text, disable=['parser', 'tagger', 'ner']).ve

浏览 29提问于2020-06-28得票数 0

回答已采纳

1回答

如何让spacy读取数据框中的整个列？

、、

这是我使用的代码，但我希望它通过数据框中名为"full_text“的列进行编码，而不是遍历单个句子。 nlp = spacy.load("es_core_news_sm") doc = nlp('el secretario de estado de eeuu') for token in doc: print(token.text, token.pos_,)

浏览 16提问于2021-06-28得票数 0

1回答

在doc.ents中添加新实体的Spacy3失败

、、

我在Spacy中的nlp管道中添加了一个自定义组件。下面是我遵循的步骤。创建一个匹配器来选择汽车名称定义使用此匹配器并将匹配附加到现有doc.ents的自定义组件。尽管提供了span对象类型，但最终的附加是失败的。 # Matcher info cars = ['honda', 'toyota', 'yamaha', 'mazda', 'range rover', 'mercedes'] matcher = PhraseMatcher(nlp.vocab) patterns =

浏览 1提问于2021-10-31得票数 0

2回答

Spacy，在python中的大型数据集上使用nlp.pipe，多处理导致进程进入睡眠状态。如何正确使用所有CPU核心？

、、、

我正在致力于一个NLP分类问题，在一个大型电子邮件数据库(大约100万)。我需要使用spacy来解析文本，并且我使用nlp.pipe()方法作为nlp.pipe(emails,n_process=CPU_CORES, batch_size=20)来遍历数据集。代码可以工作，但我面临着一种(可能不是这样)奇怪的行为:进程正在创建，但它们都处于睡眠状态，只有一个进程，其中一些进程在运行状态下运行了几秒钟，然后又回到睡眠状态。因此，我发现自己只有一个进程，100%使用一个核心，但当然，脚本没有使用所有的CPU核心。这就像进程不会从管道中得到“输入”数据。有没有人知道如何正确使用spacy nlp管

浏览 5提问于2021-03-28得票数 2

2回答

从csv行列表中删除逗号

、、、

我的csv文件行- ? 我的代码是- with open("G:/Downloads/whatever - Sheet1 (1).csv", 'r') as read_obj: csv_reader = reader(read_obj) header = next(csv_reader) # Check file as empty if header != None: # Iterate over each row after the header in the csv for row in

浏览 63提问于2021-09-16得票数 0

1回答

Spacy的Tok2Vec组件是POS标签所必需的吗？

我正在使用Spacy做POS标签和柠檬化。我认为最好的做法是禁用不必要的组件，以最大限度地提高性能。但是，在禁用了几个组件之后，现在看来每个令牌POS都是名词！ tok2vec组件似乎是POS标签所必需的。这是正确的吗?如果是的话，这是否有任何解释？另外，除了拆卸组件之外，还有更好的方法来优化Spacy管道吗？ import spacy txt = '''ex-4.1 2 d879007dex41.htm ex-4.1 ex-4.1 exhibit 4.1 amendment no. 6 to note amendment no. 6 to note (this &#

浏览 3提问于2022-08-15得票数 0

回答已采纳

1回答

无法使用set过滤重复的元素

、

我无法过滤数据帧中的重复令牌。这些令牌是从spacy tokenizer获得的。 import spacy nlp = spacy('en') df['KeywordDoc'] = [nlp(text) for text in df.Keyword] df['KeywordDoc'].head() 输出 0 (test, test, test, .) 1 (media) 2 (immigr

浏览 9提问于2020-12-24得票数 0

1回答

如何异步输入spaCy管道？

、

我想设置一个spaCy管道，它可以进行一些解析和注释。我的文档来源是一个远程存储，因此获取文档是相对昂贵的。由于我想注释很多文档，所以我想以流的方式异步地处理它们。在像往常一样设置管道时，代码首先获得所有文档，然后在管道中解析它。如何将文档流到管道中？ import spacy def get_docs_from_remote(size): // obtain number of documents from remote storage for document in result: yield(document['text']) n

浏览 1提问于2022-08-19得票数 0

回答已采纳

1回答

迭代文档中的标记在数字前面包含一个点

、

看起来输出并不像我期望的那样。可能是由于设计或程序错误造成的？ doc = nlp( "Line 1 50%. " "Line 2 40% end space and dot ." # try comment # "Line 2 40% end space and dot." # try comment "20% at line 3 where Line 2 end with or without space" ) # Iterate over the tokens in the doc for

浏览 3提问于2020-08-09得票数 0

1回答

是否要将spacy nlp.pipe process的文本元组和其他信息添加为文档功能？

显然，for doc in nlp.pipe(sequence)比运行for el in sequence: doc = nlp(el) ..快得多我的问题是，我的序列实际上是一个元组序列，它包含spacy转换为文档的文本，但也包含我希望作为文档属性添加到spacy文档中的附加信息(我将为Doc注册这些属性)。我不确定如何修改spacy管道，以便第一阶段真正从元组中挑选一项来运行记号程序并获取文档，然后让其他一些函数使用元组中的其余项将功能添加到现有文档中。

浏览 13提问于2019-07-16得票数 1

回答已采纳

1回答

用pos创建一个词汇表

、、、、

我想创建一个语义实体的列表(名词、动词、点点等)。使用pos标记。我目前正在运行以下代码 import spacy import pandas as pd nlp = spacy.load('en_core_web_sm',disable=['ner','textcat']) def fun(text): doc = nlp(text) pos = "" for token in doc: pos += token.pos_ + " " return po

浏览 6提问于2020-12-05得票数 0

回答已采纳

1回答

加速空间和csv导出

、、、

需要建议来调整以下代码。 import sys import pandas as pd import spacy #Spliting tokens using the Spacy def parsetext(df): nlp = spacy.load("en_core_web_sm") parsed_tokens = [] for index, row in df.iterrows(): filtered_tokens=[] doc = nlp(str(row['Column1Text']))

浏览 9提问于2019-10-19得票数 0

1回答

在记事本中的Databrick上，据报告jsonschema缺少spacy，但它已安装。

、、

关于Azure上的数据库，在一本显然已经成功加载Spacy的笔记本中。使用Matcher迭代传递给它的文档时出现以下代码错误。jsonschema声明为缺少，但是在检查时，json模式被安装为，并且使用 %sh pip install jsonschema ，以便使其特定于版本。 %sh pip install 'jsonschema>=2.6.0,<3.1.0' 都安装得很好。以下是错误消息： --------------------------------------------------------------------------- ValueE

浏览 1提问于2020-11-20得票数 0

1回答

用spacy nlp.pipe处理文本

、、

我使用下面的代码和8分钟的时间使用spacy nlp.pipe进行了40,000次抽象。有办法让这件事更快吗？我还禁用了ner。 nlp = spacy.load("en_core_web_md", disable=["ner"]) def process_abstract(df): cleaned_text = [] document = list(nlp.pipe(df['abstract'].values)) for doc in document: text = [token.text for t

浏览 3提问于2021-01-22得票数 0

回答已采纳

1回答

将字典项加载到spaCy NLP中

、

我正在努力寻找一种有效的方法来将python字典中的所有条目加载到spaCy NLP中。我的目标是创建一个相似性函数，它可以从dict1中获取一个元素，并从dict2中返回最相似的元素。因为我是同时使用python和spacy的新手，所以我只想到循环遍历dict1中的每一项，然后对dict2的每个元素执行dict1_item = nlp(item)，然后执行dict2_item = nlp(item2)，最后执行similarity(dict1_item[dict2_item]) 我还没有完全实现这种方法，因为大量的循环给了我一个暗示，它将是令人难以置信的缓慢。在数据方面，我比较了大约30

浏览 2提问于2019-04-23得票数 0

1回答

如何为NER优化SpaCy管道(使用现有模型，不进行培训)

、

我希望使用SpaCy v3从大量句子中提取命名实体。我的工作，但似乎比它应该慢，在投资更多的机器，我想知道我是否做了更多的工作，我需要在管道。我使用ntlk将所有内容作为迭代器解析为句子，然后使用“管道”处理这些语句以获得命名的实体。所有这些看起来都很好，python似乎对我的机器上的每个cpu内核都有相当大的影响，这是很好的。 nlp = spacy.load("en_core_web_trf") for (doc, context) in nlp.pipe(lines, as_tuples=True, batch_size=1000): for ent in do

浏览 0提问于2021-03-13得票数 3

回答已采纳