我目前是NLP的新手,需要指导我如何解决这个问题。
我目前正在做一个过滤技术,我需要给数据库中的数据打上正确或错误的标签。我得到了一个结构化的数据集,其中包含列和行。
但是,过滤条件是在一个文本文件中给出的。示例过滤文本文件可能如下所示:
Values in the column ID which are bigger than 99
Values in the column Cash which are smaller than 10000
Values in the column EndDate that are smaller than values in StartDate
Value
我在github上浏览了一些代码,发现了一个名为ConvLSTM2D的Keras层。Keras文档声明It is similar to an LSTM layer, but the input transformations and recurrent transformations are both convolutional.。
我想知道这一层的实际应用是什么。我对NLP很熟悉,我还没有看到这个层被使用过。
机器学习的哪个领域/深度学习利用了这一层?
我需要用一个单元测试来测试这个函数:
def nlp_extraction(texts, nlp=None):
extr = []
for doc in nlp.pipe([texts]):
extr.append(list([ent.label_, ent.text]) for ent in doc.ents)
extracao = [list(extr[i]) for i in range(len(extr))]
extracao = list(chain.from_iterable(extracao))
ex
完整的堆栈跟踪如下。你知道怎么回事吗?
在第1行第14列的线程"main“edu.stanford.nlp.ling.tokensregex.parser.TokenMgrError:中出现异常。遇到:"E”(69),edu.stanford.nlp.ling.tokensregex.parser.TokenSequenceParserTokenManager.getNextToken(TokenSequenceParserTokenManager.java:1029) at edu.stanford.nlp.ling.tokensregex.parser.TokenSeque
我的代码:
import nlp
def tokenize_sentences(text):
tokens = nlp(text)
sentences = [sent.text for sent in nlp(text).sents]
return sentences
text = "Some phrases that I use as a test. The context is not important. Test sentence.
sentences = tokenize_sentences(text)
错误是:
TypeError
我已经在我的系统上安装了斯坦福coreNLP库的本地服务器。虽然,我能够得到的反应,因为一个人可以在上。但是在我的服务器上,wikipedia entity选项不起作用。服务器提供以下错误:
java.lang.RuntimeException: edu.stanford.nlp.io.RuntimeIOException: java.io.IOException: Unable to open "edu/stanford/nlp/models/kbp/wikidict.tab.gz" as class path, filename or URL
at edu.
我试着在推特上做情绪分析,但却得到了奇怪的例外。
我正在用属性文件初始化管道,并将属性文件放在src->主文件夹中的资源目录中。
但init函数仍有异常:
Exception in thread "main" edu.stanford.nlp.io.RuntimeIOException: java.io.IOException: Unable to open "edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz" as class path, filename or URL
at edu.s
我下载了斯坦福分段器,并按照说明执行,但我得到了一个内存错误,完整的消息如下:
Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded
at java.util.regex.Pattern.matcher(Pattern.java:1093)
at edu.stanford.nlp.wordseg.Sighan2005DocumentReaderAndWriter.shapeOf(Sighan2005DocumentReaderAndWriter.java
我不确定这是与Spark还是NLP有关。我目前正在尝试在Apache Spark上运行斯坦福CoreNLP库,当我尝试在多个内核上运行它时,我得到了以下异常。我正在使用最新的NLP库,它是线程安全的。
这是在在线地图阶段发生的。
pipeline.annotate(document);
java.util.ConcurrentModificationException
at java.util.ArrayList$Itr.checkForComodification(ArrayList.java:901)
at java.util.ArrayList$Itr.next(Array
我使用这段代码在spacy 2.3.0中训练标记器。 TRAIN_DATA = posData.train_data_getter()[:80000]
if model is not None:
nlp = spacy.load(model) # load existing spaCy model
print("Loaded model '%s'" % model)
else:
nlp = spacy.blank('fa')
if "tagger" not in nlp.pipe_names:
我得到的Java IO异常如下:
Loading unnormalized dictionary from /Users/edamame/Documents/library/stanford/./data//dict/pku.non
Exception in thread "main" edu.stanford.nlp.io.RuntimeIOException: java.io.IOException: Unable to open "/Users/edamame/Documents/library/stanford/./data//dict/pku.non"
我使用空空白空间模型来训练我自己的ner数据。我正在为来自train_data的实体训练我的模型。
nlp = spacy.blank('en')
def train_model(train_data) :
if 'ner' not in nlp.pipe_names:
ner = nlp.create_pipe('ner')
nlp.add_pipe(ner)
for _ ,annotation in train_data :
for ent in an
我在试着在一篇文章中找到共指关系。我是第一次接触corenlp包。我尝试了下面的代码,它不起作用,但我也对其他方法开放。
/*
* To change this template, choose Tools | Templates
* and open the template in the editor.
*/
package corenlp;
import edu.stanford.nlp.ling.CoreAnnotations.CollapsedCCProcessedDependenciesAnnotation;
import edu.stanford.nlp.ling.Cor
我已经用以下步骤定制了NER管道
doc = nlp("I am going to Vallila. I am going to Sörnäinen.")
for ent in doc.ents:
print(ent.text, ent.label_)
LABEL = 'DISTRICT'
TRAIN_DATA = [
(
'We need to deliver it to Vallila', {
'entities': [(25, 32, 'DISTRICT')]