我需要解析很多文档(大约30万份)。正如斯坦福网络中所建议的那样,我创建了一个名为filelist.txt的文件,该文件包含要解析的所有文件的路径。
https://stanfordnlp.github.io/CoreNLP/cmdline.html
然后我调用了CoreNLP,如下所示。
java -mx20g -cp "$SCRIPT/*" edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse -ssplit.eolonly tokenize.whitespace true -filelist filelist.txt -outputDirectory $OUTDIR但是CPU的使用率仅为100%,这意味着CoreNLP似乎不使用多线程。因此,解析太慢了(每个文档大约10秒)。
当我在没有CoreNLP选项的情况下运行-filelist时,它作为多线程运行。
在CoreNLP中有使用多线程的任何选项或方法吗?
发布于 2018-04-29 09:51:42
我认为命令行参数-threads k应该对k线程上的文件列表进行注释。
https://stackoverflow.com/questions/50072568
复制相似问题