使用tokenize迭代

文章/答案/技术大牛

发布

1回答

、

root> <xsl:for-each select="tokenize"correspondents" select="." as="xs:string"/> <xsl:variable name="c

浏览 28提问于2019-02-01得票数 0

回答已采纳

1回答

用生成器标记文件

、、、

我有一个方法tokenize，它接受一个字符串(一行代码，它不能一次接受整个文件)，将它分解成各个部分，并返回一个生成器，生成这些部分，直到它到达行尾为止。这些都是给你的。read_file): self.line = self.file.readline() if self.line == '': return

浏览 0提问于2017-10-28得票数 7

回答已采纳

6回答

FreqDist与NLTK

、、

下面是我目前使用该函数的方式：p = file_y.read()vocab = fdist.keys() vocab

浏览 15提问于2011-01-08得票数 34

1回答

Word2Vec词汇表只生成字母和符号

、、、、

首先，我使用nltk来分隔句子，然后使用生成的句子列表作为Word2Vec的输入。然而，当我打印单词时，它只是一堆字母、数字和符号，而不是单词。\Thesis\\Descriptions.txt','r') as f_open:arr = [] sentences = nltk.sent_tokenize

浏览 0提问于2019-02-28得票数 2

回答已采纳

1回答

在XSL中，在变量中删除文件名中的路径。

我尝试过使用tokenize()和substring-after()，但两者都返回类似的错误。“不允许多个项的序列作为fn的第一个参数:tokenize()(”dir1 1/jpg001.jpg“，”dir1 1/jpg002.jpg“”dir1 1/jpg003.jpg“)。

浏览 0提问于2018-10-14得票数 1

1回答

如何标记文件？

、、

我希望能够分析使用NLTK的本地txt文件。通过分析，我指的是使用NLTK功能，如标记化、情感分析等。from nltk.tokenize import sent_tokenize, word_tokenize for line in f: f_contents = f.r

浏览 0提问于2018-01-29得票数 0

回答已采纳

1回答

CString令牌化问题

、、

我使用CString::Tokenize方法来使用分隔符对字符串进行标记化，但我注意到了一些奇怪的事情，我在循环中对字符串调用了该方法，因为我想检索字符串中的所有标记，以下是我的代码： TRACE( "Iteration No %d\n",nTokenPos);596Iterat

浏览 1提问于2012-09-25得票数 3

回答已采纳

2回答

使用Python NLTK标记大型(>70MB) TXT文件。连接并将数据写入流错误

、、

\MyFile.txt","r").read()tokens = '' tokens+=nltk.word_tokenizeobjectsimport nltktype(raw) tokens = nltk.word.tokenize

浏览 0提问于2012-03-25得票数 5

回答已采纳

1回答

每个方法返回不正确的结果。

、、、、

在一些Groovy代码中，我已经写了一行ArrayList intCurrentArray = [] for (x in currentVersion.tokenize('.'))

浏览 3提问于2014-08-01得票数 0

回答已采纳

2回答

来自可迭代节点的子字符串

、

请考虑以下示例文件：哈利波特学习XML OTOH tokenize((//title/text())[1],' ')[1]返回第一个节点的名称。如何在迭代节点时使用XPath获取子字符

浏览 5提问于2012-09-19得票数 3

回答已采纳

2回答

迭代字典的值()

、、、、

我试图使用for循环来标记字典的每个值，但我得到了一个错误：'float‘对象不可迭代。for answer in answers: tokenized_answers[doc] = [tokenize(answer, tokenizer)] tokenized_answers[doc].append(tokenize(answer, tokenizer

浏览 17提问于2020-05-16得票数 0

1回答

如何将numpy数组转换为常规python列表？

、、、、

因此，我使用pandas从csv文件中获取输入，并使用nltk对其执行标记化。, in word_tokenize File "/home/codelife/.local/lib/python3.5/site-packages/nltk/tokenize/__init__.py&quo

浏览 2提问于2017-05-09得票数 0

1回答

给定一个在FsLexYacc中实现的lexer，我如何获得所有的令牌？

、、

Scripting let lexBuffer = LexBuffer<char>.FromString input Lexer.tokenize

浏览 9提问于2021-11-21得票数 0

回答已采纳

1回答

通过jenkins-cli.jar将extendedChoice类型的参数传递给Jenkins管道

、、

我有以下声明性管道。它定义了复选框多选择参数： agent any ansiColor('xterm') parameters { extendedChoice description: '', multiSelectDelimiter: ',', name: 'NAMES', quoteValue: false, saveJSONParameterToFile: false,

浏览 0提问于2020-06-10得票数 2

1回答

如何使用Boost::Spirit::Lex在不先将整个文件读入内存的情况下对文件进行lex？

、、、

我正在考虑使用boost::spirit::lex编写一个词法分析器，但我能找到的所有示例似乎都假定您首先将整个文件读入RAM。我想写一个词法分析器，它不需要整个字符串在RAM中，这可能吗？或者我需要使用其他东西？char const* first = str.c_str(); char const* last = &first[str.size(

浏览 2提问于2011-01-18得票数 6

2回答

python3.x中的标记化

、、

logical_line): tokenize一个想法是在'tokenize‘语句(代码的最后一行)之前直接调用函数tokenize.eat()。但我不确定要传递的参数。我相信一定有更好的方法去做。

浏览 12提问于2011-02-10得票数 1

回答已采纳

1回答

nltk pos标签看起来包含'.‘。

、、、

content = articles tokens = nltk.word_tokenize

浏览 3提问于2013-12-18得票数 2

回答已采纳

2回答

用Python提取包含一个单词的句子..。以及它周围的句子？

、、、、

在提取包含一个单词的特定句子(如和)时，有很多问题，而且我有足够的初学者经验，可以自己完成NLTK和SciPy的操作。例如：在这个例子中，目标词是“the”。如果我想提取目标句子(我能做什么？)以及前面和后面的句子(我伸手拿起我的伞，但我意识到我在家里忘了它。)我立刻跑到最近的一棵树上。)，什么是好的方法？假设我把每一段都分割成自己的文

浏览 4提问于2014-05-22得票数 2

回答已采纳

1回答