使用nltk恢复原始单词，并使用完整语义进行标记化

、

我知道使用nltk模块我可以对单词进行词汇化lemmatizer = WordNetLemmatizer() 或但问题是，我没有完整的句子可以标记化。我想输入一个单词，它返回没有

浏览 10提问于2019-10-22得票数 0

2回答

如何将NLTK词干恢复为正确的单词？

、、

在我使用NLTK PorterStemmer对一个单词进行词干之后，这个词有时会变成一个不完整的词，例如，“接收”在词干之后变成“接收”，这不是一个正确的词。那么，如何将NLTK PorterStemmer词干词恢复为正确的单词呢？

浏览 0提问于2018-01-13得票数 0

1回答

在Xcode中使用NLTK

、、

我需要在xcode中对句子中的单词进行标记化并找到一些同义词。我知道NLTK有一些包可以做到这一点。但是NLTK接口是用python编写的。有人知道如何在xcode中使用NLTK吗？或者在xcode中使用wordnet的任何其他方式？谢谢，阿哈德

浏览 2提问于2013-03-25得票数 0

1回答

使用nltk对单词进行标记化时，防止在撇号处拆分

、

我正在使用nltk将句子拆分成单词。例如： nltk.word_tokenize("The code didn't work!")标记化在拆分单词边界时效果很好，即从单词中拆分标点符号，但有时会过度拆分，单词末尾的修饰符被视为单独的部分。例如，didn't分为did和n't两个部分，i've分为I和've两个部分。显然，这是因为这些单词在

浏览 0提问于2016-01-11得票数 15

回答已采纳

3回答

我正在尝试使用NLTK对语音导航命令进行语义解析，例如“去旧金山”、“给我去123主街的方向”等。问题是，这涉及到非原子(超过一个单词长)的文字，如"go to"，NLTK似乎不是为它设置的(如果我错了，请纠正我)。分析任务将标记作为先决条件，并且所有标签者似乎总是标记单个单词。因此，我的选择似乎是： a)定义一个自定义标签器，该标签器可以将非句法标签分配给单词序列，而不是单个单词</em

浏览 1提问于2013-09-08得票数 5

1回答

单词标记化NLTK缩写问题

、

我想知道如何对以下句子(字符串)进行单词标记化： "I am good. I e.g. wash the dishes." 以下几句话： ["I", "am", "good", ".这样的缩写时，它被NLTK word_tokenizer标记为如下["e.g", "."] 我尝试使用与"e.g."一起训练的punkt首先对

浏览 20提问于2019-03-17得票数 0

回答已采纳

1回答

用WordNet比较两个短语？

、、、、

我正在试着比较两个短语的语义。在Python中，我使用nltk和difflib。首先，我从短语中删除停止词，然后我使用WordNetLemmatizer和PorterStemmer对这些单词进行规范化，然后将其余的单词与SequenceMatcher的衍射库进行比较。我仍然认为有一个比使用衍射更好的方法。有什么建议或建议吗？在短语之间的比较中有没有使用Wordnet的库？我所做的步骤正确吗？

浏览 2提问于2014-05-07得票数 0

回答已采纳

3回答

Java NLP:在标记化文本时提取索引

、、、、

在对文本字符串进行标记化时，我需要提取标记化后的单词的索引。kiss John"[(Mary, 0), (did, 5), (n't, 8), (kiss, 12), (John, 17)]一个巨大的障

浏览 1提问于2012-09-13得票数 0

回答已采纳

3回答

使用NLP让系统学习对文本进行分类

、

在我花大量时间学习这些概念之前，我想知道NLP和Python的NLTK是否可以通过简单地向系统输入文本并告诉它适用的类别来帮助我训练系统。假设我有大约100条文本，我想根据它们所描述的业务对它们进行分类。有没有办法只向系统指出每个文本描述的是什么业务，然后从长远来看，让系统对新文本进行越来越准确的分类？

浏览 0提问于2015-10-13得票数 3

2回答

从nltk导入WhitespaceTokenizer会给出ImportError:没有名为nltk的模块

、

我正在尝试使用Python nltk对字符串中的单词进行标记化，并且我需要导入以下模块：from nltk import WordPunctTokenizer但是它无法导入这些模块：我可以import nltk，也可以通过dir(nltk)

浏览 1提问于2012-04-28得票数 0

1回答

用于印度语言的NLTK* CorpusReader*

、、、

试图让NLTK对从印度政府研究网站下载的旁遮普语语料库进行分析，脚本是Gurmikhi。我的主要目标是获得整个语料库上的词频分布，所以这里的目标是对所有单词进行标记化。我的问题似乎是NLTK是如何读取文本的，因为当我使用Python的内置方法时： from nltk.corpus import PlaintextC

浏览 18提问于2017-12-12得票数 1

回答已采纳

5回答

将HTML解析成句子--如何处理表/列表/标题/等等？

、、、、

有/正在：句法结构：表示句子组

浏览 10提问于2012-06-30得票数 8

2回答

在Python中使用NLTK在文件的特定区域中使用sent_tokenize？

、、、

我有一个包含数千个句子的文件，我想找到包含特定字符/单词的句子。谢谢。编辑:我使用的是Python，使用的是<e

浏览 0提问于2012-12-06得票数 1

1回答

自然语言处理中从名词短语中提取名词

、、

谁能告诉我如何从以下输出中仅提取名词：sent=nltk.word_tokenize(msg)trees=parser.nbest_parse(sent) print treetokens1=nltk.word_tokenize(token

浏览 0提问于2011-02-28得票数 6

1回答

为什么NLTK的Wordnet不对副词和形容词进行修饰？

、、

正如我所了解的，如果我们在每个标记上识别相应的PoS标记，然后设置引号，不仅使动词、名词，而且还包括形容词和副词形式，我们就可以做得更好。这里有三个问题： e

浏览 18提问于2022-02-22得票数 0

回答已采纳

1回答

数据抓取& NLP？

、、、

我正在使用BeautifulSoup从必应搜索结果(当然是非商业目的)上刮取数据。我输入了一个名为“rasmalai”的印度甜品名称，作为我关注的单词。我使用的代码返回网页的标题和描述。下面是我使用的代码：import urllib, urllib2 addressresults links = bing_search(&

浏览 0提问于2018-06-23得票数 1

1回答

关于Python2.7中列表的SpaCy问题

、、

我用python上传了一个txt文件，将其标记为句子，然后使用nltk将其标记为单词：tokenized_text = [nltk.word_tokenize(x) for x in sent_text] 这给了我一个列表列表，其中主列表中的每个列表都是一个标记化单词的句子。然后，一旦我有了这些只包含我想要的片段的新列表(或者任何最好的方法)

浏览 2提问于2018-10-14得票数 0

1回答

在Keras工作流中使用NLTK标记器

、、、

我正在使用Keras标记器对句子进行标记化，然后创建可用于神经网络训练的单词索引序列：tokenizerTokenizer(num_words=5000)X_train = tokenizer.texts_to_sequences(X_train) 如何使用casual_tokenize NLTK</e

浏览 0提问于2020-08-05得票数 0

2回答

如何使用nltk从大文本语料库中仅提取英文单词？

、、

我想从文本语料库中删除所有非词典的英语单词。我已经删除了停用词，对数据进行了标记化和计数。我只需要提取英文单词，并将它们附加回数据帧。( max_features = 200,analyzer='word')我正在使用的文件的示例转储

浏览 5提问于2017-12-11得票数 2

1回答

单词不在词汇表中

、

第一次使用word2vec时，我处理的文件是XML格式的。我想遍历专利以找到每个标题，然后应用word2vec来查看是否有相似的单词(以指示相似的标题)。到目前为止，我已经使用元素树解析了XML文件以检索每个标题，然后应用sent_tokenizer，然后应用tweet tokenizer返回一个句子列表，其中每个单词都已被标记化(不确定这是否是最好的方法然后，我将标记化的句子放入我的word2vec模型中，并使用一

浏览 18提问于2019-06-10得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将NLTK词干恢复为正确的单词？

在Xcode中使用NLTK

使用nltk对单词进行标记化时，防止在撇号处拆分

基于NLTK的语义解析

单词标记化NLTK缩写问题

用WordNet比较两个短语？

Java NLP:在标记化文本时提取索引

使用NLP让系统学习对文本进行分类

从nltk导入WhitespaceTokenizer会给出ImportError:没有名为nltk的模块

用于印度语言的NLTK* CorpusReader*

将HTML解析成句子--如何处理表/列表/标题/等等？

在Python中使用NLTK在文件的特定区域中使用sent_tokenize？

自然语言处理中从名词短语中提取名词

为什么NLTK的Wordnet不对副词和形容词进行修饰？

数据抓取& NLP？

关于Python2.7中列表的SpaCy问题

在Keras工作流中使用NLTK标记器

如何使用nltk从大文本语料库中仅提取英文单词？

单词不在词汇表中

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐