如何为nltk.word_tokenize定义特殊的“不可标记化”单词

为了为nltk.word_tokenize定义特殊的“不可标记化”单词，我们可以使用自定义的分词器来实现。下面是一个示例代码：

import nltk

class CustomTokenizer(nltk.tokenize.api.Tokenizer):
    def __init__(self, untokenizable_words):
        self.untokenizable_words = untokenizable_words

    def tokenize(self, text):
        words = nltk.word_tokenize(text)
        tokens = []
        i = 0
        while i < len(words):
            if words[i] in self.untokenizable_words:
                tokens.append(words[i])
                i += 1
            else:
                j = i + 1
                while j < len(words) and words[j] in self.untokenizable_words:
                    j += 1
                tokens.append("".join(words[i:j]))
                i = j
        return tokens

# 定义不可标记化的单词列表
untokenizable_words = ["don't", "can't", "won't"]

# 创建自定义分词器实例
tokenizer = CustomTokenizer(untokenizable_words)

# 使用自定义分词器进行分词
text = "I don't like this book. It can't be true."
tokens = tokenizer.tokenize(text)
print(tokens)

在上述代码中，我们定义了一个名为CustomTokenizer的自定义分词器类，该类继承自nltk.tokenize.api.Tokenizer。在初始化方法中，我们传入了一个不可标记化的单词列表。在tokenize方法中，我们遍历输入的文本，如果当前单词在不可标记化的单词列表中，我们将其作为一个独立的标记添加到tokens列表中。如果当前单词不在不可标记化的单词列表中，我们将继续查找连续的不可标记化单词，并将它们合并为一个标记。

使用自定义分词器时，我们可以传入需要分词的文本，然后调用tokenize方法进行分词。在上述示例中，我们定义了一个包含两个不可标记化单词的列表，然后使用自定义分词器对文本进行分词，并打印结果。

请注意，上述示例中的CustomTokenizer类只是一个简单的示例，您可以根据实际需求进行修改和扩展。此外，腾讯云没有与nltk.word_tokenize直接相关的产品或服务，因此无法提供相关的产品和链接。

页面内容是否对你有帮助？

有帮助

没帮助

如何为nltk.word_tokenize定义特殊的“不可标记化”单词

、

我使用nltk.word_tokenize来标记化一些包含编程语言、框架等的句子，这些句子被错误地标记化了。有没有办法将这样的“异常”列表输入到记号赋予器中？我已经列出了所有的东西(语言，等等)我不想拆分。

浏览 14提问于2017-08-11得票数 8

1回答

去除单词标记化后的停用词并降低大小写

、

我是NLP的新手，在执行以下任务时面临一些挑战。我想执行这些顺序的任务。1.语义标记化2.对每个句子进行单词标记化3.小写4.停止词删除5.对每个词进行词素化import nltkimport randomtokens = nltk.sent_tokenize(input_str)#sentence tokenizing

浏览 0提问于2018-11-05得票数 0

1回答

NLP中的否定处理

、、、、

由于我使用的是conceptnet5 (一个语义网络)，我不能在包含否定词的句子中简单地前缀单词，因为这些词根本不会出现在sentence 5的API中。因此，我想我可以使用wordnet的引理功能来替换包含否定的句子中的形容词--比如(not，.)。虽然我看到这不是最优雅的方法，而且在许多情况下可能会产生

浏览 3提问于2015-02-25得票数 12

回答已采纳

1回答

spacy通过正则表达式或模式添加特殊情况标记化规则

、

我想根据为空格中的标记化添加特殊情况。该文档显示了如何将特定单词视为特例。我希望能够指定一种模式(例如后缀)。例如，我有一个这样的字符串其中<word-i>指定单个单词。我知道我可以通过下面的代码一次只处理一个特殊情况。但是我如何为它指定一个模式呢？

浏览 13提问于2017-06-17得票数 3

1回答

删除特殊引号和其他字符

、、

我正在尝试使用Article从newspaper下载文章，并尝试使用nltk word_tokenizer对单词进行标记化。问题是，当我尝试打印经过解析的文章文本时，其中一些文章有特殊的引号，如“、”、’，这些引号不会像常规的'和"那样被分词器过滤掉。有没有一种方法可以用普通引号替换这些特殊引号，或者更好的方法是删除标记器可能遗漏的所有可能的<

浏览 17提问于2017-06-28得票数 1

回答已采纳

2回答

标题例句与介词如何匹配？

、、

当介词都是大写和非大写时，我希望我的正则表达式与句子相匹配。我想要它匹配：战争艺术 pattern.findall(reddit_comment) 我原以为它只会检索“战争的艺术

浏览 0提问于2019-05-23得票数 3

回答已采纳

1回答

通过预先训练好的单词嵌入(如GloVe )，使用LSTM创建问题表示

、、、、

我是LSTM和python的新手。我的目标是使用LSTM表示句子。你能告诉我我做的是对的吗？如何修复运行以下代码时出现的错误？

浏览 56提问于2021-03-31得票数 0

回答已采纳

4回答

为什么要标记/预处理用于语言分析的单词？

、、、

我目前正在开发Python tweet分析器，其中一部分将用于统计常见的单词。我已经看过许多关于如何做到这一点的教程，在进一步分析之前，大多数教程都对文本字符串进行了标记。当然，避免这一阶段的预处理并直接从字符串中计数单词会更容易--那么为什么要这样做呢？

浏览 0提问于2018-10-21得票数 2

回答已采纳

1回答

我可以在Office 365中定义自定义标记吗？

、、

是否有方法在MS Office 365数据(如Word、Excel、Powerpoint文件)中创建自定义标记？当我打印单词文档时，我设想的是一些“不可修复”的东西，但对于解析器来说仍然是机器可读的。以前有类似于“智能标签”的东西，但这似乎被抛在了后面。

浏览 6提问于2022-01-11得票数 0

回答已采纳

3回答

如何为模板类中定义的类定义朋友

、、、、

它应该是针对任何需要特殊处理的类型而专门化的：struct maybeChangeType { using type = T; } /* default:这个问题并不是问如何在一般情况下(例如)，如何声明朋友，甚至是如何声明朋友的模板。它询问如何为模板类的非模板嵌套成员(如title状态)声明朋友。:为foo<T>::bar定义专门化<

浏览 5提问于2015-08-21得票数 8

1回答

如何创建新实体并使用它在我的测试数据中查找该实体？如何使我的标记工作？

、、

我想做一个新的实体:让我们称之为“医学”，然后用我的语料库来训练它。从那里，确定“医学”的所有实体。不知怎么我的代码不起作用了，有人能帮我吗？print(sample1) tokenized_sentences = [nltk.word_tokenize

浏览 0提问于2018-06-29得票数 0

回答已采纳

1回答

C#本地化。同一句子中从左到右的词和从右到左的词混合的问题

、、

我正在研究如何在混合需要从右到左(如阿拉伯语)和从左到右(如英语)阅读的单词时解决问题。这样做的上下文是，例如，我正在开发的程序需要插入一些in或对象标识符，这些in或对象标识符需要保留为英语，但插入到本地化句子中(本例中为阿拉伯语)。为了举例说明，我们假设RTL单词是小写的，而LTR单词是大写的。将标记它的末尾)： abc {LTR} ABC {PDF} efg

浏览 0提问于2011-02-17得票数 0

1回答

如何使用篡改猴子删除这些特定的html元素？

、、、

好吧，出于某种原因，youtube做出了一些愚蠢的设计决定。问题是，由于某些原因，他们这样做是为了让类似、不喜欢、共享等按钮掩盖上传日期和视图计数，如您在这里所看到的：我想自己修。因此，我所做的是使用I元素删除每个按钮旁边的文本：在我看来这看起来好多了。但我不知道怎样才能让这件事永久化。我正在考虑使用篡改猴子，但我没有任何运气，因为我不知道如何为<

浏览 9提问于2022-05-29得票数 0

回答已采纳

1回答

自定义元素能安全地使用任意属性名吗？

、、、、

对于，有非常明确的规则。其他HTML元素的主要区别在于它们必须有一个非主导连字符。虽然可以加载包含不遵守这些规则的组合标记名称的HTML文档，但它应该保证一定程度的未来验证和平台支持。但是，我正在寻找关于如何为我的自定义元素命名属性的指导。它抱怨使用特殊字符或重复相同的属性，因此这表明它并不是简单地完全放弃对自定义元素的验证，而是实际上认为任意属

浏览 0提问于2021-04-30得票数 1

1回答

对于字典web应用程序，我应该使用哪些元标记或结构化数据？

、、、

我有一个用作字典的web应用程序，在搜索我的语言(字典的目标语言)中的一个罕见单词时，它在Google中排名很好。我应该在HTML的头上添加一些特殊的元标记吗？结构化数据如何，例如，使用微数据？谷歌是否有专门的网站管理员工具来注册字典，如: wordnetweb.princeton.edu或en.wiktionary.org？

浏览 0提问于2013-11-12得票数 1

回答已采纳

1回答

在Pandas中，有没有比这段代码更快的删除停用词和标点符号的方法呢？

、、

我使用的代码似乎太慢了，也许还有其他选择。4 This is the top wine from La Bégude, named aft... 95 66.0标记化非常快。现在定义无用的</

浏览 1提问于2019-04-13得票数 2

1回答

结构化数据的文本友好文件格式

、、、

我正在寻找一种文件格式，它允许我编码像字典和数组这样的结构化数据，但也允许我轻松地编辑文本块，包括换行。迄今为止，候选人： json：(+)有利于结构化数据，(-)不利于多行文本的编辑yaml：(+)有利于结构化数据，(-)如果文本包含特殊字符(如冒号等)，则不利

浏览 2提问于2015-12-01得票数 2

回答已采纳

2回答

解决针对亚洲文本的Android SQLite全文搜索问题

、、、、

我读过很多关于安卓是否可以进行基于SQLite的全文搜索的帖子，所有的答案都指出安卓的内置SQLite不支持自定义标记器。默认标记器考虑用空格或其他符号分隔的单词，但亚洲单词(如中文)需要其特殊的标记器，但Android不允许添加自定义标记器。我读到的帖子是几年前的事了。最近的</e

浏览 3提问于2015-10-21得票数 0

1回答

在Apache中索引标记文档以进行全文搜索

、、、、

我正在使用Apache对标记文档进行索引。如您所知，Markdown基本上是带有特殊标记的纯文本，用于格式设置，如粗体和斜体。问题是:如果标记具有粗体或斜体格式，则全文搜索不起作用。但是，如果标记文档没有格式化元素(粗体、斜体或标题、链接等)，则全文搜索工作。总之，当标记文档与纯文本相同时(即没有任何单词具有任何标记格式)，它就能工作。我的结论是，在编制文档索引

浏览 1提问于2018-09-30得票数 2

回答已采纳

3回答

机器学习或NLP方法将大约月、年的字符串转换为日期

、、、、

例句:去年上个月到2018年12月的字符串可能是完整的句子，比如:5年前你在做什么？它将给2014年谢谢你的贡献！

浏览 0提问于2019-02-20得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何为nltk.word_tokenize定义特殊的“不可标记化”单词

相关·内容

如何为nltk.word_tokenize定义特殊的“不可标记化”单词

去除单词标记化后的停用词并降低大小写

NLP中的否定处理

spacy通过正则表达式或模式添加特殊情况标记化规则

删除特殊引号和其他字符

标题例句与介词如何匹配？

通过预先训练好的单词嵌入(如GloVe )，使用LSTM创建问题表示

为什么要标记/预处理用于语言分析的单词？

我可以在Office 365中定义自定义标记吗？

如何为模板类中定义的类定义朋友

如何创建新实体并使用它在我的测试数据中查找该实体？如何使我的标记工作？

C#本地化。同一句子中从左到右的词和从右到左的词混合的问题

如何使用篡改猴子删除这些特定的html元素？

自定义元素能安全地使用任意属性名吗？

对于字典web应用程序，我应该使用哪些元标记或结构化数据？

在Pandas中，有没有比这段代码更快的删除停用词和标点符号的方法呢？

结构化数据的文本友好文件格式

解决针对亚洲文本的Android SQLite全文搜索问题

在Apache中索引标记文档以进行全文搜索

机器学习或NLP方法将大约月、年的字符串转换为日期

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐