Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >在没有标点符号的句子中获取单词计数标志NLTK python

问在没有标点符号的句子中获取单词计数标志NLTK python
EN

Stack Overflow用户

提问于 2022-03-08 12:52:43

回答 1查看 212关注 0票数 0

我正试图用python中的nltk在句子中得到单词计数。

这是我写的代码

import nltk

data = "Sample sentence, for checking. Here is an exclamation mark! Here is a question? This isn't an easy-task."

for i in nltk.sent_tokenize(data):
    print(nltk.word_tokenize(i))

这是输出

['Sample', 'sentence', ',', 'for', 'checking', '.']
['Here', 'is', 'an', 'exclamation', 'mark', '!']
['Here', 'is', 'a', 'question', '?']
['This', 'is', "n't", 'an', 'easy-task', '.']

有没有办法去掉标点符号，防止isn't分裂成两个词，把easy-task分割成两个？

我需要的答案是这样的：

['Sample', 'sentence', 'for', 'checking']
['Here', 'is', 'an', 'exclamation', 'mark']
['Here', 'is', 'a', 'question']
['This', "isn't", 'an', 'easy', 'task']

我可以用一些句号来管理标点符号，比如：

import nltk

data = "Sample sentence, for checking. Here is an exclamation mark! Here is a question? This isn't an easy-task."

stopwords = [',', '.', '?', '!']

for i in nltk.sent_tokenize(data):
    for j in nltk.word_tokenize(i):
        if j not in stopwords:
            print(j, ', ', end="")
    print('\n')

产出：

Sample , sentence , for , checking , 

Here , is , an , exclamation , mark , 

Here , is , a , question , 

This , is , n't , an , easy-task ,

但这并不能修复isn't和easy-task。有办法这样做吗？谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-03-09 21:03:52

您可以使用不同的令牌程序来满足您的需求。

import nltk
import string
tokenizer = nltk.TweetTokenizer()

for i in nltk.sent_tokenize(data):
    print(i)
    print([x for x in tokenizer.tokenize(i) if x not in string.punctuation])

#op
['Sample', 'sentence', 'for', 'checking']
['Here', 'is', 'an', 'exclamation', 'mark']
['Here', 'is', 'a', 'question']
['This', "isn't", 'an', 'easy-task']

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71401293

复制

相关文章

翻转句子中单词的顺序

题目：输入一个英文句子，翻转句子中单词的顺序，但单词内字符的顺序不变。句子中单词以空格符隔开。为简单起见，标点符号和普通字母一样处理。例如输入“I am a student.”，则输出“student. a am I”。由于本题需要翻转句子，我们先颠倒句子中的所有字符。这时，不但翻转了句子中单词的顺序，而且单词内字符也被翻转了。我们再颠倒每个单词内的字符。由于单词内的字符被翻转两次，因此顺序仍然和输入时的顺序保持一致。还是以上面的输入为例子。翻转“I am a student.”中所有字符得到“.tn

猿人谷

2018/01/17

1.7K0

NLPer入门指南 | 完美第一步

keras javascript 编程算法 python https

译者 | Arno 来源 | Analytics Vidhya 概览想开始学习自然语言处理(NLP)吗?如果是，这是完美的第一步。学习如何进行标识化(tokenization)[1]——这是为构

磐创AI

2019/07/26

1.5K0

NLPer入门指南 | 完美第一步

Kaggle word2vec NLP 教程第一部分：写给入门者的词袋

python NLP 服务正则表达式

NLP（自然语言处理）是一组用于处理文本问题的技术。这个页面将帮助你从加载和清理IMDB电影评论来起步，然后应用一个简单的词袋模型，来获得令人惊讶的准确预测，评论是点赞还是点踩。

ApacheCN_飞龙

2022/12/02

1.6K0

Python NLP 入门教程

python NLP 服务搜索引擎

本文简要介绍Python自然语言处理(NLP)，使用Python的NLTK库。NLTK是Python的自然语言处理工具包，在NLP领域中，最常使用的一个Python库。什么是NLP？简单来说，自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。这里讨论一些自然语言处理(NLP)的实际应用例子，如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词，以及生成语法正确完整句子和段落。这并不是NLP能做的所有事情。 NLP实现搜索引擎: 比如谷歌，Yahoo等。谷歌搜索引擎知道你

小小科

2018/05/03

1.5K0

Python NLP 入门教程

五分钟入门Python自然语言处理（一）

專欄 ❈Jerry，Python中文社区专栏作者。 blog：https://my.oschina.net/jhao104/blog github：https://github.com/jhao104 ❈ 本文简要介绍Python自然语言处理(NLP)，使用Python的NLTK库。NLTK是Python的自然语言处理工具包，在NLP领域中，最常使用的一个Python库。什么是NLP？简单来说，自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。这里讨论一些自然语言处理(NLP)

Python中文社区

2018/02/01

9290

五分钟入门Python自然语言处理（一）

【NLTK基础】一文轻松使用NLTK进行NLP任务(附视频)

python 编程算法 gui

NLTK作为文本处理的一个强大的工具包，为了帮助NLPer更深入的使用自然语言处理(NLP)方法。本公众号开更Natural Language Toolkit（即NLTK）模块的“ Natural Language Processing”教程系列。

zenRRan

2020/02/25

1.1K0

大数据搜索引擎

Apache Spark是一个大数据处理引擎，与MapReduce相比具有多个优势。通过删除Hadoop中的大部分样板代码，Spark提供了更大的简单性。此外，由于Spark处理内存中的大多数操作，因此它通常比MapReduce更快，在每次操作之后将数据写入磁盘。

双愚

2018/08/30

6.9K0

Python NLP入门教程

目录[-] 本文简要介绍Python自然语言处理(NLP)，使用Python的NLTK库。NLTK是Python的自然语言处理工具包，在NLP领域中，最常使用的一个Python库。什么是NLP？简单来说，自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。这里讨论一些自然语言处理(NLP)的实际应用例子，如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词，以及生成语法正确完整句子和段落。这并不是NLP能做的所有事情。 NLP实现搜索引擎: 比如谷歌，Yahoo等。谷歌搜索引擎

jhao104

2018/03/20

2.9K0

【NLTK基础】一文轻松使用NLTK进行NLP任务(附视频)

python NLP 服务

NLTK作为文本处理的一个强大的工具包，为了帮助NLPer更深入的使用自然语言处理(NLP)方法。本公众号开更Natural Language Toolkit（即NLTK）模块的“ Natural Language Processing”教程系列。

用户7886150

2020/12/28

8500

LeetCode 2047. 句子中的有效单词数

https 网络安全

句子仅由小写字母（'a' 到 'z'）、数字（'0' 到 '9'）、连字符（'-'）、标点符号（'!'、'.' 和 ','）以及空格（' '）组成。每个句子可以根据空格分解成一个或者多个 token ，这些 token 之间由一个或者多个空格 ’ ’ 分隔。

Michael阿明

2022/01/07

6880

Python NLP入门教程

本文简要介绍Python自然语言处理(NLP)，使用Python的NLTK库。NLTK是Python的自然语言处理工具包，在NLP领域中，最常使用的一个Python库。什么是NLP？简单来说，自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。这里讨论一些自然语言处理(NLP)的实际应用例子，如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词，以及生成语法正确完整句子和段落。这并不是NLP能做的所有事情。 NLP实现搜索引擎: 比如谷歌，Yahoo等。谷歌搜索引擎知道你是一个

小莹莹

2018/04/24

1.2K0

LeetCode 2114. 句子中的最多单词数

https 网络安全 python 编程算法

一个句子由一些单词以及它们之间的单个空格组成，句子的开头和结尾不会有多余空格。

Michael阿明

2022/01/07

4550

【Python 千题 —— 基础篇】句子单词小写

python 程序函数基础字符串

偶尔用户误输入大写字符串，我们需要将其转换成全小写。编写一个程序，输入一个句子字符串，然后将该字符串的全部字符转换成小写形式。

繁依Fanyi

2023/10/22

1870

Python NLP快速入门教程

python 人工智能 NLP 服务

本文简要介绍Python自然语言处理(NLP)，使用Python的NLTK库。NLTK是Python的自然语言处理工具包，在NLP领域中，最常使用的一个Python库。

Python数据科学

2018/08/06

1.1K0

Python NLP快速入门教程

Python NLTK 自然语言处理入门与例程

那么 NLP 到底是什么？学习 NLP 能带来什么好处？

Sepmer Fi

2018/02/23

6.2K1

NLTK-008：分类文本（有监督分类的更多例子）

编程算法文字识别

句子分割可以看作是一个标点符号的分类任务：每当我们遇到一个可能会结束的句子的符号，我们必须决定他是否终止了当前句子。

李玺

2021/11/22

5650

Python文本预处理：步骤、使用工具及示例

NLP 服务 apache python

本文将讨论文本预处理的基本步骤，旨在将文本信息从人类语言转换为机器可读格式以便用于后续处理。此外，本文还将进一步讨论文本预处理过程所需要的工具。

AI科技大本营

2019/05/06

1.6K0

Python文本预处理：步骤、使用工具及示例

Python自然语言处理 NLTK 库用法入门教程【经典】

html html5 python NLP 服务

@本文来源于公众号：csdn2299，喜欢可以关注公众号程序员学府本文实例讲述了Python自然语言处理 NLTK 库用法。分享给大家供大家参考，具体如下：

用户7886150

2020/12/28

2K0

数据清洗：文本规范化

中文分词规范化模型数据数据清洗

前面章节初步学习数据的采集和一些快速的数据分析方法，如果需要更加深入去做数据分析，那么会使用到更加丰富的知识。自然语言处理（NLP）的其中一个方向就是文本处理。后面两章节将讲解基础的文本分类的知识点，学习完成入门知识点后将在实践中开始数据分析之旅。

马拉松程序员

2023/09/02

1K0

【Python环境】可爱的 Python: 自然语言工具包入门

python NLP 服务

鄙人并非见多识广，虽然写过很多关于文本处理方面的东西（例如，一本书），但是，对我来说，语言处理（linguistic processing）是一个相对新奇的领域。如果在对意义非凡的自然语言工具包（NLTK）的说明中出现了错误，请您谅解。NLTK 是使用 Python 教学以及实践计算语言学的极好工具。此外，计算语言学与人工智能、语言/专门语言识别、翻译以及语法检查等领域关系密切。 NLTK 包括什么 NLTK 会被自然地看作是具有栈结构的一系列层，这些层构建于彼此基础之上。那些熟悉人工语言（比如

陆勤_数据人网

2018/02/27

1.2K0

相似问题

NLTK生成的句子在Python中没有出现两个相同的单词

11

单词VBA -在计数/选择X个“单词”或“句子”时忽略标点符号

12

Stanford在NLTK中没有正确标记多个句子- Python

12

标记单词，使用nltk删除标点符号

20

Python - NLTK分离标点符号

14

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例