Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >在没有标点符号的句子中获取单词计数标志NLTK python

在没有标点符号的句子中获取单词计数标志NLTK python
EN

Stack Overflow用户
提问于 2022-03-08 12:52:43
回答 1查看 212关注 0票数 0

我正试图用python中的nltk在句子中得到单词计数。

这是我写的代码

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import nltk

data = "Sample sentence, for checking. Here is an exclamation mark! Here is a question? This isn't an easy-task."

for i in nltk.sent_tokenize(data):
    print(nltk.word_tokenize(i))

这是输出

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
['Sample', 'sentence', ',', 'for', 'checking', '.']
['Here', 'is', 'an', 'exclamation', 'mark', '!']
['Here', 'is', 'a', 'question', '?']
['This', 'is', "n't", 'an', 'easy-task', '.']

有没有办法去掉标点符号,防止isn't分裂成两个词,把easy-task分割成两个?

我需要的答案是这样的:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
['Sample', 'sentence', 'for', 'checking']
['Here', 'is', 'an', 'exclamation', 'mark']
['Here', 'is', 'a', 'question']
['This', "isn't", 'an', 'easy', 'task']

我可以用一些句号来管理标点符号,比如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import nltk

data = "Sample sentence, for checking. Here is an exclamation mark! Here is a question? This isn't an easy-task."

stopwords = [',', '.', '?', '!']

for i in nltk.sent_tokenize(data):
    for j in nltk.word_tokenize(i):
        if j not in stopwords:
            print(j, ', ', end="")
    print('\n')

产出:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Sample , sentence , for , checking , 

Here , is , an , exclamation , mark , 

Here , is , a , question , 

This , is , n't , an , easy-task , 

但这并不能修复isn'teasy-task。有办法这样做吗?谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-03-09 21:03:52

您可以使用不同的令牌程序来满足您的需求。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import nltk
import string
tokenizer = nltk.TweetTokenizer()

for i in nltk.sent_tokenize(data):
    print(i)
    print([x for x in tokenizer.tokenize(i) if x not in string.punctuation])

#op
['Sample', 'sentence', 'for', 'checking']
['Here', 'is', 'an', 'exclamation', 'mark']
['Here', 'is', 'a', 'question']
['This', "isn't", 'an', 'easy-task']
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71401293

复制
相关文章
翻转句子中单词的顺序
题目:输入一个英文句子,翻转句子中单词的顺序,但单词内字符的顺序不变。句子中单词以空格符隔开。为简单起见,标点符号和普通字母一样处理。 例如输入“I am a student.”,则输出“student. a am I”。 由于本题需要翻转句子,我们先颠倒句子中的所有字符。这时,不但翻转了句子中单词的顺序,而且单词内字符也被翻转了。我们再颠倒每个单词内的字符。由于单词内的字符被翻转两次,因此顺序仍然和输入时的顺序保持一致。 还是以上面的输入为例子。翻转“I am a student.”中所有字符得到“.tn
猿人谷
2018/01/17
1.7K0
NLPer入门指南 | 完美第一步
译者 | Arno 来源 | Analytics Vidhya 概览 想开始学习自然语言处理(NLP)吗?如果是,这是完美的第一步。 学习如何进行标识化(tokenization)[1]——这是为构
磐创AI
2019/07/26
1.5K0
NLPer入门指南 | 完美第一步
Kaggle word2vec NLP 教程 第一部分:写给入门者的词袋
NLP(自然语言处理)是一组用于处理文本问题的技术。这个页面将帮助你从加载和清理IMDB电影评论来起步,然后应用一个简单的词袋模型,来获得令人惊讶的准确预测,评论是点赞还是点踩。
ApacheCN_飞龙
2022/12/02
1.6K0
Python NLP 入门教程
本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。 什么是NLP? 简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。 这里讨论一些自然语言处理(NLP)的实际应用例子,如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词,以及生成语法正确完整句子和段落。 这并不是NLP能做的所有事情。 NLP实现 搜索引擎: 比如谷歌,Yahoo等。谷歌搜索引擎知道你
小小科
2018/05/03
1.5K0
Python NLP 入门教程
五分钟入门Python自然语言处理(一)
專 欄 ❈Jerry,Python中文社区专栏作者。 blog:https://my.oschina.net/jhao104/blog github:https://github.com/jhao104 ❈ 本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。 什么是NLP? 简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。 这里讨论一些自然语言处理(NLP)
Python中文社区
2018/02/01
9290
五分钟入门Python自然语言处理(一)
【NLTK基础】一文轻松使用NLTK进行NLP任务(附视频)
NLTK作为文本处理的一个强大的工具包,为了帮助NLPer更深入的使用自然语言处理(NLP)方法。本公众号开更Natural Language Toolkit(即NLTK)模块的“ Natural Language Processing”教程系列。
zenRRan
2020/02/25
1.1K0
PySpark简介
Apache Spark是一个大数据处理引擎,与MapReduce相比具有多个优势。通过删除Hadoop中的大部分样板代码,Spark提供了更大的简单性。此外,由于Spark处理内存中的大多数操作,因此它通常比MapReduce更快,在每次操作之后将数据写入磁盘。
双愚
2018/08/30
6.9K0
Python NLP入门教程
目录[-] 本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。 什么是NLP? 简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。 这里讨论一些自然语言处理(NLP)的实际应用例子,如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词,以及生成语法正确完整句子和段落。 这并不是NLP能做的所有事情。 NLP实现 搜索引擎: 比如谷歌,Yahoo等。谷歌搜索引擎
jhao104
2018/03/20
2.9K0
Python NLP入门教程
【NLTK基础】一文轻松使用NLTK进行NLP任务(附视频)
NLTK作为文本处理的一个强大的工具包,为了帮助NLPer更深入的使用自然语言处理(NLP)方法。本公众号开更Natural Language Toolkit(即NLTK)模块的“ Natural Language Processing”教程系列。
用户7886150
2020/12/28
8500
LeetCode 2047. 句子中的有效单词数
句子仅由小写字母('a' 到 'z')、数字('0' 到 '9')、连字符('-')、标点符号('!'、'.' 和 ',')以及空格(' ')组成。 每个句子可以根据空格分解成 一个或者多个 token ,这些 token 之间由一个或者多个空格 ’ ’ 分隔。
Michael阿明
2022/01/07
6880
Python NLP入门教程
本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。 什么是NLP? 简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。 这里讨论一些自然语言处理(NLP)的实际应用例子,如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词,以及生成语法正确完整句子和段落。 这并不是NLP能做的所有事情。 NLP实现 搜索引擎: 比如谷歌,Yahoo等。谷歌搜索引擎知道你是一个
小莹莹
2018/04/24
1.2K0
Python NLP入门教程
LeetCode 2114. 句子中的最多单词数
一个 句子 由一些 单词 以及它们之间的单个空格组成,句子的开头和结尾不会有多余空格。
Michael阿明
2022/01/07
4550
【Python 千题 —— 基础篇】句子单词小写
偶尔用户误输入大写字符串,我们需要将其转换成全小写。编写一个程序,输入一个句子字符串,然后将该字符串的全部字符转换成小写形式。
繁依Fanyi
2023/10/22
1870
Python NLP快速入门教程
本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。
Python数据科学
2018/08/06
1.1K0
Python NLP快速入门教程
Python NLTK 自然语言处理入门与例程
那么 NLP 到底是什么?学习 NLP 能带来什么好处?
Sepmer Fi
2018/02/23
6.2K1
NLTK-008:分类文本(有监督分类的更多例子)
句子分割可以看作是一个标点符号的分类任务:每当我们遇到一个可能会结束的句子的符号,我们必须决定他是否终止了当前句子。
李玺
2021/11/22
5650
Python文本预处理:步骤、使用工具及示例
本文将讨论文本预处理的基本步骤,旨在将文本信息从人类语言转换为机器可读格式以便用于后续处理。此外,本文还将进一步讨论文本预处理过程所需要的工具。
AI科技大本营
2019/05/06
1.6K0
Python文本预处理:步骤、使用工具及示例
Python自然语言处理 NLTK 库用法入门教程【经典】
@本文来源于公众号:csdn2299,喜欢可以关注公众号 程序员学府 本文实例讲述了Python自然语言处理 NLTK 库用法。分享给大家供大家参考,具体如下:
用户7886150
2020/12/28
2K0
数据清洗:文本规范化
前面章节初步学习数据的采集和一些快速的数据分析方法,如果需要更加深入去做数据分析,那么会使用到更加丰富的知识。自然语言处理(NLP)的其中一个方向就是文本处理。后面两章节将讲解基础的文本分类的知识点,学习完成入门知识点后将在实践中开始数据分析之旅。
马拉松程序员
2023/09/02
1K0
数据清洗:文本规范化
【Python环境】可爱的 Python: 自然语言工具包入门
鄙人并非见多识广,虽然写过很多关于 文本处理 方面的东西(例如,一本书),但是,对我来说, 语言处理(linguistic processing) 是一个相对新奇的领域。如果在对意义非凡的自然语言工具包(NLTK)的 说明中出现了错误,请您谅解。NLTK 是使用 Python 教学以及实践计算语言学的极好工具。此外,计算语言学与人工 智能、语言/专门语言识别、翻译以及语法检查等领域关系密切。 NLTK 包括什么 NLTK 会被自然地看作是具有栈结构的一系列层,这些层构建于彼此基础之上。那些熟悉人工语言(比如
陆勤_数据人网
2018/02/27
1.2K0

相似问题

NLTK生成的句子在Python中没有出现两个相同的单词

11

单词VBA -在计数/选择X个“单词”或“句子”时忽略标点符号

12

Stanford在NLTK中没有正确标记多个句子- Python

12

标记单词,使用nltk删除标点符号

20

Python - NLTK分离标点符号

14
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文