首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >自然语言处理

自然语言处理
EN

Data Science用户
提问于 2022-03-26 11:30:53
回答 1查看 43关注 0票数 1

我是NLP的新手。我用木星笔记本把我的JSON文件转换成CSV。我不知道如何使用标记化和柠檬化等技术对我的数据进行预处理。在将数据转换成CSV格式之前,我对数据进行了规范化处理,所以现在我有了一个数据框架。请如何在整个数据集上应用标记化过程,并且使用split()函数会给我一个错误?

EN

回答 1

Data Science用户

发布于 2022-03-31 17:19:01

好吧,像这样的东西应该能用:

代码语言:javascript
运行
复制
import json
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

with open('data_full.json','r') as f:
    data0 = f.read()
rawdata = json.loads(data0)

for dataset,instances in rawdata.items():
    for instance in instances:
        sentence = instance[0]
        label = instance[1]
        tokens = word_tokenize(sentence)
        print('in ',dataset,': ', '|'.join(tokens),'; label:', instance[1])
        lemmas = [ lemmatizer.lemmatize(token) for token in tokens ]
        print('          lemmas = ','|'.join(lemmas))

注意:您可能需要为nltk安装一些资源,遵循错误消息中的说明。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/109378

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档