文本数据预处理:可能需要关注这些点

原创

风兮177

修改于 2023-02-02 11:58:11

1.4K0

文章被收录于专栏：风兮NLP风兮NLP

本文关键词：文本数据预处理、中文文本预处理、自然语言处理

摘要： 要进行自然语言处理相关工作，文本数据预处理是个必不可少的过程。本文将对文本数据预处理相关的内容进行归纳整理，主要包括以下4个方面内容：

“巧妇难为无米之炊”，要做文本数据处理，首先需要获得文本数据。对于此问题，大家可以“八仙过海，各显神通”，借助一切合法、合理方式收集数据集。一般的，可以通过：自有数据整理、公开数据爬取和开源数据引用三个渠道获取数据。

自有数据：收集整理自有或者组织内部的可用数据集。
爬取数据：爬虫是获取数据的重要手段，但是在执行该操作前需遵守相关法规和Robots协议，在爬取数据后合法应用数据。通常，可以通过requests、BeautifulSoup4和Selenium等python工具完成绝大多数爬取任务。

图片豆瓣电影评论爬取可参考：

项目名	项目链接	项目概述
CLUEDatasetSearch	https://github.com/CLUEbenchmark/CLUEDatasetSearch	收集了众多中英文NLP数据集
funNLP	https://github.com/fighting41love/funNLP	分门别类的组织了众多的NLP数据集和项目
awesome-chinese-nlp	https://github.com/crownpku/Awesome-Chinese-NLP	收集了中文自然语言处理相关资料
Chinese_medical_NLP	https://github.com/lrs1353281004/Chinese_medical_NLP	收集了医疗NLP领域（主要关注中文）评测数据集与论文相关资源

由此，在收集好原始数据集后便可进行后续相关的NLP分析了。

特别的，数据集可以保存为txt、json、csv、tsv、sql表等等格式，只要你喜欢，都可以（哈哈哈，有些格式可能会比较占用内存，较大数据集时需要留意）。

图片此处分享一个csv超大文件数据读取技巧，即利用pandas的chunksize分块读取。

import pandas as pd

df = pd.read_csv("data.csv", chunksize=10000)  # 每次读取1w行数据
for df_chunk in df:
    print(df_chunk)

文本数据作为一种非结构化数据，除了特别处理过的数据集，大多数直接收集的文本数据会掺杂或多或少的无用信息，如果直接将其进行相关的文本分析于建模是无益的。通常，需要先对文本数据进行预处理操作。

文本数据预处理的主要目的一般有两个，即：

（1）将文本数据清洗干净（标准自定）

（2）将文本数据格式化（需求自定）

空格换行符，利用replace操作将原始文本中的空格、tab键、换行符\n、\r等与文本无关的字符直接替换为空。
无用信息剔除，如：停用词表构建。
标点符号去除，利用正则表达式去除标点符号，中英文标点符号可以通过如下两个方式获取。中文标点符号：from zhon.hanzi import punctuation （需要安装包：pip install zhon）英文标点符号：from string import punctuation 特别的，文本情感分析中，可保留有情感倾向的标点符号，如：？和！
在噪声数据中提取需要数据，利用正则表达式完成数据提取。如：只需要提取汉字时可以利用正则\u4e00-\u9fa5
简体繁体转换，可安装包：pip install opencc
英文数据：词形还原、大小写转换等（推荐python包：NLTK）

文本分句，根据标点符号分句。
文本分段，根据换行符或其他数据规律分段。
文本根据字段存储：半结构化文本数据存储
excel数据提取，推荐安装python包pandas，pip install pandas docx格式数据提取，推荐安装python包python-docx，pip install python-docx
pdf数据提取，可安装包pdfminer.six，pip install pdfminer.six

至此，经过常规预处理后，文本数据会变的比较干净与规整，可以用于后续nlp研究与应用。（说明，适用于自己任务的操作才是必须的，其他的参照奥卡姆剃刀“如无必要，勿增实体”）。