主要内容
“在进行文本数据分析之前,大量文本数据的整理必不可少,经常涉及到文件读写和memory error的问题,需要有针对性的研究下”
数据源:搜狗实验室
https://www.sogou.com/labs/resource/list_pingce.php
数据:全网新闻数据,压缩约711M,解压后1.5G
https://www.sogou.com/labs/resource/ca.php
查看数据格式
注意点
encoding采用"gb18030",这种编码比GBK编码的包含范围更广,否则会报编码错误。
f.read(2048)表示只读取2048个字节,查看格式不用全部读入数据。
处理数据
通过字典列表方式构造dataframe
结果如下:
注意点
要注意python的效率,多用字典和集合,少用list;多用迭代器和生成器。
这里输出的计数间距为50000,太小会超出jupyter的输出上限,导致崩溃,当然也可以通过配置jupyter来调整输出限制。
领取专属 10元无门槛券
私享最新 技术干货