首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

G级别结构化文本解析

主要内容

“在进行文本数据分析之前,大量文本数据的整理必不可少,经常涉及到文件读写和memory error的问题,需要有针对性的研究下”

数据源:搜狗实验室

https://www.sogou.com/labs/resource/list_pingce.php

数据:全网新闻数据,压缩约711M,解压后1.5G

https://www.sogou.com/labs/resource/ca.php

查看数据格式

注意点

encoding采用"gb18030",这种编码比GBK编码的包含范围更广,否则会报编码错误。

f.read(2048)表示只读取2048个字节,查看格式不用全部读入数据。

处理数据

通过字典列表方式构造dataframe

结果如下:

注意点

要注意python的效率,多用字典和集合,少用list;多用迭代器和生成器。

这里输出的计数间距为50000,太小会超出jupyter的输出上限,导致崩溃,当然也可以通过配置jupyter来调整输出限制。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180829G15LDS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券