上一篇,我们用Scrapy 从简单心理网站上抓取了心理咨询师的信息。
接下来试着分析一下咨询师的价格。
如何去掉某一列中不需要的字符?
在 列中,数据格式是 。很明显,中文字符会给统计价格带来不便,需要想办法去掉。
取 列:
去掉 字符:
把剩下字符转换成数字:
Pandas 语句可以这样写:
结果:
如何统计价格?
用 Pandas 做基本的数据统计如均值、最大值、最小值等,非常方便,分别用 , ,就可以:
平均价格:570.9元
最高价格:3000元
最低价格:100元
另外,Pandas 还提供了 函数,快速给出概要统计值:
然后单独取出收费最高和最低的咨询师资料:
如何统计咨询师介绍里的词频?
方法 1 :用 jieba 分词,用 Counter 统计
列出前 30 个高频词:
方法 2 :用 wordcloud 直接制作标签云
word cloud 是一个 python 的标签云生成库,可以直接输入文本,得到标签云图片,还可以定制图片形状和颜色,小巧好用。(https://github.com/amueller/word_cloud)
结合 matplotlib,很快就可以画出高频词的标签云:
结果如下:
完整的 Jupyter Notebook,请查看 00 的 Github:
https://github.com/kidult00/scrapy-jdxl/blob/master/jdxl/output/jdxl_experts_analysis.ipynb
Ref
PANDAS 数据合并与重塑(concat篇) - http://blog.csdn.net/weixin_37226516/article/details/64134643
初学pandas(八)条件选取行的便捷 - http://blog.csdn.net/u010770993/article/details/70312506
pandas数据清洗,排序,索引设置,数据选取 - http://blog.csdn.net/zhili8866/article/details/68134481
word_cloud: A little word cloud generator in Python - https://github.com/amueller/word_cloud
领取专属 10元无门槛券
私享最新 技术干货