首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Google Plus 文本提取与分析2

本文所有数据源自google+,全篇围绕五个方面来进行文本提取和分析,数据获取、中文分词、NLTK、特征词提取、文本相似度。此外,本文还涉及情感词分析,齐普夫定律等。摘要自动提取、意见挖掘、文本聚类、新闻分类等常规文本分析内容并不适合google+的数据集,因此本文没有涉及。

看点

02

中文分词

概述

为了进一步对每条记录分析,有必要进行中文分词。文章3中提到11款开放中文分词引擎,从分词效果和调用难度角度考虑,这里采用商业化的BosonNLP工具(关键被他一句广告吸引“现在加入BosonNLP,可获得分词与词性标注引擎不限量调用额度!”)。 注册波森后会给你一个api_key,和google+一个原理。安装python版SDK: pip install -U bosonnlp 。api文档很简单,看一遍就直接用了。

引用方法:

直接使用里面的api进行情感分析:

绘制箱线图和统计直方图:

从图中可以看出,整体情感偏上,这里只计算了100条,有兴趣把一天的免费记录数500条全计算完了看看结果。当然情感算法用的很普遍了,自己实现个也非难事。

参考文献

Russell, Matthew A. Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More. O’Reilly Media, Inc. 2013.

python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容.http://www.cnblogs.com/zdz8207/p/python_learn_note_17.html

Beautiful Soup 4.2.0 文档.https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

11 款开放中文分词引擎评测.http://www.cnblogs.com/croso/p/5349517.html

Natural Language Toolkit.http://www.nltk.org/index.html

TF-IDF与余弦相似性的应用(一):自动提取关键词.http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180103G05NV300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券