Github | 高效微信公众号历史文章和阅读数据爬虫

Python进击者

发布于 2019-08-26 17:38:30

4.5K0

今天逛github看到了一个很好的项目，给大家分享一下。

项目地址：https://github.com/54xingzhe/weixin_crawler

What is weixin_crawler?

weixin_crawler是一款使用Scrapy、Flask、Echarts、Elasticsearch等实现的微信公众号文章爬虫，自带分析报告和全文检索功能，几百万的文档都能瞬间搜索。weixin_crawler设计的初衷是尽可能多、尽可能快地爬取微信公众的历史发文

如果你想先看看这个项目是否有趣，这段不足3分钟的介绍视频一定是你需要的：

https://www.youtube.com/watch?v=CbfLRCV7oeU&t=8s

主要特点

使用Python3编写
爬虫框架为Scrapy并且实际用到了Scrapy的诸多特性，是深入学习Scrapy的不错开源项目
利用Flask、Flask-socketio、Vue实现了高可用性的UI界面。功能强大实用，是新媒体运营等岗位不错的数据助手
得益于Scrapy、MongoDB、Elasticsearch的使用，数据爬取、存储、索引均简单高效
支持微信公众号的全部历史发文爬取
支持微信公众号文章的阅读量、点赞量、赞赏量、评论量等数据的爬取
自带面向单个公众号的数据分析报告
利用Elasticsearch实现了全文检索，支持多种搜索和模式和排序模式，针对搜索结果提供了趋势分析图表
支持对公众号进行分组，可利用分组数据限定搜索范围
原创手机自动化操作方法，可实现爬虫无人监管
反爬措施简单粗暴

使用到的主要工具

语言		Python3.6
前端	web框架	Flask / Flask-socketio / gevent
	js/css库	Vue / Jquery / W3css / Echarts / Front-awsome
后端	爬虫	Scrapy
	存储	Mongodb / Redis
	索引	Elasticsearch

功能展示

UI主界面

添加公众号爬取任务和已经爬取的公众号列表

爬虫界面

设置界面

公众号历史文章列表

报告

搜索

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-08-25，如有侵权请联系 cloudcommunity@tencent.com 删除

scrapy

flask

爬虫

Elasticsearch Service

微信

本文分享自 Python进击者微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

scrapy

flask

爬虫

Elasticsearch Service

微信

登录后参与评论

0 条评论

热度

Github | 高效微信公众号历史文章和阅读数据爬虫

Github | 高效微信公众号历史文章和阅读数据爬虫

What is weixin_crawler?

主要特点

使用到的主要工具

功能展示

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐