爬虫为什么要用框架?
一般比价小型的爬虫需求,我是直接使用requests库 + bs4就解决了,再麻烦点就使用selenium解决js的异步 加载问题,相对比较大型的需求才使用框架,主要是便于管理以及扩展等。
PySpider框架介绍
PySpider是一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。
Pyspider主要的功能需求是:
抓取、更新调度多站点的特定的页面
需要对页面进行结构化信息提取
灵活可扩展,稳定可监控
python 脚本控制,可以用任何你喜欢的html解析包(内置 pyquery)
WEB 界面编写调试脚本,起停脚本,监控执行状态,查看活动历史,获取结果产出
数据存储支持MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL 及 SQLAlchemy
领取专属 10元无门槛券
私享最新 技术干货