你将收获
Apify框架介绍和基本使用
如何创建父子进程以及父子进程通信
使用javascript手动实现控制爬虫最大并发数
截取整个网页图片的实现方案
nodejs第三方库和模块的使用
使用umi3...+ antd4.0搭建爬虫前台界面
平台预览
上图所示的就是我们要实现的爬虫平台, 我们可以输入指定网址来抓取该网站下的数据,并生成整个网页的快照.在抓取完之后我们可以下载数据和图片.网页右边是用户抓取的记录...我们一般了解的爬虫, 多用来爬取网页数据, 捕获请求信息, 网页截图等,如下图:
当然爬虫的应用远远不止如此,我们还可以利用爬虫库做自动化测试, 服务端渲染, 自动化表单提交, 测试谷歌扩展程序, 性能诊断等...任何语言实现的爬虫框架原理往往也大同小异, 接下来笔者将介绍基于nodejs实现的爬虫框架Apify以及用法,并通过一个实际的案例方便大家快速上手爬虫开发....能通过无头(headless)Chrome 和 Puppeteer 实现数据提取和** Web** 自动化作业的开发。