需求背景
在很多时候, 写爬虫的过程中, 不得不使用一些自动化工具来完成抓取, pyppeteer就是一个很好的选择, 一般情况下, 会选择页面加载完成后, 点击按钮等等, 但是有时候..., 我们只需要其中的一些数据, 比如a标签的href, 其它的都不重要, 等待其它文件加载, 反而会影响爬虫的效率, 这时候, 就可以选择过滤一些无用文件的加载, 在缩短页面加载时间
代码
# -*-...print("request type", req.resourceType)
if req.resourceType in ['stylesheet', 'script', 'image...await page.setViewport({
# "width": 1024,
# "height": 963
# })
2
页面超时
有时候, 页面明明已经加载完成了