需求背景
在很多时候, 写爬虫的过程中, 不得不使用一些自动化工具来完成抓取, pyppeteer就是一个很好的选择, 一般情况下, 会选择页面加载完成后, 点击按钮等等, 但是有时候..., 我们只需要其中的一些数据, 比如a标签的href, 其它的都不重要, 等待其它文件加载, 反而会影响爬虫的效率, 这时候, 就可以选择过滤一些无用文件的加载, 在缩短页面加载时间
代码
# -*-...窗口在浏览器中最大化(mac测试无效)
# args=['--start-maximized']
)
page = await browser.newPage()
# 设置页面显示区域大小...# await page.setViewport({
# "width": 1024,
# "height": 963
# })
2
页面超时
有时候,...页面明明已经加载完成了, 但还是会报超时错误
Navigation Timeout Exceeded: 30000 ms exceeded.