我正在使用HTML请求的网页抓取脚本工作。我抓取URL,然后遍历它们并提交到数据库。我已经能够抓取链接,并创建了一个for循环来呈现页面,然后抓取特定的产品信息。对于大多数链接,这是有效的,但对一些人来说,页面不会呈现,我得到了一个pyppeteer.errors.TimeoutError。我不会刮掉一些链接,因为大多数网站信息都是抓取的。我已经尝试过使用try和,但如下所示: session = HTMLSession()
for l
我正在使用Python3.5的BeautifulSoup,并且我试图抓取所有h-tags的网站(所以所有的h1、h2..等等)。我的问题是让程序在网站上打开其他链接来抓取它们的标签。因此,假设我有一个网站,它有一个导航菜单,其中包含一些链接,这些链接贯穿整个网站,并且都包含某种类型的h标记。我该如何抓取我所选网站上的所有内容呢?这是我到目前为止用来抓取特定url中的h1-tag的代码:from bs4 import B