从我为webmd.com收集的结果来看,它似乎不太可能,我想这是太期待了,因为这将是非常复杂的。但我想我还是要再查一遍。
所以,如果我有一个页面在初始页面加载后使用JavaScript加载它的主体,那么它是否有任何方法来等待这个次要内容加载,然后再刮页呢?
我想,除了非常高的爬行器和复杂的爬行器,比如Google或Bing可能使用的爬虫,或者甚至连爬虫都不使用,因为它需要浏览器级的智能和复杂性,否则没有任何爬虫器这样做。一想到你会如何实现这样高的行为,就会产生焦虑。
发布于 2018-10-23 05:47:01
StormCrawler有一个基于硒的协议实现,它将导航委托给浏览器。有一个我们博客上的教程解释如何使用它。我倾向于使用在可视化模式下进行测试和调试,然后在prod中切换到无头。基本上,您让浏览器处理动态内容。您甚至可以实现导航操作,例如单击按钮、填写表单等。这对于抓取特定的站点很有用,但是对于一般的爬虫来说,性能可能不是很好。
https://stackoverflow.com/questions/52937236
复制相似问题