首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >风暴爬虫是否跟踪次要的JavaScript页面内容加载?

风暴爬虫是否跟踪次要的JavaScript页面内容加载?
EN

Stack Overflow用户
提问于 2018-10-22 20:22:53
回答 1查看 200关注 0票数 0

从我为webmd.com收集的结果来看,它似乎不太可能,我想这是太期待了,因为这将是非常复杂的。但我想我还是要再查一遍。

所以,如果我有一个页面在初始页面加载后使用JavaScript加载它的主体,那么它是否有任何方法来等待这个次要内容加载,然后再刮页呢?

我想,除了非常高的爬行器和复杂的爬行器,比如Google或Bing可能使用的爬虫,或者甚至连爬虫都不使用,因为它需要浏览器级的智能和复杂性,否则没有任何爬虫器这样做。一想到你会如何实现这样高的行为,就会产生焦虑。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-10-23 05:47:01

StormCrawler有一个基于硒的协议实现,它将导航委托给浏览器。有一个我们博客上的教程解释如何使用它。我倾向于使用在可视化模式下进行测试和调试,然后在prod中切换到无头。基本上,您让浏览器处理动态内容。您甚至可以实现导航操作,例如单击按钮、填写表单等。这对于抓取特定的站点很有用,但是对于一般的爬虫来说,性能可能不是很好。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52937236

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档