我想获得一个页面的数据,其链接需要被点击。
我已经尝试用爬虫和提取器捕获链接字段,并将列验证设置为link和html。但是它不会返回实际的链接。只有在我单击该链接后,才会打开一个弹出窗口,其中包含我想要的数据。每个登录页面都有大约50个这样的链接。我想抓取这些链接中的每一个。
我尝试过使用连接器,但事情变得复杂起来,因为有大约90k的查询。此外,连接器不会返回页面的url,这会很有帮助。
发布于 2015-08-19 17:28:10
提取这些数据实际上依赖于网站。导入无法从弹出窗口中提取数据。但是,根据网站的结构,提取链接路径可能是可能的。如果您无法使用该工具提取数据,我建议您使用xpath来获取链接路径。
为此,请导航到要从中获取此数据的页面,右键单击并选择"inspect element“。选择链接路径在页面上的位置,再次右键单击并选择"select xpath“。返回到Extractor并选择“高级设置”图标并粘贴到您的xpath中。同样,这可能行不通,因为它依赖于它是如何构建的网站,但仍然值得一试。
谢谢,
脑磁图
https://stackoverflow.com/questions/32081193
复制相似问题