爬虫抓取js动态加载的数据_python爬虫js动态加载_js爬虫抓取网页数据过滤 - 腾讯云开发者社区

、、、

我正在使用Abot库来抓取网页。爬虫可以正确地请求页面，但问题是几乎所有内容都是通过knockout.js动态加载的。爬虫程序目前无法请求此内容，这导致只加载了页面的一小部分。我试着让程序等待，希望动态的请求无论如何都会被发送，但这似乎不起作用。如何才能使crawler请求所有数据？谢谢!

浏览 12提问于2019-07-09得票数 0

1回答

爬行url \如何在node.js中获取动态链接

、

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

1回答

爬虫不读取我的javascript附加的meta标签

、、、

爬虫在我的头中没有通过脚本附加的meta标签：有没有合适的JS代码格式可以不阻止爬虫抓取我的脚本？

浏览 1提问于2020-12-15得票数 1

1回答

如果只对注册帐户可见内容，如何抓取网站？

、

我正在阅读关于网络蜘蛛的攻击和防御策略。假设我在我的网站上有敏感的信息，这些信息应该受到第三方网络蜘蛛的保护。Me:我将敏感数据设置为只对注册用户帐户可见的。用例2：问题：在这两个用例中，攻击者的方法实用

浏览 0提问于2019-08-02得票数 3

回答已采纳

2回答

如何使用Nokogiri在href中加载javascript函数

、

我想在我的ruby项目中使用Nokogiri抓取一些html页面。在爬虫页面，有一些链接，我也想抓取。但问题是链接的href在javascript函数中。<a href="javascript:nextPage('some text','','other text')">Click here</a> 如何使用Nokogiri加载此动态页面？

浏览 3提问于2016-02-18得票数 0

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

遍历远程数据

、、

我正在尝试从一个网站(一个电影列表)中抓取一些数据--但是这个网站一次只能显示大约50个数据，并且需要用户点击一个按钮才能加载更多。有没有一种方法可以让我编写单击按钮的脚本，或者以某种方式遍历数据？网站不在我的服务器上。(尝试从Virgin Media网站获取Sky电影列表)

浏览 0提问于2014-05-09得票数 0

2回答

将javascript放在</html>标记之后

、、

gtmetrix向我展示了为了我的网站的SEO目的而推迟解析javascript但是，如果我剪切并粘贴任何调用head.php文件的javascript文件，如果我取消发布该特定模块，那么它是否也会加载？在模块中有许多javascript文件，这些文件是在特定条件检查时加载的，如果我默认将这些文件放在head.php中，会不会有问题？我使用的是j

浏览 1提问于2013-04-20得票数 0

1回答

在抓取器加载页面后更改AJAX链接？

、

我正在构建一个AJAX应用程序，它动态地在内容中动画。由于所有链接都是hashtag，我想在Google之外的其他引擎上索引我的页面，我的想法是：这样做的想法是，如果访问者是爬虫或禁用JS，内容将从/foo

浏览 1提问于2012-03-29得票数 0

回答已采纳

1回答

我可以使用powershell制作一个从动态网页获取数据的网络爬虫吗？

、

我正在做一个网络爬虫的项目，从内部网站获取一些信息。我发现静态页面可以通过几个简单的步骤(设置cookie，然后使用Cmdlet Invoke-RestMethod)来捕获，但是动态页面的数据不能通过这种方式获得。此外，我发现动态页面上的链接并不是持续不断的，例如，它总是由jsessionid或其他东西组成，它们总是随时间而变化。有人能给我一个提示来解决这个问题吗？爬虫能抓取动态网页吗？谢谢..。

浏览 149提问于2017-02-13得票数 0

1回答

如何通过url参数更改开放图形meta标签内容

、、、

我正在尝试使用url参数和打开的图形meta标签来制作一个自定义的嵌入生成器，但是每当我将链接发布到诸如Discord之类的站点时，它都会使用我为其设置的默认标签，而不是url参数。我已经发布了代码和下面发生的事情的示例图像。 ?

浏览 24提问于2021-02-03得票数 1

回答已采纳

3回答

scrapy能像Selenium一样控制和显示浏览器吗？

、、

当我使用Selenium时，我可以看到浏览器GUI，是否可以使用scrapy或严格基于scrapy命令行？

浏览 4提问于2015-11-03得票数 1

回答已采纳

1回答

使用Xpath提取值时来自Scrapy的空列表

、、、

真的需要这个社区的帮助。我的问题是，当我使用python中的代码时要提取scrapy shell中的供应商名称，输出为空

浏览 2提问于2018-02-12得票数 2

1回答

为什么我的动态创建的内容不能在Google中搜索

、

我的网站提供了动态创建的内容，爬虫可以看到，基于以下规范：。这样，谷歌爬虫用以下语法索引了大约5000个： urls 用谷歌的网站管理员工具查看我的抓取报告，我确信这些页面都被成功抓取了。请注意，我确实找到了我的通用网站，在“更多结果”下，我找到了大约40个动态生成的页面，但显然这不是我想要的。我想根据它们的内容(AAPL，GOOG，...)找到

浏览 3提问于2013-06-09得票数 0

3回答

为什么搜索引擎爬虫不运行javascript？

、、、

我一直在使用一些高级的javascript应用程序使用大量ajax请求来呈现我的页面。为了使应用程序能够(由谷歌)爬行，我必须遵循。这告诉我们要做这样的事情:重新设计我们的链接，创建html快照，.使该网站可搜索。我想知道为什么爬虫不运行javascript来获得呈现的页面和索引。这背后有什么原因？或者这是搜索引擎未来可能会出现的一个缺失的特性？

浏览 4提问于2013-10-10得票数 17

回答已采纳

1回答

我可以在我的网站中只呈现元标签作为SSR吗？

、、、、

我有一个完整的网站建立的反应前端和NodeJs + Express后端。我的需求是拥有一个特定路由的动态OG (Open图)标记，这是由特定组件使用的。因为我很难将这个组件转换成SSR，因为它是一个动态组件，它也用于另一个页面，比如实时组件(随着用户输入而改变)，所以我不认为它应该与SSR相关联，所以我想出了一个想法，我不知道它是否可行，它只将元标记呈现为这是相关的代码：路线： <Route exact path="&#x

浏览 4提问于2021-01-13得票数 1

1回答

Html中有java脚本。如何从中提取HTML标签

、、、、

我必须下载URL链接的所有html。但是我没有得到任何HTML标签。取而代之的是，我只得到了这些行。 <script type="text/javascript" src="/github-user-search/app.bundle.562f293b75a96de878ab.js

浏览 3提问于2019-07-07得票数 0

1回答

glue爬虫ETL后的雅典娜流水线查询

、、、、

我有要进入S3存储桶的数据，我想每小时对其运行一次查询。数据以JSON的形式传入。我抓取它，在数据上运行作业以将其转换为ORC格式，然后再次抓取它以创建一个比原始JSON更快的表(因为它们嵌套得很深)。我正试着和雅典娜一起查询数据。这里的问题是，最后一个爬虫应该创建新的表，而不仅仅是同一个表的分区，因此在运行作业列表之前不知道表名。我发现您可以监听新表的<

浏览 19提问于2019-02-12得票数 1

2回答

AWS:动态分配和关联新的IP地址到EC2实例？

、、、

爬虫从eCommerce网站抓取数据，但最近爬虫从网站中获得“超时错误”。根据我的IP地址，该网站可能限制了我的访问频率。分配一个新的弹性IP地址可以解决这个问题，但不会持续很长时间。我的问题是:我是否可以使用任何服务来自动和动态地分配和关联新的IP到我的实例？谢谢!

浏览 4提问于2014-04-08得票数 9

回答已采纳

4回答

我应该同时打开多少个Java HttpURLConnections？

、、

我正在编写一个多线程的Java网络爬虫。根据我对网页的理解，当用户加载网页时，浏览器请求第一个文档(例如，index.html)，当它接收到超文本标记语言时，它会找到需要包括的其他资源(图像，CSS，JS)，并同时请求这些资源。我的爬虫程序只请求原始文档。由于某些原因，我不能让它每5秒抓取超过2到5页。我正在为我制作的每一个HttpURLConnection创建一个新的线程。看起来我应该至少能够每秒

浏览 1提问于2009-09-04得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

C#爬虫程序无法加载动态内容

爬行url \如何在node.js中获取动态链接

爬虫不读取我的javascript附加的meta标签

如果只对注册帐户可见内容，如何抓取网站？

如何使用Nokogiri在href中加载javascript函数

BeautifulSoup和Scrapy crawler有什么区别？

遍历远程数据

将javascript放在</html>标记之后

在抓取器加载页面后更改AJAX链接？

我可以使用powershell制作一个从动态网页获取数据的网络爬虫吗？

如何通过url参数更改开放图形meta标签内容

scrapy能像Selenium一样控制和显示浏览器吗？

使用Xpath提取值时来自Scrapy的空列表

为什么我的动态创建的内容不能在Google中搜索

为什么搜索引擎爬虫不运行javascript？

我可以在我的网站中只呈现元标签作为SSR吗？

Html中有java脚本。如何从中提取HTML标签

glue爬虫ETL后的雅典娜流水线查询

AWS:动态分配和关联新的IP地址到EC2实例？

我应该同时打开多少个Java HttpURLConnections？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐