腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
C#
爬虫
程序无法
加载
动态
内容
、
、
、
我正在使用Abot库来
抓取
网页。
爬虫
可以正确地请求页面,但问题是几乎所有内容都是通过knockout.
js
动态
加载
的
。
爬虫
程序目前无法请求此内容,这导致只
加载
了页面的一小部分。我试着让程序等待,希望
动态
的
请求无论如何都会被发送,但这似乎不起作用。如何才能使crawler请求所有
数据
? 谢谢!
浏览 12
提问于2019-07-09
得票数 0
1
回答
爬行url \如何在node.
js
中获取
动态
链接
、
我正在使用
js
爬虫
来
抓取
网站,现在我遇到了CNN,
的
那一部分(基于某种原因
动态
生成
的
urls)。事情是
爬虫
,不要真正接触脚本-我应该如何解决它?除了我
的
node.
js
爬虫
之外,我还应该编写自己
的
代码吗?是否有先进
的
爬虫
知道如何处理这种
动态
行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
1
回答
爬虫
不读取我
的
javascript附加
的
meta标签
、
、
、
爬虫
在我
的
头中没有通过脚本附加
的
meta标签:有没有合适
的
JS
代码格式可以不阻止
爬虫
抓取
我
的
脚本?
浏览 1
提问于2020-12-15
得票数 1
1
回答
如果只对注册帐户可见内容,如何
抓取
网站?
、
我正在阅读关于网络蜘蛛
的
攻击和防御策略。假设我在我
的
网站上有敏感
的
信息,这些信息应该受到第三方网络蜘蛛
的
保护。Me:我将敏感
数据
设置为只对注册用户帐户可见
的
。用例2:问题: 在这两个用例中,攻击者
的
方法实用
浏览 0
提问于2019-08-02
得票数 3
回答已采纳
2
回答
如何使用Nokogiri在href中
加载
javascript函数
、
我想在我
的
ruby项目中使用Nokogiri
抓取
一些html页面。在
爬虫
页面,有一些链接,我也想
抓取
。但问题是链接
的
href在javascript函数中。<a href="javascript:nextPage('some text','','other text')">Click here</a> 如何使用Nokogiri
加载
此
动态
页面?
浏览 3
提问于2016-02-18
得票数 0
9
回答
BeautifulSoup和Scrapy crawler有什么区别?
、
、
、
我想做一个网站,显示亚马逊和易趣产品价格
的
比较。其中哪一个会工作得更好?为什么?我对BeautifulSoup比较熟悉,但对Scrapy crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
遍历远程
数据
、
、
我正在尝试从一个网站(一个电影列表)中
抓取
一些
数据
--但是这个网站一次只能显示大约50个
数据
,并且需要用户点击一个按钮才能
加载
更多。有没有一种方法可以让我编写单击按钮
的
脚本,或者以某种方式遍历
数据
?网站不在我
的
服务器上。(尝试从Virgin Media网站获取Sky电影列表)
浏览 0
提问于2014-05-09
得票数 0
2
回答
将javascript放在</html>标记之后
、
、
gtmetrix向我展示了为了我
的
网站
的
SEO目的而推迟解析javascript但是,如果我剪切并粘贴任何调用head.php文件
的
javascript文件,如果我取消发布该特定模块,那么它是否也会
加载
?在模块中有许多javascript文件,这些文件是在特定条件检查时
加载
的
,如果我默认将这些文件放在head.php中,会不会有问题?我使用
的
是j
浏览 1
提问于2013-04-20
得票数 0
1
回答
在
抓取
器
加载
页面后更改AJAX链接?
、
我正在构建一个AJAX应用程序,它
动态
地在内容中动画。由于所有链接都是hashtag,我想在Google之外
的
其他引擎上索引我
的
页面,我
的
想法是:这样做
的
想法是,如果访问者是
爬虫
或禁用
JS
,内容将从/foo
浏览 1
提问于2012-03-29
得票数 0
回答已采纳
1
回答
我可以使用powershell制作一个从
动态
网页获取
数据
的
网络
爬虫
吗?
、
我正在做一个网络
爬虫
的
项目,从内部网站获取一些信息。我发现静态页面可以通过几个简单
的
步骤(设置cookie,然后使用Cmdlet Invoke-RestMethod)来捕获,但是
动态
页面的
数据
不能通过这种方式获得。此外,我发现
动态
页面上
的
链接并不是持续不断
的
,例如,它总是由jsessionid或其他东西组成,它们总是随时间而变化。 有人能给我一个提示来解决这个问题吗?
爬虫
能
抓取
动态
网页吗?谢谢..。
浏览 149
提问于2017-02-13
得票数 0
1
回答
如何通过url参数更改开放图形meta标签内容
、
、
、
我正在尝试使用url参数和打开
的
图形meta标签来制作一个自定义
的
嵌入生成器,但是每当我将链接发布到诸如Discord之类
的
站点时,它都会使用我为其设置
的
默认标签,而不是url参数。我已经发布了代码和下面发生
的
事情
的
示例图像。 ?
浏览 24
提问于2021-02-03
得票数 1
回答已采纳
3
回答
scrapy能像Selenium一样控制和显示浏览器吗?
、
、
当我使用Selenium时,我可以看到浏览器GUI,是否可以使用scrapy或严格基于scrapy命令行?
浏览 4
提问于2015-11-03
得票数 1
回答已采纳
1
回答
使用Xpath提取值时来自Scrapy
的
空列表
、
、
、
真的需要这个社区
的
帮助。我
的
问题是,当我使用python中
的
代码时要提取scrapy shell中
的
供应商名称,输出为空
浏览 2
提问于2018-02-12
得票数 2
1
回答
为什么我
的
动态
创建
的
内容不能在Google中搜索
、
我
的
网站提供了
动态
创建
的
内容,
爬虫
可以看到,基于以下规范:。这样,谷歌
爬虫
用以下语法索引了大约5000个: urls 用谷歌
的
网站管理员工具查看我
的
抓取
报告,我确信这些页面都被成功
抓取
了。请注意,我确实找到了我
的
通用网站,在“更多结果”下,我找到了大约40个
动态
生成
的
页面,但显然这不是我想要
的
。我想根据它们
的
内容(AAPL,GOOG,...)找到
浏览 3
提问于2013-06-09
得票数 0
3
回答
为什么搜索引擎
爬虫
不运行javascript?
、
、
、
我一直在使用一些高级
的
javascript应用程序使用大量ajax请求来呈现我
的
页面。为了使应用程序能够(由谷歌)爬行,我必须遵循。这告诉我们要做这样
的
事情:重新设计我们
的
链接,创建html快照,.使该网站可搜索。 我想知道为什么
爬虫
不运行javascript来获得呈现
的
页面和索引。这背后有什么原因?或者这是搜索引擎未来可能会出现
的
一个缺失
的
特性?
浏览 4
提问于2013-10-10
得票数 17
回答已采纳
1
回答
我可以在我
的
网站中只呈现元标签作为SSR吗?
、
、
、
、
我有一个完整
的
网站建立
的
反应前端和NodeJs + Express后端。我
的
需求是拥有一个特定路由
的
动态
OG (Open图)标记,这是由特定组件使用
的
。因为我很难将这个组件转换成SSR,因为它是一个
动态
组件,它也用于另一个页面,比如实时组件(随着用户输入而改变),所以我不认为它应该与SSR相关联,所以我想出了一个想法,我不知道它是否可行,它只将元标记呈现为这是相关
的
代码:路线: <Route exact path="
浏览 4
提问于2021-01-13
得票数 1
1
回答
Html中有java脚本。如何从中提取HTML标签
、
、
、
、
我必须下载URL链接
的
所有html。但是我没有得到任何HTML标签。取而代之
的
是,我只得到了这些行。 <script type="text/javascript" src="/github-user-search/app.bundle.562f293b75a96de878ab.
js
浏览 3
提问于2019-07-07
得票数 0
1
回答
glue
爬虫
ETL后
的
雅典娜流水线查询
、
、
、
、
我有要进入S3存储桶
的
数据
,我想每小时对其运行一次查询。
数据
以JSON
的
形式传入。我
抓取
它,在
数据
上运行作业以将其转换为ORC格式,然后再次
抓取
它以创建一个比原始JSON更快
的
表(因为它们嵌套得很深)。我正试着和雅典娜一起查询
数据
。这里
的
问题是,最后一个
爬虫
应该创建新
的
表,而不仅仅是同一个表
的
分区,因此在运行作业列表之前不知道表名。我发现您可以监听新表
的<
浏览 19
提问于2019-02-12
得票数 1
2
回答
AWS:
动态
分配和关联新
的
IP地址到EC2实例?
、
、
、
爬虫
从eCommerce网站
抓取
数据
,但最近
爬虫
从网站中获得“超时错误”。根据我
的
IP地址,该网站可能限制了我
的
访问频率。分配一个新
的
弹性IP地址可以解决这个问题,但不会持续很长时间。我
的
问题是:我是否可以使用任何服务来自动和
动态
地分配和关联新
的
IP到我
的
实例?谢谢!
浏览 4
提问于2014-04-08
得票数 9
回答已采纳
4
回答
我应该同时打开多少个Java HttpURLConnections?
、
、
我正在编写一个多线程
的
Java网络
爬虫
。根据我对网页
的
理解,当用户
加载
网页时,浏览器请求第一个文档(例如,index.html),当它接收到超文本标记语言时,它会找到需要包括
的
其他资源(图像,CSS,
JS
),并同时请求这些资源。我
的
爬虫
程序只请求原始文档。由于某些原因,我不能让它每5秒
抓取
超过2到5页。我正在为我制作
的
每一个HttpURLConnection创建一个新
的
线程。看起来我应该至少能够每秒
浏览 1
提问于2009-09-04
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
动态网页常用的两种数据加载方式ajax和js动态请求
Python网络爬虫抓取动态网页并将数据存入数据库MYSQL
Python新手写爬虫!尝试动态加载的电影网站爬虫
Python爬虫——利用PhantomJS下载动态加载图片
想获取JS加载网页的源网页的源码,不想获取JS加载后的数据
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券