腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
node.
js
与C#的网络爬行性能
、
、
、
、
我想问的是,从性能的角度来看,Node.
js
是否值得考虑?考虑到吞吐量是最重要的因素。Node.
js
更易于移植和跨平台是另一个原因,但性能对我来说更重要。
浏览 1
提问于2013-06-30
得票数 2
1
回答
爬虫
并发
问题
我试图构建
并发
爬虫
基于旅游和其他一些,所以答案。我目前的情况如下,但我认为我这里有两个微妙的问题。 有时我得到16个urls作为响应,有时17 (在main中调试打印)。
并发
是一个非常困难的话题,非常感谢您的帮助和建议。
浏览 2
提问于2021-01-31
得票数 1
回答已采纳
2
回答
如何限制cURL使用的
并发
连接
、
、
我用PHP (和cURL)做了一个简单的网络
爬虫
。它粗略地解析了60000个html页面,并检索出产品信息(它是intranet上的一个工具)。这个是可能的吗?
浏览 2
提问于2010-02-10
得票数 7
回答已采纳
2
回答
Node.
js
request.
js
HPE_INVALID_HEADER_TOKEN
、
我使用node.
js
爬行一个网站列表,其中一些网站给我这个错误,例如:,Parse,HPE_INVALID_HEADER_TOKEN url: uri, timeout
浏览 5
提问于2014-10-15
得票数 3
回答已采纳
1
回答
Asp.net爬行器网络响应操作超时
、
、
、
嗨,我已经在我的web应用程序中建立了一个简单的基于线程池的网络
爬虫
。它的工作是爬行自己的应用程序空间,并为每个有效的网页及其元内容建立一个Lucene索引。问题就在这里。当我从Visual Studio Express的调试服务器实例运行
爬虫
程序,并提供作为IIS url的启动实例时,它工作得很好。
浏览 1
提问于2010-05-18
得票数 1
2
回答
如何以承诺的方式处理大量请求
、
、
、
我有大约5000个链接,我需要爬行所有这些。所以我想知道有比这更好的方法吗?这是我的密码。 return getSiteCrawlPromise(url) return data; getSiteC
浏览 0
提问于2019-02-07
得票数 3
回答已采纳
1
回答
当有许多重复链接时,如何提高抓取速度
、
、
爬虫
目前每分钟只抓取200页,我需要加快速度。 对于每个页面,
爬虫
提取其链接并跟踪它们。问题是每个页面大约有600个链接,其中大部分都在所有页面上,我认为这就是为什么
爬虫
需要这么长时间才能完成的原因,因为
爬虫
正在为所有链接调用请求函数,即使它们是重复的。scrapy.Request(url, callback=self.parse_data) yield item 我已经尝试设置
并发
请求和每个域的
浏览 24
提问于2020-01-28
得票数 0
回答已采纳
1
回答
使用实体框架C#限制到数据库的连接
、
、
、
、
我有一个Azure数据库,它仅限于60个
并发
连接。我的问题是,我有几个
爬虫
填充这个数据库,以供我们的网站使用实体框架。还有其他方法来实现这一点吗?
浏览 2
提问于2016-08-03
得票数 5
回答已采纳
1
回答
运行Scrapy Spider的多个实例
问题是,
爬虫
爬行第一个URL,完成,然后拿起第二个。我怎么才能让它一次拿起多个URL,所有的URL都是独立并行爬行的呢?
浏览 2
提问于2015-12-11
得票数 1
3
回答
如何在Java中使用线程安全信号来暂停线程
、
、
我有一堆
并发
运行的线程。有时,一个线程需要通知其他线程等待它完成一个作业,并再次向它们发出恢复的信号。因为我是Java同步的新手,所以我想知道做这件事的正确方法是什么。更新2: public class TestCrawler extends WebCrawler { {
浏览 1
提问于2013-01-13
得票数 3
回答已采纳
3
回答
C++网络
爬虫
、
、
、
我正在尝试并尝试制作一个最小的网络
爬虫
。我在很高的层次上理解了整个过程。那么进入下一层细节,程序如何“连接”到不同的网站来提取HTML?谢谢!
浏览 1
提问于2012-07-01
得票数 0
回答已采纳
1
回答
关于代理轮换的几个问题
我已经通过使用PuppeteerCrawler开发了一个
爬虫
动作,目前使用的是min。还有麦克斯。
并发
性1和我有几个问题:最佳毕业生,Wulfg ng
浏览 1
提问于2019-10-29
得票数 0
1
回答
爬行url \如何在node.
js
中获取动态链接
、
我正在使用
js
爬虫
来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因动态生成的urls)。事情是
爬虫
,不要真正接触脚本-我应该如何解决它?除了我的node.
js
爬虫
之外,我还应该编写自己的代码吗?是否有先进的
爬虫
知道如何处理这种动态行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
2
回答
是否可以根据ASP.NET/IIS中的用户代理进行条件URL重写?
、
、
、
、
我工作的网站托管的内容经常被抓取
并发
布到其他地方。 是否可以重写URL,以便普通用户和白名单上的
爬虫
可以查看网站,但阻止访问无法识别的浏览器?
浏览 2
提问于2011-07-14
得票数 6
回答已采纳
2
回答
抓取速度加快爬行
、
、
我需要加快爬行速度,因为我的
爬虫
目前每分钟只抓取几百页。 这是我的
爬虫
示例代码。
浏览 0
提问于2015-02-08
得票数 2
1
回答
ServicePointManager.DefaultConnectionLimit是IP吗?
、
我正在构建一个web
爬虫
,目标站点不允许来自同一个IP的两个以上
并发
连接。我的计划是:我将购买一个带有4个额外弹性IP的EC2,以便更快地获取数据(将是10个
并发
连接,8个来自附加IP,2个来自“主”IP)。因此,我的问题来了: DefaultConnectionLimit将应用于(每个源IP ),还是仅限于2个
并发
连接的整个应用程序?
浏览 6
提问于2017-11-12
得票数 0
1
回答
向机器人隐藏代码
、
、
、
、
有没有一种方法只对
爬虫
隐藏页面的特定部分?那么,有没有办法对机器人隐藏某些部件,但在未来不会对用户隐瞒?不是整页,只是部分。但没有理由不让智能
js
阅读
爬虫
来隐藏它。麦芽酒
浏览 6
提问于2014-10-16
得票数 0
回答已采纳
2
回答
如何允许用户复制我的电子邮件地址而不是
爬虫
?
、
、
我有一个问题,一些
爬虫
爬虫
从我的网站上的电子邮件地址,
并发
送垃圾邮件。 是否有一种方法允许普通用户复制电子邮件,但不允许
爬虫
(在html源代码中无法检测到xxx@xxx.com格式)?
浏览 3
提问于2020-09-15
得票数 2
回答已采纳
1
回答
服务端渲染如何帮助
爬虫
?服务器端渲染和客户端渲染哪个更好?
、
、
、
我正在阅读angular的服务器端渲染文档,因为它们提到服务器端渲染是帮助
爬虫
。我知道在服务器端渲染
爬虫
可以获得整个dom,但
爬虫
也可以与组件交互,那么它如何帮助
爬虫
呢?
浏览 18
提问于2019-09-15
得票数 0
1
回答
基于
并发
请求的RCurl
爬虫
问题
、
、
下面是一个脚本,用于重现我在使用执行
并发
请求的RCurl构建
爬虫
时所面临的问题。目的是下载数千个网站的内容,以便进行统计分析。因此,解决方案应扩大规模。verbose = TRUE,get_rcurl考虑到我需要爬行的网页数量,我宁愿使用RCurl,因为它支持
并发
请求
浏览 4
提问于2014-09-28
得票数 6
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
新技术栈爬虫工具 Crawlee:功能强大,自适应并发,支持 JS 渲染和防封锁
爬虫之旅(2)——网页知识储备html、css及js
(新版完结无密)Python 分布式爬虫与 JS 逆向进阶实战
(新版)Python 分布式爬虫与 JS 逆向进阶实战-梦里有时终须有
node.js爬虫 保存数据为json、mysql、mongodb 虎牙、斗鱼、熊猫、全民、龙珠 在线直播间抓取
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券