腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
0
回答
Scrapy:一个项目中的多个
爬虫
、
我已经写了一个网络
爬虫
与
代理
使用scrapy。因为我总是需要一个随机的
代理
池来避免被禁止,我决定编写另一个
爬虫
来抓取一个提供免费
IP
的网站。每次开始
爬虫
过程时,我都需要首先抓取
IP
,将它们导出到一个文件中,然后转到另一个
爬虫
的根目录并将
IP
读取到setting.py中。我想知道是否有可能将两个
爬虫
合并到一个项目中,这样我只需要运行一个命令就可以开始整个爬行过程。 非常感谢!
浏览 7
提问于2016-07-07
得票数 0
1
回答
关于
代理
轮换的几个问题
我已经通过使用PuppeteerCrawler开发了一个
爬虫
动作,目前使用的是min。还有麦克斯。并发性1和我有几个问题:最佳毕业生,Wulfg ng
浏览 1
提问于2019-10-29
得票数 0
1
回答
自动浏览的证据-日志文件分析
、
、
我不太确定这是否是发表我的问题的合适论坛。我正在分析Apache和IIS日志格式的web服务器日志。我想找到自动浏览的证据。网络机器人、蜘蛛、机器人等)我使用python 来检测日志文件中的机器人。无论如何,可能会有其他机器人(自动程序)已经穿越网站,但机器人检测无法识别。
浏览 1
提问于2013-06-30
得票数 0
1
回答
requests.get(proxies=proxies)不起作用,为什么?
、
、
我想用requests.get设置
代理
IP
,但是控制台输出是我自己的
IP
,我想问
爬虫
工程师,怎么解决?
浏览 3
提问于2022-08-25
得票数 0
2
回答
OpenGraph / 'Like‘的离线测试
、
、
、
通过
IP
将环境锁定到特定的一组机器。我希望能够验证端到端的场景,即执行“点赞”并在用户的时间轴上查看解析的OpenGraph数据,而不必向公众开放我的网站。我知道Facebook
爬虫
有一个用户
代理
,但允许用户
代理
是有风险的,因为任何人都可以发送任何用户
代理
字符串。理想情况下,我希望将其锁定在Facebook
爬虫
的
IP
范围内,而不必解析日志来查找其中的一个或两个
IP
(我假设有相当多的机器在网络上爬行数据)。我今天的问题是,我可以点击“喜欢”,让它以一个简
浏览 2
提问于2012-01-16
得票数 1
2
回答
如何在Python中使用二级
代理
设置?
、
我正在使用python进行网络
爬虫
的工作。 例如,假设我在server-1之后,我使用
代理
设置来连接到外部世界。因此,在Python中,我可以使用
代理
处理程序来获取urls。现在的问题是,我正在建立一个
爬虫
,所以我不能只使用一个
IP
,否则我将被阻止。为了解决这个问题,我有一堆
代理
,我想拖着走过去。我的问题是:这是两级
代理
,一个连接到主服务器-1,我使用
代理
,然后在
代理
之间混洗,我想使用
代理
。我如何才能做到这一点?
浏览 7
提问于2011-04-20
得票数 7
2
回答
谷歌如何抓取需要登录的页面?
我在Google上查询了一个短语,当我点击第一个结果时,它要求我登录,并且不允许我在没有登录的情况下继续。我想知道Google如何爬行这些需要登录的页面。
浏览 0
提问于2019-01-10
得票数 1
回答已采纳
3
回答
如何使
爬虫
能够访问封闭(私有)的wiki?
、
、
我需要向
爬虫
提供访问私有维基的权限。对于如何启用对单个客户端(而不是用户,因为
爬虫
无法登录到wiki)的访问,有什么建议吗?
浏览 2
提问于2011-01-27
得票数 0
回答已采纳
4
回答
有已知的网络
爬虫
列表吗?
、
、
、
我看了看用户
代理
,其中一些显然是机器人或网络
爬虫
,但许多我不确定,他们可能是也可能不是网络
爬虫
,它们导致了许多下载,所以对我来说知道这一点很重要。是否有一些已知的网络
爬虫
的列表和一些文档,如用户
代理
,
IP
,行为等? 我对官方的不感兴趣,比如谷歌的,雅虎的,或者微软的,这些通常都是很好的表现和自我证明。
浏览 0
提问于2009-11-14
得票数 17
回答已采纳
1
回答
在分布式crawler中使用经过
IP
身份验证的
代理
、
、
我正在用Python语言开发一个分布式网络
爬虫
,它运行在CentOS 6.3服务器集群上,
爬虫
使用了来自不同
代理
提供商的许多
代理
。对于用户名/密码身份验证的
代理
提供商来说,一切工作起来都很有吸引力。但是现在我们已经购买了一些使用基于
IP
的身份验证的
代理
,这意味着当我想要使用其中一个
代理
爬入网页时,我需要从我们的服务器的一个子集发出请求。问题是,在Python中(使用库/软件)有没有办法通过2个
代理
向域发出请求?(一
浏览 1
提问于2013-04-24
得票数 2
回答已采纳
3
回答
如何忽略网络
爬虫
?
、
、
、
当然,当一些机器人/
爬虫
扫描我的网站时,他们会增加这个值,而我会摆脱这个问题。那么,是否存在要忽略的
IP
地址列表?或者一些可以帮助我做到这一点的机制?
浏览 5
提问于2011-08-01
得票数 1
1
回答
阻止Comscore机器人访问
、
、
、
实际上,我得到了机器人设备的机器人欺诈,而在用户
代理
,它似乎comscore
爬虫
。Mozilla/5.0 (兼容;接近;+https://www.comscore.com/Web-Crawler) 如何才能停止从
代理
IP
访问机器人。 非常感谢
浏览 7
提问于2020-10-26
得票数 0
1
回答
MSNBot/BingBot没有报告它是一个机器人?
、
我有来自服务器的apache日志,我使用python脚本过滤了来自bots/
爬虫
/刮刀器的访问,该脚本检查包含“bot”、“googlebot”等文本的用户
代理
字符串。地址的反向DNS:Address: 207.46.12.74 现在,我正在考虑过滤掉特定的
IP
地址,当我在他们的
IP
地址上执行msnbot时,我检测到它们是rDNS,但是当我向一位同事展示这一点时,他觉得微软的bingbots没有报告他们的用户
代理
浏览 0
提问于2011-06-02
得票数 1
回答已采纳
2
回答
无视robots.txt的抓取器
、
、
有人遇到过一个叫格雷斯热的
爬虫
吗?他们在我们的网站上反复敲击同一个页面。我相信他们正在寻找广告相关的关键字,基于以前的内容广告宣传。奇怪的是,我们从来没有在他们如此感兴趣的页面上进行过这样的竞选活动。User-agent: grapeshot对如何阻止这种讨厌的
爬虫
有什么想法吗?我开始认为最好的方法是在IIS中设置
IP
规则?
浏览 0
提问于2013-10-21
得票数 5
回答已采纳
2
回答
一种可接受的检测可信蜘蛛而不重定向它们的方法。
我已经实现了一个登录功能,它将用户重定向到另一个域并再次返回。当然,我不希望搜索引擎(至少我们关心的搜索引擎)被重定向,那么什么是可以接受的解决方案呢?$agent = strtolower($_SERVER['HTTP_USER_AGENT']); strpos($agent, "slurp") || strpos($agent, "google")
浏览 1
提问于2012-09-03
得票数 0
1
回答
Python Scrapy
代理
在几轮之后就死了?
、
我想建立一个与scrapy亚马逊
爬虫
。我不明白为什么..。rotating_proxies.middlewares.RotatingProxyMiddleware': 610,} 我有1000个
代理
,大多数都没有死,几乎都
浏览 18
提问于2019-11-07
得票数 1
3
回答
如何在java中使用HTTP
代理
、
、
我正在写一个代码,连接到网站,并检查一些代码,如
爬虫
。但我需要通过
代理
连接并更改
IP
地址(这样它就不会在服务器日志中显示客户端的
IP
)。 如何通过java做到这一点呢?
浏览 0
提问于2011-01-05
得票数 22
3
回答
从用户
代理
识别
爬虫
程序
、
我想跟踪我的site.For的所有访问者( Os,浏览器和更多细节),我正在保存用户
代理
和URL和其他基本数据到database.Later执行Crone时,用户
代理
被分析并获取浏览器,Os。但我想识别
爬虫
(因为它们不能被视为访问者)。那么有没有办法从用户
代理
中识别
爬虫
呢?
爬虫
的用户
代理
是否遵循任何常见的模式?
浏览 1
提问于2012-06-12
得票数 0
2
回答
是否可以使用虚拟机/机器
IP
代替Scrapy的
代理
服务器
、
、
我有一个Scrapy
爬虫
,我想轮换
IP
,这样我的应用程序就不会被阻塞。我正在使用request.meta['proxy'] = 'http://51.161.82.60:80'在scrapy中设置
IP
,但这是一个VM的
IP
。我的问题是,虚拟机或机器的
IP
是否可以用于scrapy,或者我需要
代理
服务器? 目前我正在做这件事。这不会抛出任何错误,但当我从http://checkip.dyndns.org得到响应时
浏览 9
提问于2018-12-06
得票数 0
1
回答
如何在集成
IP
代理
的同时抓取使用cookies的网站?
、
、
、
、
我正在创建一个使用多个
IP
代理
的
爬虫
。每当我尝试在没有
代理
的情况下抓取网站时,我都能够获得html源代码,但是当我尝试启用
ip
代理
时,它总是失败并抛出一个异常(远程服务器返回错误:(403)禁止)。但是如果
代理
被启用,它在get response部分失败。 我不明白为什么cookie不是使用
代理
设置的?是不是cookies的
代理
服务器设置导致了它?或者我可以在启用
代理
的同时对其做些什么?
浏览 0
提问于2016-02-06
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
什么是代理ip,为什么爬虫需要代理ip
什么是爬虫代理IP?爬虫代理IP具有什么样的特点
什么是代理ip,爬虫应该如何选择代理ip
如何选择爬虫代理IP?
代理IP如何提高爬虫效率
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
腾讯会议
活动推荐
运营活动
广告
关闭
领券