腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何在一个mesos从节点上运行多个码头容器?
、
、
我有两种不同的
爬虫
器,每一种都被构建成一个码头容器。现在我通过马拉松发射。下面的代码是马拉松启动json。"cpus": "0.5", "uris": [], "constraints": [
浏览 3
提问于2015-04-09
得票数 1
回答已采纳
1
回答
在绑定DNS缓存上阻止错误配置的DNS条目
、
、
、
我正在运行一个具有自己的绑定DNS缓存的网络
爬虫
。我们的代码使用DNS缓存进行解析,并使用
Python
的请求库发出GET请求。问题是许多FQDN配置错误,它们指向RFC1918
IP
地址或环回
IP
(如127.0.0.1或10.0.0.0/8 )。因此,我们的
爬虫
试图连接这些it,并以来自数据中心的扫描报告结束。我们对
爬虫
进行了更改,现在它首先为FQDN解析
ip
,如果
IP
处于私有/回环/保留范围,则跳过它。 在对tcpdum
浏览 0
提问于2015-12-30
得票数 2
回答已采纳
3
回答
如何使
爬虫
能够访问封闭(私有)的wiki?
、
、
我需要向
爬虫
提供访问私有维基的权限。对于如何启用对单个客户端(而不是用户,因为
爬虫
无法登录到wiki)的访问,有什么建议吗?
浏览 2
提问于2011-01-27
得票数 0
回答已采纳
1
回答
使用多个EC2实例爬行
、
我用
python
编写了一个爬行过程,它运行在亚马逊上的一个ec2实例上。我已经编写了这个
爬虫
,这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行实例中想到的是,克隆
爬虫
的几个实例很容易,每个实例都要向中心报告以便处理。 有冗余,所以如果一个
爬虫
被挂断,其余的
爬虫
可以继续工
浏览 2
提问于2015-01-08
得票数 0
回答已采纳
2
回答
防止自定义Web
爬虫
被阻塞
、
、
我正在创建一个新的网络
爬虫
使用C#来抓取一些特定的网站。一切都很顺利。但问题是,,一些网站是阻塞我的
爬虫
IP
地址,后,一些请求。我试着在爬行请求之间使用时间戳。但没有起作用。有没有办法阻止网站阻塞我的
爬虫
?有些类似的解决方案会有所帮助(但我需要知道如何应用它们): 任何解决办法都会有帮助。
浏览 7
提问于2011-10-04
得票数 3
回答已采纳
2
回答
如何在
Python
中使用二级代理设置?
、
我正在使用
python
进行网络
爬虫
的工作。 例如,假设我在server-1之后,我使用代理设置来连接到外部世界。因此,在
Python
中,我可以使用代理处理程序来获取urls。现在的问题是,我正在建立一个
爬虫
,所以我不能只使用一个
IP
,否则我将被阻止。为了解决这个问题,我有一堆代理,我想拖着走过去。
浏览 7
提问于2011-04-20
得票数 7
1
回答
在错误报告中区分布鲁特力和爬行器
、
、
、
我注意到他们中的很多人都来自同一个
IP
地址,并且似乎链接到Google,或者雅虎,例如这个网站:报告如下
IP
有一个好的方法来区分明显的暴力攻击和
爬虫
检查网站吗? 更新:所有电子邮件都是从生产网站生成的。错误报告发出空引用异常。
浏览 0
提问于2017-03-01
得票数 0
回答已采纳
1
回答
更改
IP
地址
Python
Selenium
、
、
、
我尝试使用
Python
Selenium运行代码import time driver.get('https://www.whatismyip.com/')driver.close() 但当您运行此文件时,我的
IP
如何更改我的
ip
地址?我正在开发一个网络
爬虫
,需
浏览 37
提问于2016-08-30
得票数 2
回答已采纳
0
回答
Scrapy:一个项目中的多个
爬虫
、
我已经写了一个网络
爬虫
与代理使用scrapy。因为我总是需要一个随机的代理池来避免被禁止,我决定编写另一个
爬虫
来抓取一个提供免费
IP
的网站。每次开始
爬虫
过程时,我都需要首先抓取
IP
,将它们导出到一个文件中,然后转到另一个
爬虫
的根目录并将
IP
读取到setting.py中。我想知道是否有可能将两个
爬虫
合并到一个项目中,这样我只需要运行一个命令就可以开始整个爬行过程。 非常感谢!
浏览 7
提问于2016-07-07
得票数 0
1
回答
Windows可供linux使用的
python
脚本从URL获取
IP
、
我对
Python
非常陌生。因此,在newboston最新的
python
教程中,我制作了一个网络
爬虫
。然而,这个
Python
脚本只在Linux上工作。下面的代码的windows替代方案是什么?import os command = "host " + url results)) marker = results.find('has address
浏览 2
提问于2015-11-03
得票数 1
1
回答
在分布式crawler中使用经过
IP
身份验证的代理
、
、
我正在用
Python
语言开发一个分布式网络
爬虫
,它运行在CentOS 6.3服务器集群上,
爬虫
使用了来自不同代理提供商的许多代理。对于用户名/密码身份验证的代理提供商来说,一切工作起来都很有吸引力。但是现在我们已经购买了一些使用基于
IP
的身份验证的代理,这意味着当我想要使用其中一个代理爬入网页时,我需要从我们的服务器的一个子集发出请求。问题是,在
Python
中(使用库/软件)有没有办法通过2个代理向域发出请求?(一个代理是
IP
身份验证需要使用的子集之一,第二个是来自提
浏览 1
提问于2013-04-24
得票数 2
回答已采纳
1
回答
什么是无效的HTTP_HOST头?
、
、
、
、
我已经实现了Django相对新的允许主机设置,它的目的是防止攻击者提交带有假header的请求。我在EC2上托管我的站点,对于设置/维护服务器相对来说还是比较新的,所以我的问题是这里到底发生了什么,以及管理这些无效的最佳方法是什么,我假设是恶意请求? [Django] ERROR: Invalid HTTP_HOST header: 'www.launchastartup.com'.You may need to add u'www.lau
浏览 0
提问于2013-10-31
得票数 2
回答已采纳
1
回答
如何安全地将我在AWStats中找到的这些in列入黑名单?
、
、
、
、
我检查了我的AWStats,发现一些
IP
地址占用了大量的带宽。我怎么知道列入黑名单是否安全?有几个人每月消耗2GB或更多,一直如此。看这个截图:我还检查了AWStats中的
爬虫
器,但是我没有看到
IP
地址,所以我无法知道它是从哪里来的。我怎么才能挑出坏
爬虫
?
浏览 3
提问于2017-10-29
得票数 0
回答已采纳
2
回答
如何阻止不同的web
爬虫
访问基于java的web应用程序?
、
、
我正在开发一个基于struts2的web应用程序,希望阻止web
爬虫
访问我的应用程序。
浏览 0
提问于2014-11-27
得票数 0
11
回答
如何使用
Python
发出urllib2请求?
、
我正在尝试使用用
Python
编写的
爬虫
来抓取网站。我想将Tor与
Python
集成,这意味着我想使用Tor匿名地抓取站点。 我试过这样做。似乎不起作用。我检查了我的
IP
,它仍然和我使用tor之前的一样。
浏览 8
提问于2009-07-08
得票数 55
1
回答
403发出get请求时的响应
、
、
在aws EC2服务器中使用
python
3向此网站()发出get请求时,我收到了403响应。但我在本地系统中使用相同的代码获得了成功响应。 请帮帮我。
浏览 3
提问于2019-08-30
得票数 0
1
回答
自动浏览的证据-日志文件分析
、
、
网络机器人、蜘蛛、机器人等)我使用
python
来检测日志文件中的机器人。无论如何,可能会有其他机器人(自动程序)已经穿越网站,但机器人检测无法识别。
浏览 1
提问于2013-06-30
得票数 0
5
回答
爬虫
/
爬虫
IP
地址的良好来源
、
我在哪里可以找到
爬虫
或蜘蛛
IP
地址的全面列表。我需要从谷歌,雅虎,微软和其他搜索引擎,定期爬行我的网站的
IP
。 我不想禁用它们,因此将robots.txt文件排除在答案之外。
浏览 0
提问于2011-01-23
得票数 5
回答已采纳
1
回答
MSNBot/BingBot没有报告它是一个机器人?
、
我有来自服务器的apache日志,我使用
python
脚本过滤了来自bots/
爬虫
/刮刀器的访问,该脚本检查包含“bot”、“googlebot”等文本的用户代理字符串。Windows NT 5.1; Trident/5.0; SLCC1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648)"Name: msnbot-207-46-12-74.search.msn.com Address: 2
浏览 0
提问于2011-06-02
得票数 1
回答已采纳
1
回答
IP
基访问控制列表脚本
、
、
、
我想设置ACL (
python
脚本或任何现成的Centos兼容的are )&对所有
IP
地址的限制率,他们经常访问该站点。例如
爬虫
、机器人(谷歌和必应机器人除外)。在识别
ip
地址之后,脚本应该自动将这些
IP
地址添加到IPTABLES,这样他们就无法访问站点。不要阻止白色列出的
ip
地址/
ip
区域。它不会进一步影响性能。 请提出最好的解决方案。
浏览 0
提问于2012-12-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
学习Python爬虫怎么更换IP
干货 Python爬虫如何设置代理IP
代理IP帮助Python爬虫分析市场
用Python爬虫抓取免费代理IP
Python开发之快速构建Python爬虫IP代理池服务
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券