前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫正传-江湖路远-0104-狡兔三窟

爬虫正传-江湖路远-0104-狡兔三窟

作者头像
大牧莫邪
发布2018-08-27 16:45:41
4090
发布2018-08-27 16:45:41
举报
文章被收录于专栏:我和PYTHON有个约会

那是一个繁忙的午后: ?:最近忙什么呢,服务器大佬? ?:别提了,之前收拾了几个不懂事的小游侠,还没有消停几天,压力又上来了! ?:怎么回事?不是捣乱的数据请求都已近被干掉了吗? ?:按照之前的规则倒是短时间减轻了压力,但是不知道怎么回事,最近一段时间用户还是原来那些用户,但是请求数量比正常参考值多出太多了! ?:( ⊙ o ⊙ )啊!(思考中)..是不是有非法用户一直访问服务器数据,二十四小时不间断的? ?:(⊙v⊙)Bingo!我回去查查,只要是每个小时访问量超出正常值的用户,直接给屏蔽掉,不让访问就可以了!

?:..数据怎么又请求不到了.. ?:断网了吧? ?:没有断网啊……咦,浏览器都不能访问这个网站了 ?:你被人屏蔽了吧 ?:……

?:沙滩啊大海,阳光啊蓝天,整个世界清静了..

很多年以后,少侠发现姜果然还是老的辣,吸取经验教训之后,终于成就了一袋大虾,通过抓取壮丁的方式掩藏自己的行踪,这样即使壮丁被祭天了,大虾还是在幕后干着行侠仗义的大事:这里~我们就来看看爬虫程序怎么通过代理IP地址来掩盖自己的信息!

urllib2中的urlopen方式,是通过默认的HTTPHandler(HTTP请求操作对象:开锁人)直接进行操作的,如果要使用代理IP地址的方式,就需要更改使用代理操作对象(ProxyHandler)进行代理绑定的操作,之后通过build_opener构建具体开锁人对象,完成数据的代理请求

代码语言:javascript
复制
# coding:utf-8

from urllib2 import Request, build_opener, ProxyHandler

# 构建请求对象

url = [http://www.sina.com.cn](http://www.sina.com.cn/)

headers = {

    ‘User-agent’: ‘..’

}

requset = Request(url, headers=headers)

# 构建代理对象

proxy_handler = ProxyHandler({‘https’: ‘代理IP:端口’})

my_opener = build_opener(proxy_handler)

# 使用自定义代理对象访问服务器获取数据

response = my_opener.open(request)

# 打印展示数据

print(response.read())

运行程序,程序会通过代理IP地址进行服务器数据的请求,我们通过代理服务器获取代理接受到的响应数据,此时~大虾自己的IP地址被代理隔离不会再暴露在服务器大佬的视线中了

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.05.14 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云服务器
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档