首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

分享-python爬虫遇到封IP+验证码+登陆限制,如何解决?

现在国家在鼓励做大数据、全面进行数字化中国建设,很多企业包括很多有前瞻性的创业人都开始进军大数据,各种根据自己的擅长领域开始储备数据源,我们需要做大数据第一步就是利用网络爬虫技术解决数据源聚合问题。我2018年主要利用python3+mysql+cookie池+代理IP池自己研发了一套AI智能深度数据挖掘系统,主要是解决企业工商数据源、商标数据源、专利数据源、招标中标数据源、土地数据源、食品药品数据源等多种国家开放的数据源的聚合。当时在做企业工商数据源聚合挖掘时候遇到了封IP、验证码、还有会员登陆等等各种反爬机制,最终我通过各种技术方式解决了所有问题,下面将分享一下个人的一些经验。

05
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    内网穿透FRP工具使用

    自上海疫情开始已经整整一个月了,最开始学校通知居家办公大概是3月12号左右,当时还至少能出去逛逛吃个饭买点东西。记得有天下午我和学弟在学校附近吃了个晚饭,刚回到家就听说单元楼下被封起来了,说是单元里出了密接,我险些被封门外,然后连续做了几天核酸后解封了。好景不长,虽然上杨浦区算是相对比较安全的,而且我们小区之后也没有密接了,但是上海总体上是比较危险的,所以从4月1号开始要封城了,统统居家隔离。做了几次核酸和抗原自测后,我单元楼上莫名其妙的出了几个阳性,先是16楼,然后扩散到15、17、18,搞得人心惶惶,不过好在阳性的几个已经转移到方舱了,这几天小区里也没有出现新增。

    02

    浅谈VIP地址漂移

    举个通俗的例子:老王开了一个会所,地址是虹X路1.1.1.1,经营范围不太正规,经常被封,顾客以为店已经关门,其实里面热火朝天,所以老王急啊,于是开了一个后门,地址是2.2.2.1,于是顾客纷纷从后门进入,老王笑开了花…过几天大门解封了,但后门由于弄堂改造,临时关闭了,熟门熟路的顾客从后门进不来了,有同学会问,大门都开着,顾客为何不从前门进店?因为这些顾客头脑比较简单,老王苦啊,痛定思痛,老王想出了一个好主意。老王给顾客自己的电话号码4.4.4.1,叮嘱他们,以后来店消费之前,只要电话能打通(4.4.4.1路由可达),说明店还营业,前门进不来(1.1.1.1接口down)就走后门(2.2.2.1接口UP);同理,如果后门进不来,可以走前门。如果电话打不通(4.4.4.1路由消失),说明老王被关进去了,顾客就别来了,因为前门被封(1.1.1.1接口down),后门也被封(2.2.2.1接口down),来了也是白来。

    01

    2019年python爬虫-我破解了中文裁判网数据挖掘-反爬技术哪些事情

    从事了5年多的PHP研发和python大数据挖掘,其实在2010-2015年是电商时代,那个时候很多企业开发做电商平台,我负责研发最多也是电商项目,电商平台主要面临的是千万级的并发量、海量图片的存储、还有双十一或者节假日的秒杀活动高并发,这个也是最挑战技术的地方。做过日IP上千万的电商平台技术架构,接触过几百万并发的挑战,做过图片服务器分布式存储、分布式集群、搜索引擎、网络分布式节点架构。但是直到2015年开始 电商就慢慢走下坡了,互联网时代其实已经由电商时代升级到大数据时代。之前是我们说是it互联网,那么现在就是data互联网。大数据+人工智能是目前互联网最大的趋势。谁掌握了数据谁就掌握了财富。

    04

    如何应对爬虫请求频繁

    相信很多爬虫工作者在进行数据爬取过程中经常会遇到“您的请求太过频繁,请稍后再试”,这个时候心里莫名的慌和烦躁、明明爬虫代码也没有问题啊,怎么突然爬不动了呢?那么,很有可能,你的爬虫被识破了,这只是友好的提醒,如果不降低请求就会拉黑你的ip了。 我们都知道遇到这种情况使用代理就解决了,用代理IP确实不失为一个解决问题的好办法。IP被封了就换新IP继续爬,或者用很多IP同时多线程爬,都很给力的。但是有时候没有爬多久又被提示“您的请求太过频繁,请稍后再试”。再换IP还是被封,再换再封,封的越来越快,效率非常低下,这是为什么呢? 那是因为,你用的代理IP凑巧也是别人用来访问相同的网站的,而且用的还比较频繁。可能你们使用了共享ip池,或者使用的代理ip池很小。所以我们在找代理IP的时候,在保证IP有效率的同时IP池越大越好的,这样可以保证IP的新鲜度。例如亿牛云…列如还有的在使用代理的过程中也出现这样的情况。HTTP\HTTPS代理,系统会返回429 Too Many Requests;但不会对爬虫的运行产生影响,爬虫会根据返回结果自动重新发起请求,这是HTTP\HTTPS的标准应答模式。 所以,当您遇到“您的请求太过频繁,请稍后再试”时,不要慌,要镇定,检查下自己的爬虫策略,是否真的访问太过频繁,检查下自己的代理IP是否真的比较干净,调整自己的策略,选择更加纯净的IP,就能有效的避免这个错误了

    01
    领券