Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python 增加博客园阅读量

Python 增加博客园阅读量

作者头像
py3study
发布于 2020-01-24 01:37:39
发布于 2020-01-24 01:37:39
72900
代码可运行
举报
文章被收录于专栏:python3python3
运行总次数:0
代码可运行

一、原理

  一般来说,阅读量是通过 ip 识别的,如果一个 ip 已经请求过了,下一次就不再增加阅读量。因此,想要增加阅读量,就需要不同的 ip 进行请求。大致清楚了之后,就可以开始写代码了。

二、获取代理 ip

  国内有很多代理 ip 的网站,这里我就推荐 http://31f.cn/http-proxy/ ,我们直接通过爬虫对 ip 和端口号进行获取,用 requests 和 BeautifulSoup ,由于这个网站的结构比较简单,就直接上代码了(记得导包)。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def getIPList(url="http://31f.cn/http-proxy/"):
    proxies = []
    headers = {
        'User_Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36',
    }

    res = requests.get(url, headers=headers)

    soup = BeautifulSoup(res.text, 'lxml')

    ip_list = soup.select("body > div > table.table.table-striped > tr > td:nth-of-type(2)")
    port_list = soup.select("body > div > table.table.table-striped > tr > td:nth-of-type(3)")

    for i in range(len(port_list)):
        proxies.append(ip_list[i].text + ":" + port_list[i].text)

    return proxies

  如果想要获取更多的 ip 可以让这个方法不带参数,直接通过循环对多个页面进行抓取,毕竟大部分代理 ip 的有效期都很短。

三、发出请求

  其实在一开始,我是直接对 https://www.cnblogs.com/lyuzt/p/10381107.html 进行请求的,但是我发现用 requests 请求这个网址并不能增加阅读量。因为其他的文件并没有像平时打开网站那样加载,而且增加阅读量应该是由另外的网址进行,所以要好好分析一下,到底是通过什么增加阅读量的。

   从控制台可以看到有一个 put 请求的,域名的开头为 count,这个才是阅读量增加的关键。所以改一下 url 再请求。

  代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
IPs = getIPList_2()
#print(IPs)
for i in range(len(IPs)):
    print("开始请求")
    user_agent = random.choice(user_agents)
    proxy = IPs[i]
    res = requests.get(blog_url, headers={'user_agent': user_agent}, proxies={'http': proxy})
    print(user_agent + '\t' + proxy, end='\t')
    print(res)
    print("请求结束,准备下一次请求......")
    time.sleep(10)

  ps:" user_agents " 这个变量是一个列表,相当于一个 user_agent 池,它的每个元素都是一个 user_agent 。这个就不展示了,可以上网复制。

四、总结

  经过测试,博客的阅读量有所增加,但由于大部分代理 ip 的有效期短,基本上只能增加一点点。有些网站可以通过直接请求网址增加阅读量,有一些网站则是通过请求其他的文件增加的,如果觉得去分析有点麻烦可以直接用 selenium 让浏览器自动请求,至于这个方法就不尝试了。

  虽然阅读量少,但我只试了一次,毕竟不能被这个数字左右,要端正心态。只要有技术,这些东西真的无所谓(不带出处转载这个就不能忍了,毕竟侵权了)。最后强调一下,这篇博客重在交流!

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/05/15 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
python爬取高匿代理IP(再也不用担心会进小黑屋了)
很多数据网站,对于反爬虫都做了一定的限制,这个如果写过一些爬虫程序的小伙伴应该都深有体会,其实主要还是IP进了小黑屋了,那么为了安全,就不能使用自己的实际IP去爬取人家网站了,这个时候,就需要采用代理IP去做这些事情……
Python之道
2020/07/08
4.5K0
python: 抓取免费代理ip
通过抓取西刺网免费代理ip实现代理爬虫: from bs4 import BeautifulSoup import requests import random import telnetlib requests = requests.session() ip_list = [] proxy_list = [] headers = [ 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
py3study
2020/01/06
1.7K0
Python爬取大量数据时,如何防止IP被封
继续老套路,这两天我爬取了猪八戒上的一些数据 网址是:http://task.zbj.com/t-ppsj/p1s5.html,可能是由于爬取的数据量有点多吧,结果我的IP被封了,需要自己手动来验证解封ip,但这显然阻止了我爬取更多的数据了。
龙哥
2018/10/22
1K0
Python爬取大量数据时,如何防止IP被封
代理IP全解析:从原理到自建代理池的实战指南
想象你正在咖啡馆用公共WiFi刷短视频,突然收到一条"您的账号存在风险"的警告。这很可能是黑客通过WiFi嗅探获取了你的真实IP,进而尝试入侵设备。此时,代理IP就像给设备披上了一件"隐形斗篷"——所有网络请求先经过代理服务器中转,目标网站只能看到代理服务器的IP,而你的真实位置、设备信息则被完美隐藏。
富贵软件
2025/08/11
1910
爬取IP代理偷偷给文章刷阅读量一、前言二、代码三、小结
原本是想开始维护IP代理池,继续python爬虫进阶之路,但在看其他人写的IP代理爬取的文章时,发现可以把爬下来的IP用来给CSDN博客里的文章刷阅读量,于是就刷了1k+的阅读量......
古柳_DesertsX
2018/08/21
9330
爬取IP代理偷偷给文章刷阅读量一、前言二、代码三、小结
基于bs4+requests的python爬虫伪装 - 草稿
要导入fake-useragent库,需要先用pip安装,安装命令:pip install fake-useragent params是爬虫伪装的参数,数据类型为字典dict,里面有2个键值对,2个键:headers、proxies。 headers的数据类型是字典,里面有1个键值对,键User-Agent对应的值数据类型为字符串,User-Agent中文翻译是用户代理。 proxies的数据类型是字典,里面有1个键值对,键http对应的值数据类型为字符串,是代理服务器的url。 匿名ip主要是从66ip.cn网站获取。
潇洒坤
2018/09/10
7140
用 Python 写你的第一个爬虫:小白也能轻松搞定数据抓取(超详细包含最新所有Python爬虫库的教程)
用 Python 写你的第一个爬虫:小白也能轻松搞定数据抓取(超详细包含最新所有Python爬虫库的教程)
猫头虎
2025/06/02
3K0
用 Python 写你的第一个爬虫:小白也能轻松搞定数据抓取(超详细包含最新所有Python爬虫库的教程)
Python 爬虫入门—— IP代理使用
简单的说,代理就是换个身份。网络中的身份之一就是IP。比如,我们身在墙内,想要访问google、u2b、fb等,直接访问是404,所以要换个不会被墙的IP,比如国外的IP等。这个就是简单的代理。
用户7678152
2020/08/20
1K0
Python--代理IP
        当你需要在同一个网站爬取大量信息的时候,通常你会遇到各种各种各样的阻挠,其中一种就是IP被封,这时代理IP就成了我们不二的选择,我们下面的IP来源于http://www.xicidaili.com/
K同学啊
2019/01/22
9570
Python爬虫动态IP代理防止被封的方法
在进行网络爬虫时,经常会遇到网站的反爬机制,其中之一就是通过IP封禁来限制爬虫的访问。为了规避这种限制,使用动态IP代理是一种有效的方法。本文将介绍在Python爬虫中如何使用动态IP代理,以及一些防止被封的方法,通过适当的代码插入,详细的步骤说明,拓展和分析,帮助读者更好地理解和应用这一技术。
IT_陈寒
2023/12/14
1.1K0
Python爬虫动态IP代理防止被封的方法
实战项目四:爬取911网站
我爬取的是 https://myingwenming.911cha.com 网站,采集的是网站中的中文音译、名字性别、来源语种、名字寓意、名字印象、名字含义6个数据。我分别设置namesChineseTransliteration、namesGender、namesFromLanguage、namesMoral、namesImpression、namesMeaning等6个字段来存放相应的数据。
K同学啊
2019/03/05
1.2K0
Python爬虫之图片爬取
爬虫简介:(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。网络爬虫始于一张被称作种子的统一资源地址(URL)列表。当网络爬虫访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们写入一张“待访列表”,即所谓爬行疆域。此疆域上的URL将会被按照一套策略循环来访问。如果爬虫在执行的过程中复制归档和保存网站上的信息,这些档案通常储存,使他们可以较容易的被查看。阅读和浏览他们存储的网站上并即时更新的信息,这些被存储的网页又被称为“快照”。越大容量的网页意味着网络爬虫只能在给予的时间内下载越少部分的网页,所以要优先考虑其下载。高变化率意味着网页可能已经被更新或者被取代。一些服务器端软件生成的URL(统一资源定位符)也使得网络爬虫很难避免检索到重复内容。(摘自:维基百科)
K同学啊
2019/01/22
1.7K0
Python代理IP爬虫的新手使用教程
Python爬虫要经历爬虫、爬虫被限制、爬虫反限制的过程。当然后续还要网页爬虫限制优化,爬虫再反限制的一系列道高一尺魔高一丈的过程。爬虫的初级阶段,添加headers和ip代理可以解决很多问题。
用户7081581
2020/03/19
1.3K0
Python获取免费代理IP,并全部测试一遍,结果大失所望
前言 为什么要IP代理:当采集数据, 批量采集数据, 请求速度过快, 网站可能会把你IP封掉 <你的网络进不去这个网站> IP代理换一个IP, 再去采集请求数据 一. 抓包分析数据来源 1. 明确需求
松鼠爱吃饼干
2022/12/05
1.1K0
Python获取免费代理IP,并全部测试一遍,结果大失所望
用Python爬虫抓取免费代理IP
-- Illustrations by Ash Thorp & Maciej Kuciara --
Python中文社区
2018/07/27
3.7K0
用Python爬虫抓取免费代理IP
用Python搭建一个简单的代理池
这里记得一定要设置随机选取headers以及睡眠时间,因为我就没有设置,然后就被封了...
小F
2020/10/09
1.1K0
用Python搭建一个简单的代理池
Python3--baby网的数据爬取
上代码: ''' 本代码用来爬取https://www.babyment.com/yingwenming/kaitou.php?start_letter=A&page=1的信息 ''' import
K同学啊
2019/01/22
4550
【Python爬虫】听说你又闹书荒了?豆瓣读书9.0分书籍陪你过五一
五一将至,又到了学习的季节。目前流行的各大书单主打的都是豆瓣8.0评分书籍,却很少有人来聊聊这9.0评分的书籍长什么样子。刚好最近学了学python爬虫,那就拿豆瓣读书来练练手。
弗兰克的猫
2019/05/25
5490
Python爬虫技巧---设置代理IP
在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,这里讲述一个爬虫技巧,设置代理IP。
itlemon
2020/04/03
1.3K0
【Python3爬虫】教你怎么利用免费代
有时候你的爬虫刚开始的时候可以正常运行,能够正常的爬取数据,但是过了一会,却出现了一个“403 Forbidden",或者是”您的IP访问频率太高“这样的提示,这就意味着你的IP被ban了,好一点的情况是过一段时间你就能继续爬取了,坏一点的情况就是你的IP已经进入别人的黑名单了,然后你的爬虫就GG了。怎么办呢?我们可以通过设置代理来解决,付费代理的效果自然不必多说,但是对于学习阶段的人来说,我觉得爬取网上的免费代理来用是一个更好的选择,而这一篇博客就将教你怎么利用免费代理搭建属于你自己的代理池。
py3study
2020/01/17
1.3K0
推荐阅读
相关推荐
python爬取高匿代理IP(再也不用担心会进小黑屋了)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档