Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >采集微博的热点数据

采集微博的热点数据

原创
作者头像
用户6172015
修改于 2021-06-17 10:07:59
修改于 2021-06-17 10:07:59
67200
代码可运行
举报
文章被收录于专栏:网络爬虫网络爬虫
运行总次数:0
代码可运行

如何用 python 也做个微博热搜排名动态变化,动态看到微博排名变化经过这几天的实践也是通过python做出了获取热点的动态变化。

实现过程简单来说分为两个内容:

1、定时采集微博热搜排名数据

2、用 matplotlib 画出动态排名图

1.我们需要用到requests 模拟请求,去采集微博的热搜数据信息,可以直接打开微博网页,找到热搜然后打开浏览器的自带分析功能,将热搜数据发出请求获取数据即可。只需要每分钟采集一次,让采集的数据储存在文件中备用。

2.用matplotlib.animation画出动图然后,将文件中采集的数据进行读取放进去。接着将热搜内容和热度按排名顺序放置所画途中,然后做成数据表格格式即可。

如果要采集微博的热搜数据可以参考一下方案代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
    #! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
新东方双语带货爆火,直播届迎来“降维打击”?
最近几天新东方集团旗下的“东方甄选”直播间火了。跟传统的嘶吼式带货直播不同,从新东方讲台上转型而来的主播们自带“讲授知识”特色,成为一股直播界清流,他们介绍物品时中英双语无缝切换、遇到知识点时延伸拓展、时不时地即兴讲段子抖包袱……这些新东方老师们特有的技能让“东方甄选”直播间斩获了流量的口碑的双丰收。
小白学大数据
2022/06/15
2480
python数据去重的一些方案
学习爬虫技术的主要作用就是能获取数据,很多爬虫小伙伴每天需要获取的数据量都不小,这也跟业务需求量有关系。我们在使用python采集大量数据的时候有一些方式,有需求的可以借鉴学习下。 1、先学习 Python 包并实现基本的爬虫过程,Python中爬虫的包很多,初学建议可以从requests包和Xpath包开始学习,requests包主要负责连接网站,返回网页,而Xpath用于解析网页,便于抽取数据。还有其他的一些功能强大的包可以去慢慢的了解下。 2、掌握反爬虫技术,我们在爬虫过程中一般会遇到网站封IP、动态加载或各种奇怪的验证码和userAgent访问限制等问题。这时我们就需要控制用访问频率、使用代理IP池、抓包、验证码的OCR等手段来解决。最简单的代理池的使用可以分享给大家参考下:
小白学大数据
2024/06/08
1400
美团外卖的评论在线数据分析
随着网络时代的进步,网购成了大众的必不可缺少的一部分,任何人都可以通过网购来购买自己所需的产品,不用出门,也能购买到想要的用品。当然美团,淘宝也是网购中的一种专属APP,无论是在美团上购物,还是点外卖订餐,只需要选择所需要的产品,点击购买即可。当然在美团进行订餐后,订餐后消费者的评论信息,也成了商家的推广方式之一,或者评论信息也成了大众选择这家餐厅订餐的重要原因之一。
用户6172015
2021/05/19
2.3K0
冬季出游者们的福利来了,四川13万张门票“一元购”
爱旅游者们的福利到了,11月7日,四川省文化和旅游厅召开“冬游四川消费季”活动新闻通气会,宣布将于2022年11月至2023年2月开展“赏蜀山冰雪·享攀西暖阳”冬游四川消费季活动。活动期间,四川将联动发放超亿元的文旅专项消费券,推出阿坝州、甘孜州、凉山州和攀枝花市国有4A级及以上旅游景区“门票买一送一”、国有4A级以下旅游景区门票全免政策,开展13万张冬游四川门票“一元购”大放送等大力度举措,进一步激发冬季文旅市场活力,持续提振冬季文旅消费。这真的是很大的一波福利啊,不知道小伙伴是不是都按耐不住出游的心了。
小白学大数据
2022/11/09
3780
如何应对亚马逊反爬机制
大家都知道亚马逊是全球最大的购物平台很多商品信息、用户评价等等都是最丰富的。但是对于爬虫来说,亚马逊的反爬机制应该也是数一数二的,想要获取亚马逊数据的人很多,但是真的能成功的确是少数,所以今天小编就手把手带大家,越过亚马逊的各种反爬机制爬取你想要的商品、评论等等有用信息。
小白学大数据
2022/08/19
1.9K0
疫情放开后旅游业开始大复苏了
春节假期已经正式结束了,大部分人都回到了工作岗位上开启了新的奋斗。因为春节前疫情的全面放开,很多地方春节都在倡导就地过年。疫情三年大家的出游也严重的受到了限制,所以今年春节期间很多人都有了出游计划。因为假期的关系大多游客缩小了出游半径,本地游、周边游、近郊游取代了异地长线游,成为兔年春节新的旅游消费趋势。收假后全国各地也陆续公布了今年春节的文旅数据。目前为止,在已经公布春节假期旅游收入的15个省份中,四川位列第一。
小白学大数据
2023/01/28
6810
python技术进阶学习
一年一度的“618”已经过去,会爬虫技能的小伙伴刚好处在一个很有趣的时间点。之所以说“有趣”,是因为618不仅是电商折扣季这么简单,更是Python技术兼职接单的超级高潮期!
小白学大数据
2022/06/23
2400
这个春天,淄博烧烤成了新晋“顶流”
淄博烧烤在这个春天火出了圈,火到社交平台到处都是,火到大学生组团坐高铁到淄博打卡种草,火到你长久不联系的外省同学、朋友都要来山东品尝,火到相关话题一次次登上热搜热榜,连央视主播康辉都深夜点赞,成为现象级IP。
小白学大数据
2023/04/12
3580
使用python爬取招聘网站数据
八、九月份是一年中的求职高峰期,一大波应届毕业生涌入市场,加上疫情因素下,很多行业都没有那么景气,很多人应届生表示想要找到理想工作变得难上加难! 现在大家找工作都是通过各种招聘app,信息全部罗列出来,可是招聘信息有一些是错综复杂的。而且不能把全部的信息全部罗列出来,这样也让人很苦恼,所以今天我们就通过爬虫技术,为大家解决这个问题。首先我们的爬取目标是获取招聘信息,并批量把地点、 公司名、工资 、等详细资料做成文档。这里我们就以boss直聘为例。在获取数据之前简单的对网站进行了分析,该网站上的反爬主要有两点。1、 直接使用requests库,在不设置任何header的情况下,网站直接不返回数据。2、同一个ip连续访问多次,直接封掉ip。 为了解决这两个问题,最后经过研究,使用以下方法,可以有效解决。1、获取正常的 http请求头,并在requests请求时设置这些常规的http请求头。2、使用代理IP进行访问。代理IP的选择比较多,比如现在我们使用的亿牛云代理,简单实现过程如下:
小白学大数据
2024/06/08
4910
python爬虫带你了解油价新走势
5月16日24时,国内新一轮成品油调价窗口将开启。继上轮成品油价格下跌后,机构预计本轮成品油价格或继续下跌,有望迎来年内“最大跌幅”,根据机构测算,全国大部分地区95号汽油有望回归“7元时代”。
小白学大数据
2023/05/16
3930
8月新规对二手车市场的影响
8月起一批新规正式实行,范围涉及到我们生活的方方面面,这些新规将影响我们的生活。比如各地区严格落实全面取消二手车限迁政策,自2022年8月1日起,在全国范围取消对符合国五排放标准的小型非营运二手车的迁入限制,促进二手车自由流通和企业跨区域经营。这项新规实施后对二手车行业的销量带来什么样的影响呢?今天我们就通过python大数据来分析下。
小白学大数据
2022/08/03
2850
多个银行中长期存款利率告别“3时代”
6月8日,中国工商银行、中国农业银行、中国银行、中国建设银行、交通银行等先后更新了人民币存款利率情况,活期、定期存款利率均有所下调,中长期定期存款下调幅度更大。
小白学大数据
2023/06/08
2230
python如何通过分布式爬虫爬取舆情数据
作为爬虫,有时候会经历过需要爬取站点多吗,数据量大的网站,我们身边接触最频繁、同时也是最大的爬虫莫过于几大搜索引擎。今天我们来聊一个同样是站点多数据量的爬取方向,那就是舆情方向的爬虫。
小白学大数据
2023/04/06
4440
python实践之高温预警数据获取
最近一段时间,四川真的感觉遭遇了最大最强高温,一到户外感觉都要被烤干了,可怕的故事是,现在才只有7月份呢,要是等到了8 、9月份,不会是要更热吧?
小白学大数据
2022/07/11
3580
python爬虫利器之requests库的基本使用介绍
python爬虫有比较多的库可以使用,最开始学习爬虫的时候是使用的 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。但是入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取,所以今天就简单介绍一下 requests 库的基本用法。
小白学大数据
2022/02/09
5480
“五一”民宿一房难求
这个“五一”假期,如果你想要去附近的乡村民宿躺一下,或者找个风景秀丽的地方露营,那你这时候再行动可能就晚了。放弃假期“来回飞”,成都乡村民宿火起来了。临近“五一”假期,多地散发疫情下,人们纷纷放弃长途旅游,本地周边游成为人们的新选择,于是本地乡村民宿火了起来,预定的人非常多,很多地方都订单满了,并且由于是假期需求量大,乡村民宿价格上涨明显。
小白学大数据
2022/04/29
3680
Python爬取新浪微博数据快速版
新浪微博的数据可是非常有价值的,你可以拿来数据分析、拿来做网站、甚至是*。不过很多人由于技术限制,想要使用的时候只能使用复制粘贴这样的笨方法。没关系,现在就教大家如何批量爬取微博的数据,大大加快数据迁移速度!
小白学大数据
2023/03/28
6540
几分钟学会隧道代理的使用
当我们有时使用爬虫的时候,如果频繁对某一个界面请求过太多的次数,那么有些网站就会因为反爬虫的措施发现同一个IP地址对它请求了太多的次数,因此对我们的爬虫进行了禁止,你必须要登录这个网站才能够继续进行爬虫。这个时候呢,如果我们能够直接在请求网页的时候不断更换自己的IP地址,就不会被系统检查出来。因此,这也是我们需要使用动态IP代理的缘故。
小白学大数据
2023/05/11
6690
安居客房源信息获取
最近身边有几个做房产销售的朋友经常在诉苦,找不到客户,没有业绩,所以就比较好奇他们现在的行情,所以今天我们就使用python获取下安居客的一些房源数据。之前分享过很多关于爬虫的实践示例,今天这个也算是实践内容。我们就以户型结构、装修情况、水肥情况进行房源数据获取。 爬取数据的通用流程:1、根据url请求页面,获取页面响应对象2、将页面响应对象转化为对象 3、定位要爬取的数据 4、获取数据。 在上代码之前先和大家交流下网站的反爬。像这样的网站反爬都是比较严的,所以基本的反爬措施也是需要做好的,其中最重要的是代理IP的使用,更是需要高质量的代理效果才可以。高质量的代理有需要的可以考虑下https://www.16yun.cn/#worth。简单的爬虫代码示例如下: #! -- encoding:utf-8 --
小白学大数据
2024/06/08
1770
python数据分析实例
很多新手爬虫掌握了爬虫技术后,总想实战一下试试手,于是一直在各大网站“踩点”。对于新手建议还是选择难度么有那么大的网站练手,多选择合适的下手目标。比如像B站这样的,某天逛B站时翻到了排行榜,我发觉那个页面十分合适,又简单的分析了下他的反爬措施,还好,比较宽松。所以决定今天就来实践下。
小白学大数据
2022/05/27
3700
相关推荐
新东方双语带货爆火,直播届迎来“降维打击”?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验