Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >百家号爬取(2)

百家号爬取(2)

作者头像
Centy Zhao
发布于 2019-12-26 08:44:33
发布于 2019-12-26 08:44:33
9020
举报
文章被收录于专栏:icecream小屋icecream小屋

此篇文章主要讲述百家号评论数阅读数的爬取

评论数和阅读数都在单独的一个json数据表中

https://mbd.baidu.com/webpage?type=homepage&action=interact&format=jsonp&params=%5B%7B%22user_type%22%3A%223%22%2C%22dynamic_id%22%3A%229683117499664348209%22%2C%22dynamic_type%22%3A%222%22%2C%22dynamic_sub_type%22%3A%222001%22%2C%22thread_id%22%3A%221113000014175815%22%2C%22feed_id%22%3A%229683117499664348209%22%7D%2C%7B%22user_type%22%3A%223%22%2C%22dynamic_id%22%3A%228997120757336896754%22%2C%22dynamic_type%22%3A%222%22%2C%22dynamic_sub_type%22%3A%222001%22%2C%22thread_id%22%3A%221106000014171319%22%2C%22feed_id%22%3A%228997120757336896754%22%7D%2C%7B%22user_type%22%3A%223%22%2C%22dynamic_id%22%3A%229442416292259854102%22%2C%22dynamic_type%22%3A%222%22%2C%22dynamic_sub_type%22%3A%222001%22%2C%22thread_id%22%3A%221106000014171220%22%2C%22feed_id%22%3A%229442416292259854102%22%7D%2C%7B%22user_type%22%3A%223%22%2C%22dynamic_id%22%3A%228994022518148142722%22%2C%22dynamic_type%22%3A%222%22%2C%22dynamic_sub_type%22%3A%222001%22%2C%22thread_id%22%3A%221084000014170786%22%2C%22feed_id%22%3A%228994022518148142722%22%7D%2C%7B%22user_type%22%3A%223%22%2C%22dynamic_id%22%3A%229180210467318996709%22%2C%22dynamic_type%22%3A%222%22%2C%22dynamic_sub_type%22%3A%222001%22%2C%22thread_id%22%3A%221110000014181138%22%2C%22feed_id%22%3A%229180210467318996709%22%7D%2C%7B%22user_type%22%3A%223%22%2C%22dynamic_id%22%3A%229470100560664750777%22%2C%22dynamic_type%22%3A%222%22%2C%22dynamic_sub_type%22%3A%222001%22%2C%22thread_id%22%3A%221119000014172446%22%2C%22feed_id%22%3A%229470100560664750777%22%7D%5D&uk=D0hHfmuMEVka02HZelKA7g&_=1548119615162&callback=jsonp1

该url解析

主要是从上个json数据表中获得的

"user_type"

dynamic_id"

"dynamic_type"

"dynamic_sub_type"

"thread_id"

"feed_id"

进行拼装

代码为

for iin range(len(title)):

user_type = re.findall(r'"user_type":"(.+?)",', asyncData[i])[0]

dynamic_id = re.findall(r'"dynamic_id":"(.+?)",', asyncData[i])[0]

dynamic_type=re.findall(r'"dynamic_type":"(.+?)",', asyncData[i])[0]

dynamic_sub_type=re.findall(r'"dynamic_sub_type":"(.+?)",', asyncData[i])[0]

thread_id=re.findall(r'"thread_id":"(.+?)",', asyncData[i])[0]

feed_id=re.findall(r'"feed_id":"(.+?)"', asyncData[i])[0]

print(title[i],url[i],date[i],cerate[i],publish[i],updated[i])

if i<len(title)-1

readjson+='user_type%22%3A%22'+user_type+'%22%2C%22'\

+'dynamic_id%22%3A%22'+dynamic_id+'%22%2C%22'\

+'dynamic_type%22%3A%22'+dynamic_type+'%22%2C%22'\

+'dynamic_sub_type%22%3A%22'+dynamic_sub_type+'%22%2C%22'\

+'thread_id%22%3A%22'+thread_id+'%22%2C%22'\

+'feed_id%22%3A%22'+feed_id+'%22%7D%2C%7B%22'

else:

readjson +='user_type%22%3A%22' + user_type +'%22%2C%22' \

+'dynamic_id%22%3A%22' + dynamic_id +'%22%2C%22' \

+'dynamic_type%22%3A%22' + dynamic_type +'%22%2C%22' \

+'dynamic_sub_type%22%3A%22' + dynamic_sub_type +'%22%2C%22' \

+'thread_id%22%3A%22' + thread_id +'%22%2C%22' \

+'feed_id%22%3A%22' + feed_id +'%22%7D%5D'

readjson+='&uk=D0hHfmuMEVka02HZelKA7g&_='+str(b)

注:feed_id最后一个接的是%22%7D%5D,而不是之前的'%22%7D%2C%7B%22'

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
百家号爬取(1)
我爬取的是https://author.baidu.com/home?type=profile&action=profile&mthfr=box_share&context=%7B%22from%22
Centy Zhao
2019/12/26
1.3K0
百家号爬取(1)
Python 打造基于百度翻译的命令行翻译工具
版权声明:本文为 FengCms FungLeo 原创文章,允许转载,但转载必须注明出处并附带首发链接 https://blog.csdn.net/FungLeo/article/details/81045207
FungLeo
2019/05/26
1.3K0
爬虫入门经典(二十三) | fiddler抓包爬取QQ音乐
  ♥各位如果想要交流的话,可以加下QQ交流群:974178910,里面有各种你想要的学习资料。♥
不温卜火
2020/11/26
4.5K0
爬虫入门经典(二十三) | fiddler抓包爬取QQ音乐
(数据科学学习手札47)基于Python的网络数据采集实战(2)
  马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑。
Feffery
2018/08/18
7830
如何接入美股行情API(2024最新教程)
延迟行情接口:顾名思义,行情数据存在延迟,一般是15分钟,也就是说你看到的成交价格是发生在15分钟之前的。这种是最常见的接口,比如你在雪球,证券交易app中看到的行情价格都是存在延迟的。
Always_Somewhere
2024/10/07
2710
如何接入美股行情API(2024最新教程)
php webshell 各种函数
前段时间打ctf的时候突然发现,有时候我们getshell了,但是由于服务器大部分时候回禁用shell函数,我们往往只能使用eval(),一般意义来说,我们可以通过菜刀蚁剑这样的工具,但是如果我们的shell是通过文件包含的方式成立的,工具经常没法用,突然一下用php函数读文件写文件还需要查查看,所以今天分析下蚁剑的列目录读文件方式,需要的时候可以直接来用
LoRexxar
2023/02/21
1.3K0
Python爬虫,studiofaporsche网站采集源码
很久没有写过 Python 爬虫了,最近不是在拧螺丝,就是在拧螺丝的路上,手生的很了,很多代码用法也早已经殊生,因此也花了一点时间来梳理,写的比较渣,见谅!
二爷
2023/09/02
2390
Python爬虫,studiofaporsche网站采集源码
手把手教你爬取Instagram博主照片和视频
原文:https://www.jianshu.com/p/b2e077c07c70
Python数据科学
2018/09/14
25.9K0
手把手教你爬取Instagram博主照片和视频
python 实现csdn平台自动化定时评论功能实现
之前一段时间,看到一些博主在文章下自动评论,当然我是欢迎大家为我的文章进行评论。我也思考了一下,如果是我来进行开发自动化评价,我要如何操作。
大家一起学编程
2021/10/13
1K0
爬虫案例
一、壁纸网站 # coding=utf-8 """ 作者:gaojs 功能: 新增功能: 日期:2022/3/25 19:35 """ import os.path import requests import parsel def get_address(): """ 获取url地址 :return: """ dirname = 'photo/' if not os.path.exists(dirname):
懿曲折扇情
2022/08/24
1.1K0
Python爬取链家成都二手房源信息 asyncio + aiohttp 异步爬虫实战
本文先熟悉并发与并行、阻塞与非阻塞、同步与异步、多线程、多线程、协程的基本概念。再实现asyncio + aiohttp爬取链家成都二手房源信息的异步爬虫,爬取效率与多线程版进行简单测试和比较。
叶庭云
2020/09/17
7210
Python爬取链家成都二手房源信息    asyncio + aiohttp 异步爬虫实战
手把手教你抓取链家二手房详情页的全部数据
前几天在Python白银交流群大家在交流链家网二手房详情页数据的抓取方法,如下图所示。关于首页的抓取,上一篇文章已经说明了,手把手教你抓取链家二手房首页的全部数据。
前端皮皮
2022/08/17
6460
手把手教你抓取链家二手房详情页的全部数据
简单的图片爬取,爬取豆瓣电影图片并保存到本地
这是本人第一次写博客,如有失误请见谅。 这段时间,由于疫情原因,在家无聊,再加上这学期要学习爬虫这们课程。所以我开始了自学爬虫的“艰苦岁月”。 爬虫,看似简单,实则并不简单。刚开始听别人说只要学会爬虫,什么都能爬取,我是不信的。但是,通过这段时间的学习和了解,我相信别人说的都是真的。当然了,对于目前我这个小菜鸡来说,还很遥远。还需要学习很多东西。话不多说,开始爬取豆瓣电影Top250(这次仅仅爬取电影图片并保存到本地)。
不温卜火
2020/10/28
2.5K0
简单的图片爬取,爬取豆瓣电影图片并保存到本地
爬取淘宝热卖商品并可视化分析,看看大家都喜欢买什么!
还有几天就过年了,大家都在囤年货(我也是),于是我就在淘宝上看看有什么好的,可以买一买。
Python研究者
2021/03/05
1.1K0
爬取淘宝热卖商品并可视化分析,看看大家都喜欢买什么!
Python爬取网页保存为PDF
我在今天还能更文,是不是很单身狗,可我也想尝尝这爱情的苦。越是在孤独的时候越是要战胜它,所以今天去买了一份慕课专栏,用买买买来解决孤独。
马拉松程序员
2022/04/26
9930
Python爬取网页保存为PDF
springboot Actuator
springboot Actuator只需要加入依赖即可使用: <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-actuator</artifactId> </dependency> application.properties 中可以加入以下配置: # false,表示不敏感,可以随意访问,否则就是做了一些保护,不能随意访问。 endpoints.mapping
yawn
2018/03/14
6830
常用编码表
Text-to-speech function is limited to 200 characters
botkenni
2019/09/03
1K0
常用编码表
【Python爬虫】腾讯视频m3u8格式分析爬取(附源码,高清无水印)
先打开开发者工具,然后搜索m3u8,会返回给你很多的ts的文件,像这种ts文件,就是视频的片段
松鼠爱吃饼干
2021/10/14
8K0
【瑞数】维普期刊JS逆向详细流程
这是我第一次接触瑞数加密,比较难,不过学到的东西也是挺多的,也是因为我第一次解瑞数,所以文章写得比较详细甚至是啰嗦,这篇文章大致是以我逆向的思路去写的,应该适合像我这样从未接触过瑞数的朋友。
andrew_a
2021/06/25
3.1K1
【瑞数】维普期刊JS逆向详细流程
7个Python实战项目代码,让你分分钟晋级大神!
1、你不知道已经有哪些轮子已经造好了,哪个适合你用。有名有姓的的著名轮子就400多个,更别说没名没姓自己在制造中的轮子。
杰哥的IT之旅
2021/07/13
2480
推荐阅读
相关推荐
百家号爬取(1)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文