Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一键批量下载微信公众号文章内容/图片/封面/视频/音频,支持导出html和pdf格式,包含阅读数/点赞数/在看数

一键批量下载微信公众号文章内容/图片/封面/视频/音频,支持导出html和pdf格式,包含阅读数/点赞数/在看数

作者头像
苏生不惑
发布于 2021-12-28 06:30:44
发布于 2021-12-28 06:30:44
4.5K10
代码可运行
举报
文章被收录于专栏:苏生不惑苏生不惑
运行总次数:0
代码可运行

之前分享过听说公众号深圳卫健委被网友投诉尺度大,我抓取了所有文章标题和阅读数分析了下 ,后来发现这个号的封面图真有意思,于是批量下载了所有封面图,如果有需要在公众号后台对话框回复 封面 获取所有封面图的网盘地址。

所有封面图的文件名为文章发布日期加标题,方便搜索。

于是顺便再研究了下批量下载公众号文章内容,图片,视频和音频,文章内容支持导出HTML,pdf格式,以我的公众号为例,共300多篇原创文章,很快就下载完了,下载详情见之前文章一键下载公众号所有文章,导出文件支持PDF,HTML,Markdown,Excel,chm等格式 ,如果你有需要抓取下载的公众号在后台微信联系我。

生成的所有历史文章列表pdf文件,包括文章发布时间,文章作者,文章简介和文章链接,需要找哪篇文章ctrl+f搜索后打开就行,比在微信里搜索方便多了。

还有markdown格式文件。

以及excel数据文件(这里用的是公众号深圳卫健委的数据),包括发布日期,文章标题,文章链接,文章简介,文章作者,阅读数,在看数和点赞数,按文章阅读数排序可以很方便的知道哪些文章受欢迎。

下载的html文件可以用谷歌浏览器打开,即使文章被删了在本地也能继续看。

再用python脚本将html批量转为pdf文件。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def export_pdf():
    import pdfkit,os
    print('导出 PDF...')
    htmls = []
    for root, dirs, files in os.walk('.'):
     for name in files:
      if name.endswith(".html"):
       print(name)
       try:
         pdfkit.from_file(name, 'pdf/'+name.replace('.html', '')+'.pdf')
       except Exception as e:
             print(e)
export_pdf()

转换后的pdf文件比html文件大。

因为我的文章不发音频,这里以默默道来这个号为例,单篇文章隧道里的光 的音频可以用idm直接下载。

音频链接文件格式为https://res.wx.qq.com/voice/getvoice?mediaid=xxx ,于是用正则匹配就能批量下载音频了。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def audio(res,headers,date,title):
    aids = re.findall(r'"voice_id":"(.*?)"',res.text)
    time.sleep(2)
    tmp = 0
    for id in aids:
        tmp +=1
        url = f'https://res.wx.qq.com/voice/getvoice?mediaid={id}'
        audio_data = requests.get(url,headers=headers)
        print('正在下载音频:'+title+'.mp3')
        with open(date+'___'+title+'___'+str(tmp)+'.mp3','wb') as f:
            f.write(audio_data.content)

批量下载音频效果:

下载的音频文件名为文章发布时间+文章标题.mp3,也是方便搜索。

同样我的公众号也不发视频,这里以阿斗归来了这个号为例,单篇文章神雕侠侣,绝迹江湖!金庸经典武侠《神雕侠侣》大结局 的视频也可以用idm下载。

视频链接也是有规律的,同样通过正则匹配来批量下载视频:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def video(res, headers):
    vid = re.search(r'wxv_.{19}',res.text).group(0)
    time.sleep(2)
    if vid:
        url = f'https://mp.weixin.qq.com/mp/videoplayer?action=get_mp_video_play_url&preview=0&vid={vid}'
        data = requests.get(url,headers=headers).json()
        video_url = data['url_info'][0]['url']
        video_data = requests.get(video_url,headers=headers)
        print('正在下载视频:'+trimName(data['title'])+'.mp4')
        with open(trimName(data['title'])+'.mp4','wb') as f:
            f.write(video_data.content)

批量下载视频效果:

下载的视频如图:

如果文章里用的是视频号里的视频,这个只能抓包单个下载,目前还没研究出如何批量下载视频号,这里以前几天西城男孩视频号的视频为例,抓包就能获取视频下载地址。

最后说下批量下载文章里的图片,也是正则匹配图片链接批量下载:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def imgs(content,headers,date,position,title):
    imgs=re.findall('data-src="(.*?)"',content)
    time.sleep(2)
    num = 0
    for i in imgs:
        num+=1
        img_data = requests.get(i,headers=headers)
        print('正在下载图片:'+i)
        with open(date+'___'+title+'___'+str(position)+'___'+str(num)+'.jpg','wb') as f:
            f.write(img_data.content)

批量下载图片效果:

下载的图片文件名为文章发布时间加文章标题和数字:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 苏生不惑 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
大佬获取表格有源码吗
大佬获取表格有源码吗
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
我又开发了个批量下载工具
单篇文章神雕侠侣,绝迹江湖!金庸经典武侠《神雕侠侣》大结局 的视频可以用idm下载。
苏生不惑
2022/04/11
9490
我又开发了个批量下载工具
因为读者的一个问题,我写了个批量下载工具
另外作者的音频在喜马拉雅也有同步更新https://www.ximalaya.com/album/258244 ,使用这个Windows软件(公众号后台回复喜马拉雅获取下载地址)输入专辑id就能下载:
苏生不惑
2022/04/11
9460
因为读者的一个问题,我写了个批量下载工具
AI网络爬虫:批量下载微信公众号文章中的音频
https://mp.weixin.qq.com/s/Xcrrsq2AUBFlKWabhQjNag
AIGC部落
2024/06/24
3840
AI网络爬虫:批量下载微信公众号文章中的音频
python爬虫公众号所有信息,并批量下载公众号视频
本篇添加一个批量下载公众号内视频的功能,可以实现完全复制一个公众号,危险动作,请不要操作!谢谢
Python疯子
2019/12/16
2.8K0
python爬虫公众号所有信息,并批量下载公众号视频
苏生不惑又写了个小工具
之前分享过我写的一些工具整理下苏生不惑开发过的那些软件和脚本,不过导出的公众号pdf文件太多想合并成一个,于是用PDFShaper合并pdf,但合并后的pdf没有书签:
苏生不惑
2023/02/06
5200
springboot批量爬取微信公众号信息及视频下载
1. 准备需要爬取的公众号链接(例如:https://mp.weixin.qq.com/s/GPz-w3_gS8jsgINJH9t6vw).下面的是整合了160多个公众号文章的地址.
程序员小藕
2021/08/10
1.3K1
Pyhon爬虫,微信公众号文章视频下载爬虫工具源码助手
以前本渣渣分享过公众号文章内容(文字+图片采集),在这里本渣渣继续分享关于公众号文章内的视频内容采集获取下载方式,可能有不少大佬哥们有获取视频的需求,本渣渣搜集整理了相关内容资料,简单的做一些分享及总结,当然仅供参考和学习!
二爷
2022/03/29
2.7K1
Pyhon爬虫,微信公众号文章视频下载爬虫工具源码助手
一键批量下载微信公众号文章内容
今天来分享一个由python写的小功能,已经打包成了exe文件,可直接在window系统上直接运行,不受环境影响。
申霖
2020/03/19
2.1K0
微信公众号文章采集工具,可采集文章文字内容信息及图片
https://pan.baidu.com/s/1pCqptL6QwnP2eUeyAABnYA
二爷
2020/07/22
1.9K0
微信公众号文章采集工具,可采集文章文字内容信息及图片
Python 批量下载BiliBili视频 打包成软件
有一天,我突然想找点事做,想起一直想学但是没有学的C语言,就决定来学一下。 可是怎么学呢?看书的话太无聊,报班学呢又快吃土了没钱,不如去B站看看? 果然,关键字C语言搜索,出现了很多C语言的讲课视频:
cutercorley
2020/07/23
2.1K0
Python 批量下载BiliBili视频 打包成软件
如何使用 Python 爬取微信公众号文章?
有时候我们遇到一个好的公众号,里面的每篇都是值得反复阅读的,这时就可以使用公众号爬虫将内容抓取保存下来慢慢赏析。
纯洁的微笑
2020/03/02
4.9K1
如何使用 Python 爬取微信公众号文章?
python之抓取微信公众号文章系列2
微信公众号历史的所有文章(来源???) 每篇文章的阅读量和点赞量(电脑上浏览文章只显示内容,没有阅读量、点赞量、评论……)
周小董
2019/03/25
4.4K1
python之抓取微信公众号文章系列2
50行Python代码,教你获取公众号全部文章
小詹说:我们平时阅读公众号的文章会遇到一个问题——阅读历史文章体验不好。的确如此,小詹自己也这么认为。所以今天分享的是好朋友 Python3X 的一篇干货分享,原文如下:
小小詹同学
2019/07/12
2.6K0
50行Python代码,教你获取公众号全部文章
微信开发--微信公众号 代码示例
wechart.php <?php include_once "network.php"; function getSHA1($token, $timestamp, $nonce) { $
生南星
2019/07/22
12.7K0
微信开发--微信公众号(一)
1.在新浪云服务器的仓库里新建PHP文件,右键url访问,复制url地址在 微信测试账号的 接口配置信息里,Token 随便起一个 (好记的)名字
生南星
2019/07/22
22.4K0
微信开发--微信公众号(一)
Python打印公众号文章范例,解决微信公众号文章采集打印pdf图片无法显示的问题
python第三方库pdfkit非常好用,基本上应用它就可以打印出pdf文件,作为学渣收藏干货吃灰简直是完美匹配,本渣渣也写了不少爬取不少干货打印成pdf的文章,其中就有微信公众号文章,前段时间又继续折腾了公众号文章打印pdf,发现如果存在图片就挂比,歇菜了!
二爷
2021/05/20
1.6K0
微信公众号信息抓取方法(二)——抓取文章点赞、阅读、评论、小程序信息
上一篇文章文章将cookie信息保存到redis中, 则这一节主要是取出cookie, 并且构造方法去获取文章的点赞、阅读、评论、小程序信息, 而且不会访问文章内容页, 防止被微信认为是刷阅读数而封号, cookie的有效期保险一些为2个小时。所以在2个小时内一定要处理完数据
aox.lei
2018/09/10
6.1K1
Python爬取微信公众号文章和评论 (基于Fiddler抓包分析)
  感觉微信公众号算得是比较难爬的平台之一,不过一番折腾之后还是小有收获的。没有用Scrapy(估计爬太快也有反爬限制),但后面会开始整理写一些实战出来。简单介绍下本次的开发环境:
happyJared
2018/09/20
4.2K0
Python爬取微信公众号文章和评论 (基于Fiddler抓包分析)
这个周末,苏生不惑又写了个新脚本
之前分享过我写的工具 整理下苏生不惑开发过的那些软件和脚本 ,周末又完善了下批量下载知乎文章,回答,想法生成pdf电子书,这里以腾讯文档这个号为例,下载效果:
苏生不惑
2023/02/06
5430
微信公众号数据分析。
既然提到了公众号的数据分析,那必然少不了公众号的数据。 本次,以我一直关注的一个公众号「曹将」为例。 通过抓包软件Charles获取请求信息,得以获取公众号数据。 本次只获取公众号文章的部分信息。 对
张俊红
2019/05/14
1.4K0
微信公众号数据分析。
推荐阅读
相关推荐
我又开发了个批量下载工具
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验