前言
前几天在转载小小明大佬C站(CSDN)的文章的时候,遇到了一个头大的事情,一开始我都是去他的C站上找到对应的文章,之后挨个复制粘贴到我的公众号后台,后来我发现他的文章写得很肝,动则几千字,上万字,干货满满,挨个复制粘贴的我累的发慌,整理一篇文章半个小时左右。正在头大之时,小小明大佬给我丢来一个他自己开发的漫游者工具,专门用于导出C站的文章,我直呼好家伙,有了这个工具,我整理一篇文章5分钟左右,这效率yyds!
首先你需要下载这个软件,可以点击原文获取,软件不太大,安装之后打开,界面如下图所示:
经过小小明大佬迭代改进,目前已经是V0.3版本了,这个软件的主要功能如下:
主要功能:
打开后,输入你想读取的用户的ID,即可查看他的公开文章,点进【Python进阶者】的主页看看,主页链接是:https://blog.csdn.net/pdcfighting,说明该用户的ID是pdcfighting。
为什么显示有1204篇文章却只缓存1137篇?这是因为文章标题文字完全一致的文章导致了覆盖。默认情况下勾选了缓存全部链接选项,此时点击读取链接时,会一次性逐页读取全部公开链接,并自动移动到最后一页。如果需要读取指定页,需要先取消勾选,然后输入需要读取的页面后,点击读取链接即可读取指定页。(每页100条链接)
注意:未登录状态下,不输入用户ID,直接读取链接将读取作者的文章链接。登录后,不输入用户ID,则读取登录用户的文章链接。输入ID的情况下,都以输入的ID为准。
这款软件本身也提供了从剪切板的cURL(Bash)命令字符串中解析出cookie进行操作。首先复制请求对应的cURL(Bash)命令,注意必须是bash版本,不要复制cmd版本:
之后点击菜单栏的小工具:
输入保存的文件名之后便在程序当前目录下保存了cookie文件。保存后,点击一下检查cookie之后,标题栏已显示当前登录的用户:
此时直接点击读取链接,就是读取自己的文章了。
之后点击批量导出文章
按钮,之后就开始批量导出了。
在本地也可以看到导出的html文件,如下图所示:
这样就完成了C站文章的全部导出。原本使用Markdown编辑器编辑的则导出Markdown,使用富文本编辑器编辑的文章则导出HTML。那有读者就郁闷了,这导出来大部分都是格式的,现在很多自媒体平台都是支持md格式的,那么怎么将富文本编辑器编辑的文章(即HTML格式)转换为Markdown格式呢?不要慌,问题不大,这里小小明大佬都给你安排上了。
转换之前,首先需要安装nodejs,下载地址https://nodejs.org/zh-cn/download/
,点击对应的自己电脑的版本下载安装即可,没啥难度。
接下来还需要下载下面的服务源码,可以点击阅读原文获取。
解压后,形式如下:
在解压的目录下执行命令:
node html2md.js
此时,我们的程序中就可以启动链接md转换服务了:
此时再点击批量导出,耗时与没有启动该服务时差不多,之后可以发现之前富文本编辑的文章都已转换为Markdown,如下图所示:
打开文件之后,发现几乎没啥失真的问题,简直太强了!
这篇文章基于小小明大佬开发的漫游者工具,顺利完成了C站上发布的历史文章批量导出备份,而且还实现了将富文本HTML格式文件顺利转换为Markdown格式文件,内容几乎不失真,可以同步到多个其他的自媒体平台,省时省心!
本文分享自 Python爬虫与数据挖掘 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!