前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >手把手教你用漫游者工具导出你在C站发布的文章并生成.md文件

手把手教你用漫游者工具导出你在C站发布的文章并生成.md文件

作者头像
Python进阶者
发布2021-12-15 16:51:45
8120
发布2021-12-15 16:51:45
举报
文章被收录于专栏:Python爬虫与数据挖掘

前言

前几天在转载小小明大佬C站(CSDN)的文章的时候,遇到了一个头大的事情,一开始我都是去他的C站上找到对应的文章,之后挨个复制粘贴到我的公众号后台,后来我发现他的文章写得很肝,动则几千字,上万字,干货满满,挨个复制粘贴的我累的发慌,整理一篇文章半个小时左右。正在头大之时,小小明大佬给我丢来一个他自己开发的漫游者工具,专门用于导出C站的文章,我直呼好家伙,有了这个工具,我整理一篇文章5分钟左右,这效率yyds!

软件介绍

首先你需要下载这个软件,可以点击原文获取,软件不太大,安装之后打开,界面如下图所示:

经过小小明大佬迭代改进,目前已经是V0.3版本了,这个软件的主要功能如下:

主要功能:

  1. 阅读指定用户的文章
  2. 对缓存文章列表快速搜索
  3. 导出文章链接列表 (支持txt,csv和tsv三种格式,含发布时间,阅读数,点赞数 和 评论数)
  4. 快速复制标题和链接
  5. 原生批量导出自己的文章(Markdown和富文本均可导出;支持对接富文本批量转Markdown服务;支持私密文章导出;支持按发布年月分组导出;支持仅导出搜索结果;分组导出包含明细统计) 功能十分的丰富,基于我自己的需求,这里我只需要使用第五个功能,批量导出自己的文章,下面一起来看看吧!

使用教程

1)阅读文章

打开后,输入你想读取的用户的ID,即可查看他的公开文章,点进【Python进阶者】的主页看看,主页链接是:https://blog.csdn.net/pdcfighting,说明该用户的ID是pdcfighting。

为什么显示有1204篇文章却只缓存1137篇?这是因为文章标题文字完全一致的文章导致了覆盖。默认情况下勾选了缓存全部链接选项,此时点击读取链接时,会一次性逐页读取全部公开链接,并自动移动到最后一页。如果需要读取指定页,需要先取消勾选,然后输入需要读取的页面后,点击读取链接即可读取指定页。(每页100条链接)

注意:未登录状态下,不输入用户ID,直接读取链接将读取作者的文章链接。登录后,不输入用户ID,则读取登录用户的文章链接。输入ID的情况下,都以输入的ID为准。

2)快速输入cookie

这款软件本身也提供了从剪切板的cURL(Bash)命令字符串中解析出cookie进行操作。首先复制请求对应的cURL(Bash)命令,注意必须是bash版本,不要复制cmd版本:

之后点击菜单栏的小工具:

输入保存的文件名之后便在程序当前目录下保存了cookie文件。保存后,点击一下检查cookie之后,标题栏已显示当前登录的用户:

此时直接点击读取链接,就是读取自己的文章了。

3)批量导出自己的文章

之后点击批量导出文章按钮,之后就开始批量导出了。

在本地也可以看到导出的html文件,如下图所示:

这样就完成了C站文章的全部导出。原本使用Markdown编辑器编辑的则导出Markdown,使用富文本编辑器编辑的文章则导出HTML。那有读者就郁闷了,这导出来大部分都是格式的,现在很多自媒体平台都是支持md格式的,那么怎么将富文本编辑器编辑的文章(即HTML格式)转换为Markdown格式呢?不要慌,问题不大,这里小小明大佬都给你安排上了。

4)HTML格式文档转Markdown格式

转换之前,首先需要安装nodejs,下载地址https://nodejs.org/zh-cn/download/,点击对应的自己电脑的版本下载安装即可,没啥难度。

接下来还需要下载下面的服务源码,可以点击阅读原文获取。

解压后,形式如下:

在解压的目录下执行命令:

代码语言:javascript
复制
node html2md.js

此时,我们的程序中就可以启动链接md转换服务了:

此时再点击批量导出,耗时与没有启动该服务时差不多,之后可以发现之前富文本编辑的文章都已转换为Markdown,如下图所示:

打开文件之后,发现几乎没啥失真的问题,简直太强了!

总结

这篇文章基于小小明大佬开发的漫游者工具,顺利完成了C站上发布的历史文章批量导出备份,而且还实现了将富文本HTML格式文件顺利转换为Markdown格式文件,内容几乎不失真,可以同步到多个其他的自媒体平台,省时省心!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫与数据挖掘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 软件介绍
  • 使用教程
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档