首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python+shell 备份 CSDN 博客文章,CSDN博客备份工具

python+shell 备份 CSDN 博客文章,CSDN博客备份工具 在 csdn 写了几年的博客了。多少也积累了两三百篇博文,近日,想把自己的这些文章全部备份下来,于是开始寻找解决方案。...csdn 的每篇博文都有独立的 ID 因此,我们需要把所有的 ID 都找出来。...搞到所有文章的ID 这个会有很多种方法,我直接通过爬取我的博客首页,来拿到所有的文章 ID。...分析一下我的博客的首页列表,我们可以看到这样的 url 格式 https://blog.csdn.net/fungleo/article/list/2。...下载博客文章的所有的 json 数据 我通过分析博客的编辑器,顺利找到了一个接口,其结果如下: ? 这个接口,实在是太完美了。下面,我就要把这些全部下载下来。

52660
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python爬虫抓取csdn博客

    Python爬虫抓取csdn博客         昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。...由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使用频繁会被封ip的,但可以使用代理ip。...qq.com ''' import urllib2 import re from bs4 import BeautifulSoup import random import time class CSDN_Blog_Spider...')           req.add_header('Accept','*/*')           req.add_header('Referer','http://blog.csdn.net/...break                time.sleep(10) #url = input('请输入CSDN博文地址:') url = "http://blog.csdn.net/mangoer_ys

    89410

    Python生成CSDN博客分享图

    Python生成CSDN博客分享图 一、前言 我们分享博客的方式有很多种,最常见的无非就是分享链接。或者是编辑一条消息,写上标题链接等东西。但是这种方式都不够直观,相比之下图片的方式要更引人注目。...CSDN移动端提供了分享图的功能,但是展示的内容是固定的,所以我就想到用Python自己生成分享图。本文只是技术分享,所以在效果上没有下太多功夫,生成的图片比官方是要丑得多,还需包含。...二、爬取信息 我们要生成博客分析图,就需要先获得一些信息,像是作者的名字,头像,文章的摘要等。...这就需要使用到爬虫了,先选取本人的一篇博客:学会这些Python美图技巧,就等着女朋友夸你吧,我们在浏览器打开,右击检查就可以看到下图: ?...于是我们就可以用下面代码分析出摘要: import requests from bs4 import BeautifulSoup # 要生成分享图的博客地址 url = 'https://blog.csdn.net

    56221

    python+shell 备份 csdn 博客文章

    python+shell 备份 csdn 博客文章3 备份图片 前面,我们将所有的博客文章全部备份下来了。但是,博客当中的那些图片,还是散落在各处。...有的在第三方的网站上,有的在 CSDN 的服务器上,有的直接引用的其他地方的图片。...备份图片的整体思路 通过循环每一个博客文章文档的每一行内容,查找所有的图片路径,并保存为字典。...再一次循环博客文章的每一行内容,通过上一步匹配的字典,将原有的图片路径替换为更新后的路径。 任何一个复杂的问题,我们认真分析后都能够解决。 查找所有图片路径脚本 #!...fp: res.append(fp) for i in res: saveImg(i) findMdFile() 好,通过上面的脚本,我顺利的将所有博客文章中的图片路径全部替换为新的图片路径

    46670

    探索CSDN博客数据:使用Python爬虫技术

    探索CSDN博客数据:使用Python爬虫技术 在数字化时代,数据的获取和分析变得越来越重要。作为一名程序员或数据分析师,我们经常需要从各种在线平台抓取数据以进行进一步的分析或学习。...CSDN作为中国最大的IT社区和服务平台,拥有大量的技术博客和文章,是一个丰富的数据源。...本文将介绍如何使用Python的requests和pyquery库来爬取CSDN博客的信息,并进行简单的数据处理。...可以通过pip安装这些库: pip install requests pyquery 爬虫代码解析 下面是一个简单的Python脚本,用于爬取CSDN博客的信息: import requests from...通过这个简单的爬虫脚本,你可以轻松地获取CSDN博客的数据,进行进一步的分析或学习。这只是一个基础的示例,你可以根据需要扩展和优化脚本。

    10310

    requests+pyquery爬取csdn博客信息

    突然闲来无事想要爬取csdn博客,顺便温习下相关技术点。 爬取目标 以我的csdn主页为例 ?...爬取的主要的数据已经在上用红线图标出来了,主要可分为两部分 所有博客的八个统计数据,原创的博客数、你的粉丝数、博客获得的赞、博客的评论数、博客等级、访问量、积分和排名 每篇博客的具体信息,如标题、发布时间...csdn网站虽然是一个技术性博客,但是貌似它的反爬措施做的不那么优秀,举个例子,我在分析网页结构的过程中发现它的评论数不是通过Ajax动态渲染的,而新浪新闻做到了这一点,也许是因为新闻类的实时性要求较高而技术博客类没这个必要吧.../tree/master/csdn 同时可以关注我的csdn爬虫专栏: https://blog.csdn.net/ygdxt/column/info/30335 感谢支持!...page_num = 1 account = str(input('print csdn id:')) #account = "ygdxt" # 首页地址 baseUrl = 'http://blog.csdn.net

    78720
    领券