Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Py无处不在,你真的感受到了?

Py无处不在,你真的感受到了?

作者头像
公众号guangcity
发布于 2019-09-20 03:32:42
发布于 2019-09-20 03:32:42
49500
代码可运行
举报
文章被收录于专栏:光城(guangcity)光城(guangcity)
运行总次数:0
代码可运行

Py无处不在,你真的感受到了?


0.前言1.图床我来了2.pdf我来了3.作者的话


今日知图

复制or粘贴

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 复制n行
nyy  例如复制10行 10yy 
# 粘贴
p

0.前言

好久没真真切切的用编程解决实际问题,我们通常是学,但是不会用,那么今天来学习一下,python在实际生活中的强大之处!特别是爬虫,哈哈~~~

之前承诺scrapy本周会发出一文,没问题,这周会发!本来打算用scrapy来写,结果发现scrapy写的太简单,真的,在scrapy中封装的要好,对于这节的学习,为了提高各位真正的编程与爬虫能力,我们不用框架,如果你需要框架scrapy来爬虫,可以留言,然后根据留言情况,适当将本节代码转为scrapy

ok,现在来说一下我的两个重要需求,也就是针对本文,放出两个重要实战!干货很多哦~~,嘿嘿~

第一需求来源于七牛云,我的博客用的图床是七牛云,然后七牛云为了号召国家响应,由于域名限制问题,你必须备案,所以七牛云就将之前的免费图床域名,变为测试域名,之前一直在想,免费的东西都用了这么久,什么时候收费啊,结果,就前两天,直接给我发了个邮件,提示你有一周时间,一周后,大家懂的,直接凉凉,所有图片404~~

看到这个消息后,非常震惊,当时有点小慌,但是机制的我,用python解决了这个问题。

给大家一句话:免费的永远是最贵的!!!

我又是怎么解决的呢?看后文留个疑惑!!

第二个需求来源于cs231n,我看到这个网站有很多pdf我需要下载,但是太多了,手动会点残,那么怎么办,总不能点一个下载一个吧,这也不符合我们程序员的风格。所以我又有了办法,看后面解决方案!

1.图床我来了

获取当前文件夹下所有的markdown文档

如下图所示是我的部分markdown文档,我们知道,当图床提供的url失效,那么所有图片404,这是个非常恐怖的问题,那么我该如何解决?

首先下载所有图片,七牛云提供了qshell命令工具,直接下载所有图片,非常爽,结果下来后,真的多,有450+的图片,如果放在每个markdown中,又得去找对应的文档以及450+个图片链接,手动修改,这个工作量太大了,所以我就用python实现替换所有markdown中的所有链接为新链接,这里将450+张图片存入了github上。后面再找其他的图床,如果有好的,留言一下~~

实战

首先获取文件夹下所有markdown文档!

这里通过os模块来解决!

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import os
def file_name(file_dir):
    file_list = []
    # 三元tupple(dirpath, dirnames, filenames)
    '''
    dirpath:string,代表目录的路径;
    dirnames:list,包含了当前dirpath路径下所有的子目录名字(不包含目录路径);
    filenames:list,包含了当前dirpath路径下所有的非目录子文件的名字(不包含目录路径)。
    '''
    for root, dirs, files in os.walk(file_dir):
        print(root)
        print(dirs)
        print("----")
        print(files)
        for file in files:
            print(os.path.splitext(file))
            if os.path.splitext(file)[1] == '.md':
                file_list.append(os.path.join(root, file))
    return file_list

替换

然后需要做的就是所有文件原地替换!

下面两个链接我全部打码了,运用到你们自己的情况直接替换调即可!

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def md_Link(file_list):
    for file in file_list:
        with open(file, 'r+', encoding='utf-8') as f:
            d = f.read()
            t = d.replace('http://xxxx.clouddn.com', 'https://raw.githubusercontent.com/xxxx/xxxx/xxx')
            f.seek(0, 0)
            f.write(t)

嗨皮,最终搞定~~~

2.pdf我来了

这里功能很明确,实现pdf全局下载!

下面这个布局大家很熟悉吧,很多网站的文件下载都是这样,那么也就意味着,只需要在我给的代码上稍作修改,便可以实现多个网站爬取

导包

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import requests
from urllib import request
from lxml import etree
import os
import re
import time

目标

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
base_url = 'http://cs231n.stanford.edu/slides/'

封装

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
class slides_Spider:
    def __init__(self):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
        }
        self.headers = headers

注:下面所有的代码都是在这个类封装下的方法!

获取选择器

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def get_Html(self,url):
    html = requests.get(url, headers=self.headers).text
    selector = etree.HTML(html)
    return selector

年份获取

对于这个网站,难点在哪?

没有反爬,这就非常简单了,难点在你的处理,这里给出一个高级用法:starts-with,我通过这个来定位所有的a标签,根据href属性,筛选出年份,直接以20开头的便满足条件!用法看代码!

然后我们要获取下一个页面的url,也就是跳转链接,那就是跟前面的base_url拼接就行!

最后这里为什么返回两个,而不是一个,原因是,我想要用年份这个list来当作数据的目录名,每个目录下面有多个pdf,予以区分开,更加自动化处理!

另一个返回则是跳转下一个页面的url!

输出格式:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
['2015/', '2016/', '2017/', '2018/']
['http://xxx/2015/', 'http://xxx/slides/2016/', ...]

实战:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def get_yearUrl(self,url):
    selector = self.get_Html(url)
    year_Href=selector.xpath('//a[starts-with(@href, "20")]/text()')
    # 得到每个url的text,为一个list
    print(year_Href)
    year_sildeHref = []
    # 每个url拼接,得到跳转年份的url
    for i in range(len(year_Href)):
        year_sildeHref.append(base_url+year_Href[i])
    print(year_sildeHref)
    return year_Href,year_sildeHref

获取所有pdf链接

这里直接调用上述的年份跳转链接,进入相应链接后,如下图,会有多个pdf,这个就是我们最终的目标,那么如何处理呢,这里通过筛选出pdf结尾的url,并予以拼接,那么就得到了完整的pdf链接,最终建立一个字典来将对应的年份对应多个pdf,输出格式为下面:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
{'2015': ['http://xxx/2015/xxx.pdf'...],'2016':[.....].....}

实战 :

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def get_AllUrl(self,url):
    year_Href,year_sildeHref = self.get_yearUrl(url)
    pdf_dict = {}
    for i in range(len(year_sildeHref)):
        pdf_list = []
        selector = self.get_Html(year_sildeHref[i])
        pdf_response = selector.xpath('//a[contains(@href,"pdf")]/text()')
         # 去掉2015后面的/
        year_Href[i] = year_Href[i].replace('/','')
        for j in pdf_response:
            pdf_list.append(year_sildeHref[i]+j)
        pdf_dict[year_Href[i]] = pdf_list

    print(pdf_dict)
    return pdf_dict

下载pdf

首先利用上面的字典key创建目录,然后循环遍历当前key所对应的list当中的每个url,然后下载,最终下载的文件名为url中后面xx.pdf形式!

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def downLoad_Pdf(self,url):
    pdf_dict = self.get_AllUrl(url)
    for key in pdf_dict:
        path = key
        if not os.path.exists(path):
            os.mkdir(path)
        else:
            print("目录已存在")
        print("---------"+ key +"年资料正在下载---------")
        for each in pdf_dict[key]:
            pdf_name = re.split('/', each)[-1]
            print(pdf_name)
            content = requests.get(each,headers=self.headers)
            with open(path+'/'+pdf_name, 'wb') as f:
                for chunk in content.iter_content(chunk_size=32):
                    f.write(chunk)
            time.sleep(2)
        print("---------" + key + "年资料下载完毕---------")
    print("---------下载完毕---------")

调用

调用上面方法!

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
s = slides_Spider()
allPdf_url = s.downLoad_Pdf(base_url)
print(allPdf_url)

结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光城 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
RabbitMQ 队列使用基础教程
https://www.rabbitmq.com/client-libraries/java-versions
授客
2024/11/21
2000
RabbitMQ 队列使用基础教程
RabbitMQ入门之HelloWorld
发送单个消息的生产者和接收消息并打印出来的消费者。 在下图中,“ P”是生产者,“ C”是消费者。中间的框是一个队列-RabbitMQ 代表使用者保留的消息缓冲区 创建 Maven 项目
兮动人
2021/07/21
2540
RabbitMQ入门之HelloWorld
RabbitMQ简单消息发送与接收
  这里将编写两个java程序。发送单个消息的生产者和接收消并打印出来的消费者。   在下图中,p是我们的生产者,c是我们的消费者。中间框是一个队列-RabbitMQ代表使用者保留的消息缓冲区。
别团等shy哥发育
2023/02/25
5980
RabbitMQ简单消息发送与接收
RabbitMQ 入门案例
在下图中,“ P” 是我们的生产者,“ C” 是我们的消费者。中间的框是一个队列 RabbitMQ 代表使用者保留的消息缓冲区
用户9615083
2022/12/25
4440
RabbitMQ 入门案例
rabbitMQ-simple 简单模式
1 导入依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchem
用户5927264
2019/08/01
2020
rabbitMQ-simple 简单模式
RabbitMq 笔记,一篇文章入门
默认的端口15672:rabbitmq管理平台端口号 默认的端口5672: rabbitmq消息中间内部通讯的端口 默认的端口号25672 rabbitmq集群的端口号
一写代码就开心
2022/05/09
7760
RabbitMq 笔记,一篇文章入门
RabbitMQ入门教程
MQ(Message Quene):翻译为消息队列,通过典型的生产者和消费者模型,生产者不断向消息队列中生产消息,消费者不断的从队列中获取消息。因为消息的生产和消费都是异步的,而且只关心消息的发送和接收,没有业务逻辑的侵入,轻松的实现系统间解耦。别名为消息中间件通过利用高效可靠的消息传递机制进行平台无关的数据交流,并基于数据通信来进行分布式系统的集成。
乐心湖
2020/07/31
1.1K0
RabbitMQ入门教程
RabbitMQ 消息队列入门
RabbitMQ,是个消息代理人message broker。它接收,存储,转发消息。
_淡定_
2020/04/23
8430
RabbitMQ 消息队列入门
RibbitMQ学习笔记之MQ练习
在本教程的这一部分中,我们将用 Java 编写两个程序。发送单个消息的生产者和接收消息并打印出来的消费者。我们将介绍 Java API 中的一些细节。
默 语
2024/11/20
800
RibbitMQ学习笔记之MQ练习
rabbitMQ---- >hello word
生产者代码 public class producer { public static final String QUEUE_NAME="hello"; public static void main(String[] args) throws IOException, TimeoutException { //创建工厂 ConnectionFactory factory = new ConnectionFactory(); //工
一个风轻云淡
2022/11/13
1380
rabbitMQ---- >hello word
RabbitMQ 系列(2) —— 用 java 连接 RabbitMQ
RabbitMQ 作为一个消息中间件,整体上采用了生产者与消费者模型,主要负责接收,存储和转发消息。
求和小熊猫
2020/12/16
1.2K0
RabbitMQ 系列(2) —— 用 java 连接 RabbitMQ
消息队列RabbitMQ核心:简单(Hello World)模式、队列(Work Queues)模式、发布订阅模式
消息队列RabbitMQ提供了六种工作模式:简单模式、work queues、发布订阅模式、路由模式、主题模式、发布确认模式。本文将介绍前三种工作模式。所有的案例代码都是使用Java语言实现。
百思不得小赵
2022/12/07
5880
消息队列RabbitMQ核心:简单(Hello World)模式、队列(Work Queues)模式、发布订阅模式
SpringBoot: RabbitMq队列之优先级
在我们系统中有一个订单催付的场景,我们的客户在天猫下的订单,淘宝会及时将订单推送给我们,如果在用户设定的时间内未付款那么就会给用户推送一条短信提醒,很简单的一个功能对吧,但是,tmall商家对我们来说,肯定是要分大客户和小客户的对吧,比如像苹果,小米这样大商家一年起码能给我们创造很大的利润,所以理应当然,他们的订单必须得到优先处理,而曾经我们的后端系统是使用 redis 来存放的定时轮询,大家都知道 redis 只能用 List 做一个简简单单的消息队列,并不能实现一个优先级的场景,所以订单量大了后采用 RabbitMQ 进行改造和优化,如果发现是大客户的订单给一个相对比较高的优先级,否则就是默认优先级。
Freedom123
2024/03/29
2820
SpringBoot: RabbitMq队列之优先级
RabbitMQ详解(二)------消息通信的概念
  说到消息通信,可能我们首先会想到的是邮箱,QQ,微信,短信等等这些通信方式,这些通信方式都有发送者,接收者,还有一个中间存储离线消息的容器。但是这些通信方式和我们要讲的 RabbitMQ 的通信模型是不一样的,比如和邮件的通信方式相比,邮件服务器基于 POP3/SMTP 协议,通信双方需要明确指定,并且发送的邮件内容有固定的结构。而 RabbitMQ 服务器基于 AMQP 协议,这个协议是不需要明确指定发送方和接收方的,而且发送的消息也没有固定的结构,甚至可以直接存储二进制数据,并且和邮件服务器一样,也能存储离线消息,最关键的是 RabbitMQ 既能够以一对一的方式进行路由,还能够以一对多的方式进行广播。
IT可乐
2018/07/24
8080
RabbitMQ详解(二)------消息通信的概念
最详解消息队列以及RabbbitMQ之HelloWorld
对消息队列进行技术选型时,需要通过以下指标衡量你所选择的消息队列,是否可以满足你的需求:
小熊学Java
2022/09/04
6070
RabbitMQ系列(一)Hello World
消息中间件:简单的说就是用来传输消息的中间载体,就是将你的信息发送到接受方,它并不关心发送的数据是什么。RabbitMQ就是一个消息中间件。
Jensen_97
2023/07/20
1540
RabbitMQ系列(一)Hello World
原 Mac下RabbitMq安装与测试教程
RabbitMq基础教程之安装与测试 Installing on Mac I. 安装 brew install rabbitmq ## 进入安装目录 cd /usr/local/Cellar/rabbitmq/3.7.5 # 启动 brew services start rabbitmq # 当前窗口启动 rabbitmq-server <!-- more --> 启动控制台之前需要先开启插件 ./rabbitmq-plugins enable rabbitmq_management 进入控制台:
一灰灰blog
2018/06/13
1.4K0
RabbitMQ 之简单队列
RabbitMQ是一个消息代理:它接受并转发消息。 您可以将其视为邮局:当您将要把寄发的邮件投递到邮箱中时,您可以确信Postman 先生最终会将邮件发送给收件人。 在这个比喻中,RabbitMQ是一个邮箱,邮局和邮递员,用来接受,存储和转发二进制数据块的消息。
海向
2019/09/23
4000
RabbitMQ 之简单队列
026. RabbitMQ 入门及消息分发机制
1. RabbitMQ 简介 ---- RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种客户端。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。 2. RabbitMQ 安装运行 ---- 1. 安装依赖环境 2. 安装 RabbitMQ 3. 启动和关闭 4. 开启 Web 管理插件 见后面的笔记。 5. 设置防火墙 3. RabbitMQ 基本配置 ---- RabbitMQ 端口 RabbitMQ 会绑定一些端口,安装完后,需要将这
山海散人
2021/03/03
6400
026. RabbitMQ 入门及消息分发机制
RabbitMQ 的 6 种工作模式
先以 java 应用程序的方式连接 RabbitMQ ,后期再考虑与 Spring Boot 整合工作。
啵啵肠
2023/11/17
3570
相关推荐
RabbitMQ 队列使用基础教程
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验