Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >实战:异步爬取之异步的简单使用

实战:异步爬取之异步的简单使用

作者头像
渔父歌
发布于 2018-09-26 10:43:31
发布于 2018-09-26 10:43:31
72400
代码可运行
举报
文章被收录于专栏:数据结构笔记数据结构笔记
运行总次数:0
代码可运行

一、使用异步的注意事项

  1. 异步代码中不能有耗时的 I/O操作,像文件读写、网络请求、数据库读写等操作都需要使用对应的异步库来代替。
  2. 异步代码要尽可能短小,短小的意思就是功能要尽可能细分,前面讲过异步在任务量较少的时候性能并不能达到最优,我们可以通过合理地拆分代码来增加任务量,从而达到提高性能的目的。

二、使用异步需要了解的两个重要的类

  1. AbstractEventLoop,我们可以把它简称为 EventLoop类或者事件循环。事件循环是整个异步的基础,所有的异步操作都在事件循环里完成。 这里我们需要了解并学会使用它的如下几个方法:
    • run_until_complete(Future) 该方法接受一个或多个 Future对象作为参数,然后运行这些对象直到全部完成并返回它们的结果
    • run_forever() 让事件循环一直运行下去,直到 stop() 方法被调用,当 stop() 方法被调用时,会继续执行完正在执行的任务,但是这些任务的回调和未被执行的任务将不再执行。
    • create_task()create_future() 光看名字可能大家会误以为这两个方法的功能是创建一个 Task类或者 Future类并将其返回,事实上这两个方法的功能确实包括这个,但是除此之外它们还会将创建的对象添加到事件循环中去。
  2. Future,Future对象类似于 JavaScript里的 Promise对象,简单来说就是该对象承诺未来的某个时候会返回一个结果,但是具体的时间是不确定的。 所以我们一般在回调函数里使用 Feture对象,因为这时候 Feture对象一定有返回结果。
    • add_done_callback(func) 这个方法为 Future对象添加一个回调函数,该函数接收一个 Future对象作为第一个参数,在函数里我们可以通过这个对象来取得其执行结果。
  3. 使用过 asyncio库的朋友可能会疑惑为什么没有 Task类,这是因为 Task 类是 Future 类的子类,我们可以将它们视作具有相同功能的两个类

三、使用异步的基本方法

首先,对于少量的请求(几百)我们不推荐使用异步,一般是成千上万的请求我们才使用异步,比如说爬取全站。

在同步代码中我们爬取的一般步骤是:请求页面---->解析页面---->获取结果---->保存结果

异步中也是类似的顺序,不过我们需要使用回调来确保它们按顺序执行,像下面这样:

请求页面---->回调:解析页面---->获取结果---->保存页面(异步)

比如我们要获取简书用户的关注列表,我们的代码顺序应该是:

请求页面---->回调:处理页面---->获取结果并打印,代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#-*- coding: utf-8 -*
import asyncio
import aiohttp
import random

from lxml import etree


PER_NUM = 9

async def get_response(url, **kwargs):
    if 'headers' not in kwargs:
        kwargs['headers'] = {
            'User-Agent': "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
        }

    async with session.get(url, **kwargs) as response:
        print(response.status)
        return await response.read()

def process_response(future):
    dom = etree.HTML(future.result())

    items = dom.xpath('//ul/li//div[@class="info"]')

    for item in items:
        user = {}

        user['uid'] = item.xpath('./a/@href')[0].split('/')[2]
        user['follow_num'] = int(item.xpath('./div/span[1]/text()')[0].replace('关注', '').strip())
        user['fans_num'] = int(item.xpath('./div/span[2]/text()')[0].replace('粉丝', '').strip())
        user['article_num'] = int(item.xpath('./div/span[3]/text()')[0].replace('文章', '').strip())

def entry_point(param):
    if isinstance(param, asyncio.Future):
        users = param.result()
    else:
        users = param

    for user in users:
        uid = user['uid']
        follow_num = user['follow_num']
        max_page = int(follow_num / PER_NUM) if (follow_num % PER_NUM) == 0 else int(follow_num / PER_NUM)+1
        following_urls = ['https://www.jianshu.com/users/{}/following?page={}'.format(uid, i) for i in
                          range(1, max_page+1)]

        for following_url in following_urls:
            task = loop.create_task(get_response(following_url))
            task.add_done_callback(process_response)


loop = asyncio.get_event_loop()
session = aiohttp.ClientSession(loop=loop)

users = [{'uid': 'a3ea268aeb60', 'follow_num': 525, 'fans_num': 2521, 'article_num': 118}]

entry_point(users)

loop.run_forever()

在段代码中我们通过 entry_point 函数来将所有的请求添加到事件循环中,并且为每个请求添加了一个回调函数来获取关注者的信息,示意图如下:

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.08.17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
实战:爬取简书之搭建程序框架
随机选择 ua,将下面这段代码单独放到一个文件中(user-agent太多了╯︿╰):
渔父歌
2018/09/28
3270
实战:爬取简书之搭建程序框架
用aiohttp和uvloop实现一个高性能爬虫
asyncio于Python3.4引入标准库,增加了对异步I/O的支持,asyncio基于事件循环,可以轻松实现异步I/O操作。接下来,我们用基于asyncio的库实现一个高性能爬虫。
周小董
2019/03/25
9220
用aiohttp和uvloop实现一个高性能爬虫
Python 异步爬虫原理解析及爬取实战
爬虫是 IO 密集型任务,比如我们使用 requests 库来爬取某个站点的话,发出一个请求之后,程序必须要等待网站返回响应之后才能接着运行,而在等待响应的过程中,整个爬虫程序是一直在等待的,实际上没有做任何的事情。
叶庭云
2022/05/08
8220
Python  异步爬虫原理解析及爬取实战
【Python3爬虫】使用异步协程编写爬
进程:进程是一个具有独立功能的程序关于某个数据集合的一次运行活动。进程是操作系统动态执行的基本单元。
py3study
2020/01/21
1.1K0
Python爬虫模拟登陆和异步爬虫
模拟登陆 使用超级鹰平台识别验证码的编码流程: 将验证码图片进行本地下载 调用平台提供的示例代码进行图片数据识别 有验证码,验证码可以读取到但测试未成功 # 验证码 import requests from lxml import html import chaojiying # 封装识别验证码函数 if __name__ == "__main__": headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win6
shaoshaossm
2022/12/26
4680
深入理解Python异步编程
对于其他的并发模型大多数采取的都是线性的方式编写。并且依赖于语言运行时系统或操作系统的底层线程或进程来适当地改变上下文,而基于asyncio的应用要求应用代码显示的处理上下文切换。 asyncio提供的框架以事件循环(event loop)为中心,程序开启一个无限的循环,程序会把一些函数注册到事件循环上。当满足事件发生的时候,调用相应的协程函数。
sergiojune
2019/05/07
2.3K0
aiohttp + asyncio 异步网络请求基本操作
作者:matrix 被围观: 3,714 次 发布时间:2019-11-26 分类:Python | 无评论 »
HHTjim 部落格
2022/09/26
9810
Python异步请求对大数量请求也太友好了,Python异步的复习
刚进入公司,由于对抓取这块比较有经验,然后刚好业务也是有一部分抓取的。于是我的任务就先是这些数据采集。 采用异步请求之后的效果:
SingYi
2022/07/13
3.6K1
Python异步请求对大数量请求也太友好了,Python异步的复习
Python 协程 asyncio 极简入门与爬虫实战
在了解了 Python 并发编程的多线程和多进程之后,我们来了解一下基于 asyncio 的异步IO编程--协程
刘早起
2022/09/21
1K0
异步(async)
Task用于并发调度协程,通过asyncio.create_task()的方式创建Task对象,我们可以添加多个任务在其中,当遇到io阻塞时,会去调用其他的任务执行。(python 3.7)
用户8442333
2021/05/17
1.3K0
异步编程
五一快乐呀(5.10日:对不起我卡住了太久),由于我玩了三天所以没怎么更新,我的干货也发完啦。现在开始学习新的东西了,异步编程,觉得有点儿难,有些东西理解不了,话说现在我的学习进度很慢,需要加快点速度了。
y191024
2022/09/20
6300
异步编程
送书 | 两百四十多万字,六百章的小说秒爬完
相信很多人喜欢在空闲的时间里看小说,甚至有小部分人为了追小说而熬夜看,那么问题来了,喜欢看小说的小伙伴在评论区告诉我们为什么喜欢看小说,今天我们手把手教你使用异步协程20秒爬完两百四十多万字,六百章的小说,让你一次看个够。
我被狗咬了
2021/09/24
5730
实战:异步爬取之初识异步
许多之前没有听说过异步地朋友可能看到标题地第一反应就是:什么是异步?为什么要用异步?
渔父歌
2018/09/26
7680
python进阶(17)协程「建议收藏」
协程(Coroutine),又称微线程,纤程。(协程是一种用户态的轻量级线程) 作用:在执行 A 函数的时候,可以随时中断,去执行 B 函数,然后中断B函数,继续执行 A 函数 (可以自动切换),但这一过程并不是函数调用(没有调用语句),过程很像多线程,然而协程只有一个线程在执行 通俗的理解:在一个线程中的某个函数,可以在任何地方保存当前函数的一些临时变量等信息,然后切换到另外一个函数中执行,注意不是通过调用函数的方式做到的,并且切换的次数以及什么时候再切换到原来的函数都由开发者自己确定
全栈程序员站长
2022/09/19
1.1K0
Python 最强异步编程:Asyncio
Asyncio异步编程的核心思想是让程序在等待I/O操作完成的同时,可以继续执行其他任务,从而提高资源利用率。这就好比一个厨师在炖菜的同时,开始准备沙拉,而不是煮一道菜时傻站着等待。通过合理安排,程序可以在单线程下高效完成诸多任务,从而达到"伪并行"的效果,提高了性能。
数据STUDIO
2024/07/24
1.3K0
Python 最强异步编程:Asyncio
【测试开发】python系列教程:asyncio模块
Python的asyncio模块是一个用于编写单线程并发代码的库,使用协程,多路复用IO以及其他技术。asyncio即Asynchronous I/O是python一个用来处理并发(concurrent)事件的包,是很多python异步架构的基础,多用于处理高并发网络请求方面的问题。
雷子
2023/09/12
3560
【测试开发】python系列教程:asyncio模块
Python爬虫学习笔记 asyncio+aiohttp 异步爬虫原理和解析
爬虫是 IO 密集型任务,比如如果我们使用 requests 库来爬取某个站点的话,发出一个请求之后,程序必须要等待网站返回响应之后才能接着运行,而在等待响应的过程中,整个爬虫程序是一直在等待的,实际上没有做任何的事情。
叶庭云
2020/09/17
3.9K0
Python爬虫学习笔记    asyncio+aiohttp 异步爬虫原理和解析
Python爬虫实战:单线程、多线程和协程性能对比
今天我要给大家分享的是如何爬取中农网产品报价数据,并分别用普通的单线程、多线程和协程来爬取,从而对比单线程、多线程和协程在网络爬虫中的性能。
叶庭云
2021/01/30
9860
爬虫速度太慢?来试试用异步协程提速吧!
在执行一些 IO 密集型任务的时候,程序常常会因为等待 IO 而阻塞。比如在网络爬虫中,如果我们使用 requests 库来进行请求的话,如果网站响应速度过慢,程序一直在等待网站响应,最后导致其爬取效率是非常非常低的。
崔庆才
2018/07/31
3K0
scrapy全站爬取
需求:爬取站长素材的高清图片的爬取https://sc.chinaz.com/tupian/
用户8447427
2022/08/18
7950
scrapy全站爬取
相关推荐
实战:爬取简书之搭建程序框架
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验