Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Ajax爬取街拍美女

Ajax爬取街拍美女

作者头像
stormwen
修改于 2019-10-24 11:32:36
修改于 2019-10-24 11:32:36
7530
举报
文章被收录于专栏:公众号:googpy公众号:googpy

阅读文本大概需要5分钟。

随着今日头条内部代码的不断升级改版,现在网上一些爬取今日头条街拍美图的代码显然不能适用,我利用周末的时间研究了一下如何用Ajax爬取今日头条街拍美图,今天就和大家分享一下这个项目。

背 景

有时候当我们用requests抓取页面时,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用requests得到的结果并没有。

这是因为requests获取的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的结果,这些数据的来源有多种,可能是通过Ajax加载的,可能是包含在HTML文档中的,也可能是经过JavaScript和特定算法计算后生成的。

因此,如果遇到这样的页面,我们再用requests等库是无法获取得到有效数据的,这时需要分析网页后台接口发送的Ajax请求,如果可以用requests来模拟Ajax请求,那么就可以成功抓取了。

1.什么是Ajax

Ajax,全称为Asynchronous JavaScriptand XML,即异步的JavaScript和XML。它不是一门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。

下面就让我们用一个实例来学习一下Ajax在数据爬取中的应用吧。

2.分析Ajax爬取今日头条街拍美图

(1)目标

这次要抓取的目标是今日头条的街拍美图,抓取完成后,将每组图片分文件夹下载到本地并保存下来。

(2)准备工作

在本项目开始之前,请确保已经安装好requests库,如果没有安装,可以用pip命令安装。

(3)抓取分析

打开今日头条的首页http://www.toutiao.com/,页面右上角有一个搜索入口,在这里输入“街拍”进行搜索,如下图所示;

打开开发者工具(F12),查看所有的网络请求。因为Ajax其实有其特殊的请求类型,它叫做xhr。在下图中,我们可以发现一个请求,其Type为xhr,这就是一个Ajax请求,用鼠标点击这个请求,就可以查看这个请求的详细信息。

然后点击右侧的Preview中的data字段展开,发现这里有许多条数据,点击第一条展开,可以发现一个title字段,它的值正好就是页面中第一条数据的标题。再检查一下其他数据,也是一一对应的,如下图所示。

data字段中的每条数据还有一个image_detail字段,它是列表形式,这其中就包含了组图的所有图片列表,我们只需要将列表中的url字段提取出来并下载下来就好了。每一组图都建立一个文件夹,文件夹的名称就为组图的标题。

(4)分析请求

切换到Headers选项卡,观察一下它的请求URL和Headers信息,如图所示。

可以看到,这是一个GET请求,请求URL的参数有offest、format、keyword、autoload、count和cur_tab。我们需要找出这些参数的规律,因为这样才可以方便地用程序构造出来。

这里观察一下后续链接的参数,发现变化的参数只有offset,其他参数都没有变化,而且第二次请求的offset值为20,第三次为40,第四次为60,所以可以发现规律,这个offset值就是偏移量,进而可以推断出count参数就是一次性获取的数据条数。因此,我们可以用offset参数来控制数据分页

(5)代码实现

首先,定义方法get_page()来加载单个Ajax请求的结果。其中唯一变化的参数就是offset,所以我们将它当作参数传递,代码如下:

然后,在定义一个解析方法:提取每条数据的image_detail字段中的每一张图片链接,将图片链接和图片所属的标题一并返回,此时可以构造一个生成器,代码如下:

接着,定义一个方法保存图片。该方法中,要根据item的title来创建文件夹,然后请求这个图片的链接,获取图片的二进制数据,以二进制的形式写入文件。代码如下:

最后,只需要构造一个offset数组,遍历offset,提取图片链接,并将其下载即可,代码如下:

(6)结果展示

整个程序运行之后,可以发现街拍美图都分文件夹保存了下来,如图所示。

3.总 结

通过这个项目,我们可以了解Ajax分析的流程、Ajax分页的模拟以及图片的下载过程。按照web发展趋势来看,网页的原始HTML文档不会包含任何数据,数据都是通过Ajax统一加载而后再呈现出来的,所以我们需要熟练掌握Ajax数据爬取。后台回复「街拍」便可以获得项目的源码。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 googpy 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
UI自动化 --- 微软UI Automation
无论是接口自动化测试,还是UI自动化测试,目的就是为了提高产品的稳定性,保证用户体验。
Niuery Diary
2023/10/22
1.5K0
UI自动化 --- 微软UI Automation
WPF 使用 Silk.NET 进行 DirectX 渲染入门
本文告诉大家如何使用 dotnet 基金会新开源的 Silk.NET 库调用 DirectX 进行渲染的方法。此库是对 DirectX 的底层基础封装,用上了 dotnet 和 C# 的各个新特性,相对来说基础性能较好,也许后续可以考虑作为 SharpDx 的代替
林德熙
2021/12/27
3.2K0
WPF 使用 Silk.NET 进行 DirectX 渲染入门
WPF 渲染原理
在 WPF 最主要的就是渲染,因为 WPF 是一个界面框架。想用一篇博客就能告诉大家完整的 WPF 渲染原理是不可能的。本文告诉大家 WPF 从开发者告诉如何画图像到在屏幕显示的过程。本文是从一个很高的地方来看渲染的过程,在本文之后会添加很多博客来告诉大家渲染的细节。
林德熙
2018/09/19
3K0
WPF 渲染原理
扫描仪对接(C#)
源代码地址:http://www.codeproject.com/Articles/171666/Twain-for-WPF-Applications-Look-Ma-No-Handles
码客说
2022/09/19
4.9K0
扫描仪对接(C#)
dotnet 读 WPF 源代码笔记 启动欢迎界面 SplashScreen 的原理
本文是我在读 WPF 源代码做的笔记。在 WPF 中的启动界面,为了能让 WPF 的启动界面显示足够快,需要在应用的 WPF 主机还没有启动完成之前就显示出启动图,此时的启动图需要自己解析图片同时也需要自己创建显示窗口
林德熙
2020/12/22
1.2K0
WPF 源代码 从零开始写一个 UI 框架
需要知道 WPF 是一个 UI 框架,作为一个 UI 框架,最主要的就是交互。也就是 UI 框架需要有渲染显示和处理用户输入的功能。 如果直接告诉大家 WPF 里面有哪些类,估计没有几位小伙伴会听下去,要么就是讲的类太简单,看过去我也就知道了,要么就是这个类可能我一直都不会用到他,即使可能会用到也早就忘了。 本文不会直接告诉大家 WPF 的源代码是如何写的,而是从零开始一起来写一个 UI 框架,在写的过程就会了解到为什么 WPF 可以这样写,为什么需要这样写,和 WPF 这样写的好处。 本文适合 WPF 的开发者同样也适合其他语言希望自己写一个 UI 框架的小伙伴。
林德熙
2019/03/13
3.9K2
WPF 源代码 从零开始写一个 UI 框架
WPF 模拟 WPFMediaKit 的 D3D 配置用来测试4k性能
本文告诉大家我在测试 WPFMediaKit 的 D3D 配置性能影响在 4k 分辨率设备下采用高清摄像头的性能
林德熙
2021/12/23
1.1K0
WPF 使用GDI+提取图片主色调并生成Mica材质特效背景
TwilightLemon/MicaImageTest: WPF 使用GDI+提取图片主色调并生成Mica材质特效背景
郑子铭
2025/07/02
420
WPF 使用GDI+提取图片主色调并生成Mica材质特效背景
WPF写的取色器
昨天有个小伙子,在找取色器工具。我说,这个应该开发起来很简单,于是,摸了大约半个钟的鱼,开发了一个。现在我把源码和操作案例发出来,供有需要的大佬们玩。(功能过于单一和简单,但是能用)
Wesky
2024/08/13
1500
WPF写的取色器
(五十一)c#Winform自定义控件-文字提示
GitHub:https://github.com/kwwwvagaa/NetWinformControl
冰封一夏
2019/09/09
1.2K0
(五十一)c#Winform自定义控件-文字提示
用 WPF 写的颜色拾取器
之前都是用别人的颜色拾取器,今天自己用WPF写了一个颜色拾取器小程序 拾取鼠标所在位置的颜色,按键盘上的空格键停止取色 程序下载:MyWPFScreenColorE.rar 程序里面有一个全局的勾子
lpxxn
2018/01/31
1.5K0
用 WPF 写的颜色拾取器
【NEW】WPF MVVM 模式下自写自用的窗口样式
SVG是一种图形文件格式,它的英文全称为Scalable Vector Graphics,意思为可缩放的矢量图形。它是基于XML(Extensible Markup Language),由World Wide Web Consortium(W3C)联盟进行开发的。严格来说应该是一种开放标准的矢量图形语言,可让你设计激动人心的、高分辨率的Web图形页面。用户可以直接用代码来描绘图像,可以用任何文字处理工具打开SVG图像,通过改变部分代码来使图像具有交互功能,并可以随时插入到HTML中通过浏览器来观看。
Shunnet
2022/09/01
2.5K0
【NEW】WPF MVVM 模式下自写自用的窗口样式
【C#】分享一个可携带附加消息的增强消息框MessageBoxEx
--------------201806111122更新---------------
AhDung
2018/09/13
2.1K0
【C#】分享一个可携带附加消息的增强消息框MessageBoxEx
基于Python+uiautomation的windowsGUI自动化测试概述
一直使用Python做自动化测试,近期遇到了要对桌面端软件即windowsGUI进行自动化测试。Python的GUI自动化测试工具有很多,但是都有不同的侧重点。本次会详细说明为啥选择uiautomation来做测试。
虫无涯
2023/02/02
4.2K0
【WPF】Toolkit(一个项目)的要点总结
读取系统的显示语言(displayLanguage),显示语言的定义是:假如你的系统现在是中文的,你把它切换到了英文,但是英文的语言包并没有下载下来或者并没有将英文设置为显示语言,那么注销系统再登录之后,你系统显示的将还是中文。此时中文就是显示语言。
全栈程序员站长
2022/11/11
7710
浅析鸿蒙 JavaScript GUI 技术栈
众所周知,刚刚开源的「鸿蒙 2.0」以 JavaScript 作为 IoT 应用开发的框架语言。这标志着继 SpaceX 上天之后,JavaScript 再一次蹭到了新闻联播级的热点。这么好的机会,只拿来阴阳怪气实在太可惜了。作为科普,这篇文章不会拿着放大镜找出代码中的槽点来吹毛求疵,而是希望通俗地讲清楚它所支持的 GUI 到底是怎么一回事。只要对计算机基础有个大概的了解,应该就不会对本文有阅读上的障碍。
zz_jesse
2020/09/17
1.9K0
浅析鸿蒙 JavaScript GUI 技术栈
DirectX 使用 Vortice 从零开始控制台创建 Direct2D1 窗口修改颜色
本文将告诉大家如何使用 Vortice 底层库从零开始,从一个控制台项目,开始搭建一个最简单的使用 Direct2D1 的 DirectX 应用。本文属于入门级博客,期望本文能让大家了解 Vortice 底层库是可以如何调用 DirectX 的功能,以及了解 DirectX 中,特别是 D2D 部分的初始化逻辑
林德熙
2023/04/07
1.3K0
DirectX 使用 Vortice 从零开始控制台创建 Direct2D1 窗口修改颜色
SDL2来源分析3:渲染(SDL_Renderer)
=====================================================
全栈程序员站长
2022/07/06
3.4K0
SDL2来源分析3:渲染(SDL_Renderer)
CImage 类
CImage 提供增强的位图支持,包括加载和保存采用 JPEG、GIF、BMP 和可移植网络图形格式的图像 (PNG) 格式。
全栈程序员站长
2022/09/07
3.6K0
WPF 从裸 Win 32 的 WM_Pointer 消息获取触摸点绘制笔迹
本文将告诉大家如何在 WPF 里面,接收裸 Win 32 的 WM_Pointer 消息,从消息里面获取触摸点信息,使用触摸点信息绘制简单的笔迹
林德熙
2024/09/01
2640
WPF 从裸 Win 32 的 WM_Pointer 消息获取触摸点绘制笔迹
相关推荐
UI自动化 --- 微软UI Automation
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档