产品KOL

Python爬虫之路

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

在毕业设计中，用Java写下了第一个爬虫。2019年工作之后，从Python的requests原生爬虫库，学到分布式爬虫框架Scrapy，写了60个左右爬虫。然后写了十几篇有关于爬虫的文章。但大多都是围绕着程序设计、功能模块的角度写的，今天就从数据的角度出发，来看看爬虫程序是如何开发的。

3700字！爬虫数据清洗已经不重要了，我这样的爬虫架构，如履薄冰

双十一到了，如何在平台上搜索自己想要商品的价格信息，实现快速的比价，这就利用到我们学到的爬虫知识。本篇文章主要是对JD商品的一个价格获取，文中涉及的代码仅做学习和爬虫工具功能演示。

实现JD用户自动登录，自动化搜索并爬取商品价格

18年初，还在实习期的我因为工作需求开始接触Java爬虫，从一个网站爬取了163W条poi数据，这是我人生中写的第一个爬虫，也是唯一的一个Java爬虫。后来这些poi数据也成了我毕业设计中的一部分。后来开始学习Python爬虫以及爬虫框架Scrapy，尤其是Scrapy，前前后后研究了一个多月，并利用Scrapy构建了千万级数据的ICA(互联网内容识别)资源库。

爬虫入门到放弃01：什么是爬虫

一个简单的爬虫程序主要分为两个部分，请求部分和解析部分。请求部分基本一行代码就可以搞定，所以主要来讲述一下解析部分。对于解析，最常用的就是xpath和css选择器，偶尔也会使用正则表达式。

爬虫入门到放弃02：BS4和Xpath两种方式解析网页

上一篇文章主要讲了如何解析网页，本篇文章主要来写一下如何发起请求。可能看过前两篇文章的人就开始疑惑了，请求？你不是说一行代码就可以搞定了么。的确，一行代码就能搞定。但是请求部分既然扮演着浏览器的角色，我们是不是应该尽量让它变得和浏览器一样。而我在第一篇文章中也讲到，爬虫是模拟人的行为去获取数据。那么我们就需要知道，一个人去访问网站有什么样的行为？爬虫怎么去模拟人的行为？

爬虫入门到放弃03：爬虫如何模拟人的浏览行为

我们身处大数据时代，数据趋于透明化、公开化，我们是否就可以拿着数据为所欲为？几年前很多人向往着"车厘子自由"，同样在也有很多人也追求着技术自由。时至今日，我们可以在合法的范围内自由应用技术，那么对于爬虫的合法化，到底有哪些的法律可以来界定？

爬虫入门到放弃04：爬虫=犯罪？对不起，我对钱没有兴趣！

上篇文章吧啦吧啦讲了一些有的没的，现在还是回到主题写点技术相关的。本篇文章作为基础爬虫知识的最后一篇，将以爬虫程序的模块设计来完结。

爬虫入门到放弃05：从程序模块设计到代理IP池

爬虫的基本知识已经告一段落，这次就找个网站实战一波。但是为什么选择了基金？这还要从我的故事讲起。

爬虫入门到放弃06：爬虫玩转基金（附代码）

如果再说IP请求次数检测、验证码这种最常见的反爬虫技术，可能大家听得耳朵都出茧子了。当然，也有的同学写了了几天的爬虫，觉得爬虫太简单、没有啥挑战性。所以特地找了三个有一定难度的网站，希望可以有兴趣的手动实践一下。

爬虫入门到放弃07：eval加密、js函数混淆、字体加密

在写了七篇爬虫基础文章之后，终于写到心心念念的Scrapy了。Scrapy开启了爬虫2.0的时代，让爬虫以一种崭新的形式呈现在开发者面前。

Scrapy入门到放弃01：为什么Scrapy开启了爬虫2.0时代

Scrapy开门篇写了一些纯理论知识，这第二篇就要直奔主题了。先来讲讲Scrapy的架构，并从零开始开发一个Scrapy爬虫程序。

Scrapy入门到放弃02：了解整体架构，开发一个程序

代码未动，配置先行。本篇文章主要讲述一下Scrapy中的配置文件settings.py的参数含义，以及如何去获取一个爬虫程序的运行性能指标。

Scrapy入门到放弃03：理解Settings配置，监控Scrapy引擎

MiddleWare，顾名思义，中间件。主要处理请求（例如添加代理IP、添加请求头等）和处理响应

Scrapy入门到放弃04：下载器中间件，让爬虫更完美

本来这篇是打算写Spider中间件的，但是因为这一块涉及到Item，所以这篇文章先将Item讲完，顺便再讲讲Pipeline，然后再讲Spider中间件。

Scrapy入门到放弃05：让Item在Pipeline飞一会

写一写Spider中间件吧，都凌晨了，一点都不想写，主要是也没啥用...哦不，是平时用得少。因为工作上的事情，已经拖更好久了，这次就趁着半夜写一篇。

Scrapy入门到放弃06：Spider中间件

上一篇的枯燥无味，这一篇来还。写到插件篇了，终于能写点有意思的东西了，接下来就基本用法和插件篇来穿插着写一写。

Scrapy入门到放弃07：爬虫的远程启停、监控

很多时候，爬虫程序跑着跑着，因为网络故障或者程序异常就宕掉了。无奈之下只能重启重新爬取。为了避免这种每次重头再来的情况，我们都会利用mysql、redis、文本等方式，来记录一下爬取过的url。

Scrapy08：Deltafetch，让爬虫有了记忆

AI的发展日新月异，及时掌握一些AI的消息和妹子聊天时也不至于词穷（不建议和妹子聊技术）。

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了Python爬虫之路专栏，为你提供了Python爬虫之路的相关文章，致力于帮助开发者快速成长与发展。

Python爬虫之路

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐