Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python大神利用正则表达式教你搞定京东商品信息

Python大神利用正则表达式教你搞定京东商品信息

原创
作者头像
Python进阶者
修改于 2021-08-23 10:38:26
修改于 2021-08-23 10:38:26
5780
举报

京东(JD.com)是中国最大的自营式电商企业,2015年第一季度在中国自营式B2C电商市场的占有率为56.3%。如此庞大的一个电商网站,上面的商品信息是海量的,小编今天就带小伙伴利用正则表达式,并且基于输入的关键词来实现主题爬虫。

首先进去京东网,输入自己想要查询的商品,小编在这里以关键词“狗粮”作为搜索对象,之后得到后面这一串网址:https://search.jd.com/Search?keyword=%E7%8B%97%E7%B2%AE&enc=utf-8,其实参数%E7%8B%97%E7%B2%AE解码之后就是“狗粮”的意思。那么非常明显,只要输入keyword这个参数之后,将其进行编码,就可以获取到我们的目标网址了,请求网页,得到响应,尔后利用选择器便可以进行下一步的精准采集了。

在京东网上,狗粮信息在京东官网上的网页源码如下图所示:

狗粮信息在京东官网上的网页源码

话不多说,直接撸代码,如下图所示。小编用的是py3,也建议大家以后多用py3版本。通常URL编码的方式是把需要编码的字符转化为%xx的形式,一般来说URL的编码是基于UTF-8的,当然也有的于浏览器平台有关。在Python的urllib库中提供了quote方法,可以实现对URL的字符串进行编码,从而可以进入到对应的网页中去。

正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),是一种可以用于模式匹配和替换的强有力的工具。找到目标网页之后,调用urllib中的urlopen函数打开网页并获取源码,之后利用正则表达式实现对目标信息的精准采集。

利用正则表达式实现对目标信息的精准采集

正则表达式写在这个程序中确实蛮复杂的,也占据了多行,但是主要用到的正则表达式是[\w\W]+?和[\s\S]+?。

[\s\S]或者[\w\W]是完全通配的意思,\s是指空白,包括空格、换行、tab缩进等所有的空白,而\S刚好相反。这样一正一反下来,就表示所有的字符,完全的,一字不漏的。另外,[]这个符号,表示在它里面包含的单个字符不限顺序的出现,比如下面的正则:[ace]*,这表示,只要出现a/c/e这三个任意的字母,都会被匹配。

此外,[\s]表示,只要出现空白就匹配;[\S]表示,非空白就匹配。那么它们的组合,表示所有的都匹配,与它相对应的,有[\w\W]等,意义完全相同。其实,[\s\S] 和 [\w\W]这样的用法,比"."所匹配的还要多,因为"."是不会匹配换行的,所有出现有换行匹配的时候,人们就习惯 使用[\s\S]或者[\w\W]这样的完全通配模式。

最后得到的输出效果图如下所示:

输出效果图

这样小伙伴们就可以获取到狗粮的商品信息了,当然,小编在这里只是抛砖引玉,只匹配了四个信息,而且只是做了个单页的获取。需要更多数据的小伙伴们可以自行去更改正则表达式和设置多页,达到你想要的效果。下篇文章小编将利用美丽的汤BeautifulSoup来进行匹配目标数据,实现目标信息的精准获取。

最后给大家简单介绍一下正则表达式。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。

正则表达式对于初学者确实晦涩难懂,不过慢慢学习还是可以掌握的,并不一定要完全记下来,但是你要知道什么时候需要什么参数,能做到顺利使用它就可以了。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
塑壳断路器的4P3D,D究竟是什么意思?断路器标识与中性线保护动作值详解
在电气系统中,断路器是一种重要的保护设备,用于隔离故障电路并防止设备损坏或火灾发生。断路器的标识通常包含其极数和是否具备特定的保护功能。
自动化大师
2024/08/14
6350
塑壳断路器的4P3D,D究竟是什么意思?断路器标识与中性线保护动作值详解
国网单相表方案分享|基于钜泉的HT6015和HT7017原理图和BOM
钜泉计量产品主要有三相计量系列、单相计量系列、单相SOC系列、单三相物联网表计量芯,电能计量芯片在国内市场的占有率近50%,其中三相计量系列HT7032/ATT7022E/HT7036出货量超过1亿颗,国网三相市场份额80%,终端份额90%。Arm系列MCU系列HT60XX出货量超过1亿颗,国网单相主控份额40%,三相主控份额60%。
ousemi
2024/10/06
3691
国网单相表方案分享|基于钜泉的HT6015和HT7017原理图和BOM
据说能看懂这75张电路图,月薪都拿2W+
今天为大家整理了一些各类电气控制接线图、电子元件工作原理图,还有可控硅整流电路及负反馈调速装置原理等等,希望对大家的工作有所帮助,一起来了解一下吧。
AI 电堂
2023/02/23
9710
据说能看懂这75张电路图,月薪都拿2W+
低压无功补偿电容柜浅谈
合上刀熔开关和断路器,无功功率补偿控制器根据进线柜电压和电流的相位差输出控制信号,控制交流接触器闭合和断开,从而控制电容器投入和退出。
全栈程序员站长
2022/09/02
1.3K0
低压无功补偿电容柜浅谈
还傻傻的认为电机与电动机没有区别?
什么是电机   电机(英文:Electric machinery,俗称“马达”)是指依据电磁感应定律实现电能转换或传递的一种电磁装置。   电机在电路中是用字母M(旧标准用D)表示,它的主要作用是产生
机器人网
2018/04/24
7410
还傻傻的认为电机与电动机没有区别?
【低压电工证】理论考试技巧
一、开关接相线,暗装,落地插座有盖板。
謓泽
2023/12/11
1.2K0
【低压电工证】理论考试技巧
【连载】老曹带你做大神之走进奇妙的工控世界(六)
每周二,由老曹带领大家一步一步进入到自动化控制系统的奇妙世界;一步一步告诉大家如何从一张P & ID(Piping and Instrumentation diagram)图设计一套PLC控制系统,其中包括:IO点统计、PLC选型、IO表设计、IO端子图设计、机柜布置图设计、总线设计、网络设计、PLC程序编制、上位机画面编制、文档制作;让你轻轻松松完整以PLC为主控制器的控制系统设计。
剑指工控
2021/11/09
4560
伺服电机,步进电机,同步电动机和异步电动机的区别
同步电动机与异步电动机 原理: 同步电机就是靠励磁电流运行的,如果没有励磁,电机就是异步的。励磁是加在转子上的直流系统,它的旋转速度和极性与定子是一致的,如果励磁出现问题,电动机就会失步,调整不过来,触发保护“励磁故障”电动机跳闸 说的白一点,励磁电流就是同步电机转子中流过的电流(有了这个电流,使转子相当于一个电磁铁,有N极和S极),在正常运行时,这个电流是由外部加在转子上的直流电压产生的。以前这个直流电压是由直流电动机供给,现在大多是由可控硅整流后供给。我们通常把可控硅整流系统称为励磁装置。
机器人网
2018/04/25
5.1K0
伺服电机,步进电机,同步电动机和异步电动机的区别
科学瞎想系列之九十八 匝间耐压那些事
【部分来自网络如有侵权敬请邮箱联系。欢迎原文转发到朋友圈,未经许可的媒体平台谢绝图片转载,如需转载或合作请邮件联系。联系邮箱laolicsiem@126.com,欢迎扫描文后二维码关注本公众号:龙行天下CSIEM】
标准答案
2019/08/08
2.2K0
科学瞎想系列之九十八 匝间耐压那些事
PLC控制三相异步电动机正反转系列实训QY-DG800E[通俗易懂]
在现代化生产过程中三相异步电动机的应用几乎涵盖了工业农业和人类生活的各个领域。在生产过程中三相异步电动机往往工作在恶劣的环境下,容易产生短路、断相等事故,工作在大型设备的高压电动机与大功率电动机一旦发生故障损失无法估计。在生产过程中,往往要求电动机能够实现正反转来满足人们的需求,如直梯的上升与下降,起重机大车与小车的左右移动以及吊钩的上升与下降等等。传统的继电器控制电路简单实用,但是继电器的频繁动作导致触点不能良好接触而影响工作。在工业生产中,电机调速存在很多不确定的因素,难以做到精确控制。 利用 PLC 控制三相异步电动机,以其结构简单,接线少,体积小等特点处于优势地位。PLC 一种数字运算操作的电子系统,专为在工业环境应用而设计的。它采用一类可编程的存储器,用于其内部存储程序,执行逻辑运算,顺序控制,定时,计数与算术操作等面向用户的指令,并通过数字或模拟式输入/输出控制各种类型的机械或生产过程. PLC 的系统构成与工作原理 1、 编程控制器的基本组成 可编程控制器的基本组成可以划分为两部分,即硬件系统和软件系统。世界各国生产的可编程控制器外观各异,但作为工业控制计算机,其硬件系统都大体相同,主要由中央处理模块、存储模块、输入/输出模块、编程器和电源等几部分构成。
全栈程序员站长
2022/09/06
2.4K0
PLC控制三相异步电动机正反转系列实训QY-DG800E[通俗易懂]
科学瞎想系列之一五四 说说电机中的那些电感
电机是一种电磁装置,其核心主要由绕组线圈和铁心等电磁部件组成,既然有线圈和铁心,就必然绕不开电感的问题。经常有同学张口闭口电机的电感如何如何,殊不知电机中的电感那讲究大了去了,自感、互感、相电感、线电感、直轴电感、交轴电感、主电感、漏电感、瞬态电感(电抗)、超瞬态电感(电抗)…这些令人眼花缭乱的电感都是怎么定义的?其物理意义又是啥?各种电感之间的关系是什么?这些电感怎么测量、怎么使用?本期就详细说说电机中电感的那些事。
标准答案
2024/01/22
2.7K0
科学瞎想系列之一五四 说说电机中的那些电感
SimpleFoc-原理图(STL6234+INA240)
具有增强的 PWM 抑制能力的 AEC-Q100、-4V 至 80V、双向、超精密电流感应放大器。
云深无际
2022/11/29
1.7K0
SimpleFoc-原理图(STL6234+INA240)
一套非常详细的计算机机房施工组织设计方案,附word文档下载!
施工准备工作是整个施工生产的前提,根据本工程的工程内容和实际情况公司以及项目部共同制定施工的准备计划。为工程顺利进展打下良好的基础。
网络技术联盟站
2023/03/13
1.7K0
一套非常详细的计算机机房施工组织设计方案,附word文档下载!
一文读懂电与电路
在我们的日常生活和工作中,几乎都要用到电,如LED节能灯的发光、洗衣机洗衣服和空调的制冷制热,都是电作用的结果。那么,电究竟是什么呢?
华东子
2024/11/07
1710
一文读懂电与电路
[驱动设计]变频器对电机的影响3
1)在变频调速系统中,电机由PWM变频器输出脉冲宽度调制的方波电压供电。同由正弦波电压供电的电源相比较,会额外产生如下一些列影响:
科控物联
2022/03/29
6320
[驱动设计]变频器对电机的影响3
科学瞎想系列之八十九 永磁电机(10)
【图片部分来自网络如有侵权敬请邮箱联系。欢迎原文转发到朋友圈,未经许可的媒体平台谢绝转载,如需转载或合作请邮件联系。联系邮箱laolicsiem@126.com】
标准答案
2018/12/28
1.8K0
科学瞎想系列之八十九 永磁电机(10)
工厂供电复习笔记
什么是电网,电网怎么区分。 基本概念熟练掌握。 1.2 电力系统接线方式和电压等级 电压等级每年都考,一些基本的概念。 有一张图,给一些相关参数算其他没给的参数。长线短线 中性点运行方式相当重要 中性点不解地,某一相不解地,为什么还能继续工作。 中性点为什么经过消弧线圈接地,进位对地电流超过多少就需要。 中性点为什么经小电阻接地。 中性点直接接地。
全栈程序员站长
2022/10/03
8640
一文搞懂步进电机特性、原理及驱动器设计
步进电机是将电脉冲信号,转变为角位移或线位移的开环控制电机,又称为脉冲电机。在非超载的情况下,电机的转速、停止的位置只取决于脉冲信号的频率和脉冲数,而不受负载变化的影响。当步进驱动器接收到一个脉冲信号时,它就可以驱动步进电机按设定的方向转动一个固定的角度,称为“步距角”。
不脱发的程序猿
2021/01/20
3.4K0
100个高低压配电知识!网络弱电必备知识~
答:电路中两点之间的电位差称为电压。它的基本单位是伏特。简称伏,符号v,常用单位千伏(kv),毫伏(mv) 。
小明互联网技术分享社区
2022/04/07
1.2K0
什么是伺服电机,伺服电机知识汇总
“伺服”一词源于希腊语“奴隶”的意思。“伺服电机”可以理解为绝对服从控制信号指挥的电机:在控制信号发出之前,转子静止不动;当控制信号发出时,转子立即转动;当控制信号消失时,转子能即时停转。 伺服电机是
机器人网
2018/05/04
1.9K0
什么是伺服电机,伺服电机知识汇总
推荐阅读
相关推荐
塑壳断路器的4P3D,D究竟是什么意思?断路器标识与中性线保护动作值详解
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档