前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >想获取JS加载网页的源网页的源码,不想获取JS加载后的数据

想获取JS加载网页的源网页的源码,不想获取JS加载后的数据

作者头像
Python进阶者
发布于 2024-04-15 02:43:02
发布于 2024-04-15 02:43:02
37500
代码可运行
举报
运行总次数:0
代码可运行

大家好,我是Python进阶者。

一、前言

前几天在Python钻石交流群【梦】问了一个Python网络爬虫的问题,这个网站不知道使用了什么反爬手段,都获取不到页面数据。原来的那篇文章竟然爆文了,突破了1.5w的阅读量,欢迎大家围观。

不过这里粉丝的需求有点奇怪,他不需要JS加载后的数据页面,而是需要JS的源网页。昨天在群里又讨论起这个问题,这次一起来看看这个问题。

二、实现过程

这里【瑜亮老师】指出异步页面中,标签和数据都是不在页面源码中的。你的这个页面,数据在json,然后js拼装后显示在页面中。如果你想要获取你说的带标签的源码,可以使用自动化模块,例如:selenium(不建议用这个),playwright,drissionpage。

后来【提请问粘给图截报错贴代源码】给出了具体的源码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from DrissionPage import WebPage

page = WebPage()
# 访问网页并渲染
page.get('https://fx.cmbchina.com/hq', timeout=300)
response = page.html
print(response)
page.quit()

打开network,查看这个网页的渲染方式,你就知道这个网页一开始是没有内容的,全靠js在渲染。

你直接访问这个链接就是没有内容。

先渲染再获取就有了,再者说,你的目的肯定是只要这页面上的表格,表格就是json,获取json链接比获取渲染后的网页方便多了。可以不在页面本身的,使用dom插入,现在的数据页面基本都是这种方式,效率高且安全性好。

【猫药师Kelly】也指出使用drissionpage,配合自带的监听或者mitmproxy,能搞定很多活。

顺利地解决了粉丝的问题。

如果你也有类似这种Python相关的小问题,欢迎随时来交流群学习交流哦,有问必答!

三、总结

大家好,我是Python进阶者。这篇文章主要盘点了一个Python网络爬虫网页JS渲染源网页源码获取的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【梦】提出的问题,感谢【论草莓如何成为冻干莓】、【瑜亮老师】、【猫药师Kelly】给出的思路,感谢【莫生气】等人参与学习交流。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫与数据挖掘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
这个网站不知道使用了什么反爬手段,都获取不到页面数据?
前几天在Python钻石交流群【空】问了一个Python网络爬虫的问题,这个网站不知道使用了什么反爬手段,都获取不到页面数据。
前端皮皮
2024/04/12
1790
这个网站不知道使用了什么反爬手段,都获取不到页面数据?
练习爬虫,我想问一下这个xpath语句为啥找不到元素,感谢大佬!
前几天在Python钻石交流群【萤火】问了一个Python网络爬虫的问题,下图是截图:
Python进阶者
2022/11/14
4290
练习爬虫,我想问一下这个xpath语句为啥找不到元素,感谢大佬!
盘点一个selenium网络爬虫问题
前几天在Python最强王者交流群【G.】问了一个Python网络爬虫的问题,问题如下:各位大佬好,我这遇到一个问题,用selenium爬网页的时候,切换页面后网页有时会出现10条数据,有时会出现6条数据,出现6条数据时显示的数据都是已经爬取过的数据,该怎么解决呢?
Python进阶者
2024/07/08
1390
盘点一个selenium网络爬虫问题
Python网络爬虫过程中网页json格式数据存储你学会了嘛?
前几天在Python白银群有个叫【Rr】的粉丝问了一个关于Python网络爬虫过程中网页json格式数据存储的问题,这里拿出来给大家分享下,一起学习。
Python进阶者
2022/04/12
9260
Python网络爬虫过程中网页json格式数据存储你学会了嘛?
取出df3["text"]里 tblActors字段的内容,如果没有就填充一个值,怎么破?
前几天在Python最强王者交流群【WYM】问了一个Pandas处理的问题,提问截图如下:
Python进阶者
2022/11/14
6780
取出df3["text"]里 tblActors字段的内容,如果没有就填充一个值,怎么破?
兄弟们,这样的数据如何删除所有的周末仅保留工作日呢?
前几天在Python黄金交流群【叫我東航(Demon.)】问了一个Excel处理的问题,提问截图如下:
前端皮皮
2024/04/18
1280
兄弟们,这样的数据如何删除所有的周末仅保留工作日呢?
Python爬取同样的网页,bs4和xpath抓到的结果不同?
前几天在Python白银交流群【沐子山树】问了一个Python网络爬虫的问题,问题如下:刚好遇到另外一个问题,请教下大佬。就是我爬取同样的网页,用xpath的时候会将图上这样的script标签里面的内容当成text取出来,但是用BS4就不会。导致两种方法取出来的text不一样。这种情况应该如何处理?
Python进阶者
2024/06/24
1830
Python爬取同样的网页,bs4和xpath抓到的结果不同?
盘点一个基金数据的Python网络爬虫案例
前几天在Python最强王者交流群【哎呦喂 是豆子~】问了一个Python网络爬虫问题,一起来看看吧。问题描述:
Python进阶者
2024/01/03
3040
盘点一个基金数据的Python网络爬虫案例
请求后返回的内容里tbody里面是空的,没办法去解析数据
前几天在Python白银交流群【菜🐤】问了一个Python网络爬虫的问题。问题如下:
Python进阶者
2024/04/30
1430
请求后返回的内容里tbody里面是空的,没办法去解析数据
Pandas中这个账龄划分的 有没有什么简便的方法可以实现?
前几天在Python最强王者交流群【哎呦喂 是豆子~】问了一个Python处理Excel数据的问题。问题如下:大佬们 请问下 这个账龄划分的 有没有什么简便的方法可以实现?自己做的这太繁琐了
Python进阶者
2024/02/29
1740
Pandas中这个账龄划分的 有没有什么简便的方法可以实现?
df里怎么删除全部为0的列呀?
前几天在Python最强王者交流群【WYM】问了一个Pandas处理的问题,提问截图如下:
Python进阶者
2022/11/14
9650
df里怎么删除全部为0的列呀?
Python实现对规整的二维列表中每个子列表对应的值求和
前几天在Python白银交流群有个叫【dcpeng】的粉丝问了一个Python列表求和的问题,如下图所示。
Python进阶者
2022/06/05
5K0
Python实现对规整的二维列表中每个子列表对应的值求和
我这有个数据集,向取出每天每个国家确诊数量前30的数据,使用Pandas如何实现?
前几天在Python最强王者交流群【此类生物】问了一个Pandas处理的问题,提问截图如下:
前端皮皮
2022/12/19
1.2K0
我这有个数据集,向取出每天每个国家确诊数量前30的数据,使用Pandas如何实现?
爬取同样内容,xpath方法会比bs4要慢很多吗?
前几天在Python白银交流群【沐子山树】问了一个Python网络爬虫的问题,问题如下:爬取同样内容,xpath方法会比bs4要慢很多吗?
Python进阶者
2024/06/24
1230
爬取同样内容,xpath方法会比bs4要慢很多吗?
该字段对应的内容看上去是个列表字典嵌套,实际上是个str,这个字段怎么只取出name对应的内容呢?
前几天在Python最强王者交流群【WYM】问了一个Pandas处理的问题,提问截图如下:
Python进阶者
2022/11/14
4080
该字段对应的内容看上去是个列表字典嵌套,实际上是个str,这个字段怎么只取出name对应的内容呢?
使用Python指定列提取连续6位数据的单号(上篇)
前几天在Python最强王者交流群【哎呦喂 是豆子~】问了一个Python数据提取的问题,一起来看看吧。
Python进阶者
2023/10/24
2380
使用Python指定列提取连续6位数据的单号(上篇)
按照每一列列名去寻找每一行是否存在列名,若存在,填写score,若不存在,填写0?(上篇)
前几天在Python白银交流群【王王雪饼】问了一个Pandas基础的问题,这里拿出来给大家分享下。
Python进阶者
2023/09/02
1560
按照每一列列名去寻找每一行是否存在列名,若存在,填写score,若不存在,填写0?(上篇)
盘点一个pandas.merge的问题
前几天在Python最强王者交流群【粉丝】问了一个pandas数据处理的问题,提问截图如下:
Python进阶者
2023/03/02
1730
盘点一个pandas.merge的问题
按照每一列列名去寻找每一行是否存在列名,若存在,填写score,若不存在,填写0?(上篇)
前几天在Python白银交流群【王王雪饼】问了一个Pandas基础的问题,这里拿出来给大家分享下。
前端皮皮
2023/08/17
1910
按照每一列列名去寻找每一行是否存在列名,若存在,填写score,若不存在,填写0?(上篇)
盘点一个Python网络爬虫实战问题
前几天在Python铂金交流群【红色基因代代传】问了一个Python网络爬虫的问题,提问截图如下:
Python进阶者
2022/11/14
1780
盘点一个Python网络爬虫实战问题
推荐阅读
这个网站不知道使用了什么反爬手段,都获取不到页面数据?
1790
练习爬虫,我想问一下这个xpath语句为啥找不到元素,感谢大佬!
4290
盘点一个selenium网络爬虫问题
1390
Python网络爬虫过程中网页json格式数据存储你学会了嘛?
9260
取出df3["text"]里 tblActors字段的内容,如果没有就填充一个值,怎么破?
6780
兄弟们,这样的数据如何删除所有的周末仅保留工作日呢?
1280
Python爬取同样的网页,bs4和xpath抓到的结果不同?
1830
盘点一个基金数据的Python网络爬虫案例
3040
请求后返回的内容里tbody里面是空的,没办法去解析数据
1430
Pandas中这个账龄划分的 有没有什么简便的方法可以实现?
1740
df里怎么删除全部为0的列呀?
9650
Python实现对规整的二维列表中每个子列表对应的值求和
5K0
我这有个数据集,向取出每天每个国家确诊数量前30的数据,使用Pandas如何实现?
1.2K0
爬取同样内容,xpath方法会比bs4要慢很多吗?
1230
该字段对应的内容看上去是个列表字典嵌套,实际上是个str,这个字段怎么只取出name对应的内容呢?
4080
使用Python指定列提取连续6位数据的单号(上篇)
2380
按照每一列列名去寻找每一行是否存在列名,若存在,填写score,若不存在,填写0?(上篇)
1560
盘点一个pandas.merge的问题
1730
按照每一列列名去寻找每一行是否存在列名,若存在,填写score,若不存在,填写0?(上篇)
1910
盘点一个Python网络爬虫实战问题
1780
相关推荐
这个网站不知道使用了什么反爬手段,都获取不到页面数据?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验