Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python爬虫实验报告之Big_Homework1_Lishipin

Python爬虫实验报告之Big_Homework1_Lishipin

作者头像
全栈程序员站长
发布于 2022-09-07 12:13:50
发布于 2022-09-07 12:13:50
35200
代码可运行
举报
运行总次数:0
代码可运行

大家好,又见面了,我是你们的朋友全栈君。

实验目的:

爬取梨视频网站某模块全部信息;

字段信息为:视频标题、作者、点赞数,纯视频链接,并且存入txt文档。

实验过程截图:

源码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 1 import requests
 2 from lxml import etree
 3 from urllib import request
 4 import re
 5 
 6 # 全局变量(请求头+文件IO对象)
 7 headers = {
 8     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.44'}
 9 file = open('./梨视频.txt', 'w', encoding='utf-8')
10 
11 
12 # 采集前端源码
13 def index():
14     for num in range(0, 493, 12):
15         base_url = 'https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=59&start={}'.format(num)
16         print('正在写入', base_url, '中的数据信息...')
17         response = requests.get(base_url, headers=headers)  # 模拟访问+请求头
18         response.encoding = 'utf-8'  # 解码
19         html = response.text  # 获取源码
20         clean(html)  # 清洗数据
21 
22 
23 # 清洗数据
24 def clean(html):
25     htmls = etree.HTML(html)  # 预处理
26     video_titles = htmls.xpath('//div[@class="vervideo-bd"]/a/div[2]/text()')
27     # print(video_titles),视频标题
28     video_authors = htmls.xpath('//div[@class="vervideo-bd"]/div/a/text()')
29     # print(video_authors),作者
30     video_likes = htmls.xpath('//div[@class="vervideo-bd"]/div/span/text()')
31     # print(video_likes),点赞数
32     video_urls1 = htmls.xpath('//div[@class="vervideo-bd"]/a/@href')
33     # print(video_urls1),不完整的视频链接
34     printt(video_titles,video_authors,video_likes,video_urls1)
35 
36 
37 # 打印数据
38 def printt(video_titles,video_authors,video_likes,video_urls1):
39     # 拼接
40     for vu,vt,va,vl in zip(video_urls1,video_titles,video_authors,video_likes):
41         video_urls2 = 'https://www.pearvideo.com/' + vu
42         # print(video_urls2)
43         # 第二层访问
44         response = requests.get(video_urls2)
45         response.encoding = 'utf-8'
46         html = response.text
47         # print(html)
48         # 吸星大法
49         pattern = re.compile('srcUrl="(.*?)",vdoUrl')
50         video_url = pattern.findall(html)[0]
51         # print(video_url)
52         full_info='视频标题:'+vt+'\t'+'作者:'+va+'\t'+'点赞数:'+str(vl)+'\n'+video_url
53         file.write(full_info+'\n')
54 
55 
56 # 下载模块
57 def download():
58     pass
59 
60 
61 if __name__ == '__main__':
62     index()
63     file.close()

View Code

实验心得:

因为我先写的大作业2,所以这个写的顺的一批,中间也没遇到什么烦人的bug,又是一段开心的编程经历。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/156168.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python爬虫练习 爬取网络小说保存到txt
利用python爬虫爬取网络小说保存到txt,熟悉利用python抓取文本数据的方法。
叶庭云
2020/09/17
5.8K1
Python爬虫练习     爬取网络小说保存到txt
图解爬虫,用几个最简单的例子带你入门Python爬虫
爬虫一直是Python的一大应用场景,差不多每门语言都可以写爬虫,但是程序员们却独爱Python。之所以偏爱Python就是因为她简洁的语法,我们使用Python可以很简单的写出一个爬虫程序。本篇博客将以Python语言,用几个非常简单的例子带大家入门Python爬虫。
ZackSock
2020/12/08
7790
图解爬虫,用几个最简单的例子带你入门Python爬虫
爬虫练习题(五)
防盗链式记录从哪个地址跳转过来的?有些会携带,有些会不携带,服务器会根据这个检查,一旦核验,同样也会视为爬虫自动化程序,所以我们要携带这个参数
设计者
2022/12/20
4010
爬虫练习题(五)
Python爬虫模拟登陆和异步爬虫
模拟登陆 使用超级鹰平台识别验证码的编码流程: 将验证码图片进行本地下载 调用平台提供的示例代码进行图片数据识别 有验证码,验证码可以读取到但测试未成功 # 验证码 import requests from lxml import html import chaojiying # 封装识别验证码函数 if __name__ == "__main__": headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win6
shaoshaossm
2022/12/26
4760
python爬虫–异步
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/100100.html原文链接:
全栈程序员站长
2021/04/19
6840
python爬虫–异步
使用python 爬梨视频
刚开始学习python 勿喷 第一步 去官网下载python3^ 版本 下载链接 https://www.python.org/downlo... 如果是window系统需要添加一下环境变量
py3study
2020/01/06
3970
爬虫学习(10):xpath爬取包图网高清模板视频
暂时我就没有发xpath基础知识了,编辑太浪费时间了,需要了解或者有问题的可以加我群问我就好了,我也正在努力学习中,不废话了,上代码,解释都在注释. 先看效果:
川川菜鸟
2021/10/18
4910
【学习笔记】Python爬虫
URL由协议、主机名、端口、路径、参数、锚点 URLError\HTTPError 后者时前者的子类 用try-except捕获异常
Livinfly
2022/10/26
2.1K0
21天打造分布式爬虫-数据解析实战(三)
3.1.豆瓣电影 使用lxml import requests from lxml import etree headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36', 'Referer':'https://movie.douban.com/' } url = 'ht
zhang_derek
2018/08/01
3380
爬虫篇 | 用Python爬超级搞笑的视频
最近整理一个爬虫系列方面的文章,不管大家的基础如何,我从头开始整一个爬虫系列方面的文章,让大家循序渐进的学习爬虫,小白也没有学习障碍.
龙哥
2019/10/24
1.2K0
爬虫篇 | 用Python爬超级搞笑的视频
Python的Xpath介绍和语法详解
XPath是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历
Lansonli
2021/10/09
4.2K0
python爬虫抓取富贵论坛
本人是个爬虫小萌新,看了网上教程学着做爬虫爬取富贵论坛www.fgba.net,如果有什么问题请大佬们反馈,谢谢。
曾高飞
2021/08/23
6980
python爬虫抓取富贵论坛
优美库图片小程序 Version1.0
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
xbhog
2019/09/08
5980
Python-Requests
本教程使用Python语言,需提前安装Pip3 or Pip,例如Linux类的,请在命令行内输入:
NikoDos
2022/03/29
3350
Python-Requests
强迫症终结版 - 蹩脚梨视频下载器(很菜勿喷)
强迫症终结版 - 蹩脚梨视频下载器 支持功能: 自己选择要下载的视频分类 视频个数(12的倍数,最新的...个)(不要怪不能高度自定义啦~) 重复文件自动跳过 菜单会被控制台打印顶掉,大家见谅(
suwanbin
2019/11/28
3940
用python爬取梨视频,谁让我无聊的时候爱看小视频呢!
有时人无聊就喜欢看一些小视频,但网络却时好时坏的,所以就下载下来再看了,但一个一个的下载有点慢,所以本文就出现了。
Python与Excel之交
2021/08/05
3590
python爬取梨视频生活板块最热视频
此处视频地址做了加密即ajax中得到的地址需要加上cont-,并且修改一段数字为id才是真地址 真地址:"https://video.pearvideo.com/mp4/third/20201120/cont-1708144-10305425-222728-hd.mp4" 伪地址:"https://video.pearvideo.com/mp4/third/20201120/1606132035863-10305425-222728-hd.mp4"
python学习教程
2021/03/17
8090
python爬取梨视频生活板块最热视频
python实战破解『梨视频』反爬机制,轻松实现批量视频下载!
前面讲了很多期的爬虫、数据分析、数据可视化。其中关键的一环就是爬虫,如果数据爬取不下来就无法进行分析和可视化。
Python研究者
2021/03/23
1.5K0
Python爬虫,studiofaporsche网站采集源码
很久没有写过 Python 爬虫了,最近不是在拧螺丝,就是在拧螺丝的路上,手生的很了,很多代码用法也早已经殊生,因此也花了一点时间来梳理,写的比较渣,见谅!
二爷
2023/09/02
3490
Python爬虫,studiofaporsche网站采集源码
Python爬虫实战 批量下载高清美女图片
彼岸图网站里有大量的高清图片素材和壁纸,并且可以免费下载,读者也可以根据自己需要爬取其他类型图片,方法是类似的,本文通过python爬虫批量下载网站里的高清美女图片,熟悉python写爬虫的基本方法:发送请求、获取响应、解析并提取数据、保存到本地。
叶庭云
2020/09/17
6.9K0
Python爬虫实战  批量下载高清美女图片
相关推荐
Python爬虫练习 爬取网络小说保存到txt
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验