刚入门的新手想要一个快速上手的爬虫案例。案例要简单易懂,步骤清晰,不需要复杂的设置。然后,考虑使用哪个库。Requests和BeautifulSoup是比较常见且容易上手的组合,适合静态页面。如果用户以后需要处理动态内容,可能需要提到Selenium或Scrapy,但作为入门案例,先保持简单。
接下来,找一个合适的网站作为例子。某网站电影Top250比较稳定,结构简单,适合练习。不过要提醒遵守robots.txt和版权问题,避免法律风险。
以下是一个适合快速上手的 Python 爬虫案例,使用 requests
和 BeautifulSoup
抓取豆瓣电影 Top250 的基本信息。代码简单易懂,适合新手快速理解爬虫流程。
import requests
from bs4 import BeautifulSoup
import csv
# 1. 定义目标URL和请求头(模拟浏览器访问)
url = "https://movie.douban.com/top250"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
# 2. 发送HTTP请求
response = requests.get(url, headers=headers)
response.encoding = "utf-8" # 设置编码
# 3. 解析HTML内容
soup = BeautifulSoup(response.text, "html.parser")
# 4. 提取数据
movies = []
for item in soup.find_all("div", class_="item"):
title = item.find("span", class_="title").text # 电影标题
rating = item.find("span", class_="rating_num").text # 评分
link = item.find("a")["href"] # 详情页链接
movies.append([title, rating, link])
# 5. 保存为CSV文件
with open("douban_top250.csv", "w", newline="", encoding="utf-8") as file:
writer = csv.writer(file)
writer.writerow(["Title", "Rating", "Link"]) # 表头
writer.writerows(movies)
print("数据已保存到 douban_top250.csv!")
User-Agent
模拟浏览器访问,避免被网站反爬虫拦截。requests.get()
发送 GET 请求,获取网页内容。BeautifulSoup
解析 HTML 结构。find_all("div", class_="item")
定位电影条目。find()
方法提取标题、评分和链接。生成的 douban_top250.csv
文件内容示例:
Title,Rating,Link
肖申克的救赎,9.7,https://movie.douban.com/subject/1292052/
霸王别姬,9.6,https://movie.douban.com/subject/1291546/
阿甘正传,9.5,https://movie.douban.com/subject/1292720/
...
https://movie.douban.com/top250?start={0-225}
,循环抓取全部25页数据。Selenium
或 Scrapy-Splash
。time.sleep(1)
)。requests.get(proxies=proxy)
)。robots.txt
(如 https://www.douban.com/robots.txt
)。通过这个案例,我们可以快速掌握爬虫的基本流程:发送请求 → 解析内容 → 提取数据 → 持久化存储。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有