你可以使用Python的requests库来获取网页内容,然后使用BeautifulSoup库(简称BS4)来解析HTML,并将数据写入CSV文件。下面是一个完整的示例代码:
import requests
from bs4 import BeautifulSoup
import csv
# 定义要抓取的URL列表
urls = [
"https://example.com/page1",
"https://example.com/page2",
# 添加更多URL...
]
# 定义要抓取的关键字列表
keywords = [
"关键字1",
"关键字2",
# 添加更多关键字...
]
# 创建CSV文件并写入表头
with open("data.csv", "w", newline="", encoding="utf-8") as csvfile:
writer = csv.writer(csvfile)
writer.writerow(["URL", "关键字", "抓取的数据"])
# 遍历URL列表
for url in urls:
# 发送HTTP GET请求获取网页内容
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, "html.parser")
# 遍历关键字列表
for keyword in keywords:
# 在网页中查找关键字
data = soup.find(text=keyword)
# 将抓取的数据写入CSV文件
writer.writerow([url, keyword, data])
print("数据抓取完成并写入CSV文件。")
这段代码会根据给定的URL列表和关键字列表,抓取每个URL中包含的关键字,并将结果写入名为"data.csv"的CSV文件中。你可以根据实际需求修改URL列表和关键字列表。
这个示例中没有提及具体的腾讯云产品,因为抓取数据并写入CSV文件不涉及云计算领域的特定产品。但是,如果你需要将抓取数据存储到云上,你可以考虑使用腾讯云的对象存储服务 COS(腾讯云对象存储)来存储CSV文件。你可以参考腾讯云COS的官方文档了解更多信息:腾讯云对象存储 COS。
领取专属 10元无门槛券
手把手带您无忧上云