抓取Wikipedia Infobox并将其存储到CSV文件中的方法可以通过以下步骤实现:
下面是一个示例代码,使用Python的BeautifulSoup库和csv模块来实现上述步骤:
import requests
from bs4 import BeautifulSoup
import csv
# 目标页面URL
url = "https://en.wikipedia.org/wiki/Cloud_computing"
# 发送HTTP请求并获取HTML内容
response = requests.get(url)
html_content = response.text
# 解析HTML内容
soup = BeautifulSoup(html_content, "html.parser")
# 定位Infobox所在的HTML元素
infobox = soup.find("table", class_="infobox")
# 提取Infobox数据
data = {}
for row in infobox.find_all("tr"):
cells = row.find_all(["th", "td"])
if len(cells) == 2:
key = cells[0].get_text().strip()
value = cells[1].get_text().strip()
data[key] = value
# 存储到CSV文件
filename = "infobox.csv"
with open(filename, "w", newline="", encoding="utf-8") as csvfile:
writer = csv.writer(csvfile)
for key, value in data.items():
writer.writerow([key, value])
print("Infobox数据已存储到CSV文件:", filename)
这段代码会抓取"https://en.wikipedia.org/wiki/Cloud_computing"页面中的Infobox数据,并将其存储到名为"infobox.csv"的CSV文件中。你可以根据需要修改代码中的URL和文件名。
领取专属 10元无门槛券
手把手带您无忧上云