循环浏览网站上的.txt文件链接,抓取并存储在一个可伸缩的csv/excel文件中的方法如下:
下面是一个示例代码,使用Python和pandas库实现上述功能:
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 定义要抓取的网站URL
url = "https://example.com"
# 发送GET请求获取网页内容
response = requests.get(url)
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, "html.parser")
# 提取所有的.txt文件链接
txt_links = []
for link in soup.find_all("a"):
href = link.get("href")
if href.endswith(".txt"):
txt_links.append(href)
# 遍历所有的.txt文件链接,获取文本内容并存储在DataFrame中
data = []
for txt_link in txt_links:
txt_response = requests.get(txt_link)
txt_content = txt_response.text
data.append([txt_link, txt_content])
# 创建DataFrame对象
df = pd.DataFrame(data, columns=["Link", "Content"])
# 存储DataFrame为csv文件
df.to_csv("output.csv", index=False)
这段代码会将抓取到的.txt文件链接和对应的文本内容存储在一个名为"output.csv"的csv文件中。你可以根据需要调整代码,例如添加异常处理、优化性能等。
腾讯云相关产品和产品介绍链接地址:
领取专属 10元无门槛券
手把手带您无忧上云