Web抓取python中的多个页面并将其写入csv文件

文章/答案/技术大牛

发布

2回答

、

我是网络抓取的新手，我试图从这个特定网站的每个页面抓取所有视频链接，并将其写入csv文件。对于初学者，我正在尝试从这个站点抓取URL： from bs4 import Beau

浏览 30提问于2020-06-04得票数 0

回答已采纳

1回答

如何在每次爬网后阻止scrapy覆盖CSV导出文件

、

目前，我使用scrapy抓取一个网页的多个页面，并将数据导出到CSV文件。每天，爬行器都会遍历页面并保存数据；但是，它会覆盖前几天的数据。我想知道如何对管道进行编程，使其只在同一文件中从文件末尾开始写入CSV。通过这种方式，我可以将以前抓取的所有数据保存在一个位置。

浏览 0提问于2012-07-20得票数 0

2回答

将包含ArrayList的对象的ArrayList写入CSV

、、

我的任务是从网页上抓取数据，并将它们与其他信息一起写入CSV。目前，我使用JSoup来抓取网站，但我的问题是不确定如何将它们写入CSV。我将每个抓取的页面的数据存储在一个名为CSVObject的对象中： public class CSVObject { String title; String他们可以选择多

浏览 63提问于2019-12-21得票数 0

1回答

Python 2中的异步多web刮板

、、、

我有一个由许多专门的web刮刀程序组成的遗留代码库，所有这些代码都依赖于向web服务器发出同步请求，并在最后运行带有while True语句的sleep语句。这个代码库是Python 2中的，迁移到Python 3并利用Python3异步特性是不可行的。理想情况下，我希望将这组多个单独的web抓取脚本重写为一个

浏览 4提问于2016-10-30得票数 0

1回答

如何在python中遍历csv文件以编辑存储的URL并将其打开？

、、、、

python是新手，但在C语言方面有大约3+年的业余经验。我在Excel中有一个.csv文件，其中一个列中有大约30个URL，格式如下：如何使用Excel文件中的这些URL遍历列，并编辑字符串以将其转换为如下所示的链接：另外，我可以使用哪个模块打开链接并将其内容(文本)写入到新列中？我知道有很多模块可以抓取文

浏览 2提问于2018-01-01得票数 0

1回答

如何在CSV中将web抓取输出格式化为表格？

、

://sisweb.tesouro.gov.br/apex/wwv_flow.accept', headers=headers, cookies=cookies, data=data) 我想知道如何将csv文件中的输出(响应)格式化为表格或其他格式，以便将此输出视为表格。

浏览 4提问于2021-01-19得票数 0

4回答

如何在BS4中有效抓取多个URL

、、、

我正在尝试找到一种在BS4中抓取多个页面的有效方法。我能够轻松地抓取第一页，并获得我需要的所有数据，但不幸的是，并不是所有的数据都在上面。还有另外两个页面需要抓取，而不是硬编码并更改第二个和第三个页面的URL，我想知道是否有更好的方法使用BS4在Python中实现这一点。唯一需要更改的部分是page=1到相应<

浏览 0提问于2018-04-04得票数 0

1回答

多线程web抓取数据的安全存储

、、、、

我正在使用selenium进行web抓取，然后尝试将数据存储到CSV文件中。我正在使用一个有工人的队列，以使抓取操作更快。但是，我发现有时一个工作线程会写入CSV，然后另一个尝试写入CSV，导致数据溢出到新行上。有没有一种安全的方法可以让多个工作进程同时写入一个CSV (或其他文件类型)？下面是我的<

浏览 2提问于2016-02-26得票数 1

1回答

wordpress动态csv导入

、

我是，定期从互联网上抓取的一些数据，并在7/24的计算机上用python代码将其写入csv文件。这个csv文件在我的dropbox文件夹中，所以我可以随时随地用它的dropbox链接检查它。我也可以在我非常简单的21岁主题WordPress页面上动态发布它吗？我的意思是，每当我检查我

浏览 1提问于2021-05-22得票数 0

1回答

如何设计一个在可变用户输入下运行长时间脚本的web应用程序？

、、

描述：我正在设计一个web抓取应用程序，它接收用户输入(主要是带有item_id的urls )，将其输送到我的web抓取脚本中，将从网页中抓取的数据保存到数据库中。问题是，当用户一开始上传一个大的csv文件时，我会启动一个线程来在输入上运行web抓取脚本，并将刮过的数据保存

浏览 0提问于2016-12-20得票数 0

回答已采纳

1回答

如何从相同的元素中获取多个相同的href链接

、、、

我正在抓取有关健身课程的数据，并将其写入csv文件。在网页上，我试图抓取班级名称、描述、地址、联系电话、网站和社交链接。我使用的是BeautifulSoup和Selenium。以下是该页面的链接：<a class="_2MTzNd_HEKWjVL824SA9Li" href="https://instagram.com/stretch_london&q

浏览 5提问于2020-03-06得票数 0

2回答

如何每10分钟将数据从网络写入CSV文件

、

你好，我是Python和web抓取的新手，但我正在尝试从网站中获取数据值，并将其写入CSV文件。这对我也很好。我的问题是，我希望脚本像每小时一样获取值，并将其存储在CSV文件中。因此，我对调度命令做了一些错误的操作，因为获取值并将其写入CSV文件非常有效，但

浏览 3提问于2018-01-12得票数 0

回答已采纳

2回答

如何检查是否已在.csv文件中填充日期项

、、、、

我有一个简单的web抓取python脚本，它将结果写入.csv文件。我只想在.csv文件不包含今天的日期时添加一个条目。目前，这位作家根本没有写作。with open('results.csv', mode='a') as csv_file: for line in csv_file

浏览 9提问于2021-05-15得票数 1

回答已采纳

1回答

如何在找到的页面上抓取外部链接？

我使用了从他们的wiki安装nutch的示例。我能够轻松地抓取从dmoz中拉出的多个页面。但是，有没有配置可以抓取它在页面上找到的外部链接，或者将这些外部链接写入下一步要抓取的文件？什么是最好的方式来遵循一个网页上的链接，索引该网页以及与nutch？如果我通过python执行bin/

浏览 1提问于2010-10-26得票数 2

回答已采纳

2回答

尝试使用Python将解析的数据导出到CSV文件，但我不知道如何导出多行

、、、

我对漂亮的soup/Python/Web Scraping还不熟悉，我已经能够从站点中抓取数据，但我只能将第一行导出为csv文件(我想将所有抓取的数据导出到该文件中)。我对如何让这段代码将所有抓取的数据导出到多个单独的行中感到困惑： r = requests.get("https:/&#x

浏览 13提问于2021-02-23得票数 0

回答已采纳

1回答

CSV文件读取限制

、

例如，我在本地目录中有500个CSV文件，我想要操作这500个文件中的数据，逐个从每个文件中读取数据并将其写入到新的CSV文件中。我知道在python中有一个参数glob，我们用它来读取多个CSV文件。使用Python脚本可以读取的CSV<

浏览 13提问于2017-08-23得票数 1

1回答

Selenium web* scraper完成后，更改链接并另存为不同的csv文件，然后继续操作，直到没有其他链接为止*

、

我有一个Selenium python网络抓取器，目前正在设置以获取一个特定的链接。=Business|nyt%3A%2F%2Fsection%2F0415b2b0-513a-5e78-80da-21ab770cb753&sort=best&startDate=20070101") 抓取器单击页面上的一个按钮几次，然后抓取所有数据，并将其保存在csv文件中。如何让p

浏览 25提问于2020-04-14得票数 0

1回答

Scrapy不生成输出CSV文件

、

我使用的是32位Python 2.7。我下载并安装了Scrapy 0.16.4。我使用的是Windows7，我是从这个页面安装的。当我使用cmd并输入scrapy version时，它显示程序已安装。当我尝试运行任何教程中的爬虫时，它会从页面中提取信息并将其显示在cmd中，但不会在csv文件中产生输出，并表示它没有抓取<

浏览 1提问于2013-01-26得票数 0

1回答

从新闻源自动抓取新的新闻文章最有效的方法是什么？

我有一个问题，我不知道如何从新闻网页上获取新的新闻文章。我用python写了一个抓取器脚本，当我运行它时，它从源(今天发布的运行时间)获取所有新闻，并将它们保存到一个CSV文件中(我保存: URL，标题，日期，时间，图像URL，类别，内容)。当我再次运行脚本时，它会检查CSV文件是否处理了URL，这样它就不会写入重复内容，而只写入新内容。最后，我想将这些结果写入我的</em

浏览 0提问于2019-12-09得票数 0

2回答

用于从多个页面中抓取表格的函数

、、

我正在学习Python，我正在尝试创建一个函数，用于从几个不同的网页上获取疫苗接种率的网络刮刮表--一个github存储库，用于我们的Data 和中的世界。当web抓取单个表并将其保存到数据框中时，代码可以完美地工作。csv-data js-file-line-container")BD_df

浏览 21提问于2021-05-28得票数 0

点击加载更多