将数据放在CSV文件中，从爬虫抓取不同的网站(Scrapy)_将数据导出到scrapy中的单独csv文件_将抓取的数据移动到CSV文件中 - 腾讯云开发者社区

、、

在尝试组合两种不同的抓取蜘蛛时，刮擦不相关的网站，我创建了这个脚本。但是现在我似乎不能将数据放入一个普通的csv或json文件中。在我组合爬虫之前，我只需要抓取afg2 -o数据_set.csv'，但现在似乎不起作用。获取csv文件中的数据<em

浏览 44提问于2020-07-23得票数 0

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

如何将刮过的项目导出为Scrapy中的字典列表

、、

我做了一个抓取代码，有4个爬虫从4个不同的电子商务网站抓取。对于每个爬虫，我想从每个网站输出价格最低的5产品，并将它们导出到一个CSV文件中。现在，我的主要代码如下所示：process.crawl(Crawler1)process.crawl

浏览 9提问于2021-12-09得票数 0

回答已采纳

1回答

Scrapy Crawler:避免重复抓取URL

、

我创建了一个爬虫使用Scrapy.The爬虫正在抓取网址的网站。使用的技术:Python Scrapy问题:我有重复的URL。我需要的输出是:我希望爬虫抓取网站的网址，但不爬行重复网址的。示例代码:我已经添加到我的settings.py文件的代码。DUPEFILTER_CLA

浏览 32提问于2021-06-29得票数 0

3回答

Scrapy pause/resume是如何工作的？

有人能给我解释一下Scrapy中的暂停/恢复功能是如何工作的吗？没有提供太多细节。我在我的scrapy_cache文件夹中看到一个名为requests.queue的文件夹。但是，这始终是空的。看起来requests.seen文件正在(使用SHA1散列)保存发出的请求，这很棒。但是，下次运行爬行

浏览 0提问于2015-03-04得票数 8

1回答

如何提高抓取抓取的速度？

、

我正在使用Scrapy抓取网站并将数据提取到json文件中，但我发现对于某些网站，爬虫需要很长时间才能抓取整个网站。我的问题是:如何最大限度地减少爬行所需的时间？

浏览 3提问于2013-10-01得票数 4

1回答

使用来自同一URL的多个POST数据进行抓取

、、、、

我已经创建了一个爬虫，它收集具有匹配电话号码的公司名称列表。然后将其保存为CSV文件。然后我想从另一个网站抓取数据，使用CSV文件中的电话号码作为发布数据。我希望它循环通过相同的起始URL，但只是抓取每个电话号码产生的数据，直到CSV文件中没有更多

浏览 1提问于2013-07-17得票数 3

回答已采纳

1回答

如何使用scrapy登录网页

、、、

我有一个网络抓取程序，需要登录到一个网站，以抓取某些数据。现在，我只是尝试抓取帐户信息页面https://www.starcitygames.com/myaccount/，以便在抓取我实际需要的数据之前让它正常工作。有几个Urls我需要抓取，但只有一个需要登录。但是我抓取的所有URL都在同一个网站上。不过，目前它似乎没有做任何事情。我尝试登录

浏览 18提问于2019-06-14得票数 0

回答已采纳

1回答

如何在检测响应状态中的代码500时自动增加scrapy的DOWNLOAD_DELAY

、、、

我将编写数百个爬虫来抓取不同的静态网页，所以我选择Scrapy来帮助我完成我的工作。在工作过程中，我发现大多数网站都很简单，不会防蜘蛛。但是我发现很难在scrapy.setting.py文件中设置一个套装DOWNLOAD_DELAY。有太多的爬行器要编码，为每个爬行器找到合适的DOWNLOAD_DELAY会耗尽我的时间。我想知

浏览 2提问于2019-01-17得票数 1

1回答

Scrapy:如何检查之前抓取的页面是否已被删除？

、、、、

我做了一个简单的抓取我所在城市房价广告的Scrapy爬虫。它收集以下数据:广告标题、价格和URL。然后输出CSV文件。每周我运行爬虫程序，我想让它将最新的CSV文件与之前的文件进行比较，以检查是否有广告被删除。如果有，我希望在CSV文件输出的最后一列中包含今天的</

浏览 9提问于2017-02-22得票数 2

回答已采纳

3回答

在使用Scrapy进行抓取之前，检查URL是否在文件中

、、

我正在抓取一个包含URL列表的大文件。显然，我不能连续地抓取所有的URL。我当前的解决方案从文件中读取URL。一旦它从该页面抓取和下载文档，我就会写入一个新文件，如下所示： https://url_i_completed_crawling E:/location_I_stored_crawled_files，程序从URL的原始文本文件<

浏览 6提问于2019-10-11得票数 0

1回答

我想在Spyder中使用Scrapy，而不是通过终端/shell使用它。我是一个windows用户，Scrapy版本1.8.0，pyhton 3.7.3，我正面临着BeautifulSoup的问题。例如，我试图从一个网站获取一个产品的价格，问题是它并不总是得到数据，但Scrapy在这里通过使用CSS选择器工作得很好。所以我想将Scrapy与Spyder或Vscode一起使用，因为我还有其他依赖于Scrapy输出的</

浏览 69提问于2019-12-14得票数 0

回答已采纳

4回答

从urls列表中下载<very large> number of pages的最佳方式是什么？

、、、、

我有一个>100,000的urls (不同的域名)在一个列表中，我想下载并保存在数据库中，以便进一步处理和修补。另外，你也可以自由地提出你脑海中出现的其他很棒的方法。

浏览 2提问于2013-06-06得票数 5

回答已采纳

1回答

在数据库中存储结果时，如何避免重复存储

、、

我只是从scrapy开始，并试图开发一个项目，我从网站上抓取‘新闻链接’。例如，有一个网站iltalehti.fi，我想要抓取他们的新闻，比方说每5分钟。由于每次爬行都会返回重复项，如何避免将这些重复项存储在数据库中？因此，最终结果将是一个只包含不同条目的数据库，而不是两次包含相同新闻链接的数据库(如果我每隔5分钟运行一次<em

浏览 20提问于2020-04-07得票数 0

1回答

如何使用scrapy抓取内层url？

、

我在看一些在线视频的时候创建了一个抓取蜘蛛。它从网站上抓取个人资料url。我想扩展这一点，以报废数据，如地址，姓名，电话，网站网址从每个配置文件网址抓取。我在考虑创建分离的刮板。一个用于抓取配置文件url。以及从抓取的第一url中抓取数据的第二个url。

浏览 22提问于2019-04-14得票数 1

回答已采纳

2回答

与多个小脚本相比，使用一个大脚本更好吗？

、、

使用python2.7和selenium，我目前正在抓取这些网站的数据，如:车身宽度(以像素为单位)、HTTP响应、页面加载速度和meta name="viewport"标记。然后，我将脚本的结果导出到CSV文件中，每个列都包含提取的数据类型(参见下面)。我计划通过编写新的爬虫来提取更多类型的数据。我的当前脚

浏览 2提问于2017-03-10得票数 1

回答已采纳

0回答

Scrapy:一个项目中的多个爬虫

、

我已经写了一个网络爬虫与代理使用scrapy。因为我总是需要一个随机的代理池来避免被禁止，我决定编写另一个爬虫来抓取一个提供免费IP的网站。目前，我在两个独立的scrapy项目中使用了这两个爬行器，它们具有不同的设置、管道和中间件。每次开始爬虫过程时，我都需要首先抓取IP，将它们导出到一个文件中，然后转到另一个爬虫</e

浏览 7提问于2016-07-07得票数 0

2回答

使用cronjob运行杂乱无章但不符合预期的结果

、、

我正在使用cron作业来安排我的抓取程序每隔12小时运行一次。我已经创建了一个爬虫，它抓取数据并使用FEED_FORMAT将其存储在csv文件中。这是我的shell文件的内容 #!bin/bash PATH=$PATH:/usr/local/bin/scrapy</e

浏览 28提问于2020-03-26得票数 0

1回答

python刮伤管道突然失效

、、

这是非常奇怪的，我写了刮刮的代码与它的管道和爬行了大量的数据，它总是工作良好。今天，当我重新运行相同的代码时，它突然就不能工作了。/logs/log.txt ScrapeNews/spiders/article_base_url_spider.py运行我的蜘蛛代码。它可以抓取start_urls中的所有urls。这个文件应该用来指示设置文件在

浏览 2提问于2017-04-24得票数 0

0回答

如何在同一位置使用Scrapy请求和获取响应？

、、

我正在编写抓取爬虫从电子商务网站抓取数据。该网站有颜色的变化，每个变化有自己的价格，大小和库存的大小。要获得变种的价格、尺寸和库存，需要访问变种的链接(颜色)。并且所有数据都需要在一条记录中。我已经使用requests.get()编写了爬虫程序，并在scrapy.selector.Selector()和解析<e

浏览 2提问于2018-07-13得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云