使用scrapy从值列表中抓取网站

Scrapy是一个基于Python的开源网络爬虫框架，用于从网页中提取结构化数据。它提供了强大的工具和机制，使得开发者可以快速、高效地构建和部署爬虫程序。

Scrapy的主要特点包括：

强大的爬取能力：Scrapy支持并发请求和异步处理，可以高效地处理大规模的网站抓取任务。
灵活的数据提取：Scrapy提供了丰富的选择器和解析器，可以方便地从网页中提取所需的数据。
分布式支持：Scrapy可以通过分布式架构实现多台机器的协同工作，提高爬取效率。
自动化处理：Scrapy提供了各种中间件和扩展，可以自动处理重试、代理、用户代理等问题。
可扩展性强：Scrapy的架构设计非常灵活，可以方便地扩展和定制各种功能。

Scrapy适用于以下场景：

数据采集：Scrapy可以用于从各种网站上采集数据，如新闻、论坛、电商等。
数据挖掘：Scrapy可以用于从大规模网站中提取结构化数据，用于数据分析和挖掘。
网站监测：Scrapy可以定期监测网站内容的变化，如价格变动、新闻更新等。
SEO优化：Scrapy可以用于抓取搜索引擎结果页面，进行关键词排名和竞争对手分析。

腾讯云提供了一系列与爬虫相关的产品和服务，包括：

腾讯云爬虫托管服务：提供了高可用、高性能的爬虫托管服务，支持自动化部署和管理。
腾讯云CDN：提供了全球分布式的内容分发网络，可以加速爬取过程中的数据传输。
腾讯云数据库：提供了多种数据库产品，如云数据库MySQL、云数据库MongoDB等，用于存储和管理爬取的数据。
腾讯云函数计算：提供了无服务器的计算服务，可以用于处理爬虫任务中的数据清洗、转换等操作。

更多关于腾讯云爬虫相关产品和服务的详细介绍，请参考腾讯云官方网站：腾讯云爬虫相关产品和服务

如何使用scrapy抓取网站？

、、

我要写一个基于scrapy的Gui应用程序，用户输入一个网站的URL，然后点击“爬网”按钮，整个网站就会被抓取并存储在内置的scrapy-db (sqlite)中。如何使用scrapy帮助我抓取网站？

浏览 4提问于2012-03-09得票数 0

2回答

用scrapy逐个抓取网站列表

、、、

我正在尝试用scrapy抓取一个网站列表。我试着把网站的urls列表作为start_urls，但是后来我发现我用不起这么多的内存。有没有办法让scrapy一次抓取一个或两个网站？

浏览 0提问于2013-01-13得票数 2

回答已采纳

1回答

我有一个文件，它有一个域名列表。我需要抓取域(即整个网站)，以获得rss链接。递归地抓取网站的每一页，从每个页面获取rss链接，并写入与域对应的json文件--这是我的代码，仅用于一个网站： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector class AppleSpider(CrawlSpider): name

浏览 4提问于2013-12-20得票数 0

回答已采纳

1回答

无法使用Scrapy从下拉列表中进行抓取

、、、

我正在尝试从网站上嵌入的JS下拉列表中抓取市场列表：https://e27.co/startups 使用scrapy shell，我试图从“markets”下拉菜单中抓取市场列表，但无法这样做。在运行了scrapy shell 'https://e27.co/startups'之后，我尝试了同时使用response.css()和response.xpath()。对于css选择器： response.css('#startups-page > div > div.search-block.box-view > div.row.mbt-s >

浏览 9提问于2019-06-13得票数 0

回答已采纳

2回答

如何使用Scrapy创建Twitter爬虫？

、、

我试过使用Scrapy从Pinterest这样的网站上抓取数据，这些网站不需要登录会话进行数据抓取，但如何使用Scrapy抓取和爬行Twitter，因为要访问Twitter追随者和其他数据，我们需要首先登录。

浏览 0提问于2014-12-18得票数 2

2回答

Python Scrapy字典项目

、、、、

有没有可能制作一个Python Scrapy爬虫来抓取整个网站，创建一个字典，在一个列中包含网站中使用的每个单词，并在它旁边的列中显示每个单词的所有实例的URL？如果是，是如何实现的？我假设爬行器应该不断地抓取每个URL，将HTML转换为纯文本，然后将每个字符串划分为列表项，创建一个列表，然后只向该列表添加以前没有添加过的项。但是，同时，它也应该知道哪些条目已经添加到列表中，以及它们的位置，当它抓取一个与列表中已经存在的单词相同的单词时，记住它的URL并将其添加到包含URL的列中。我已经创建了一个爬行器(如下所示)，它列出了所有URL和每个URL处找到的所有纯文本，但是我的编程技能还不够

浏览 12提问于2020-04-28得票数 0

2回答

抓取蜘蛛从链接中随机抓取数据为什么？

、

首先，我从网站上抓取了所有的硬币链接，并要求那些链接。但是scrapy没有串行地请求从链接list.after请求这些链接抓取数据成功，但当保存到csv文件时，它使一个完整的抓取项目后每一次都是一个空行。我期待它将从链接列表中串行请求，它不会使任何空白row.how我能做到吗？我使用的是python 3.6和scrapy版本1.5.1 我的代码： import scrapy class MarketSpider(scrapy.Spider): name = 'market' allowed_domains = ['coinmarketcap.com

浏览 3提问于2018-12-02得票数 0

3回答

Scrapy框架的代理IP

、、、

我正在使用、Python、和Scrapy框架开发一个web爬行项目。它从电子商务购物网站抓取接近10k网页的。整个项目运行良好，但在将代码从测试服务器转移到生产服务器之前，我希望选择一个更好的代理ip提供商服务，这样我就不必担心我的IP阻塞或拒绝网站访问我的蜘蛛。到目前为止，我还在使用Scrapy中的中间件从各种网站的免费代理ip列表( )中手动旋转ip。现在我对我应该选择的选择感到困惑。从或购买溢价代理列表使用使用VPN服务类似于任何比以上三种方案更好的选择

浏览 7提问于2013-10-18得票数 14

2回答

Python Scrapy -如何同时从2个不同的网站抓取？

、

我需要从Excel中给出的域列表中抓取数据；问题是我需要从原始网站(让我们举个例子：)和从similartech ()抓取数据。我希望它们同时被抓取，这样我就可以接收它们，并在最后格式化它们一次，之后我将直接转到下一个域。理论上，我应该在scrapy中以异步方式使用2个爬行器？

浏览 2提问于2020-02-10得票数 1

1回答

如何使用selenium python自动分页？(无需手动选择next按钮)

、、、、

我正在抓取图像的网站列表，使用selenium webdriver+scrapy，但每个网站的下一步按钮都有不同的类/div名称，如何自动查找不同网站中的下一页进行抓取？

浏览 11提问于2020-06-20得票数 0

1回答

如何并行运行Selenium-scrapy

、、、、

我正在尝试使用scrapy和selenium来抓取javascript网站。我使用selenium和一个chrome驱动程序打开javascript网站，使用scrapy从当前页面抓取到不同列表的所有链接，并将它们存储在一个列表中(到目前为止，这是最好的方法，因为尝试使用seleniumRequest跟踪链接并回调到解析新页面函数已经导致了很多错误)。然后，我循环遍历URL列表，在selenium驱动程序中打开它们，并从页面中抓取信息。到目前为止，这个网站每分钟抓取16个页面，考虑到这个网站上的列表数量，这并不理想。理想情况下，我会让selenium驱动程序并行打开链接，如下所示： How

浏览 36提问于2021-02-05得票数 0

回答已采纳

1回答

抓取start_url中的所有网站，即使重定向

、、、、

我正在尝试抓取一个长长的网站列表。start_url列表中的一些网站重定向(301)。我希望scrapy从start_url列表中抓取重定向的网站，就像它们也在allowed_domain列表中一样(其实它们不是)。例如，example.com在我的start_url列表上，允许域名列表和example.com重定向到foo.com。我想爬行foo.com。 DEBUG: Redirecting (301) to <GET http://www.foo.com/> from <GET http://www.example.com> 我尝试在parse_start_url

浏览 0提问于2015-01-17得票数 1

2回答

如何找出蜘蛛刮过的页数

、、、

我使用Python中的Scrapy从网站上抓取数据。我成功地从网站上抓取数据，但我想知道我的蜘蛛刮了多少页。刮擦的统计数据如下：

浏览 2提问于2017-05-23得票数 0

回答已采纳

2回答

Scrapy -没有列表页面，但我知道每个项目页面的url

、

我正在使用Scrapy来抓取一个网站。我想要抓取的项目页面类似于：。其中x是从1到100的任意数字。因此，我有一个SgmlLinkExractor规则，并为类似的页面指定了一个回调函数。该网站没有与所有项目的列表页面，所以我想以某种方式很好地抓取这些网址(从1到100)。这个叫的家伙似乎也有同样的问题，但是他想不出来。有谁有解决方案吗？

浏览 0提问于2011-05-17得票数 0

2回答

如何抓取一个网站只给定域网址与scrapy

、、、

我正在尝试使用scrapy抓取一个网站，但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面？我只需要下载网站的所有页面，而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗？但我不知道scrapy是否会以这种方式避免复制urls。

浏览 0提问于2013-01-06得票数 5

回答已采纳

1回答

不要在scrapy中加载图像、css或主题以及脚本

、、、、

我需要防止从网页加载图像，css文件，主题和脚本。在使用scrapy的基本抓取中有什么方法可以从setting.py或其他网站上阻止他们吗？导入scrapy class MySpyder(scrapy.Spider): name = 'Spiderr' start_urls = [l.strip() for l in open("Archive").readlines()] def parse(self,response): tittle = response.xpath("/html/body/"

浏览 14提问于2020-08-14得票数 0

回答已采纳

1回答

关于XPath选择器的问题(用于Scrapy)

、、、

目的:从div类list_area daily_all中抓取文本数据。使用scrapy shell，我首先“抓取”了我想要抓取数据的网站：https://comic.naver.com/webtoon/weekday.nhn 使用'scrapy shell‘脚本：scrapy shell 'https://comic.naver.com/webtoon/weekday.nhn' 使用xpath，我想从div类"list_area daily_all“中抓取所有文本数据： response.xpath("//div[@id='wrap'

浏览 18提问于2019-06-10得票数 2

1回答

使用Scrapy抓取ajax页面

、、

我已经用Scrapy一个月了。我能够抓取和抓取几个网站(事实上我已经抓取了900个网站)，基于pipelines.Now给出的关键字，问题是当我们遇到javapages (ajax)时，抓取不能抓取。我正在尝试使用以下代码，并对抓取ajax页面进行适当的更改你们有没有用scrapy抓取javapages的好主意？第二个问题是，我面临的问题是scrapy无法抓取登录页面

浏览 2提问于2013-06-19得票数 0

回答已采纳

1回答

Scrapy修改cookie

、

我可以用scrapy创建cookie，但无法修改现有的cookie。在我正在工作的电子商务网站中，这个cookie处理邮政编码，每个页面都使用这个邮政编码来修改产品属性。我可以使用selenium修改邮政编码，抓取每一页，但抓取过程太慢。我只想使用scrapy，修改这个请求/响应邮政编码cookie。我可以使用下面的代码根据我的请求创建cookie 在SETTINGS.PY中COOKIES_ENABLED = True 在spider.py yield scrapy.Request(response.urljoin(url)，self.parsePage，cookies={'cp&#

浏览 4提问于2020-10-03得票数 0

1回答

如何获取Python Scrapy工具抓取的项目数？

、

我正在使用Python Scrapy工具从网站提取数据。我能够抓取数据。现在我想要从一个特定的网站上刮下来的项目的计数。我怎样才能得到抓取的项目数？在Scrapy中有内置的类吗？任何帮助都将不胜感激。谢谢..

浏览 0提问于2013-10-24得票数 1

1回答

使用Scrapy从详细页中提取数据

、、、

我正在尝试从这个网站抓取代理机构的电话号码：列表视图详细信息视图电话号码隐藏在详细信息页面中。那么，有没有可能通过像上面的详细视图url和抓取电话号码这样的url浏览网站呢？我在这段代码中的尝试是： from scrapy.item import Item, Field class AgencyItem(Item): Phone = Field() from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtra

浏览 0提问于2013-04-24得票数 2

1回答

使用Scrapy递归地从页面上找到的每个表中抓取数据

、

我在64位Windows Vista上使用的是Python.org 2.7版。我有下面这段代码，它从一个web页面中抓取一个命名表： from scrapy.spider import Spider from scrapy.selector import Selector from scrapy.utils.markup import remove_tags from scrapy.cmdline import execute import csv filepath = "C:\\Python27\\Football Data\\test" + ".txt"

浏览 4提问于2014-07-30得票数 0

1回答

抓取域名列表的登录页面

、、

我有一个相当长的网站列表，我想下载登陆(index.html或同等)的页面。我目前正在使用Scrapy (非常感谢它背后的人--这是一个令人难以置信的框架)。在这个特定的任务上，Scrapy比我希望的要慢，我想知道，考虑到任务是多么简单，wget或其他替代方案是否会更快。有什么想法吗？ (这是我对Scrapy所做的。我能做些什么来优化scrapy来完成这个任务？) 所以我有一个起始URL列表，如下所示 start_urls=google.com yahoo.com aol.com 我从每个响应中抓取文本并将其存储在xml中。我需要关闭offsitemiddleware来支持多个域。 Scrap

浏览 0提问于2010-03-24得票数 2

回答已采纳

1回答

使用Scrapy从使用java脚本生成数据的网站获取信息

、、、

我试图用Scrapy抓取一个网站，但是网站的网址没有改变，页面是用java脚本加载的。在我执行搜索之前，站点和URL是这样的：这是我执行搜索后站点和URL的外观：在这些情况下，我如何使用Scrapy从站点获取数据？

浏览 0提问于2016-07-26得票数 1

1回答

按html标记值计算的刮取链接提取器

、、

我使用抓取来抓取隐私政策，从它的主页抓取一个网站，我想智能地抓取包含特定关键字的页面中的特定链接(隐私、数据、保护等)。我看到了scrapy的CrawlSpider和对象只允许这样做，但是，我希望不仅对已发现的链接应用正则表达式，而且还要应用到<a></a>标记中的文本例如，为了更好地查明以下情况： <a href="http://example.com/legal">Check out our privacy policy</a> 其中，URL可能不是一个完美的匹配，但是HTML标记中的文本更有帮助。我看到scrapy的L

浏览 0提问于2019-06-05得票数 0

回答已采纳

1回答

使用scrapy抓取各种网站并找到特定的单词

、、

我对scrapy框架是个新手。他们有一个很棒的文档，我在里面学到了各种东西。我正在尝试卷曲各种教育网站到深度3级，在每个网站中找到cse部门(尝试找到cse或计算机或在该页面上抓取的链接中的单词列表)。如果他们有cse部门在他们的网站，这些链接或网址将被存储在一个.csv文件。到目前为止，我的代码如下： from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dirbot.items import Website class DmozSpider(BaseSpider)

浏览 2提问于2012-11-08得票数 0

0回答

抓取-按日期抓取链接

、、、

有没有可能通过与链接相关的日期来抓取链接？我正在尝试实现一个每日运行的爬行器，它将文章信息保存到数据库中，但我不想重新抓取我以前已经抓取过的文章--即昨天的文章。我遇到了，所以post问了同样的问题，被建议了。但是，这依赖于根据先前保存在数据库中的检查新请求。我假设，如果每天的抓取持续一段时间，那么数据库将需要大量的内存开销来存储已经抓取的请求指纹。因此，给出一个像这样的网站上的文章列表，我想要抓取今天发布的所有文章6/14/17，但是一旦抓取器命中列出的日期为6/13/17的后续文章，我想关闭爬行器并停止抓取。这种方法在scrapy中可行吗？给定一页文章，CrawlSpider会从页面顶

浏览 6提问于2017-06-15得票数 1

回答已采纳

1回答

在应用程序中爬行带有刮痕的网站

、、

我正在开发一个应用程序来抓取使用Scrapy .I的网站，我想在应用程序中运行scrapy crawl website命令时出了问题。因为爬虫会从浏览器上运行。有什么主意吗？

浏览 0提问于2015-11-04得票数 0

回答已采纳

2回答

Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中？

、、、

我正在尝试从我们公司创建的网站中提取内容。我已经在MSSQL Server中为Scrapy数据创建了一个表。我还设置了Scrapy并配置了Python来抓取和提取网页数据。我的问题是，如何将Scrapy抓取的数据导出到本地MSSQL Server数据库中？这是Scrapy用于提取数据的代码： import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = [ 'http://quotes.toscrape.com/page/1/',

浏览 1提问于2017-04-07得票数 2

1回答

设置代理隐藏我的IP地址，以便使用scrapy抓取网页

我正在使用scrapy抓取网站，现在我需要设置代理来处理已经发送的请求。有没有人能帮我在scrapy应用中解决这个代理问题。请提供任何样本链接，如果你有这样做。我需要解决方案，这是从哪个IP的请求。

浏览 0提问于2012-03-22得票数 5

1回答

使用来自同一URL的多个POST数据进行抓取

、、、、

我已经创建了一个爬虫，它收集具有匹配电话号码的公司名称列表。然后将其保存为CSV文件。然后我想从另一个网站抓取数据，使用CSV文件中的电话号码作为发布数据。我希望它循环通过相同的起始URL，但只是抓取每个电话号码产生的数据，直到CSV文件中没有更多的号码。这是我到目前为止所得到的： from scrapy.spider import BaseSpider from scrapy.http import Request from scrapy.http import FormRequest from scrapy.selector import HtmlXPathSelector from

浏览 1提问于2013-07-17得票数 3

回答已采纳

5回答

Scrapy -如何识别已经抓取的urls

、、

我每天都在用scrapy抓取一个新闻网站。如何限制scrapy抓取已抓取的URL。此外，在SgmlLinkExtractor上是否有明确的文档或示例。

浏览 1提问于2010-10-06得票数 15

1回答

Scrapy获取URL的所有外部链接

、、

我使用mydomain.com来抓取整个网站(allow_domains = scrapy )。现在我想从当前URL获取所有外部链接(到其他域)。如何将其集成到我的spider.py中，以获得包含所有外部URL的列表？

浏览 3提问于2014-12-23得票数 2

2回答

我如何知道哪个浏览器被用来在Scrapy框架中爬行？

、、、、

我的背景是：正如你所知道的，Chrome，Firefox，Safari上的网站HTML结构是非常不同的。因此，当我使用CSS-Selector从HTML结构中获取元素标记中的数据时，有时这个标记已经在Chrome浏览器中有了，而另一个则没有。因此，我只想专注于一个浏览器，以减少我的工作量。当我使用Scrapy框架从urls抓取数据时，我不知道Scrapy将使用哪个浏览器来抓取数据。因此，我也不知道返回哪种HTML响应体。我检查了响应，我发现，有时结构是相同的，从Chrome，但有时它不是。看起来Scrapy框架使用了许多不同的web浏览器来抓取数据。我想要的：我只想

浏览 0提问于2018-12-05得票数 0

回答已采纳

1回答

有没有办法在不同的formdata上循环Scrapy？

、、

我在一家物流公司工作，我们试图实现自动化的一部分是跟踪各种货物的状态。我已经开发了一种网络抓取器，它可以很好地提取包含跟踪编号的excel表，并使用这些编号从运营商的网站上抓取跟踪状态，只要这些编号列表的编号小于10，这是因为运营商的网站一次只允许10个跟踪编号。然而，在我们自动化整个跟踪部门的计划中，我们将需要处理比10个数字长得多的列表。我遇到的主要问题是，每次我想运行Scrapy时，Scrapy都会要求我在Jupyter notebook中重新启动内核，这会阻止我将跟踪编号列表分成10个列表。有没有办法从内部循环Scrapy？到目前为止，我已经成功地将跟踪编号列表分成了10个

浏览 18提问于2019-04-23得票数 0

1回答

在PyQt4主循环中集成抓取/扭曲事件循环

、、、

我正在开发一个PyQt4工具，这是使用抓取网站抓取。我启动了一个新的进程多进程，以便从ui运行Scrapy爬行器。一切正常~ ui是阻塞的，Scrapy是抓取的。我希望有一个非阻塞的ui，尽管我希望在PyQt主循环中集成Twisted事件循环。有没有人知道如何尽可能简单地实现这一点？我不熟悉Scrapy / PyQt / Multiprocessing / Twisted。我用的是PyQt4，python2.7和Scrapy 0.12.0.2546的on buntu12.04盒子。提前谢谢。

浏览 2提问于2013-02-24得票数 1

回答已采纳

3回答

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

、、

因此，我有一个从数据库中提取的URL列表，我需要抓取和解析每个URL的JSON响应。一些URL返回null，而其他URL返回发送到csv文件的信息。我目前使用的是Scrapy，但它需要大约4个小时来抓取这12000个URL。我研究过像、和这样的东西，但我不确定它们是否适合我的用例，因为它们似乎是围绕着抓取网站上找到的URL。对于单机抓取的如此多的URL来说，4小时是“正常”时间吗？或者，有没有更适合我的包，当页面被抓取时，没有“关注”链接？

浏览 0提问于2020-08-25得票数 0

1回答

response.css Scrapy命令即使存在对象，也不返回任何结果(python)

、、、、

我想要的网址是这个： https://www.abf.com.br/a-abf/franquias-associadas-abf/ CSS对象示例：这个是.list-francisesthis ok，scrapy返回对象：.card-all-franchises div:nth-child(1)一个是not ，scrapy返回一个空列表：.card-all-franchises div:nth-child(1) 我正在运行以下命令： > scrapy shell 'https://www.abf.com.br/a-abf/franquias-associadas-abf/

浏览 2提问于2022-10-02得票数 0

回答已采纳

1回答

将数据输出到CSV时出现剪贴式格式问题。确保项目数据打印在单独的行上

、、、

我使用Scrapy从网站的第一页抓取信息，并将数据导出为.csv文件，如下所示： scrapy crawl spidername -o data.csv 我想要获得form的输出： {'Title': [u'Message'], 'Link': [u'url'], 'Text': [u'Hello World']} {........... .....} etc 但相反，我在一个{}中获得了所有内容，即 {[all 'Title' data], [all 'Link&

浏览 1提问于2015-10-19得票数 0

1回答

Scrapy和硒:让scrapy等待硒？

、、、

我有一个蜘蛛，我用它来抓取一个网站。我只需要为我的项目的一部分javascript。所以我用scrapy抓取了站点的一部分，然后在selenium中打开URL。当URL打开时，scrapy仍在继续。如何让scrapy等待我的selenium逻辑完成？提前谢谢。

浏览 0提问于2016-12-16得票数 0

2回答

Scrapy不会抓取url

、

我正在试着做一个简单的抓取程序，从网站http://quotes.toscrape.com/抓取引文。输出应存储在html文件中。但是当我运行代码时，它不会输出任何东西。终端显示它抓取了0页Terminal output 这是以下代码。你能帮我吗?有点不对劲，谢谢 import scrapy class SimpleSpider(scrapy.Spider): name ="SimpleSpider" def start_request(self): urls = [ 'http://quotes.t

浏览 29提问于2020-09-05得票数 0

回答已采纳

1回答

如何使用scrapy抓取内层url？

、

我在看一些在线视频的时候创建了一个抓取蜘蛛。它从网站上抓取个人资料url。我想扩展这一点，以报废数据，如地址，姓名，电话，网站网址从每个配置文件网址抓取。我在考虑创建分离的刮板。一个用于抓取配置文件url。以及从抓取的第一url中抓取数据的第二个url。有没有其他的解决方案？这是我的爬虫，它抓取配置文件的urls。 # -*- coding: utf-8 -*- import scrapy from ..items import ...scraperItem class SpiderSpider(scrapy.Spider): name = 'spider'

浏览 22提问于2019-04-14得票数 1

回答已采纳

3回答

在Scrapy中，如何设置每个url的时间限制？

、

我正在尝试抓取多个网站使用Scrapy链接提取器，并遵循为真(递归)。寻找一个解决方案，以设置时间限制爬行为每个网址在start_urls列表。谢谢 import scrapy class DmozItem(scrapy.Item): title = scrapy.Field() link = scrapy.Field() desc = scrapy.Field() class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoz.org"

浏览 39提问于2016-07-28得票数 1

4回答

如何在抓取的CrawlSpider中访问特定的start_url？

、、

我正在使用Scrapy，特别是Scrapy的CrawlSpider类来抓取包含某些关键字的web链接。我有一个相当长的start_urls列表，它从一个连接到Django项目的SQLite数据库中获取条目。我想将抓取的web链接保存在此数据库中。我有两个Django模型，一个用于起始http://example.com，一个用于抓取的网页链接，如http://example.com/website1，http://example.com/website2等。所有抓取的网页链接都是start_urls列表中的一个开始网址的子网站。 web链接模型与起始url模型具有多对一关系，即web链接模型

浏览 1提问于2012-05-15得票数 7

回答已采纳

1回答

使用Scrapy进行Web抓取在抓取过程中添加额外的元素

、、

我正在抓取一个网站，在一个特定的地方寻找段落超过了大量的URL。我想要做的是为我正在访问的每个URL记录我在csv文件中抓取的段落的‘下一步’的URL。首先，我使用网站的搜索语法列出了我想要抓取的所有网站。我正在按ISBN号查找书籍。我目前得到的是一个抓取的段落列表，就像我wanted...However它偶尔不起作用一样，所以我不能简单地将抓取的段落与我事后拥有的ISBN列表连接起来，因为它们不能完美地对齐。我试着把一些代码放在“yield”括号里，但都没有用。有什么想法，或者其他不好的建议吗？ starts = [] for isbn in data: starts.appen

浏览 6提问于2019-12-01得票数 0

1回答

为什么Scrapy只抓取一个页面？

我正在尝试测试抓取网页的Scrapy，我不明白为什么我的爬虫只抓取一个页面，我尝试评论规则和allowed_domains都没有成功。我想我遗漏了一些愚蠢的东西如果能帮上忙我会很感激的。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.spider import BaseSpider from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor class NYSpider(CrawlSpider): name = "ny

浏览 3提问于2012-03-21得票数 1

回答已采纳

1回答

每次运行相同的scrapy项目时，结果都不同

我对Scrapy非常陌生。我设法创建了一个Scrapy项目，运行它来抓取网站，并将废弃的信息保存在csv文件中。然而，每次我运行它，似乎被抓取的网页的数量和顺序都不同。我很确定这个网站在这段时间内是静态的。一般来说，这是正常的吗？

浏览 0提问于2014-03-08得票数 0

1回答

抓取-只浏览博客文章

、、、

我正在使用Scrapy来抓取网站，但我想知道是否有一种方法可以将其设置为只抓取网站的博客文章(即不包括页面)？我可能会为每个站点创建特定的规则来使其工作，但是如果我需要爬行多个站点的话，这太费时了。有没有办法让一个爬虫在所有网站上通用，只抓取博客帖子？我对此表示怀疑，但我祈祷一些天才对此有个答案。下面是我从Scrapy文档中提取的基本代码。我需要补充些什么才能让这件事奏效？ from scrapy.contrib.spiders import CrawlSpider class MySpider(CrawlSpider): name = 'crawlit'

浏览 6提问于2013-05-26得票数 1

1回答

抓取蜘蛛不能正确抓取数据

、、、、

我正在尝试从我的大学网站上抓取关于循环的数据，使用scrapy进行一个项目，但我的爬虫没有正确地抓取数据。有很多空白元素，而且由于某些原因，我无法抓取通知的'href‘属性。我假设我的CSS选择器是错误的，但我无法找出我到底做错了什么。我用'Selector Gadget‘Chrome扩展复制了我的CSS选择器。我一直在学习scrapy，所以如果你能解释我做错了什么，那就太好了。我正在抓取数据的网站是：https://www.imsnsit.org/imsnsit/notifications.php 我的代码是： import scrapy from ..items imp

浏览 10提问于2020-11-21得票数 0

1回答

使用scrapy splash对抓取速度有显著影响吗？

、、、、

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取javascript渲染的html所需的时间进行了怎样的比较？最后，scrapy splash和Selenium的比较如何？

浏览 3提问于2018-04-18得票数 12

回答已采纳