如何从scrapy调用输出文件名

从Scrapy调用输出文件名的方法有多种。以下是其中一种常见的方法：

在Scrapy的项目中，可以通过在settings.py文件中配置ITEM_PIPELINES参数来指定输出文件名。例如，可以添加以下代码：

ITEM_PIPELINES = {
    'myproject.pipelines.MyPipeline': 300,
}

FEED_URI = 'output.json'  # 输出文件名
FEED_FORMAT = 'json'  # 输出文件格式

上述代码中，'myproject.pipelines.MyPipeline'是自定义的数据处理管道类，可以根据实际需求进行修改。'output.json'是输出文件的名称，可以根据需要修改为其他文件名。'json'是输出文件的格式，也可以根据需要修改为其他格式，如'csv'、'xml'等。

另一种方法是在Spider中使用自定义的文件名。可以在Spider的代码中通过重写start_requests方法或parse方法来指定输出文件名。例如：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'

    def start_requests(self):
        yield scrapy.Request(url='http://example.com', callback=self.parse, meta={'filename': 'output.json'})

    def parse(self, response):
        filename = response.meta.get('filename')
        # 在这里使用filename进行数据的处理和输出

上述代码中，通过在start_requests方法中使用meta参数传递文件名，然后在parse方法中获取文件名并进行数据处理和输出。

需要注意的是，以上方法仅提供了一种常见的实现方式，实际应用中可以根据具体需求进行灵活调整。另外，关于Scrapy的更多用法和功能，请参考腾讯云的Scrapy相关文档和教程。

如何从scrapy调用输出文件名

、

scrapy crawl test -o test123.csv 如何从代码中调用输出文件名，即我想在spider_closed函数中使用在终端中输入的文件名 @classmethod def from_crawler(cls, crawler, *args, **kwargs): spider = super(MySpider, cls).from_crawler(crawler, *args, **kwargs) crawler.signals.connect(spider.spider_closed, signal=scrapy.signals.spider_closed

浏览 6提问于2019-07-16得票数 4

回答已采纳

2回答

将结果从yield路由到一个文件

、

我有以下使用Scrapy的Python脚本： import scrapy class ChemSpider(scrapy.Spider): name = "site" def start_requests(self): urls = [ 'https://www.site.com.au' ] for url in urls: yield scrapy.Request(url=url, callback=self.parse) def p

浏览 0提问于2019-06-21得票数 0

2回答

-t开关在刮擦中做什么？

、、

在scrapy教程中，我们说为了将输出保存到csv或任何其他格式，我们应该使用以下命令： scrapy crawl spider -o result.csv -t csv 通常，我们可以使用以下命令： scrapy crawl my_spider -o file_name.extension -t extension 但是我在没有-t的情况下使用了这个命令，没有问题： scrapy crawl spider -o result.csv 我的问题是-t的角色是什么？

浏览 2提问于2015-06-16得票数 3

回答已采纳

1回答

如何将scrapy shell输出/响应存储为变量而不是html文件

、

我尝试使用cmdline.execute将html代码存储到名为response的变量中，如以下代码所示，但在scrapy shell中无法存储和程序代码中断，谁能告诉我如何将原始html存储到变量中导入scrapy 从scrapy import cmdline linkedinnurl = "https://stackoverflow.com/users/5597065/adnan-stab=profile“ response = cmdline.execute("scrapy shell https://stackoverflow.com/users/5597065/a

浏览 7提问于2019-05-16得票数 2

回答已采纳

1回答

刮擦误差

、、、、

这就是我想要做的。我想刮一些网站的电子邮件。我有一个文件，我可以用它输入所有的url列表。这就是我试图提取电子邮件的方式： import scrapy import datetime import re from scrapy.spiders import CrawlSpider from techfinder.items import EmailItem from scrapy.selector import HtmlXPathSelector class DetectSpider(scrapy.Spider): name = "test" start_

浏览 1提问于2017-02-09得票数 0

回答已采纳

1回答

Scrapy调用爬行器，而不是命令行中指定的爬行器

(P6Svenv)malikarumi@Tetuoan2:~/Projects/P6/P6Svenv/test2/test2/spiders$ scrapy crawl zomd Traceback (most recent call last): File "/usr/bin/scrapy", line 9, in <module> load_entry_point('Scrapy==1.0.3.post6-g2d688cd', 'console_scripts', 'scrapy')() File "

浏览 0提问于2015-10-19得票数 0

1回答

Scrapy已爬行0个页面，响应状态为200

、、

我正在用Scrapy测试抓取网页。我不能抓取我想要的页面，我也找不到原因。有人能解决我的问题吗？附注：对于某人的提醒，上一个网页显示了一个错误。我已经改变了路径。 total_corner_spider.py name = "totalcorner" allowed_domains = ["totalcorner.com"] start_urls = [ "http://www.totalcorner.com/match/corner_stats/57868009", ] def parse(self, response):

浏览 121提问于2016-08-17得票数 0

2回答

如何将刮过的数据正确地存储在item对象中，并将每组数据保存到1个csv文件中？

、、

我让我的小蜘蛛做得很好。我正在如愿地得到我所有的数据。我利用设置了我的items.py来捕获我们想要的7条数据。我可以把这些数据写到文件里。但我现在面临的问题是，我需要按照items.py设置的顺序将数据捕获到一个输出文件中。如果文件不存在，似乎无法知道如何创建它(站点名和日期使其成为唯一的文件名)。这是我目前所拥有的，但是这会为每个被刮过的页面/url创建一个文件，我想将所有这些合并成每个站点的一个文件。我不喜欢格式化数据的itmDetails2方式，除非这是唯一的方法，但我认为dets[]是我的items.py值列表，我可以简单地将每一组值存储在其中，然后将dets[]写到csv中。

浏览 0提问于2019-04-22得票数 0

回答已采纳

1回答

刮取:如何在一次爬虫运行中将刮过的数据存储在不同的json文件中？

、、

我在start_urls字段中使用带有多个urls列表的泛型蜘蛛。是否可以为每个json导出一个URL文件？据我所知，只能为一个特定的输出文件设置一条路径。任何如何解决这个问题的想法都会得到奖励！编辑:这是我的蜘蛛类： import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class MySpider(CrawlSpider): name = 'my_spider' start_urls =

浏览 13提问于2022-03-16得票数 0

回答已采纳

1回答

刮痕找不到蜘蛛

、

我正在做的刮伤教程。这是我的当前目录，如下所示： . ├── scrapy.cfg └── tutorial ├── __init__.py ├── __init__.pyc ├── items.py ├── pipelines.py ├── settings.py ├── settings.pyc └── spiders ├── __init__.py ├── __init__.pyc └── dmoz_spider dmoz_spider.py与“刮伤教程”页面中描述的相同。 impor

浏览 1提问于2015-12-17得票数 5

回答已采纳

1回答

使用Scrapy从网页中提取某些产品

、、、、

我用Python编写了一个脚本，从books.toscrape中获取各种产品名称和价格。我将这个小代码提交给code的原因是，在Python3中，当涉及到使用Scrapy和解析web中的一些数据时，csv输出看起来很尴尬(如果csv是从默认命令派生的，就像在scrapy crawl toscrapesp -o items.csv -t csv中那样)。在这类CSV文件中发现的结果是，两行之间有一个一致的间隙，这意味着每两行之间都有一个行间距。我用下面的脚本修复了它。我没有使用默认命令来获得CSV输出；相反，我在spider类中编写了几行代码，并获得了所需的输出。虽然它运行顺利，但我不确定这是

浏览 0提问于2017-09-16得票数 1

1回答

如何在刮除的settings.py中启用覆盖输出文件？

、、、

正如可以在中找到的那样，它声明：新版本2.4.0。覆盖:如果文件已经存在，是否覆盖它(True)或附加到它的内容(False)。我在我的scrapy-project的scrapy文件中插入了以下内容： FEEDS = {"overwrite": True} 这导致执行scrapy crawl quotes_splash -o Outputs/quotes_splash.json时出现以下错误输出 (scrapy_course) andylu@andylu-Lubuntu-PC:~$ scrapy crawl quotes_splash -o Outputs/quo

浏览 1提问于2020-12-02得票数 1

回答已采纳

5回答

在脚本文件函数中获取Scrapy crawler输出/结果

、、、、

我使用脚本文件在scrapy项目中运行爬行器，并且爬行器记录爬虫的输出/结果。但是我想在脚本文件中使用爬行器输出/结果，在某些函数中，.I不想将输出/结果保存在任何文件或DB中。下面是从获取的脚本代码 from twisted.internet import reactor from scrapy.crawler import CrawlerRunner from scrapy.utils.log import configure_logging from scrapy.utils.project import get_project_settings configure_logging({

浏览 3提问于2016-10-25得票数 12

3回答

抓取从文件到抓取的URL列表？

、

我刚刚安装了scrapy，并遵循了他们的简单dmoz ，它可以工作。我只是查找了python的基本文件处理，并试图让爬虫从文件中读取URL列表，但得到了一些错误。这可能是错误的，但我尝试了一下。有没有人能给我举个例子，把URL列表读成scrapy？提前谢谢。 from scrapy.spider import BaseSpider class DmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] f = open("urls.txt")

浏览 0提问于2011-12-05得票数 14

回答已采纳

1回答

无法通过管道重命名下载的映像而不使用item.py

、、、、

我创建了一个脚本，使用python的scrapy模块从一个洪流站点下载并重命名多个页面上的电影图像，并将它们存储在桌面文件夹中。在下载这些图像并将其存储在桌面文件夹中时，我的脚本也是一样的。然而，我现在所要做的是动态地重命名这些文件。由于我没有使用item.py文件，而且我也不希望这样做，我很难理解pipelines.py文件的逻辑将如何处理重命名过程。我的蜘蛛(It downloads the images flawlessly)： from scrapy.crawler import CrawlerProcess import scrapy, os class YifySpider(s

浏览 0提问于2019-02-17得票数 0

回答已采纳

1回答

我如何“重新解析”记录在数据库中的html页面？

、、

我用Scrapy在我的数据库中记录了html页面。我想用同样的管道对它们进行修复。如何从数据库中获取页面，使其遵循与普通Scrapy管道相同的管道？

浏览 1提问于2017-08-17得票数 0

回答已采纳

1回答

运行多个CrawlSpider实例

、、

我刚刚开始使用刮伤，我想做以下几件事 Have a list of n domains i=0 loop for i to n Use a (mostly) generic CrawlSpider to get all links (a href) of domain[i] Save results as json lines 要做到这一点，蜘蛛需要接收它必须作为参数爬行的域。我已经成功地创建了CrawlSpider： from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider,

浏览 1提问于2018-02-26得票数 1

回答已采纳

2回答

如何运行刮刀多次，同时，在不同的输入网站和写入不同的输出文件？

、、

有谁知道我如何在不同的网站上运行相同的刮刀200次，每个网站都有各自的输出文件？通常在Scrapy中，当从命令行通过键入-o filename.json.来运行输出文件时，可以指示输出文件。

浏览 14提问于2015-11-10得票数 1

1回答

Scrapy:自定义记录器似乎覆盖了Scrapy记录器，并且沉默了Scrapy记录器输出。

、、、

我正在尝试将我自己的伐木者与我的Scrapy项目集成起来。期望的结果是将我的自定义记录器和Scrapy记录器的输出记录到所需的日志级别上的stderr。我观察到以下情况：任何使用自己的记录器的模块/类似乎都覆盖了Scrapy记录器，因为从相关模块/类中提取的Scrapy日志似乎完全处于沉默状态。每当我禁用对自定义记录器的所有引用时，都会确认上述情况。对于exmaple，如果我没有在forum.py中实例化我的自定义记录器，Scrapy包将继续向stderr发送日志输出。我在install_root_handler=True和install_root_handle

浏览 0提问于2021-11-12得票数 0

回答已采纳

1回答

无法导入Scrapy的设置模块或其scrapy.cfg

、、、

这是一个相当长的帖子，但经过广泛的研究，我找不到解决办法。我在OSX10.8上有一个混合Django 1.4.1 /Scrapy0.14.4项目，我使用Django项目的manage.py命令控制Scrapy，如描述的。例如，调用 python manage.py scrapy crawl example_spider 没有问题。现在，我想设置scrapyd web服务来部署我的蜘蛛。但是，当我执行 python manage.py scrapy server 然后我得到了这个例外： scrapy.exceptions.NotConfigured: Unable to find scrapy

浏览 7提问于2012-08-31得票数 10

1回答

CrawlerRunner()未通过scrapy的管道文件

、、

我正在尝试从Django调用scrapy spider，views.py file.The spider确实被调用了，但它的输出显示在命令提示符中，并且没有保存在Django模型中以将其呈现到页面上。我单独检查了运行爬虫以验证scrapy和Django是否连接并且工作正常，但当使用CrawlerRunner()脚本进行自动化时，它不能正常工作。所以在Django Views.py文件的CrawlerRunner()实现中缺少一些组件。下面是调用爬行器的Django Views.py文件： @csrf_exempt @require_http_methods(['POST',

浏览 44提问于2020-02-01得票数 0

回答已采纳

5回答

如何在Scrapy (Python)中关闭日志记录

、、

我已经使用Scrapy创建了一个蜘蛛，但是我不知道如何关闭默认的日志记录。从看来，我应该可以通过以下操作来关闭它 logging.basicConfig(level=logging.ERROR) 但这没有效果。从logging.basicConfig()的代码来看，我猜想这是因为“根记录器配置了处理程序”，但我可能错了。无论如何，有谁能解释一下我需要做什么才能让Scrapy不像往常那样输出？ 2015-10-18 17:42:00 [scrapy] INFO: Scrapy 1.0.3 started (bot: EF) 2015-10-18 1

浏览 3提问于2015-10-18得票数 21

回答已采纳

2回答

无法使Scrapy管道工作

、、、、

我使用Scrapy框架编写了一个爬行器。我遇到了一些问题，任何管道都无法正常工作。我的pipelines.py中有以下代码： class FilePipeline(object): def __init__(self): self.file = open('items.txt', 'wb') def process_item(self, item, spider): line = item['title'] + '\n' self.file.write(line)

浏览 3提问于2010-11-04得票数 8

回答已采纳

1回答

如何将蜘蛛中的私有数据发送到管道中？

比方说，每次我像下面这样跑的时候 scrapy crawl [spidername] -a file='filename' 我希望将文件名发送到管道以指定项存储位置。每次位置可能不同，所以不能在settings.py中定义。在蜘蛛中保存为私有var的文件 def __init__(self,file): self.filename=file 如何将参数发送到管道？

浏览 4提问于2022-10-16得票数 0

回答已采纳

1回答

刮擦:在输出中保留刮过的项目的原始顺序。

、

我有下面的Scrapy蜘蛛从文件url.txt中的urls列表中获取页面的状态 import scrapy from scrapy.contrib.spiders import CrawlSpider from pegasLinks.items import StatusLinkItem class FindErrorsSpider(CrawlSpider): handle_httpstatus_list = [404,400,401,500] name = "findErrors" allowed_domains = ["domain-na

浏览 2提问于2015-05-12得票数 2

回答已采纳

1回答

如何从我的main.py脚本访问我的蜘蛛数据？

、、

假设我已经用这个文件夹结构启动了一个Scrapy项目： .root ├── main.py ├── scrapy.cfg ├── app │ ├── items.py │ ├── middlewares.py │ ├── pipelines.py │ ├── settings.py │ └── spiders │ ├── my_spider.py 因此，在main.py文件中，我有： #!/usr/bin/env python import scrapy from app.spiders.my_spider import MySpider from scrapy.crawle

浏览 0提问于2019-05-12得票数 0

1回答

使用参考列表从PHP/Delphi中调用scrapy

、、

我正在建立一个刮破蜘蛛，检查是否有库存的一些产品在网上商店。这个想法是从PHP/Delphi代码中调用这个蜘蛛，传递一个产品列表(3500个引用)。然后，蜘蛛返回另一个包含股票信息的列表。这是我的蜘蛛 import scrapy from scrapy.crawler import CrawlerProcess class Spider(scrapy.Spider): name = "Spider" start_urls = ['https://www.url.net/Administration/Account/Login']

浏览 1提问于2017-02-22得票数 0

回答已采纳

1回答

下载图像并将其存储到单独的文件中

、

我想从网上下载图片，并根据图片的标题名称将它们存储到单独的文件中。我开发了一个刮刀器来获取到这些图像的链接，但是当我包含files_pipeline时，我不能在下载每个图像时将.png附加到每个图像中，而不能将名称从SHA1哈希码更改为我在title中提取的名称。到目前为止，我的情况如下： import scrapy from scrapy_playwright.page import PageCoroutine from scrapy.item import Field from scrapy.loader import ItemLoader from itemloaders.proces

浏览 8提问于2022-02-23得票数 0

1回答

将抓取日志输出流式传输到websocket

、、、

我正在尝试建立一个API，将运行时，通过websocket消息请求Scrapy网络蜘蛛。我想将日志记录输出转发到websocket客户端，这样您就可以看到--有时是相当长时间--运行的进程中发生了什么。完成后，我还将发送抓取的结果。因为可以在进程内运行Scrapy，所以我想这样做。我在这里找到了一种解决方案，可以将外部进程流式传输到websocket，但如果可以在服务器内运行Scrapy，这似乎是不正确的。我可以想象有两种方法可以在Twisted中工作:以某种方式使用LogObserver，或者定义一个LogHandler (可能是使用StringIO的StreamHandler )，

浏览 4提问于2015-11-27得票数 4

3回答

用utf-8编码转换Scrapy json响应

、、、

我编写了以下代码，用于从站点中删除数据。 import scrapy from porua_scrapper.items import Category from porua_scrapper.config import SITE_URL class CategoriesSpider(scrapy.Spider): name = "categories" start_urls = [] for I in range(2): url = SITE_URL + "book/categories?page=" + str(I

浏览 4提问于2017-01-04得票数 8

回答已采纳

1回答

无法用Python与Scrapy(1.5.1)发送电子邮件

、、

我是Python和Scrapy的新手。我想要做的就是发送一封简单的电子邮件，只使用Scrapy。我已经从创作者的网页上读到了，我一定是遗漏了什么，但我不能完全把手指放在上面。以下是代码： from scrapy import mail mailer = mail.MailSender(smtphost='smtp-mail.outlook.com', mailfrom='someone@hotmail.com', smtpuser='someone@

浏览 1提问于2018-09-20得票数 1

回答已采纳

1回答

Scrapy:如何更改图像名称

我正在用scrapy做一个项目。我在html中获得了图像名称和图像url，如何使用该名称而不是哈希名来命名此图像？我得到了这个网址：，它的名字是: iBook，我希望我的scrapy下载这张图片，并将其重命名为iBook。

浏览 1提问于2013-01-05得票数 0

1回答

Scrapy框架- Colorize日志记录

、、、

我正在尝试让Scrapy输出彩色日志。我对Python日志记录不是很熟悉，但我的理解是我必须制作自己的格式化程序，并让Scrapy使用它。我成功地使用Clint制作了一个格式化程序来对输出进行着色。我的问题是我不能让它在Scrapy中正常工作。我本以为爬行器中的记录器对象会有一个处理程序，然后我会切换该处理程序的格式化程序。当我查看spider.logger.logger内部的内容时，我发现handler是一个空列表。我尝试在一个新的流处理程序中添加我的格式化程序。 crawler.spider.logger.logger.addHandler(sh)，其中sh是使用我的颜色格式化程序的处理

浏览 8提问于2017-02-08得票数 4

回答已采纳

1回答

运行蜘蛛:错误:找不到文件：-刮伤

、

在完成正式任务后，我决定尝试在同一个项目中建造自己的蜘蛛。我在蜘蛛中创建了parker_spider.py，它包含： start_urls = [ "myurl" ] class Parker_Spider(scrapy.Spider): name = "parker" def make_requests(self): for i in range(self.max_id): yield Request('myurl', method="post",

浏览 4提问于2016-05-26得票数 5

回答已采纳

7回答

如何保存Scrapy crawl命令输出

、

我正在尝试保存scrapy crawl命令的输出，我已经尝试过scrapy crawl someSpider -o some.json -t json >> some.text，但它不起作用，有人告诉我如何将输出保存到文本文件中...我的意思是通过scrapy打印的日志和信息……我正在尝试保存scrapy crawl命令的输出，但它不起作用。

浏览 5提问于2013-05-20得票数 12

回答已采纳

3回答

采伐抓取

、、、

我很难在刮刮中登录，而且我能找到的大部分东西都过时了。我已经在LOG_FILE="log.txt"文件中设置了settings.py，并且从文档中可以这样做： Scrapy在每个Spider实例中提供了一个记录器，可以这样访问和使用： import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://scrapinghub.com'] def parse(self, response):

浏览 3提问于2016-07-16得票数 14

回答已采纳

2回答

Scrapy:使用特定的python版本

、、、

我试着在我的centOs中运行scrapy。由于centos附带安装了python2.6，而scrapy需要python2.7，所以我尝试创建虚拟环境并在其中运行scrapy，但仍然出现错误 Scrapy 0.24.4 requires Python 2.7. 以下是我关于启动爬行器的输出 (scrapyproject)[imadmin@IM03 tutorial]$ python --version Python 2.7.6 (scrapyproject)[imadmin@IM03 tutorial]$ scrapy gen_spider Scrapy 0.24.4 requires Pyt

浏览 0提问于2014-11-04得票数 3

1回答

一次运行Scrapy脚本，处理输出，并加载到数据库？

、

我已经成功地编写了一个从网页抓取数据的Scrapy项目，当我在命令行使用scrapy crawl dmoz -o items.json -t json调用它时，它成功地将抓取的数据输出到JSON文件中。然后，我编写了另一个脚本，获取该JSON文件，加载它，更改数据的组织方式(我不喜欢它的默认组织方式)，并将其作为第二个JSON文件输出。然后使用Django的manage.py loaddata fixture.json命令将第二个文件的内容加载到Django数据库中。现在，我感觉到我会因为在三个独立的步骤中做这件事而被嘲笑，但我不太确定如何将所有这些都放在一个脚本中。首先，我不能让我的Sc

浏览 0提问于2013-02-03得票数 1

回答已采纳

1回答

从网站下载json文件？

、、、

我试着创建一个爬行器从一个网站下载一些json文件- 这是我的抓取蜘蛛：(首先测试了蜘蛛-所以它只输出到json文件的链接，这很好--请参阅下面的注释代码)，但是我想下载json-文件到我的pc上的一个文件夹。 import scrapy class spiderWords(scrapy.Spider): name = 'spiderWords' allowed_domains = ['kaikki.org'] start_urls = ['https://kaikki.org/dictionary/Spanish/words.html&#

浏览 2提问于2021-12-20得票数 -1

回答已采纳

4回答

AttributeError：“module”对象没有属性“”update_settings“”scrapy 1.0.5“”

、、、

crawler在命令行中运行良好，并显示以下错误： 2016-03-30 03:47:59 [scrapy] INFO: Scrapy 1.0.5 started (bot: scrapybot) 2016-03-30 03:47:59 [scrapy] INFO: Optional features available: ssl, http11 2016-03-30 03:47:59 [scrapy] INFO: Overridden settings: {'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Window

浏览 3提问于2016-03-30得票数 5

1回答

ImportError:无法从“scrapy”导入名称“”log“”

、、

尝试运行我的scrapy脚本，并显示以下错误代码： C:\Users\r\PycharmProjects\Wordpress_Auto_Post_Project\venv\Scripts\python.exe C:/Users//PycharmProjects/Wordpress_Auto_Post_Project/terminal_news/terminal_news/core.py Traceback (most recent call last): File "C:/Users/r/PycharmProjects/Wordpress_Auto_Post_Project/ter

浏览 27提问于2020-05-21得票数 1

回答已采纳

1回答

Python *self.args，**self.kwargs在类内导致错误。

、、、、

我一直试图制作一个简单的工具来帮助我提出独立的请求，以便在我的脑海中更流畅地使用刮伤，但我一直遇到了一个错误，我不知道如何绕过它。我知道其他提出请求的方法，但我想尝试其他的方法，我知道这方面的工作，但这需要大量的体力劳动，我更愿意找出错误的原因。代码： class Request(scrapy.Request): def __init__(self, *args, **kwargs): process = CrawlerProcess({}) process.crawl(self._Request, args=args, kwargs=kwargs)

浏览 2提问于2019-12-27得票数 0

回答已采纳

2回答

Scrapy Spider Crawl 0页

、、

我试图用Scrapy从网站中提取json数据，但我遇到了一些问题，比如当我运行我的爬行器时，没有给出错误，并且说爬行了0个页面。我还使用该命令将de输出存储到json文件中，以查看输出。下面的代码是我的爬虫： import scrapy class WineSpider(scrapy.Spider): name = "SpidyWine" i = 0 url = 'https://maiscarrinho.com/api/search?q=vinho&pageNumber=%s&pageSize=10' start_urls = [url %

浏览 1提问于2016-11-05得票数 1

1回答

如何从清单中循环URL，并仅输出要下载到XML/TXT文件中的响应体

、、、、

我有这个问题，我已经尝试过管道方法，但我不确定我是否做得对，基于教程，因为大多数选择器从response.body中选择一些部分。但是，我可以在一个独立的脚本上解析它，该脚本为我提供了我所需要的所有数据，因为数据被其他变量混淆了。因此，我只需要将response.body转储到.XML或.TXT中即可。当它是一个url时，我可以这样做，但是当我介绍各种URL时，它会覆盖最终的解析。我相信如果不使用管道/Items.py，可能会有一个更简单的解决方法，因为我只需要response.body。原谅契约，因为它很难复制。 linkarr = df['URLOUT'].tolis

浏览 17提问于2022-06-28得票数 0

回答已采纳

1回答

使用scrapy抓取时处理pdf文档

、、、、

我想解析的PDF文件，遇到时，爬行网站使用scrapy。我使用下面的代码从PDF文档中提取HTML页面源代码，但它不起作用 a = response.xpath("//html").extract() 如何从PDF文档中获取内容并将其合并到scrapy工作流中？

浏览 1提问于2015-02-13得票数 0

2回答

使用Scrapy和Django集成进行抓取

我是刚来姜戈的。我正在关注链接。但是当我在终端中运行scrapy crawl示例命令时，它给出了错误。我不明白我的代码中有什么问题。 import scrapy from example_bot.example_bot.items import ExampleDotcdComItem class ExampleSpider(scrapy.Spider): name = "example" start_urls = [ 'https://www.pakwheels.com/used-cars/' ] def pa

浏览 2提问于2019-09-29得票数 0

3回答

使用scrapy以自定义方式写入csv文件

、、、、

我编写了一个脚本，从一个网站的不同页面抓取不同的names和links，并在一个csv文件中编写这些解析的项目。当我运行我的脚本时，我得到相应的结果，并找到一个填充在csv文件中的数据。我使用python3.5，所以当我使用scrapy的内置命令在csv文件中写入数据时，我确实得到了一个csv文件，在每个备用行中都有空行。最后，我尝试了下面的方法来实现完美的输出(中间没有空行)。现在，它产生一个csv文件修复空行问题。我希望我做得对。但是，如果我能/应该做什么来使它更加健壮，我很乐意应付。这是我的脚本，它在csv文件中为我提供了完美的输出： import scrapy ,csv from s

浏览 0提问于2018-06-29得票数 5

回答已采纳

3回答

针对本地文件的刮取外壳

、、、、

在Scrapy1.0之前，我可以很简单地对本地文件运行Scrapy： $ scrapy shell index.html 升级到1.0.3之后，它开始抛出一个错误： $ scrapy shell index.html 2015-10-12 15:32:59 [scrapy] INFO: Scrapy 1.0.3 started (bot: scrapybot) 2015-10-12 15:32:59 [scrapy] INFO: Optional features available: ssl, http11, boto 2015-10-12 15:32:59 [scrapy] INFO: O

浏览 3提问于2015-10-12得票数 8

回答已采纳

2回答

如何使用python中的scrapy解析来自google警报的数据？

、、、

我创建了一个Google警报来生成一个类似于这个的RSS提要现在如何使用scrapy从提要中的每个条目中提取标题、href、发布日期和内容？我试过： import scrapy class GalertCovidSpider(scrapy.Spider): name = 'galert-covid' allowed_domains = ['https://www.google.co.in/alerts/feeds/17901041985790143983/2214023096042963178'] start_urls = [&#

浏览 5提问于2022-01-19得票数 0

1回答