如何在scrapy中获得所有具有适当格式的帖子文本？

在Scrapy中获得所有具有适当格式的帖子文本，可以通过以下步骤完成：

首先，确保已经安装了Scrapy并创建了一个新的Scrapy项目。
在Scrapy项目中，打开spiders目录下的Spider文件，通常是以.py结尾的文件。
在Spider文件中，定义一个新的爬取规则（Rule），指定要提取的帖子文本的URL规则。
- 可以使用正则表达式或XPath来匹配帖子的URL。例如，使用正则表达式匹配帖子URL：
- 可以使用正则表达式或XPath来匹配帖子的URL。例如，使用正则表达式匹配帖子URL：
- 如果网站的URL格式是有规律的，也可以使用scrapy.spiders模块中的CrawlSpider类来实现更复杂的爬取规则。

在Spider文件中，实现parse_post方法来解析帖子文本。
- 使用XPath或CSS选择器从响应中提取帖子文本。例如，使用XPath提取帖子标题和内容：
- 使用XPath或CSS选择器从响应中提取帖子文本。例如，使用XPath提取帖子标题和内容：
- 可以进一步处理帖子文本，如清洗、去除标签等。
运行Scrapy项目并查看提取的帖子文本。
- 在命令行中，切换到Scrapy项目目录，并运行以下命令：
- 在命令行中，切换到Scrapy项目目录，并运行以下命令：
- Scrapy将开始爬取网站，并将提取的帖子文本打印出来或保存到文件中，具体根据代码实现而定。

通过以上步骤，你可以在Scrapy中获得所有具有适当格式的帖子文本。需要注意的是，具体的代码实现和提取规则将根据不同的网站和需求而有所不同。

对不需要的URL进行快速解析

、

我在和Scrapy刮apartments.com我得到了一些不想要的结果。具体地说，我从附近的城市和西班牙语版本的apartments.com获得了结果。在每个公寓列表的底部，都有一个“附近的公寓”功能，这可能是Scrapy在波士顿以外的地方获得搜索结果的原因。我试图用我的拒绝规则阻止/es/ listings，但它似乎不起作用。 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from apt.items import AptI

浏览 0提问于2021-03-08得票数 1

1回答

属性错误响应对象没有属性“”text“”

、、

我正在尝试使用python scrapy工具从bitcointalk.org网站提取关于用户的信息和他们在论坛上发布的公钥以进行捐赠。我在网上找到了这段代码，并对其进行了更改，使其可以在我想要的网站上运行，但我遇到了一个错误，即AttributeError响应对象没有属性文本。下面是供参考的代码 class BitcointalkSpider(CrawlSpider): name = "bitcointalk" allowed_domains = ["bitcointalk.org"] start_urls = ["https://bitcoint

浏览 0提问于2016-08-01得票数 0

3回答

尝试使用Scrapy从表中提取数据

、、

我在Vista64位上使用的是Python.org 2.7版本。我有目前的Scrapy代码，现在可以很好地提取文本，但我有点卡住了，因为我不知道如何从网站的表格中获取数据。我已经在网上找过答案了，但我还是不确定。举个例子，我想获取下表中包含的韦恩·鲁尼的得分统计数据：我目前的代码是这样的： from scrapy.spider import Spider from scrapy.selector import Selector from scrapy.utils.markup import remove_tags from scrapy.cmdline import execute impo

浏览 0提问于2014-07-13得票数 1

1回答

如何在本地文件上使用Scrapy而不获取robot.txt错误？

、

我试图让Scrapy刮本地文件，而不是使用HTTPS的URL网站。我发现了一些与robots.txt文件相关的错误： 2020-07-13 23:58:43 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET file:///robots.txt> (failed 3 times): [Errno 2] No such file or directory: '/robots.txt' 2020-07-13 23:58:43 [scrapy.downloadermiddlewares.ro

浏览 2提问于2020-07-17得票数 1

回答已采纳

1回答

如何在wordpress 3.5中为post格式(特别是引号)制作页面

、

我试图创建的能力，为最终用户添加引号(推荐信)作为帖子。到现在为止还好。我已经在我的主题中启用了“引号”后格式。所以有能力输入这些推荐信，我甚至想出了如何在侧边栏中显示一些随机引号。下一个明显的步骤是有一个“推荐信”页面，所有的引文都会随着时间的推移而归档。它需要成为一个页面的能力，这意味着客户端可以修改页面中的文本，并且可以在菜单和页面上链接到它。在开头(可编辑)文本之后，将出现一个引号列表，就像一个归档页面，除了整个引号都在页面上。因此，在某一时刻，它必须被传呼。有什么想法吗？

浏览 0提问于2013-05-29得票数 0

回答已采纳

2回答

无法运行Python的scrapy

、、

我不熟悉这个平台，也不熟悉Python抓取。我希望我的问题仍然是可以理解的，并且有人可以帮助我。抱歉，以防我说得不清楚... 我已经查看了类似主题的其他帖子，但无法克服我的问题。我目前正在进入网络抓取，并想尝试Scrapy。因此，我遵循了网站上的安装说明。在我弄清楚它是如何工作的之后，我决定在一个虚拟环境中运行。我安装了virtualenv和pip。然后我安装了Scrapy。当我现在想开始学习本教程时 scrapy startproject tutorial 我得到以下错误消息： File "/Users/XXX/environment_trial/bin/scrapy&#

浏览 1提问于2013-05-20得票数 2

回答已采纳

3回答

Scrapy:覆盖以前导出文件的命令

、、、

设置我通过终端中的标准命令(Mac )将数据导出到.csv文件。 scrapy crawl spider -o spider_ouput.csv 问题导出新的spider_output.csv时，Scrapy将其附加到现有的spider_output.csv中。我能想到两种解决方案，命令Scrapy覆盖而不是追加命令终端在爬行之前删除现有的spider_output.csv 我已经读到(令我惊讶的是) Scrapy目前要做的 1。有些人提出了，但我似乎不能让工作。我已经找到了解决方案2的，但也无法让它工作。有人能帮我吗？也许还有第三种解决办法我还没有想到呢？

浏览 18提问于2017-04-25得票数 3

回答已采纳

1回答

如何在Scrapy中创建自定义ResponseType？

、

我对在我的项目中添加一个自定义的ResponseType来扩展Scrapy很感兴趣。现在，我想添加一个PDF类型，它将使用PDFMiner返回文档的纯文本和结构(包括链接)。我可能希望稍后添加其他文档类型。从mime类型到响应类的映射看起来发生在中--特别是ResponseTypes中的CLASSES字典。然而，目前还不清楚是否/如何使用自定义响应类覆盖它。该文件末尾的responsetypes变量在其他几个地方被直接引用，我在Scrapy项目设置中看不到任何对该类的引用。此外，我在Scrapy文档中找不到任何关于如何做到这一点的内容。当然，我可以派生Scrapy并使用自己定义的自定义类版

浏览 0提问于2019-09-25得票数 0

1回答

刮伤返回403错误(禁止)

、、、

我对Scrapy和使用Python都很陌生。在过去，我成功地得到了一个极小的Scrapy工作的例子，但从那以后就再也没有使用过它。同时，一个新版本已经发布(我认为我上次使用的版本是0.24)，我无法从我的生活中，弄清楚为什么我会得到一个403错误，无论我试图爬哪个网站。诚然，我还没有深入研究中间件和/或管道，但我希望能够在进一步探索之前得到一个最小的示例。话虽如此，这是我目前的代码： items.py import scrapy class StackItem(scrapy.Item): title = scrapy.Field() url = scrapy.Field() s

浏览 4提问于2016-03-07得票数 2

回答已采纳

1回答

如何在截击或改装中收到确认？

、、、、

我想将一些数据发送到MySQL数据库。服务器端代码将确定数据是否有效，并以该确定作为响应。收到此响应后，应用程序端代码必须决定是否需要重试或继续。我尝试过回调、RequestFuture和spin-waiting，但似乎这种类型的功能在Volley中是不可能实现的(根据服务器响应做出决策)。有没有其他人成功地实现了这种类型的功能？主线程 postCampaign(campaign); if (//data was invalid) { //do postCampaign(campaign) again } 主线程 private void postCampaign(final Cam

浏览 0提问于2017-12-28得票数 0

3回答

如何从我们的application+ iphone打开其他应用程序

我看过类似的帖子，但找不到任何答案。请告诉我这是否可能？

浏览 1提问于2010-12-30得票数 2

回答已采纳

2回答

从爬行器返回嵌套结构

、

我正在研究如何让scrapy返回一个嵌套的数据结构，因为我能找到的唯一例子就是处理平面结构。我正在尝试抓取一个论坛，它由一个线程列表组成，每个线程都有一个帖子列表。我可以成功地抓取线程列表和帖子列表，但我不确定如何将所有帖子附加到线程中，而不是将所有帖子混杂在一起。最后，我的目标是输出如下： <thread id="1"> <post>Post 1</post> <post>Post 2</post> </thread> <thread id="2">

浏览 5提问于2015-08-12得票数 2

3回答

抓取/抓取包含特定文本的网站/网页，没有关于任何此类网站/网页的事先信息

、、、、

我用的是nutch和scrapy。它们需要种子URL才能爬行。这意味着，人们应该已经意识到包含正在搜索的文本的网站/网页。我的情况不同，我没有包含我正在搜索的文本的网站/网页的事先信息。所以我不能使用种子URL来被像nutch和scrapy这样的工具抓取。有没有一种方法可以抓取给定文本的网站/网页，而不需要知道任何可能包含该文本的网站/网页？

浏览 0提问于2016-01-20得票数 0

1回答

如何在Scrapy-Splash中使用splash:mouse_press

我正在尝试点击一个网站上的显示按钮，但没有成功，我真的不知道怎么做，但我遇到了一个可能工作的东西，splash:mouse_press。这将与scrapy-splash一起工作吗?如果可以，我该如何实现它？ import scrapy from scrapy.spiders import Spider from scrapy_splash import SplashRequest from ..items import NameItem class LoginSpider(scrapy.Spider): name = "LoginSpider" start_

浏览 30提问于2019-06-28得票数 0

回答已采纳

1回答

如何在Spyder或VScode中使用Scrapy

、

我希望你们都很好，做得很好。我想在Spyder中使用Scrapy，而不是通过终端/shell使用它。我是一个windows用户，Scrapy版本1.8.0，pyhton 3.7.3，我正面临着BeautifulSoup的问题。例如，我试图从一个网站获取一个产品的价格，问题是它并不总是得到数据，但Scrapy在这里通过使用CSS选择器工作得很好。所以我想将Scrapy与Spyder或Vscode一起使用，因为我还有其他依赖于Scrapy输出的代码。

浏览 69提问于2019-12-14得票数 0

回答已采纳

1回答

在抓取网页时无法访问链接

、、、

我意识到其他人也讨论过类似的主题，但读了这些帖子后，我仍然无法解决我的问题。我正在使用Scrapy编写一个爬虫蜘蛛，应该抓取搜索结果页面。一个例子可能是CraigsList.org上湾区的所有1间卧室公寓的结果。它们可以在以下位置找到：这显示了旧金山湾区的第一批100套一居室公寓。第201至300套公寓在此页面在接下来的100个页面中，"&s=100“将改为"&s=200”，等等。假设我想要每个页面上第一个帖子的名称和结果。我知道这不是很有意义，但这只是一个简单的例子。我的问题是如何编写规则，使"&s=100“递增到"&

浏览 0提问于2013-06-07得票数 0

回答已采纳

1回答

Scrapy FormRequest不适用于信用卡登录表单

我无法让Scrapy爬虫抓取我的Discover帐户页面。我是新来Scrapy的我已经阅读了所有相关文档，但似乎无法正确提交表单请求。我已经添加了表单名称、userID和密码。 import scrapy class DiscoverSpider(scrapy.Spider): name = "Discover" start_urls = ['https://www.discover.com'] def parse(self, response): return scrapy.FormRequest.from_res

浏览 1提问于2018-12-27得票数 0

5回答

如何在python中仅提取scrapy选择器中的文本？

、

我有这个代码 site = hxs.select("//h1[@class='state']") log.msg(str(site[0].extract()),level=log.ERROR) 输出结果是 [scrapy] ERROR: <h1 class="state"><strong> 1</strong> <span> job containing <strong>php</strong> in <st

浏览 2提问于2012-11-21得票数 20

回答已采纳

1回答

无法使用Scrapy从网页加载和刮取数据

、、

我试图使用Python中的Scrapy框架从中抓取数据，但是当我在 scrapy shell 并尝试学习如何提取数据，使用 response.css("my css path") 或 response.xpath("my xpath") 我总能得到空名单。然后，当我在的shell中获取和查看响应时，我会得到一个几乎空白的页面，它不包含我想要刮掉的数据(项目、价格等)。在这种情况下，Scrapy还会为我的目的工作吗？若否，是否有其他选择？谢谢!

浏览 1提问于2018-07-29得票数 0

回答已采纳

2回答

使用scrapy将抓取的项目保存到json/csv/xml文件

、

我正在从他们的学习(一个网络爬行框架)。通过以下示例和文档，我创建了我的爬行器，以便使用站点地图抓取数据 from scrapy.contrib.spiders import SitemapSpider from scrapy.selector import Selector from MyProject1.items import MyProject1Item class MySpider(SitemapSpider): name="myspider" sitemap_urls = ['http://www.somesite.com/sitemap

浏览 2提问于2014-02-04得票数 4

2回答

Python Scrapy字典项目

、、、、

有没有可能制作一个Python Scrapy爬虫来抓取整个网站，创建一个字典，在一个列中包含网站中使用的每个单词，并在它旁边的列中显示每个单词的所有实例的URL？如果是，是如何实现的？我假设爬行器应该不断地抓取每个URL，将HTML转换为纯文本，然后将每个字符串划分为列表项，创建一个列表，然后只向该列表添加以前没有添加过的项。但是，同时，它也应该知道哪些条目已经添加到列表中，以及它们的位置，当它抓取一个与列表中已经存在的单词相同的单词时，记住它的URL并将其添加到包含URL的列中。我已经创建了一个爬行器(如下所示)，它列出了所有URL和每个URL处找到的所有纯文本，但是我的编程技能还不够

浏览 12提问于2020-04-28得票数 0

1回答

如何在Ubuntu 16.04的Scrapy中设置全局设置？

、、

设置在"scrapy.settings.default_settings“模块中，但我找不到。它是文本文件还是什么？如何访问？

浏览 0提问于2018-05-13得票数 0

1回答

python \X_{若干文本}中的打印下标

、、

我正在寻找在python中打印下标的方法。到目前为止，我只找到了下标包含数字的帖子。相反，我在寻找一种编写任意文本的方法 X_{一些随机文本} 有人知道怎么做吗？编辑:我在jupyter笔记本中用Tkinter创建了一个GUI。GUI应该包含带有下标的文本

浏览 2提问于2020-04-17得票数 0

1回答

如何在处理Retina大小的图像时应用alt文本？

、、、、

有没有一种合适的方法将alt文本添加到背景图像中，或者，我如何为我正在使用这种技术的图像提供alt文本？我曾考虑过使用retina.js来解决这个问题，但后来我开始使用带宽来处理常规大小的图像和双倍大小的图像。我知道在stackoverflow和其他地方还有其他讨论alt文本和背景图片的帖子，但我发现的帖子可以追溯到视网膜显示之前。我看过一些帖子说alt文本不应该应用于背景图片，那么人们有什么建议呢？

浏览 0提问于2014-04-25得票数 0

2回答

剪贴式项目更改列名

、、

有没有办法在csv输出中更改列名，例如，我有这样的scrapy项： import scrapy class Myitems(scrapy.Item): recordi = scrapy.Field() 在我的爬虫脚本中，我使用了： item['recordi'] = .... 我使用scrapy命令 scrapy crawl myspider -o data.csv 并且data.csv中的列名也是recordi，所以我的问题是，我可以更改列名吗? scapy.Field()是否有任何参数，我可以在其中定义列名，如果它保留recordi字段名，但列名应该是recor

浏览 16提问于2021-10-21得票数 1

2回答

无法在Scrapy中找到选择器的路径

、、、

使用Scrapy找到CSS或Xpath从HTML响应中获取特定元素的路径的最佳方法是什么？我正在尝试从收集数据。我正在使用Scrapy (我对它相当陌生)。我试图找到data-testid="tweet"下的tweet的选择器路径，但是我在刮擦外壳上尝试的每一条路径都会给出一个none_type结果。我第一次尝试自己写这条路，但我想我做错了。然后，我尝试右击并复制路径(我使用CSS和Xpath都尝试过)，但仍然没有成功。我提到了堆栈溢出帖子，但这也不起作用。

浏览 7提问于2020-03-11得票数 0

2回答

如何从Scrapy选择器中删除子元素？

、、

我试着用Scrapy抓取一些论坛文章的内容，我想排除前一篇文章中引用的文本。我很幸运，网站标记这个引用的文本非常清楚(它在“区块引号”标签内)，但我不知道如何获得所有的文本，而不是一个区块引号标签。下面是论坛帖子结构的一个例子。在这个特定的帖子中，用户会写一些东西，然后引用上一篇文章，然后再写更多。基本上，我想去掉的标签夹在我想要的内容之间。更常见的是，引用的文本将是第一，新的文本将随后，但我需要能够处理这种奇怪的情况，以及。我尝试使用w3lib remove_tags： from w3lib.html import remove_tags, remove_tags_with_content

浏览 6提问于2021-11-08得票数 0

回答已采纳

2回答

-t开关在刮擦中做什么？

、、

在scrapy教程中，我们说为了将输出保存到csv或任何其他格式，我们应该使用以下命令： scrapy crawl spider -o result.csv -t csv 通常，我们可以使用以下命令： scrapy crawl my_spider -o file_name.extension -t extension 但是我在没有-t的情况下使用了这个命令，没有问题： scrapy crawl spider -o result.csv 我的问题是-t的角色是什么？

浏览 2提问于2015-06-16得票数 3

回答已采纳

1回答

如何在猫鼬中裁剪文件文本？

、、

我有以下模式： var PostModel = mongoose.model('PostModel', { text : {type : String, default: ''}, created_at : Date }); text字段可能很长(大约1000个字符)。当我查询我的帖子列表页面上的帖子时，我需要查询所有只有150个字符的text字段的帖子。哪种方法是最好的方法？是否可以使用猫鼬本身进行剪切，还是应该在使用PostModel.find() in success callback检索文本之后剪切文本？

浏览 2提问于2015-04-06得票数 3

回答已采纳

1回答

如何使用AQDequeueOption？

、

我看到了一些帖子，其中包括在从Oracle中退出队列时使用AQDequeueOption的代码，而且我还看到了一些很少的JavaDoc。我还没有看到任何关于它的一般信息，在Oracle数据库高级队列用户指南( 12c第2版(12.2) )中根本没有提到它。有人能告诉我一些关于它的解释信息吗？例如，它是仅作为dequeue的参数提供，还是也可以以其他方式使用，例如，以某种方式与QueueReceiver一起使用？

浏览 1提问于2018-02-23得票数 0

回答已采纳

1回答

抓取Python填充表单并获取数据

、、、、

我试图使用Scrapy自动下载数据从一个网站。我要做的是：用我的证件登录到网站通过在“RIC”行上编写代码并选择感兴趣的时间来选择我想要的数据单击“Get data”后，生成.csv文件，我可以从' download /‘url下载它，其中所有文件都可用，如下所示：我能够登录使用'FormRequest‘。因此，为了填充“RIC”代码并单击“Get data”按钮，我考虑做同样的事情，但这失败了。(我现在不是为了了解它是如何工作的而改变日期的。) 这里我的代码： class DmozSpider(scrapy.Spider):

浏览 1提问于2015-10-20得票数 2

1回答

python 3.6中的xpath和scrapy不起作用

、、

我正在努力使这段代码正常工作，这样我就可以从下面的网站：中抓取表中的一些列。为了工作，我一直试图修改很多东西，但是没有成功，有人能告诉我我做错了什么吗？我也把日志放了。提前谢谢。 ps:我读过很多类似我的帖子，但是我找不到原因，很抱歉这个帖子被重复了。 from scrapy import Spider from scrapy.selector import Selector from stack.items import StackItem class StackSpider(Spider): name = "stack" allowed_domains

浏览 0提问于2018-02-10得票数 0

回答已采纳

1回答

如何利用刮擦获得工作描述？

、、

我对scrapy和XPath很陌生，但用Python编程已经有一段时间了。我希望使用scrapy从页面email、name of the person making the offer和phone中获取https://www.germanystartupjobs.com/job/joblift-berlin-germany-3-working-student-offpage-seo-french-market/的编号。正如您所看到的，电子邮件和电话是在<p>标签中作为文本提供的，因此很难提取。我的想法是首先在Job Overview中获取文本，或者至少在所有讨论各自任务的文本中使

浏览 5提问于2016-12-16得票数 1

回答已采纳

2回答

Python文章体，extract_first()没有

、、

我试着用Scrapy从新闻网站得到文章的身体。 import scrapy import sys import json class ReutersPage(scrapy.Spider): name = "reutersPage" start_urls = [ 'https://www.reuters.com/article/chile-sqm-stocks/lithium-miner-sqm-shares-up-2-7-pct-chile-court-clears-way-for-tianqi-stake-purchase-idUS

浏览 0提问于2018-10-26得票数 0

回答已采纳

1回答

刮花履带机ReactorNotRestartable

、、、

我在Windows 10上使用Visual代码开发了一个Splash刮刀。当我像这样在没有runner.py文件的情况下运行刮板时，它可以工作，并生成刮过的内容int "out.json"：scrapy crawl mytest -o out.json 但是，当我运行刮板时(无论是在Visual代码中使用此runner.py文件进行调试，它都会在execute行上失败(下面的完整代码)： Exception has occurred: ReactorNotRestartable exception: no description File "C:\scrapy\h

浏览 3提问于2021-11-15得票数 0

2回答

如何在android中设置基于HTML文本的提醒

、

目前，我正在从一个网站拉取文本，使用 public String getText(String uri) { HttpClient client1 = new DefaultHttpClient(); HttpGet request = new HttpGet(uri); ResponseHandler<String> responseHandler = new BasicResponseHandler(); try { String response_str = client1.execute(request, response

浏览 2提问于2011-08-14得票数 0

回答已采纳

2回答

仅剪贴式正文文本

、、、

我尝试使用python Scrapy从正文中抓取文本，但还没有成功。希望一些学者能够在这里帮助我从<body>标记中抓取所有的文本。

浏览 1提问于2011-03-22得票数 9

回答已采纳

3回答

删除导航文本下的行

、、、

TLDR:，请帮我删除导航中文本的下划线。上下文：我正在制作一个移动新闻应用程序。问题：我想删除导航文本上的下划线。(主页，登录) <h1>ignore this code </h1> 特别注意导航器和里面的所有东西。我在研究这个问题时发现了类似的帖子(点击链接)：我尝试了以下方法，但可能没有正确地实现它：使用CSS删除文本装饰，使用CSS删除文本样式，有什么帮助吗？提前感谢

浏览 5提问于2016-03-08得票数 0

回答已采纳

1回答

通过使用scrapy python的POST请求获取json响应

、、、、

我正在尝试使用post请求从这个website获取数据。我已经在该网站找到了帖子的网址，但我没有得到相同的反应使用scrapy。下面是我的代码： import scrapy from scrapy.http import request from scrapy.http.request.form import FormRequest from scrapy.http import FormRequest import json class CodeSpider(scrapy.Spider): name = 'code' allowed_domains =

浏览 53提问于2021-08-18得票数 0

回答已采纳

2回答

刮擦未保存数据

、

我正在尝试创建一个收集特定数据的蜘蛛。有一个网站，其中有一个受欢迎学生的排名名单。我需要所有大学的“计算机工程”(комп‘ютернаінженерія，乌克兰语)专业的每一个人。没有错误，但是csv文件是空的. # -*- coding: utf-8 -*- from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from scrapy.contrib.loader.processor import TakeFirst from scrapy.contrib

浏览 2提问于2017-02-27得票数 0

回答已采纳

1回答

获取帖子的facebook ajax请求是什么？

、、、、

我正在尝试使用Scrapy的facebook。我可以成功登录。但是，我无法在facebook上获得帖子，因为帖子来自ajax调用。我尝试使用firebug并检查XHR。我得到了这个：我试图检查所有这些请求的响应，但它们都没有包含posts的实际数据。在facebook上获取帖子的ajax请求是什么？提前感谢

浏览 0提问于2014-04-04得票数 0

3回答

如何解析这个JSON数组(我认为)

、、、

我正在尝试解析以下格式的JSON项： DataStore.prime('ws-stage-stat', { against: 0, field: 2, stageId: 9155, teamId: 26, type: 8 }, [[['goal','fastbreak','leftfoot',[1]],['goal','openplay','leftfoot',[2]], ['goal','openplay','rightfoot'

浏览 4提问于2014-09-15得票数 0

回答已采纳

1回答

Scrapy FormRequest.from_response()方法

、

Im正在尝试使用Scrapy解析页面，为了显示隐藏的文本和价格，我在字段中输入了任意的邮政编码或随机数字： <input aria-label="Enter your zip code" role="textbox" name="searchTerm" class="form-control js-list-zip-entry-input" placeholder="ZIP Code" autocompletetype="find-a-store-search" tabindex="-

浏览 0提问于2016-11-30得票数 3

2回答

"download_slot“是如何在刮伤中工作的

、、、

我在scrapy中创建了一个脚本，从它的登陆页面解析不同帖子的author name，然后使用meta关键字将它传递给parse_page方法，以便同时打印post content和author name。我在meta关键字中使用了download_slot，据称这会使脚本运行得更快。虽然没有必要遵守我在这里尝试应用的逻辑，但我只想坚持它，只想了解download_slot在任何脚本中是如何工作的，以及为什么。为了了解更多关于download_slot的信息，我搜索了很多信息，但最后得到了一些链接，比如。 download_slot的一个示例用法(但我不太确定)： from scrapy.c

浏览 0提问于2019-04-26得票数 8

回答已采纳

2回答

如何在output.log中显示多行刮过的项目？

、

当我在命令scrapy crawl my-spider --logfile=output.log中使用scrapy时，我会得到条目及其日志，没有任何问题。但是他们的展示方式让我觉得很不愉快。我得到了什么： ... 2020-02-26 16:23:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://some-url.com> {'key_1': 'value_1', 'key_2': 'value_2', 'key_3': 'va

浏览 1提问于2020-02-26得票数 2

回答已采纳

1回答

检查用于请求Python/Scrapy + ProxyMesh的IP地址

、、、、

我开始在Scrapy中使用ProxyMesh。ProxyMesh应该在一个端口上提供一个IP地址池。下面的示例代码是在一个循环中重复的，中间件是启用的，总体来说，这很好。我能追踪(如果是的话-怎么跟踪？)每个特定请求使用哪个IP地址？ request = scrapy.Request(producturl, self.parse_product_info) request.meta['proxy'] = 'http://uk.proxymesh.com:xxx' yield request 我在SOF上找到了类似的帖子，但没有提到这个具体的问题。

浏览 0提问于2015-10-24得票数 9

回答已采纳

1回答

如何从链接中获取文本(Python/Scrapy)

、、

我读过很多类似问题的答案，但对我来说没有什么用。我希望从链接中检索字体的名称，作为文本： <a href="/fonts/stephen-rapp/solantra/" class="fcFontName">Solantra</a> 下面的是我的基本蜘蛛的代码： import scrapy from scrapy import Spider from scrapy.selector import Selector from myfontsitem.items import MyfontsitemItem class StackSp

浏览 1提问于2017-04-29得票数 0

5回答

用pip安装Python模块

、、、

我正在安装一个叫做Scrapy的模块。我用 pip install Scrapy 我在我的/usr/local/lib/python2.7/site包中看到了'scrapy‘文件夹，但是当我试图将它导入Python程序时，是说没有这个名称的模块。对为什么会发生这种事有什么想法吗？编辑:以下是pip命令的输出： Downloading/unpacking Scrapy Downloading Scrapy-0.20.0.tar.gz (745kB): 745kB downloaded Running setup.py egg_info for package Scrap

浏览 2提问于2013-11-12得票数 11

回答已采纳

1回答

即使xpath在chrome.Why中是正确的，Scrapy shell也会给出一个空列表的输出？

、

在Scrapy shell上执行 url = "https://www.daraz.com.np/smartphones/?spm=a2a0e.11779170.cate_1.1.287d2d2b2cP9ar" fetch(url) r = scrapy.Request(url = url) fetch(r) response.xpath("//div[@class='ant-col-20 ant-col-push-4 c1z9Ut']/div[@class='c1_t2i']/div[@class='c2prKC']/d

浏览 1提问于2020-07-24得票数 1

1回答

Scrapy不会从电子商务站点获得产品

我试着学习Scrapy，并设法爬行一些我失败的网站，例如:我尝试爬行：我创建了一个测试蜘蛛，它将获取页面中的所有产品。当我运行蜘蛛，我知道它没有找到任何产品。有人能帮助我理解我做错了什么吗?这与CSS：：and和::after有关吗？我怎样才能让它发挥作用？ Spider代码(无法在页面中获取产品) # -*- coding: utf-8 -*- import scrapy from scrapy.selector import Selector class PolySpider(scrapy.Spider): name = "poly" allowed_

浏览 2提问于2016-01-19得票数 0

回答已采纳