Scrapy有时会返回"None“作为结果，但不是所有时间都返回

、、、

我已经创建了一个带有Rule对象和链接提取器的Scrapy爬虫来抓取Amazon畅销产品，但Scrapy有时会返回None作为结果，即使我确定我的xpath表达式是正确的。Scrapy偶尔而不是一直返回None，这太奇怪了。/span[@class="a-list-item"]/div[@class="a-section a-spa

浏览 75提问于2021-10-23得票数 1

1回答

使用，但并不是所有的结果都返回

、

1234或12345将正确返回，但像此RIFG_PI9926或COHJRI4426这样的值将为空。这是我到目前为止得到的，但返回空白。 =QUERY(IMPORTRANGE("url","Sheet!

浏览 5提问于2022-10-05得票数 0

1回答

在列表中添加BeautifulSoup查找元素

、、、

TypeError: 'NoneType' object is not subscriptable 如何将kkt: item = tag.find('a'，href=True)'href‘中的: for标记的结果逐行添加到列表中

浏览 2提问于2018-11-06得票数 1

回答已采纳

3回答

Alfresco: Lucene按ID查询返回2行

、

今天，我注意到按ID的Lucene查询有时会返回两行，而不是只返回一行。并不是所有的节点都表现出这种行为。例如，当我在Alfresco Node浏览器中执行以下Lucene查询时，会得到如下所示的结果：ID:"workspace://SpacesStore/96c0cc27-cb8c-49cf-977d-a966e5c5e9ca"按ID查询怎么可能返回多个行呢？我试着重建L

浏览 0提问于2011-11-18得票数 2

回答已采纳

1回答

Scrapy跟随链接但不返回数据，可能是计时问题？

、、

我尝试了几种设置，比如延迟下载时间，控制台似乎没有错误，选择器从Scrapy Shell返回正确的数据知道为什么它没有为-o CSV文件收集任何数据吗？如果你有任何建议，谢谢你2021-05-13 23:59:35 [scrapy.extensions.log

浏览 22提问于2021-05-13得票数 0

回答已采纳

1回答

为什么有些链接不能从请求头返回referer？

、

我几乎完成了一个基于Scrapy的CrawlSpider的网络爬虫的构建，它的目的是在网站中爬行，检查断开的外部链接。crawler测试外部链接，并报告HTTP状态代码、链接文本和找到该链接的页面。link_status'] = response.status然而，我注意到，大约1/3被检查的外部链接不会返回referer u

浏览 0提问于2021-02-13得票数 1

2回答

用ASP实现表单的自动填写

、

我正在试着写一些代码，来自动填充这个网页表单：我的理论是因为网站使用ASP，而我没有做一些事情来说明这一点？任何可以工作的代码，尽管python是首选的，但</

浏览 0提问于2012-10-27得票数 1

回答已采纳

2回答

mysqldb将时间戳数据转换为无

、、、

我正在使用MySQLdb与mysql数据库对话，并且我能够动态检索所有结果集。我的问题是，一旦我得到结果集，有几列在mysql中被声明为时间戳，但当它被检索时，它变成了无。我有两列，都声明了时间戳，但其中一列返回正确的数据，而另一列则不返回。utime和enddate都声明了时间戳，但是utime没有正确返回，而enddate则正确返回。[&#

浏览 3提问于2013-03-15得票数 8

回答已采纳

1回答

我是新手，所以如果只有一个我应该检查的链接，这可能会有帮助(我已经花了相当多的时间在谷歌上搜索，仍然在努力)，尽管代码更正技巧更受欢迎：)。对于我正在尝试的以下代码，如果我发出"scrapy crawl quotes2 -o quotes.json > output.json“，它可以工作，但quotes.json始终为空(即，包括如果我执行在本例中，作为实验，我只想在URL中包含字符串"Jane“时返回URL (例如，/author/Jane-Austen)

浏览 5提问于2018-08-21得票数 0

回答已采纳

3回答

如何将涉及无值的所有python操作转换为无值？

、

我希望所有涉及一个或多个无变量的数学运算都不返回任何变量。示例：b = 7我希望最后一行不返回任何内容，但它却给了我一个错误：我理解这个错误存在的原因以及所有这些，但是有没有办法强迫结果仅仅是一个None呢？稍后，我将diff乘以或添加到一些事情中，以获得有意义的信息，但并不是所有</em

浏览 4提问于2016-07-25得票数 4

回答已采纳

1回答

网络抓取，在抓取上试图达到某个URL

、、

嗯，我正在尝试刮一个网站，但我无法到达我想要的URL (动作)，我已经尝试使用Scrapy和Selenium来抓取URL，但两者都失败了。NumeroSequencialDocumento=98307&CodigoTipoInstituicao=2> (referer: None) ['<iframe id="iFrameFormulariosFilho可以看到Scrapy返回iframe，但返回空标记。并<em

浏览 2提问于2021-02-04得票数 0

1回答

为什么python返回None？

、、

我试图从用户那里获取小时和分钟，但是当我输入一个字母数字，一个超出用户允许范围的数字时，用户会返回一个None类型值。我正在尝试从用户那里获取号码。= [] print(type(hour)) while hour == None:main()Hours: 10 这是输入以下输入时得到的<e

浏览 1提问于2017-12-10得票数 0

1回答

自定义中间件导致重复筛选器过滤掉所有请求。

我制作了这样一个简单的中间件(我删除了所有实际的逻辑以重述可能的错误)。： 'py_scrape.middleware.ApiMiddleware': 543,成功地通过scrapy检测到中间件，但出于某种原因duplicate request: <GET [url is here]> (referer: None) 2020-09-07 10:15:04 [scrapy.core.engine] INFO

浏览 12提问于2020-09-07得票数 0

回答已采纳

1回答

用代理爬行

、、

我编写了一个Scrapy中间件，它必须通过scrapy.Request(url).对每个请求使用代理。) @classmethod def from_crawler(cls，爬虫)：返回cls(crawler.settings) def process_request(self，request，spider)：如果self.chosen_proxy不是None: request.meta"proxy“= self.chosen_proxy log.debug(‘使用代理的<%s>’%

浏览 2提问于2020-12-16得票数 1

2回答

当我按CSS类过滤时，为什么scrapy和beautifulsoup都不返回任何内容？

、、、、

我正在构建一个网络爬虫作为我实习的一部分，当我通过某些属性过滤时，我找不到我得到空列表的原因。我正在尝试抓取会议的名称、日期和地点。我试过几种不同的方法，都得到了相同的结果。你可以在下面看到我尝试过的所有不同的方法： class AACRSpider(scrapy.Spider): allowed_domains = ['aacr.org上面的4个方法都返回空列表，而不是返回我

浏览 24提问于2019-06-08得票数 2

回答已采纳

1回答

如何利用刮擦获得工作描述？

、、

我对scrapy和XPath很陌生，但用Python编程已经有一段时间了。正如您所看到的，电子邮件和电话是在<p>标签中作为文本提供的，因此很难提取。现在，我尝试从div job_description中获取所有文本，在那里我实际上什么也没有得到。'] 我如何从提到的页面中得到所有的文本？更新:此选择只返回[] response.xpath('//div[@class="job_description&quo

浏览 5提问于2016-12-16得票数 1

回答已采纳

2回答

在scrapy中使用自定义方法时无法找到正确的方法

、、、、

我知道有一个，它用于在scrapy中使用selenium。但是，我不想在这个基本用例中使用这个库。import scrapyfrom scrapy.crawler import CrawlerProcess from sel

浏览 2提问于2020-12-25得票数 1

回答已采纳

1回答

平均标准化不同版本的代码

、

我想要的意思是规范化我的数据框架，当我实现第一个版本的代码时，我得到了规范化的值，但是当我实现版本2时，我得到了一个名为stop iteration的错误。["1B","2B","3B","HR","BB"]是我数据框架中的列。def meanNormalizeRates(df): df[["1B

浏览 0提问于2015-01-19得票数 1

回答已采纳

2回答

运行Google函数中的Scrapy蜘蛛

、、

from flask import escapefrom scrapy.utils.project import get_project_settingsformat(escape("Word")) 这是可行的，但奇怪的是，并不是“所有的时间”。每隔一次，HTTP调用将返回一个错误，然后我可以在堆栈驱动程序上读取：Function execution took 50

浏览 2提问于2020-03-21得票数 4

回答已采纳

1回答

无法使用样式组件javascript刮除网站。

、、、

我的目标问题responseresponse.xpath('//h1/p')获取响应：在获取响应时，我看到了一个结

浏览 4提问于2020-12-15得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用，但并不是所有的结果都返回

在列表中添加BeautifulSoup查找元素

Alfresco: Lucene按ID查询返回2行

Scrapy跟随链接但不返回数据，可能是计时问题？

为什么有些链接不能从请求头返回referer？

用ASP实现表单的自动填写

mysqldb将时间戳数据转换为无

Scarpy outoput json

如何将涉及无值的所有python操作转换为无值？

网络抓取，在抓取上试图达到某个URL

为什么python返回None？

自定义中间件导致重复筛选器过滤掉所有请求。

用代理爬行

当我按CSS类过滤时，为什么scrapy和beautifulsoup都不返回任何内容？

如何利用刮擦获得工作描述？

在scrapy中使用自定义方法时无法找到正确的方法

平均标准化不同版本的代码

运行Google函数中的Scrapy蜘蛛

无法使用样式组件javascript刮除网站。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐