腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy
有时会
返回
"
None
“
作为
结果
,但
不是
所有
时间
都
返回
、
、
、
我已经创建了一个带有Rule对象和链接提取器的
Scrapy
爬虫来抓取Amazon畅销产品,
但
Scrapy
有时会
返回
None
作为
结果
,即使我确定我的xpath表达式是正确的。
Scrapy
偶尔而
不是
一直
返回
None
,这太奇怪了。/span[@class="a-list-item"]/div[@class="a-section a-spa
浏览 75
提问于2021-10-23
得票数 1
1
回答
使用,
但
并
不是
所有
的
结果
都
返回
、
1234或12345将正确
返回
,
但
像此RIFG_PI9926或COHJRI4426这样的值将为空。这是我到目前为止得到的,
但
返回
空白。 =QUERY(IMPORTRANGE("url","Sheet!
浏览 5
提问于2022-10-05
得票数 0
1
回答
在列表中添加BeautifulSoup查找元素
、
、
、
TypeError: 'NoneType' object is not subscriptable 如何将kkt: item = tag.find('a',href=True)'href‘中的: for标记的
结果
逐行添加到列表中
浏览 2
提问于2018-11-06
得票数 1
回答已采纳
3
回答
Alfresco: Lucene按ID查询
返回
2行
、
今天,我注意到按ID的Lucene查询
有时会
返回
两行,而
不是
只
返回
一行。并
不是
所有
的节点
都
表现出这种行为。例如,当我在Alfresco Node浏览器中执行以下Lucene查询时,会得到如下所示的
结果
:ID:"workspace://SpacesStore/96c0cc27-cb8c-49cf-977d-a966e5c5e9ca"按ID查询怎么可能
返回
多个行呢?我试着重建L
浏览 0
提问于2011-11-18
得票数 2
回答已采纳
1
回答
Scrapy
跟随链接但不
返回
数据,可能是计时问题?
、
、
我尝试了几种设置,比如延迟下载
时间
,控制台似乎没有错误,选择器从
Scrapy
Shell
返回
正确的数据知道为什么它没有为-o CSV文件收集任何数据吗?如果你有任何建议,谢谢你2021-05-13 23:59:35 [
scrapy
.extensions.log
浏览 22
提问于2021-05-13
得票数 0
回答已采纳
1
回答
为什么有些链接不能从请求头
返回
referer?
、
我几乎完成了一个基于
Scrapy
的CrawlSpider的网络爬虫的构建,它的目的是在网站中爬行,检查断开的外部链接。crawler测试外部链接,并报告HTTP状态代码、链接文本和找到该链接的页面。link_status'] = response.status然而,我注意到,大约1/3被检查的外部链接不会
返回
referer u
浏览 0
提问于2021-02-13
得票数 1
2
回答
用ASP实现表单的自动填写
、
我正在试着写一些代码,来自动填充这个网页表单: 我的理论是因为网站使用ASP,而我没有做一些事情来说明这一点?任何可以工作的代码,尽管python是首选的,
但</
浏览 0
提问于2012-10-27
得票数 1
回答已采纳
2
回答
mysqldb将
时间
戳数据转换为无
、
、
、
我正在使用MySQLdb与mysql数据库对话,并且我能够动态检索
所有
结果
集。 我的问题是,一旦我得到
结果
集,有几列在mysql中被声明为
时间
戳,
但
当它被检索时,它变成了无。我有两列,
都
声明了
时间
戳,
但
其中一列
返回
正确的数据,而另一列则不
返回
。utime和enddate
都
声明了
时间
戳,但是utime没有正确
返回
,而enddate则正确
返回
。[
浏览 3
提问于2013-03-15
得票数 8
回答已采纳
1
回答
Scarpy outoput json
我是新手,所以如果只有一个我应该检查的链接,这可能会有帮助(我已经花了相当多的
时间
在谷歌上搜索,仍然在努力),尽管代码更正技巧更受欢迎:)。对于我正在尝试的以下代码,如果我发出"
scrapy
crawl quotes2 -o quotes.json > output.json“,它可以工作,
但
quotes.json始终为空(即,包括如果我执行在本例中,
作为
实验,我只想在URL中包含字符串"Jane“时
返回
URL (例如,/author/Jane-Austen)
浏览 5
提问于2018-08-21
得票数 0
回答已采纳
3
回答
如何将涉及无值的
所有
python操作转换为无值?
、
我希望
所有
涉及一个或多个无变量的数学运算都不
返回
任何变量。示例:b = 7我希望最后一行不
返回
任何内容,但它却给了我一个错误: 我理解这个错误存在的原因以及
所有
这些,但是有没有办法强迫
结果
仅仅是一个
None
呢?稍后,我将diff乘以或添加到一些事情中,以获得有意义的信息,
但
并
不是
所有</em
浏览 4
提问于2016-07-25
得票数 4
回答已采纳
1
回答
网络抓取,在抓取上试图达到某个URL
、
、
嗯,我正在尝试刮一个网站,但我无法到达我想要的URL (动作),我已经尝试使用
Scrapy
和Selenium来抓取URL,
但
两者
都
失败了。NumeroSequencialDocumento=98307&CodigoTipoInstituicao=2> (referer:
None
) ['<iframe id="iFrameFormulariosFilho可以看到
Scrapy
返回
iframe,
但
返回
空标记。并<em
浏览 2
提问于2021-02-04
得票数 0
1
回答
为什么python
返回
None
?
、
、
我试图从用户那里获取小时和分钟,但是当我输入一个字母数字,一个超出用户允许范围的数字时,用户会
返回
一个
None
类型值。我正在尝试从用户那里获取号码。= [] print(type(hour)) while hour ==
None
:main()Hours: 10 这是输入以下输入时得到的<e
浏览 1
提问于2017-12-10
得票数 0
1
回答
自定义中间件导致重复筛选器过滤掉
所有
请求。
我制作了这样一个简单的中间件(我删除了
所有
实际的逻辑以重述可能的错误)。: 'py_scrape.middleware.ApiMiddleware': 543,成功地通过
scrapy
检测到中间件,
但
出于某种原因duplicate request: <GET [url is here]> (referer:
None
) 2020-09-07 10:15:04 [
scrapy
.core.engine] INFO
浏览 12
提问于2020-09-07
得票数 0
回答已采纳
1
回答
用代理爬行
、
、
我编写了一个
Scrapy
中间件,它必须通过
scrapy
.Request(url).对每个请求使用代理。) @classmethod def from_crawler(cls,爬虫):
返回
cls(crawler.settings) def process_request(self,request,spider):如果self.chosen_proxy
不是
None
: request.meta"proxy“= self.chosen_proxy log.debug(‘使用代理的<%s>’%
浏览 2
提问于2020-12-16
得票数 1
2
回答
当我按CSS类过滤时,为什么
scrapy
和beautifulsoup都不
返回
任何内容?
、
、
、
、
我正在构建一个网络爬虫
作为
我实习的一部分,当我通过某些属性过滤时,我找不到我得到空列表的原因。我正在尝试抓取会议的名称、日期和地点。 我试过几种不同的方法,都得到了相同的
结果
。你可以在下面看到我尝试过的
所有
不同的方法: class AACRSpider(
scrapy
.Spider): allowed_domains = ['aacr.org上面的4个方法
都
返回
空列表,而
不是
返回
我
浏览 24
提问于2019-06-08
得票数 2
回答已采纳
1
回答
如何利用刮擦获得工作描述?
、
、
我对
scrapy
和XPath很陌生,
但
用Python编程已经有一段
时间
了。正如您所看到的,电子邮件和电话是在<p>标签中
作为
文本提供的,因此很难提取。现在,我尝试从div job_description中获取
所有
文本,在那里我实际上什么也没有得到。'] 我如何从提到的页面中得到
所有
的文本?更新:此选择只
返回
[] response.xpath('//div[@class="job_description&quo
浏览 5
提问于2016-12-16
得票数 1
回答已采纳
2
回答
在
scrapy
中使用自定义方法时无法找到正确的方法
、
、
、
、
我知道有一个,它用于在
scrapy
中使用selenium。但是,我不想在这个基本用例中使用这个库。import
scrapy
from
scrapy
.crawler import CrawlerProcess from sel
浏览 2
提问于2020-12-25
得票数 1
回答已采纳
1
回答
平均标准化不同版本的代码
、
我想要的意思是规范化我的数据框架,当我实现第一个版本的代码时,我得到了规范化的值,但是当我实现版本2时,我得到了一个名为stop iteration的错误。["1B","2B","3B","HR","BB"]是我数据框架中的列。def meanNormalizeRates(df): df[["1B
浏览 0
提问于2015-01-19
得票数 1
回答已采纳
2
回答
运行Google函数中的
Scrapy
蜘蛛
、
、
from flask import escapefrom
scrapy
.utils.project import get_project_settingsformat(escape("Word")) 这是可行的,
但
奇怪的是,并
不是
“
所有
的
时间
”。每隔一次,HTTP调用将
返回
一个错误,然后我可以在堆栈驱动程序上读取:Function execution took 50
浏览 2
提问于2020-03-21
得票数 4
回答已采纳
1
回答
无法使用样式组件javascript刮除网站。
、
、
、
我的目标问题responseresponse.xpath('//h1/p')获取响应: 在获取响应时,我看到了一个结
浏览 4
提问于2020-12-15
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python scrapy第三篇
Python基础教程 其实并不是函数的函数
如何用 Python 爬取网页制作电子书,再也不怕闹书荒
Scrapy框架的使用之Item Pipeline的用法
Python进阶-内建函数
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券