腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
将
getall
()
中
的
空
值
保留
/替
换为
Scrapy
、
、
我想要从网站
中
剔除一些元素,并且我必须维护这些
值
的
顺序。:nth-child(4)::text').
getall
() '.align-center:nth-child(5)::text').
getall
.
getall
() '.align-right:nth-child(10)::text').
ge
浏览 26
提问于2020-12-01
得票数 0
回答已采纳
2
回答
如果内容中有不同
的
标签,我如何抓取所有内容?
、
、
我有一个爬虫,我想要抓取一篇我感兴趣
的
文章,然后
将
标题和内容存储在字典
中
。但是,当我抓取正文时,它会返回html代码,我希望将其转
换为
文本(包括文章
中
的
所有h1和href ),但是当我使用.
getall
()时,它会返回一个
空
列表。我如何
将
所有这些都转
换为
文本,同时仍然
将
所有内容
保留
在文章
中
。 在
scrapy
shell
中
,我已经
浏览 0
提问于2019-08-14
得票数 0
1
回答
将
所有行捕获到一个CSV行
中
、
我正在尝试用
Scrapy
生成一个CSV文件,它正在工作,但不像预期
的
那样。我有一个html表,它有多个行,我希望CSV
中
也有相同
的
行。但是,下面的代码
将
所有HTML行转
换为
单个CSV行。码 name = "DemoSpider" urlspage=%s" %page
浏览 2
提问于2020-04-06
得票数 0
1
回答
Python和
Scrapy
- Scraper不返回结果。
、
、
您好,并感谢您在此问题上
的
任何帮助,我有。我从来没有张贴过编码帮助,我是非常新
的
编程。自学成才
的
老家伙,他试图学习一些新
的
东西,也许建立一些东西来拯救世界(或者只是建立一些东西。):) 我已经抓取了启动,当我运行我
的
终端命令“抓取爬行合作社”,我总是得到调试:爬行(200),没有看到任何“找到
的
细节:”入口。我能够运行刮擦外壳"“,并手动获得结果
的
外壳。当我尝试向.jl或.js文件屈服时,它们也是
空
的
。(我用刮伤教程
浏览 1
提问于2020-04-29
得票数 1
回答已采纳
2
回答
Python3抓取一个页面的所有信息
、
、
、
我
的
蜘蛛: import
scrapy
name = "page" 'ItemEAN': response.xpath('//div[@class="productean"]/text()').
getall
(),'Delivery_Status': r
浏览 9
提问于2020-07-27
得票数 0
回答已采纳
1
回答
Xpath不从
Scrapy
Shell
中
的
<p>标记返回文本
、
、
、
链接: 我正在尝试从上面的链接
中
抓取描述。XPath看起来是正确
的
,但它没有返回
scrapy
shell
中
的
值
。(请看下面的截图)。我尝试了所有的方法,比如get(),
getall
(),extract(),extract_first(),extractall(),但是我得到了一个
空
列表。请帮我找出错误。谢谢..。
浏览 17
提问于2020-05-09
得票数 0
回答已采纳
1
回答
用于Boardgamegeek
的
Python Webscraper
、
抓取器
的
目标是分析哪些棋盘游戏获得了最多
的
赞许,并将它们打印在排序列表
中
。基本上是一本“姓名:竖起大拇指”
的
字典。下面是我想要排序
的
游戏列表:response.css('.fl > a:nth-child(2)::text').
getall
() response.css('.recs a::text').
geta
浏览 16
提问于2020-02-09
得票数 1
回答已采纳
1
回答
>
scrapy
中
的
Xpath检索
的
List元素不能逐项正确输出(for,产)
、
、
、
我正在输出一个参展商
的
订单结果页面的第一页
的
网址,从一个特定
的
EC网站提取到一个csv文件,读取它在start_requests,并循环它与一个for语句。每个订单结果页面包含关于30种产品
的
信息。 url =str((row[2])[:-5]+'
浏览 10
提问于2022-09-14
得票数 0
回答已采纳
1
回答
如何以另一种格式获取数据,使用
scrapy
、
我试着从亚马逊上搜集笔记本电脑
的
数据。我
的
代码: name = 'amazon_laptops' allowed_domains = ['https://www.amazon.com) for x in vals.xpath("//tr/th[@class='a-color-secondary a-size-base prodDetSectionEntry
浏览 2
提问于2020-05-04
得票数 0
回答已采纳
1
回答
Scrapy
和MySql:存储列表
、
、
、
、
我目前正在使用
Scrapy
进行一个小项目,在这个项目中,我
将
所收集
的
数据存储到MySql
中
。问题是我刮过
的
数据不是1比1,我提供了下面MySql
的
源代码和图像。问题:当
将
数据发送到MySql时,只保存每个列表
值
的
第一个
值
.import
scrapy
item = CsgoProjectItemclass Cs
浏览 0
提问于2020-06-24
得票数 1
回答已采纳
1
回答
TransformManyBlock,是否需要显式处理返回空IEnumerables才能不将它们
保留
在内存
中
?
、
、
我实现了一个TransformManyBlock<Tin,Tout>,我想知道当我在块
中
返回一个
空
的
IEnumerable时,这个
空
的
IEnumerable会被
保留
在系统
中
的
任何地方,还是会被垃圾收集或丢弃显然,如果我使用TransformBlock,我
将
需要自己处理这样
的
IEnumerable,但我想知道TransformManyBlock
的
库是否已经处理了这一点。我想我想知道
浏览 0
提问于2013-02-15
得票数 1
回答已采纳
3
回答
如何替换Python
中
除一种以外
的
所有发生
的
事件
我有一个长度为K
的
整数列表。我想用len(a)替换列表
中
每个不同
值
的
所有出现情况,但最后一个
值
保持不变。因此,我将用6代
替
两个6,用6代
替
一个1 (两个),仅此而已。b = [6, 6, 0, 6, 1, 5] for j
浏览 2
提问于2016-06-16
得票数 0
回答已采纳
3
回答
刮除:从列表
中
删除行提要/n
、
考虑到抓取/python甚至编程,我是一个绝对
的
新手,但我需要学习和理解它。我创建了一个小蜘蛛,它爬行一个网站,并从网站中提取一些信息,并将其聚合到一个csv文件
中
。到目前为止,我已经获得了相当成功
的
输出,然而,我有一个网站内容本身
的
问题。站点项
的
xpath选择器以列表
的
形式生成内容;不过,我希望它将其转
换为
没有行提要等
的
单个字符串。我知道,规范化
的
空格和条带()将是可行
的
,但是它们只删除前导/尾
浏览 1
提问于2020-07-09
得票数 0
回答已采纳
1
回答
如何使用
Scrapy
解析PDF?
、
、
、
我想下载在一个网站上找到
的
所有PDF,例如。我也试图使用规则,但我认为这不是必要
的
。这是我
的
方法:from
scrapy
.linkextractors import IGNORED_EXTENSIONSCUSTOM_IGNORED_EXTENSIONS.remove('pdf') class PDFParser(
scrapy
.Sp
浏览 8
提问于2022-02-08
得票数 0
回答已采纳
2
回答
JSON_ENCODE
将
AJAX请求
中
的
所有数组
值
转
换为
字符串。
、
、
、
、
我执行一个简单
的
AJAX请求,其中我从mysql数据库中选择一些数据。当我
将
Array传回Javascript时,它总是
将
数组
中
的
所有
值
转
换为
字符串,不管它
的
数据类型是整数还是布尔
值
。编辑: function
getAll
()
浏览 5
提问于2015-03-27
得票数 1
2
回答
如何抓取一个网站只给定域网址与
scrapy
、
、
、
我正在尝试使用
scrapy
抓取一个网站,但网站没有网站地图或页面索引。如何使用
scrapy
抓取网站
的
所有页面? 我只需要下载网站
的
所有页面,而不提取任何项目。我只需要在蜘蛛规则
中
设置关注所有链接吗?但我不知道
scrapy
是否会以这种方式避免复制urls。
浏览 0
提问于2013-01-06
得票数 5
回答已采纳
1
回答
配置单元表用自定义默认
值
替换时间戳列
的
空
值
、
我知道如何
将
默认
值
保留
为当前时间戳,但我要求
将
时间戳列
中
的
空
值
替
换为
自定义日期/时间戳。
浏览 20
提问于2020-07-28
得票数 2
3
回答
抓取信息时不可成形
的
列表错误
、
、
我正在尝试提取信息,但是它们会给我不可成形列表
的
错误--这些是页面链接from
scrapy
.http import Request name = 'test' wev={}
浏览 6
提问于2022-06-30
得票数 0
回答已采纳
3
回答
在SQL Server2005
中
使用SSIS从平面文件导入时,如何
保留
空
值
、
、
、
我已将记录导出到由"|“分隔
的
平面文件
中
,当我
将
这些记录导入到新数据库
中
时,SQL Server似乎
将
空
值
视为
空
字段。当记录/字段为
空
时,IMy查询可以正常工作,因此我希望找到一种方法来
保留
数据
中
的
空
值
或
将
空白字段转
换为
空
值
。我假设前者会更容易,但我不知道
浏览 0
提问于2011-01-07
得票数 14
回答已采纳
3
回答
左外联接linq查询对象引用未设置为对象
的
实例
、
、
我有三个表,在两个表上执行内部连接,而不是左边
的
外部联接,为什么下面的查询返回这个错误"linq查询对象引用没有设置为对象
的
实例“ from n in Uow.Instance.RepoOf<NavigationMenu>().
GetAll
().Wherefrom m in Uow.Instan
浏览 0
提问于2015-03-04
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券