将getall()中的空值保留/替换为Scrapy

文章/答案/技术大牛

发布

1回答

、、

我想要从网站中剔除一些元素，并且我必须维护这些值的顺序。:nth-child(4)::text').getall() '.align-center:nth-child(5)::text').getall.getall() '.align-right:nth-child(10)::text').ge

浏览 26提问于2020-12-01得票数 0

回答已采纳

2回答

如果内容中有不同的标签，我如何抓取所有内容？

、、

我有一个爬虫，我想要抓取一篇我感兴趣的文章，然后将标题和内容存储在字典中。但是，当我抓取正文时，它会返回html代码，我希望将其转换为文本(包括文章中的所有h1和href )，但是当我使用.getall()时，它会返回一个空列表。我如何将所有这些都转换为文本，同时仍然将所有内容保留在文章中。在scrapy shell中，我已经

浏览 0提问于2019-08-14得票数 0

1回答

将所有行捕获到一个CSV行中

、

我正在尝试用Scrapy生成一个CSV文件，它正在工作，但不像预期的那样。我有一个html表，它有多个行，我希望CSV中也有相同的行。但是，下面的代码将所有HTML行转换为单个CSV行。码 name = "DemoSpider" urlspage=%s" %page

浏览 2提问于2020-04-06得票数 0

1回答

Python和Scrapy* - Scraper不返回结果。*

、、

您好，并感谢您在此问题上的任何帮助，我有。我从来没有张贴过编码帮助，我是非常新的编程。自学成才的老家伙，他试图学习一些新的东西，也许建立一些东西来拯救世界(或者只是建立一些东西。)：) 我已经抓取了启动，当我运行我的终端命令“抓取爬行合作社”，我总是得到调试:爬行(200)，没有看到任何“找到的细节：”入口。我能够运行刮擦外壳"“，并手动获得结果的外壳。当我尝试向.jl或.js文件屈服时，它们也是空的。(我用刮伤教程

浏览 1提问于2020-04-29得票数 1

回答已采纳

2回答

Python3抓取一个页面的所有信息

、、、

我的蜘蛛： import scrapy name = "page" 'ItemEAN': response.xpath('//div[@class="productean"]/text()').getall(),'Delivery_Status': r

浏览 9提问于2020-07-27得票数 0

回答已采纳

1回答

Xpath不从Scrapy* Shell中的<p>标记返回文本*

、、、

链接：我正在尝试从上面的链接中抓取描述。XPath看起来是正确的，但它没有返回scrapy shell中的值。(请看下面的截图)。我尝试了所有的方法，比如get()，getall()，extract()，extract_first()，extractall()，但是我得到了一个空列表。请帮我找出错误。谢谢..。

浏览 17提问于2020-05-09得票数 0

回答已采纳

1回答

用于Boardgamegeek的Python Webscraper

、

抓取器的目标是分析哪些棋盘游戏获得了最多的赞许，并将它们打印在排序列表中。基本上是一本“姓名:竖起大拇指”的字典。下面是我想要排序的游戏列表：response.css('.fl > a:nth-child(2)::text').getall() response.css('.recs a::text').geta

浏览 16提问于2020-02-09得票数 1

回答已采纳

1回答

> scrapy中的Xpath检索的List元素不能逐项正确输出(for，产)

、、、

我正在输出一个参展商的订单结果页面的第一页的网址，从一个特定的EC网站提取到一个csv文件，读取它在start_requests，并循环它与一个for语句。每个订单结果页面包含关于30种产品的信息。 url =str((row[2])[:-5]+'&#

浏览 10提问于2022-09-14得票数 0

回答已采纳

1回答

如何以另一种格式获取数据，使用scrapy

、

我试着从亚马逊上搜集笔记本电脑的数据。我的代码： name = 'amazon_laptops' allowed_domains = ['https://www.amazon.com) for x in vals.xpath("//tr/th[@class='a-color-secondary a-size-base prodDetSectionEntry&#x

浏览 2提问于2020-05-04得票数 0

回答已采纳

1回答

Scrapy和MySql:存储列表

、、、、

我目前正在使用Scrapy进行一个小项目，在这个项目中，我将所收集的数据存储到MySql中。问题是我刮过的数据不是1比1，我提供了下面MySql的源代码和图像。问题:当将数据发送到MySql时，只保存每个列表值的第一个值.import scrapy item = CsgoProjectItemclass Cs

浏览 0提问于2020-06-24得票数 1

回答已采纳

1回答

TransformManyBlock，是否需要显式处理返回空IEnumerables才能不将它们保留在内存中？

、、

我实现了一个TransformManyBlock<Tin,Tout>，我想知道当我在块中返回一个空的IEnumerable时，这个空的IEnumerable会被保留在系统中的任何地方，还是会被垃圾收集或丢弃显然，如果我使用TransformBlock，我将需要自己处理这样的IEnumerable，但我想知道TransformManyBlock的库是否已经处理了这一点。我想我想知道

浏览 0提问于2013-02-15得票数 1

回答已采纳

3回答

如何替换Python中除一种以外的所有发生的事件

我有一个长度为K的整数列表。我想用len(a)替换列表中每个不同值的所有出现情况，但最后一个值保持不变。因此，我将用6代替两个6，用6代替一个1 (两个)，仅此而已。b = [6, 6, 0, 6, 1, 5] for j

浏览 2提问于2016-06-16得票数 0

回答已采纳

3回答

刮除:从列表中删除行提要/n

、

考虑到抓取/python甚至编程，我是一个绝对的新手，但我需要学习和理解它。我创建了一个小蜘蛛，它爬行一个网站，并从网站中提取一些信息，并将其聚合到一个csv文件中。到目前为止，我已经获得了相当成功的输出，然而，我有一个网站内容本身的问题。站点项的xpath选择器以列表的形式生成内容；不过，我希望它将其转换为没有行提要等的单个字符串。我知道，规范化的空格和条带()将是可行的，但是它们只删除前导/尾

浏览 1提问于2020-07-09得票数 0

回答已采纳

1回答

如何使用Scrapy解析PDF？

、、、

我想下载在一个网站上找到的所有PDF，例如。我也试图使用规则，但我认为这不是必要的。这是我的方法：from scrapy.linkextractors import IGNORED_EXTENSIONSCUSTOM_IGNORED_EXTENSIONS.remove('pdf') class PDFParser(scrapy.Sp

浏览 8提问于2022-02-08得票数 0

回答已采纳

2回答

JSON_ENCODE将AJAX请求中的所有数组值转换为字符串。

、、、、

我执行一个简单的AJAX请求，其中我从mysql数据库中选择一些数据。当我将Array传回Javascript时，它总是将数组中的所有值转换为字符串，不管它的数据类型是整数还是布尔值。编辑： function getAll()

浏览 5提问于2015-03-27得票数 1

2回答

如何抓取一个网站只给定域网址与scrapy

、、、

我正在尝试使用scrapy抓取一个网站，但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面？我只需要下载网站的所有页面，而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗？但我不知道scrapy是否会以这种方式避免复制urls。

浏览 0提问于2013-01-06得票数 5

回答已采纳

1回答

配置单元表用自定义默认值替换时间戳列的空值

、

我知道如何将默认值保留为当前时间戳，但我要求将时间戳列中的空值替换为自定义日期/时间戳。

浏览 20提问于2020-07-28得票数 2

3回答

抓取信息时不可成形的列表错误

、、

我正在尝试提取信息，但是它们会给我不可成形列表的错误--这些是页面链接from scrapy.http import Request name = 'test' wev={}

浏览 6提问于2022-06-30得票数 0

回答已采纳

3回答

在SQL Server2005中使用SSIS从平面文件导入时，如何保留空值

、、、

我已将记录导出到由"|“分隔的平面文件中，当我将这些记录导入到新数据库中时，SQL Server似乎将空值视为空字段。当记录/字段为空时，IMy查询可以正常工作，因此我希望找到一种方法来保留数据中的空值或将空白字段转换为空值。我假设前者会更容易，但我不知道

浏览 0提问于2011-01-07得票数 14

回答已采纳

3回答

左外联接linq查询对象引用未设置为对象的实例

、、

我有三个表，在两个表上执行内部连接，而不是左边的外部联接，为什么下面的查询返回这个错误"linq查询对象引用没有设置为对象的实例“ from n in Uow.Instance.RepoOf<NavigationMenu>().GetAll().Wherefrom m in Uow.Instan

浏览 0提问于2015-03-04得票数 0

回答已采纳

点击加载更多