无法通过在<td>中使用scrapy和css遍历<br>进行抓取。

在<td>中使用Scrapy和CSS遍历进行抓取的问题可能是由于以下原因导致的：

数据动态加载：如果页面中的数据是通过AJAX或其他JavaScript技术动态加载的，那么使用Scrapy和CSS遍历可能无法获取到这些动态加载的数据。解决方法是使用Scrapy的Selenium插件或者其他类似的工具来模拟浏览器行为，确保数据完全加载后再进行抓取。
数据嵌套结构：如果<td>中的数据存在嵌套结构，例如<td><div>...</div></td>，那么使用CSS选择器可能无法直接获取到数据。可以尝试使用XPath选择器来定位和提取数据，或者通过多次选择器的组合来获取嵌套结构中的数据。
数据格式问题：如果<td>中的数据不是纯文本，而是包含HTML标签或其他特殊格式，那么使用CSS选择器可能无法正确提取数据。可以使用正则表达式或其他文本处理方法来提取所需的数据。

总结起来，解决在<td>中使用Scrapy和CSS遍历进行抓取的问题，可以尝试以下方法：

使用Scrapy的Selenium插件或其他类似工具来模拟浏览器行为，确保数据完全加载后再进行抓取。
使用XPath选择器来定位和提取数据，特别是对于存在嵌套结构的数据。
使用正则表达式或其他文本处理方法来提取特殊格式的数据。

腾讯云相关产品和产品介绍链接地址：

腾讯云爬虫托管服务：提供稳定可靠的云端爬虫托管服务，帮助用户快速搭建和部署爬虫应用。详情请参考：https://cloud.tencent.com/product/crawler-hosting
腾讯云虚拟机：提供弹性、安全、高性能的云服务器，适用于各类应用场景。详情请参考：https://cloud.tencent.com/product/cvm
腾讯云数据库：提供多种数据库产品，包括关系型数据库、NoSQL数据库等，满足不同业务需求。详情请参考：https://cloud.tencent.com/product/cdb
腾讯云CDN：提供全球加速、高可用的内容分发网络服务，加速网站访问速度。详情请参考：https://cloud.tencent.com/product/cdn

无法通过在<td>中使用scrapy和css遍历<br>进行抓取。

、

html代码如下： (price per 1,000 images)<br> 0-1M imagesdata-region-unavailable="N/A" data-has-valid-price="true">$0.50</span> <br<

浏览 3提问于2018-12-17得票数 0

1回答

抓取蜘蛛不能正确抓取数据

、、、、

我正在尝试从我的大学网站上抓取关于循环的数据，使用scrapy进行一个项目，但我的爬虫没有正确地抓取数据。有很多空白元素，而且由于某些原因，我无法抓取通知的'href‘属性。我假设我的CSS选择器是错误的，但我无法找出我到底做错了什么。我用'Selector Gadget‘Chrome扩展复制了我的CSS选择器。我一直在学习scrapy，所以如果你能解释我做错了什么，那就太好了。

浏览 10提问于2020-11-21得票数 0

0回答

在使用scrapy正确抓取特定站点时遇到问题

、、

我浏览了Scrapy的教程，并且我能够理解如何废弃教程中包含的站点。但我在一些更复杂的网站上遇到了一些小麻烦(至少对我来说是这样)。我正在尝试从这个网页中抓取内幕交易的行和列：我正在使用带有scrapy的命令提示符命令来测试我是否能够抓取必要的信息，因此以下命令是我在命令提示符中编写的命令。我可以通过以下代码将一些信息(股票名称、内部人士姓名和日期)添加到列表

浏览 2提问于2016-12-22得票数 1

回答已采纳

0回答

使用scrapy-splash选择依赖下拉列表

、、、、

我正在尝试抓取以下网站：。它有一个两个下拉菜单，第二个取决于第一个，所以我选择通过scrapy-splash使用scrapy和splash。import scrapy from scrapy_splash import SplashRequest, SplashFormR

浏览 0提问于2017-11-30得票数 2

回答已采纳

2回答

抓取表时，Scrapy会忽略格式化数据

、

我正在尝试使用CSS选择器从https://en.wikipedia.org/wiki/List_of_UFC_events中抓取UFC日期。我尝试过使用.getall()和.extract_first()，它们都提供了相同的输出。我遗漏了什么？对问题进行标记。如何抓取具有特定id的表？= row.css("td:nth-child(3)::text").

浏览 23提问于2020-07-27得票数 0

回答已采纳

1回答

我正在尝试抓取一个使用调用HTML的API的网站，因此为此，我需要抓取API，然后从API抓取HTML结果我已经使用这篇文章设法获得了API响应，并从中获得了HTML。resp = json.loads(response.text) selector= scrapy.Selector(text=resp['results'], type="html") 而且它工作得很好，当我试图从页面获取属性时，我可以使用CSS</em

浏览 10提问于2020-12-16得票数 1

2回答

如何获得与Scrapy一起使用的正确选择器(CSS/XPath)？

、、、、

我想从这个网站上抓取信息： (全国驾驶学校列表)，在地图上映射邮政编码和公司名称(我已经从邮政编码映射到坐标)，以找到学校聚集区。最佳结果将是一个选择器，它提取710家公司()的所有相关信息。我已经尝试复制了想要的表()的CSS "selector“和，但是在Scrapy中运行CSS选择器/ XPath时，它什么也不返回。复制的CSS选择器示例，该选择器在Scrapy</

浏览 2提问于2020-04-04得票数 0

回答已采纳

2回答

可以在Scrapy中通过CSS属性定位元素吗？

、、、

我想知道Scrapy是否有基于CSS中定义的颜色来抓取数据的方法。例如，使用background-color: #ff0000选择所有元素。我已经尝试过了：我期望的是一个为表数据元素设置了所有背景颜色的列表，但它返回了一个空列表。在Scrapy中通常可以通过CSS<

浏览 2提问于2014-09-25得票数 10

1回答

刮伤错过一项记录

、、

新手到刮刮，一直试图抓取网站的数据从，但它是缺少一个记录从表中。scrapy.spiders.Rule(scrapy.linkextractors.LinkExtractor(restrict_css="table#tl > tbody > tr > td"), callbackget() 我认为这是因为执行基于链接的爬行的规则，但是不知道如何解决这个问题，而仍然循环遍历表<

浏览 4提问于2022-10-12得票数 1

回答已采纳

1回答

使用带有抓取命令的基本Spider类- parse()可以多次输出吗？

、

我运行下面的爬行器：from ..items import PythonlibrariesItem item['title'] = response.xpath('//table[@class="list"]/tbody/tr/td.extract();

浏览 0提问于2017-04-17得票数 0

2回答

抓取多个表，并将每个表头存储为csv中的行

、、

我正在尝试抓取多个表，这些表的表名都存储在h3标记下。有一些数据列我可以抓取，没有问题，当我提供下一个url时，我可以将这些数据附加到csv文件中。我不能解决的问题是获取表头并将其相对于表的每一行进行存储。这样做的原因是，当下一个表被输入时，我需要知道它属于哪个表。是否可以使用len循环来建立表的长度，然后将表头写到每一行？可以使用项目导出吗？il.add_css('player_2' , '.player-name:nt

浏览 0提问于2017-11-16得票数 0

1回答

如何让scrapy使用url遍历归档文件？

、、

我正在尝试让一个抓取蜘蛛抓取归档中的几个页面，目的是打开每个单独的链接并抓取链接页面的内容。我遇到了一些随机的HTTP500错误，我试图通过简单的尝试跳过这些错误-除了跳过那些返回500个错误的页面。我试图将程序更改为遍历初始URL

浏览 18提问于2019-07-08得票数 1

回答已采纳

1回答

无法使用Scrapy从下拉列表中进行抓取

、、、

我正在尝试从网站上嵌入的JS下拉列表中抓取市场列表：https://e27.co/startups 使用scrapy shell，我试图从“markets”下拉菜单中抓取市场列表，但无法这样做。在运行了scrapy shell 'https://e27.co/startups'之后，我尝试了同时使用response.css()和<

浏览 9提问于2019-06-13得票数 0

回答已采纳

1回答

ImportError:无法导入名称蜘蛛

、、、

我正在用python编写一个简单的web抓取程序，我编写了这个程序，但是当我试图使用以下命令"scrapy splash_spider“在命令行(Linux)中运行它时，我会得到以下错误消息："ImportError:无法导入名称蜘蛛”。" : 3})def Parse(self, response): for game in response.css

浏览 0提问于2019-05-09得票数 1

回答已采纳

2回答

Scrapy:修改响应中的元素和字段

、、、

我对Scrapy、Python和面向对象编程比较陌生，所以如果我遇到任何术语错误或不清楚的地方，我深表歉意。目前，我正在使用Scrapy的选择器抓取数据，并使用lxml修改响应。但是，我希望使用Scrapy的方法来进行修改，而不

浏览 2提问于2015-07-19得票数 6

1回答

抓抓蜘蛛停止爬行

、、

我尝试在一个需要登录授权和爬行到同一站点内的不同页面的.asp站点上运行爬行器。我昨天成功地使用我的爬行器登录，并使用不同的函数抓取数据，当我在更改las函数后再次运行爬行器时，爬行器停止工作。"tour": row.css(".td::text")[1].extract(), "public_rate_adult":row.css(".<e

浏览 20提问于2020-01-09得票数 0

回答已采纳

1回答

比较粗糙的数据

、

我对scrapy非常陌生，在我的项目中，我不确定如何继续进行。我的想法是，我想刮掉hackernews的前2页，然后打印出所有分数超过300的文章/标题。我的最终目标是我需要比较id和post id来匹配它们，将分数添加到相应的匹配中，然后过滤出小于300的分数。我不确定如何比较我已经能够抓取的字典值。代码如下： name = &#

浏览 12提问于2021-05-20得票数 0

回答已采纳

1回答

如何在每次爬网后阻止scrapy覆盖CSV导出文件

、

目前，我使用scrapy抓取一个网页的多个页面，并将数据导出到CSV文件。每天，爬行器都会遍历页面并保存数据；但是，它会覆盖前几天的数据。我想知道如何对管道进行编程，使其只在同一文件中从文件末尾开始写入CSV。通过这种方式，我可以将以前抓取的所有数据保存在一个位置。

浏览 0提问于2012-07-20得票数 0

1回答

在Scrapy中使用For循环将XPath值追加到列表中

、、、

我希望尝试和自动化我的html表格抓取在Scrapy。这就是我到目前为止所知道的： import scrapy 'away': row.xpath

浏览 37提问于2020-08-13得票数 0

回答已采纳

1回答

全局ItemLoader -乘法器之间的共享

、、、

我对Scrapy/Python相当陌生。但我想要这样的东西我专门问了关于在多个蜘蛛之间共享同一个ItemLoader的问题，因为这就是我所想到的(scrapy.Spider): name = &#x

浏览 0提问于2018-08-03得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

无法通过在<td>中使用scrapy和css遍历<br>进行抓取。

相关·内容

无法通过在<td>中使用scrapy和css遍历<br>进行抓取。

抓取蜘蛛不能正确抓取数据

在使用scrapy正确抓取特定站点时遇到问题

使用scrapy-splash选择依赖下拉列表

抓取表时，Scrapy会忽略格式化数据

Scrappy选择器上的Scrappy迭代

如何获得与Scrapy一起使用的正确选择器(CSS/XPath)？

可以在Scrapy中通过CSS属性定位元素吗？

刮伤错过一项记录

使用带有抓取命令的基本Spider类- parse()可以多次输出吗？

抓取多个表，并将每个表头存储为csv中的行

如何让scrapy使用url遍历归档文件？

无法使用Scrapy从下拉列表中进行抓取

ImportError:无法导入名称蜘蛛

Scrapy:修改响应中的元素和字段

抓抓蜘蛛停止爬行

比较粗糙的数据

如何在每次爬网后阻止scrapy覆盖CSV导出文件

在Scrapy中使用For循环将XPath值追加到列表中

全局ItemLoader -乘法器之间的共享

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐