腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy
:
选择
所有
子
元素
的
文本
,
但也
返回
子
HTML
、
、
我正在写一个抓取this page
的
抓取蜘蛛,我只想要jam_content类
的
元素
及其
所有
后代
的
文本
。所以理想情况下我应该 CYBERPUNK GAME JAM 2014 CLICK HERE!这是我
的
选择
器response.css(".jam_content *::text").extract(): 它甚至
返回
子
对象
的
HTML
['\r\n\r\n
浏览 22
提问于2019-12-21
得票数 0
回答已采纳
1
回答
逐列输出数据,我想逐行刮擦。这怎么可能呢?
、
、
、
下面是蜘蛛
的
代码和图片如下所示: rows=response.xpath('//*[@id="table-timetabletd/strong/text()').extract() return items我希望它
的
结果如下
浏览 5
提问于2016-11-03
得票数 0
回答已采纳
1
回答
不从网站获取标题
的
刮伤
、
、
我刚刚开始学习网页爬行,我有一个问题,如何从一个网站获得正确
的
标题。link= titles.xpath("a/@href").extract()问题是,链接只打印一堆/for/#数字#..
html
我已经阅读了以前
的
文章,并改变了一些事情,但我仍然有同样
的
问题。
浏览 1
提问于2015-06-22
得票数 0
1
回答
作为
scrapy
响应对象输出
的
空列表
、
我正在抓取这个<code>C0</code>,当我试图从一个
元素
中提取
文本
时,我走进了死胡同。因此,有问题
的
元素
如下图所示- 此
元素
中
的
文本
位于<code>D3</code>内
的
<code>D2</code>标记中。我尝试使用以下代码- <code>D5</
浏览 15
提问于2020-08-04
得票数 0
回答已采纳
1
回答
如何从div中提取
所有
文本
,包括来自
Scrapy
和Xpah同级
的
文本
?
、
在使用
scrapy
2.4从远程URL提取
文本
时,我发现它只
返回
此div中
的
文本
,而不
返回
它
的
子
节点中
的
文本
。 例如。<div> <p>text inside child</p> more text </div> 这只
返回
两个数组<
浏览 16
提问于2020-12-26
得票数 0
回答已采纳
2
回答
仅剪贴式正文
文本
、
、
、
我尝试使用python
Scrapy
从正文中抓取
文本
,但还没有成功。 希望一些学者能够在这里帮助我从<body>标记中抓取
所有
的
文本
。
浏览 1
提问于2011-03-22
得票数 9
回答已采纳
1
回答
不能让
Scrapy
/ Xpath注意到双<br>
、
、
<br> 我
选择
它是xpath,它带有像这样
的
刮擦:Out',我怎么能做到这样它就不会忽视额外
的
br?
浏览 1
提问于2014-04-01
得票数 1
回答已采纳
1
回答
只
选择
除了
子
元素
是<wbr></wbr>以外没有
子
元素
的
元素
。
、
、
、
我要
选择
没有
子
元素
的
元素
。这是因为我想
选择
所有
的
文本
在一个非常复杂
的
网站。我是这样做
的
:
但也
有一些特殊情况,像这样: <p>Some interesting text <wbr></wbr> thathas an "optional word br
浏览 2
提问于2014-06-25
得票数 0
回答已采纳
3
回答
HTML
:提取包含多个标记
的
文本
?
、
、
目标:从特定
元素
(例如li)中提取
文本
,同时忽略各种混合
的
标签,即平放第一级
子
元素
,并简单地分别
返回
每个扁平
子
元素
的
级联
文本
。要分别
返回
每个li标记,我们使用以下简单
的
方法:但这也包括周围
的
锚标签,等等 /
浏览 5
提问于2012-05-16
得票数 17
回答已采纳
1
回答
使用带有
Scrapy
的
CSS
选择
器获取
子
标记
的
文本
,什么也不
返回
。
、
虽然最初这是一个非常常见
的
问题,但我尝试了许多不同
的
方法来递归地从以下
html
代码中删除
所有
文本
,但由于某种原因,它们都没有工作: <span class="type">Cupom</spa
浏览 3
提问于2022-12-04
得票数 0
回答已采纳
1
回答
不
返回
子
节点
的
Scrapy
选择
器CSS
、
、
、
下面是页面
HTML
的
简化版本: <head> </head> <select我想模仿一个用户点击一个选项,加载一个新
的
页面。
选择
select
HTML
元素
浏览 4
提问于2017-09-21
得票数 0
回答已采纳
1
回答
"#“在刮伤
选择
器中是做什么
的
?
下面是有问题
的
完整
HTML
代码。.
html
'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a> </div> &
浏览 3
提问于2020-07-02
得票数 1
回答已采纳
2
回答
用于识别未标记
文本
的
XPath查询
考虑一下这个
HTML
: <head><body> <tr> <h1>title</h1><h3>item 3</h3> </td> <
浏览 1
提问于2010-11-03
得票数 3
回答已采纳
1
回答
用于lxml中子
元素
的
文本
值
的
XPath
、
、
、
、
我一直在尝试使用网页中
的
“
子
元素
文本
值”来生成Xpath表达式。尝试使用lxml (etree、
html
、getpath)和Python中
的
ElementTree模块来完成这个任务。但我不知道如何为网页中
的
值生成Xpath表达式。我完全了解python中
的
Scrapy
框架,但这是不同
的
。 下面是我
的
不完整代码。,但是如何使用读取和解析
的
html
数据(在我
的
浏览 3
提问于2014-12-16
得票数 2
回答已采纳
2
回答
Javascript获取范围与父
元素
相比
、
、
我有一个函数,它用两个
元素
返回
数组(在IE中不起作用) 如果用户在
文本
div中
选择
一个简单
的
字符串,则范围
返回
正确
的
值,但是当用户在div
的
子
元素
(div# text ->p )中
选择
一个字符串时,范围
的
值与
子
浏览 4
提问于2012-06-06
得票数 1
回答已采纳
3
回答
如何使用
Scrapy
从网站获取
所有
纯
文本
?
、
、
、
、
我希望有一个网站
的
所有
文本
可见后,
HTML
是呈现。我正在使用Python和
Scrapy
框架。使用xpath('//body//text()')我可以获得它,但是使用
HTML
标记,并且我只需要
文本
。
浏览 11
提问于2014-04-18
得票数 20
回答已采纳
4
回答
使用CSS
选择
顶级
子
级
是否可以使用CSS
选择
所有
顶级
子
级,而不管其类型如何。 .parent * {} 类将不是相同
的
,因此不使用类<em
浏览 4
提问于2014-05-29
得票数 5
回答已采纳
1
回答
是否有一种方法来
选择
每一个
元素
?
、
、
、
、
是否有一种方法可以获得一个cheerio对象,该对象包含
html
页面中
的
每个
元素
(包括
子
元素
),然后遍历该对象?我尝试过使用对象$('body'),但它只给出了
HTML
的
直接
子
对象,而不是
所有
后续
的
子
对象。我能做些什么来
选择
所有
的
HTML
元素
,因为我想解析每个单独
元素
的
<e
浏览 0
提问于2018-04-27
得票数 3
回答已采纳
1
回答
XPath中基于Uncle
的
过滤器
、
假设我有一个包含以下行
的
HTML
表, <th title="Library of Quintessential Memes">LQM:</th> <a href="docs/lqm.
html
"><b>Intro我想要
选择
<td>
元素
中
的
所有
<a>
元素
,这些<
浏览 0
提问于2012-10-23
得票数 0
回答已采纳
2
回答
Scrapy
1.1/Python3 3从字符串中删除字符串
、
、
我正在尝试从一个旧
的
html
页面中获取数据。Python3 DebianScrapy1.1我想得到
的
信息是这里
的
联系方式(无名氏) <p><strong>Contact: <a href="http://www.example.com/t/search-title-Proprietor.
html
浏览 3
提问于2016-08-18
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
杭州java学习:HTML获取子元素时的注意事项
爬虫框架Scrapy的第一个爬虫示例入门教程
Scrapy框架的使用之Selector的用法
解析库之 XPath(1)
享学课堂浅谈Python3中BeautifulSoup的使用方法
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券