Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何使用scrapy获取嵌套文本值

如何使用scrapy获取嵌套文本值
EN

Stack Overflow用户
提问于 2020-05-09 17:15:50
回答 1查看 31关注 0票数 0

下面是提取的div代码,我需要从中获取输出,尝试通常的提取不起作用

代码语言:javascript
运行
AI代码解释
复制
    <div class="container-inhalt">
            <div class="container-hauptinfo s16">
                <a title="Ki-dong Kim" id="0" href="/ki-do190">Ki-Kim</a>               </div>
            <div class="container-zusatzinfo-small">
                <b>Age:</b> 48                  Years&nbsp;

                <img src="https://tny/87.png?lm=1520611569" title="Korea, South" alt="Ka, Sh" class="flaggenrahmen" />                  <br />
                <b>Appointed:</b> Apr 23, 2019                  <br />
                <b>Contract expires:</b> -                  <br />
                <b>Success rate as coach:</b>  1,63 PPM             </div>
            <div class="container-zusatzinfo">
                                </div>
        </div>

输出:1,63 PPM

EN

回答 1

Stack Overflow用户

发布于 2020-05-09 18:55:15

如果您希望继续使用webscraping来学习XPathXPath Functions,这将是一项坚实的投资,因为几乎总是可以描述如何针对特定节点。然后,Scrapy还允许为“最后一英里”部分运行正则表达式:

代码语言:javascript
运行
AI代码解释
复制
def parse(self, response):
    response.xpath('//b[contains("Success rate as coach:", text())]'
                   '/following-sibling::node()'
                   ).re(r'\s*(\S+)\s*')
# ['1,63', 'PPM']
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61700750

复制
相关文章
如何获取变量token的值
1.客户端使用用户名跟密码请求登录 2.服务端收到请求,去验证用户名与密码 3.验证成功后,服务端会签发一个 Token,再把这个 Token 发送给客户端 4.客户端收到 Token 以后可以把它存储起来,比如放在 Cookie 里或者 LocalStorage 里,客户端每次向服务端请求资源的时候需要带着服务端签发的 Token 5.服务端收到请求,然后去验证客户端请求里面带着的 Token,如果验证成功,就向客户端返回请求的数据 6.web/APP登录的时候发送加密的用户名和密码到服务器,服务器验证用户名和密码,如果成功,以某种方式比如随机生成32位的字符串作为token,存储到服务器中,并返回 token 到web/APP,以后web/APP请求时凡是需要验证的地方都要带上该 token,然后服务器端验证 token,成功返回所需要的结果,失败返回错误信息,让他重新登录。其中服务器上 token 设置一个有效期,每次web/APP请求的时候都验证token 和有效期。 二、如何获取token的值,进行接口测试
用户7880705
2020/10/29
14.7K0
数据获取:认识Scrapy
本节介绍一个普通流程的爬虫框架——Scrapy,它提供了一个通用性的开发规范,帮助开发者做好了通用性的功能,只需要自定义发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容。在最后的实战项目中,我们将会使用Scrapy来做数据采集并进行深度的数据分析和可视化。
马拉松程序员
2023/09/02
2460
数据获取:认识Scrapy
java中sql如何嵌套查找_SQL 查询嵌套使用[通俗易懂]
id int primary key auto_increment, — 主键id
全栈程序员站长
2022/09/22
4.5K0
java中sql如何嵌套查找_SQL 查询嵌套使用[通俗易懂]
在Scrapy中如何使用aiohttp?
当我们从一些代理IP供应商购买代理IP时,他们可能是提供一个网址供我们查询当前可用的代理IP。我们周期性访问这个网址,拿到最新的IP,再分给爬虫使用。
青南
2020/07/16
6.6K0
js:如何获取select选中的值
<select id=”select”> <option value=”A” url=”http://www.baidu.com”>第一个option</option> <option value=”B” url=”http://www.qq.com”>第二个option</option> </select> 一:JavaScript原生的方法
全栈程序员站长
2022/11/04
27.2K0
Selenium Chrome Webdriver 如何获取 Youtube 悬停文本
Youtube 是一个非常流行的视频分享平台,有时候我们可能想要爬取一些视频的信息,比如标题、播放量、点赞数等。但是有些信息并不是直接显示在网页上的,而是需要我们将鼠标悬停在某个元素上才能看到,比如视频的时长、上传时间等。这些信息被称为悬停文本,它们是通过 JavaScript 动态生成的,所以我们不能用普通的 HTML 解析方法来获取它们。那么,我们该如何用爬虫来获取 Youtube 的悬停文本呢?本文将介绍一种方法,使用 Selenium Chrome Webdriver 来模拟浏览器操作,获取 Youtube 的悬停文本。
jackcode
2023/07/24
4660
Selenium Chrome Webdriver 如何获取 Youtube 悬停文本
gitlab 删除仓库_获取下拉框选中的文本值
方法一:使用git命令来删除分支 1、进入相应的仓库,然后使用 git branch -a 命令查看该仓库所有的分支
全栈程序员站长
2022/11/03
2.2K0
vue中同时获取select下拉框的值和文本
在下是首席架构师
2023/07/04
2.1K0
vue中同时获取select下拉框的值和文本
如何使用Scrapy框架抓取电影数据
随着互联网的普及和电影市场的繁荣,越来越多的人开始关注电影排行榜和评分,了解电影的排行榜和评分可以帮助我们更好地了解观众的喜好和市场趋势.豆瓣电影是一个广受欢迎的电影评分和评论网站,它提供了丰富的电影信息和用户评价。因此,爬取豆瓣电影排行榜的数据对于电影从业者和电影爱好者来说都具有重要意义。
小白学大数据
2023/09/25
3680
SystemVerilog(五)-文本值
System Verilog 扩展了 Verilog 的 教据类型 , 增强了指定文本值的方法。在介绍文本值之前我们先简单回忆一下HDL中的四个状态数据值。
碎碎思
2022/04/14
1.2K0
SystemVerilog(五)-文本值
1.1、文本插值
Vue 使用一种基于 HTML 的模板语法,使我们能够声明式地将其组件实例的数据绑定到呈现的 DOM 上。所有的 Vue 模板都是语法层面合法的 HTML,可以被符合规范的浏览器和 HTML 解析器解析。
张果
2022/11/12
8.9K0
1.1、文本插值
【Python】字典 dict ① ( 字典定义 | 根据键获取字典中的值 | 定义嵌套字典 )
字典 在 大括号 {} 中定义 , 键 和 值 之间使用 冒号 : 标识 , 键值对 之间 使用逗号 , 隔开 ;
韩曙亮
2023/10/11
6120
如何使用Python对嵌套结构的JSON进行遍历获取链接并下载文件
JSON(JavaScript Object Notation)是一种基于JavaScript语言的轻量级数据交换格式,它用键值对的方式来表示各种数据类型,包括字符串、数字、布尔值、空值、数组和对象。数组是有序的数据集合,用[]包围,元素用逗号分隔;对象是无序的数据集合,用{}包围,属性用逗号分隔,属性名和属性值用冒号分隔。
jackcode
2023/02/23
11K0
如何使用Python对嵌套结构的JSON进行遍历获取链接并下载文件
Scrapy中Xpath的使用
请注意,本文编写于 990 天前,最后修改于 990 天前,其中某些信息可能已经过时。
曼亚灿
2023/05/17
9770
【MATLAB】基本绘图 ( 句柄值 | 对象句柄值获取 | 创建对象时获取句柄值 | 函数获取句柄值 | 获取 / 设置 对象属性 | 获取对象属性 )
对象的句柄值 , 类似于编程时的引用 , 将对象的句柄值赋值给变量后 , 该变量就可以代表指定的绘图对象 ;
韩曙亮
2023/03/29
6.9K0
【MATLAB】基本绘图 ( 句柄值 | 对象句柄值获取 | 创建对象时获取句柄值 | 函数获取句柄值 | 获取 / 设置 对象属性 | 获取对象属性 )
Java编码指南:嵌套对象属性获取多次判断Null如何避免
groovy语言的安全导航操作符(The Safe Navigation operator)
崔认知
2023/06/19
6000
Java编码指南:嵌套对象属性获取多次判断Null如何避免
如何在Java中获取context-param值?
“ context-param”标记在“ web.xml”文件中定义,并且为整个Web应用程序提供参数。
全栈程序员站长
2022/09/13
3K0
问与答129:如何对#N/A文本值进行条件求和?
它们输出的结果看起来相似,但实质上是不同的:在A1和A2中是文本类型,而A3和A4中是错误类型。从数据的对齐方式上也可以反映出来。
fanjy
2021/07/12
2.4K0
问与答129:如何对#N/A文本值进行条件求和?
使用scikit-learn计算文本TF-IDF值
TF-IDF(Term Frequency-InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法,根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见的却无关紧要本的词语,同时保留影响整个文本的重要字词。计算方法如下面公式所示。
海天一树
2018/07/25
2.3K0
使用scikit-learn计算文本TF-IDF值
点击加载更多

相似问题

如何使用scrapy从span获取文本

146

如何使用Scrapy获取完整链接文本

33

如何获取嵌套的scrapy - selectors

331

如何使用Scrapy读取文本并获取某些特定行值

174

使用scrapy获取链接和文本

11
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档