开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >用BeautifulSoup和Python抓取特定的'dd‘标签

问用BeautifulSoup和Python抓取特定的'dd‘标签
EN

Stack Overflow用户

提问于 2019-10-31 06:14:02

回答 1查看 48关注 0票数 0

我正在学习美汤，我遇到了一个十字问题。这就是在html中抓取dd标签。看看下面的图片，我想获取红色区域中的参数。问题是我不知道如何访问它们。我已经尝试过了：

    kvadratura = float(nek_html.find('span', class_='d-inline-block mt-auto').text.split(' ')[0])
    jedinica_mere = nek_html.find('span', class_='d-inline-block mt-auto').text.split(' ')[1].strip()
...

但问题是，有时不同的页面有不同的参数，或者参数的顺序不同，所以我无法使用索引进行访问。查看链接：

https://www.nekretnine.rs/stambeni-objekti/stanovi/centar-zmaj-jovina-salonac-id1003/NkmUEzjEFo0/

https://www.nekretnine.rs/stambeni-objekti/stanovi/prodajemo-stan-milica-od-macve-mirijevo-46m2-nov/NkNruPymNHy/

我怎么能确定我将总是抓取我想要的参数呢？之后，每个参数都会进入列表，因此如果某个参数现在确实存在，它应该将''添加到列表中

音视频低代码开发方案最快1天上线

推出 TUICallKit 和 TUIRoomKit 低代码集成方案，最快1天接入在线教育、语聊房、在线客服等应用

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-10-31 07:13:00

在这种情况下，您可能希望这样做，而不是使用索引，因为后者可能会将您引向错误的dd。当您采用以下方法时，您所需要做的就是替换:contains('')中的文本以获得它们的dd，如Transakcija、Vrsta stana等。

import requests
from bs4 import BeautifulSoup

url = "https://www.nekretnine.rs/stambeni-objekti/stanovi/zemun-krajiska-41m-bela-fasadna-cila-odlican/NkiRX4sq4Cy/"

res = requests.get(url)
soup = BeautifulSoup(res.text,"lxml")
Kategorija = soup.select_one(".base-inf .dl-horozontal:has(:contains('Kategorija:')) > dd")
Kategorija = Kategorija.get_text(strip=True) if Kategorija else ""
print(Kategorija)

票数 3

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58637730

复制

相关文章

使用Python和BeautifulSoup抓取亚马逊的商品信息

python beautifulsoup 爬虫 python爬虫网页爬虫

Beautiful Soup 是一个 Python 库，可让您轻松地从 HTML 页面中提取数据。它可以使用各种解析器解析 HTML，例如内置的 Python 解析器、lxml 或 html5lib。 Beautiful Soup 可以帮助您通过标签、属性或文本内容找到特定元素。您还可以使用 .parent、.children 或 .next_sibling 等方法导航 HTML 树结构。 Beautiful Soup 对于网络抓取很有用，因为它可以获取 URL 的内容，然后解析它以提取您需要的信息。例如，您可以使用 Beautiful Soup 从亚马逊网站上抓取商品的标题、价格等信息。

jackcode

2023/05/31

1.6K0

使用Python和BeautifulSoup抓取亚马逊的商品信息

【python爬虫 2】BeautifulSoup快速抓取网站图片

http 爬虫网站

学习，最重要的是要了解它，并且使用它，正所谓，学以致用、本文，我们将来介绍，BeautifulSoup模块的使用方法，以及注意点，帮助大家快速了解和学习BeautifulSoup模块。有兴趣了解爬虫的小伙伴们，赶快学起来吧。

大家一起学编程

2022/01/25

1.4K0

【python爬虫 2】BeautifulSoup快速抓取网站图片

爬虫必备网页解析库——BeautifulSoup详解汇总（含Python代码举例讲解+爬虫实战）

爬虫 html python http

在使用BeautifulSoup解析库之前，先简单介绍一下BeautifulSoup库并讲解如何安装BeautifulSoup库。

Python研究者

2021/09/29

5K0

用python抓取淘宝评论

来自：http://blog.csdn.net/winterto1990/article/details/47983253 在学习python的时候，一定会遇到网站内容是通过ajax动态请求、异步刷新生成的json数据的情况，并且通过python使用之前爬取静态网页内容的方式是不可以实现的，所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据。这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求

机器学习AI算法工程

2018/03/14

3.6K0

BeautifulSoup 获取 Script 标签内的 json 数据

编程算法 json

有时候，我们可能会遇到数据是以 JSON 字符串的形式包裹在 Script 标签中，此时使用 BeautifulSoup 仍然可以很方便的提取。

happyJared

2019/11/03

4.8K0

python3网络爬虫(抓取文字信息)

python 爬虫 ubuntu html

本文章是下文链接的学习笔记: 一小时入门python3网络爬虫原文笔记是在winows下进行的,本文是在ubuntu下进行的所有操作. 爬虫的大概思路其实就两点: 获取网页的HTML信息解析HTML信息,提取我们真正需要的内容一前言二网络爬虫简介 1.审查元素 chrome:F12 2.简单实例网络爬虫根据提供的URL信息,获取网页的HTML信息. 在Python\3中使用request和urllib.request来获取网页的具体信息. urllib库Python内置,无需额

青木

2018/05/28

7K0

利用BeautifulSoup和python处理xml

SUMO的软件有些地方真是不好。很多SUMO中要用到的xml文件之前都是手工完成的。今天用BeautifulSoup模块写了一个代码，解决了最麻烦的排序问题。

钱塘小甲子

2019/01/29

1.4K0

python BeautifulSoup

beautifulsoup text

通过BeautifulSoup库的get_text方法找到网页的正文： #!/usr/bin/env python #coding=utf-8 #HTML找出正文 import requests from bs4 import BeautifulSoup url='http://www.baidu.com' html=requests.get(url) soup=BeautifulSoup(html.text) print soup.get_text()

py3study

2020/01/09

5740

使用多个Python库开发网页爬虫（一）

21CTO社区导读：在本篇文章里，我们将讨论使用Python进行网页抓取以及如何引用多个库，如Beautifusoup，Selenium库，以及JavaScript的PhantomJS库来抓取网页。在本文中，我们将学习到如何抓取静态页面，Ajax内容、iFrame、处理Cookie等内容。关于网页抓取网页抓取是从Web中提取数据的过程，可以用于分析数据，提取有用的信息。可以将抓取的数据存储到数据库里，也可以保存为任何格式的文件格式，比如CSV，XLS等，可用于其它软件再编辑。在Python语言的世

企鹅号小编

2018/03/02

3.6K0

用BeautifulSoup库抓取信息时去掉字符串首尾空白的几种方法

前言在抓取网页信息时经常遇到很多头尾加了空格的字符串，在此介绍几种处理的小技巧。例子 1. <p> woodenrobot </p> 2. <p> woodenrobot1<em> woodenrobot2 </em> </p> 方法对于例1 如果遇到例1这种情况下面几种方法可以通用。 from bs4 import BeautifulSoup html = '<p> woodenrobot </p>' soup = BeautifulSoup(h

木制robot

2018/04/13

1.7K0

用BeautifulSoup来煲美味的汤

正则表达式爬虫 java python http

许多人喜欢在介绍正则表达式以后才来介绍本篇BeautifulSoup的用法，但是我觉得BeautifulSoup比正则表达式好用，而且容易上手，非常适合小白入门爬虫，并且可以利用学到的这个知识立即去爬取自己想爬的网站，成就感满满的。好了话不多说，立即进入今天的介绍吧。

啃饼思录

2018/10/15

1.9K0

使用Python抓取欧洲足球联赛数据

数据的来源多种多样，以为我本身是足球爱好者，所以我就想提取欧洲联赛的数据来做一个分析。许多的网站都提供了详细的足球数据，例如：网易 http://goal.sports.163.com/ 腾讯体育 http://soccerdata.sports.qq.com/ 虎扑体育 http://soccer.hupu.com/ http://www.football-data.co.uk/ 这些网站都提供了详细的足球数据，然而为了进一步的分析，我们希望数据以格式化的形式存储，那么如何把这些网站提供的网

机器学习AI算法工程

2018/03/14

2.7K0

使用Python抓取欧洲足球联赛数据

使用Python抓取欧洲足球联赛数据

python api 大数据

摘要: 本文介绍了Web Scraping的基本概念的相关的Python库，并详细讲解了如果从腾讯体育抓取欧洲联赛的详细数据的过程和代码。为下一步的大数据分析的做好准备。背景 Web Scraping 在大数据时代，一切都要用数据来说话，大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗，抽取，变形和装载数据的分析，探索和预测数据的展现其中首先要做的就是获取数据，并提炼出有效地数据，为下一步的分析做好准备。数据的来源多种多样，以为我本身是足球爱好者，而世界杯就要来了，所以我

小莹莹

2018/04/23

3.7K0

使用Python抓取欧洲足球联赛数据

python beautifulsoup select

href select title

print soup.select('p a[href="http://example.com/elsie"]') 属性查找

用户5760343

2022/01/10

6970

Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结

python 爬虫正则表达式

前几天小编连续写了四篇关于Python选择器的文章，分别用正则表达式、BeautifulSoup、Xpath、CSS选择器分别抓取京东网的商品信息。今天小编来给大家总结一下这四个选择器，让大家更加深刻的理解和熟悉Python选择器。

Python进阶者

2018/08/03

2.6K0

Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结

初学指南| 用Python进行网页抓取

编译|丁雪黄念程序注释|席雄芬校对|姚佳灵引言从网页中提取信息的需求日益剧增，其重要性也越来越明显。每隔几周，我自己就想要到网页上提取一些信息。比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引。我们不仅需要找出新的课程，还要抓取对课程的评论，对它们进行总结后建立一些衡量指标。这是一个问题或产品，其功效更多地取决于网页抓取和信息提取（数据集）的技术，而非以往我们使用的数据汇总技术。网页信息提取的方式从网页中提取信息有一些方法。使用API可能被认为是从网站提取信息的最佳方法。

大数据文摘

2018/05/21

3.3K0

初学指南| 用Python进行网页抓取

引言从网页中提取信息的需求日益剧增，其重要性也越来越明显。每隔几周，我自己就想要到网页上提取一些信息。比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引。我们不仅需要找出新的课程，还要抓取对课程的评论，对它们进行总结后建立一些衡量指标。这是一个问题或产品，其功效更多地取决于网页抓取和信息提取（数据集）的技术，而非以往我们使用的数据汇总技术。网页信息提取的方式从网页中提取信息有一些方法。使用API可能被认为是从网站提取信息的最佳方法。几乎所有的大型网站，像Twitter、Facebo

CDA数据分析师

2018/02/05

3.8K0

初学指南| 用Python进行网页抓取

用Python抓取某大V的公众号文章

我之前用Charles来抓取了得到App的音频资料抓取得到App音频数据，于是又收到有读者要我抓取公众号文章，于是就有了这一篇文章. 不知道爬谁的文章好，想了想找了比较接地气的公众号大V[匿名一下，省得被认为蹭流量]，于是在微信上征得他同意后，开始干活了！

龙哥

2018/10/22

2.4K0

用Python抓取某大V的公众号文章

Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结

css python xslt & xpath 正则表达式

前几天小编连续写了四篇关于Python选择器的文章，分别用正则表达式、BeautifulSoup、Xpath、CSS选择器分别抓取京东网的商品信息。今天小编来给大家总结一下这四个选择器，让大家更加深刻的理解和熟悉Python选择器。

Python进阶者

2021/08/23

1.9K0

用Python爬虫抓取免费代理IP

-- Illustrations by Ash Thorp & Maciej Kuciara --

Python中文社区

2018/07/27

3.4K0

用Python爬虫抓取免费代理IP

相似问题

用BeautifulSoup和python抓取Instagram标签页面

116

用BeautifulSoup抓取<span>标签

112

用Python和BeautifulSoup抓取电梯

12

用BeautifulSoup抓取Python

12

用BeautifulSoup抓取Python

14

活动推荐

玩转EdgeOne Pages有奖征集

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例