BeautifulSoup:如何从解析的html中提取特定元素

BeautifulSoup是一个Python库，用于从HTML或XML文件中提取特定元素。它提供了一种简单而灵活的方式来遍历解析的文档树，并根据需要提取所需的元素。

使用BeautifulSoup从解析的HTML中提取特定元素的步骤如下：

导入BeautifulSoup库：
导入BeautifulSoup库：
创建BeautifulSoup对象：
创建BeautifulSoup对象：
这里的html是解析的HTML内容，html.parser是指定使用的解析器。
根据需要提取特定元素：
- 提取所有的标签元素：
- 提取所有的标签元素：
- 这里的tag_name是要提取的标签名，例如div、p等。
- 提取第一个匹配的标签元素：
- 提取第一个匹配的标签元素：
- 提取具有特定属性的标签元素：
- 提取具有特定属性的标签元素：
- 这里的attribute_name是要匹配的属性名，attribute_value是要匹配的属性值。

遍历提取的元素并获取其内容或属性：
遍历提取的元素并获取其内容或属性：

BeautifulSoup的优势在于它提供了一种简单而直观的方式来解析和提取HTML或XML文档中的元素。它具有灵活的选择器和强大的文档遍历功能，使得提取特定元素变得非常方便。

BeautifulSoup在实际应用中可以用于各种场景，例如：

网页爬虫：从网页中提取特定的数据或链接。
数据分析：从HTML或XML文件中提取结构化数据进行分析。
网页模板解析：从网页模板中提取特定的元素进行动态渲染。

腾讯云提供了云计算相关的产品和服务，其中与BeautifulSoup相关的产品可能是云爬虫服务。云爬虫服务是腾讯云提供的一种高可用、高性能的分布式爬虫服务，可以帮助用户快速、稳定地获取互联网上的数据。用户可以使用云爬虫服务来解析HTML或XML文档，并提取特定的元素。具体的产品介绍和使用方法可以参考腾讯云的云爬虫服务页面。

注意：以上答案仅供参考，具体的产品选择和推荐应根据实际需求和情况进行评估。

用Python2.7x从href标记中提取字符串

、、、

我目前正在使用Beautifulsoup4从HTML页面中提取href标签。我在Beautifulsoup4中使用的是Beautifulsoup4查询，它运行良好，并返回我正在寻找的'a href‘标记。返回内容的示例如下： "<a href="manage/foldercontent.html?folder=Pictures" style="background-image: url(shares/Pictures/DefaultPicture.png)" target="content_window" title=

浏览 3提问于2015-06-30得票数 0

回答已采纳

2回答

美丽的汤和表格抓取- lxml与html解析器

、、、、

我正在尝试使用BeautifulSoup从网页中提取表格的超文本标记语言代码。 <table class="facts_label" id="facts_table">...</table> 我想知道为什么下面的代码与"html.parser"一起工作，并打印回none，如果我将"html.parser"更改为"lxml"。 #! /usr/bin/python from bs4 import BeautifulSoup from urllib import urlopen webpag

浏览 3提问于2014-09-08得票数 14

回答已采纳

6回答

我应该使用什么语言/工具来进行HTML解析？

、、

我有几个网站，我想从和以往的经验基础上提取数据，这并不像听起来那么容易。为什么？仅仅因为我必须解析的HTML页面没有正确的格式化(缺少结束标记等等)。考虑到我对可以使用的技术、语言或工具没有任何限制，您有什么建议可以轻松地解析和提取页面中的数据？我尝试过HTML、BeautifulSoup，甚至这些工具也不完美(HTML是错误的，而BeautifulSoup解析引擎不能处理我传递给它的页面)。

浏览 1提问于2009-02-24得票数 6

回答已采纳

1回答

BeautifulSoup提取脚本变量数据

、、

我在试着提取这只股票的名字。变量从变量followObjTitle中读取。网址： from bs4 import BeautifulSoup import requests import re import json with requests.Session() as c: nasdaq_baseurl = 'https://www.nasdaq.com/symbol/' nasdaq_url = nasdaq_baseurl.__add__("AAPL") url_fetch = c.get(nasdaq_ur

浏览 0提问于2018-09-22得票数 0

回答已采纳

1回答

如何使用BeautifulSoup从表中获得第一个和第三个td？

、、、、

我目前正在使用Python和BeautifulSoup来抓取一些网站数据。我试图从格式化如下的表中提取单元格： <tr><td>1<td><td>20<td>5%</td></td></td></td></tr> 上面的HTML的问题是，BeautifulSoup将它作为一个标记读取。我需要从第一个<td>和第三个<td>中提取值，这两个值分别是1和20。不幸的是，我不知道该怎么做。如何让BeautifulSoup读取表中每一行的第1和第3 <

浏览 0提问于2013-08-14得票数 6

回答已采纳

2回答

美丽的Soup对象省略信息

、、

问题:漂亮的soup对象似乎从HTML中删除了有价值的信息。它为什么要这样做，我如何提取这个字段？示例:我感兴趣的原始HTML表达了以下内容： <div id="KittyChow"> <h4 class="noteText">foodAmount</h4> <span>< 1 tsp</span> </div> 然而，当我创建soup对象时，相应的HTML行变成： <div id="KittyChow&#

浏览 1提问于2013-06-15得票数 0

回答已采纳

1回答

如何在没有span标题的BS4类下从span中提取文本？

、

如何在没有跨度标题的情况下从跨度中提取文本？HTML片段如下所示： <div class="priceValue "> <span>$179.93</span> </div> 我的代码现在 s = requests.Session() url="https://coinmarketcap.com/currencies/solana/" html = s.get(url) soup = BeautifulSoup(html.text, lxml) div = soup.select_one('.p

浏览 2提问于2021-12-06得票数 0

回答已采纳

2回答

与BeautifulSoup find()等效的Lxml

、、

最近，我从Beautifulsoup转向了lxml，因为lxml可以处理损坏的HTML，这就是我的情况。我想知道什么是等效的，还是一种编程形式的“美丽之汤”()。在BS中，我可以通过这样的搜索找到一个树节点： bs = BeautifulSoup(html) bs.find('span', {'class': 'some-class-name'}) lxml find()只是搜索树上的当前级别，如果我想在所有的树节点中搜索怎么办？谢谢

浏览 2提问于2013-09-26得票数 0

回答已采纳

5回答

bs4 -如何从网站中提取表格数据？

、、

这是链接，我使用的是BeautifulSoup，我的目标是从其中提取表。代码是我写的.. from bs4 import BeautifulSoup import requests import pandas as pd url="https://www.vit.org/WebReports/vesselschedule.aspx" html_content = requests.get(url).text soup = BeautifulSoup(html_content, "lxml") gdp_table = soup.find("table&

浏览 37提问于2021-07-07得票数 0

3回答

如何使用href>和BeautifulSoup从<div>中的<a BeautifulSoup标记后面出现的类标记中提取文本？

、、

我正在尝试从出现在(和后面)这样的标记中的类中提取文本： from bs4 import BeautifulSoup html = """<div class="wisbb_teamA"> <a href="http://www.example.com/eg1" class="wisbb_name">Phillies</a> </div>""" soup = BeautifulSoup(html,"lxml") for

浏览 0提问于2020-06-24得票数 0

回答已采纳

1回答

解释搜索结果

我的任务是编写一个程序，给定一个搜索词和一个页面的HTML源，代表一些未知搜索引擎的搜索结果(它实际上可以是任何东西，博客，商店，谷歌，eBay，...)，需要建立一个结果的数据结构包含“什么在结果中”：搜索结果的标题，“详细信息”链接，结果中的位置等。目标是将数据结构输入到另一个提取含义的程序中。我正在寻找的不是BeautifulSoup或RegExp，而是如何解释HTML源的一些聪明的想法或算法。我该怎么做才能找出页面的哪个部分构成了单个结果项？如何过滤标记噪声以提取重要比特？你怎么做？我非常感谢你给我的研究领域的指点。谢谢，西蒙

浏览 0提问于2010-04-21得票数 0

回答已采纳

2回答

如何从html文件中删除所有不必要的标签和符号？

、、、、

我正在尝试使用Python的BeautifulSoup或HTMLParser从美国证券交易委员会的EDGAR系统上的10-K报告(例如公司的代理报告)中提取“唯一”文本信息。然而，我使用的解析器似乎不能很好地处理‘txt’格式的文件，包括很大一部分毫无意义的符号和标签以及一些xbrl信息，这些信息根本不是必需的。然而，当我将解析器直接应用于‘htm’格式的文件时，解析器似乎工作得相对较好。 """for Python 3, from urllib.request import urlopen""" from urllib2 import urlo

浏览 2提问于2017-05-09得票数 2

3回答

一个快速的python HTML解析器

、、、

我写了一个python脚本，处理大量下载的网页HTML(120K页面)。我需要解析它们并从中提取一些信息。我试过使用BeautifulSoup，它简单直观，但运行起来似乎超级慢。因为这是必须在弱机器(在amazon上)上例行运行的东西，所以速度很重要。在python中有没有比BeautifulSoup快得多的HTML/XML解析器？或者我必须求助于正则表达式解析..

浏览 0提问于2012-03-13得票数 14

回答已采纳

1回答

BeautifulSoup:如何获得嵌套的div

、、

给定以下代码： <html> <body> <div class="category1" id="foo"> <div class="category2" id="bar"> <div class="category3"> </div> <div class="category4"> <div

浏览 0提问于2014-10-29得票数 6

回答已采纳

1回答

使用python BeautifulSoup在HTML代码中查找特定的注释条目

、、、

我正在尝试从HTML中解析评论会话中的特定条目。我正在尝试使用BeautifulSoup来做这件事。在我能够提取评论部分之后，我被卡住了。下面是一个例子： import urllib import sys from bs4 import BeautifulSoup, Comment soup = BeautifulSoup(open("test.html"), 'html.parser') comments = soup.findAll(text=lambda text:isinstance(text, Comment)) 你们知道我怎样才能得到正确的信息吗？

浏览 3提问于2018-08-01得票数 0

1回答

网络抓取-使用BeautifulSoup

、、、

我刚接触漂亮的汤，在篮球参考中使用它也有困难。我正在尝试将高级统计数据的整个数据帧存储到pandas数据帧中，但我甚至无法选择它。到目前为止，我的代码如下： from urllib.request import urlopen from bs4 import BeautifulSoup import pandas as pd url='http://www.basketball-reference.com/teams/ATL/2016.html' html = urlopen(url) soup = BeautifulSoup(html) soup.findAll(

浏览 0提问于2016-01-14得票数 0

2回答

如何使用beautifulSoup提取<section>等html5元素

、、、

我打算从纽约时报的一篇文章中提取文章正文。但是，我不知道如何通过html5标记来提取，比如区段名称。 import urllib.request from bs4 import BeautifulSoup html = urllib.request.urlopen('https://www.nytimes.com/2019/10/24/opinion/chuck-schumer-electric-car.html?action=click&module=Opinion&pgtype=Homepage') soup = BeautifulSoup(html) d

浏览 0提问于2019-10-25得票数 2

2回答

使用python从html文件中提取标签

我想在不使用BeautifulSoup的情况下从python的html文件中提取标记。例如，我想要获取 class="el" href="atsc__root__raised__cosine.html" target="_self">atsc_root_raised_cosine 从… <a class="el" href="atsc__root__raised__cosine.html" target="_self">atsc_root_raised_cosine</a&

浏览 0提问于2013-07-01得票数 2

1回答

为什么无法使用Jupyterlab中的BeautifulSoup4解析本地文件

、、

我正在遵循一个网络教程，尝试使用BeautifulSoup4从Jupyterlab中的html文件(存储在我的本地PC上)中提取数据，如下所示： from bs4 import BeautifulSoup with open ('simple.html') as html_file: simple = BeautifulSoup('html_file','lxml') print(simple.prettify()) 不管html文件中是什么，而不是预期的html，我都会得到以下输出 <html> <body&g

浏览 19提问于2020-10-03得票数 1

回答已采纳

3回答

从网页中提取表格

、、、、

需要从下面的<a href="#">Data</a>中提取数据。知道如何将这个表提取到DataFrames中吗？ from bs4 import BeautifulSoup import requests url = 'https://docs.google.com/spreadsheets/d/1dgOdlUEq6_V55OHZCxz5BG_0uoghJTeA6f83br5peNs/pub?range=A1:D70&gid=1&output=html#' r = requests.get(url) html_doc

浏览 2提问于2018-12-19得票数 3

回答已采纳

4回答

是否使用BeautifulSoup提取特定的TD表元素文本？

、、

我试图使用BeautifulSoup库从自动生成的HTML表中提取IP地址，但我遇到了一些问题。 HTML的结构如下： <html> <body> <table class="mainTable"> <thead> <tr> <th>IP</th> <th>Country</th> </tr> </thead> <tbody>

浏览 0提问于2014-03-30得票数 6

1回答

无法为re.compile定义正则表达式并将其传递给Beautifulsoup

、、

目前，我正在实践使用python访问web的基本概念。我正在学习关于YouTube的教程，并在下面的代码中进行了指导。 from urllib2 import urlopen, HTTPError from BeautifulSoup import BeautifulSoup import re url="http://getbusinessreviews.org/" try: webpage = urlopen(url).read except HTTPError, e: if e.code == 404: e.msg = 'd

浏览 2提问于2015-11-22得票数 1

回答已采纳

2回答

当网络抓取时，我们把"html.parser“的论点放在哪里？

、、、

请看下面的代码片段 import requests from bs4 import BeautifulSoup url = #Insert url here # Method 1 html = requests.get(url, "html.parser") soup = BeautifulSoup( html.text ) #Method 2 html2 = requests.get(url) soup2 = BeautifulSoup( html.text, "html.parser") 哪种方法是正确的？方法1还是方法2？我们应该将"html.

浏览 2提问于2020-08-11得票数 1

回答已采纳

1回答

从嵌套列表中提取HTML页面中的JSON格式的数据

、、

我的数据可以在这里找到：如何从这种JSON中提取数据呢？我可以从Firefox中的View中看到，Firefox可以将此列表转换为工作的JSON格式。代码片段： with urllib.request.urlopen("url") as url: soup = BeautifulSoup(url, "html.parser") output_file.write(str(json.loads(soup.get_text()))) 如何将这种数据转换为有用的已转换数据？

浏览 0提问于2017-11-28得票数 0

1回答

如何使用python获取隐藏输入的值？

、、、

如何从html页面获取输入值？喜欢 <input type="hidden" name="captId" value="AqXpRsh3s9QHfxUb6r4b7uOWqMT" ng-model="captId"> 我有输入名name="captId“，需要他的值 import re , urllib , urllib2 a = urllib2.urlopen('http://www.example.com/','').read() 萨克斯更新1 我安装了Beautifu

浏览 5提问于2015-05-27得票数 9

回答已采纳

3回答

如何从这个网站(https://www.mohfw.gov.in/))中提取印度冠状病毒病例( sate、受影响和死亡的名称)的卫星数据？

、、、

这是从我的数据所在的类中提取html数据的代码。但是，如何提取所需的数据(，状态明智的数据)，因为它不是按顺序提供的。 import requests import cloudscraper from bs4 import BeautifulSoup import re import pandas as pd import time import datetime scraper = cloudscraper.create_scraper() html = scraper.get("https://www.mohfw.gov.in/").text data = Beautifu

浏览 1提问于2020-03-26得票数 1

回答已采纳

1回答

如何有效地从docx/xml中删除表并提取文本

、、、

删除表后，我在从.docx中提取文本时遇到了问题。我正在处理的docx文件包含很多表，在提取文本之前，我希望将这些表处理掉。我首先使用docx2html将docx文件转换为html，然后使用BeautifulSoup删除表标记并提取文本。 from docx2html import convert from bs4 import BeautifulSoup ... temp = convert(FileToConvert) soup = BeautifulSoup(temp) for i in range(0,len(soup('table'))): soup.tabl

浏览 6提问于2013-09-21得票数 1

回答已采纳

1回答

div中漂亮的Soup解析表

、

我正在使用bs4从ebay上的列表中提取信息以获取产品的详细信息，我试图以列表为例生成一个结果，我觉得最准确的代码如下所示： from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup uClient = uReq(my_url) page_html = uClient.read() uClient.close() page_soup = soup(page_html, 'html.parser') attributes = page_soup.findAll("di

浏览 1提问于2017-11-27得票数 1

回答已采纳

1回答

使用BeautifulSoup从HTML中提取文本

、、、

嗨，我正在尝试使用python中的BeautifulSoup函数从超文本标记语言中提取文本-它运行得很好，但我没有得到我需要的东西。我的代码如下： url = "http://news.bbc.co.uk/2/hi/health/2284783.stm" html = urlopen(url).read() raw = BeautifulSoup(html).get_text() Python控制台报告了以下问题，我不理解这个问题，希望能得到您的帮助。 raw = BeautifulSoup(html).get_text() C:/Users/muradz14/.spyder

浏览 28提问于2019-02-21得票数 0

回答已采纳

1回答

如何在源代码中分解BeautifulSoup标签副本？

、、、、

我有一个元素提取器，并且在源BeautifulSoup对象中删除它有问题。示例： def extract_element(soup: bs4.BeautifulSoup) -> bs4.Tag: tag = soup.select('my-css-selector-or-something-else') return copy.copy(tag) ## main body code soup = bs4.BeautifulSoup('my-html-code', 'my-parser') ignore_tag = ex

浏览 0提问于2018-05-25得票数 0

回答已采纳

3回答

如何从网页中提取特定文本？

、、、

我正在尝试从网页中提取特定的文本？这是网页中包含特定文本的部分： <div class="module"> <div class="body"> <dl class="per_info"> <dt>F.Name:</dt> <dd><a class="nm" href="http://">a Variable Name1</a></dd> <dt>L.Name:</dt> <d

浏览 1提问于2011-09-19得票数 3

2回答

与urlopen一起使用的合适的javascript解析器

、、

我正在尝试以下操作： from urllib2 import urlopen from BeautifulSoup import BeautifulSoup url = 'http://search.wcad.org/Property-Detail?PropertyQuickRefID=R000017&PartyQuickRefID=O0532572' soup = BeautifulSoup(urlopen(url).read()) print soup 打印语句显示非常复杂的文本结构，很难提取变量。提取像Legal Description这样的变量的更好方法是什么

浏览 0提问于2017-05-24得票数 0

1回答

如何在BeautifulSoup中使用元素的样式定义(如填充、字体大小等)来刮除元素

、、、、

我希望使用其样式属性padding-left: 16px提取div，如下所示。但很明显这不管用。我知道如何使用元素的类、id或标记提取元素。是否有一种使用样式属性进行相同操作的方法？ from bs4 import BeautifulSoup f = open("C:\Users\admin\Documents\GitHub\RedditCrawler\new.html"); soup = BeautifulSoup(f); f.close(); hr2 = soup.find('div', style={"padding-left":

浏览 6提问于2019-12-23得票数 2

回答已采纳

1回答

如何使用BeautifulSoup使用表id提取表

、

我正在学习如何使用从BeautifulSoup中抓取表。这个特定的页面有多个表，我希望能够基于表id提取特定的表。在检查代码时，我可以看到每个表都有一个唯一的id。我尝试了以下方法，它返回一个空列表： import requests from bs4 import BeautifulSoup url="https://afltables.com/afl/stats/teams/adelaide/2018_gbg.html" page=requests.get(url) soup=BeautifulSoup(page.content, 'html.parser'

浏览 1提问于2018-05-10得票数 1

回答已采纳

2回答

无法使用BeautifulSoup找到所有链接以从网站中提取链接(链接标识)

、、、

我使用这里找到的代码( )从网站中提取所有链接。 import httplib2 from BeautifulSoup import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('http://www.bestwestern.com.au') for link in BeautifulSoup(response, parseOnlyThese=SoupStrainer('a')): if link.has_attr('hr

浏览 3提问于2016-09-19得票数 0

回答已采纳

2回答

如何使用Python从由Javascript填充的网站获取数据？

、、、、

我想从网站获取一些数据/值。为此，我使用了beautifulsoup，当我尝试从Python脚本中获取它们时，字段是空白的，而当我检查网页的元素时，我可以清楚地看到表行数据中的值是可用的。当我看到HTML源代码时，我注意到那里也是空白的。我想出了一个原因，网站使用Javascript从自己的数据库中填充相应字段中的值。如果是这样，那么我如何使用Python获取它们？

浏览 1提问于2015-02-27得票数 0

2回答

使用BeautifulSoup抓取产品名称

、、

我正在使用BeautifulSoup (BS4)构建一个抓取器工具，它允许我从位于“h1”标签之间的任何TopShop.com产品页面中提取产品名称。我不明白为什么我写的代码不能工作！ from urllib2 import urlopen from bs4 import BeautifulSoup import re TopShop_URL = raw_input("Enter a TopShop Product URL") ProductPage = urlopen(TopShop_URL).read() soup = BeautifulSoup(ProductPage

浏览 0提问于2013-02-15得票数 0

回答已采纳

1回答

在HTML文件中搜索特定关键字后，如何找到封闭的标签(开始标签和结束标签)？

、、

我有一个关键字的列表，我需要在网站中搜索。我首先使用BeautifulSoup提取网页内容，并将其存储在一个文本文件中。我希望在文本文件(其中包含HTML数据)中搜索关键字列表，当其中一个关键字匹配时，需要提取找到该关键字的相应开始标记和结束标记。例如： <div class="col-md-6"> <a href="/"><img alt="DC Sustainable Energy Utility: Your Guide to Green" class="img-fluid" src="

浏览 0提问于2019-07-01得票数 0

1回答

在Python中将HTML表格转换为Pandas数据框

、、、、

在这里，我试图从Python代码中指定的网站中提取一个表。我能够得到HTML表，而且我无法使用Python转换为数据帧。以下是代码 # import libraries import requests from bs4 import BeautifulSoup # specify url url = 'http://my-trade.in/' # request html page = requests.get(url) # Parse html using BeautifulSoup, you can use a different parser like lxml

浏览 10提问于2019-07-10得票数 7

回答已采纳

1回答

beautifulsoup4从具有特定属性值的锚点元素获取href

、、

我正在尝试解析来自页面上多个锚点元素的href值，这些锚点元素的属性为itemprop，值为url，使用BeautifulSoup4 例如，从<a itemprop="url" href="/pages/page"></a>中提取/pages/page，但是在一个页面中有多个这样的项目，所以我希望将它们放在一个数组中。我在想像这样的soup("span", html = True, {'itemprop' : 'name' })

浏览 2提问于2016-10-28得票数 1

1回答

将HTML数据转换为文本格式

、、、

我使用Selenium驱动程序从LinkedIn配置文件中提取数据点。在本例中，我希望从技能部分提取每个技能，但是数据被提取为HTML格式。当试图将HTML代码转换为文本时，我会得到附加的错误消息。 from parsel import Selector from selenium import webdriver from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup driver = webdriver.Chrome('/Users/davidcraven/Downl

浏览 3提问于2019-04-28得票数 2

回答已采纳

1回答

BeautifulSoup和urllib用于查找网站上的数据

、、

背景我试图理解使用beautifulsoup4和urllib库从网站中提取特定数据的过程。我如何从网站获得DVD的具体价格，如果： div类是<div class="productPrice" data-component="productPrice">。 P类是<p class="productPrice_price" data-product-price="price">£9.99 </p> 目前为止的代码： from bs4 import BeautifulSoup f

浏览 2提问于2019-01-18得票数 1

回答已采纳

1回答

使用漂亮的汤获取div中的项目列表

、、

我试着用漂亮的汤从上拿出一张菜单，但没有什么效果。我已经附上了以下网站的HTML结构。我试着从课堂上提取元素的列表。下面的代码不返回任何内容。我对HTML不太熟悉，并试图找到最简单的方法来实现这一点。 from bs4 import BeautifulSoup page = requests.get("https://www.udacity.com/courses/all?price=Free",verify=False) soup = BeautifulSoup(page.content, 'html.parser') ls=soup.find_all(

浏览 4提问于2022-07-06得票数 0

回答已采纳

1回答

美汤在源文件中找到标签的位置？

、、

我正在使用BeautifulSoup从HTML文件中提取信息。我希望能够捕获信息的位置，即在HTML文件中的标签，BS标签对象的偏移量。有没有办法做到这一点？我目前使用的是lxml解析器，因为它是默认的。

浏览 22提问于2018-03-03得票数 0

回答已采纳

2回答

用美汤从html字符串中提取文本

、、

我写了下面的代码来从网页中提取价格： from urllib.request import urlopen from bs4 import BeautifulSoup url = "https://www.teleborsa.it/azioni/intesa-sanpaolo-isp-it0000072618-SVQwMDAwMDcyNjE4" html = urlopen(url) soup = BeautifulSoup(html,'lxml') prize = soup.select('.h-price') print(prize) 输出为

浏览 4提问于2020-05-17得票数 0

1回答

创建一个python脚本以登录到网站并提取HTML数据

、、、

嗨，我希望有人能帮助我，我正在尝试创建一个脚本，用于登录网站并从HTML中提取一个值。我已经安装了BeautifulSoup，并尝试使用curl，但我似乎无法登录该网站。网站上的超文本标记语言使用j_username“和j_password 谢谢

浏览 0提问于2013-04-30得票数 1

3回答

美丽的汤FeatureNotFound问题

、、

import requests from bs4 import BeautifulSoup r = requests.get('https://ca.finance.yahoo.com/quote/AMZN/profile?p=AMZN') soup = BeautifulSoup(r.content, 'html.parser') price = soup.find_all('div', {'class':'My(6px) Pos(r) smartphone_Mt(6px)'}) print(price) 所以

浏览 22提问于2020-05-26得票数 0

2回答

BeautifulSoup能胜任这项任务吗？

、、、

我一直在尝试从一个似乎有多层html的网站中提取一些数据。从我所见过的所有示例中，我突然想到，如果您试图查找不是嵌套在树下面的数据，BeautifulSoup是一个很好的产品。对于我的小项目，我尝试让BeautifulSoup从以下位置拉取数据。任何帮助都将不胜感激。 <html lang=“en”> <body> <div id=“wrapper”> <div id=“app_timeline”> <div id=“timeline-summary” <div id=“timeline-summary-sticky”> &

浏览 0提问于2019-02-08得票数 0

2回答

无法使用Python和Beautiful从网站中提取日期值

、、

我捆绑从一个网站提取日期。我想知道新闻文章发表的日期/时间。这是我的密码：从bs4导入BeautifulSoup导入请求 url = "http://buchholterberg.ch/de/Gemeinde/Information/News/Newsmeldung?filterCategory=22&newsid=911" response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') date_tag = 'div#middle p&#

浏览 1提问于2020-11-30得票数 0

回答已采纳

2回答

在Python中提取和清除HTML正文的最快、最无错误的方法是什么？

、、、、

目前，我有两个函数从<body>中提取HTML文本，并将其作为一袋单词返回。它们提供了同等的产出。我还清理了各种标记，否则会给我垃圾文本(例如<script>代码)。 def html_to_bow_bs(text): if text is None or len(text)==0: return [] soup = BeautifulSoup(text, "lxml",parse_only=SoupStrainer('body')) # Remove all irrelevant tags

浏览 0提问于2016-03-03得票数 3

回答已采纳