BeautifulSoup如何解析没有标签的元素

、、

我对解析有一点小问题。): return response.text soup = BeautifulSoup

浏览 24提问于2019-02-25得票数 0

回答已采纳

1回答

检查元素是否在同一段落中(美汤)

、、

如何检查BeautifulSoup解析树的元素是否在同一个标签中？

浏览 1提问于2011-09-02得票数 0

回答已采纳

1回答

如何检查BeautifulSoup标签是否是特定的标签？

、、、

如果我使用beautifulsoup找到某个标记我看下一个标签。我只想使用这个标签，如果它是一个<w:t>标签。如何检查下一个标签是什么类型的标签？我尝试了element.find_next_sibling().startswith('<w:t')的元素，但它说NoneType o

浏览 3提问于2019-12-01得票数 0

回答已采纳

10回答

我目前正在尝试抓取一个HTML格式相当差的网站(通常缺少结束标记，没有使用类或it，因此很难直接转到您想要的元素，等等)。到目前为止，我使用BeautifulSoup已经取得了一些成功，但偶尔(尽管很少)，我会遇到一个页面，在这个页面上，BeautifulSoup创建的HTML树与(例如) Firefox或Webkit略有不同虽然这是可以理解的，因为HTML的格式使这种模棱两可，如果我能够得到与Firefox或Webkit生成

浏览 3提问于2010-03-08得票数 9

回答已采纳

1回答

美丽汤解析硒元素

、、、、

我使用soup = BeautifulSoup(driver.page_source)解析BeautifulSoup中Selenium的整个页面。但是如何在BeautifulSoup中解析Selenium的一个元素。下面的代码将抛出 element = driver.find_element_by_i

浏览 2提问于2019-10-30得票数 1

回答已采纳

6回答

使用BeautifulSoup移除所有内联样式

、、、

我正在用BeautifulSoup做一些超文本标记语言清理。对Python和BeautifulSoup都是新手。根据我在Stackoverflow上找到的答案，我已经正确地删除了标签，如下所示：但是如何删除内联样式呢？Text应该变成：

浏览 0提问于2012-10-19得票数 15

回答已采纳

6回答

Python Beautifulsoup* img标签解析*

、、

我正在使用漂亮的汤来解析'www.youtube.com‘中的所有img标签。代码是from BeautifulSoup import BeautifulSoupsoup = BeautifulSoup(page) tags=soup.findAll('img'

浏览 2提问于2012-05-15得票数 5

1回答

如何使用BeautifulSoup解析表？

、、

这是一个特定于上下文的问题，涉及如何使用BeautifulSoup解析python2.7中的html表。print 'r: ', rprint 'src: ', html_source soup = BeautifulSou

浏览 2提问于2013-07-23得票数 0

回答已采纳

13回答

美汤与按ID抽取div及其内容

、

</div>标签和中间的东西呢？它不返回任何内容。(编辑：我发现BeautifulSoup没有正确解析我的页面，这可能意味着我试图解析的页面格式不正确。)

浏览 65提问于2010-01-26得票数 188

回答已采纳

1回答

机械化，python:从站点中读取特定的行，以减少读取长页面的时间

、、

而不是像下面显示的那样阅读整个站点，我想从站点访问特定的行(例如，第439行)。site = br.open('www.example.com').read() 我在使用.read()时遇到的问题是，有些站点太长，阅读这个过程需要很长时间。如果有缩短阅读时间的方法，请告诉我。

浏览 2提问于2014-12-22得票数 0

1回答

解析源代码(Python)方法:漂亮的汤，lxml，html5lib的区别？

、、、

我有一个很大的HTML源代码，我想要解析(大约200,000)行，并且我相当确定在整个过程中都有一些糟糕的格式。我一直在研究一些解析器，似乎Beautiful Soup，lxml，html5lib是最受欢迎的。我对Beautiful Soup文档、和像BeautifulSoup(markup，"lxml")或BeautifulSoup(markup，html5lib)这样的命令感到有点困惑。在这里，速度并不是真正的

浏览 0提问于2012-06-08得票数 1

3回答

HTML标记之间的Selenium

、、、

将Javascript创建的页面中的所有超文本标记语言传递给BeautifulSoup的最佳方法是什么？我目前使用的是：from selenium.common.exceptions import NoSuchElementExceptionfrom selenium.webdriver.common.keys import Keys from BeautifulSoup import BeautifulSoup<

浏览 1提问于2012-10-13得票数 2

5回答

我可以改变BeautifulSoup将XML标签转换为小写的行为吗？

、、

我正在编写代码来解析用XML编写的配置文件，其中XML标记大小写混合，而且大小写很重要。Beautiful默认情况下会将XML标记转换为小写，我想要更改此行为。我不是第一个问这个问题的人[参见]。然而，我不理解这个问题的答案，并且在BeautifulSoup-3.1.0.1中，BeautifulSoup.py似乎没有包含任何"encodedName“或"Tag.__str__”的实例。

浏览 2提问于2009-05-21得票数 8

回答已采纳

1回答

继续得到'TypeError：'NoneType‘对象是不可调用的’与美丽的汤和python3

、、、

我是一个初学者，尽管我的课程很吃力，所以这个问题可能真的很简单，但是我正在运行这个代码(当然是混乱的)代码(保存在x.py文件下)，以便从一个具有如下行格式的网站中提取链接和名称：</li> 因此，我设置如下:导入urllib.request、urllib.parse、从bs4导入的urllib.erro

浏览 0提问于2018-08-27得票数 0

回答已采纳

1回答

如何在使用BeautifulSoup解析页面时只获得有效的url链接？

、、、

我试图获取一个页面链接到的页面列表(使用标记)。在解析页面时，我使用BeautifulSoup：soup = BeautifulSoup(page.read(), features='lxml') 如何过滤包含散列符号的链接？另外，如果我想过滤广告链接或视频.我应该使用标签的哪个元素？

浏览 1提问于2019-04-24得票数 0

回答已采纳

2回答

如何在漂亮的汤中获得嵌套元素

、

我正在努力解决在td中获取一些href所需的语法问题。tr和td元素没有任何class或id。< tr >< td ><a >... 谢谢

浏览 0提问于2009-06-29得票数 25

回答已采纳

1回答

Python BS4与SDMX

、、、、

我想检索SDMX文件(如)中给定的数据。我尝试使用BeautifulSoup，但它似乎看不到标签。在下面的代码中from bs4 import BeautifulSoup html_source = urllib2

浏览 13提问于2016-09-16得票数 1

回答已采纳

2回答

如何使用python从html中提取纯文本，而不需要任何额外的(SCRIPT，STYLE，CSS，XML，HTML等标签)

我的工作是从HTML文件中获取纯文本。HTML文件是直接从网站复制粘贴的纯HTML数据(没有编码问题)。HTML有点复杂，因为它混合了很多注释script.extract() # rip it outreturn text 这将获取所有无用的标签</e

浏览 0提问于2019-11-11得票数 0

1回答

将一个BeautifulSoup分成两个Soup-Tree

、、

有多种方法可以拆分beautifulSoup解析树，获取元素列表或获取标记字符串。但似乎没有办法在分裂的同时保持树的完整。很明显，我可以做一个[BeautifulSoup(i) for i in str(soup).split(' ')]，但是我觉得这太难看了，而且我有太多的链接。可以在soup.findAll(&#x

浏览 2提问于2013-03-04得票数 1

回答已采纳

1回答

用` `解析未关闭的BeautifulSoup标记

、、

BeautifulSoup有关闭连续 标记的逻辑，但这并不完全符合我的要求。例如,>>> bs = BeautifulSoup('one two three four')twofour 我想把它解析成一个字符串列表，['one',&#

浏览 1提问于2012-11-20得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

检查元素是否在同一段落中(美汤)

如何检查BeautifulSoup标签是否是特定的标签？

使用Python进行Web抓取

美丽汤解析硒元素

使用BeautifulSoup移除所有内联样式

Python Beautifulsoup* img标签解析*

如何使用BeautifulSoup解析表？

美汤与按ID抽取div及其内容

机械化，python:从站点中读取特定的行，以减少读取长页面的时间

解析源代码(Python)方法:漂亮的汤，lxml，html5lib的区别？

HTML标记之间的Selenium

我可以改变BeautifulSoup将XML标签转换为小写的行为吗？

继续得到'TypeError：'NoneType‘对象是不可调用的’与美丽的汤和python3

如何在使用BeautifulSoup解析页面时只获得有效的url链接？

如何在漂亮的汤中获得嵌套元素

Python BS4与SDMX

如何使用python从html中提取纯文本，而不需要任何额外的(SCRIPT，STYLE，CSS，XML，HTML等标签)

将一个BeautifulSoup分成两个Soup-Tree

用`<br>`解析未关闭的BeautifulSoup标记

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐