首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >解析时获取元素标记中的内容

解析时获取元素标记中的内容
EN

Stack Overflow用户
提问于 2017-04-08 13:03:46
回答 1查看 43关注 0票数 0

考虑到我的代码:

代码语言:javascript
运行
复制
browser.get(s_page_url)
soup = BeautifulSoup(browser.page_source, "html.parser")
s_image_element = soup.find('a', {'id': 'angle-3'})
s_image_href = s_image_element['href']
s_image_url = "http://www.zappos.com" + s_image_href
s_title_element = soup.find('h1', {'class': 'banner'})
print s_title_element

目前产生的输出如下:

代码语言:javascript
运行
复制
<h1 class="banner">
<a href="http://couture.zappos.com/a-testoni">a. testoni</a>
<meta content="a. testoni" itemtype="brand">
<a href="/p/a-testoni-sport-nappa-calf-sneaker/product/8835012"><span class="ProductName" itemprop="name">Sport Nappa Calf Sneaker</span></a>
</meta></h1>

如何在<a href="http://couture.zappos.com/a-testoni">a. testoni</a>中获得文本,即a. testoni<span class="ProductName" itemprop="name">Sport Nappa Calf Sneaker</span>,即Sport Nappa Calf Sneaker

到目前为止,我已经尝试了以下几种方法:

代码语言:javascript
运行
复制
print s_title_element['a']

但是得到以下错误消息:

代码语言:javascript
运行
复制
  File "C:\Python27\lib\site-packages\bs4\element.py", line 958, in __getitem__
    return self.attrs[key]
KeyError: 'a'
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-04-08 13:33:02

代码语言:javascript
运行
复制
print s_title_element.get_text(strip=True,separator=" " )

get_text将连接标记对象中的所有文本。strip=True将去掉开头和结尾的空格

代码语言:javascript
运行
复制
def get_text(self, separator="", strip=False,
             types=(NavigableString, CData)):
    """
    Get all child strings, concatenated using the given separator.
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43294447

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档