在使用bs4之前,如果HTML标记在<p>
标签下,可以使用bs4提供的get_text()
方法来提取文本内容。
具体步骤如下:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
,其中html
是待解析的HTML文档。find()
或find_all()
,定位到包含目标文本的<p>
标签。get_text()
方法即可提取其中的文本内容。示例代码如下:
from bs4 import BeautifulSoup
# 假设html为待解析的HTML文档
html = '''
<html>
<body>
<p>这是一个示例文本。</p>
</body>
</html>
'''
# 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'html.parser')
# 定位到目标标签
p_tag = soup.find('p')
# 提取文本内容
text = p_tag.get_text()
print(text)
输出结果为:
这是一个示例文本。
推荐的腾讯云相关产品:腾讯云服务器(CVM)和腾讯云云服务器负载均衡(CLB)。
领取专属 10元无门槛券
手把手带您无忧上云