删除HTML标记是指将HTML文本中的标签去除,只保留纯文本内容。在Python中,可以使用正则表达式或者第三方库来实现这个功能。
import re
def remove_html_tags(html):
clean = re.compile('<.*?>')
text = re.sub(clean, '', html)
return text
html_text = "<p>This is a <b>sample</b> HTML text.</p>"
plain_text = remove_html_tags(html_text)
print(plain_text)
输出结果:
This is a sample HTML text.
from bs4 import BeautifulSoup
def remove_html_tags(html):
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text()
return text
html_text = "<p>This is a <b>sample</b> HTML text.</p>"
plain_text = remove_html_tags(html_text)
print(plain_text)
输出结果:
This is a sample HTML text.
删除HTML标记的应用场景包括:
腾讯云相关产品和产品介绍链接地址:
请注意,以上仅为腾讯云的一些相关产品,其他云计算品牌商也提供类似的产品和服务。
领取专属 10元无门槛券
手把手带您无忧上云