使用BeautifulSoup提取span中不带类名的文本

BeautifulSoup是Python中一个强大的库，用于从HTML或XML文档中提取数据。它能够帮助我们方便地解析和遍历文档树，从而提取所需的数据。

对于提取span标签中不带类名的文本，可以使用BeautifulSoup的find_all方法结合正则表达式进行匹配。以下是一个示例代码：

from bs4 import BeautifulSoup
import re

html_doc = """
<html>
<body>
<span>文本1</span>
<span class="class1">文本2</span>
<span class="class2">文本3</span>
<span>文本4</span>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')
spans = soup.find_all('span', class_=False, text=re.compile('.+'))

for span in spans:
    print(span.text)

在上述代码中，我们首先导入了BeautifulSoup库和re模块。然后定义了一个包含多个span标签的HTML文档字符串。

接下来，我们创建了一个BeautifulSoup对象soup，并传入要解析的HTML文档和解析器类型。然后使用find_all方法找到所有的span标签。

在find_all方法中，我们传入了两个参数。第一个参数是标签名'span'，第二个参数class_=False表示不包含class属性的span标签。我们还使用了正则表达式re.compile('.+')来匹配所有非空的文本内容。

最后，我们使用循环遍历所有匹配到的span标签，并使用text属性获取其文本内容，并将其打印出来。

这样，我们就可以提取出所有不带类名的span标签中的文本内容。

推荐腾讯云相关产品和产品介绍链接地址：