爬虫基础-说说 Beautiful Soup

文章来源：企鹅号 - 乐创战队

阅读本文大概需要 1.024 分钟

前言

在学习爬虫的过程，最重要的莫过于举一反三，多做项目，从项目中去发现问题，这个过程同样是我们成长的过程。下面我们就从实战项目开始，跟大家一起在爬虫的领域，打怪升级买装备……

今日主题：说说 beautifulsoup

beautifulsoup 是一个可以从 HTML 或 XML 文件中，提取数据的Python 库，能通过你喜欢的转换器实现惯用的文档导航查找，修改文档的方式。

注意下载4.0版本以上。

beautifulsoup 库主要功能

格式化后浏览器数据

访问 Tag

获取文本

注释处理

CSS 选择器

首先为了方便展示其功能，我们写一个简单的 HTML 文件，标题text.html

发送请求实例

frombs4importBeautifulSoup

首先是打开我们写好的文件，suop.prettify() 是美化输出格式。

然后是打印其类型，名字和内容

注释处理

text.html 中标签内有注释 Elsie ，我们首先是用普通 string 打印出的是 NavigableString 即正常的字符串。

CSS查询

from bs4 import BeautifulSoup

soup = BeautifulSoup(open('test.html'))

print(soup.select('.sister'))

print(soup.select('#link1'))

print(soup.select('head > title'))

首先把所有含 sister 元素的内容都打印出来。

下面是根据 ID 查找。

最后根据父子关系查找。

写在后面

点赞、转发、赞赏、收藏都是对小编的支持，支持越多，更新越快。

我希望能跟大家一起走进爬虫的世界，因为Python自身的优势，能让我们更容易独自完成对文字、图片、视频的爬取，这个过程既是我们进步的过程，也是我们展现技术的时候。愿与君探讨交流！

相关快讯