阅读本文大概需要 1.024 分钟
前言
在学习爬虫的过程,最重要的莫过于举一反三,多做项目,从项目中去发现问题,这个过程同样是我们成长的过程。下面我们就从实战项目开始,跟大家一起在爬虫的领域,打怪升级买装备……
今日主题:说说 beautifulsoup
beautifulsoup 是一个可以从 HTML 或 XML 文件中,提取数据的Python 库,能通过你喜欢的转换器实现惯用的文档导航查找,修改文档的方式。
注意下载4.0版本以上。
beautifulsoup 库主要功能
格式化后浏览器数据
访问 Tag
获取文本
注释处理
CSS 选择器
首先为了方便展示其功能,我们写一个简单的 HTML 文件,标题text.html
发送请求实例
frombs4importBeautifulSoup
首先是打开我们写好的文件,suop.prettify() 是美化输出格式。
然后是打印其类型,名字和内容
注释处理
text.html 中 标签内有注释 Elsie ,我们首先是用普通 string 打印出的是 NavigableString 即正常的字符串。
CSS查询
from bs4 import BeautifulSoup
soup = BeautifulSoup(open('test.html'))
print(soup.select('.sister'))
print(soup.select('#link1'))
print(soup.select('head > title'))
首先把所有含 sister 元素的内容都打印出来。
下面是根据 ID 查找。
最后根据父子关系查找。
写在后面
点赞、转发、赞赏、收藏都是对小编的支持,支持越多,更新越快。
我希望能跟大家一起走进爬虫的世界,因为Python自身的优势,能让我们更容易独自完成对文字、图片、视频的爬取,这个过程既是我们进步的过程,也是我们展现技术的时候。愿与君探讨交流!
领取专属 10元无门槛券
私享最新 技术干货