提示: 如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的,查看 解析器之间的区别 了解更多细节
如何使用
将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象...中的limit关键字类似,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果....但是如果被解析文档不是标准格式,那么不同的解析器返回结果可能不同.下面例子中,使用lxml解析错误格式的文档,结果标签被直接忽略掉了:
BeautifulSoup("", "lxml...xml”:
soup = BeautifulSoup(markup, "xml")
当然,还需要 安装lxml
解析器的错误
如果同样的代码在不同环境下结果不同,可能是因为两个环境下使用不同的解析器造成的...4默认使用系统的 html.parser ,也可以使用lxml或html5lib扩展库代替.查看 安装解析器 章节
因为 html.parser 解析器与 SGMLParser 解析器不同,它们在处理格式不正确的文档时也会产生不同结果