在 Ruby 中,Nokogiri 是一个非常强大的 HTML、XML 和 SAX 解析器,它允许您轻松地解析和操作 HTML 和 XML 文档。要使用 Nokogiri 解析 HTML,您需要首先安装 Nokogiri gem,然后使用 Nokogiri::HTML 类来解析 HTML 文档。
以下是一个简单的示例,演示如何使用 Nokogiri 解析 HTML 文档:
require 'nokogiri'
# 假设您有一个包含以下内容的 HTML 文档:
html = <<-HTML
<html>
<head>
<title>My Website</title>
</head>
<body>
<h1>Welcome to my website!</h1>
<p>Here is some text.</p>
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</body>
</html>
HTML
# 使用 Nokogiri::HTML 解析 HTML 文档
doc = Nokogiri::HTML(html)
# 获取页面标题
title = doc.title
puts "Title: #{title}"
# 获取所有段落文本
paragraphs = doc.css('p')
paragraphs.each do |p|
puts "Paragraph: #{p.text}"
end
# 获取所有列表项
items = doc.css('ul li')
items.each do |item|
puts "Item: #{item.text}"
end
在这个示例中,我们首先使用 Nokogiri::HTML 解析了一个包含 HTML 文档的字符串。然后,我们使用 CSS 选择器来获取页面标题、所有段落文本和所有列表项。最后,我们将这些信息打印到控制台上。
Nokogiri 提供了许多其他方法和功能,例如 XPath 选择器、节点遍历和修改等,这些都可以让您更轻松地处理 HTML 和 XML 文档。
领取专属 10元无门槛券
手把手带您无忧上云