
AngleSharp 是一个 C# 库,主要用于解析和操作 HTML 和 XML 文档,类似于浏览器的 DOM 操作。允许你在 C# 中使用类似浏览器的方式处理网页数据,进行网页抓取、数据提取和处理等任务。
第一步,老规矩,先安装
Install-Package AngleSharpusing AngleSharp.Html.Parser;
var html = @"<html><body><h1>Hello, World!</h1></body></html>";
// 创建 HTML 解析器
var parser = new HtmlParser();
var document = parser.ParseDocument(html);
// 查找 <h1> 元素
var h1 = document.QuerySelector("h1");
// 输出 <h1> 中的文本
Console.WriteLine(h1.TextContent); // Output: Hello, World!// 创建 HttpClient 来抓取网页
using AngleSharp.Html.Parser;
using var httpClient = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");
// 创建 HTML 解析器
var parser = new HtmlParser();
var document = parser.ParseDocument(html);
// 查找页面中的标题
var title = document.QuerySelector("title");
// 输出页面标题
Console.WriteLine(title.TextContent);var h1 = document.QuerySelector("h1"); // 获取第一个 <h1> 元素
var allLinks = document.QuerySelectorAll("a"); // 获取所有 <a> 标签var firstLink = document.QuerySelector("a");
var href = firstLink.GetAttribute("href");
Console.WriteLine(href); // 输出链接地址var heading = document.QuerySelector("h1");
heading.TextContent = "New Heading"; // 修改文本内容
heading.SetAttribute("class", "new-class"); // 修改 class 属性var links = document.QuerySelectorAll("a");
foreach (var link in links)
{
Console.WriteLine(link.GetAttribute("href"));
}using AngleSharp.Html.Parser;
using AngleSharp.Dom;
using System;
using System.Net.Http;
using System.Threading.Tasks;
classProgram
{
static async Task Main()
{
// 使用异步抓取网页内容
usingvar client = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");
// 使用 HTML 解析器解析网页
var parser = new HtmlParser();
var document = await parser.ParseDocumentAsync(html);
// 操作 DOM
var h1 = document.QuerySelector("h1");
Console.WriteLine(h1.TextContent);
}
}using AngleSharp.Html.Parser;
using AngleSharp.Dom;
using System;
using System.Net.Http;
using System.Threading.Tasks;
classProgram
{
static async Task Main()
{
// 获取网页
usingvar httpClient = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");
// 创建解析器
var parser = new HtmlParser();
var document = await parser.ParseDocumentAsync(html);
// 获取所有的链接
var links = document.QuerySelectorAll("a");
// 输出所有链接
foreach (var link in links)
{
var href = link.GetAttribute("href");
Console.WriteLine(href);
}
}
}AngleSharp 是一个强大的工具,可以帮助你在 C# 中进行 HTML 和 XML 的解析和操作。对于网页抓取、数据提取等任务非常有用。通过提供类似浏览器的 DOM 操作接口,它能使你更容易地处理和操作网页内容。