首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AngleSharp :在 C# 中轻松解析和操作 HTML/XML 文档

AngleSharp :在 C# 中轻松解析和操作 HTML/XML 文档

作者头像
郑子铭
发布2025-04-10 10:56:43
发布2025-04-10 10:56:43
5220
举报

AngleSharp 是一个 C# 库,主要用于解析和操作 HTML 和 XML 文档,类似于浏览器的 DOM 操作。允许你在 C# 中使用类似浏览器的方式处理网页数据,进行网页抓取、数据提取和处理等任务。

安装

第一步,老规矩,先安装

代码语言:javascript
复制
Install-Package AngleSharp

使用

解析 HTML 文档
代码语言:javascript
复制
using AngleSharp.Html.Parser;

var html = @"<html><body><h1>Hello, World!</h1></body></html>";

// 创建 HTML 解析器
var parser = new HtmlParser();
var document = parser.ParseDocument(html);

// 查找 <h1> 元素
var h1 = document.QuerySelector("h1");

// 输出 <h1> 中的文本
Console.WriteLine(h1.TextContent);  // Output: Hello, World!
解析并抓取网页
代码语言:javascript
复制
// 创建 HttpClient 来抓取网页
using AngleSharp.Html.Parser;

using var httpClient = new HttpClient();
var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");

// 创建 HTML 解析器
var parser = new HtmlParser();
var document = parser.ParseDocument(html);

// 查找页面中的标题
var title = document.QuerySelector("title");

// 输出页面标题
Console.WriteLine(title.TextContent);

DOM 操作

选择器和查询
代码语言:javascript
复制
var h1 = document.QuerySelector("h1");  // 获取第一个 <h1> 元素
var allLinks = document.QuerySelectorAll("a");  // 获取所有 <a> 标签
获取元素属性
代码语言:javascript
复制
var firstLink = document.QuerySelector("a");
var href = firstLink.GetAttribute("href");
Console.WriteLine(href);  // 输出链接地址
修改元素
代码语言:javascript
复制
var heading = document.QuerySelector("h1");
heading.TextContent = "New Heading";  // 修改文本内容
heading.SetAttribute("class", "new-class");  // 修改 class 属性
遍历节点
代码语言:javascript
复制
var links = document.QuerySelectorAll("a");

foreach (var link in links)
{
    Console.WriteLine(link.GetAttribute("href"));
}

4异步操作

代码语言:javascript
复制
using AngleSharp.Html.Parser;
using AngleSharp.Dom;
using System;
using System.Net.Http;
using System.Threading.Tasks;

classProgram
{
    static async Task Main()
    {
        // 使用异步抓取网页内容
        usingvar client = new HttpClient();
        var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");

        // 使用 HTML 解析器解析网页
        var parser = new HtmlParser();
        var document = await parser.ParseDocumentAsync(html);

        // 操作 DOM
        var h1 = document.QuerySelector("h1");
        Console.WriteLine(h1.TextContent);
    }
}

5. 实战:抓取网页中的所有链接

代码语言:javascript
复制
using AngleSharp.Html.Parser;
using AngleSharp.Dom;
using System;
using System.Net.Http;
using System.Threading.Tasks;

classProgram
{
    static async Task Main()
    {
        // 获取网页
        usingvar httpClient = new HttpClient();
        var html = await httpClient.GetStringAsync("https://www.hunji.xyz/");

        // 创建解析器
        var parser = new HtmlParser();
        var document = await parser.ParseDocumentAsync(html);

        // 获取所有的链接
        var links = document.QuerySelectorAll("a");

        // 输出所有链接
        foreach (var link in links)
        {
            var href = link.GetAttribute("href");
            Console.WriteLine(href);
        }
    }
}

总结

AngleSharp 是一个强大的工具,可以帮助你在 C# 中进行 HTML 和 XML 的解析和操作。对于网页抓取、数据提取等任务非常有用。通过提供类似浏览器的 DOM 操作接口,它能使你更容易地处理和操作网页内容。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DotNet NB 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 安装
    • 使用
      • 解析 HTML 文档
      • 解析并抓取网页
    • DOM 操作
      • 选择器和查询
      • 获取元素属性
      • 修改元素
      • 遍历节点
    • 4异步操作
    • 5. 实战:抓取网页中的所有链接
    • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档