如何从 .Net 中的许多 HTML 文件中读取 xpath 值？

从 .Net 中的许多 HTML 文件中读取 xpath 值，可以使用以下步骤：

安装 HtmlAgilityPack 和 System.Xml.XPath.XDocument 库

在 Visual Studio 中，右键单击项目名称，然后选择“管理 NuGet 程序包”。搜索并安装 HtmlAgilityPack 和 System.Xml.XPath.XDocument 库。

引入相关命名空间

在代码文件中，引入以下命名空间：

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using HtmlAgilityPack;
using System.Xml.XPath;

编写函数以读取 HTML 文件中的 XPath 值

public static List<string> GetXPathValuesFromHtmlFiles(string folderPath, string xpath)
{
    List<string> xpathValues = new List<string>();

    // 获取文件夹中的所有 HTML 文件
    string[] htmlFiles = Directory.GetFiles(folderPath, "*.html");

    // 遍历 HTML 文件
    foreach (string htmlFile in htmlFiles)
    {
        // 读取 HTML 文件内容
        string htmlContent = File.ReadAllText(htmlFile);

        // 使用 HtmlAgilityPack 解析 HTML
        HtmlDocument htmlDoc = new HtmlDocument();
        htmlDoc.LoadHtml(htmlContent);

        // 使用 XPath 查询
        HtmlNodeCollection nodes = htmlDoc.DocumentNode.SelectNodes(xpath);

        // 如果找到了匹配的节点，则提取 XPath 值
        if (nodes != null)
        {
            foreach (HtmlNode node in nodes)
            {
                xpathValues.Add(node.InnerText);
            }
        }
    }

    return xpathValues;
}

调用函数并传入 HTML 文件所在文件夹路径和 XPath 查询表达式

string folderPath = @"C:\path\to\html\files";
string xpath = "//div[@class='example']/p";

List<string> xpathValues = GetXPathValuesFromHtmlFiles(folderPath, xpath);

// 输出结果
foreach (string value in xpathValues)
{
    Console.WriteLine(value);
}

这样，您就可以从 .Net 中的许多 HTML 文件中读取 XPath 值了。

如何在.Net中从多个HTML文件中读取XPath值？

、、

我在一个文件夹里有大约5000个html文件。我需要遍历它们，使用xpath打开、抓取比如说10个值，然后将它们存储在(SQL Server) DB中。使用.Net读取XPath值的最简单方法是什么？请提供读取一个值的示例代码，例如/html/head/title&#x

浏览 2提问于2010-07-27得票数 3

回答已采纳

1回答

Log4Net中的XPath表达式

、、、、

为web.config转换文件更改SmtpAppender和ADONetAppender的levelMin和levelMax值。如何选择这些特定的元素并更改其值？" xdt:Locator="XPath(.)"/> <levelMax value="FATAL2" xdt:Transform="Replace" xdt:Locator="XPat

浏览 18提问于2020-02-14得票数 0

1回答

使用python和lxml从大型HTML文件中解析和提取信息

、、

我希望解析大型HTML文件并通过xpath从这些文件中提取信息。为此，我使用python和lxml。但是，lxml似乎不能很好地处理大型文件，它可以正确解析大小不超过16 MB的文件。通过xpath尝试从HTML代码中提取信息的代码片段如下：links = tree.xpath<

浏览 1提问于2014-06-10得票数 3

1回答

Xml -正在尝试获取非对象的属性

当我的XML文件与普通文件有一点不同时，我如何解决XML问题呢？这是我正在使用的XML文件... <pma_xml_export version="1.0" xmlns:pma="http://www.phpmyadmin.net/some_doc_url/&quo

浏览 0提问于2012-07-03得票数 0

1回答

没有在url的所有表中读取的R抓取包。

、、、

我正在尝试从以下链接中抓取一些表：“”，从我尝试的许多方法/包中可以看出，我认为R没有在整个url中读取。以下是我所做的几次尝试：tabs <- readHTMLTable(a, stringsAsFactors = T)x <- read_html(url) y<- html_nodes(x,xpath=

浏览 1提问于2019-07-13得票数 2

回答已采纳

1回答

如何在xslt中从excel表中获取键的对应值

我有一个包含图像标记的xml，我需要首先获取图像名称，这里是s00122.png。然后有一个excel表格，其中有对应于src图像的href。然后我们需要提取href并用href属性替换src。输入：<p> <strong>begin</strong>—Display the commandp><

浏览 2提问于2019-02-04得票数 0

1回答

jmeter负载测试，参数化

、、、

我在jmeter中运行HTTP请求测试，其中我发送了一个json输入。例如：我需要将其参数化，以便为每个线程迭代选择不同的id、fieldvalue、source值，可能只从json文件(而不是CSV文件)中选择。这个是可能的吗？

浏览 1提问于2016-06-11得票数 0

2回答

解决xpath属性错误，尽管xpath看起来不错

、、

我试图从网页中提取版本信息，但是我得到了一个错误，尽管XPath在HTML页面上看起来不错。我试过的代码是use DOMXPath;{ $result = $xpath->query("//a[contains(text(),'pa

浏览 0提问于2020-03-06得票数 1

回答已采纳

1回答

如何使用Python中的LXML捕获XML文件的所有元素名称？

、、

我能够使用lxml来完成我想要做的大部分事情，尽管要看那些模糊的例子和教程是很困难的。简而言之，我能够读取一个外部xml文件并通过lxml导入到适当的树格式中。://www.arin.net/whoisrws/netref/v2" termsOfUse="https://www.arin.net/whois_tou.html</

浏览 1提问于2013-10-18得票数 3

回答已采纳

2回答

如何等到某个值出现在HTML标签上？

、、、

;，但我老板不想让我这么做，所以我用了explicit wait但是，由于xpath不像某些时候出现的数据(文本)那样出现，所以它也不能正常工作。

浏览 4提问于2021-09-27得票数 0

回答已采纳

1回答

如何管理能够执行xpath查询的xmlns？

我想使用XPath语句获取(x)html文件中的一些特定值。<html xmlns="http://www.w3.org/1

浏览 0提问于2011-12-24得票数 0

回答已采纳

2回答

如何在方法中添加"\n“

、、、

我有以下方法：{inputfieldEntry(driver,Xpath,formEntryMap.get(ColKey));这将读取col中的值。特征文件

浏览 0提问于2021-07-05得票数 1

1回答

用C#删除HTML标记

、、

res = Regex.Replace(res, pattern[i], replacement[i]); }你能帮我搞定这个Regex吗？或者给我一个图书馆来完成它的任务？我的<

浏览 4提问于2012-08-29得票数 0

2回答

Python -读表

、、、、

在python中，如何使用lxml库读取html表td值？我试着读取xpath表，但找不到返回td值的正确参数。谢谢大家，我很感激。import sysfrom lxml import etree, html#Scan directory (current)and scrape the html files dirScan =

浏览 3提问于2016-10-20得票数 0

回答已采纳

1回答

提供V1 Xpath对象的撒克逊

、

我已经用了一段时间的SAXON HE 9.5.1-5，成功了。我们正在对平台中的一些组件进行一般升级，其中包括转移到Saxon9.8.0-8中的代码使用该版本失败。以下内容在我们的Spring文件中： <bean id="xpathFactory" class="net.sf.saxon.xpath.XPathFactoryImpl" factory-method当使用9.5.1-

浏览 2提问于2019-12-31得票数 1

回答已采纳

1回答

有没有一种通用的解决方案可以在XSLT (如网页、超文本标记语言报表等)和Java类(如Xml节点对象等)之间共享XPaths？例如，包含所有XPaths的某种类型的独立XML配置文件，然后可以由XSLT样式表和Java类出于各种目的读取这些XML？当我正在解析数据的XML数据的模式发生变化时(该模式是许多组织经常更改的标准化模式)，这将是很方便的-然后我可以只对这个单一的真理来源进行更改，并在更新

浏览 0提问于2012-11-07得票数 0

回答已采纳

2回答

显示来自.net用户控件的umbraco字段

、

我无法从.net用户控件(前端) .ascx文件中读取an页字段<umbraco:item runat="server" field="fieldName"></umbraco:item>因为我试图从一个用户控件中读取它是xpath不同还是我需要使用umbraco.library...

浏览 0提问于2014-02-11得票数 0

1回答

XML NodeList Java对象在Nashorn Javascript中显示为空

、、、、

我正在尝试从Nashorn Javascript的数组中的xml文件中读取xpath表达式的多个匹配值。我在Nashorn中使用javax.xml.xpath类来解析xml数据。当我传递XPathConstants.STRING给evaluate函数时，我可以很好地读取第一个匹配值。alist = xpath.evaluate(exp, inpu

浏览 32提问于2020-10-25得票数 0

6回答

REGEX -查找具有特定类的td，包括嵌套表

、、、

我必须解析一段HTML。table><tr><td></td></tr></table> </tr>我需要用blabla类提取每个td，但是每个单元格都可以有0个或多个嵌套表，其中有许多嵌套的

浏览 0提问于2009-07-09得票数 0

回答已采纳

1回答

Ruby -读取csv文件并在循环中执行value跳过csv文件中的行

、、

我确信这是一个完全不了解的问题，但它来了。以下代码的目标是从标准csv文件中读取id列表，使用该值附加到URL，调用URL并通过xpath提取特定属性。我遇到的问题是循环似乎跳过了一些行。在示例中，以下是10个值的示例：777972781044847066893908369010 代码只读取</

浏览 0提问于2011-01-21得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从 .Net 中的许多 HTML 文件中读取 xpath 值？

相关·内容

如何在.Net中从多个HTML文件中读取XPath值？

Log4Net中的XPath表达式

使用python和lxml从大型HTML文件中解析和提取信息

Xml -正在尝试获取非对象的属性

没有在url的所有表中读取的R抓取包。

如何在xslt中从excel表中获取键的对应值

jmeter负载测试，参数化

解决xpath属性错误，尽管xpath看起来不错

如何使用Python中的LXML捕获XML文件的所有元素名称？

如何等到某个值出现在HTML标签上？

如何管理能够执行xpath查询的xmlns？

如何在方法中添加"\n“

用C#删除HTML标记

Python -读表

提供V1 Xpath对象的撒克逊

在XSLT和Java类之间共享XPaths

显示来自.net用户控件的umbraco字段

XML NodeList Java对象在Nashorn Javascript中显示为空

REGEX -查找具有特定类的td，包括嵌套表

Ruby -读取csv文件并在循环中执行value跳过csv文件中的行

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐