前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >VB.NET 用HtmlAgilityPack解析百度文库,获取百度文库中的内容(以富甲美国为例)

VB.NET 用HtmlAgilityPack解析百度文库,获取百度文库中的内容(以富甲美国为例)

作者头像
一线编程
发布2019-07-22 15:05:55
8370
发布2019-07-22 15:05:55
举报
文章被收录于专栏:办公魔盒

步骤:

1.首先在浏览器安装 "save as we "插件(用于把网页保存成HTML文件)

<火狐浏览器/QQ浏览器/360浏览器/谷歌浏览等都支持此插件>

2.获取一篇百度文库文章word/pdf格式等都可以(以<富甲美国>为例)

3.点击"save as we",跳出提示按continue save 继续就可以把网页保存为HTML,



4.完全之策已准备就绪,只欠东南风了!

5.制作HTML解析软件,在窗体上添加一个按钮,一个RichTextBox1文本框,一个textbox控件

6.直接上代码

代码语言:javascript
复制
Imports HtmlAgilityPack  
Imports System.Text

Public Class Form1

    Sub Get_YBQ()
        If TextBox1.Text <> "" Then
            RichTextBox1.Clear()
            Dim url As String = TextBox1.Text
            Dim wc As New HtmlWeb With {
                .OverrideEncoding = Encoding.Default,
                .AutoDetectEncoding = True
            }
            Dim htmldoc As HtmlDocument = wc.Load(url)
            Dim rootNode As HtmlNode = htmldoc.DocumentNode
            Try
                Dim xl As HtmlNodeCollection = rootNode.SelectNodes("//div[@class=" & Chr(34) & "ie-fix" & Chr(34) & "]/p")
                If xl IsNot Nothing Then
                    Dim strr As String = ""
                    For Each node As HtmlNode In xl
                        RichTextBox1.AppendText(node.InnerText)
                    Next

                End If

            Catch ex As Exception
                MessageBox.Show(ex.Message)
            End Try
        End If
    End Sub

    Private Sub Button2_Click(sender As Object, e As EventArgs) Handles Button2.Click
        OpenFileDialog1.Title = "请选择HTML文档"
        OpenFileDialog1.Filter = "HTML文件|*.html|HTM文件|*.htm"
        OpenFileDialog1.ShowDialog()
        TextBox1.Text = OpenFileDialog1.FileName
        If OpenFileDialog1.FileName <> "" Then
            Get_YBQ()
        End If

    End Sub
End Class

7.此控件可以直接输入网址获取HTML和打开本地HTML文件进行解析(这里不用在线是因为百度文库网页有保护不能直接获取网页源码)

8.如有问题请添加QQ群提问

9.声明:本HTML解析只做技术交流,切勿用于非法用途,否则后果自负!谢谢合作!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 办公魔盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档