这是第一部分, 主要使用的是AngleSharp: https://anglesharp.github.io/
(文章的章节书与该书是对应的)
第1章 初见网络爬虫
发送Http请求
在python里面这样发送...http请求, 它使用的是python的标准库urllib:
在.NET Core里面, 你可以使用HttpClient, 相应的C#代码如下:
var client = new...其运行结果如下:
异常情况处理
发送Http请求之后, 可能会发生错误, 例如网页不存在(或者请求时出错), 服务器不存在等等....使用AngleSharp, 找出子标签可以使用.Children属性. 而找出后代标签, 可以使用CSS选择器....它们也建立在已有的网络基础上, 但是使用Tor客户端, 带有运行在HTTP之上的新协议, 提供了一个信息交换的安全隧道. 这类网也可以采集, 但是超出了本书的范围.....