http请求, 它使用的是python的标准库urllib:
在.NET Core里面, 你可以使用HttpClient, 相应的C#代码如下:
var client = new...HttpRequestException)}: {e.Message}");
return null;
}
}
CSS是网络爬虫的福音, 下面这两个元素在页面中可能会出现很多次...由于同时支持CSS选择器和Linq, 所以抽取元素的工作简单多了.
导航树
一个页面, 它的结构可以是这样的:
这里面有几个概念:
子标签和后代标签....这里有一个测试正则表达式的网站: https://www.regexpal.com/
目前, AngleSharp支持通过CSS选择器来查找元素, 也可以使用Linq来过滤元素, 当然也可以通过多种方式使用正则表达式进行更复杂的查找动作...但从本例可以看到, 判断元素有没有一个属性可以使用HasAttribute("xxx")方法, 可以通过.Attributes索引来获取属性, 其属性值就是.Attributes["xxx"].Value