相信爬虫大家是有听过的,听到最多的是python爬虫,但是我们也可以用java来干,直接就是开干,这里我们要用jsoup这个依赖,他是用来解析html的。
<!-- jsoup-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
声明:本文章仅用于学习
//从URL加载HTML
Document document = Jsoup.connect("https://baijiahao.baidu.com/s?id=1678670461780276039&wfr=spider&for=pc").get();
String title = document.title();
//获取html中的标题
System.out.println("title :"+title);
//获得span标签的所有文本
String strings=document.select("span").html();
System.out.println(strings);
2.爬取某个网页上的某个软件的下载地址
String url="https://www.onlinedown.net/soft/"+j+".htm";
Document document = null;
try {
document = Jsoup.connect(url).get();
String title = document.title();
Elements elements=document.select("a");
int i=0;
for (Element element:elements){
if ("电信网络下载".equals(element.html())){
i++;
if (i==2){
System.out.println("【"+j+"】"+title+" 的下载地址:"+element.attr("href"));
}
}
}
} catch (Exception e) {
System.out.println(e.getMessage());
}
3.爬取整个网站的某个软件的下载地址
for (int j=1;j<=200;j++){
String url="https://www.onlinedown.net/soft/"+j+".htm";
Document document = null;
try {
document = Jsoup.connect(url).get();
String title = document.title();
Elements elements=document.select("a");
int i=0;
for (Element element:elements){
if ("电信网络下载".equals(element.html())){
i++;
if (i==2){
System.out.println("【"+j+"】"+title+" 的下载地址:"+element.attr("href"));
}
}
}
} catch (Exception e) {
System.out.println(e.getMessage());
}
}
如果有不懂的,可以看一下我的B站视频:
https://www.bilibili.com/video/BV1b64y1y72F/