前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >java怎么爬虫呢?

java怎么爬虫呢?

作者头像
java后端指南
发布2021-06-22 18:34:14
6350
发布2021-06-22 18:34:14
举报
文章被收录于专栏:java后端

Part1文章首推

Part2今日主题:java爬虫

1简介

相信爬虫大家是有听过的,听到最多的是python爬虫,但是我们也可以用java来干,直接就是开干,这里我们要用jsoup这个依赖,他是用来解析html的。

2环境

  • springboot

3依赖

代码语言:javascript
复制
  <!-- jsoup-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>

4实现过程

声明:本文章仅用于学习

  1. 爬取页面上所有的span标签
代码语言:javascript
复制
 //从URL加载HTML
       Document document = Jsoup.connect("https://baijiahao.baidu.com/s?id=1678670461780276039&wfr=spider&for=pc").get();


        String title = document.title();
        //获取html中的标题
        System.out.println("title :"+title);
        //获得span标签的所有文本
        String strings=document.select("span").html();
        System.out.println(strings);

2.爬取某个网页上的某个软件的下载地址

代码语言:javascript
复制
    String url="https://www.onlinedown.net/soft/"+j+".htm";
            Document document = null;
            try {
                document = Jsoup.connect(url).get();
                String title = document.title();
                Elements elements=document.select("a");
                int i=0;
                for (Element element:elements){
                    if ("电信网络下载".equals(element.html())){
                        i++;
                        if (i==2){
                            System.out.println("【"+j+"】"+title+" 的下载地址:"+element.attr("href"));
                        }
                    }

                }
            } catch (Exception e) {
                System.out.println(e.getMessage());
            }

3.爬取整个网站的某个软件的下载地址

代码语言:javascript
复制
        for (int j=1;j<=200;j++){
            String url="https://www.onlinedown.net/soft/"+j+".htm";
            Document document = null;
            try {
                document = Jsoup.connect(url).get();
                String title = document.title();
                Elements elements=document.select("a");
                int i=0;
                for (Element element:elements){
                    if ("电信网络下载".equals(element.html())){
                        i++;
                        if (i==2){
                            System.out.println("【"+j+"】"+title+" 的下载地址:"+element.attr("href"));
                        }
                    }

                }
            } catch (Exception e) {
                System.out.println(e.getMessage());
            }


        }

如果有不懂的,可以看一下我的B站视频:https://www.bilibili.com/video/BV1b64y1y72F/


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 java后端指南 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Part1文章首推
  • Part2今日主题:java爬虫
    • 1简介
      • 2环境
        • 3依赖
          • 4实现过程
          相关产品与服务
          验证码
          腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档