我们为什么要借助webdriver来爬虫呢?其实jsoup也可以直接进行爬虫的,直接这样爬,容易被拦截,你可能没有携带一些特定的请求头之类的,爬虫成本较高,我们用webdriver就可以实现真实浏览器的访问,会自己携带请求参数过去,省去了很多去分析的时间。
原理:
我们在浏览器中为什么可以看到页面上的数据,是因为服务器给了数据给浏览器,让他去渲染,我们将这部分数据拿到,然后再打开浏览器,可以真实的模拟数据。
在google浏览器输入:chrome://settings/help
下载 chromedriver.exe
下载地址:http://npm.taobao.org/mirrors/chromedriver
,因为我的google版本是80,所以我选择这个
notes.txt:这里写了这个驱动支持哪些版本的浏览器
下载对应系统的驱动版本
这个文件的路径可以随意放置
<!--WebDriver-->
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-java</artifactId>
<version>4.0.0-alpha-3</version>
</dependency>
<!-- jsoup-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
ChromeOptions options = new ChromeOptions();
options.setBinary("D:/谷歌浏览器/Google/Chrome/Application/chrome.exe");
//通过配置参数禁止data;的出现,不会弹出浏览器,默认是后台静默运行
options.addArguments("--headless","--disable-gpu");
//注意 第二个参数 改为你第二步下载 chromedriver.exe 所放在的路径
System.setProperty("webdriver.chrome.driver", "D:/chromedriver/chromedriver.exe");
//创建浏览器窗口
WebDriver driver = new ChromeDriver(options);
driver.get("https://www.baidu.com");
//延迟5秒,动态网站数据填充比较慢,需要延迟才可以拿到数据
Thread.sleep(5000);
//拿到页面的数据
String html=driver.getPageSource();
System.out.println("The testing page title is: " + driver.getTitle());
//将字符串变成document对象来获取某个节点的数据
Document document= Jsoup.parse(html);
System.out.println(document);
//关闭浏览器窗口
driver.quit();
欢迎关注:java后端指南