首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Java|“ Java”来爬取小说章节

    1 前提简介 在上一篇Java|使用WebMagic进行电话爬取“的文章里就已经介绍了如何主要使用Pageprocessor去爬取电话号码,接下来将要学习到的是去爬取起点中文网的小说,并且按照小说名和章节分别保存...2 简单查看 下面就是需要去爬取的小说页面以及内容,但保存下来的文件只需要章节内容,像第一章的开头就不需要,于是需要注意去判断。 ? 图2.1 起点中文网 ? 图2.2 玄幻新书 ?...; import java.util.ArrayList; import java.util.List; /** * 爬取起点小说 */ public class GetQidianBook.../书的名字 String bookName1 = ""; @Override public Site getSite() {return site;} //爬取数据逻辑...System.out.println(title + " " + "爬取完毕"); } catch (FileNotFoundException e)

    2.3K10

    Java爬虫系列四:使用selenium-java爬取js异步请求的数据

    1.需求场景: 想要抓取股票的最新价格,页面F12信息如下: 按照前面的方式,爬取的代码如下: /** * @description: 爬取股票的最新股价 * @author: JAVA开发老菜鸟...之所以爬不到正确的结果,是因为这个值在网站上是通过异步加载渲染的,因此不能正常获取。 2.java爬取异步加载的数据的方法 那如何爬取异步加载的数据呢?...通常有两种做法: 2.1内置浏览器内核 内置浏览器就是在抓取的程序中启动一个浏览器内核,使我们获取到 js 渲染后的页面就和静态页面一样。...3.结束语 以上即为如何通过selenium-java爬取异步加载的数据的方法。...:爬取最新股价 相关代码已经上传到我的码云,感兴趣可以看下。

    2K21

    Java|使用WebMagic进行电话爬取

    1 什么是WebMagic WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,可以快速开发出一个高效、易维护的爬虫,原生开发方式核心很简单,功能性给简单性让步。...接下来就开始代码的书写,而且在最后还有完整的代码及注释供大家参考,在这里需要的暂时只有PageProcessor组件,所以直接让类去实现: implements PageProcessor 首先书写爬取的相关配置...p=1&order=") .run(); } 接着就是重点的爬取逻辑: @Override public void process(Page page) {...; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.PrintWriter....setSleepTime(1000);//设置休眠时间 @Override public Site getSite() { return site; } //爬取逻辑

    79210

    用 Javascript 和 Node.js 爬取网页

    本文讲解怎样用 Node.js 高效地从 Web 爬取数据。 前提条件 本文主要针对具有一定 JavaScript 经验的程序员。...Web 抓取的过程 利用多个经过实践考验过的库来爬取 Web 了解 Node.js Javascript 是一种简单的现代编程语言,最初是为了向浏览器中的网页添加动态效果。...由于创建了 DOM,所以可以通过编程与要爬取的 Web 应用或网站进行交互,也可以模拟单击按钮。如果你熟悉 DOM 操作,那么使用 JSDOM 将会非常简单。...摘自 Puppeter DocsPuppeteer 比上述工具更有用,因为它可以使你像真正的人在与浏览器进行交互一样对网络进行爬取。...✅ Cheerio 把 JQuery 的优点抽出来,在服务器端 进行 Web 爬取是唯一的目的,但不执行 Javascript 代码。

    10.2K10

    python爬取鬼灭漫画+简单JS分析

    作者:皖渝 源自:快学python 本次爬取仅供学习,无任何商业用途 猪油骨,拿来卤~今天,来分享一下python图片爬取+简单JS分析 爬取网址:漫画地址(这个网站只更新到188话,实际上已经有200...解密 点击进入第一话后,分析网页源码,发现图片保存在a标签下的img中,但是需要爬取的src是用javascript写的!...src='"+m201304d+"newkuku/2016/02/15/鬼灭之刃][第1话/JOJO_001513.jpg' 其中,m201304是加密的部分,这个网站比较简单,直接找到js4.js文件...') if __name__=='__main__': get_all_img() 最终爬取的漫画如下(这里仅作示例,只爬取了前10话的内容): ?...10话大概爬取了25分钟左右,算下来,爬完188话,也要7个多小时....后续可以用多进程方法加速一下爬取速度。

    53310

    Java|如何使用“Java”爬取电话号码

    前言 下面会介绍如何使用“Java”去爬取到一个网站的电话号码。使用到的一些基本语法与定义:IO流,正则表达式,如过不清楚可以先去了解一下,当然在下文中也会做出对应使用介绍与解释。...接下来就是在main函数里写需要的代码: 首先是载入连接需要爬取的网址: String path =  "https://www.jihaoba.com/escrow/?...;  //java爬取电话号码  public class TelDemo {      //java程序入口,main函数      public static void main(String[]  ...就关不了,finally里就不用担心          BufferedReader br = null;          PrintWriter pw = null;          //目标网址的爬取...图5.3 爬取到的号码 以上操作就完成了电话号码的简单爬取,在后面可能还会继续更新关于其他爬取的相关内容。

    92130

    Java 动手写爬虫: 三、爬取队列

    第三篇 爬取队列的实现 第二篇中,实现了深度爬取的过程,但其中一个比较明显的问题就是没有实现每个爬取作为一个独立的任务来执行;即串行的爬取网页中的链接;因此,这一篇将主要集中目标在并发的爬网页的问题上...目标是每个链接的爬取都当做一个独立的job来执行 设计 分工说明 每个job都是独立的爬取任务,且只爬取对应的网址 一个阻塞队列,用于保存所有需要爬取的网址 一个控制器,从队列中获取待爬取的链接,然后新建一个任务执行...FetchQueue 这个就是保存的待爬取网页的队列,其中包含两个数据结果 toFetchQueue: CrawlMeta 队列,其中的都是需要爬取的url urls: 所有爬取过or待爬取的url集合...线程池 直接使用Java的线程池来操作,因为线程池有较多的配置参数,所以先定义一个配置类; 给了一个默认的配置项,这个可能并不满足实际的业务场景,参数配置需要和实际的爬取任务相关联,才可以达到最佳的使用体验...动手写爬虫: 一、实现一个最简单爬虫 Java 动手写爬虫: 二、 深度爬取 Java 动手写爬虫: 三、爬取队列

    1.9K50

    Node.js爬虫之使用cheerio爬取图片

    引入 在上一篇文章我们利用Node.js实现了一个基本的爬虫,但是要写很长的正则--实在太累了而且需要对正则绝对熟悉。...cheerio cheerio是jquery核心功能的一个快速灵活而又简洁的实现,主要是为了用在服务器端需要对DOM进行操作的地方 你可以把cheerio当做服务端的jQuery 我们先来看一个案例---爬取百度...logo 如果是之前的方式我们要写一堆正则才能匹配到某网站的logo,而使用了cheerio后我们可以进行DOM操作直接获取数据 可以看到终端直接输出了百度logo 案例爬取表情包 安装cheerio...npm i cheerio 如图我们要爬取该网站的表情包 分析 1.我们以列表页为起始页,该页面展示了表情包的分类,我们要获取所有分类的url 2.获取分类名称,根据分类名称创建文件夹 3....但是我们只爬取了单页的图片,一般网站都会涉及到分页,接下来我们将分页的数据一并爬取 分析 1.我们从起始页就可以获取到该网站的总页数 2.循环总页数获取数据每次url后缀+1 https://www.fabiaoqing.com

    1.3K10

    Java 动手写爬虫: 二、 深度爬取

    第二篇 前面实现了一个最基础的爬取单网页的爬虫,这一篇则着手解决深度爬取的问题 简单来讲,就是爬了一个网页之后,继续爬这个网页中的链接 1....depth = 0; 因为有深度爬取的过程,所以需要修改一下爬取网页的代码,新增一个 doFetchNetxtPage方法,进行迭代爬取网页,这时,结果匹配处理方法也不能如之前的直接赋值了,稍微改一下即可...链接中存在重复、页面内锚点、js等各种情况,并不是都满足需求 最后的结果塞到List中,深度较多时,链接较多时,list可能被撑暴 - 添加链接的过滤 过滤规则,可以划分为两种,正向的匹配,...DefaultAbstractCrawlJob 实现爬取网页逻辑的抽象类 这个类实现爬取网页的主要逻辑,也就是将之前的SimpleCrwalJob的实现拷贝过来,区别是干掉了返回结果; 顺带修了一个小bug...如有两个CrawlJob任务,若爬取的是同一个url,第一个任务爬取完,还没有回写到Storage时,第二个任务开始爬,这时,事前判断没有记录,然后通过之后开始爬,这时就依然会出现重复爬的问题 要解决这个问题

    2K100
    领券