首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何从heritrix抓取中排除除text/html之外的所有内容?

从heritrix抓取中排除除text/html之外的所有内容,可以通过配置heritrix的过滤规则来实现。

具体步骤如下:

  1. 打开heritrix的配置文件,通常是crawler-beans.cxmlcrawler-beans.cxml.gz
  2. 在配置文件中找到<bean id="decideRules" class="org.archive.modules.deciderules.DecideRuleSequence">,这是决策规则的配置部分。
  3. <bean id="decideRules" class="org.archive.modules.deciderules.DecideRuleSequence">标签内部,找到<bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">,这是根据内容类型匹配的规则。
  4. <bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">标签内部,找到<property name="listLogicalOr" value="true"/>,将其改为false,表示后续的规则是与逻辑关系。
  5. <bean id="decideRuleAcceptOnContentTypeMatch" class="org.archive.modules.deciderules.ContentTypeMatchesListRegExpDecideRule">标签内部,找到<property name="regexpList">,这是内容类型匹配的正则表达式列表。
  6. <property name="regexpList">标签内部,添加一个<value>标签,填入要排除的内容类型的正则表达式。例如,要排除所有非text/html类型的内容,可以添加<value>^(?!text/html).*$</value>
  7. 保存配置文件并重新启动heritrix。

这样配置后,heritrix在抓取网页时会根据内容类型进行过滤,排除除text/html之外的所有内容。

注意:以上步骤是基于heritrix 3.x版本的配置,不同版本的heritrix可能有细微差别,请根据实际情况进行调整。

推荐的腾讯云相关产品:腾讯云CDN(内容分发网络),详情请参考腾讯云CDN产品介绍

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

服务器反爬虫攻略:ApacheNginxPHP禁止某些User Agent抓取网站

最近张戈发现 nginx 日志中出现了好多宜搜等垃圾抓取记录,于是整理收集了网络上各种禁止垃圾蜘蛛爬站方法,在给自己网做设置同时,也给各位站长提供参考。...$ua) {     header("Content-type: text/html; charset=utf-8");     die('请勿采集本站,因为采集站长木有小JJ!')...Content-type: text/html; charset=utf-8");         die('请勿采集本站,因为采集站长木有小JJ!')...UA 为空抓取: curl -I -A '' zhangge.net 模拟百度蜘蛛抓取: curl -I -A 'Baiduspider' zhangge.net 三次抓取结果截图如下: ?...因此,对于垃圾蜘蛛收集,我们可以通过分析网站访问日志,找出一些没见过蜘蛛(spider)名称,经过查询无误之后,可以将其加入到前文代码禁止列表当中,起到禁止抓取作用。

2.4K50

玩大数据一定用得到18款Java开源Web爬虫

1 Heritrix Heritrix 是一个由 Java 开发、开源网络爬虫,用户可以使用它来网上抓取想要资源。其最出色之处在于它良好可扩展性,方便用户实现自己抓取逻辑。...Heritrix 是个“Archival Crawler”——来获取完整、精确、站点内容深度复制。包括获取图像以及其他非文本内容抓取并存储相关内容。对内容来者不拒,不对页面进行内容修改。...它包含一个简单HTML剖析器能够分析包含HTML内容输入流,通过实现Arachnid子类就能够开发一个简单Web spiders并能够在Web站上每个页面被解析之后增加几行代码调用。...Arachnid下载包包含两个spider应用程序例子用于演示如何使用该框架。...,并通过配置文件注入方式,基本上能实现对所有的网页都正确解析和抓取

2K41
  • 【推荐收藏】33款可用来抓数据开源爬虫软件工具

    传统爬虫从一个或若干初始网页URL开始,获得初始网页上URL,在抓取网页过程,不断当前页面上抽取新URL放入队列,直到满足系统一定停止条件。...Arachnid下载包包含两个spider应用程序例子用于演示如何使用该框架。...授权协议: GPLv3 开发语言: Java 操作系统: 跨平台 特点:由守护进程执行,使用数据库存储网页信息 4、Heritrix Heritrix 是一个由 java 开发、开源网络爬虫,用户可以使用它来网上抓取想要资源...代码托管:https://github.com/internetarchive/heritrix3 授权协议: Apache 开发语言: Java 操作系统: 跨平台 特点:严格遵照robots文件排除指示和..., 支持text/html资源获取.

    4.3K50

    一步一步学lucene——(第一步:概念篇)

    Heritrix设计成严格按照robots.txt文件排除指示和META robots标签。...Aperture:Aperture这个Java框架能够各种各样资料系统(如:文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统文件(如:文档、图片)爬取和搜索其中全文本内容与元数据...jcrawl:jcrawl是一款小巧性能优良web爬虫,它可以网页抓取各种类型文件,基于用户定义符号,比如email,qq。...它可以轻松地实现与其他语言使用XML /简称JSON / HTML格式。有一个用户界面的所有业务,因此没有Java编码是必要。删除或更新记录数据库可以同步。内容以外数据库还可以进行搜查。...它是hibernate对著名全文检索系统Lucene一个集成方案,作用在于对数据表某些内容庞大字段(如声明为text字段)建立全文索引,这样通过hibernate search就可以对这些字段进行全文检索后获得相应

    1.3K80

    【重磅】33款可用来抓数据开源爬虫软件工具

    传统爬虫从一个或若干初始网页URL开始,获得初始网页上URL,在抓取网页过程,不断当前页面上抽取新URL放入队列,直到满足系统一定停止条件。...Arachnid Arachnid是一个基于Javaweb spider框架.它包含一个简单HTML剖析器能够分析包含HTML内容输入流.通过实现Arachnid子类就能够开发一个简单Web...Arachnid下载包包含两个spider应用程序例子用于演示如何使用该框架。...授权协议: GPLv3 开发语言: Java 操作系统: 跨平台 特点:由守护进程执行,使用数据库存储网页信息 4、Heritrix Heritrix 是一个由 java 开发、开源网络爬虫,用户可以使用它来网上抓取想要资源...代码托管:https://github.com/internetarchive/heritrix3 授权协议: Apache 开发语言: Java 操作系统: 跨平台 特点:严格遵照robots文件排除指示和

    4K51

    服务器反爬虫攻略:ApacheNginxPHP禁止某些User Agent抓取网站

    执行如下命令,平滑重启 nginx 即可: Shell /usr/local/nginx/sbin/nginx –s reload  三、PHP 代码 将如下方法放到贴到网站入口文件 index.php 第一个...$ua) {      header(“Content-type: text/html; charset=utf-8”);      die(‘请勿采集本站,因为采集站长木有小JJ!’)...;  }else{      foreach($now_ua as $value )  //判断是否是数组存在UA      if(eregi($value,$ua)) {          header...(“Content-type: text/html; charset=utf-8”);          die(‘请勿采集本站,因为采集站长木有小JJ!’)...  模拟 UA 为空抓取: Shell curl –I –A ” bizhi.bcoderss.com  模拟百度蜘蛛抓取: Shell curl –I –A ‘Baiduspider’ bizhi.bcoderss.com

    1.6K20

    爬虫框架整理汇总

    :源代码-→抽象语法树-→字节码-→JIT(JIT编译器)-→本地代码 在V8引擎,源代码先被解析器转变为抽象语法树(AST),然后使用JIT编译器全代码生成器AST直接生成本地可执行代码。...WebMagic使用Jsoup作为HTML解析工具,并基于其开发了解析XPath工具Xsoup。 在这四个组件,PageProcessor对于每个站点每个页面都不一样,是需要使用者定制部分。...缺点: Nutch爬虫定制能力比较弱 heritrix3 https://github.com/internetarchive/heritrix3 GitHub stars = 1192 特点 能够同时运行多个抓取任务...增强了扩展性.以前版本,如果有千万级以上种子都会先载入内存,如此有可能使得超过分配给Heritrix内存导致内存溢出.Heririx3.0则解决了这个问题.允许这种大规模抓取....支持页面异步ajax请求 支持页面javascript变量抽取 利用Redis实现分布式抓取,参考gecco-redis 支持结合Spring开发业务逻辑,参考gecco-spring 支持

    2.3K60

    33款你可能不知道开源爬虫软件工具

    传统爬虫从一个或若干初始网页URL开始,获得初始网页上URL,在抓取网页过程,不断当前页面上抽取新URL放入队列,直到满足系统一定停止条件。...Java爬虫 1.Arachnid Arachnid是一个基于Javaweb spider框架.它包含一个简单HTML剖析器能够分析包含HTML内容输入流。...Arachnid下载包包含两个spider应用程序例子用于演示如何使用该框架。...授权协议: GPLv3 开发语言: Java 操作系统: 跨平台 特点:由守护进程执行,使用数据库存储网页信息 4.Heritrix Heritrix 是一个由 java 开发、开源网络爬虫,用户可以使用它来网上抓取想要资源...代码托管:https://github.com/internetarchive/heritrix3 授权协议: Apache 开发语言: Java 操作系统: 跨平台 特点:严格遵照robots文件排除指示和

    11.8K20

    Java爬虫技术框架之Heritrix框架详解

    Heritrix是一个由Java开发开源Web爬虫系统,用来获取完整、精确站点内容深度复制, 具有强大可扩展性,运行开发者任意选择或扩展各个组件,实现特定抓取逻辑。...二、Heritrix架构 中央控制器 CrawlController 是核心组件,决定了整个抓取任务开始与结束。...Frontier,以此来不断为其每个线程提供URI; ToePool:它是一个线程池,管理了所有在当前任务抓取Host名称和Server名称。...Frontier链接制造工厂:它表示一种为线程提供链接工具,通过一些特定算法来决定哪个链接将接下来被送入处理器链,同时,它本身也负责一定日志和状态报告功能。...Heritrix多线程ToeThread和ToePool:要想更快更有效地抓取网页,必须采用多线程,Heritrix则采用多线程机制,提供了一个标准线程池ToePool,用于管理所有抓取线程。

    1.1K41

    【说站】nginx宝塔面板如何屏蔽垃圾蜘蛛禁止抓取不影响火车头发布

    最近查看服务器日志,发现一些垃圾蜘蛛,一直爬行很多,比如以下这些垃圾,太烦人了,就想着如何屏蔽这些垃圾蜘蛛,但是想着不影响火车头发布。查了一些资料,下面把技巧分享给大家。...Mozilla/5.0 (compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)"Mozilla/5.0 (compatible; ...#禁止Scrapy等工具抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {return 403;}#禁止指定UA及UA为空访问if ($http_user_agent...如果想使用火车头采集发布,请使用下面的代码 #禁止Scrapy等工具抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {return 403;}#...|Bytespider|Ezooms|Googlebot|JikeSpider|SemrushBot" ) {return 403;             }#禁止非GET|HEAD|POST方式抓取

    3.1K40

    利用nginx来屏蔽指定user_agent访问以及根据user_agent做跳转

    : nginx Date: Mon, 09 Feb 2015 03:37:20 GMT Content-Type: text/html; charset=UTF-8 Connection: keep-alive...蜘蛛进行增加、删除或者修改。...当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件内容来确定访问范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护页面...百度官方建议,仅当您网站包含不希望被搜索引擎收录内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。...(在正式环境,可以适当允许搜索引擎抓取收录) -----------------------------------------------------------------------------

    5.2K51

    Lucene 入门教程

    包括所有格式办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。 计算机信息化系统数据分为结构化数据和非结构化数据。...1、绿色表示索引过程,对要搜索原始内容进行索引构建一个索引库,索引过程包括: 确定原始内容即要搜索内容-->采集文档-->创建文档-->分析文档-->索引文档 2、红色表示搜索过程,索引库搜索内容...,搜索过程包括: 用户通过搜索界面-->创建查询-->执行搜索,索引库搜索-->渲染搜索结果 2.2 创建索引 对文档索引过程,将用户要搜索文档内容进行索引,索引存储在索引库(index)。...jsoup(http://jsoup.org/ ),jsoup 是一款Java HTML解析器,可直接解析某个URL地址、HTML文本内容。...heritrix(http://sourceforge.net/projects/archive-crawler/files/),Heritrix 是一个由 java 开发、开源网络爬虫,用户可以使用它来网上抓取想要资源

    79720

    教你如何编写第一个爬虫

    1 Robots协议 Robots协议(爬虫协议)全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取...因此,当你在百度搜索“淘宝”时候,搜索结果下方小字会出现:“由于该网站robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容描述”,如图所示。...) #r.text是获取网页内容代码 上述代码就能获取博客首页HTML代码,HTML是用来描述网页一种语言,也就是说网页呈现内容背后都是HTML代码。...对初学者来说,使用BeautifulSoup网页中提取需要数据更加简单易用。 那么,我们怎么从那么长代码准确找到标题位置呢? 这里就要隆重介绍Chrome浏览器“检查(审查元素)”功能了。...暂时没学会也没关系,你可以慢慢学哦~以上内容自《Python网络爬虫入门到实践(第2版)》【文末有福利】往下拉!

    1.2K20

    网络爬虫之Windows环境Heritrix3.0配置指南

    记得上一次碰爬虫还是5年前,时过境迁,不知道爬虫世界里是否有了新崛起。比较过一些之后,初步认定Heritrix基本能够满足需要,当然肯定是需要定制了。...二、版本选择   Heritrix当前版本3.1.0,安装后发现,启动任务时,Windows平台有BDBOpen错误(具体原因不详),Linux环境没有测试。...度娘了一把,没啥实质性收获,如果源码去看,又太费时间。就换到了3.0.5,这个版本也有问题,就是创建Job时,总是提示文件夹有问题,可以选择手动创建下载任务。操作界面如下图所示: ?...format 2 # http://java.sun.com/javase/6/docs/api/java/util/Properties.html#load%28java.io.Reader%29...2.自动解析改造:下载内容自动解析到指定目录,指定格式。

    60320
    领券