首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Nutch源码阅读进程4---parseSegment

    前面依次看了nutch的准备工作inject和generate部分,抓取的fetch部分的代码,趁热打铁,我们下面来一睹parse即页面解析部分的代码,这块代码主要是集中在ParseSegment类里面...,Let‘s go~~~ 上期回顾:上回主要讲的是nutch的fetch部分的功能代码实现,主要是先将segments目录下的指定文件夹作为输入,读取里面将要爬取的url信息存入爬取队列,再根据用户输入的爬取的线程个数...thread决定消费者的个数,线程安全地取出爬取队列里的url,然后在执行爬取页面,解析页面源码得出url等操作,最终在segments目录下生成content和crawl_fetch三个文件夹,下面来瞧瞧nutch...parse " + segment); FileInputFormat.addInputPath(job, new Path(segment, Content.DIR_NAME)); job.set(Nutch.SEGMENT_NAME_KEY...=1.0 _fst_=33 nutch.segment.name=20140802214742 Content-Type=text/html Connection=close Accept-Ranges

    75270

    Nutch源码阅读进程5---updatedb

    nutch的源码仿佛就是一场谍战片,而构成这精彩绝伦的谍战剧情的就是nutch的每一个从inject->generate->fetch->parse->update的环节,首先我党下派任务给优秀的地下工作者...so,剧情仍在继续,update走起~~~~ 上期回顾:上回主要讲的是第四个环节,对于nutch抓取到的页面进行解析,主要是通过一个解析插件完成了页面的主要信息的获取,并生成crawl_parse、parse_data...job.setOutputKeyClass(Text.class); job.setOutputValueClass(CrawlDatum.class); // https://issues.apache.org/jira/browse/NUTCH...mapreduce.fileoutputcommitter.marksuccessfuljobs", false); 其中的mapper中的CrawlDbFilter类主要是实现对url的过滤和规则化工作,当然还是通过nutch

    75970

    Nutch源码阅读进程2---Generate

    继之前仓促走完nutch的第一个流程Inject后,再次起航,Debug模式走起,进入第二个预热阶段Generate~~~ 上期回顾:Inject主要是将爬取列表中的url转换为指定格式<Text,CrawlDatum...主要做了两件事,一是读取种子列表中的url,对其进行了url过滤、规范化,当然这其中用的是hadoop的mapreduce模式提交job到jobtracker,因为没有研读hadoop源码,所以这块先放放,理清nutch...,这里有PARTITION_MODE_DOMAIN,PARTITION_MODE_IP   // 来配置,默认是按Url的hashCode来分。       ...Reducer的个数,也就是生成几个相应的输出文件       FileOutputFormat.setOutputPath(job, output);                // 配置输出路径...crawlDbUpdate类: job.setMapperClass(CrawlDbUpdater.class); job.setReducerClass(CrawlDbUpdater.class); 至此Nutch

    66370

    Nutch源码阅读进程3---fetch

    走了一遍Inject和Generate,基本了解了nutch在执行爬取前的一些前期预热工作,包括url的过滤、规则化、分值计算以及其与mapreduce的联系紧密性等,自我感觉nutch的整个流程是很缜密的...接下来的fetch部分感觉应该是nutch的灵魂了,因为以前的nutch定位是搜索引擎,发展至今已演变为爬虫工具了。...是通过this.fetchQueues = new FetchItemQueues(getConf());得到(默认是采取byHost模式,另外还有两种byIP和byDomain),第三个参数也是读取配置文件的默认值来的...有待研究^_^),稍后是判断该url是否遵从RobotRules,如果不遵从则利用代码:fetchQueues.finishFetchItem(fit, true);或者如其delayTime大于我们配置的...(补充一点,从调试过程可以看到property即配置文件的信息为:{job.end.retry.interval=30000, ftp.keep.connection=false, io.bytes.per.checksum

    1.1K50

    Nutch源码阅读进程1---inject

    最近在Ubuntu下配置好了nutch和solr的环境,也用nutch爬取了一些网页,通过solr界面呈现,也过了一把自己建立小搜索引擎的瘾,现在该静下心来好好看看nutch的源码了,先从Inject开始吧...的配置文件信息,该类继承自Configuration,继承了Configuration所有功能,加载配置文件功能也是继承自Configuration类)类的create方法,执行:Configuration...,加载后的conf为:Configuration: core-default.xml, core-site.xml, nutch-default.xml, nutch-site.xml共四个配置文件;..., nutch-site.xml等于讲conf的加入后还在JobConf类中的静态代码块中加入了配置文件mapred-default.xml, mapred-site.xml。...,这些配置信息是通过从conf/core-size.xml之类的配置文件中读取出来的名值对来设置的。

    74090

    Apache nutch1.5 & Apache solr3.6

    当然,最简单的就是集成Nutch 到你的站点,为你的用户提供搜索服务。 1.3nutch 的目标 nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web 搜索引擎....第2章安装与配置 安装环境: Ubuntu 12.04 LTS 所安装软件: JDK 1.6.0_29 apache-nutch-1.5-bin.tar.gz solr3.6 IKAnalyzer3.2.3...2.2安装和配置nutch 到用户主目录: cd ~ 建立文件夹: mkdir nutch 将文件拷贝到~/hadoop/nutch目录,解压缩: tar -zxvf apache-nutch-1.5-...例如,Field 可以包含字符串、数字、布尔值或者日期,也可以包含你想添加的任何类型,只需用在solr的配置文件中进行相应的配置即可。...默认配置返回 Solr 的标准 XML 响应。你也可以配置 Solr 的备用响应格式,如json、csv格式的文本。

    1.9K40

    MySQL环境配置

    所以,卸载不要的环境最终可以总结以下这三点: 不存在mysql对应的rpm包 没有对应的mysql进程 没有my.cnf配置文件 做完前两步后my.cnf若仍存在,可以选择使用rm指令删除配置文件或者备份起来...方法步骤: 打开mysql配置文件:my.cnf。 vim /etc/my.cnf 在尾部添加:skip-grant-tables 并保存。...五.设置配置文件my.cnf 配置⼀下my.cnf,主要是数据库客⼾端和服务器的编码格式->统一使用UTF-8的编码格式。...mysql作为网络服务,那么就可以更改其指定的端口号,通过配置my.cnf进而更改端口号。...解决方案:若想查到网络进程,则只需把免密登陆的配置注释掉即可。 8.0在后续的练习,不会出现问题。只有可能在mysql链接C语言时会出现问题,所以到时候在换成5.6版本的mysql

    19210

    MySQL配置优化

    转载自http://www.cnblogs.com/luyucheng/p/6340076.html 一、全局配置 (1)max_connections 最大连接数。默认值是151,最多2000。...查看最大连接数 mysql> SHOW VARIABLES LIKE 'max_connections'; 查看响应的连接数 mysql> SHOW STATUS LIKE 'max%connections...默认配置数值是8388608(8M),主机有4GB内存,可改为268435456(256M) (4)query_cache_size 使用查询缓存(query cache),MySQL将查询结果存放在缓冲区中...Created_tmp_files表示MySQL服务创建的临时文件文件数,比较理想的配置是: Created_tmp_disk_tables / Created_tmp_tables * 100% <...二、InnoDB配置 (1)innodb_buffer_pool_size 缓冲池的大小,缓存数据和索引,对InnoDB整体性能影响较大,相当于MyISAM的key_buffer_size。

    1.1K11

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭
      领券