Apache Nutch url在regex-urlfilter.txt文件中

Apache Nutch是一个开源的网络爬虫项目，用于抓取和索引互联网上的信息。url在regex-urlfilter.txt文件中是指Nutch中用于筛选和过滤待爬取URL的配置文件。

在Nutch中，regex-urlfilter.txt文件主要用于定义URL的正则表达式模式，以确定哪些URL应该被爬取。该文件可以包含多个正则表达式规则，每个规则占据一行。Nutch会按照文件中的顺序逐行匹配URL，只有匹配上的URL才会被爬取。

对于regex-urlfilter.txt文件中的URL过滤规则，常见的有以下几种分类：

包含（include）规则：只有匹配该规则的URL才会被爬取。
排除（exclude）规则：匹配到该规则的URL不会被爬取。
通配符（wildcard）规则：使用通配符表达式来匹配URL。
正则表达式（regex）规则：使用正则表达式来匹配URL。

以下是regex-urlfilter.txt文件中的一个示例：

# 注释示例
# 包含规则
+^http://www.example.com/

# 排除规则
-^http://www.example.com/private/

# 通配符规则
+^http://*.example.com/

# 正则表达式规则
+^http://(www\.)?example\.com/

对于这个问题中提到的regex-urlfilter.txt文件，我们可以按照以上的分类进行回答。需要注意的是，由于题目要求不能提及具体的云计算品牌商，因此无法推荐腾讯云相关产品和产品介绍链接。

Nutch 2.0和Hadoop。如何防止conf/regex-urlfilter.txt缓存

、

我在一台机器上安装了nutch 2.x和hadoop 1.2.1。2我在两个文件中更改了它：./webcrawer/apache-nutch-2.2.1/conf/regex-urlfilte

浏览 1提问于2013-12-13得票数 1

1回答

如何将Apache* Nutch配置为忽略某些url模式*

我正在使用Apache Nutch爬行一个网站。在爬行时，我希望nutch忽略多个url模式，如 on...， on..等。我知道如何配置regex-urlfilter.txt文件来抓取特定的url。但我不知道如何配置nutch忽略某些url模式？

浏览 1提问于2013-07-10得票数 0

回答已采纳

2回答

格式错误的URL：''，正在跳过(java.net.MalformedURLException

、

我用nutch 1.3抓取网站。当nutch抓取我的站点时，我在日志中看到以下异常：at java.net.URL.<init>(URL.java:464) at java.net.URL.<init>(<em

浏览 0提问于2011-12-16得票数 0

1回答

Apache NUTCH，相关爬行

、、

我正在使用Apache NUTCH 2.2.1爬行网站，它为我提供了在SOLR上索引的内容。当NUTCH获取内容时，有上下文信息，如“联系我们”，“法律声明”或其他一些不相关的信息(通常来自上部菜单，左侧菜单或页面页脚)，我不需要索引。

浏览 1提问于2014-11-20得票数 0

1回答

我正在遵循Nutch教程，并得到一个"No URLs to fetch“错误

、、

遵循这里的Apache Nutch教程：+^http://([a-z0-9]*\.)*nutch.apache.org/<property> <value>My Nutch

浏览 5提问于2012-06-22得票数 0

3回答

如何重新爬行nutch

、

我使用的是集成了mysql的Nutch 2.1。我抓取了2个站点，Nutch成功地抓取了它们，并将数据存储到Mysql中。我使用Solr 4.0.0进行搜索。甚至我已经从seeds.txt文件中删除了最后一个抓取的Urls，并输入了新的urls。但是Nutch没有抓取新的Urls。任何帮助都将是非常有用的。

浏览 1提问于2012-12-14得票数 2

1回答

如何在windows中配置nutch* 1.8错误: nutch : command not found*

、

我正在尝试在Windows7中配置nutch，我已经按照以下步骤操作<configuration>mkdir -p urls触摸seed.txt -->在urls/下

浏览 0提问于2014-04-28得票数 1

1回答

配置Apache爬虫时出错

、、

我在Linux服务器上运行Nutch时遇到了一些问题。我正在尝试爬行在seed.txt中配置的URL，但我看到了以下错误。爬行器按以下方式触发我们的自定义nutch-default.xml和nu

浏览 4提问于2014-08-22得票数 0

1回答

线程"main“java.lang.ClassNotFoundException错误中出现异常

、、

我运行hadoop jar /home/apache-nutch-2.3.1/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawldir crawl -depth 3 -topN 5，但得到以下错误： Exception in thread "main" java.lang.ClassNotFoundException: org.a

浏览 29提问于2019-04-25得票数 0

回答已采纳

1回答

Nutch不爬行整个网站

、、

我使用的是nutch 2.3.1 问题是，nutch只是在爬行第一个URL (seeds.txt中指定的URL)。数据只是来自第一个URL/页面的HTML。我不能让nutch去爬行其他生成的ur

浏览 2提问于2016-03-01得票数 2

2回答

使用Apache* Nutch抓取图像*

、、、、

我安装了Apache Nutch2.3.1、Solr6.5.1和MongoDB 3.4.7。在我抓取包含许多图像的urls后，在Solr和mongoDB中没有任何图像和视频。我还更改了apache nutch中的regex-urlfilter.txt文件，并删除了与图像相关的后缀(.png、.jpeg、.gift等)。在那之后，我更改了后缀-urlfilter.txt文件和注释jpeg，gif，pn

浏览 1提问于2017-12-03得票数 2

1回答

导致爬网进程终止的Nutch* MalformedURLException*

、、

/bin/crawl /largeSeeds 1 http://localhost:8983/solr/ddcd 416/01/17 02:10:18 INFO plugin.PluginRepository: Nutch URL Filter (org.apache.nutch.net.URLFil

浏览 0提问于2016-01-18得票数 0

1回答

Nutch/Hadoop: regex-Normize.xml和regex-urlfilter.txt找不到错误，即使它们存在

、、

我目前被困在nullpointerexception中，我认为这是由于找不到regex-urlfilter.txt和regex-Normize.xml所致。- regex-urlfilter.txt not found这两个文件都存在于\workspace\apache-nutch-1.16\con

浏览 13提问于2019-11-08得票数 0

回答已采纳

2回答

纳奇:工作失败了

、、、

at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.apache.nutch.crawl.Injector.run(Injector.java:316) at org.apache.hadoop.util.ToolRunner.run下面的详细信息来自

浏览 3提问于2014-04-02得票数 0

回答已采纳

1回答

Nutch -为什么我的网址排除不排除这些网址？

、、、

我还有另一个Apache Nutch v1.5问题。因此，在通过Nutch爬行和索引我们的网站到Solr时，我们需要能够排除属于特定路径的任何内容。假设我们有自己的网站：http://oursite.com/，我们有一个不想在http://oursite.com/private/上建立索引的路径我在seed.txt文件中有http://oursite.com/，在<em

浏览 4提问于2013-07-20得票数 0

回答已采纳

2回答

有没有办法用不同的配置文件运行NUTCH？

、、

我想知道是否有可能用不同的配置文件集运行相同的NUTCH实例？我在参数列表中看不到任何允许这种事情的选项。谢谢。

浏览 0提问于2012-03-13得票数 3

回答已采纳

1回答

Apache Nutch url在regex-urlfilter.txt文件中

、、

我是个爬虫新手，特别是apache nutch。apache nutch的配置非常复杂。我已经通过apache nutch研究了很多，我找到了regex-urlfilter.txt文件，在这个文件中，你必须指出你想要抓取哪些页面，并限制你的抓取。现在，为了只抓取这个网站并限制我的抓取，我知道我现在必须编辑我的regex-urlfilter.txt文件，就像这样的+^https:&#

浏览 29提问于2019-10-07得票数 0

1回答

分离Nutch* regex文件以爬行和索引到多个Solr核*

、、

我配置了Solr并以这样的方式启动了它：然后我配置并启动了两次Nutch，每个源urls文件夹和索引目标(http://localhost:8983/solr/core0 -depth 10 -topN 100000 结果是完美的，但是为了过滤掉不想要的URL模式，我必须在regex-urlfilter.txt由于这两个爬行会话的regex设置不同，在运行第二个爬行之前，我必须编辑

浏览 2提问于2013-05-23得票数 0

回答已采纳

1回答

我什么时候使用solrindex [-filter]和[-normalize]？

在Nutch wiki中，它建议使用以下内容：当Nutch有大量的过滤器和标准化配置文件时？automaton-urlfilter.txtregex-urlfilte

浏览 0提问于2013-08-16得票数 0

1回答

Nutch和solr索引黑名单域

、、

我正在使用nutch 1.9和solr 4.10 .I，希望避免在nutch和solr中使用域名www.aaa.com gettign index 在nutch configuration conf/domainblacklist-urlfilter.txt中，我添加了"www.aaa.com“。在conf/domain-urlfilter.txt中，我在我添加的regex-urlfilter.t

浏览 0提问于2016-02-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Apache Nutch url在regex-urlfilter.txt文件中

相关·内容

Nutch 2.0和Hadoop。如何防止conf/regex-urlfilter.txt缓存

如何将Apache* Nutch配置为忽略某些url模式*

格式错误的URL：''，正在跳过(java.net.MalformedURLException

Apache NUTCH，相关爬行

我正在遵循Nutch教程，并得到一个"No URLs to fetch“错误

如何重新爬行nutch

如何在windows中配置nutch* 1.8错误: nutch : command not found*

配置Apache爬虫时出错

线程"main“java.lang.ClassNotFoundException错误中出现异常

Nutch不爬行整个网站

使用Apache* Nutch抓取图像*

导致爬网进程终止的Nutch* MalformedURLException*

Nutch/Hadoop: regex-Normize.xml和regex-urlfilter.txt找不到错误，即使它们存在

纳奇:工作失败了

Nutch -为什么我的网址排除不排除这些网址？

有没有办法用不同的配置文件运行NUTCH？

Apache Nutch url在regex-urlfilter.txt文件中

分离Nutch* regex文件以爬行和索引到多个Solr核*

我什么时候使用solrindex [-filter]和[-normalize]？

Nutch和solr索引黑名单域

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐