首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Nutch获取失败,协议状态为: TEMP_MOVED

这个问题是由Nutch爬虫框架在获取网页时遇到的错误。"TEMP_MOVED"是一个HTTP状态码,表示临时重定向。当Nutch爬虫请求一个网页时,服务器返回了一个临时重定向的响应,导致获取失败。

解决这个问题的方法有以下几步:

  1. 检查URL:首先,确保要爬取的URL是正确的,并且没有任何拼写错误或格式问题。确保URL的协议(如http或https)正确,并且没有任何额外的空格或特殊字符。
  2. 跟踪重定向:使用网络调试工具(如浏览器的开发者工具或curl命令),跟踪URL的重定向路径。这将帮助你确定是否存在多个重定向,并找出导致Nutch获取失败的具体重定向。
  3. 更新Nutch配置:在Nutch的配置文件中,可以设置一些参数来处理重定向。例如,可以调整"protocol-httpclient"或"protocol-http"插件的配置,以允许或禁止重定向。查阅Nutch的官方文档以获取更多关于配置参数的信息。
  4. 检查服务器设置:有时,服务器可能会限制或禁止爬虫访问某些页面或目录。确保服务器的设置允许爬虫访问目标网页,并且没有任何防火墙或安全策略阻止了Nutch的请求。
  5. 更新Nutch版本:如果以上步骤都没有解决问题,尝试更新Nutch到最新版本。新版本可能修复了一些已知的问题和错误。

总结起来,当Nutch获取失败且协议状态为"TEMP_MOVED"时,我们需要检查URL的正确性,跟踪重定向路径,更新Nutch配置,检查服务器设置,并考虑更新Nutch版本。希望这些步骤能够帮助解决该问题。

请注意,由于要求不能提及特定的云计算品牌商,我无法提供与腾讯云相关的产品和链接。建议在腾讯云官方文档或咨询腾讯云的技术支持团队,以获取与该问题相关的腾讯云产品和解决方案的详细信息。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

Nutch源码阅读进程3---fetch

前期回顾:上一期主要是讲解了nutch的第二个环节Generate,该环节主要完成获取将要抓取的url列表,并写入到segments目录下,其中一些细节的处理包括每个job提交前的输入输出以及执行的map...: (1):如果状态WOULDBLOCK,执行:              case ProtocolStatus.WOULDBLOCK:                 // retry ?                ...redirecting = false; reporter.incrCounter("FetcherStatus", "FetchItem.notCreated.redirect", 1); } 以上就是对于返回状态...success的url的一系列解决方式; (3)如果是MOVED或者TEMP_MOVED,表示这个网页被重定向了。...,那就输出CrawlDatum,设置其状态STATUS_FETCH_GONE,可能在下一轮中就不进行抓取了; (7)如果状态是NOTMODIFIED,那就认为这个网页没有改变过,那就输出其CrawlDatum

1.1K50
  • EasyCVR平台获取RTMP流失败,报错提示“rtmp协议未开放”是什么原因?

    在之前的文章中,我们向大家介绍了如何获取EasyCVR的RTMP流地址。有用户询问,通过之前的文章并没有取到流地址,页面地址显示如下图,并提示“rtmp协议未开放”,于是请求我们排查原因。...当出现此信息时,我们应该先去排查rtmp协议是否已经开放。在EasyCVR平台页面—【配置中心】—【其它配置】中,在播放协议中找到开放协议,查看RTMP选项是否被勾选上。...我们在用户的配置中查看到,RTMP和RTSP协议均未被勾选,所以将这两个协议都勾选上。点击下方的保存按钮后,再重复之前的操作即可。...(参考文章:《如何获取EasyCVR平台设备通道的RTMP视频流地址?》)...按照文章中步骤进行操作后,已经可以成功获取到RTMP流地址了:EasyCVR可在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频资源的鉴权管理、按需调阅、全网分发、智能分析等

    38720

    RTSP视频结构化智能分析平台EasyNVR通过Onvif协议停止调用云台接口pending状态排查

    在摄像头设备支持云台的情况下,视频结构化安防智能平台EasyNVR是支持通过onvif协议来调用摄像头的云台控制,但是在调用过程中,如果用户名和密码错误,调用停止云台控制接口会一直处于pending状态...通过浏览器调试界面可以看到该接口的pending状态,一直没有返回内容。...) } time.Sleep(10 * time.Millisecond) } return } 我们将其中的i := 1逻辑进行修改,且time.Sleep处1...而非10,即可解决问题。...Onvif协议扩大了EasyNVR对设备的兼容性和控制性,之前我们大家介绍过EasyNVR中onvif协议标准使用说明及配置方式,有兴趣可以了解一下,如果还想了解更多关于onvif或者EasyNVR的相关内容

    41320

    RTSP视频结构化智能分析平台EasyNVR通过Onvif协议停止调用云台接口pending状态排查

    在摄像头设备支持云台的情况下,视频结构化安防智能平台EasyNVR是支持通过onvif协议来调用摄像头的云台控制,但是在调用过程中,如果用户名和密码错误,调用停止云台控制接口会一直处于pending状态...image.png 通过浏览器调试界面可以看到该接口的pending状态,一直没有返回内容。...} time.Sleep(10 * time.Millisecond) } return } 我们将其中的i := 1逻辑进行修改,且time.Sleep处1...而非10,即可解决问题。...EasyNVR对设备的兼容性和控制性,之前我们大家介绍过EasyNVR中onvif协议标准使用说明及配置方式,有兴趣可以了解一下,如果还想了解更多关于onvif或者EasyNVR的相关内容,欢迎关注我们

    42320

    Nutch爬虫在大数据采集中的应用案例

    Nutch爬虫概述Nutch是一个开源的网络爬虫软件,由Apache软件基金会开发和维护。它支持多种数据抓取方式,并且可以很容易地进行定制和扩展。...Nutch的架构包括多个组件,如爬虫调度器、链接数据库、内容存储等,这些组件协同工作,实现了一个完整的爬虫系统。Nutch爬虫的特点可扩展性:Nutch提供了丰富的API,方便开发者进行定制和扩展。...分布式支持:Nutch可以与Hadoop集成,支持大规模分布式数据采集。灵活的配置:Nutch的配置项丰富,可以根据不同的采集需求进行灵活配置。...配置代理和Robots协议:根据目标网站的要求配置代理和遵守Robots协议。...通过本文的案例分析,我们可以看到Nutch爬虫在新闻数据采集中的应用,以及如何通过后续的数据处理和分析,决策提供数据支持。Nutch爬虫的高效性和灵活性,使其成为大数据时代数据采集的有力工具。

    12510

    爬虫框架整理汇总

    ; 支持状态控制,如暂停、恢复、停止等; 可控制采集量; 可控制并发协程数; 支持多采集任务并发执行; 支持代理IP列表,可控制更换频率; 支持采集过程随机停歇,模拟人工行为; 根据规则需求,提供自定义配置输入接口...、csv、excel、原文件下载共五种输出方式; 支持分批输出,且每批数量可控; 支持静态Go和动态JS两种采集规则,支持横纵向两种抓取模式,且有大量Demo; 持久化成功记录,便于自动去重; 序列化失败请求...,支持反序列化自动重载处理; 采用surfer高并发下载器,支持 GET/POST/HEAD 方法及 http/https 协议,同时支持固定UserAgent自动保存cookie与随机大量UserAgent...禁用cookie两种模式,高度模拟浏览器行为,可实现模拟登录等功能; 服务器/客户端模式采用Teleport高并发SocketAPI框架,全双工长连接通信,内部数据传输格式JSON。...,极大的增强了 Nutch 的功能和声誉。

    2.3K60

    使用Hadoop和Nutch构建音频爬虫:实现数据收集与分析

    随着音频内容在互联网上的广泛应用,如音乐、播客、语音识别等,越来越多的企业和研究机构希望能够获取和分析这些数据,以发现有价值的信息和洞察。...NutchNutch是一个基于开源的网络爬虫工具和搜索引擎,使用Java编写,可以实现对网页和网络内容的抓取、索引和搜索,具有良好的可扩展性和定制性。 3....你可以从Hadoop官方网站(https://hadoop.apache.org/)和Nutch官方网站(https://nutch.apache.org/)获取最新的安装包和文档。...例如,我们可以选择爬取音乐网站上的音频文件,每天定时进行爬取,并限制爬取的深度3层。...org.apache.nutch.fetcher.Fetcher; import org.apache.nutch.fetcher.FetcherOutput; import org.apache.nutch.fetcher.FetcherReducer

    7910

    Nutch2.1+Hbase+Solr快速搭建一个爬虫和搜索引擎(快速,基本2小时内搞定)

    编辑安装(前置ant配置别忘了) 下载 wget http://archive.apache.org/dist/nutch/2.2.1/apache-nutch-2.2.1-src.tar.gz...tar zxf apache-nutch-2.2.1-src.tar.gz 配置修改 conf/nutch-site.xml storage.data.store.class...gora.datastore.default=org.apache.gora.hbase.store.HBaseStore 编译 ant runtime 这里特别慢,可以自己百度优化一下ivy速度,也可以就这样下载,遇到失败的...-- 新增字段 for nutch end--> 启动nutch 抓取 # bin目录 nutch下的runtime/local 下面的bin ....jkj 是我指定的存储在在hbase中的id(可以这么理解),自动创建表 http://192.168.1.61:8983/solr/jkj_core solr创建的collection的地址 2 抓取的深度

    1.3K20

    介绍 Nutch 第一部分:抓取 (翻译)

    那就用 Nutch 写你自己的搜索引擎吧。 Nutch 是非常灵活的:他可以被很好的客户订制并集成到你的应用程序中:使用Nutch 的插件机制,Nutch 可以作为一个搜索不同信息载体的搜索平台。...当然,最简单的就是集成Nutch到你的站点,你的用户提供搜索服务。 Nutch 的安装分为3个层次:基于本地文件系统,基于局域网,或者基于 internet 。不同的安装方式具有不同的特色。...以及如何订制NutchNutch Vs. Lucene Nutch 是基于 Lucene的。Lucene Nutch 提供了文本索引和搜索的API。...Nutch 适用于你无法直接获取数据库中的网站,或者比较分散的数据源的情况下使用。 架构 总体上Nutch可以分为2个部分:抓取部分和搜索部分。...() 这里我们先看看Nutch的抓取部分。 抓取程序: 抓取程序是被Nutch的抓取工具驱动的。

    87020

    Nutch库入门指南:利用Java编写采集程序,快速抓取北京车展重点车型

    通过抓取汽车之家、易车网等网站的数据,我们可以获取新车发布信息、技术规格、用户评价等重要数据,市场趋势的分析提供有力支持。...因此,Nutch库作为一个强大的数据采集工具,将在数据统计中发挥作用。细节Nutch环境配置首先,确保您已经安装了Java环境,并从Apache Nutch官网下载并安装Nutch。...接下来,配置Nutch的conf/nutch-site.xml文件,以适应您的抓取需求。使用爬虫代理为了避免IP被封锁,我们将使爬虫代理。...首先,程序创建了一个固定大小10的线程池,每个线程都执行MyCrawler类的run方法。MyCrawler类实现了Runnable接口,其中的run方法定义了爬取逻辑。...在这个方法中,程序通过Jsoup库发起HTTP请求,获取汽车之家网站的HTML页面。然后,通过使用CSS选择器,程序从页面中选择出汽车列表,并依次提取每辆汽车的品牌、参数和价格信息。

    18310

    2021年大数据Hadoop(二):Hadoop发展简史和特性优点

    最早起源于Nutch,它是Lucene的子项目。...Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。...2003年Google发表了一篇论文该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。...同时期,以谷歌的论文基础,Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期...可靠性(Rellable):能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

    97331

    Hadoop 诞生的历史

    当它获取一个页面时,Nutch 使用 Lucene 来索引页面的内容(使其“可搜索”)。...因此,故障节点对 NDFS 的整体状态没有任何影响。这仅意味着存储在故障节点上的块在短时间内在系统中有两个副本,而不是 3 个。...一旦系统使用其固有的冗余将数据重新分配到其他节点,这些块的复制状态就会恢复到 3。...如果在一定时间内没有收到worker的响应,则master将worker标记为失败。任何正在进行的或由失败的工作人员完成的映射任务都将重置回其初始空闲状态,因此有资格在其他工作人员上进行调度。...雅虎无法像这些新创业公司那样他们的明星员工提供福利,比如高薪、股权、奖金等。前进的道路看起来并不好。

    1.4K40

    YARN资源调度系统介绍

    Hadoop的前世今生——Hadoop最早起源于Nutch。...Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着网页数量多增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。...,它处理来自客户端各种RPC请求,比如提交应用程序、终止应用程序、获取应用程序运行状态等AdminService ResourceManager管理员提供了一套独立的服务接口,以防止大量的普通用户请求使管理员发送的管理命令饿死...该模块主要涉及以下组件 :AMLivelinessMonitor 监控AM是否活着,如果一个ApplicationMaster在一定时间内未汇报心跳信息,则认为它死掉了,它上面所有正在运行的Container将被置失败状态...每个子组件负责一部分功能,协同管理运行在该节点上的所有 Container,各个子组件如下:RPC Server:该 RPC Server 实现了 ContainerManagementProtocol 协议

    1.3K10

    我的爬虫技术经历

    图4是在爬虫运行了5个小时之后截取的,里面包含了任务总数、完成的任务数、采集失败的页面数量和比例、以及当前的采集速度等的。现在看看这两张图,内容虽间简陋,但感觉还是很亲切的。...尽管当时 Nutch 爬虫是更好的选择,但是 Nutch 还是比较复杂的。为了防止出岔子,就选了文档比较全的 WebMagic。...我们公司的爬虫参考了 Nutch 的设计思想,所以也爬虫实现了一个插件机制,这样就解决了人和爬虫协作的问题。当然具体怎样实现的,这里就不说了,详细可以参考 Nutch 的插件机制。...虽然当时在设计上参考了 Nutch 的实现,但也只借鉴了思想,并未借鉴 Nutch 的实现。加之设计之初的技术选型有问题,选用了一些比较底层的技术,导致维护起来很困难。...本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可。 觉得本文对你有帮助?请分享给更多人

    1.7K131

    一文了解大数据生态体系-Hadoop

    性能飙升 7)2005 年 Hadoop 作为 Lucene 的子项目 Nutch的一部分正式引入 Apache 基金会。...2.4 Hadoop 的优势 1)高可靠性:因为 Hadoop 假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。...4)高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。 2.5 Hadoop 组成 1)Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统。...3)Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。...4)Storm:Storm 分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时 处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。

    72710
    领券