首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Apache Nutch 1.15 Solr 7.7.0索引失败DocValuesField太大,必须为<= 32766

Apache Nutch是一个开源的网络爬虫项目,用于从互联网上收集和抓取网页数据。它可以帮助用户建立一个全面的网络索引,以便进行搜索和分析。Nutch使用Java编写,并且是一个可扩展的框架,可以通过插件来支持不同的功能和扩展。

Solr是一个基于Lucene的开源搜索平台,提供了强大的全文搜索和分析功能。它可以将Nutch抓取的数据进行索引,并提供高效的搜索和查询服务。Solr支持多种数据格式和查询语法,可以根据需求进行灵活的配置和定制。

在这个问题中,出现了索引失败的情况,原因是DocValuesField字段太大,超过了Solr的限制。DocValuesField是Solr中用于存储和检索字段值的一种数据结构,它可以提供快速的排序和聚合功能。然而,由于其内部实现的限制,DocValuesField的大小必须小于等于32766字节。

为了解决这个问题,可以考虑以下几个方案:

  1. 减小字段大小:检查索引失败的字段,尝试减小其大小。可以通过截断文本、使用压缩算法或者将字段拆分为多个较小的字段来实现。
  2. 调整Solr配置:检查Solr的配置文件,查看是否有相关的配置项可以调整。例如,可以尝试调整DocValuesField的缓存大小或者使用其他类型的字段来存储大字段。
  3. 分割索引:如果字段的大小无法减小,可以考虑将索引拆分为多个部分。例如,可以将大字段单独存储在一个独立的索引中,然后通过查询来关联和检索数据。
  4. 使用其他搜索引擎:如果以上方法无法解决问题,可以考虑使用其他搜索引擎或者索引库来替代Solr。根据具体需求,可以选择Elasticsearch、Xapian等其他开源搜索引擎。

需要注意的是,以上方案仅供参考,具体的解决方法需要根据实际情况进行调整和实施。

腾讯云提供了一系列与搜索相关的产品和服务,例如腾讯云搜索(Cloud Search)和腾讯云文本搜索(Cloud Text Search)。这些产品可以帮助用户构建高效的搜索引擎和全文检索系统,提供稳定和可靠的搜索服务。您可以访问腾讯云的官方网站了解更多关于这些产品的详细信息和使用指南。

腾讯云搜索产品介绍链接:https://cloud.tencent.com/product/cs 腾讯云文本搜索产品介绍链接:https://cloud.tencent.com/product/cts

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

Apache nutch1.5 & Apache solr3.6

当然,最简单的就是集成Nutch 到你的站点,你的用户提供搜索服务。 1.3nutch 的目标 nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web 搜索引擎....为了完成这一宏伟的目标, nutch 必须能够做到: • 每个月取几十亿网页 • 这些网页维护一个索引 • 对索引文件进行每秒上千次的搜索 • 提供高质量的搜索结果 • 以最小的成本运作 这将是一个巨大的挑战...1.4nutch VS lucene 简单的说: Lucene 不是完整的应用程序,而是一个用于实现全文检索的软件库。 Nutch 是一个应用程序,可以以Lucene 基础实现搜索引擎应用。...Lucene Nutch 提供了文本索引和搜索的API。一个常见的问题是;我应 该使用Lucene 还是Nutch?最简单的回答是:如果你不需要抓取数据的话,应该使用Lucene。...: http://www.apache.org/dyn/closer.cgi/nutch/ solr:http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.0

1.9K40
  • 全文检索数据挖掘

    1.全文索引 全文检索(Full-text Search):先建立索引,再对索引进行搜索的过程,搜索结果匹配文本 一般过程:索引创建(Indexing...停词(stop word):英文中没有任何意义的词,不创建索引 2.数据挖掘与数据仓库 数据挖掘(DM) 传统的数据库分析数据量太大后效率低,产生数据挖掘和数据仓库等新技术。...ceclar123/article/details/10150839 http://www.cnblogs.com/xing901022/p/3933675.html http://lucene.apache.org...overview-summary.html(lucene api) 词库素材: 词库在网上很多如,QQ拼音、搜狗拼音等词库都已加密,可以找一些未加密的词库,导入lucene词库管理工具 5.Solr...Solr:基于Lucene建立的服务器,提供全文搜索服务 Nutch:Web搜索引擎 HadDoop:分布式服务框架 参考: http://my.oschina.net/apdplat

    73530

    【搜索引擎:Elasticsearch】从0了解ES,整合springboot,京东搜索实战

    Apache软件基金会,搞IT的应该都认识 2004年,Doug Cutting再接再励,在Lucene的基础上,和Apache开源伙伴Mike Cafarella合作,开发了一款可以代替当时的主流搜索的开源搜索引擎...,命名为Nutch。...Solr简介 SolrApache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。...Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化 Solr可以独立运行,运行在Jetty、Tomcat等这些Servlet容器中,Solr 索引的实现方法很简单...ElasticSearch 安装 就注意一点,JDK必须不能低于 1.8 最低要求就是1.8 因为是java开发的,所以ES的版本和我们之后对应的java的和jar包的版本必须对应,且要保证JDK环境是正常的

    1.1K31

    索引solr和elasticsearch

    一、关于搜索引擎 搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,用户提供检索服务,将用户检索相关的信息展示给用户的系统。...Lucene的目的是软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。...此外,很多 Lucene 工具(如Nutch、 Luke)也可以使用Solr 创建的索引。...是一个基于Apache Lucene(TM)的开源搜索引擎。...想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。

    74630

    Web-第二十八天 Lucene&solr使用一【悟空教程】

    Lucene不提供信息采集的类库,需要自己编写一个爬虫程序实现信息采集,也可以通过一些开源软件实现信息采集,如下: Solr(http://lucene.apache.org/solr) ,solrapache...Nutch(http://lucene.apache.org/nutch), Nutchapache的一个子项目,包括大规模爬虫工具,能够抓取和分辨web网站数据。...Solr介绍 10.1. 什么是solr SolrApache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务。...拷贝solr解压包下solr-4.10.3\example\solr文件夹。 ? 复制该文件夹到本地的一个目录,把文件名称改为solrhome 改名不是必须的,只是为了便于理解 ?...修改内容: 第42行的Solr/home名称必须是固定的,修改第43行,如下图 ? 11.4.6.

    1.3K10

    一步一步学lucene——(第一步:概念篇)

    什么是lucene Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的...Lucene的目的是软件开发人员提供一个简单易用的工具包,以方便的在目标系统中 实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。...内容获取完全可以通过下面提供的开源软件进行获取,当然这里只是列出了其中的一部分: solrSolr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。...nutchNutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎。...2、建立文档 文档是lucene中建立的小数据块,也就是说,必须先将这些获得的内容转换成文档,文档中几个带值的域主要包括:标题、正文、摘要、作者和链接等。

    1.3K80

    Nutch源码阅读进程3---fetch

    接下来的fetch部分感觉应该是nutch的灵魂了,因为以前的nutch定位是搜索引擎,发展至今已演变为爬虫工具了。...这几天在弄一个项目的基础数据,都没有好好的用心看nutch,中间试图再次拜读fetch这块的代码,发现这是一块难啃的骨头,网上的一些材料讲的侧重点也有所不同,但是为了走完nutch必须跨过这道坎。。。...org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer, io.compression.codecs=org.apache.hadoop.io.compress.DefaultCodec...mapred.job.tracker.jobhistory.lru.cache.size=5, fetcher.threads.timeout.divisor=2, db.fetch.schedule.class=org.apache.nutch.crawl.DefaultFetchSchedule...ipc.server.listen.queue.size=128, db.fetch.interval.default=2592000, ftp.password=anonymous@example.com, solr.auth

    1.1K50

    开源大数据处理系统工具大全

    HDFS在最开始是作为Apache Nutch索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。...搜索引擎 一、Nutch 简介:Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。...并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索其谋取商业利益.这显然 不利于广大Internet用户. ? Nutch我们提供了这样一个不同的选择....Nutch将尽自己最大的努力用户提供最好的搜索结果. Nutch目前最新的版本version v2.2.1。...更强大的是,它还能自动的在其它机器上帮你把失败机器上的索引Replication重建并投入使用。 近实时搜索立即推送式的replication(也支持慢推送)。可以在秒内检索到新加入索引

    1.7K21

    ElasticSearch7.6入门学习

    Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域, Lucene可被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。... Solr简介 SolrApache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。...Tomcat等这些Selrvlet容器中 , Solr 索引的实现方法很简单,用POST方法向Solr服务器发送一个描述Field及其内容的XML文档, Solr根据xml文档添加、删除、更新索引...keyword类型的最大支持的长度——32766个UTF-8类型的字符,可以通过设置ignore_above指定自持字符长度,超过给定长度后的数据将不被索引,无法通过term精确匹配检索返回结果。...keyword类型的最大支持的长度——32766个UTF-8类型的字符,可以通过设置ignore_above指定自持字符长度,超过给定长度后的数据将不被索引,无法通过term精确匹配检索返回结果。

    1.4K10

    【搜索引擎】配置 Solr 以获得最佳性能

    Apache Solr 是广泛使用的搜索引擎。有几个著名的平台使用 Solr;Netflix 和 Instagram 是其中的一些名称。...我们不会讨论 Solr 的基础知识,我希望您了解它的工作原理。 虽然您可以在 Schema 文件中定义字段和一些默认值,但您不会获得必要的性能提升。您必须注意某些关键配置。...3.配置`Commits` 为了使数据可用于搜索,我们必须将其提交到索引。...如果这是错误的,则提交会将最近的索引更改刷新到稳定存储,但不会导致打开新的搜索器以使这些更改可见。默认值真。...使用构面查询 Apache Solr 中的 Faceting 用于将搜索结果分类不同的类别,执行聚合操作(如按特定字段分组、计数、分组等)非常有帮助,因此,对于所有聚合特定查询,您可以使用 Facet

    1.6K20

    CentOs7.3 搭建 SolrCloud 集群服务

    更强大的是,它还能自动的在其它机器上帮你把失败机器上的索引Replication重建并投入使用。 近实时搜索立即推送式的replication(也支持慢推送)。可以在秒内检索到新加入索引。...Config Set:Solr Core提供服务必须的一组配置文件,每个Config Set有一个名字。...必须包含solrconfig.xml和schema.xml,初次之外,依据这两个文件的配置内容,可能还需要包含其他文件。...四、Solr 文档 Apache SolrCloud 参考指南 http://lucene.apache.org/solr/guide/6_6/solrcloud.html Apache Solr文档...-c 指定库(collection)名称 -shards 指定分片数量,可简写 -s ,索引数据会分布在这些分片上 -replicationFactor 每个分片的副本数量,每个碎片由至少1个物理副本组成

    1.3K70

    day73_淘淘商城项目_06_solr索引库搭建 + solr搜索功能实现 + 图片显示等问题解决_匠心笔记

    注意:要是想删掉没用的solr.war包,必须在关闭tomcat的情况下,否则解压缩后的solr包也会一并删除掉。...1.1.3、solr的使用 添加文档时必须有id域,其他域必须solr的schema.xml中进行定义。...必须有id域,且域的名称必须在schema.xml中定义。 第五步:把文档对象添加到索引库中。 第六步:提交。...3、每个商品创建一个文档对象SolrInputDocument对象。   4、文档添加域。必须有id域,且域的名称必须在schema.xml中定义。   5、把文档对象添加到索引库中。   ...;         } else {             $.messager.alert('提示','商品数据导入索引失败!')

    1.9K30

    Solr的基本安装

    版权声明:本文博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。...3.系统默认会跳转到最新版本,如果不想要最新版本,那就在跳转之前点击此处 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EwRRPyBT-1571447159204)(https...我们将使用其中的一种,以说明Solr如何索引数据。server 文件夹包含logs 文件夹,所有的Solr的日志都写入该文件夹。这将有助于索引过程来检查任何错误日志。...Apache Solr带有一个内置的Jetty服务器。但在我们开始之前,我们必须验证JAVA_HOME已经配置。 我们可以使用命令行脚本启动服务器。...6.Solr各个版本的使用和对应的开发环境 ?

    74230

    Atlas 2.1.0 实践(1)—— 编译Atlas

    如果想要对这些数据做好管理,光用文字、文档等东西是不够的,必须用图。 Atlas就是把元数据变成图的工具。 http://atlas.apache.org/ ?...Apache Atlas组织提供开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。...>7.7.2 2.执行maven编译打包 atlas可以使用内嵌的hbase-solr作为底层索引存储和搜索组件,也可以使用外置的hbase和solr 如果要使用内嵌的hbase-solr...package -Pdist,embedded-hbase-solr 不用内置就这样 mvn clean -DskipTests package -Pdist 改完路径还会非常快的 耐心等待 ?...踩坑大全: 包下载失败 在Atlas编译过程中,遇到最多的就是包下载失败的问题,这和当前网络有很大的关系。 选择网速较好的网络。 ?

    1.2K10
    领券