前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SolrCloud6.1.0之SQL查询测试

SolrCloud6.1.0之SQL查询测试

作者头像
我是攻城师
发布2018-05-14 16:38:23
1.2K0
发布2018-05-14 16:38:23
举报
文章被收录于专栏:我是攻城师

Solr发展飞快,现在最新的版本已经6.1.0了,下面来回顾下Solr6.x之后的一些新的特点: (1)并行SQL特性支持,编译成Streaming 表达式,可以在solrcloud集群中,并行执行

(2)SolrCloud的Collection被抽象成关系型数据库表,现在不仅仅可以支持强大的全文检索,还通过SQL支持像数据库一样的BI分析

(3)在SQL的where语句中,全面支持强大的Lucene/Solr语法

(4)一些聚合操作例如Group会自动优化成并行操作,通过使用Streaming表达式来以Map-Reduce的方式运行

(5)在(4)中运行的聚合操作,还可以以原生的JSON Facet 方式,来优化提升性能

(6)SQL特性目前仅支持SolrCloud集群方式,单机方式并不支持 有关SolrCloud的集群搭建,在这里散仙就不详细说了,有兴趣的朋友,可以参考我前面的文章 http://qindongliang.iteye.com/blog/2275990,搭建好的集群如下:

实际上像Solr或者ElasticSearch能支持SQL,这并不奇怪,因为他们底层基本上都提供了SQL能支持的大部分功能接口,比如,排序,过滤 ,分组,聚合等一些操作,能支持SQL,但不意味着能取代关系型数据库,恰恰相反,NoSQL是作为SQL的有力补充,怎么样组合搭配使用,能把业务场景优化的更好,或者能解决某类问题,才是引入这些框架的初衷。 前面说到,Solr在api层面已经有各种功能的接口,缺的就是一个SQL语法解析器,以及如何与最新的Java8的对接? 所以在Solr6.x里面,引入两个 最重要的东东就是: (1)引入了Facebook开源的大数据SQL检索框架Presto的SQL Parser (2)使用Java8的Streaming Api写的Streaming Expressions (流式表达式),支持类似shell的管道的计算方式,可以对数据流进行各种复杂操作例如各种join, 也可以进行图谱查询 使用Solrj通过JDBC查询Solr,目前只能查,暂不支持更新,修改,删除等操作 依赖jar包: $SOLR_HOME/dist/solrj-libs 所有的jar $SOLR_HOME/dist/solr-solrj-<version>.jar solr-solrj.jar 如果是maven项目:

Java代码

  1. <!-- https://mvnrepository.com/artifact/org.apache.solr/solr-solrj -->
  2. <dependency>
  3. <groupId>org.apache.solr</groupId>
  4. <artifactId>solr-solrj</artifactId>
  5. <version>6.1.0</version>
  6. </dependency>

下面来看一段Solrj通过JDBC查询示例:

下面来看一段使用流式表达式查询的操作,无须任何依赖,在Solr的Admin界面就能操作; 图中的代码的是查询solrcloud中每个shard一条数据,然后总共返回3条数据,最后对3条数据,排序,取top1

一些心得: (1)关于如何集成中文分词IK或者Ansj 单机版的solr,如果是IK,需要在 solr\server\solr-webapp\webapp\WEB-INF目录下,新建一个classes目录,将其词库文件全部放进去然后将IK的jar包,放入solr\server\solr-webapp\webapp\WEB-INF\lib下。 如果是Ansj,则需要将Ansj相关的jar包放入solr\server\solr-webapp\webapp\WEB-INF\lib下, 然后将Ansj的library的目录,放在solr\server中。 在SolrCloud集群模式中,是需要把某个collection下的conf下的所有文件,上传到zookeeper上的,所有的shard都会 从zk上加载所需的文件,包括一些词库的配置,这个时候,放在本地磁盘上的词库,是不会被识别的,所以你需要把上传的词库 文件一起上传到zk上,然后配置合理的路径即可,任何文件的更新,都需要reload整个collection才能更新(solr6之前是需要relaod所有的shard), 否则,发生的改动不会被识别。 (2)理解map_reduce 和 facet两种聚合模式 A: map_reduce 模式,支持任意多字段的聚合查询,不受限制,但性能稍低 测试环境5个shard+3个副本 测试数据,必须大于6(shard+1)条数据,否则会报错 可测 group+distict

执行流程如下:

B:facet 模式,使用Solr原生的Json Facet Api 操作,受一定索引的限制,但性能较高 只要求有shard,有数据,即可测试,利用solr原生的Facet api进行聚合

(3)理解DocValue对SQL查询的影响

大部分情况下在Solr中的SQL查询,是需要加上limit关键词的,如果你不加,要么你就会发现,你的查询可能会莫名其妙的报错 这个时候问题的原因大部分是跟DocValue有关的, Solr6要求,所有不加的limit查询的字段,必须全部是DocValue激活的 字段,如果任何一个不是,那么查询肯定报错,如果你加了limit关键词,要么可以不受这个限制影响。 至于为什么必须要激活DocValue字段才能进行all字段提取查询,主要目的还是为了性能,想了解DocValue可以 参考散仙之前的文章:http://qindongliang.iteye.com/blog/2297280 (4) Solr6支持客户端工具(像MySQL的NaviCat)查询链接: A:DbVisualizer (C/S客户端GUI) B:SQuirreL SQL (C/S客户端GUI) C:Apache Zeppelin (B/S web端) 大部分都需要配置添加有关的solr的jdbc的jar包,具体安装方式参考文末链接 (5)除了JDBC方式支持SQL查询,http方式也是可以的:

官网文档: https://cwiki.apache.org/confluence/display/solr/Streaming+Expressions

https://cwiki.apache.org/confluence/display/solr/Parallel+SQL+Interface#ParallelSQLInterface-SQLClientsandDatabaseVisualizationTools

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-07-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我是攻城师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档