首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

mapR/Apache Drill sql查询是否将工作分配到每个节点,或者它的速度是否与SQL RDBMS相同?

mapR/Apache Drill是一个分布式SQL查询引擎,它可以在大规模数据集上执行SQL查询。它的工作方式是将查询任务分配给集群中的每个节点进行并行处理,以提高查询速度和性能。

与传统的SQL RDBMS相比,mapR/Apache Drill具有以下优势:

  1. 分布式处理:mapR/Apache Drill可以将查询任务分发到集群中的每个节点,实现并行处理,从而加快查询速度。这使得它能够处理大规模数据集,适用于大数据场景。
  2. 弹性扩展:mapR/Apache Drill可以根据需要动态扩展集群规模,以适应不断增长的数据量和查询负载。这种弹性扩展能力使得它能够应对高并发和大规模数据处理的需求。
  3. 多数据源支持:mapR/Apache Drill支持多种数据源,包括关系型数据库、NoSQL数据库、文件系统等。它可以通过统一的SQL接口查询不同类型的数据源,简化了数据访问和集成的复杂性。
  4. 灵活的数据模型:mapR/Apache Drill支持灵活的数据模型,可以处理结构化数据和半结构化数据,如JSON、Parquet、Avro等。这使得它能够适应不同类型的数据存储和处理需求。
  5. 开放性和可扩展性:mapR/Apache Drill是基于开源技术的,具有良好的可扩展性和可定制性。它可以与其他开源工具和框架集成,如Hadoop、Spark等,以构建更复杂的数据处理和分析解决方案。

在应用场景方面,mapR/Apache Drill适用于以下情况:

  1. 大数据查询和分析:由于其分布式处理和弹性扩展能力,mapR/Apache Drill非常适合处理大规模数据集的查询和分析任务。它可以快速地对海量数据进行复杂的SQL查询和聚合操作。
  2. 数据湖分析:对于构建数据湖的场景,mapR/Apache Drill可以作为一个统一的查询引擎,方便用户通过SQL接口对数据湖中的数据进行查询和分析。
  3. 实时数据分析:mapR/Apache Drill支持实时查询和交互式分析,可以在数据流入时即时处理和查询数据,适用于实时数据分析和监控场景。

腾讯云提供了与mapR/Apache Drill类似的产品,如TDSQL(TencentDB for TDSQL),它是腾讯云自研的分布式SQL查询引擎,具有高性能和高可用性。您可以通过以下链接了解更多关于TDSQL的信息:https://cloud.tencent.com/product/tdsql

请注意,本回答仅针对mapR/Apache Drill的特点和应用场景进行了介绍,并没有提及其他云计算品牌商的产品。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

开源对决,MapRApache Drill引入企业应用

【编者按】近日,MapR正式Apache Drill整合进该公司大数据处理平台,并开源了一系列大数据相关工具。...以下为译文 近日,MapRApache Drill项目的创建者,已经将该技术初期版本整合到该公司大数据平台。...该公司称这个版本Drill为0.5,以“开发者预览版”方式展示这个SQL查询引擎。 Drill最初公布是在 2012年8月,专注于SQL on Hadoop,当下已经取得了很大进展。...同时,Drill主要特性在于,在数据被加载到数据库之前,它可以快速生成结构模式,这主要因为取代数据转换成其他模式或者表格,Drill保持原始格式。...因此,Drill也无法满足那些期望数据转换成特定格式用户需求。 MapR产品管理负责人Tomer Shiran表示:“对比其他SQL on Hadoop项目,我们更有信心Drill做好。”

1.2K70

后Hadoop时代大数据架构

如果你需要一次性或不常见大数据处理,EMR可能会为你节省开支。但EMR是高度优化成S3中数据一起工作,会有较高延时。...领导着Apache Drill项目,是GoogleDremel开源实现,目的是执行类似SQL查询以提供实时处理。 原理篇 数据存储 我们目标是做一个可靠,支持大规模扩展和容易维护系统。...BloomFilter可看做查找一个数据有或者没有的数据结构(数据频率是否大于1)。...使用了一种类似于SQL数据库查询优化方法,这也是它与当前版本Apache Spark主要区别。它可以全局优化方案应用于某个查询之上以获得更佳性能。...批处理和流处理无缝连接,通过整合批处理流处理来减少它们之间转换开销。下图就解释了系统运行时。 ?

1.7K80
  • 从十大技术和十大巨头了解大数据

    Apache Spark:该技术采用内存计算,从多迭代批量处理出发,允许数据载入内存做反复查询,此外还融合数据仓库、流处理和图计算等多种计算范式,Spark用Scala语言实现,构建在HDFS上,能与...Apache Drill:你有多大数据集?其实无论你有多大数据集,Drill都能轻松应对。...该技术和MapReduce一样,具有强大批处理能力,而且Impala对于实时SQL查询也有很好效果,通过高效SQL查询,你可以很快了解到大数据平台上数据。...Cloudera为Hadoop发行版开发了很多功能,包括Cloudera管理器,用于管理和监控,以及名为ImpalaSQL引擎等。...除了Spark,开源分布式SQL查询引擎Shark也源于AMPLab,Shark具有极高查询效率,具有良好兼容性和可扩展性。

    1.1K60

    后Hadoop时代大数据架构

    如果你需要一次性或不常见大数据处理,EMR可能会为你节省开支。但EMR是高度优化成S3中数据一起工作,会有较高延时。...领导着Apache Drill项目,是GoogleDremel开源实现,目的是执行类似SQL查询以提供实时处理。 原理篇 数据存储 我们目标是做一个可靠,支持大规模扩展和容易维护系统。...BloomFilter可看做查找一个数据有或者没有的数据结构(数据频率是否大于1)。...使用了一种类似于SQL数据库查询优化方法,这也是它与当前版本Apache Spark主要区别。它可以全局优化方案应用于某个查询之上以获得更佳性能。 Kafka ?...批处理和流处理无缝连接,通过整合批处理流处理来减少它们之间转换开销。下图就解释了系统运行时。 ?

    88250

    手把手教你入门Hadoop(附代码&资源)

    HDFS会自动检测给定组件是否发生故障,并采取一种对用户透明方式进行必要恢复操作。 HDFS是为存储数百兆字节或千兆字节大型文件而设计提供高吞吐量流式数据访问,一次写入多次读取。...因此对于大型文件而言,HDFS工作起来是非常有魅力。但是,如果您需要存储大量具有随机读写访问权限小文件,那么RDBMSApache HBASE等其他系统可能更好些。...幸运是,您可以配置多个NameNodes,以确保此关键HDFS过程高可用性。 DataNodes:安装在负责存储和服务数据集群中每个工作节点从进程。 ?...目前正在被更快引擎,如Spark或Flink所取代。 Apache Spark:用于处理大规模数据快速通用引擎,通过在内存中缓存数据来优化计算(下文详细介绍)。...作为使用SparkPython DataFrame API一个示例,我们实现Hive相同逻辑,找到2017年7月两位最受欢迎艺术家。

    1K60

    【聚焦】后Hadoop时代大数据架构

    如果你需要一次性或不常见大数据处理,EMR可能会为你节省开支。但EMR是高度优化成S3中数据一起工作,会有较高延时。...领导着Apache Drill项目,是GoogleDremel开源实现,目的是在Hadoop数据上执行类似SQL查询以提供实时处理。...BloomFilter可看做查找一个数据有或者没有的数据结构(数据频率是否大于1)。...批处理和流处理无缝连接,通过整合批处理流处理来减少它们之间转换开销。下图就解释了系统运行时。 ?...目前到0.6版本,参与开源规模和版本迭代速度都很快。 BlinkDB:也很有意思,在海量数据上运行交互式 SQL 查询大规模并行查询引擎。

    91640

    手把手教你入门Hadoop(附代码资源)

    HDFS会自动检测给定组件是否发生故障,并采取一种对用户透明方式进行必要恢复操作。 HDFS是为存储数百兆字节或千兆字节大型文件而设计提供高吞吐量流式数据访问,一次写入多次读取。...因此对于大型文件而言,HDFS工作起来是非常有魅力。但是,如果您需要存储大量具有随机读写访问权限小文件,那么RDBMSApache HBASE等其他系统可能更好些。...幸运是,您可以配置多个NameNodes,以确保此关键HDFS过程高可用性。 DataNodes:安装在负责存储和服务数据集群中每个工作节点从进程。...目前正在被更快引擎,如Spark或Flink所取代。 Apache Spark:用于处理大规模数据快速通用引擎,通过在内存中缓存数据来优化计算(下文详细介绍)。...您可以通过提供特定数据库名称作为表名前缀,或者键入“use;”命令来更改

    56140

    自学大数据:用以生产环境Hadoop版本比较

    Apache Hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布开源软件框架。支持在商品硬件构建大型集群上运行应用程序。...其中有很多厂家在Apache Hadoop基础上开发自己Hadoop产品,比如ClouderaCDH,HortonworksHDP,MapRMapR产品等。...MapR竞争者相比,使用了一些不同概念,特别是为了获取更好性能和易用性而支持本地Unix文件系统而不是HDFS(使用非开源组件)。可以使用本地Unix命令来代替Hadoop命令。...该公司也领导着Apache Drill项目,本项目是GoogleDremel开源项目的重新实现,目的是在Hadoop数据上执行类似SQL查询以提供实时处理。 ?...并且,EMR是高度优化成S3中数据一起工作,这种方式会有较高延时并且不会定位位于你计算节点数据。

    1.5K50

    大数据OLAP系统(2)——开源组件篇

    SQL 查询等; Query Engine:使用开源 Apache Calcite 框架来实现 SQL 解析,可以理解为 SQL 引擎层; Routing:负责解析 SQL 生成执行计划转换成...上图显示了MapReducePresto执行过程不同点,MR每个操作要么需要写磁盘,要么需要等待前一个stage全部完成才开始执行,而PrestoSQL转换为多个stage,每个stage又由多个...Presto一个权衡是不关心中间查询容错。如果其中一个Presto工作节点出现故障(例如,关闭),则大多数情况下正在进行查询中止并需要重新启动。...2.3.4 Drill DrillMapR开源一个低延迟大数据集分布式SQL查询引擎,是谷歌Dremel开源实现。...Drill查询流程包括以下步骤: Drill客户端发起查询,任意DrilBit都可以接受来自客户端查询 收到请求DrillBit成为驱动节点(Foreman),对查询进行分析优化生成执行计划,之后执行计划划分成各个片段

    2.3K40

    大数据分析工具大汇总

    Spark适合机器学习以及交互式数据查询工作,包含Scala、Python和JavaAPI,这更有利于开发人员使用。...Twitter流处理工具Summingbird:Storm和Scalding相似,开发者可以使用非常接近原生Scala或者Java在Summingbird上执行MapReduce作业。...在hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce技术人员提供快速上手工具,hive应运而生,是当时唯一运行在hadoop上SQL-on-Hadoop工具。...受GoogleDremel启发,Drill是专为大型数据集提供可扩展性和查询能力。该项目是由MapR写成。...Phoenix:Phoenix是一款开源ApacheHBaseSQL查询引擎,由JDBC驱动程序,可使用SQL查询和管理HBase表。此项目已提交成为Apache孵化器项目。

    1.7K70

    趣谈交互式查询历史之 Impala

    第一波出现 Dremel 开源实现是 Cloudera Apache Impala 和 MapR Apache Drill 。...因为我们团队交互式查询底层引擎使用Apache Impala ,对此也比较熟悉。Impala 传统大数据框架不同,它是由 C++ 写,而不是常见 JVM 上语言。...Impala 源码没有怎么读过,但是论文倒是拜读了一次。首先,Impala 是一个类似于 MPP 架构,所谓 MPP 架构就是每个节点都是等价节点之间通过网络进行通信。...常见数据库设计不一样,一般数据库都会选择单独节点处理 SQL 解析等元数据,而 Impala 每个节点都是一样,完全等价,既可以做 query compilation,也可以做coordinator...既不像数据库那样,有着自己存储系统,从而可以最大化提升数据处理效率,也不像 MapReduce 简单粗暴,而是引进了很多数据库里优化技术,相比于 MapReduce 大大加速了计算速度

    1K10

    基于事件驱动微服务模式

    微服务方式典型大数据部署是相融合.你可以通过服务部署到许多普通硬件服务器上来实现模块化、可扩展并行处理及基于成本有效可扩展服务....你可将一个已分区Topic想象成一个队列, 事件以它们被收到顺序被投递. ? 但队列不同是,事件是可被持久保存,即使它们被投递了,仍然保存在分区里,以便其它消费者来消费. ?...如果你要为不同数据库或不同查询类型请求提供相同数据集时该怎么办? 流可扮演多个数据库分布式连接点,每个点提供不同读模式. 应用状态所有变化都被持久化到一个记录系统事件存储器中....Apache Spark 用于流批处理和分析, 结合机器学习可用于预测供应链断裂和产品推荐等. 存储在 MapR-DB中数据具有可扩展性和更快速读写....Apache Drill 用于交互式挖掘和通过使用无模式SQL查询引擎对数据做预处理. ODBC 结合Drill能够支持现有的BI工具. MapR企业级功能可做到全球数据中心复制.

    1.6K100

    SparkSQL极简入门

    提供了一个称为DataFrame(数据框)编程抽象,DF底层仍然是RDD,并且可以充当分布式SQL查询引擎。 1、SparkSQL由来 SparkSQL前身是Shark。...后来,为了提高SQL-on-Hadoop效率,大量SQL-on-Hadoop工具开始产生,其中表现较为突出是: 1)MapRDrill 2)ClouderaImpala...3)Shark 其中Shark是伯克利实验室Spark生态环境组件之一,基于Hive实施了一些改进,比如引入缓存管理,改进和优化执行器等,并使之能运行在Spark引擎上,从而使得SQL查询速度得到...另外,使用这种方式,每个数据记录产生一个JVM对象,如果是大小为200GB数据记录,堆栈产生1.6亿个对象,这么多对象,对于GC来说,可能要消耗几分钟时间来处理(JVM垃圾收集时间堆栈中对象数量呈线性相关...比如说某列数据类型为整型(int),那么数据集合一定是整型数据。这种情况使数据解析变得十容易。

    3.8K10

    原 荐 SparkSQL简介及入门

    提供了一个称为DataFrame(数据框)编程抽象,DF底层仍然是RDD,并且可以充当分布式SQL查询引擎。 1、SparkSQL由来     SparkSQL前身是Shark。...后来,为了提高SQL-on-Hadoop效率,大量SQL-on-Hadoop工具开始产生,其中表现较为突出是:     1)MapRDrill     2)ClouderaImpala     ...3)Shark     其中Shark是伯克利实验室Spark生态环境组件之一,基于Hive实施了一些改进,比如引入缓存管理,改进和优化执行器等,并使之能运行在Spark引擎上,从而使得SQL查询速度得到...另外,使用这种方式,每个数据记录产生一个JVM对象,如果是大小为200GB数据记录,堆栈产生1.6亿个对象,这么多对象,对于GC来说,可能要消耗几分钟时间来处理(JVM垃圾收集时间堆栈中对象数量呈线性相关...比如说某列数据类型为整型(int),那么数据集合一定是整型数据。这种情况使数据解析变得十容易。

    2.5K60

    大数据那些事(26):Apache Drill之我很土但我毕业了

    作为要做Dremelopensource版,来应对更快更高更强要求MapR又一次发扬了懒土省美德,取了个名字叫Drill。 这个项目很快成了Apache孵化器项目,然后就到顶级了。...关于这种半结构化支持来说,Drill做得看起来是相当不错。在SQL语言使用上也是很简单使用点来引用下一层数据。...但是当这个界限成为自己并不是包含了Schema时候,那就需要额外指定schema或者就只能指望drill把数据给乱parse了。这在CSV文件里面就会显得非常糟糕。...说实话因为工作关系我也需要处理Data Federation一些设计,但是我们公司产品在这个方面的要求基本上就是能用就好。...所以我看到Drill是一个定义在Data Federation上系统,那我大致也能想象这个系统性能不可能好到哪里去。但是应该是一个还不错ad-hoc查询分析工具。

    1.2K80

    Apache Drill 专为Hadoop、NoSQL和云存储设计Schema-free类型SQL引擎

    Apache Drill是一款开源数据探索工具,一个分布式SQL查询和分析引擎。包含了很多专有的设计,来进行高性能分析,支持半结构化数据源(JSON、XML和日志等)和基于应用不断创新数据格式。...在此基础上,Drill不仅支持行业标准 ANSI SQL,做到开箱即用和快速上手,还支持大数据生态集成,如 Apache Hive 和 Apache Hbase 等存储系统,即插即用部署方式。...Apache Drill 关键特性 低延迟SQL查询。 直接对自描述数据进行动态查询而无需提前定义Schema,如 JSON、Parquet、TEXT 和 Hbase等。...选择 Apache Drill 十大理由 分钟级上手速度 几分钟即可入门 Apache Drill。...Drill是一款支持复杂数据列式查询引擎。而且支持在内存中用列式表达复杂数据,所以查询JSON数据模型速度可以媲美列式格式。

    1.6K30

    收藏丨值得关注12大开源大数据分析应用软件

    许多企业使用一些领先工具由Apache基金会管理,许多商业工具至少一部基于这些开源解决方案。...通常是从大数据获取洞察力整个更庞大解决方案一部。 2. Spark Spark也是Apache旗下一个项目,承诺可以迅速处理大数据。...这家公司声称,相比之竞争解决方案,帮助企业分析大数据速度快五倍,而成本却只有五之一。 4....Drill Apache Drill让用户得以使用SQL查询用于非关系型数据存储系统。支持一系列NoSQL和基于云数据存储系统。 ?...Apache Drill包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。

    1.7K80

    大数据平台技术栈

    市面上已有多种成熟、基于 SQL 查询抽取软件,如著名开源项目 Apache Sqoop,然而这些工具并不支持实时数据抽取。...Ignit是一个以内存为中心分布式数据库,缓存和处理平台,用于事务,分析和流式工作负载,在PB级别的数据上提供接近内存速度访问数据。...任何熟悉SQL的人都可以轻松使用HiveSQL写查询。和RDBMS相同,Hive要求所有数据必须存储在表中,而表必须有模式(Schema),且模式由Hive进行管理。...Impala,Impala是Apache Hadoop开源,本地分析数据库。由Cloudera,MapR,Oracle和Amazon等供应商提供。 Spark Spark是一个分布式计算框架。...Presto通过使用分布式查询,可以快速高效完成海量数据查询。如果你需要处理TB或者PB级别的数据,那么你可能更希望借助于Hadoop和HDFS来完成这些数据处理。

    2.1K50

    全球100款大数据工具汇总(前50款)

    34 Drill 于2012年8月份由Apache推出,让用户可以使用基于SQL查询查询Hadoop、NoSQL数据库和云存储服务。...它能够运行在上千个节点服务器集群上,且能在几秒内处理PB级或者万亿条数据记录。...Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准JDBC结果集。 36 Pig 是一种编程语言,简化了Hadoop常见工作任务。...37 Hive 是基于Hadoop一个数据仓库工具,可以结构化数据文件映射为一张数据库表,并提供简单sql查询功能,可以sql语句转换为MapReduce任务进行运行。...它可以作为一款独立产品来下载,又是Cloudera商业大数据产品一部。Cloudera Impala 可以直接为存储在HDFS或HBase中Hadoop数据提供快速、交互式SQL查询

    76530
    领券