开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

mapR/Apache Drill sql查询是否将工作分配到每个节点，或者它的速度是否与SQL RDBMS相同？

mapR/Apache Drill是一个分布式SQL查询引擎，它可以在大规模数据集上执行SQL查询。它的工作方式是将查询任务分配给集群中的每个节点进行并行处理，以提高查询速度和性能。

与传统的SQL RDBMS相比，mapR/Apache Drill具有以下优势：

分布式处理：mapR/Apache Drill可以将查询任务分发到集群中的每个节点，实现并行处理，从而加快查询速度。这使得它能够处理大规模数据集，适用于大数据场景。
弹性扩展：mapR/Apache Drill可以根据需要动态扩展集群规模，以适应不断增长的数据量和查询负载。这种弹性扩展能力使得它能够应对高并发和大规模数据处理的需求。
多数据源支持：mapR/Apache Drill支持多种数据源，包括关系型数据库、NoSQL数据库、文件系统等。它可以通过统一的SQL接口查询不同类型的数据源，简化了数据访问和集成的复杂性。
灵活的数据模型：mapR/Apache Drill支持灵活的数据模型，可以处理结构化数据和半结构化数据，如JSON、Parquet、Avro等。这使得它能够适应不同类型的数据存储和处理需求。
开放性和可扩展性：mapR/Apache Drill是基于开源技术的，具有良好的可扩展性和可定制性。它可以与其他开源工具和框架集成，如Hadoop、Spark等，以构建更复杂的数据处理和分析解决方案。

在应用场景方面，mapR/Apache Drill适用于以下情况：

大数据查询和分析：由于其分布式处理和弹性扩展能力，mapR/Apache Drill非常适合处理大规模数据集的查询和分析任务。它可以快速地对海量数据进行复杂的SQL查询和聚合操作。
数据湖分析：对于构建数据湖的场景，mapR/Apache Drill可以作为一个统一的查询引擎，方便用户通过SQL接口对数据湖中的数据进行查询和分析。
实时数据分析：mapR/Apache Drill支持实时查询和交互式分析，可以在数据流入时即时处理和查询数据，适用于实时数据分析和监控场景。

腾讯云提供了与mapR/Apache Drill类似的产品，如TDSQL（TencentDB for TDSQL），它是腾讯云自研的分布式SQL查询引擎，具有高性能和高可用性。您可以通过以下链接了解更多关于TDSQL的信息：https://cloud.tencent.com/product/tdsql

请注意，本回答仅针对mapR/Apache Drill的特点和应用场景进行了介绍，并没有提及其他云计算品牌商的产品。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

开源的对决，MapR将Apache Drill引入企业应用

【编者按】近日，MapR正式将Apache Drill整合进该公司的大数据处理平台，并开源了一系列大数据相关工具。...以下为译文近日，MapR，Apache Drill项目的创建者，已经将该技术的初期版本整合到该公司的大数据平台。...该公司称这个版本的Drill为0.5，以“开发者预览版”的方式展示这个SQL查询引擎。 Drill最初公布是在 2012年8月，专注于SQL on Hadoop，当下已经取得了很大的进展。...同时，Drill的主要特性在于，在数据被加载到数据库之前，它可以快速的生成结构模式，这主要因为取代将数据转换成其他模式或者表格，Drill保持原始的格式。...因此，Drill也无法满足那些期望将数据转换成特定格式的用户需求。 MapR产品管理负责人Tomer Shiran表示：“对比其他SQL on Hadoop项目，我们更有信心将Drill做好。”

1.2K7 0

后Hadoop时代的大数据架构

如果你需要一次性的或不常见的大数据处理，EMR可能会为你节省开支。但EMR是高度优化成与S3中的数据一起工作，会有较高的延时。...领导着Apache Drill项目，是Google的Dremel的开源实现，目的是执行类似SQL的查询以提供实时处理。原理篇数据存储我们的目标是做一个可靠的，支持大规模扩展和容易维护的系统。...BloomFilter可看做查找一个数据有或者没有的数据结构（数据的频率是否大于1）。...使用了一种类似于SQL数据库查询优化的方法，这也是它与当前版本的Apache Spark的主要区别。它可以将全局优化方案应用于某个查询之上以获得更佳的性能。...将批处理和流处理无缝连接，通过整合批处理与流处理来减少它们之间的转换开销。下图就解释了系统运行时。 ?

1.7K8 0

从十大技术和十大巨头了解大数据

Apache Spark：该技术采用内存计算，从多迭代批量处理出发，允许将数据载入内存做反复查询，此外还融合数据仓库、流处理和图计算等多种计算范式，Spark用Scala语言实现，构建在HDFS上，能与...Apache Drill：你有多大的数据集？其实无论你有多大的数据集，Drill都能轻松应对。...该技术和MapReduce一样，具有强大的批处理能力，而且Impala对于实时的SQL查询也有很好的效果，通过高效的SQL查询，你可以很快的了解到大数据平台上的数据。...Cloudera为它的Hadoop发行版开发了很多功能，包括Cloudera管理器，用于管理和监控，以及名为Impala的SQL引擎等。...除了Spark，开源分布式SQL查询引擎Shark也源于AMPLab，Shark具有极高的查询效率，具有良好的兼容性和可扩展性。

1.1K6 0

后Hadoop时代的大数据架构

如果你需要一次性的或不常见的大数据处理，EMR可能会为你节省开支。但EMR是高度优化成与S3中的数据一起工作，会有较高的延时。...领导着Apache Drill项目，是Google的Dremel的开源实现，目的是执行类似SQL的查询以提供实时处理。原理篇数据存储我们的目标是做一个可靠的，支持大规模扩展和容易维护的系统。...BloomFilter可看做查找一个数据有或者没有的数据结构（数据的频率是否大于1）。...使用了一种类似于SQL数据库查询优化的方法，这也是它与当前版本的Apache Spark的主要区别。它可以将全局优化方案应用于某个查询之上以获得更佳的性能。 Kafka ?...将批处理和流处理无缝连接，通过整合批处理与流处理来减少它们之间的转换开销。下图就解释了系统运行时。 ?

8825 0

手把手教你入门Hadoop（附代码&资源）

HDFS会自动检测给定组件是否发生故障，并采取一种对用户透明的方式进行必要的恢复操作。 HDFS是为存储数百兆字节或千兆字节的大型文件而设计的，它提供高吞吐量的流式数据访问，一次写入多次读取。...因此对于大型文件而言，HDFS工作起来是非常有魅力的。但是，如果您需要存储大量具有随机读写访问权限的小文件，那么RDBMS和Apache HBASE等其他系统可能更好些。...幸运的是，您可以配置多个NameNodes，以确保此关键HDFS过程的高可用性。 DataNodes：安装在负责存储和服务数据的集群中的每个工作节点上的从进程。 ?...它目前正在被更快的引擎，如Spark或Flink所取代。 Apache Spark：用于处理大规模数据的快速通用引擎，它通过在内存中缓存数据来优化计算(下文将详细介绍)。...作为使用Spark的Python DataFrame API的一个示例，我们实现与Hive相同的逻辑，找到2017年7月两位最受欢迎的艺术家。

1K6 0

【聚焦】后Hadoop时代的大数据架构

如果你需要一次性的或不常见的大数据处理，EMR可能会为你节省开支。但EMR是高度优化成与S3中的数据一起工作，会有较高的延时。...领导着Apache Drill项目，是Google的Dremel的开源实现，目的是在Hadoop数据上执行类似SQL的查询以提供实时处理。...BloomFilter可看做查找一个数据有或者没有的数据结构（数据的频率是否大于1）。...将批处理和流处理无缝连接，通过整合批处理与流处理来减少它们之间的转换开销。下图就解释了系统运行时。 ?...目前到0.6版本，参与开源的规模和版本迭代速度都很快。 BlinkDB：也很有意思，在海量数据上运行交互式 SQL 查询的大规模并行查询引擎。

9164 0

手把手教你入门Hadoop（附代码资源）

HDFS会自动检测给定组件是否发生故障，并采取一种对用户透明的方式进行必要的恢复操作。 HDFS是为存储数百兆字节或千兆字节的大型文件而设计的，它提供高吞吐量的流式数据访问，一次写入多次读取。...因此对于大型文件而言，HDFS工作起来是非常有魅力的。但是，如果您需要存储大量具有随机读写访问权限的小文件，那么RDBMS和Apache HBASE等其他系统可能更好些。...幸运的是，您可以配置多个NameNodes，以确保此关键HDFS过程的高可用性。 DataNodes：安装在负责存储和服务数据的集群中的每个工作节点上的从进程。...它目前正在被更快的引擎，如Spark或Flink所取代。 Apache Spark：用于处理大规模数据的快速通用引擎，它通过在内存中缓存数据来优化计算(下文将详细介绍)。...您可以通过提供特定的数据库名称作为表名的前缀，或者键入“use；”命令来更改它。

5614 0

自学大数据：用以生产环境的Hadoop版本比较

Apache Hadoop：Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。...其中有很多厂家在Apache Hadoop的基础上开发自己的Hadoop产品，比如Cloudera的CDH，Hortonworks的HDP，MapR的MapR产品等。...MapR：与竞争者相比，它使用了一些不同的概念，特别是为了获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS（使用非开源的组件）。可以使用本地Unix命令来代替Hadoop命令。...该公司也领导着Apache Drill项目，本项目是Google的Dremel的开源项目的重新实现，目的是在Hadoop数据上执行类似SQL的查询以提供实时处理。 ?...并且，EMR是高度优化成与S3中的数据一起工作的，这种方式会有较高的延时并且不会定位位于你的计算节点上的数据。

1.5K5 0

大数据OLAP系统（2）——开源组件篇

，SQL 的查询等； Query Engine：使用开源的 Apache Calcite 框架来实现 SQL 解析，可以理解为 SQL 引擎层； Routing：负责将解析 SQL 生成的执行计划转换成...上图显示了MapReduce与Presto的执行过程的不同点，MR每个操作要么需要写磁盘，要么需要等待前一个stage全部完成才开始执行，而Presto将SQL转换为多个stage，每个stage又由多个...Presto的一个权衡是不关心中间查询容错。如果其中一个Presto工作节点出现故障（例如，关闭），则大多数情况下正在进行的查询将中止并需要重新启动。...2.3.4 Drill Drill是MapR开源的一个低延迟的大数据集的分布式SQL查询引擎，是谷歌Dremel的开源实现。...Drill的查询流程包括以下步骤： Drill客户端发起查询，任意DrilBit都可以接受来自客户端的查询收到请求的DrillBit成为驱动节点（Foreman），对查询进行分析优化生成执行计划，之后将执行计划划分成各个片段

2.3K4 0

大数据分析工具大汇总

Spark适合机器学习以及交互式数据查询工作，包含Scala、Python和JavaAPI，这更有利于开发人员使用。...Twitter流处理工具Summingbird:与Storm和Scalding相似，开发者可以使用非常接近原生的Scala或者Java在Summingbird上执行MapReduce作业。...在hadoop发展过程中，为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，hive应运而生，是当时唯一运行在hadoop上的SQL-on-Hadoop工具。...受GoogleDremel的启发，Drill是专为大型数据集提供可扩展性和查询的能力。该项目是由MapR写成。...Phoenix:Phoenix是一款开源的ApacheHBaseSQL查询引擎，由JDBC驱动程序，可使用SQL查询和管理HBase表。此项目已提交成为Apache孵化器项目。

1.7K7 0

趣谈交互式查询的历史之 Impala

第一波出现的 Dremel 的开源实现是 Cloudera 的 Apache Impala 和 MapR 的 Apache Drill 。...因为我们团队的交互式查询的底层引擎使用的是 Apache Impala ，对此也比较熟悉。Impala 与传统的大数据框架不同，它是由 C++ 写的，而不是常见的 JVM 上的语言。...Impala 的源码没有怎么读过，但是它的论文倒是拜读了一次。首先，Impala 是一个类似于 MPP 的架构，所谓 MPP 架构就是每个节点都是等价的，节点之间通过网络进行通信。...与常见的数据库设计不一样，一般的数据库都会选择单独的节点处理 SQL 解析等元数据，而 Impala 每个节点都是一样的，完全等价，既可以做 query compilation，也可以做coordinator...它既不像数据库那样，有着自己的存储系统，从而可以最大化的提升数据处理效率，也不像 MapReduce 简单粗暴，而是引进了很多数据库里的优化技术，相比于 MapReduce 大大加速了计算速度。

1K1 0

基于事件驱动的微服务模式

微服务方式与典型的大数据部署是相融合的.你可以通过将服务部署到许多普通的硬件服务器上来实现模块化的、可扩展的并行处理及基于成本有效的可扩展服务....你可将一个已分区的Topic想象成一个队列, 事件以它们被收到的顺序被投递. ? 但与队列不同的是，事件是可被持久保存的，即使它们被投递了，它仍然保存在分区里，以便其它的消费者来消费. ?...如果你要为不同的数据库或不同的查询类型请求提供相同的数据集时该怎么办? 流可扮演多个数据库的分布式连接点，每个点提供不同的读模式. 应用状态的所有变化都被持久化到一个记录系统的事件存储器中....Apache Spark 用于流的批处理和分析, 结合机器学习可用于预测供应链的断裂和产品推荐等. 存储在 MapR-DB中的数据具有可扩展性和更快速的读写....Apache Drill 用于交互式的挖掘和通过使用无模式的SQL查询引擎对数据做预处理. ODBC 结合Drill能够支持现有的BI工具. MapR的企业级功能可做到全球数据中心的复制.

1.6K10 0

SparkSQL极简入门

它提供了一个称为DataFrame（数据框）的编程抽象，DF的底层仍然是RDD，并且可以充当分布式SQL查询引擎。 1、SparkSQL的由来 SparkSQL的前身是Shark。...后来，为了提高SQL-on-Hadoop的效率，大量的SQL-on-Hadoop工具开始产生，其中表现较为突出的是： 1）MapR的Drill 2）Cloudera的Impala...3）Shark 其中Shark是伯克利实验室Spark生态环境的组件之一，它基于Hive实施了一些改进，比如引入缓存管理，改进和优化执行器等，并使之能运行在Spark引擎上，从而使得SQL查询的速度得到...另外，使用这种方式，每个数据记录产生一个JVM对象，如果是大小为200GB的数据记录，堆栈将产生1.6亿个对象，这么多的对象，对于GC来说，可能要消耗几分钟的时间来处理（JVM的垃圾收集时间与堆栈中的对象数量呈线性相关...比如说某列数据类型为整型(int)，那么它的数据集合一定是整型数据。这种情况使数据解析变得十分容易。

3.8K1 0

原荐 SparkSQL简介及入门

它提供了一个称为DataFrame（数据框）的编程抽象，DF的底层仍然是RDD，并且可以充当分布式SQL查询引擎。 1、SparkSQL的由来 SparkSQL的前身是Shark。...后来，为了提高SQL-on-Hadoop的效率，大量的SQL-on-Hadoop工具开始产生，其中表现较为突出的是： 1）MapR的Drill 2）Cloudera的Impala ...3）Shark 其中Shark是伯克利实验室Spark生态环境的组件之一，它基于Hive实施了一些改进，比如引入缓存管理，改进和优化执行器等，并使之能运行在Spark引擎上，从而使得SQL查询的速度得到...另外，使用这种方式，每个数据记录产生一个JVM对象，如果是大小为200GB的数据记录，堆栈将产生1.6亿个对象，这么多的对象，对于GC来说，可能要消耗几分钟的时间来处理（JVM的垃圾收集时间与堆栈中的对象数量呈线性相关...比如说某列数据类型为整型(int)，那么它的数据集合一定是整型数据。这种情况使数据解析变得十分容易。

2.5K6 0

大数据那些事(26):Apache Drill之我很土但我毕业了

作为要做Dremel的opensource版，来应对更快更高更强的要求的MapR又一次发扬了懒土省的美德，取了个名字叫Drill。这个项目很快成了Apache的孵化器项目，然后就到顶级了。...关于这种半结构化的支持来说，Drill做得看起来是相当不错。在SQL语言的使用上也是很简单的使用点来引用下一层的数据。...但是当这个界限成为自己并不是包含了Schema的时候，那就需要额外指定schema或者就只能指望drill把数据给乱parse了。这在CSV文件里面就会显得非常的糟糕。...说实话因为工作的关系我也需要处理Data Federation的一些设计，但是我们公司产品在这个方面的要求基本上就是能用就好。...所以我看到Drill是一个定义在Data Federation上的系统，那我大致也能想象这个系统的性能不可能好到哪里去。但是应该是一个还不错的ad-hoc查询分析的工具。

1.2K8 0

Apache Drill 专为Hadoop、NoSQL和云存储设计的Schema-free类型的SQL引擎

Apache Drill是一款开源的数据探索工具，一个分布式SQL查询和分析引擎。它包含了很多专有的设计，来进行高性能分析，支持半结构化数据源（JSON、XML和日志等）和基于应用不断创新的数据格式。...在此基础上，Drill不仅支持行业标准的 ANSI SQL，做到开箱即用和快速上手，还支持大数据生态的集成，如 Apache Hive 和 Apache Hbase 等存储系统，即插即用的部署方式。...Apache Drill 关键特性低延迟的SQL查询。直接对自描述数据进行动态查询而无需提前定义Schema，如 JSON、Parquet、TEXT 和 Hbase等。...选择 Apache Drill 的十大理由分钟级的上手速度几分钟即可入门 Apache Drill。...Drill是一款支持复杂数据的列式查询引擎。而且支持在内存中用列式表达复杂数据，所以查询JSON数据模型的速度可以媲美列式格式。

1.6K3 0

收藏丨值得关注的12大开源大数据分析应用软件

许多企业使用的一些领先工具由Apache基金会管理，许多商业工具至少一部分基于这些开源解决方案。...它通常是从大数据获取洞察力的整个更庞大解决方案的一部分。 2. Spark Spark也是Apache旗下的一个项目，它承诺可以迅速处理大数据。...这家公司声称，相比与之竞争的解决方案，它帮助企业分析大数据的速度快五倍，而成本却只有五分之一。 4....Drill Apache Drill让用户得以使用SQL查询用于非关系型数据存储系统。它支持一系列NoSQL和基于云的数据存储系统。 ?...Apache Drill包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。

1.7K8 0

Apache Drill基本介绍

Drill 是一个用于大数据探索的 Apache 开源 SQL 查询引擎。...为什么选择Apache Drill 1分钟快速入门只需几分钟即可开始使用 Drill。...BI 工具 Drill 与标准的 BI 工具一起工作。...您可以开箱即用地将 Drill 连接到文件系统（本地或分布式，例如 S3 和 HDFS）、HBase 和 Hive。你可以实现一个存储插件来使 Drill 与任何其他数据源一起工作。...Drill 利用集群中的聚合内存来使用乐观的流水线模型执行查询，并在工作集不适合内存时自动溢出到磁盘。 Drill 是一个用于大数据探索的 Apache 开源 SQL 查询引擎。

2K3 0

大数据平台技术栈

市面上已有多种成熟的、基于 SQL 查询的抽取软件，如著名的开源项目 Apache Sqoop，然而这些工具并不支持实时的数据抽取。...Ignit是一个以内存为中心的分布式数据库，缓存和处理平台，用于事务，分析和流式工作负载，在PB级别的数据上提供接近内存速度访问数据。...任何熟悉SQL的人都可以轻松使用HiveSQL写查询。和RDBMS相同，Hive要求所有数据必须存储在表中，而表必须有模式（Schema），且模式由Hive进行管理。...Impala,Impala是Apache Hadoop的开源，本地分析数据库。它由Cloudera，MapR，Oracle和Amazon等供应商提供。 Spark Spark是一个分布式计算框架。...Presto通过使用分布式查询，可以快速高效的完成海量数据的查询。如果你需要处理TB或者PB级别的数据，那么你可能更希望借助于Hadoop和HDFS来完成这些数据的处理。

2.1K5 0

全球100款大数据工具汇总（前50款）

34 Drill 于2012年8月份由Apache推出，让用户可以使用基于SQL的查询，查询Hadoop、NoSQL数据库和云存储服务。...它能够运行在上千个节点的服务器集群上，且能在几秒内处理PB级或者万亿条的数据记录。...Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。 36 Pig 是一种编程语言，它简化了Hadoop常见的工作任务。...37 Hive 是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。...它可以作为一款独立产品来下载，又是Cloudera的商业大数据产品的一部分。Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速、交互式的SQL查询。

7653 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭