首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据查询引擎Presto

Presto设计精巧,可以处理海量数据,最大化地利用硬件性能,计算全部在内存中完成,很好的利用高速网络来进行数据调度。性能基本上是Hive的10倍。...Presto集群中的数据传输、节点通信、心跳感应、计算监控、计算调度和计算分布全部都是基于RESTful服务实现的,因此Presto中的RESTful服务就是Presto所有服务的基石。...向Presto集群提交一个查询,其整个过程会经历4个阶段: 1、提交查询:客户端向Coordinator提供的RESTful服务提交SQL语句 2、生成查询执行计划:Coordinator根据传递的SQL...Presto支持众多数据源Connector,最常用的为Hive Connector。...Hive Connector 使用Hive的元数据,Coordinator节点通过Hive Metastore加载元数据Presto的计算节点读取Hive表对应的HDFS数据

1.4K30

Presto查询引擎

如果大家正在按照笔者的教程尝试使用大数据组件还是之前有使用过相关的组件,大家会发现一个问题HIVE在负责的查询下调用Mapreduce会很慢,在这个场景下就涌现出很多查询引擎来优化,比如大家熟悉的Spark-SQL...,Impala,kilin已经今天的主角Presto, Presto以速度和极强的扩展性取得了胜利,不仅能够提高对HIVE数据查询速度还能和异构数据库进行关联查询,比如HIVE和Mysql进行关联查询,...launcher start -- 后台运行 launcher run --日志运行 launcher stop --停止 2.使用presto-cli查询 cd /usr/local/presto...hadoop-1:8080 --catalog hive --schema default 此时就可以正常的执行SQL 了 ,在数据量大的查询情况下速度基本比Hive快了5-6倍 presto:default..., FINISHED, 1 node Splits: 18 total, 18 done (100.00%) 0:00 [11 rows, 327B] [35 rows/s, 1.03KB/s] 关于查询出来的数据常常要导出数据

2K50
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据平台建设 —— SQL查询引擎之Presto

    数据查询引擎Presto简介 SQL on Hadoop: Hive的出现让技术人员可以通过类SQL的方式对批量数据进行查询,而不用开发MapReduce程序 MapReduce计算过程中大量的中间结果磁盘落地使运行效率较低...Presto是什么: Presto是由Facebook开发的分布式SQL查询引擎,用来进行高速实时的数据分析 Presto的产生是为了解决Hive的MapReduce模型太慢且不能通过BI等工具展现HDFS...HDFS进行交互读取数据 Presto查询流程: ?...使用presto-client连接presto-server,进入到交互式终端,测试下能否正常查询Hive中的数据: [root@hadoop /usr/local/presto-server]# bin...Presto提供了三种Event Listener: Query Creation:Presto查询建立相关信息 Query completion:查询执行相关信息,包含成功查询的细节信息,失败查询的错误码等信息

    2.4K41

    数据实时查询-Presto集群部署搭建

    Presto介绍 Presto是一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。...每一个任务从磁盘上读取输入数据并且将中间结果输出到磁盘上。 然而Presto引擎没有使用MapReduce。它使用了一个定制的查询和执行引擎和响应的操作符来支持SQL的语法。...这种流水线式的执行模型会在同一时间运行多个数据处理段, 一旦数据可用的时候就会将数据从一个处理段传入到下一个处理段。 这样的方式会大大的减少各种查询的端到端响应时间。...如果在一个节点上安装多个Presto实例(例如:在同一台机器上安装多个Presto节点),那么每个Presto节点必须拥有唯一的node.id node.data-dir: 数据存储目录的位置(操作系统上的路径...), Presto将会把日期和数据存储在这个目录下 jvm.config 包含一系列在启动JVM的时候需要使用的命令行选项。

    3.5K42

    数据Presto(一):Presto介绍

    2012年秋季,Facebook开发Presto,目前该项目在Facebook中运行超过30000个查询,每日处理数据PB以上。Presto查询速度是Hive的5-10倍。...综上,Presto是由Facebook2012年开发,基于内存、支持并行计算的分布式SQL交互式查询引擎,不是数据库,支持多种数据源,针对GB~PB数据查询可以达到秒级返回结果,主要用于秒级查询OLAP...Presto官网地址:https://prestodb.io图片二、Presto特点多数据Presto可以支持MySQL、PostgreSQL、cassandra、Hive、Kafka等多种数据查询...支持SQLPresto支持部分标准SQL对数据进行查询,并提供SQL shell进行SQL查询。...如果使用Join查询,那么就会产生大量的中间数据,速度会变慢。

    2.1K61

    PRESTO-分布式大数据SQL查询引擎

    http://prestodb-china.com/ PRESTO是什么? Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询数据量支持GB到PB字节。...Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。 它可以做什么?...Presto支持在线数据查询,包括Hive, Cassandra, 关系数据库以及专有数据存储。 一条Presto查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析。...Facebook使用Presto进行交互式查询,用于多个内部数据存储,包括300PB的数据仓库。...每天有1000多名Facebook员工使用Presto,执行查询次数超过30000次,扫描数据总量超过1PB。 领先的互联网公司包括Airbnb和Dropbox都在使用Presto

    1.7K50

    数据开发:分布式OLAP查询引擎Presto入门

    Presto是什么? Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询数据量支持GB到PB字节。...但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。 Presto可以做什么?...Presto支持在线数据查询,包括Hive,Cassandra,关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析。...Presto三大特点 高性能:Presto基于内存计算,减少数据的落盘,计算更快;轻量快速,支持近乎实时的查询; 多数据源:通过配置不同的Connector,Presto可以连接不同的数据源,所以可以将来自不同数据源的表进行连接查询...关于大数据开发,分布式OLAP查询引擎Presto入门,以上就为大家做了简单的介绍了。在交互式查询领域,Presto可以说是非常代表性的一个产品,在大规模交互式查询式,性能可观。

    1.3K20

    Presto之分布式安装查询Hive

    工作需要使用Presto,记录下。Presto需要Hive,安装Hive的步骤略,可参考我的这篇博客。    ...Presto是个master-slave结果的查询引擎,所以我们用三台机器来安装,如下List-1 List-1 192.168.33.34 presto-coordinator 192.168.33.35...presto-coordinator 在presto-coordinator上,将presto安装包放在/opt下,解压, 1、config.properties,在etc下新建config.properties...Worker节点执行 一个Discovery Server节点,Discovery Server: 通常内嵌于Coordinator节点中,worker会将自己注册到这里 多个Worker节点,负责实际执行查询任务...,负责与HDFS交互读取数据 Presto查询引擎低延迟的原因: 基于内存的并行计算 流水线式计算作业 本地化计算 动态编译执行计划 Hive是存储、计算引擎,不过Persto不做存储。

    1.3K30

    Presto介绍与常用查询优化方法

    Presto Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。...Presto实现低延时查询的原理,我认为主要是下面几个关键点: 完全基于内存的并行计算 流水线 本地化计算 动态编译执行计划 小心使用内存和数据结构 类BlinkDB的近似查询 GC控制 更多详情:https...://blog.csdn.net/fly_time2012/article/details/52160140 Presto查询优化 数据存储 合理设置分区 与Hive类似,Presto会根据元信息读取分区数据...,合理的分区能减少Presto数据读取量,提升查询性能。...使用压缩 数据压缩可以减少节点间数据传输对IO带宽压力,对于即席查询需要快速解压,建议采用snappy压缩 预先排序 对于已经排序的数据,在查询数据过滤阶段,ORC格式支持跳过读取不必要的数据

    3.5K50

    数据Presto(五):Presto优化与Impala对比

    Presto优化与Impala对比一、Presto优化1、​​​​​​​​​​​​​​数据存储一般Presto与Hive整合使用,针对这种使用情况有如下几点优化建议:合理设置分区合理设置分区在读取数据时可以针对分区数据读取...,可以减少Presto数据读取量,提升查询性能。...使用压缩数据压缩可以减少节点间数据传输对IO带宽压力,对于即席查询需要快速解压,建议采用Snappy压缩。...2、​​​​​​​​​​​​​​查询优化只查询必要的字段由于采用列式存储,查询时指定字段进行查询分析,减少读取数据量,避免使用“*”查询。过滤条件加上分区字段这样可以减少全表扫描,加快查询速度。...二、​​​​​​​​​​​​​​Presto与Impala对比Impala性能比Presto相对来说要快一些,两者都对内存消耗比较大,虽然Impala速度快但是Presto支持的数据源丰富。

    1.7K61

    数据Presto(三):Presto Connector连接器

    Presto Connector只支持从对应的Connector中查询数据,不支持建表及插入等非查询操作,这个使用Presto 主要应用于OLAP场景决定的。...”数据,附件如下:machine_consume_detail.sqlmachine_local_info.sql执行如下查询sql:#查询每个省份城市机器营收情况presto:presto_db> select...,使用presto查询Kafka中的数据,需要将Kafka中的数据映射到表字段上,那么presto读取Kafka数据时就需要有一个配置文件来配置这些内容。...“schemaName”:指定Presto连接的库名,不指定默认就是default,后期在Presto查询时,可以指定--schmea来进入指定的库,也可以跨库关联表查询。...+-----------+-------------+------------(0 rows)#查询表score_infos数据,目前还没有数据presto:mydb> select * from score_infos

    1.6K121

    Presto?还是 Hive? 你们知道大数据查询性能谁更强吗?

    技术控们,你们知道大数据查询性能谁更强吗? 经过对 Presto 和 Hive 的性能做了大量的对比测试,最终结果表明: Presto 的平均查询性能是 Hive 的 10 倍!...由于 Presto数据源具有完全解耦、高性能,以及对 ANSI SQL 的支持等特性,使得 Presto 在 ETL、实时数据计算、 Ad-Hoc 查询和实时数据流分析等多个业务场景中均能发挥重要的作用...基于 RDBMS 的实时计算 在这种业务场景中,用户要求查询数据完全实时,即只要业务库中的数据发生改变,通过 Presto 查询的时候,就可以查询到刚刚改变之后的数据。...( 2)使用 Cli 客户端进行数据分析 Presto 使用 Hive 作为数据源,对 Hive 中的数据进行查询和分析。...因此我们应该避免在 Kafka中存储大量的数据,从而提高查询性能。 某公司在这种使用场景下,通过使用 presto-hive 与 presto-kafka 配合,完成历史数据的分析和查询

    2.1K10

    Presto介绍及常用查询优化方法总结

    Presto 的扩展机制允许自定义 Connector,从而实现对定制数据源的查询。...1.2 实现低延时的原理 Presto是一个交互式查询引擎,我们最关心的是Presto实现低延时查询的原理,以下几点是其性能脱颖而出的主要原因: 完全基于内存的并行计算 流水线 本地化计算 动态编译执行计划...小心使用内存和数据结构 GC控制 无容错 2、Presto查询优化 2.1 存储优化 ① 合理设置分区 与Hive类似,Presto会根据元信息读取分区数据,合理的分区能减少Presto数据读取量,提升查询性能...③ 使用压缩 数据压缩可以减少节点间数据传输对IO带宽压力,对于即席查询需要快速解压,建议采用snappy压缩 ④ 预先排序 有条件的话提前做好排序,对于已经排序的数据,在查询数据过滤阶段,ORC格式支持跳过读取不必要的数据...FROM t1 JOIN t2 ON t1.a2 = t2.a2 ④ 使用WITH语句 使用Presto分析统计数据时,可考虑把多次查询合并为一次查询,用Presto提供的子查询完成。

    2.7K00

    比hive快10倍的大数据查询利器-- presto

    目前最流行的大数据查询引擎非hive莫属,它是基于MR的类SQL查询工具,会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛, 让一般的业务人员也可以直接对大数据进行查询。...对于此情况,创造了hive的facebook不负众望,创造了新神器---presto,其查询速度平均比hive快10倍,现在就来部署体验一下吧。...创建presto数据及日志目录 以下操作各节点均相同,只有配置文件处需根据各节点情况,对应修改 mkdir -p /data/presto 4....query.max-memory: 查询能用到的最大总内存 query.max-memory-per-node: 查询能用到的最大单结点内存 discovery-server.enabled: Presto...node.data-dir: 数据目录,Presto用它来保存log和其他数据 5) 配置catalog及hive.properties 创建 catalog目录,因本次使用的hive,因此在此目录下创建

    2.2K40

    线上Presto查询Hudi表异常排查

    引入 线上用户反馈使用Presto查询Hudi表出现错误,而将Hudi表的文件单独创建parquet类型表时查询无任何问题,关键报错信息如下 40931f6e-3422-4ffd-a692-6c70f75c9380...问题复现 开始根据用户提供的信息,模拟线上Hudi数据集大小、Presto和Hudi版本(0.5.2-incubating)来复现该问题。...进行试验发现当Hudi表单文件大小较小时,使用Presto查询一切正常。 ? 构建Hudi表中单文件大小为100MB以上数据集,使用Presto查询。 ?...可以看到,当Hudi数据集中文件大小为100MB时复现了Not Valid Parquet file异常,通过Presto的web ui可以看到具体的错误堆栈如下 ?...可以看到修改参数后,查询一切正常!!! 另外对Hudi的小文件也进行了回归测试,查询也正常!

    98620

    数据上的SQL:运用Hive、Presto与Trino实现高效查询

    因此,为适应大数据场景,Apache Hive、Presto(现更名为Trino)等专门针对大数据查询优化的工具应运而生,它们不仅保留了SQL的易用性,还引入了诸多创新技术以实现对大规模数据的高效查询。...本文将深入剖析Hive、Presto(Trino)的特点、应用场景,并通过丰富的代码示例展示如何在大数据环境中利用这些工具进行高性能SQL查询。...关键特性与优势分布式架构: Presto通过将查询任务分解到多个节点上并行执行,实现对大规模数据的高效处理和水平扩展。...相较于Presto,Trino更注重在生产环境中的稳定性和可管理性,为大规模数据查询提供了更全面的安全保障、资源管理以及长期支持。...Presto(Trino) 在需要快速、交互式查询多种数据源的场景中表现出色,如即席分析、商业智能报告和实时数据探索。

    1.1K10

    json格式存储数据在hdfs,然后建立外部表连接,使用presto查询

    背景:json格式存储数据在hdfs,然后建立外部表连接,使用presto查询。 但是发现presto并不能直接解析json,即使加入了jsonSerde的jar包也不行。 同时hive可以。 ...因为这个表是hive使用jsonSerde建立的,所以presto无法使用。如下图所示: image.png 同时presto的报错,相关的jar包都在哈~~ image.png jar包检查。...presto里面都有这个jar包,而且presto重启过了。 目前该怎么办呢,友商侧的一个资料同步: https://forums.aws.amazon.com/thread.jspa?...threadID=243860 https://github.com/rcongiu/Hive-JSON-Serde 但是相关的节点信息路径不一致,这里测试的的文件路径: /usr/local/service/presto.../lib/ [master] /usr/local/service/presto/plugin/hive-hadoop2/ [all nodes]

    3K10

    Presto CBO统计元数据

    背景 Presto:2012年秋季Facebook内部开始研发,2013年正式对外开源。Presto是Facebook用于补充和替代Hive的产品,主要用于实时场景的交互式数据分析。...Presto是典型Master-Slave架构:主要由Coordinator和Worker两个进程组件构建。...客户端将SQL提交到Coordinator(协调器),Coordinator进行SQL语法检查、语义分析以及并行查询计划生成(拆分Stages),Scheduler(调度器)将查询计划分配到保存表数据的各个...Presto基于ConnectorMetadata#getTableStatistics获取元数据信息,目前仅Hive Connector、Iceberg Connector支持获取元数据的统计信息,统计信息用于树节点...:Presto基于ConnectorMetadata#getTableStatistics获取元数据信息,目前仅Hive Connector、Iceberg Connector支持获取元数据的统计信息,

    27142
    领券