首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Presto系列 | Presto基本介绍

233酱准备不定时持续更新这个系列,本文主要从Presto的使用举例,Presto的应用场景、Presto的基本概念三个部分来初步介绍Presto。...Presto的使用举例 比如说,你想对存储在不同数据源中的数据,如HDFS、Mysql、HBase等通过一个SQL做查询分析,那么只需要把每一个数据源当成是Presto的Connector,对应实现Presto...Presto跑批的限制原因: ? Presto跑批的条件: ? 所以他们提供了Presto on Spark方案,这样做的好处是可以统一用户使用的SQL方言差异,UDF差异。 ?...Presto的基本概念 前面主要谈了Presto的使用场景,下面简要从 Presto的架构和基本术语上介绍PrestoPresto架构 Presto的架构图如下: ?...Coordinator Presto中的Coordinator节点负责解析SQL语句,生成并优化物理执行计划,管理Presto worker节点。它是Presto运行的“大脑”。

4.3K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    大数据Presto(五):Presto优化与Impala对比

    Presto优化与Impala对比一、Presto优化1、​​​​​​​​​​​​​​数据存储一般Presto与Hive整合使用,针对这种使用情况有如下几点优化建议:合理设置分区合理设置分区在读取数据时可以针对分区数据读取...,可以减少Presto数据读取量,提升查询性能。...使用列式存储Presto对ORC文件读取做了特定优化,因此在Hive中创建Presto使用的表时,建议采用ORC格式存储。相对于Parquet,Presto对ORC支持更好。...使用Join语句时将大表放在左边使用Join语句时将大表放在左边Presto中join的默认算法是broadcast join,即将join左边的表分割到多个worker,然后将join右边的表数据整个复制一份发送到每个...二、​​​​​​​​​​​​​​Presto与Impala对比Impala性能比Presto相对来说要快一些,两者都对内存消耗比较大,虽然Impala速度快但是Presto支持的数据源丰富。

    1.7K61

    Presto统计信息

    表统计 Presto支持基于统计的查询优化。为了使查询能够利用这些优化,Presto必须具有该查询中表的统计信息。 表统计信息通过连接器提供给查询计划者。...Presto会根据查询中的过滤谓词,尝试选择由最少数量的分区组成的table layout。...可以使用SHOW STATS for命令通过Presto SQL界面显示表统计信息。 ?...每个计划片段均由单个或多个Presto节点执行。片段分离代表Presto节点之间的数据交换。片段类型指定Presto节点如何执行片段以及片段之间的数据分配方式. SINGLE 片段在单个节点上执行....使用VERBOSE选项时,将提供更详细的信息和低级别的统计信息;要了解这些内容,需要了解Presto内部和实现细节。 可以看到每个阶段花费的CPU时间以及该阶段中每个计划节点的相对成本。

    2.6K30

    快速学习-Presto优化

    第3章 Presto优化 3.1 数据存储 1)合理设置分区 与Hive类似,Presto会根据元信息读取分区数据,合理的分区能减少Presto数据读取量,提升查询性能。...2)使用列式存储 Presto对ORC文件读取做了特定优化,因此在Hive中创建Presto使用的表时,建议采用ORC格式存储。相对于Parquet,Presto对ORC支持更好。...GOOD]: SELECT * FROM tbl ORDER BY time LIMIT 100 [BAD]: SELECT * FROM tbl ORDER BY time 5)使用近似聚合函数 Presto...OR method LIKE '%POST%' OR method LIKE '%PUT%' OR method LIKE '%DELETE%' 7)使用Join语句时将大表放在左边 Presto...3.4 注意事项 ORC和Parquet都支持列式存储,但是ORC对Presto支持更好(Parquet对Impala支持更好) 对于列式存储而言,存储文件为二进制的,对于经常增删字段的表,建议不要使用列式存储

    1.9K20

    Presto SPI概述

    连接器是Presto中所有查询数据的来源:它们支持Presto可用的每个目录 SPI代码可在根目录的presto-spi目录中找到。...此类的名称是通过标准Java ServiceLoader接口提供给Presto的:类路径包含META-INF/services目录中名为com.facebook.presto.spi.Plugin的资源文件...该文件的内容是一行,列出了插件类的名称. com.facebook.presto.example.ExamplePlugin 对于Presto源代码中包含的内置插件,只要插件的pom.xml文件包含以下行...,就会创建此资源文件 presto-plugin 插件 对于希望了解Presto SPI的开发人员而言,Plugin接口是一个很好的起点。...例如,getConnectorFactories()方法是一个顶层函数,当Presto准备好创建连接器实例以支持目录时,Presto会调用该函数来检索ConnectorFactory。

    1.6K10

    为什么要使用Presto

    另外有一些系统,和现代的架构不同,将数据存储在无法水平扩展的整体架构中。没有了这些能力,您将缩小潜在用例以及用户数量,从而缩小数据的实用性。...让 Presto 来解救 Presto 能够解决上面所有问题,并能够带来更多的能力:通过联邦查询查询不同的系统,并行查询,水平集群扩展等等。如下图所示是 Presto 的 logo。...Presto 使用场景 Presto 的灵活性和强大功能让户可以自己决定使用 Presto 的程度。对于一个特定的问题,只能从一个小的用途开始。大多数 Presto 用户都是这样开始的。...Presto 可以帮你解决以上所有问题。你可以在 Presto 中访问所有数据库。你可以使用 Presto 支持的标准 SQL、函数、各种操作符查询不同系统。...现在,数据湖经常使用服务商或其他开源项目提供的 HDFS 以外的其他对象存储系统。

    2.4K20
    领券