Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Palo Doris版五分钟快速入门!

Palo Doris版五分钟快速入门!

作者头像
857技术社区
发布于 2022-05-17 07:48:51
发布于 2022-05-17 07:48:51
34800
代码可运行
举报
文章被收录于专栏:857-Bigdata857-Bigdata
运行总次数:0
代码可运行

在本教程章节中,我将为大家介绍使用Palo UI快速体验和使用Palo查询的操作过程。

  • 公有云用户,请先参阅文档创建一个 Palo 集群。
  • 开源用户,需要在 fe.conf 中配置 enable_http_server_v2=true 后,重启 FE 节点。

Palo UI是Palo为大家提供的可以快速执行查询请求和进行一些管理操作的Web UI环境。

本文档中演示使用的demo数据和查询例句均来自于 Star Schema Benchmark,用户可以点击获取样例数据和SQL语句。

进入Palo UI

在Palo的集群详情页面中,提供了Palo UI的快捷入口。

点击Palo UI按钮,进入Web UI环境。在登陆页面输入用户名和密码,用户名是“admin”,密码是用户创建集群时填写的密码。

开源用户可以在浏览器打开 FE 节点的 http_port 端口(默认8030)。

点击登陆之后,就可以进入到Palo UI的主页面,默认页面就是Palo查询页面(Playground)。

Palo快速查询页面主要分成三个区域,左侧为表管理区域,包括系统库表和用户自己创建的表。右上区域是SQL执行区域,右下区域为表预览和数据导入以及执行结果区域。接下来我们在本页面展示从建库、建表、导入数据、查询等主要步骤,帮助初次使用Palo的用户体验一次完整的使用流程。

建库建表

在编辑器区域,我们输入SQL语句创建一个example_db的库。点击执行之后,在下方可以看到执行结果,执行成功之后,刷新左侧表区域,就可以在表管理区域看到新创建的example_db库了。

CREATE DATABASE example_db;

我们的demo数据一共有5份销售相关的订单、日期、客户信息等数据样例,所以我们需要创建5张对应的表。

首先我们在example_db库中创建一个名为lineorder的表。Palo使用DISTRIBUTED关键字设置分桶列,分桶列用于对数据进行水平划分,一般我们选择一个可以帮助数据能够均匀划分的列作为分桶列。此处我们使用lo_orderkey作为分桶列。此处我们还设置了一个副本数为1,因为Palo默认三副本,如果我们集群只购买了一个 Compute Node,则需要手动设置副本数为1。

这个表主要定义了订单号、订单时间以及利润、税收等一些订单主信息。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
CREATE TABLE lineorder (
    lo_orderkey BIGINT,
    lo_linenumber BIGINT,
    lo_custkey INT,
    lo_partkey INT,
    lo_suppkey INT,
    lo_orderdate INT,
    lo_orderpriotity VARCHAR(16),
    lo_shippriotity INT,
    lo_quantity BIGINT,
    lo_extendedprice BIGINT,
    lo_ordtotalprice BIGINT,
    lo_discount BIGINT,
    lo_revenue BIGINT,
    lo_supplycost BIGINT,
    lo_tax BIGINT,
    lo_commitdate BIGINT,
    lo_shipmode VARCHAR(11)
)
DISTRIBUTED BY HASH(lo_orderkey)
PROPERTIES ("replication_num"="1");

然后我们再创建一个date表。使用d_datekey作为分桶列,并设置副本数为1。这个表定义的是更加详细一些的订单日期信息。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
CREATE TABLE date (

接下来我们再分别创建剩下三张表,customerpartsupplier,分别记录了客户、商品和供应商的详细信息。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
CREATE TABLE customer (

表建完之后,可以查看 example_db 中表的信息:

导入数据

Palo 支持多种数据导入方式。具体可以参阅数据导入文档。这里我们使用Web方式便捷导入数据做示例。

首先点击选中需要导入数据的表

然后点击数据导入,进入数据导入页面

点击“下一步”。之后先选择导入文件的列分割符,这里我们是 \t 分割。接着选择需要导入的数据文件

等待文件上传完成,点击选择下方已上传的文件。这时也会看到该文件按照指定分隔符分割后的预览数据(前10行)。

点击“下一步”进入到数据导入配置页面,我们以“lineorder_data”为label,然后点击“导入”按钮。

等待片刻,可以看到数据导入的结果。其中 Status 的状态为 Success,即表示导入成功。点击OK之后,数据导入完成。

由于Web UI支持导入的数据大小有限,因此我们将完整的lineorder数据切分成了六份,此处我们仅导入一份数据作为演示,我们在demo文件中放置了完整数据样本,用户可以根据测试需求进行追加导入全部数据。

我们以同样的方式导入表datecustomerpartsupplier对应的数据。

数据查询

简单查询

数据导入完成之后,我们可以执行一些查询语句来查看数据的状态。

可以预览表的一部分数据。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
SELECT * FROM lineorder limit 10

或者统计查询表的记录数量。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
SELECT COUNT(*) FROM lineorder

分析查询

然后可以按照我们的分析需求,执行查询操作,获取查询结果。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
SELECT SUM(LO_EXTENDEDPRICE*LO_DISCOUNT) AS
REVENUE
FROM  lineorder, date
WHERE  LO_ORDERDATE = D_DATEKEY
AND D_YEAR = 1993
AND LO_DISCOUNT BETWEEN 1 AND 3
AND LO_QUANTITY < 25;

通过Web UI,我们在页面执行SQL,并且快速获取查询结果。

也可以执行多表的复杂查询

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
SELECT C_CITY, S_CITY, D_YEAR, SUM(LO_REVENUE)

页面查询的执行时间以及结果:

执行时间为 SQL 在服务器端实际执行耗时。因为 UI 界面经过多层代理,所以用户感知的查询延迟略慢于实际SQL的执行时间。

 至此,我们通过 UI 界面完成了一个完整的建库、建表、导入数据和查询流程。更多操作,请参阅开始使用部分文档。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 857Hub 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Clickhouse 迁移到 Doris 的最佳实践
在将数据从 Clickhouse 迁移到 Apache Doris / SelectDB Cloud 的过程中,涉及表结构迁移、查询语句迁移以及数据迁移等多个关键环节。每个环节都有其复杂性和需要注意的细节,本文将详细介绍这些内容及对应的最佳实践方法。
数据极客圈
2025/07/14
1840
Clickhouse 迁移到 Doris 的最佳实践
6亿数据秒级查询,ClickHouse太快了!
ClickHouse 在数据分析技术领域早已声名远扬,最近由于项目需求使用到了 ClickHouse 做分析数据库,于是用测试环境做了一个单表 6 亿数据量的性能测试。
架构师修炼
2021/04/12
2.9K1
【TBase开源版测评】Hello, TBase
TBase是腾讯基于PostgreSQL研发的一个分布式HTAP数据库,适用于拥有海量数据、高并发、部分分析场景解决,以及分布式事务能力的应用场景。 从现有的资料来看,TBase本身在腾讯内部是经过业务长期迭代打磨的产品,目前在腾讯云上也提供商业化的版本销售。
HappenLee
2020/08/28
2.7K1
【TBase开源版测评】Hello, TBase
【天穹OS】虚拟表:支持极速查询的下一代湖仓一体新范式
湖仓一体(Lakehouse)是近年来比较火的大数据概念,它将数据湖(Data Lake)和数据仓库(Data Warehouse)的优势结合起来,为企业提供了更强大、更灵活的数据管理解决方案。Gartner 技术曲线的描绘中,Lakehouse是一项非常重要技术,预计还有2~5年进入平台期,国内是5~10年。
jhonye
2023/10/31
2K0
Palo Doris不会用?(基础指南)
在快速入门教程中,我们通过 Doris 的 UI 界面完成了 Doris 的一些基本操作。而在实际生产环境中,用户通常需要使用程序连接到 Doris 并进行各种操作。
857技术社区
2022/05/17
6160
悄悄学习Doris,偷偷惊艳所有人 | Apache Doris四万字小总结
DorisDB是由Apache Doris核心研发团队打造的新一代企业级MPP数据库。它继承了Apache Doris项目十多年研发成果,累积了线上数千台服务器稳定运行经验,并在此基础上,对传统MPP数据库进行了开创性的革新。
王知无-import_bigdata
2021/09/22
8.4K1
5分钟在k8s上可视化搭建Kylin5
需要有一个可用的Kubernetes环境,如果不会搭建可以搜索引擎检索kubekey或者rancher,有大量快速搭建文档,当然用kubeadmin也可以。
CloudEon开源
2023/06/05
8730
5分钟在k8s上可视化搭建Kylin5
Pilosa使用入门
Pilosa是一款开源的分布式索引,主要是为了查询速度和水平伸缩性而设计的。如果数据规模在数十亿,并且有上百万的属性值,那么就可以考虑使用Pilosa解决这些问题:哪些属性最常见?哪些数据对象拥有特定的某些属性?哪些属性组会经常一起出现?等等类似的问题。
skyyws
2022/05/20
8020
Pilosa使用入门
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)
在数据驱动决策的时代,湖仓一体架构以统一存储、统一计算、统一管理的创新形式,补齐了传统数据仓库和数据湖的短板,逐步成为企业大数据解决方案新的标准。
SelectDB技术团队
2025/02/21
5220
ClickHouse S3 Engine 数量级调优
本文主要讲解 ClickHouse S3 Engine 的读取写入性能代码 及 数量级调优
jasong
2022/03/08
9862
Iceberg 实践 | B 站通过数据组织加速大规模数据分析
交互式分析是大数据分析的一个重要方向,基于TB甚至PB量级的数据数据为用户提供秒级甚至亚秒级的交互式分析体验,能够大大提升数据分析人员的工作效率和使用体验。限于机器的物理资源限制,对于超大规模的数据的全表扫描以及全表计算自然无法实现交互式的响应,但是在大数据分析的典型场景中,多维分析一般都会带有过滤条件,对于这种类型的查询,尤其是在高基数字段上的过滤查询,理论上可以在读取数据的时候跳过所有不相关的数据,只读取极少部分需要的数据,这种技术一般称为Data Clustering以及Data Skipping。Data Clustering是指数据按照读取时的IO粒度紧密聚集,而Data Skipping则根据过滤条件在读取时跳过不相干的数据,Data Clustering的方式以及查询中的过滤条件共同决定了Data Skipping的效果,从而影响查询的响应时间,对于TB甚至PB级别的数据,如何通过Data Clustering以及Data Skipping技术高效的跳过所有逻辑上不需要的数据,是能否实现交互式分析的体验的关键因素之一。
大数据技术架构
2021/03/23
2.4K0
Shopee ClickHouse 冷热数据分离存储架构与实践
ClickHouse 是一款开源的列存 OLAP(在线分析查询)型数据库,实现了向量化执行引擎,具有优秀的 AP 查询性能。Shopee ClickHouse 则是基于 ClickHouse 持续做二次迭代开发和产品架构演进的分析型数据库。
Shopee技术团队
2021/10/21
1.7K0
Shopee ClickHouse 冷热数据分离存储架构与实践
硬刚Doris系列」Apache Doris基本使用和数据模型
我们使用 event_day 列作为分区列,建立3个分区: p201706, p201707, p201708
王知无-import_bigdata
2022/06/05
3K0
硬刚Doris系列」Apache Doris基本使用和数据模型
全面介绍 Apache Doris 数据灾备恢复机制及使用示例
Apache Doris 作为一款 OLAP 实时数据仓库,在越来越多的中大型企业中逐步占据着主数仓这样的重要位置,主数仓不同于 OLAP 查询引擎的场景定位,对于数据的灾备恢复机制有比较高的要求,本篇就让我们全面的介绍和示范如何利用这些特性能力构建集群数据的灾备恢复机制。
苏奕嘉
2025/07/14
1610
全面介绍 Apache Doris 数据灾备恢复机制及使用示例
深入并行:从生产者到消费者模型深度理解Oracle的并行
陈焕生 Oracle Real-World Performance Group 成员,senior performance engineer,专注于 OLTP、OLAP 系统 在 Exadata 平台和 In-Memory 特性上的最佳实践。个人博客 http://dbsid.com 。 Oracle 的并行执行 Oracle 的并行执行是一种分而治之的方法. 执行一个 SQL 时, 分配多个并行进程同时执行数据扫描,连接以及聚合等操作, 使用更多的资源, 得到更快的 SQL 响应时间。并行执行是充分
数据和云
2018/03/06
1.5K0
深入并行:从生产者到消费者模型深度理解Oracle的并行
一文了解ClickHouse
ClickHouse是Yandex(俄罗斯最大的搜索引擎)开源的一个用于实时数据分析的基于列存储的数据库,其处理数据的速度比传统方法快100-1000倍。ClickHouse的性能超过了目前市场上可比的面向列的DBMS,每秒钟每台服务器每秒处理数亿至十亿多行和数十千兆字节的数据。
用户1278550
2020/05/15
1.5K0
弃用 MySQL 后存储成本降低 85%,携程业务系统数据库升级技术实践
携程是一家中国领先的在线票务服务公司,从 1999 年创立至今,数据库系统历经三次替换。在移动互联网时代,面对云计算卷积而来的海量数据,携程通过新的数据库方案实现存储成本降低 85% 左右,性能提升数倍。本文讲述携程在历史库场景下,如何解决水平扩容、存储成本、导入性能等痛点,以及对于解决方案的制定和思考过程。
深度学习与Python
2023/09/18
4210
弃用 MySQL 后存储成本降低 85%,携程业务系统数据库升级技术实践
五分钟了解Palo Doris的索引原理及应用场景!
目前 Doris 主要支持两类索引:内建的智能索引,包括前缀索引和ZoneMap索引。用户创建的二级索引,包括Bloom Filter索引和Bitmap倒排索引。
857技术社区
2022/05/17
1.1K0
兼顾高性能与低成本,浅析 Apache Doris 异步物化视图原理及典型场景
在现代化的数据分析场景中,数据量以指数级速度快速膨胀,分析维度在不断扩展,查询逻辑的复杂度也在日益增加。从性能角度考虑,在承担高并发查询的压力下,秒级别甚至更快的响应速度已成为基本需求。同时,面对有限的计算资源,成本及性能如何平衡,严格的资源管控也显得尤为重要。
SelectDB技术团队
2024/11/20
5200
TiDB 7.4 发版:正式兼容 MySQL 8.0
MySQL 是全球最受欢迎的开源数据库,长期位于 DB-Engines Ranking 排行榜第二名,在世界范围内拥有数量庞大的企业用户和开发者。然而,随着时间的推移,MySQL 用户正面临新挑战。Oracle 官宣将在 2023 年 10 月终止 MySQL 5.7 版本的官方技术支持。据第三方统计显示,目前仍有超过一半的 MySQL 服务器运行在 5.7 版本。在未来几个月,大量的 MySQL 实例必须升级至 8.0 及更高版本,否则将无法享受 Oracle 提供的技术支持和重要补丁更新,企业级用户将面临重大考验。
PingCAP
2023/10/30
4680
相关推荐
Clickhouse 迁移到 Doris 的最佳实践
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档