
见字如面,我是一臻
❝记得那是一个普通的周五下午,老王坐在办公室里,盯着屏幕上那堆Presto查询日志,心里直犯嘀咕:查询速度慢得跟蜗牛爬行,高峰期QPS一上来,整个系统就抖三抖... 突然,同事小李冲进来,气喘吁吁地说:“老王,顺丰的Doris案例能9m!他们从Presto切换到Doris,提速3倍,成本降48%!” 那一刻,老王的心跳加速了——这不就是我们梦寐以求的突破吗? 今天,咱们就来跟老王一起瞅瞅顺丰科技 x Doris 的湖仓架构升级之路...

先说说为什么Presto会让数据工程师们抓狂。
顺丰的丰景台是个可视化分析工具,支撑着物流从收件到派送的全链路,每天处理海量数据,用户多得像高峰期的地铁。

起初,他们用Presto作为查询引擎,并自研 Presto On Yarn 模式,能根据负载自动调整集群规模,听起来挺聪明吧?
但现实往往残酷。
就好比你是个数据分析师,早晨一上班,就得面对一个复杂查询:多表关联,数据量N个亿。Presto的优化器能力有限,规则优化跟不上,尤其在高峰期,查询速度慢到让人想砸键盘。
顺丰的团队就遇到过:P95延迟高企,服务稳定性差,因为Presto没内置缓存,HDFS IO一抖动,整个查询就卡壳。更别提资源成本了,万核规模运行,硬件开销跟滚雪球一样大。而且,Presto只能分析Hive里的数据,对实时场景或半结构化数据支持有限...
老王自己也深有体会。
那次,他们项目高峰期,Presto因为HDFS抖动,导致报表延迟从秒级飙到分钟级。老板追问进度时,老王只能苦笑:“这不是技术问题,是资源在和我们开玩笑。”
现在,聊聊Doris为什么能脱颖而出。
顺丰在2024年初调研时,瞄准了高性能、功能丰富且适用场景广泛的数据分析DB。
Doris不是新面孔,但它的优势跟老友一样可靠,也是顺丰选定的原因:
查询优化器CBO支持复杂查询,多表关联时用统计信息精准优化;物化视图灵活处理数据加工和湖仓加速;内置缓存降低HDFS抖动影响,简化维护;并且能够直接对 Hive、Iceberg 和 Paimon 在内的主流湖仓格式进行查询加速,拥有极致的弹性资源隔离
团队讨论时,老王仿佛听到他们的对话:
“Presto太费资源了,Doris能省一半硬件,还支持湖仓统一。”
“对啊,它能直接加速Hive、Iceberg和Paimon的数据查询,还管理自有格式。”
小李兴奋地说:“弹性资源隔离,计算节点和组功能,正好fit我们的多租户需求。”
这还真不是吹,Doris的单一引擎就能撑日志分析、实时分析、湖仓分析,远超Presto的局限了。

升级过程是重头戏,顺丰从2024年中开始,用Doris替换Presto,构建统一分析平台。
关键是无感迁移:业务侧不能感知变动。

他们开发了查询模拟工具,收集线上语句在测试环境回放;压力测试模拟高峰负载;双跑链路灰度流量,遇到不支持的语法自动切回Presto。
SQL兼容也是个难点。
好在Doris社区的SQL Convertor帮了大忙,顺丰和合作伙伴优化了语法改写、函数行为,甚至新增函数。
现在兼容度达97%,目标99%。比如,Presto的date_parse改成Doris的str_to_date,简单却有效。
性能优化更精彩。

针对Parquet/ORC格式,Doris加了复杂类型(Map、Array、Struct 等)延迟物化,减少IO;小IO合并,ORC Tiny Stripe优化,数据格式兼容度提升...
这些优化点直接是提升了 Doris 在文件格式读取性能、稳定性和兼容性方面的表现。
HDFS IO方面,文件对齐Block切分,HDFS Hedged Read 和 Read Timeout优化,让读取更稳。
执行调度上,动态优先级区分大中小查询,分片异步调度加速海量分区,Limit下推减少无谓IO。
缓存优化也是亮点:本地缓存命中率96%,单查询文件列表共享,降低HDFS压力。

并且,顺丰还基于Doris改造内部云产品,容器化部署,按需提供小规格集群。管理页面支持自助操作,运维侧能升级版本、诊断故障。
这些优化不是纸上谈兵。回想老王自己的项目,切换引擎时最怕稳定性崩盘。
顺丰科技:从 Presto 到 Doris 湖仓构架升级,提速 3 倍,降本 48%顺丰的实践证明,Doris在混合负载下,查询更可预期,长尾延迟大幅降。幽默点说,Doris像个健身教练,把Presto的“赘肉”全减掉,让系统跑得飞起!
那么,升级后的结果呢?
顺丰的临时查询和丰景台报表业务场景从 Presto 100% 切换到 Doris,日均查询超100万。
P95性能提速近3倍,从20秒内搞定;大于50秒查询从8%降到1.5%;硬件从Presto的万核缩到Doris的数千核规模,节省48%资源。
这数据亮眼,但更重要的是业务影响:分析更快,决策更及时。
怎一个香字了得。
从Presto的痛点到Doris的突破,3倍提速、48%降本只是开始。
Doris正在重新定义"统一数据分析"的边界——从实时分析到湖仓一体分析,从日志分析到半结构化升级,再到即将发布的 4.0 Doris x AI版本,它让数据师们从复杂的组件维护中解脱,专注于业务价值挖掘。
最后,也欢迎各位看官们在评论区分享你的经历,跟老王一起探讨Doris的更多玩法。
完