首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >惊呆了!Doris x Flink x AI 让SQL直接调用ChatGPT,数据分析进入AI时代

惊呆了!Doris x Flink x AI 让SQL直接调用ChatGPT,数据分析进入AI时代

作者头像
一臻数据
发布2025-08-09 15:04:16
发布2025-08-09 15:04:16
20100
代码可运行
举报
文章被收录于专栏:一臻数据一臻数据
运行总次数:0
代码可运行

夜深之时,在技术群里,看到一个有趣的对话: "哥,听说你们公司换了数据库?之前不是用CK吗?" "别提了,CK虽然快,但是运维太复杂。现在用Apache Doris,真香!同样的查询,性能不输CK,关键是太好用了。" "Doris?靠谱吗?" "你out了吧!我们用Doris现在每天几百TB的数据,秒级查询,还支持实时更新。最关键的是,它和Flink 2.1、AI的配合简直是天作之合,一套系统搞定所有事情。" 这段对话,让我有些在看武侠小说的即视感:Apache Doris仿佛化身为了江湖中的一位绝世高手,不仅自身实力超群,还能与其它高手完美协作,共同构建数据智能的生态王国...

Doris"绝世武功"的双重威力

要说Doris最厉害的地方,首当其冲就是它基于MPP(大规模并行处理)架构做了一系列的优化。这好比是武林中的"九阳神功",看似简单,实则威力无穷。

之前有一位电商公司的CTO,他跟我描述他们的用户行为分析系统时,满脸兴奋:"我们有一张用户行为表,1000多个字段,每天新增几十亿条记录。用Doris查询用户画像,平均响应时间不到300毫秒。以前用传统数据库,同样的查询要等半天。"

秘诀就是Doris的分布式架构会自动把数据分片存储在不同节点上,查询时所有节点并行工作,就像是一个人干活变成了成百上千个人同时干活

更神奇的是Doris的Light Schema Change能力,这简直是数据库界的"轻功"。

图片
图片

传统数据库修改表结构,就像是"伤筋动骨一百天",不仅耗时长,还要停服务,Doris能在毫秒级完成表结构变更。

听一个用户讲过:"我们有个业务需求变更,要给用户表加几个字段。以前用MySQL,光是Schema Change就要停服几个小时,业务方天天催。现在用Doris,几毫秒就搞定,业务方都不知道我们改过表结构。"

这背后的原理很巧妙——Doris不是直接修改现有数据,而是在元数据层面记录Schema变化,然后在查询和写入时动态适配。

并且在性能测试中,Doris在ClickBench测试集中的表现仅次于内存数据库,在TPCH、TPCDS等复杂查询场景下更是领先同类产品。

Doris x Flink x AI 版的"神雕侠侣"

在数据处理的江湖里,Doris和Flink就像是"神雕侠侣"——一个专精实时流处理,一个擅长存储分析,两者配合得天衣无缝

图片
图片

Flink作为上游的流处理引擎,负责实时捕获和处理数据流;Doris作为下游的分析数据库,负责存储和查询。这种分工明确、优势互补的合作模式,正是现代数据架构的理想状态。

Flink-Doris-Connector的出现,让这种合作变得更加紧密。最让人印象深刻的是整库同步功能——以前从MySQL同步数据到分析系统,需要写一堆脚本,配置一堆规则,现在用Flink CDC + Doris,一行命令就能搞定整个数据库的同步(Mysql为例):

代码语言:javascript
代码运行次数:0
运行
复制
<FLINK_HOME>bin/flink run \
    -Dexecution.checkpointing.interval=10s \
    -Dparallelism.default=1 \
    -c org.apache.doris.flink.tools.cdc.CdcTools \
    lib/flink-doris-connector-1.16-24.0.1.jar \
    mysql-sync-database \
    --database test_db \
    --mysql-conf hostname=127.0.0.1 \
    --mysql-conf port=3306 \
    --mysql-conf username=root \
    --mysql-conf password=123456 \
    --mysql-conf database-name=mysql_db \
    --including-tables "tbl1|test.*" \
    --sink-conf fenodes=127.0.0.1:8030 \
    --sink-conf username=root \
    --sink-conf password=123456 \
    --sink-conf jdbc-url=jdbc:mysql://127.0.0.1:9030 \
    --sink-conf sink.label-prefix=label \
    --table-conf replication_num=1 

而当AI浪潮席卷而来时,这个组合更是展现出了惊人的潜力。

通过与Flink 2.1的集成,直接让 Doris x Flink x AI 能力在SQL中使用:

代码语言:javascript
代码运行次数:0
运行
复制
-- Declare a AI modelCREATE MODEL `my_model`
INPUT (text STRING)
OUTPUT (response STRING)
WITH(
'provider' = 'openai',  
'endpoint' = 'https://api.openai.com/v1/llm/v1/chat',  
'api-key' = 'abcdefg',  
'system-prompt' = 'translate to Chinese',  
'model' = 'gpt-4o'
);

-- Doris usage
SELECT * FROM ML_PREDICT(
  TABLE doris_table, - Apache Doris Table
  MODEL my_model,  
  DESCRIPTOR(text)
);
...

好比你可以在查询用户评论的同时,直接调用大语言模型进行情感分析。

我见过一个金融公司的风控系统,实时监控交易数据,一旦发现异常就调用AI模型进行风险评估。这个流程,现在可以简化为让Flink负责实时数据流处理和AI模型调用,Doris负责数据实时存储和复杂查询分析

这种分工让每个组件都能发挥自己的最大优势,数据分析师不需要懂复杂的机器学习框架,业务人员也能直接在SQL中使用AI能力。更令人兴奋的是,这个生态还支持大模型文本生成和RAG工作流等任务,可以直接实现智能问答系统的完整闭环

结语

当Doris的存储分析能力、Flink的实时处理能力、AI的智能决策能力真正融为一体时,我们看到的不再是三个独立的技术组件,而是一个有机的数据智能系统。

在这个系统中,每个组件都有自己的专长和价值,没有主次之分,只有分工协作。

Doris提供强大的分析能力,Flink提供实时的处理能力 x AI提供智能的决策能力。这种平等合作、优势互补的模式,似乎正在重新定义数据分析的边界,也在重新塑造企业的数据能力。

你觉得呢?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一臻数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Doris"绝世武功"的双重威力
  • Doris x Flink x AI 版的"神雕侠侣"
  • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档