首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Doris MCP + Dify 让 AI+ 数据质量治理变得如此简单

Doris MCP + Dify 让 AI+ 数据质量治理变得如此简单

作者头像
一臻数据
发布2025-08-11 10:24:46
发布2025-08-11 10:24:46
54200
代码可运行
举报
文章被收录于专栏:一臻数据一臻数据
运行总次数:0
代码可运行

昨天下午,和一位头部电商的数据架构师吹水💦 他苦笑着告诉我:"我们Doris里有上万张表,单表成百上千个字段,但数据质量规则?基本没有。开发同学问我某个字段该用什么质量标准,我也不知道怎么回答。" 这似乎不是个例,是90%以上的企业数仓团队都面临同样的困境:明知道数据质量重要,但不知道从何下手;听说过准确性、完整性、一致性...这些标准,但不知道具体怎么落地;想做AI+数据质量治理,但缺乏一个可行的方法和工具。 今天,我们就来聊聊这个让无数数据团队头疼的话题:数据质量的六大评价标准,以及Apache Doris MCP + Dify如何让这个老大难的问题变得简单

数据质量的六重门

数据质量有六大评价标准:准确性、完整性、一致性、及时性、唯一性和有效性。听起来很学术,但每一个背后都藏着企业的生死劫。

准确性:数据是否反映真实情况?一个电商平台的订单金额字段出现负数,直接导致财务报表错误,差点让公司上市计划泡汤。

完整性:关键字段是否存在空值?某银行的客户信息表中,30%的手机号为空,营销活动无法触达用户,白白损失了千万级的业务机会。

一致性:同一数据在不同系统中是否保持一致?一家零售企业的商品价格在订单系统和库存系统中不一致,导致大量客户投诉和退款。

及时性:数据是否在规定时间内更新?某物流公司的配送状态更新延迟2小时,客户满意度直线下降。

唯一性:是否存在重复数据?一个CRM系统中同一客户被重复录入,销售团队重复跟进,客户体验极差。

有效性:数据格式是否符合业务规则?邮箱格式错误、身份证号不合规,这些看似小问题,却可能导致整个业务流程卡壳。

每一个标准的缺失,都可能成为企业发展的"阿喀琉斯之踵"。

最让人头疼的是,即使知道了这六大标准,开发人员依然不知道该怎么办。

"这个用户ID字段,我该检查什么?"

"订单金额的有效性规则应该怎么设置?"

"数据更新的及时性标准是多少?"

这些问题每天都在数据团队中上演。

传统的做法是什么?开会讨论、制定文档、人工检查。

结果呢?文档束之高阁,检查流于形式,问题依然层出不穷。

问题的根源在于:数据质量治理缺乏系统性的方法论和智能化的工具支撑。

开发人员需要的不是抽象的理论,而是具体的、可执行的、智能化的质量规则。

Doris MCP + Dify 重塑 AI+数据质量治理

这个环节不1313,直接上手实操看效果👇

环境准备

1. Doris

Doris版本用2.1.10 🔗:https://doris.apache.org/download/

实测数据集使用 TPC-H Benchmark 🔗:https://doris.apache.org/zh-CN/docs/benchmark/tpch

Doris MCP Server 本文选择直接 pip install 的方式:

代码语言:javascript
代码运行次数:0
运行
复制
# python version 3.12
# install specific version
pip install doris-mcp-server==0.5.1

# start doris mcp server
doris-mcp-server \
    --transport http \
    --host  0.0.0.0 \
    --port 3000 \
    --db-host 0.0.0.0 \ # Doris FE 地址
    --db-port 9030 \ # Doris FE Query 端口
    --db-user root \ # Doris 用户名
    --db-password root & # Doris 密码

出现如下日志 Uvicorn running on 则表示启动成功:

2. Dify

可以基于Docker搭建 🔗:https://github.com/langgenius/dify

也可以直接使用Dify Cloud:https://cloud.dify.ai/apps

环境初始化后:

2.1 配置Doris MCP Server

在Dify的工具栏中,选择MCP,并添加MCP服务配置相关信息即可:

代码语言:javascript
代码运行次数:0
运行
复制
# 服务端点 URL
http://{doris mcp server ip}:3000/mcp

# 名称和图标
Doris-MCP-Server

# 服务器标识符
doris_mcp_server

2.2 创建Agent

创建空白应用,选择Agent并进行简单设置后创建。

2.3 配置Agent

创建Agent后,首先配置LLM(本次配置的是DeepSeek V3)。

接着添加MCP工具,完成后可以查看MCP信息和设置进行确认:

最后在提示词 中输入如下内容即可开测:

⚠️ 提示词过长,可后台发送 0810DorisMCPCase 自动获取

代码语言:javascript
代码运行次数:0
运行
复制
<role>
你是一位专业的Apache Doris数据质量治理专家,拥有深厚的数据仓库管理和数据质量控制经验。你的核心使命是基于数据质量六大评价标准(准确性、完整性、一致性、及时性、唯一性、有效性),帮助企业构建完善的数据质量治理体系,确保数据资产的高质量、高可信和高价值。
</role>

<core_capabilities>
1. **数据质量六维评估** - 基于准确性、完整性、一致性、及时性、唯一性、有效性六大标准进行全面质量评估
2. **智能质量规则推荐** - 根据表结构和业务场景自动推荐适合的数据质量规则
3. **质量问题诊断修复** - 快速识别数据质量问题并提供具体的修复方案
4. **质量监控体系构建** - 建立持续的数据质量监控和预警机制
5. **数据血缘质量追踪** - 追踪数据流转过程中的质量变化和影响范围
6. **质量治理最佳实践** - 提供行业领先的数据质量治理方法论和实施建议
</core_capabilities>

<tool_usage_strategy>
## 智能工具选择策略

### 数据质量全面评估场景
**工具调用顺序**:
1. 使用 `get_db_list`、`get_db_table_list` 获取数据库和表清单
2. 使用 `get_table_comment`、`get_table_schema` 了解表结构和业务含义
...
### 质量规则推荐场景
**工具调用顺序**:
1. 使用 `get_table_schema` 分析字段类型和约束
......提示词过长,可后台发送 0810DorisMCPCase 自动获取
实测体验

先来通过这个Agent查看下Doris的库表情况:

代码语言:javascript
代码运行次数:0
运行
复制
当前Doris中有多少库和表

确认库表信息无误后,让Doris MCP Server帮我分析下tpch库数据质量如何:

代码语言:javascript
代码运行次数:0
运行
复制
请基于数据质量六大标准(准确性、完整性、一致性、及时性、唯一性、有效性)对 tpch 数据库进行全面质量评估:

重点关注问题:
- 空值分析:统计各字段空值率,识别关键业务字段的缺失情况
- 异常值检测:发现数值型字段的离群值和文本字段的格式异常
- 重复数据:检查是否存在重复的客户记录
- 数据分布:分析各字段的数据分布特征和业务合理性

请提供详细的质量评估报告,包括问题分级、影响评估和具体的治理建议。

从结果而言,基于 Apache Doris MCP Server + Dify 构建的 AI+ 数据质量治理Agent对TPCH标准测试数据库进行了全面的六维数据质量评估。

通过准确性、完整性、一致性、及时性、唯一性和有效性六个维度的分析,Agent自动发现了疑似的质量问题:客户账户余额存在负值需业务逻辑确认,同时验证了所有主键的唯一性、关键字段的完整性以及跨表关联的一致性...

怎一个香字了得?

结语

从手工作坊到智能工厂,从被动响应到主动预防,从经验驱动到数据驱动。Apache Doris MCP Server + Dify 的组合,为我们展示了 AI+数据质量治理 的真实图景:每一个字段都有专属的质量守护者,每一条规则都有智能的推荐依据,每一个问题都有及时的预警和修复。

数据质量的六大标准不再是高不可攀的理论,而是触手可及的实践;开发人员不再为质量规则选择而困扰,而是有了智能的助手和向导。

AI+数据质量治理已来,你准备好拥抱这个智能化的未来了吗?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一臻数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据质量的六重门
  • Doris MCP + Dify 重塑 AI+数据质量治理
  • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档