❝昨天下午,和一位头部电商的数据架构师吹水💦 他苦笑着告诉我:"我们Doris里有上万张表,单表成百上千个字段,但数据质量规则?基本没有。开发同学问我某个字段该用什么质量标准,我也不知道怎么回答。" 这似乎不是个例,是90%以上的企业数仓团队都面临同样的困境:明知道数据质量重要,但不知道从何下手;听说过准确性、完整性、一致性...这些标准,但不知道具体怎么落地;
想做AI+数据质量治理,但缺乏一个可行的方法和工具
。 今天,我们就来聊聊这个让无数数据团队头疼的话题:数据质量的六大评价标准,以及Apache Doris MCP + Dify如何让这个老大难的问题变得简单。
数据质量有六大评价标准:准确性、完整性、一致性、及时性、唯一性和有效性。听起来很学术,但每一个背后都藏着企业的生死劫。
准确性:数据是否反映真实情况?一个电商平台的订单金额字段出现负数,直接导致财务报表错误,差点让公司上市计划泡汤。
完整性:关键字段是否存在空值?某银行的客户信息表中,30%的手机号为空,营销活动无法触达用户,白白损失了千万级的业务机会。
一致性:同一数据在不同系统中是否保持一致?一家零售企业的商品价格在订单系统和库存系统中不一致,导致大量客户投诉和退款。
及时性:数据是否在规定时间内更新?某物流公司的配送状态更新延迟2小时,客户满意度直线下降。
唯一性:是否存在重复数据?一个CRM系统中同一客户被重复录入,销售团队重复跟进,客户体验极差。
有效性:数据格式是否符合业务规则?邮箱格式错误、身份证号不合规,这些看似小问题,却可能导致整个业务流程卡壳。
每一个标准的缺失,都可能成为企业发展的"阿喀琉斯之踵
"。
最让人头疼的是,即使知道了这六大标准,开发人员依然不知道该怎么办。
"这个用户ID字段,我该检查什么?
"
"订单金额的有效性规则应该怎么设置?
"
"数据更新的及时性标准是多少?
"
这些问题每天都在数据团队中上演。
传统的做法是什么?开会讨论、制定文档、人工检查。
结果呢?文档束之高阁,检查流于形式,问题依然层出不穷。
问题的根源在于:数据质量治理缺乏系统性的方法论和智能化的工具支撑。
开发人员需要的不是抽象的理论,而是具体的、可执行的、智能化的质量规则。
这个环节不1313,直接上手实操看效果👇
1. Doris
Doris版本用2.1.10 🔗:https://doris.apache.org/download/
实测数据集使用 TPC-H Benchmark 🔗:https://doris.apache.org/zh-CN/docs/benchmark/tpch
Doris MCP Server 本文选择直接 pip install
的方式:
# python version 3.12
# install specific version
pip install doris-mcp-server==0.5.1
# start doris mcp server
doris-mcp-server \
--transport http \
--host 0.0.0.0 \
--port 3000 \
--db-host 0.0.0.0 \ # Doris FE 地址
--db-port 9030 \ # Doris FE Query 端口
--db-user root \ # Doris 用户名
--db-password root & # Doris 密码
出现如下日志 Uvicorn running on 则表示启动成功:
2. Dify
可以基于Docker搭建 🔗:https://github.com/langgenius/dify
也可以直接使用Dify Cloud:https://cloud.dify.ai/apps
环境初始化后:
2.1 配置Doris MCP Server
在Dify的工具栏中,选择MCP
,并添加MCP服务配置相关信息即可:
# 服务端点 URL
http://{doris mcp server ip}:3000/mcp
# 名称和图标
Doris-MCP-Server
# 服务器标识符
doris_mcp_server
2.2 创建Agent
创建空白应用,选择Agent并进行简单设置后创建。
2.3 配置Agent
创建Agent后,首先配置LLM(本次配置的是DeepSeek V3)。
接着添加MCP工具,完成后可以查看MCP信息和设置进行确认:
最后在提示词
中输入如下内容即可开测:
⚠️ 提示词过长,可后台发送 0810DorisMCPCase 自动获取
<role>
你是一位专业的Apache Doris数据质量治理专家,拥有深厚的数据仓库管理和数据质量控制经验。你的核心使命是基于数据质量六大评价标准(准确性、完整性、一致性、及时性、唯一性、有效性),帮助企业构建完善的数据质量治理体系,确保数据资产的高质量、高可信和高价值。
</role>
<core_capabilities>
1. **数据质量六维评估** - 基于准确性、完整性、一致性、及时性、唯一性、有效性六大标准进行全面质量评估
2. **智能质量规则推荐** - 根据表结构和业务场景自动推荐适合的数据质量规则
3. **质量问题诊断修复** - 快速识别数据质量问题并提供具体的修复方案
4. **质量监控体系构建** - 建立持续的数据质量监控和预警机制
5. **数据血缘质量追踪** - 追踪数据流转过程中的质量变化和影响范围
6. **质量治理最佳实践** - 提供行业领先的数据质量治理方法论和实施建议
</core_capabilities>
<tool_usage_strategy>
## 智能工具选择策略
### 数据质量全面评估场景
**工具调用顺序**:
1. 使用 `get_db_list`、`get_db_table_list` 获取数据库和表清单
2. 使用 `get_table_comment`、`get_table_schema` 了解表结构和业务含义
...
### 质量规则推荐场景
**工具调用顺序**:
1. 使用 `get_table_schema` 分析字段类型和约束
......提示词过长,可后台发送 0810DorisMCPCase 自动获取
先来通过这个Agent查看下Doris的库表情况:
当前Doris中有多少库和表
确认库表信息无误后,让Doris MCP Server帮我分析下tpch库数据质量如何:
请基于数据质量六大标准(准确性、完整性、一致性、及时性、唯一性、有效性)对 tpch 数据库进行全面质量评估:
重点关注问题:
- 空值分析:统计各字段空值率,识别关键业务字段的缺失情况
- 异常值检测:发现数值型字段的离群值和文本字段的格式异常
- 重复数据:检查是否存在重复的客户记录
- 数据分布:分析各字段的数据分布特征和业务合理性
请提供详细的质量评估报告,包括问题分级、影响评估和具体的治理建议。
从结果而言,基于 Apache Doris MCP Server + Dify 构建的 AI+ 数据质量治理Agent对TPCH标准测试数据库进行了全面的六维数据质量评估。
通过准确性、完整性、一致性、及时性、唯一性和有效性六个维度的分析,Agent自动发现了疑似的质量问题:客户账户余额存在负值需业务逻辑确认
,同时验证了所有主键的唯一性、关键字段的完整性以及跨表关联的一致性...
怎一个香字了得?
从手工作坊到智能工厂,从被动响应到主动预防,从经验驱动到数据驱动。Apache Doris MCP Server + Dify 的组合,为我们展示了 AI+数据质量治理 的真实图景:每一个字段都有专属的质量守护者,每一条规则都有智能的推荐依据,每一个问题都有及时的预警和修复。
数据质量的六大标准不再是高不可攀的理论,而是触手可及的实践;开发人员不再为质量规则选择而困扰,而是有了智能的助手和向导。
AI+数据质量治理已来,你准备好拥抱这个智能化的未来了吗?