叮咚✨欢迎走进「数据极客圈」!专注大数据、AI 技术交流,大咖分享一线经验,持续输出实用技术锦囊。聚集同行伙伴,交流共进,欢迎关注加入!
每次遇到这些问题,你是不是也想过:要是有个随叫随到的 Doris 专家就好了。
今天这篇文章,就是帮你实现这个想法。
我们要做的事情其实很简单:
你(中文提问)
↓
DeepSeek(国内模型,便宜、不被封、能力在线)
↓
Claude Code(开源智能体框架,负责调度工具、读取源码,执行操作)
↓
Apache Doris(本地源码 + 官方文档 + 实战知识库)
↓
专家级回答
一句话概括:用 DeepSeek 做大脑,用 Claude Code 做手脚,把 Apache Doris 的全套知识灌进去,打造一个能读源码、查文档、写 SQL、诊断问题的 AI 助手。
极低成本:API 调用费仅为 GPT-4 的 1/5、Claude 官方的 1/4,100 万 tokens 仅需约 15 元,日常咨询几乎零成本;
国内稳定不封:纯国产节点部署,无需访问国外网站,延迟 50-100ms,无封号风险,数据不出境合规;
推理能力拉满:擅长逻辑推理、代码调试、复杂 SQL 解析,对 Doris 的内核机制(如 Compaction、内存管理、副本调度)理解精准,远超通用模型;
长上下文支持:128K 超长窗口,能直接喂给它 Doris 完整日志、建表语句、配置文件,无需拆分,一次读懂。
Claude Code(客户端)不仅能当对话界面,还能直接操作本地 Doris 集群、执行 SQL、读取日志、修改配置等。相对纯DeepSeek来说,方便了不少~
# macOS / Linux
npm install -g @anthropic-ai/claude-code
# 验证安装
claude --version
❝这个网上文档有很多,随便找个都ok的,很简单~
修改 Claude 配置文件,把默认模型换成 DeepSeek,国内稳定不掉线:
推荐:配置 settings.json
编辑 ~/.claude/settings.json,写入以下内容(推荐,永久生效)
{
"env": {
"ANTHROPIC_API_KEY": "sk-你的Key",
"ANTHROPIC_BASE_URL": "https://api.deepseek.com/anthropic",
"CLAUDE_CODE_SUBAGENT_MODEL": "deepseek-v4-flash"
},
"permissions": {
"allow": [
"Bash","Edit","Read","LS","Grep","Glob"
]
}
}
❝如需切换模型,直接修改字段值即可:日常排查、巡检、问答:优先 deepseek-v4-flash(低成本、高速度); 内核源码研读、复杂 SQL 调优、深度 Bug 分析:选用 deepseek-v4-pro(更强推理)
备选:环境变量(macOS / Linux / WSL)
如果 settings.json 方式不生效,可在终端设置环境变量(建议写入 ~/.bashrc 或 ~/.zshrc 永久生效)
export ANTHROPIC_BASE_URL="https://api.deepseek.com/anthropic"
export ANTHROPIC_API_KEY="sk-你的Key"
# 可选:指定模型
export ANTHROPIC_MODEL="deepseek-v4-flash"
❝注意:如果你已经有 Anthropic 官方 API Key,不配置 DeepSeek 也能直接用。本文面向国内用户,所以推荐 DeepSeek 这条线路。
这是最关键的一步——AI 助手能有多「懂」Doris,取决于你喂给它什么。
我们不用任何现成的插件或技能包,直接从 Apache 官方仓库拉取源码和文档,让 Claude Code 就地取材。
mkdir -p ~/DorisDev && cd ~/DorisDev
git clone https://github.com/apache/doris.git
有了源码,助手就能:
cd ~/DorisDev
git clone https://github.com/apache/doris-website.git
这是 Apache Doris 官方网站的完整源码,包含:
在工作目录(~/DorisDev)下创建 CLAUDE.md:
# Doris 专家助手配置
## 知识库路径
- Doris 源码:~/DorisDev/doris
- Doris 文档:~/DorisDev/doris-website
## 工作原则
当用户提出 Doris 相关问题时,遵循以下流程:
1. **先查文档**:在 doris-website 中搜索相关的 SQL 语法、配置参数、版本说明
2. **再读源码**:如果文档不够,进入 doris 源码搜索相关模块的实现逻辑
3. **给出方案**:结合文档 + 源码的理解,给出可操作的解决方案
4. **提供 SQL**:如果涉及建表、查询、调优,给出可以直接执行的 SQL 语句
## 常见任务的检索策略
- 报错排查 → 先在源码中 grep 错误信息,再反向追踪调用链
- SQL 语法 → 在 doris-website/docs 中搜索对应语句的文档
- 性能调优 → 查文档中的「性能优化」章节 + 源码中的执行引擎实现
- 表设计 → 查文档中的「数据模型」和「分区分桶」章节 + 基于源码的优化
- 版本升级 → 查 Release Notes + 源码中的兼容性逻辑
这就相当于给 AI 配了一套「操作手册」。每次提问,Claude Code 会先读 CLAUDE.md,知道该去哪里找答案。
在工作目录下创建 CLUSTER_INFO.md:
# 我的 Doris 使用笔记(仅案例)
## 集群信息
- 生产集群:3 FE + 5 BE,版本 4.0.5
- 测试集群:1 FE + 1 BE,版本 4.1.0
## 常见问题记录
- 导入超时通常是因为 tablet 数量过多导致 compaction 积压
- Join 大表时优先考虑 Broadcast Join
## 常用配置
- enable_vectorized_engine = true
- parallel_fragment_exec_instance_num = 8
这样助手给你的建议会基于你的真实环境,而不是泛泛而谈。
❝CLAUDE.md 是 Claude Code 的全局指令文件,进入目录自动加载,相当于给 AI 设定专属工作规范。
配置完成后,打开终端,进入 Doris 源码目录,直接提问即可。
cd ~/DorisDev/doris
claude "Doris 导入时报错 'too many filtered rows',
我的表有两个 Unique Key 列,数据量约 5000 万行,怎么排查?"
助手会:
too many filtered rows 错误信息max_filter_ratio
claude "我的慢查询是这样的,帮我分析一下 Profile:
Query Profile:
- OLAP_SCAN_NODE: 耗时 8.2s,扫描 1.2 亿行
- AGGREGATION_NODE: 耗时 3.5s
- 整体 12s
表是 DUPLICATE KEY,按 event_date 分区,Buckets=4,
数据每天约 3 亿行,查询范围是最近 7 天。"
助手会:

如果你的团队有 Confluence、语雀或飞书文档记录 Doris 使用经验,可以通过 MCP Server 接入:
// .claude/mcp.json
{
"mcpServers": {
"yuque": {
"command": "npx",
"args": ["-y", "@anthropic/mcp-server-yuque"],
"env": {
"YUQUE_TOKEN": "your-token"
}
}
}
}
这样助手能同时检索源码、官方文档和你们的内部知识库。
通过 MCP 直接让助手执行只读查询,验证它的诊断结论:
{
"mcpServers": {
"doris-readonly": {
"command": "npx",
"args": ["-y", "mcp-server-mysql"],
"env": {
"MYSQL_HOST": "your-doris-fe",
"MYSQL_PORT": "9030",
"MYSQL_USER": "readonly_user",
"MYSQL_PASSWORD": "xxx"
}
}
}
}
❝安全提醒:务必使用只读账号,不要给 AI 写权限。
在 Claude Code 中设置定时任务:
# 每天上午 9 点检查集群健康状态
claude "检查 Doris 集群昨天的运行情况:
1. 查看 FE 审计日志有无异常
2. 检查 BE 节点磁盘使用率
3. 检查 Compaction 积压情况
4. 汇总生成昨天的运行日报"
Q:DeepSeek 的能力跟 Claude 原生模型比差多少?
A:在 Doris 这个领域,差距几乎可以忽略。因为核心竞争力在于「能读到源码和文档」,而不是模型的通用能力。DeepSeek V4 的代码理解和中文表达能力完全胜任。
Q:我的数据安全吗?
A:代码和文档在本地,提问内容经过 DeepSeek API。如果你的数据安全要求极高,可以使用本地部署的 DeepSeek 模型,完全离线运行。
Q:没有任何编程基础能用吗?
A:安装和配置部分需要基本的命令行操作,跟着本文一步步做就行。使用阶段只需要用中文描述问题,不需要写代码。
Q:能替代真正的专家吗?
A:它能解决 80% 的常见问题,但遇到非常深层的 Bug(比如向量化引擎的边界 case),还是需要社区专家介入。它更像是你的「第一道防线」,帮你快速过滤掉大部分问题。
动手试试吧。有问题欢迎在评论区交流。