2025 年 8 月,我们迎来了 AI 发展史上的又一个里程碑 —— GPT-5[1] 家族的正式发布。
当整个科技界都在讨论其通用能力的飞跃时,SCALE[2] 平台将目光聚焦于 SQL 能力:GPT-5 在 SQL 处理上的表现究竟如何?
本期评测为针对 GPT-5 家族的评测特别版,旨在对其 SQL 相关能力进行一次全面的基准测试。
本期核心看点
为确保本次特别评测的公正性与深度,我们沿用了成熟的三维评测体系。
接下来,我们将揭晓本次评测的详细结果。
* 测评数据截止时间 2025/8/20
GPT-5 家族在 SQL 领域的评测结果并非简单的性能递减,不同版本间表现出显著的能力分化,这凸显了场景化选型的重要性。
gpt-5-mini 在本次评测中综合表现领先,其在三个维度上展现了均衡且突出的能力。
https://sql-llm-leaderboard.com/models/gpt-5-mini/2025-08
能力 | 得分 | 详细说明 |
---|---|---|
SQL 理解 | 80.8 | 执行准确性:87.1 执行计划检测:57.1语法错误检测:74.3 |
方言转换 | 75.6 | 大 SQL 转换:54.8 国产数据库:92.1逻辑等价:74.2语法错误检测:85.7 |
SQL 优化 | 68.4 | 逻辑等价:63.2优化深度:64.4语法错误检测:94.7 |
gpt-5-nano 表现出扎实和均衡的能力,其在三个维度上的得分非常接近。
https://sql-llm-leaderboard.com/models/gpt-5-nano/2025-08
能力 | 得分 | 详细说明 |
---|---|---|
SQL 理解 | 77.1 | 执行准确性:85.7 执行计划检测:35.7 语法错误检测:75.7 |
方言转换 | 66.4 | 大 SQL 转换:19.4 国产数据库:100 逻辑等价:80.6语法错误检测:69 |
SQL 优化 | 68.7 | 逻辑等价:89.5 优化深度:55.6 语法错误检测:100 |
gpt-5-chat 的综合表现不如预期,其能力存在显著的“偏科”现象。
https://sql-llm-leaderboard.com/models/gpt-5-chat/2025-08
能力 | 得分 | 详细说明 |
---|---|---|
SQL 理解 | 62.3 | 执行准确性:57.1 执行计划检测:60.7 语法错误检测:84.3 |
方言转换 | 55.4 | 大 SQL 转换:3.2 国产数据库:86.8 逻辑等价:71.0语法错误检测:66.7 |
SQL 优化 | 56.0 | 逻辑等价:52.6 优化深度:48.9 语法错误检测:94.7 |
本次特别评测清晰地表明,GPT-5 的发布不仅是数字上的提升,更带来了 AI 在 SQL 领域 专业化 和 场景化 的深刻变革。
GPT-5 家族 的评测结果揭示了模型能力的巨大分化,也对我们的评测体系提出了新的要求。本月我们将:
感谢您的关注。我们致力于通过最专业、最深入的评测,为您揭示 AI 在数据领域的前沿进展。
参考资料
[1]
GPT-5: https://openai.com/zh-Hans-CN/gpt-5/
[2]
SCALE: https://github.com/actiontech/sql-llm-benchmark
[3]
SQLFlash: https://sqlflash.ai/
[4]
SQLShift: https://sqlshift.cn/