人工智能有多聪明?如果用人类的智商(IQ)标准来衡量,哪一个大模型能拿到“天才”称号?
最近,研究机构 Tracking AI 利用 Mensa 挪威版 IQ 测试,对全球 24 个主流 AI 模型进行了统一评估。这项测试以难度高著称,得分在 130 以上通常被视为天才级。
结果显示:AI 的智商,已不只是模仿人类,部分模型甚至超越了人类顶尖水平。
1、OpenAI o3 模型拔得头筹,IQ 高达 135
测试中,OpenAI 的文本模型 o3 获得了最高分:135,达到 Mensa 的“天才”标准。紧随其后的是 Anthropic 的 Claude-4 Sonnet(127 分)和 Google 的 Gemini 2.0 Flash Thinking(126 分),表现同样强劲。其他如 OpenAI o4 mini 和 Gemini 2.5 Pro 也都超过了 120 分,远高于人类平均 IQ(约为 90–110 分)。
这些结果说明,主流文本模型在逻辑推理、抽象思维和语言理解方面,已具备甚至超越人类高智商者的能力。
2、文本模型更“聪明”,多模态反而落后
一个有趣的发现是,排名前十的全部是“纯文本”模型。而得分垫底的五个 AI 模型,全是能看图的多模态模型。
例如,OpenAI 的 GPT-4o(Vision)在图像类题目中得分仅 63,xAI 的 Grok-3 Think(Vision)更低,只有 60,远低于人类平均水平。
这说明当前 AI 在语言逻辑方面已非常成熟,但在图像理解、空间推理等多模态任务上仍有明显短板。尽管多模态模型看似“更全能”,但在智力测试这类需要高度抽象推理的任务中,仍不如专注于文本的模型表现出色。
3、智力在重构,AI 不是“全面聪明”
此次排名揭示出一个趋势:AI 的“聪明”是结构性的——在语言推理方面已达到甚至超越人类天花板,但在视觉感知和多模态推理上仍处在成长期。
这也提醒我们,AI 的智能并非通用型“全才”,而更像是一个由不同能力模块拼接而成的“专家型系统”。
未来,AI 是否能在多模态理解上实现跨越,成为更全面的智能体,还有待观察。但可以确定的是,AI 已不再只是“模拟人脑”,而是在部分维度上
超越人类本身
。