近期,人工智能领域内发生了一场关于基准测试结果的争议。据悉,xAI公司,一个专注于可解释人工智能(XAI)的企业,发布了一份关于其最新模型Grok 3的基准测试报告,引发了OpenAI一名员工的质疑。
xAI在官方博客上公布了一张图表,详细展示了Grok 3的两个版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning,在一项名为AIME 2025的高难度数学考试中的表现。这份图表显示,Grok 3的两个版本均超越了OpenAI当前最先进的模型o3-mini-high。
然而,OpenAI的员工对此提出了异议,指出xAI的图表并未全面反映事实。具体来说,该图表遗漏了o3-mini-high在“cons@64”条件下的得分。“cons@64”是一种测试方法,允许模型对每个问题尝试64次,并将出现频率最高的答案作为最终答案。在“@1”条件下,即模型首次尝试的得分上,Grok 3的两个版本均低于o3-mini-high。
尽管存在这一差异,xAI仍在其宣传材料中强调Grok 3是“最聪明的AI”。这一行为引发了OpenAI员工的进一步批评,认为xAI的基准测试结果具有误导性。
面对这些指责,xAI的联合创始人伊戈尔·巴布什金进行了回应。他表示,xAI在发布基准测试结果时并无不当之处,并指出OpenAI过去也曾发布过类似的误导性图表。巴布什金的这一回应,无疑为这场争议增添了更多的火药味。
目前,这场关于基准测试结果的争议仍在持续发酵。对于人工智能领域来说,如何确保基准测试的公正性和准确性,以及如何避免误导性的宣传,成为了亟待解决的问题。
领取专属 10元无门槛券
私享最新 技术干货