首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

马斯克Grok 3模型基准测试遭质疑,xAI回应并无不当

近期,人工智能领域内发生了一场关于基准测试结果的争议。据悉,xAI公司,一个专注于可解释人工智能(XAI)的企业,发布了一份关于其最新模型Grok 3的基准测试报告,引发了OpenAI一名员工的质疑。

xAI在官方博客上公布了一张图表,详细展示了Grok 3的两个版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning,在一项名为AIME 2025的高难度数学考试中的表现。这份图表显示,Grok 3的两个版本均超越了OpenAI当前最先进的模型o3-mini-high。

然而,OpenAI的员工对此提出了异议,指出xAI的图表并未全面反映事实。具体来说,该图表遗漏了o3-mini-high在“cons@64”条件下的得分。“cons@64”是一种测试方法,允许模型对每个问题尝试64次,并将出现频率最高的答案作为最终答案。在“@1”条件下,即模型首次尝试的得分上,Grok 3的两个版本均低于o3-mini-high。

尽管存在这一差异,xAI仍在其宣传材料中强调Grok 3是“最聪明的AI”。这一行为引发了OpenAI员工的进一步批评,认为xAI的基准测试结果具有误导性。

面对这些指责,xAI的联合创始人伊戈尔·巴布什金进行了回应。他表示,xAI在发布基准测试结果时并无不当之处,并指出OpenAI过去也曾发布过类似的误导性图表。巴布什金的这一回应,无疑为这场争议增添了更多的火药味。

目前,这场关于基准测试结果的争议仍在持续发酵。对于人工智能领域来说,如何确保基准测试的公正性和准确性,以及如何避免误导性的宣传,成为了亟待解决的问题。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OhcK1OMyFG1z7_Lh4BFzC-Dg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券