Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%

悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%

作者头像
量子位
发布于 2024-06-19 05:46:26
发布于 2024-06-19 05:46:26
1450
举报
文章被收录于专栏:量子位量子位
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI

GTP-4o挑战悬赏八百万的超难数据集,实现SOTA!

数据集当中包含了各种类型的图形推理题目,被挑战发起者预言“大模型很难完成”。

结果短短一周之内,这一挑战就被一位博主Ryan Greenblatt完成了一半,准确率达50%;而此前的SOTA仅为34%。

针对自己的成果,Ryan发了一个表情包表示:

只要有更多的样本,大模型的能力就能获得提升。

成果发布后,Ryan所在机构CEO Bucket Shlegeris称赞他是世界级的语言模型推理专家,用了很多精致技巧让模型的表现提高到了这样的程度。

要知道,挑战的发起方此前开出了最高50万美元(约360万人民币)、总计110万美元(约798万人民币)的巨额赏金。

但有人预计,有60%的概率在未来一年内就会有人获得奖项,甚至现有的模型加上一些提示技巧就能实现。

这也与Ryan的想法不谋而合,不过Ryan估计的概率更高些,是70%。

然而按照规则,想得奖的话,方法必须是开源的,而Ryan用的是GPT,所以可能与奖金无缘了。

不过,Ryan用到的的方法,还是值得我们了解一下的。

让GPT编写海量程序

Ryan挑战的测试集名为ARC-AGI,题目带有色块的网格阵列,大模型需要观察每道题目中3个输入/输出示例,然后根据规律填充新的空白网格。

当然,实际测试中的问题,会比上面的例子复杂得多。

首先,Ryan根据网格大小是否发生变化,把测试集中的问题细分成了两类。

对于每个问题,Ryan都会把网格以图像和ASCII字符两种方式输入给GPT-4o。

其中,ASCII字符包括以下内容:

  • 每个位置的颜色和坐标
  • 每种颜色出现的所有位置坐标,并按连通分量分组
  • 将连通分量(形状)按其左上角位置归一化到原点后的表示
  • 输入输出网格之间不同颜色的变化及其位置

对于后面需要修正的程序,还会把实际输出与期望输出的的差异(ASCII字符形式)一并输入给模型。

根据前面不同的分类,Ryan会用不同的少样本提示词指示GPT-4o,提示词中包含这三项指令:

  • 分步推理和解释每个例子中的转换规则
  • 思考如何将推理得到的规则实现为代码
  • 实际编写对应的Python代码

对每个问题,Ryan会从GPT-4o的回答中采样约5000个完成结果,对程序进行筛选与修正。

采样得到的完成结果首先会被转化为Python程序并在测试用例上运行,然后选出在所有例子上都正确的程序。

接着,在剩余的程序中,Ryan设计了一个汉明距离度量方式,并据此从中选出最有希望的12个。

对这12个程序,Ryan会让GPT-4o尝试修正其中的错误 ,首先用少样本提示词要求模型获取实际输出与期望输出差异,然后对每个待修正的程序再采样约3000个完成结果。

最后,Ryan会选择经过筛选和修正后能正确解决所有例子的3个程序,如果符合要求的程序少于3个,则会使用一些启发式规则选出剩余的程序。

实际操作中,Ryan使用了多个不同的少样本提示词分别进行了上述过程,获得了多组候选程序,并在所有组的正确程序中进行多数投票,选出出现频率最高的3个作为最终结果。

此外,Ryan还使用了一些额外的策略,比如在训练集和测试集的不相交子集上进行迭代优化,通过局部搜索等方法寻找更好的提示词等

同时,他还引入了一些额外的规则,比如拒绝输出与输入完全相同的解,从而更好地筛选出有用的程序。

最终,Ryan的方法在ARC-AGI公开测试集上达到了50%的准确率,成为了新的SOTA,此前的SOTA为34%,而在训练集(难度低于测试集)的一个子集上,该方法达到了72%的准确率。

不过Ryan同时指出,GPT-4o的视觉能力依然有待提高,同时还存在编程、长上下文和指令遵循能力不足,以及缓存空间不够等问题,如果这些问题能够被解决,将显著提高Ryan所用方法的效果。

那么,ARC Prize究竟是一项怎样的挑战?

85%准确率可瓜分360万奖金

这项ARC Prize,由零代码SaaS平台Zapier联创Mike Knoop和谷歌资深工程师François Chollet发起并出资。

项目顾问则包括GitHub前CEO Nat Friedman、前Y-Combinator合伙人Daniel Gross,以及瑞士企业家Pascal Kaufmann。

官方指出,现有的大多数AI基准测试都在衡量模型的“技能”,但“技能”并不等于“智力”,并表示“智力”指的是有效获取新技能的能力。他们认为,“智力”型的任务对人类很简单,但对于AI来说很难实现。

为此,活动方选择了一套测试数据集,也就是Ryan挑战的ARC-AGI,旨在评判大模型的“智力”,或者说“AGI能力”,并激发人们对于新算法和架构的探索,而不是单纯增加数据规模。

该数据集出现的时间是在2019年,去年有300个团队进行了尝试,今年的挑战则于6月11日开启。

按照规则,参赛者需要在这个数据集上取得更高的准确率,同时提交者必须将自己编写的代码完全开源,使用的第三方工具也至少要有允许共享的开源许可。

在Ryan之前,已经提交的方案中最高的准确率为34%,而官方设置的“成功”标准,也是他们预估的人类水平,为85%。

大赛一共设置了110万美元的奖金,目前已公布标准的奖项共计60万美元,还有50万美元的评奖方式等待官宣。

在已公布的60万美元中,有50万美元(约360万人民币)的大奖,获奖队伍不超过五个,奖给最先在ARC-AGI上达到85%准确率的团队。

还有高分奖五名,将获得5000-25000美元不等的奖励,共计5万美元。

此外还有一项论文奖,会颁发给能够帮助人们了解如何在ARC-AGI上实现更好表现的团队,冠亚军奖分别获得45000和5000美元。

按照官方赛程,提交的截止日期为11月10日,获奖名单则会在12月3日公布,对这项挑战感兴趣的话,不妨试一试。

参考链接: [1]https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt [2]https://arcprize.org/ [3]https://x.com/liron/status/1800643034263990432

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA
ARC-AGI是唯一可以用来衡量通用人工智能进展的基准,创造者François Chollets曾经掷下豪言——
新智元
2024/06/27
1680
GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA
OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题
奥特曼、Mark Chen、任泓宇和ARC Prize基金会主席Greg Kamradt为我们做了介绍
新智元
2025/02/15
750
OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题
刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元
刚刚,OpenAI 为期 12 天的发布迎来尾声。如外界所料,新的推理系列模型 ——o3 和 o3-mini 成为这次发布的收官之作。
机器之心
2025/02/15
860
刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元
微软论文意外「走光」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B
有网友猜测,4o mini是一个大约有40B参数的MoE模型,其中激活参数为8B。
新智元
2025/02/15
530
微软论文意外「走光」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B
当你以为OpenAI要跌落神坛时,他们发布了最强推理大模型o3
为期12天的OpenAI发布会,本来以为会被谷歌抢去风头。不过最后这一天不负众望,宣布了一个令人兴奋的最新推理大模型o3,它的能力直线上升,超越了目前所有的大模型。是否是真的迈向了通用人工智能AGI,我只能说看到了一定的希望。
算法一只狗
2024/12/22
4170
当你以为OpenAI要跌落神坛时,他们发布了最强推理大模型o3
又一AI独角兽获战略投资;曝苹果与OpenAI合作或将采取分销;小爱同学接入豆包,手机SU7已搭载丨AI情报局
思谋科技获得港投公司战略投资:思谋以视觉检测为切入点,致力于AI视觉体系架构在智能制造、超高清视频领域的落地应用。港投公司与思谋集团在香港进行战略合作签约。
AI科技评论
2024/06/17
1930
又一AI独角兽获战略投资;曝苹果与OpenAI合作或将采取分销;小爱同学接入豆包,手机SU7已搭载丨AI情报局
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队,主要研究方向是:大模型训练、对齐与评估。‍
机器之心
2024/06/27
3900
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%
它用自己的优秀表现证明了,很多时候自己看似失败的表现,只是因为人类不会正确地prompt而已。
新智元
2024/04/12
1160
GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%
一道题烧几千美元,OpenAI新模型o3:这34道题我真不会
前几天,OpenAI 已经完成了 12 连更的最后一更 —— 如外界所料,是新的推理系列模型 o3 和 o3-mini 。
机器之心
2025/02/15
1120
一道题烧几千美元,OpenAI新模型o3:这34道题我真不会
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
OpenAI在发布会上官宣GPT-4o之后,各路大神也开始了对这个新模型的测评,结果就是,GPT-4o在多项基准测试上都展现了SOTA的实力。
新智元
2024/05/22
6620
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
强大的AI网站推荐(第一集)—— Devv AI
Devv.ai 是一款面向程序员的新一代 AI 搜索引擎,旨在替代传统的搜索引擎和技术博客社区,专注于解决编程和技术难题。其主要特点包括:
LucianaiB
2025/03/20
1430
强大的AI网站推荐(第一集)—— Devv AI
OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。
左边的是软件工程考试(SWE-Bench Verified),这就像是一个考写程序的考试,比如你写一个软件要它快速、准确,还不能有 bug(小错误)。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。
数字生命卡兹克
2025/04/14
1310
OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。
挑战主流观点!卡耐基梅隆大学最新研究表明:仅靠压缩即可实现 AI 解谜能力
卡耐基梅隆大学的两位研究人员最近发现,压缩信息的过程有望解决复杂的推理任务,且无需在大量示例之上进行预训练。他们的系统仅依靠谜题本身就可以解决某些类型的抽象模式匹配任务,直接挑战了关于机器学习系统要如何获取问题解决能力的传统观念。
深度学习与Python
2025/03/17
720
挑战主流观点!卡耐基梅隆大学最新研究表明:仅靠压缩即可实现 AI 解谜能力
Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
OpenAI将其称为「首个『原生』多模态」模型,意味着GPT-4o与以往所有的模型,都不尽相同。
新智元
2024/05/22
1790
Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
DeepSeek R1-Zero与R1的结果与分析
摘要 | R1-Zero is more important than R1(R1-Zero 比 R1 更重要)
用户11467630
2025/02/05
4510
DeepSeek R1-Zero与R1的结果与分析
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。
机器之心
2025/02/25
2170
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
OpenAI前员工预测:2027年AGI降临!GPT智商飙升,4年从幼儿园蹿到高中生
几天前,Anthropic一名25岁的高管在博客上发文,表示自己已经准备好了3年后退休,让AI取代自己的工作。
新智元
2024/06/17
2620
OpenAI前员工预测:2027年AGI降临!GPT智商飙升,4年从幼儿园蹿到高中生
Chatgpt O3:比GPT - 4还厉害的AI,能取代程序员吗?答:不能,因为我们便宜
今日主题:OpenAI O3重磅上线 今天的山姆-奥特曼获得呼吸权一天,Open AI在各方势力的围剿下,直接贴脸开大。终于放出了大招,Chatgpt O3重磅上线,今天的山姆-奥特曼出街,大概就是这个表情
一个正经的AI
2024/12/23
2.6K0
Chatgpt O3:比GPT - 4还厉害的AI,能取代程序员吗?答:不能,因为我们便宜
OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?
OpenAI 正式官宣 o3 & o4-mini:迄今最强模型,AI 终于学会“十八般武艺”全家桶了。
AI进修生
2025/04/18
1560
OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?
dreamcoder-arc:用于抽象和推理的神经网络 ARC-AGI
Neural networks for abstraction and reasoning:Towards broad generalization in machines用于抽象和推理的神经网络:机器的广义泛化
CreateAMind
2024/06/21
4180
dreamcoder-arc:用于抽象和推理的神经网络 ARC-AGI
推荐阅读
GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA
1680
OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题
750
刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元
860
微软论文意外「走光」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B
530
当你以为OpenAI要跌落神坛时,他们发布了最强推理大模型o3
4170
又一AI独角兽获战略投资;曝苹果与OpenAI合作或将采取分销;小爱同学接入豆包,手机SU7已搭载丨AI情报局
1930
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
3900
GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%
1160
一道题烧几千美元,OpenAI新模型o3:这34道题我真不会
1120
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
6620
强大的AI网站推荐(第一集)—— Devv AI
1430
OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。
1310
挑战主流观点!卡耐基梅隆大学最新研究表明:仅靠压缩即可实现 AI 解谜能力
720
Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
1790
DeepSeek R1-Zero与R1的结果与分析
4510
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
2170
OpenAI前员工预测:2027年AGI降临!GPT智商飙升,4年从幼儿园蹿到高中生
2620
Chatgpt O3:比GPT - 4还厉害的AI,能取代程序员吗?答:不能,因为我们便宜
2.6K0
OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?
1560
dreamcoder-arc:用于抽象和推理的神经网络 ARC-AGI
4180
相关推荐
GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档