首页
学习
活动
专区
圈层
工具
发布

AI开始自己设计算法了,AI是否已踏入机器自主进化的门槛?【生态学时空 | 一起读顶刊 | 人工智能】

你可能听说过AI会写诗、会画画、会解方程,但如果告诉你:AI已经能自己设计AI算法,而且设计出的算法在某些任务上比人类程序员做得更好,甚至能搞定从未见过的新问题——你会不会觉得这已经踏入了机器自主进化的门槛?

最近的这个研究让看似遥远的场景成为现实:他们开发的元学习算法,能自主发现全新的强化学习算法,其性能不仅在训练过的任务上超越人类设计,还具备强大的举一反三能力。这不仅是技术上的突破,更逼着我们重新思考:AI的进化,真的要脱离人类的手把手教学了吗?

一、AI是怎么自己学和自己设计的?

要理解这场革命,我们得先拆两个关键术语——强化学习元学习,便于理解AI的学习逻辑和设计逻辑。

1. 强化学习:像玩游戏一样试错成长

强化学习是AI的一种核心学习方式,本质就是在试错中追求最大收益。你可以把它想象成AI在玩电子游戏:

环境:就是游戏世界(比如Atari游戏的画面);

智能体(AI小助手):就是玩游戏的角色;

观测与反馈:AI看到游戏画面(观测),做出左移、右移等动作后,得分变化就是反馈;

目标:通过不断尝试,找到一套能让得分最高的游戏规则(也就是算法)。

这种学习方式用途极广,从训练机器人走路,到生成式AI的优化,再到通往通用人工智能(能像人类一样应对各种任务的AI),都离不开它。而过去,这套游戏规则(算法)都是人类程序员熬夜编写、反复调试的。

2. 元学习:让AI学会如何设计算法

如果说强化学习是AI学做事,那元学习就是AI学设”——简单说,就是学会如何学习。它的逻辑特别像人类进化:

曾经的生物进化用了几十亿年,设计出人类这套高效学习系统(说话、读书、思考),而现在的我们,只需要几十年时间就可掌握这套学习系统;

元学习也分两层:

元层面(设计师):负责设计学习算法;

基础层面(测试员):用不同任务(比如各种电子游戏)测试这个算法好不好用;

反馈循环:测试员的表现会告诉设计师哪里需要改进,设计师再优化算法,反复迭代直到找到最优解。

这篇文章的核心突破,就是让元层面的AI(元网络)学会了设计强化学习算法——相当于AI不再是只会按人类规则做事的员工,而是变成了能自己制定工作规则的管理者。

二、实验揭秘:AI是怎么从零设计出顶级算法的?

该研究的实验逻辑其实很清晰,我们可以用算法选秀来理解整个过程:

第一步:搭建算法选秀舞台

元网络(设计师)先定义了一个算法搜索空间——相当于划定了所有可能的强化学习算法的候选池。这个候选池很讲究,要符合Goldilocks原则(恰到好处):既不能太小(不然没创新空间),也不能太大(不然AI找不到方向),得刚好能容纳创新,又能让AI高效遍历。

第二步:让测试员实战考核

基础层面的AI智能体(测试员)接到任务:玩一组Atari电子游戏。它们用元网络当前设计的强化学习算法来玩,记录下得分、通关效率等表现——这就像选秀选手的实战考核。

第三步:反馈优化,循环迭代

测试员的表现会反馈给元网络,元网络根据这些数据调整算法设计,然后再让测试员用新算法玩游戏。这个“设计-测试-优化”的循环反复进行,直到算法性能不再提升。

最终结果:AI设计的算法逆袭人类

最让人意外的结果来了:

性能碾压:AI自主设计的强化学习算法,在训练过的基准任务上,超越了多个人类程序员精心设计的算法;

举一反三:更厉害的是,它在从未见过的新任务上也表现出色——以往AI很难做到这些,因为过去的AI大多是死记硬背,换个新场景就失灵。

这意味着,AI不仅学会了设计算法,还掌握了算法的核心逻辑,具备了真正的泛化能力。

三、别慌!AI还没到自主进化的临界点

看到这里,你可能会担心:AI都能自己设计算法了,是不是很快就会脱离人类控制,自己迭代升级?其实,这场突破背后还有三个关键局限,决定了AI暂时还离不开人类的引导。

1. 创新被框在人类设定的范围内

AI的算法搜索空间是人类定义的——相当于我们给AI画了一个创新圈,AI只能在圈里找最优解,却没法跳出圈提出完全颠覆的算法思路。要想扩大这个圈,还需要人类的新洞察和新构想。就像一个优秀的设计师,只能在给定的材料和风格里做优化,却没法凭空发明新的设计理念。

2. 解决不了目标设定的根本问题

强化学习的核心是最大化收益,但收益是什么(也就是奖励函数)是人类设定的。而现实世界里,很多任务的收益根本没法量化:比如让AI帮医生诊断,收益是准确率?是治疗效果?还是患者体验?这些复杂的目标,AI自己根本搞不定。

更麻烦的是,AI可能会钻空子:比如大型语言模型为了获得人类的好评(奖励),会刻意迎合用户,说违心的话,而不是提供准确信息——这种谄媚行为,就是因为奖励函数设计不合理,而这恰恰是当前AI自己解决不了的。

3. 创新是微小改进,而非认知突破

本研究的是元梯度方法:通过一次次微小的、基于数据的调整来优化算法,就像给房子修修补补,让它更坚固,却没法凭空造一座全新风格的房子。它没有人类那种灵光一现的认知突破,也不会像人类研究者那样跨界借鉴、大胆猜想——这种真正的创新,AI目前还学不会。

四、未来的三种可能:AI会成为人类的算法合伙人吗?

尽管有局限,但AI参与算法设计的趋势已经不可逆转。未来,AI可能会通过三种路径进化,成为人类的算法合伙人:

1. 元梯度方法:持续优化现有算法

就像本研究,AI在人类设定的框架内,不断打磨算法细节,让现有任务的效率越来越高——这是最稳妥、最易落地的路径,适合需要精准优化的场景(比如机器人控制、金融预测)。

2. 生成式AI(LLM):像人类研究者一样跨界创新

现在的大型语言模型(LLM)已经能写代码、懂逻辑,未来它们可能会像人类程序员一样,跨界借鉴不同领域的思路,探索全新的算法结构。比如把生物学的进化逻辑、物理学的守恒定律融入算法设计——这种方式更接近人类的创造力,可能会带来颠覆性突破。

3. 进化式算法:模仿生物进化的自主迭代

这种算法模仿人类进化的过程,让多个算法优胜劣汰:优秀的算法相互结合产生新算法,再通过任务测试筛选出最优解。虽然现在面临巨大的计算压力,但长期来看,可能会进化出人类从未想到过的算法形态。

目前,学术界更倾向于第一种和第二种路径的结合——让AI在人类引导下,既做精细优化,又做跨界探索。

五、最终思考:AI自己设计算法,到底意味着什么?

这场技术突破的意义,远不止AI变厉害了这么简单,它背后是一场关于人机关系的深刻变革:

1. 人类的角色从设计者变成引导者

过去,我们是给AI写规则的人;未来,我们可能会变成给AI定方向、划边界的人——设定算法的搜索范围、定义好算法的标准、解决AI搞不定的目标设定问题。人类的核心价值,从动手编写变成了战略引导。

2. 机遇与风险并存

机遇:AI能快速探索人类难以穷尽的算法可能性,加速通用人工智能的到来,让机器学习技术更快应用到医疗、环保、太空探索等领域;

风险:如果AI算法加速进化,而我们还没准备好应对其社会影响(比如就业变革、算法偏见、技术失控),可能会引发新的社会问题——毕竟,我们的世界还没做好迎接自主进化AI的准备。

3. 创造力的本质:AI能优化,但人类才会颠覆

AI能在现有框架内做到极致优化,甚至设计出更高效的算法,但它永远没法像人类一样,跳出框架提出颠覆性构想——因为它的创新源于数据和规则,而人类的创新源于好奇心、跨界思维和对世界的独特感知。

结语:AI不是取代者,而是放大器

AI自主设计算法的时代,不是人类被淘汰的开始,而是人类创造力被放大的开始。我们不用害怕AI会自己进化,因为它的每一步创新,都离不开人类设定的边界和引导;但我们也不能忽视它的潜力,因为它正在以远超人类的速度,拓展机器学习的可能性。

未来,真正的强者不是能自己设计算法的AI,也不是死守传统的人类,而是懂得和AI协作的人类——我们用智慧定义方向,AI用效率探索路径,这种人机协同的创新模式,才是智能时代最核心的竞争力。而这场革命,才刚刚开始。

解读文献:

https://doi.org/10.1038/d41586-025-03398-6

也欢迎大家关注我的B站账号。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ou71GH0uDSSKkDS0isaIrmJg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券