[本期导读]
Transformer模型成功解决了三体问题,一个困扰数学界132年的难题。Meta的研究者通过Transformer找到了全局李雅普诺夫函数,这一进展为AI在基础数学中的应用打开了新的大门。
AI模型探索基础数学
Transformer在求解全局李雅普诺夫函数上取得了突破性进展,该问题已经困扰了数学家132年之久。李雅普诺夫函数是分析系统随时间演变是否稳定的关键工具,特别是在复杂系统如三体问题的预测中。
图片引用自:https://en.jiemian.com/article/3622654.html
Meta AI团队的研究表明,Transformer在解决复杂数学问题上具有显著潜力。相关论文已被NeurIPS 2024接收,激起了学术界的广泛关注。
近期关于大型语言模型(LLM)是否具备推理能力的讨论非常激烈,很多学者认为LLM仅是复杂的模式匹配器,缺乏真正的逻辑推理。然而,Meta的研究表明,Transformer能够凭借某种深层次的“超级直觉”找到复杂问题的答案,这种能力或许反映了模型对数学问题的深度学习与理解。
李雅普诺夫函数与稳定性
全局李雅普诺夫函数的发现是动力系统稳定性研究的核心问题,用于判断系统是否能够保持在平衡状态。李雅普诺夫在1892年证明,找到满足特定性质的函数可保证系统的全局稳定性,但他未能提供系统的方法来找到这样的函数。
Meta AI团队采用了一种反向生成的方法,通过Transformer模型来寻找李雅普诺夫函数,成功取得了进展。
该方法通过从动力系统的反向生成中构建数据集,使模型能够在这种合成数据中进行泛化。
尽管这些系统的属性与实际问题存在差异,模型在测试集上的表现仍然非常优异,特别是在结合少量“正向”示例后,模型的泛化能力得到了显著提升。
研究者们训练了一个具有8层、10个注意力头和640嵌入维度的Transformer模型,批次大小为16,采用Adam优化器,学习率为10^-4,初始线性预热步数为10,000,随后使用反平方根调度。在8个32GB内存的V100 GPU上运行,每个epoch处理240万样本,训练进行了3至4个epoch,每个GPU的训练时间为12至15小时。
Meta团队通过反向生成和正向生成两种方式来生成数据集。
反向生成是从已有的解决方案出发生成相应的动力系统,模型需避免通过直接读取生成问题的答案来学习。
为此,研究者提出了一种从随机李雅普诺夫函数V生成稳定系统S的过程。
经过以上六步,产生了一个稳定系统S:ẋ=f(x),其中V作为其Lyapunov函数。
正向生成则用于多项式系统,通过求解器计算李雅普诺夫函数,尽管对大型系统的效率较低。
研究团队创建了两个反向数据集和两个正向数据集,以此用于模型的训练和评估。
实验结果显示,增强后的Transformer模型在超过80%的情况下能够成功找到新的李雅普诺夫函数,而人类数学家在相同任务上的成功率不到10%。对于随机生成的多项式系统,Transformer模型成功地为超过10%的系统找到了解决方案,其表现显著优于现有最先进的算法。
通过加入少量正向生成的示例,Meta团队显著提升了模型在非分布内测试集上的表现。仅增加0.03%的正向数据,模型的准确率就从35%跃升至89%,展现出极高的泛化能力。这一方法仅需少量额外数据便可带来显著的性能提升。
AI科学应用
在研究的后续阶段,Meta团队验证了模型在未知领域的表现。对于随机生成的非多项式系统,Transformer模型在13%的情况下成功找到了新的李雅普诺夫函数。这表明,基于生成数据集的Transformer模型确实具备发现尚未解决的数学问题的潜力,甚至能够应对当前没有解法的复杂系统。
相比于传统的数学方法,如基于SOS的求解器,Transformer模型不仅在表现上超越传统方法,而且在推理速度上具备显著优势。
处理随机多项式系统时,传统方法平均需耗时900秒以上,而Transformer模型仅需数秒。如此显著的优势表明其有望成为未来数学研究中的关键工具。
总结与展望
Meta的这项研究展示了AI在基础科学领域的巨大潜力。尽管Transformer模型并未展现出人类传统的逻辑推理能力,但其“超级直觉”已为动力系统稳定性等复杂问题提供了全新的思路。
未来,AI可能成为数学研究中的重要助手,解决一些长期未解的难题,从而推动基础科学研究进入一个全新的时代。