2023年7月6日(周四)上午11点「智源Live第43期丨思维链如何解锁并释放大模型的隐藏能力」将在线举办,本期活动邀请了北京大学助理教授、博士生导师贺笛老师进行线上报告,题目为《Towards Revealing the Mystery Behind Chain of Thought: a Theoretical Perspective》
贺笛
北京大学助理教授、博士生导师
贺笛是北京大学的助理教授和博士生导师,他毕业于北京大学,曾在微软亚洲研究院担任高级研究员。他的研究兴趣包括自然语言处理、图神经网络,以及机器学习技术在科学探索中的应用。贺笛与同事和学生一起,在比赛中获得了多个奖项,包括KDD 2021的分子属性预测挑战赛第一名和NeurIPS 2021的分子动力学模拟挑战赛第一名。他在机器学习领域的顶级会议上发表了几十篇论文,包括ICML、NeurIPS和ICLR。他还长期担任过顶级机器学习会议领域的区域主席,他也是2023年ICLR的杰出论文奖获得者。
思维链如何解锁并释放大模型的隐藏能力
最近的研究发现,思维链(Chain-of-Thought)提示(CoT)可以显著提高大型语言模型(LLMs)的性能,特别是在处理涉及数学或推理的复杂任务时。尽管经验上取得了巨大的成功,但CoT背后的机制以及它如何发挥LLMs的潜力仍然难以捉摸。
在本文中,我们首次尝试在理论上回答这些问题。具体而言,我们研究了具有CoT的LLMs在解决基本数学和决策问题中的表达能力。我们首先给出了一个不可能性结果,表明有限深度的Transformer模型无法直接生成基本算术/方程任务的正确答案,除非模型大小相对于输入长度超多项式增长。相反,我们通过构造证明了具有恒定大小的自回归Transformer足以通过使用常用数学语言格式生成CoT推导来解决这两个任务。
此外,我们展示了具有CoT的LLMs能够解决一类被称为动态规划的一般决策问题,从而证明了它在应对复杂的现实任务中的能力。最后,我们对四个任务进行了大量实验,结果显示,虽然Transformer模型在直接预测答案时总是失败的,但它们可以在提供足够的CoT演示的情况下一步一步地学会生成正确的解决方案。
领取专属 10元无门槛券
私享最新 技术干货