Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >多 Transformer 集合可挑战 GPT-4,推理能力是单一Transformer 的 18 倍

多 Transformer 集合可挑战 GPT-4,推理能力是单一Transformer 的 18 倍

作者头像
AI科技评论
发布于 2024-01-11 06:46:14
发布于 2024-01-11 06:46:14
1880
举报
文章被收录于专栏:AI科技评论AI科技评论

ICLR 匿名研究:单一 Transformer 不具备图灵完备性,但多 Transformer 可以。

作者丨郭思、赖文昕

编辑丨陈彩娴

Transformer 自 2017 年出世以来就在 AI 领域高举高打,ChatGPT 引发全球大型语言模型热潮后更是在 NLP 领域被赋予了神话般的地位。

但近日,一篇正在审核中的 ICLR 2023 投稿论文(如下)经研究后提出一个观点:单一 Transformer 并不具备图灵完备性,其计算能力存在理论上的局限性,在圈内引起关注。

由于该论文正在审核中,作者信息没有被公开。

论文链接:https://openreview.net/pdf?id=MGWsPGogLH

与此同时,该论文新提出了一种名为“Find+Replace Transformer”的多 Transformer 架构,并证明了通过集成多个Transformer,能够解决单一 Transformer 无法胜任的任务。

这项研究直接对标并超越了当前最先进的GPT-4模型,在一系列极具挑战性的基准测试中展现了显著的优势和潜力。

1

被神化的 Transformer

局限在哪里?

图灵完备性是评判一个计算系统强大与否的关键指标。如果一个系统被确认为图灵完备,则理论上只要赋予其充足的运行时间和内存资源,即可以执行任何可计算的算法。

在实际应用中,尽管 Transformer 模型在诸多自然语言处理任务上表现卓越,但其能力受到设计上的固有限制,例如固定的上下文窗口长度和有限的词汇表大小。这意味着 Transformer 模型并不具备解决所有类型计算问题的能力,特别是那些需要无限存储空间或无限制迭代过程的问题。

在论文中,研究团队特别指出,基础的语言模型工作原理在于根据前 k 个词语的概率来预测下一个词语。在 NLP 领域,通常会构建一些专门针对固定长度输入输出序列设计的模型集合或框架,并将这类模型归入 MF_SMF 类别。

Transformer 作为 MF_SMF 这一框架下的具体实例,其图灵完备性的缺失得到了该研究团队的理论论证。他们基于以下逻辑:

首先,回顾计算理论的基础:图灵停机问题是不可判定的,意味着不存在一个通用的方法来判断任意给定程序何时终止运行,就如同无法找到一把万能钥匙预测每一场棋局结束时间一样。这一原理同样适用于评估模型是否会在执行过程中陷入无尽循环而无法自拔。

研究者进而分析了 MF_S(这里假设 MF_S 代表 MF_SMF 中的子集)集合中的模型:

  • 假设可以构建一个算法H,它可以准确判断MF_S中任意模型m是否终止。
  • 假设MF_S集合中存在一个模型m’,它足够强大以至于能够模拟任何图灵机的计算过程,包括那些永远不会停止的图灵机。
  • 根据算法H的假设能力,如果MF_S集合中的模型m’能够模拟那些不会停止的图灵机,那么算法H应该能够预测m’在模拟这些图灵机时是否会停止。
  • 然而,根据图灵的停机问题不可判定定理,我们知道实际上不可能存在这样一个算法H,因为它会与图灵的定理相矛盾。
  • 因此,MF_S集合中不可能存在能够模拟所有图灵机行为的模型m’,也就是说,MF_S中没有任何模型是图灵完备的。

Transformer便属于 MF_SMF,所以 Transformer 不具备图灵完备性。

研究人员指出,Transformer在处理自然语言任务,尤其是在机器翻译方面,有明显的优势。这类模型能够通过递归的方式输入序列并生成更新后的序列,从而逐个预测下一个符号。

但是,尽管Transformer模型能够基于之前的字符序列连续生成新的字符序列,每次接收一段输入字符后产出相应的输出字符,并利用新产生的字符序列进行迭代计算,它还是受到了上下文长度k和词汇表大小v的限制。这意味着它能够处理的不同字符组合的数量不会超过v^k种。

例如,当 Transformer 遇到重复输入时,由于它的无状态特性(这有利于并行训练多个序列),模型必须保证对同一输入产生一致的输出结果。这可能导致在某些情况下,模型陷入无限循环的模式,即只能生成有限数量的、最多为v^k种不同的输出序列,或者在自我复制的过程中无法停止。

与Transformer相比,图灵在1936年提出的图灵机概念具有无限的计算潜力,不受这些结构性的限制,能够模拟任何可计算的过程,确保不会陷入类似的有限循环困境。

2

如何超越 GPT-4?

实验结果显示,单个 Transformer 架构并不具备图灵完备性,而多 Transformer 则有能力实现图灵完备(如论文中所提出的 Find+Replace Transformer)、并执行如 GPT-4 等最先进的 Transformer 模型所无法解决的问题。

论文中创新性地将 Find Transformer 与 Replace Transformer 相结合,构建了Find+Replace Transformer体系结构——这是一个能在任意长度序列上运行的多Transformer系统,在论文中被形象地比喻为“磁带”(Tape)。

该系统由 Find Transformer、Replace Transformer 以及 Map 三部分组成,其中 Map 是一个从 Replace Transformer 到 Find Transformer 所涉及的有序集合的函数映射关系。

具体运作时,Find Transformer 会在输入序列中定位并标识出需要由 Replace Transformer 处理的部分内容。这两个组件各自具有固定的上下文长度 k,并依次对“磁带”上的每个长度为k的子序列进行分析,Find Transformer 会选择那些在最终层产生最高激活值的特定子序列。

随后,Replace Transformer 会接收 Find Transformer 标识出的子序列作为输入,并基于此生成一个新的长度为k的输出序列,这个过程利用了 Map 关联的 f∈Map(r) 规则,确保了两个 Transformer 之间的协同工作及信息传递。

那这个 Find+Replace Transformer 的多 Transformer 系统是如何可以实现图灵完备的呢?

简单来说,Find+Replace Transformer 是一个学习简化的机器。在编程语言的基石 λ 演算 中,有三条被称为“归约”(Reduction)的规则:

  • Alpha Reduction:这是一个绑定变量的重命名。它被用来避免命名冲突。例如,在λ 演算的项 λx.x,我们可以化简成 λy.y,且不改变其意思。
  • Beta Reduction:这是将函数应用于其参数的过程。例如,在λ项(λx.x)y(表示将函数λx.x作用于参数y),我们可以化简成 y。
  • Eta Reduction:这是对函数和参数的简化。如果你有一个函数比如λx.(fx),而x不出现在f中,那么这个就可以化简为f。

Find+Replace Transformer 的多Transformer 系统之所以能够实现图灵完备性,关键在于其架构设计和训练方式允许模型通过一系列组合操作模拟类似于 λ 演算中的归约规则。尽管单个 Transformer 受限于上下文长度、词汇表大小等因素,但通过构建一个多 Transformer 协作的框架,并结合特定的学习机制,这些简单且局部的“查找与替换”操作得以在更复杂的计算任务中累积并形成强大的综合效应。

具体来说,在Find+Replace Transformer中,多个 Transformer 可能被专门设计来分别或协同地处理不同类型的简化(归约)任务,例如模拟 Alpha Reduction 进行变量重命名、模拟 Beta Reduction 执行函数应用以及模拟 Eta Reduction进行函数简化等。每个 Transformer 可能专注于理解和学习如何执行这类简单的转换操作,并将结果传递给下一个Transformer,从而逐步构建起复杂问题的解决方案。

虽然单个 Transformer 不具备图灵完备性,但当它们以特定的方式组织起来并协同工作时,可以模拟通用图灵机的逻辑行为,进而实现对任意可计算问题的解决能力。这样的体系结构让Find+Replace Transformer在处理大规模、多层次的复杂问题时展现出超越传统单一Transformer的性能表现,实现了更高阶的计算能力。

2023年当OpenAI 发布GPT-4时,微软研究院的研究人员发表了一篇题为“Sparks of Artificial General Intelligence(Bubeck et al., 2023)”的论文,阐述了早期AGI所面临的局限性。

研究者们以汉诺塔问题为例进行了说明。汉诺塔是一个经典的递归问题,要求玩家将按照大小顺序堆叠的圆盘从一根柱子移动到另一根柱子上,期间只能移动一个圆盘且任何时候大盘不能位于小盘之上,借助第三根柱子作为中转。

GPT-4无法解决这个复杂的推理问题,从而突显了当前Transformer在推理过程中缺乏规划能力。

研究者对比了几种模型在解决完整汉诺塔问题上的表现。随着问题规模增大,其难度呈指数级上升:规模为n的问题其解决方案需要2^n - 1步操作。Find+Replace Transformer在此任务上表现出色,甚至能生成比GPT-4至少长18倍的正确解决方案。

除了在汉诺塔这个GPT-4都难以解决的问题上表现优越之外,在其他AI任务,如创作满足特定条件的诗歌等,Find+Replace Transformer都能超越GPT-4,这反映了其在泛化能力上的优势。

3

结语

Find+Replace Transformer模型通过创新性地结合多个Transformer单元,并模拟λ演算中的归约规则,在处理如汉诺塔问题等复杂组合任务时展现出了超越传统单个Transformer的优越性能。

这一研究成果揭示了多Transformer系统在实现图灵完备性方面的潜力,也证明了在面对特定计算难题时,提高模型的逻辑推理和抽象表达能力的重要性。

而纵观整个人工智能技术的发展,从深度学习兴起到大模型浪潮来袭,每一次技术迭代,人们都对于新技术报以极大的热情与崇拜。

然而,无论是深度学习还是Transformer架构,亦或是如今新出现Find+Replace Transformer架构,所带给我们的启示是,在研究和应用深度学习技术时,都需要避免过分神化任何技术,应该理性地看待每一项技术,关注其优势和局限,并结合实际问题来选择和调整合适的技术。只有这样,才能不断地在通往人工通用智能(AGI)的道路上迈进。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Excel 不讲武德,公式界革命,宣布支持 λ 表达式,人人都是程序员
https://techcommunity.microsoft.com/t5/excel-blog/announcing-lambda-turn-excel-formulas-into-custom-functions/ba-p/1925546
BI佐罗
2020/12/15
1.2K0
一文读懂人工智能的前世今生(建议收藏)
虽然现在有了诸如Siri、Cortana、IBM Watson等各类人工智能产品,也有像DeepBlue、AlphaGo人机大战等人工智能的新闻和事件不时出现,但相比起电脑、网络、智能手机这类直接地、革命性地改变人们工作生活方式的科技成果而言,在人工智能上所取得的成绩还远远不够,没有达到最初的设想期望。
IT阅读排行榜
2019/01/23
1.1K0
一文读懂人工智能的前世今生(建议收藏)
Nature重磅:软硬分离、图灵完备,清华首次提出“类脑计算完备性”
北京时间10月14日,清华大学计算机科学与技术系(以下简称“计算机系”)张悠慧团队、精密仪器系(以下简称“精仪系”)施路平团队与合作者在《Nature》杂志发文,首次提出“类脑计算完备性”以及软硬件去耦合的类脑计算系统层次结构。
AI科技评论
2020/10/27
1.3K0
Nature重磅:软硬分离、图灵完备,清华首次提出“类脑计算完备性”
从图灵到 Transformer:可计算与不可计算的边界探讨
揭示了计算的局限性,而冯·诺依曼体系结构则定义了计算机硬件的运行规则。这些理论和架构为后来的计算发展奠定了坚实的基础。然而,随着人工智能,特别是深度学习技术的崛起,以
不惑
2025/02/05
1400
从图灵到 Transformer:可计算与不可计算的边界探讨
智能的本质(二)---图灵机,电脑,以及人脑
讨论智能的本质,图灵机是无法回避的问题。图灵在很早的时候就旗帜鲜明的表示了图灵机的模型就是智能的本质,而人脑无非只是这种模型或者类似这种模型的一个具体实现而已。同时代的冯诺依曼却不这样认为。冯诺依曼这个人很重要,在这篇文章后面还会提到。 其实我想很多人或多或少都听说过图灵机是什么。学过计算理论的人更是很清楚。本质上来说,这是一个图灵脑子里拍出来的某种非常笨拙的机器。我们可以用脑子和纸笔一步一步去模拟这个机器。我无意在这里去严格的定义图灵机。这个机器大致上来说是一条无限长的带子,被分成了无限个格子。有有限个字
用户1564362
2018/04/04
1.4K0
超越 Transformer局限,优化思维链Prompt以提升大型语言模型的推理能力 !
大型语言模型(LLMs)的出现标志着自然语言处理和人工智能进入了一个新时代。这些模型在各种领域表现出惊人的能力,在知识检索和表达(张等人,2024年)等任务上实现了接近人类的性能。然而,关于它们的推理能力的担忧已经出现。这些任务范围从基本的操作如计数、排序和乘法,到更复杂的挑战如数学问题求解、算法设计和编程。以前的研究已经探讨了导致这些推理缺陷的各种因素,包括训练优化, Token 化方法,和数据集选择(杨等人,2024年)。在这些因素中,模型的结构在确定其推理能力方面起着关键作用。大多数主流LLM的核心架构——Transformer(有限精度)——与计算深度(Li等人,2024年)有关固有的限制。具体而言,Transformer中的注意力机制只能执行固定数量的连续计算步骤,导致_恒深度_建模。因此,仅依赖Transformer的_内部推理_,模型的可计算性受到限制,只能解决TC(Li等人,2024年;Feng等人,2024年)的复杂度和长度有限的问题(图1.c-d)。
未来先知
2025/01/15
1750
超越 Transformer局限,优化思维链Prompt以提升大型语言模型的推理能力 !
谁才是百年计算机的数学灵魂:莱布尼茨、图灵还是希尔伯特?
虽然计算机的出现,不到百年,然而为了它的出现,所进行的探索和研究,早已经历经数百年的历史。
深度学习技术前沿公众号博主
2020/11/20
8760
谁才是百年计算机的数学灵魂:莱布尼茨、图灵还是希尔伯特?
AI图书下载:计算机:一部历史
《计算机:一部历史》 作者是 [英] 彼得·本特利(Peter J. Bentley),英文书名:《Digitized - The Science of Computers and How It Shapes Our World》, 探讨了计算机科学及其对世界的影响。
AIGC部落
2024/11/04
940
AI图书下载:计算机:一部历史
大四学生发明文言文编程语言,设计思路清奇
文言文(wenyan)是一种深奥的编程语言,遵循中国古典文学的语法和文风。据介绍,这种编程语言文字仅包含繁体中文字符和“''引号,因此古代中国人绝对看得懂。是不是觉得很新奇?那不妨动动你的小手尝试一下吧,可以在在线编辑器上试用,也可以下载编译器或查看源代码。
AI科技大本营
2019/12/23
1.5K0
大四学生发明文言文编程语言,设计思路清奇
编程语言进化史《禅与计算机程序设计艺术》 / 陈光剑
计算机编程语言是程序设计的最重要的工具,它是指计算机能够接受和处理的、具有一定语法规则的语言。
一个会写诗的程序员
2021/04/30
1.9K0
编程语言进化史《禅与计算机程序设计艺术》 / 陈光剑
把Transformer当通用计算机用,还能执行in-context learning算法,这项研究脑洞大开
机器之心报道 编辑:romerome、张倩 一个 13 层的 Transformer 能干什么用?模拟基本计算器、基本线性代数库和使用反向传播的 in-context learning 算法都可以。 Transformer 已成为各种机器学习任务的热门选择,并且取得了很好的效果,那它还能怎么用?脑洞大开的研究者竟然想用它来设计可编程计算机! 这篇论文的作者来自普林斯顿大学和威斯康星大学,标题为《Looped Transformers as Programmable Computers》,旨在探索如何用 T
机器之心
2023/02/23
9380
把Transformer当通用计算机用,还能执行in-context learning算法,这项研究脑洞大开
【自然语言处理】NLP入门(九):1、正则表达式与Python中的实现(9):自动机:⾮确定有限⾃动机与正则表达式
【自然语言处理】NLP入门(一):1、正则表达式与Python中的实现(1):字符串构造、字符串截取
Qomolangma
2024/07/30
2480
【自然语言处理】NLP入门(九):1、正则表达式与Python中的实现(9):自动机:⾮确定有限⾃动机与正则表达式
国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力
有人认为LLM只是通过大量的文本训练得到了一种普适的近似检索,并不具备真正的推理能力。
新智元
2023/11/02
3080
国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力
154页GPT-4报告刷屏:提到了这些新能力和缺陷【附原文及译文领取方式】
👉 腾小云导读 3月,在 OpenAI 发布GPT-4之后,微软研究院随后发表了长达154页的GPT-4能力测评论文 Sparks of Artifificial General Intelligence: Early experiments with GPT-4。论文一发布,立刻引发轰动。论文基于 GPT-4 的文本生成(此时还没有多模态的能力),对它的视觉表达能力、跨领域能力、编程能力等进行了测试。与ChatGPT 进行了对比,论文总结了新模型各项能力的提升和部分缺点,作者认为这些缺陷是其自回归架构天生
腾讯云开发者
2023/04/06
2.3K0
154页GPT-4报告刷屏:提到了这些新能力和缺陷【附原文及译文领取方式】
从石器时代到成为“神”,一文讲透eBPF技术发展演进史
作者 | 钟俊 策划 | 凌敏 1. 前   言 技术的发展往往是积跬步而至千里的。Linux 从 1992 年诞生,发展至今已经覆盖大小各类的信息基础设施。是什么样的力量让 Linux 能够始终保持发展活力?又该如何看待 Linux 之上出现的新的技术趋势? 本文试图通过梳理 eBPF 的演进过程,探索 Linux 内核的发展动力来源与发展轨迹,与大家一同畅想 eBPF 给内核技术、Linux 生态带来的全新变局。 2. eBPF 技术概览 2.1. 实现原理 大家可能都知道图灵机,这是
深度学习与Python
2023/04/06
5840
从石器时代到成为“神”,一文讲透eBPF技术发展演进史
谷歌发布机器翻译模型最新版本Universal Transformer,性能提高近50%
去年谷歌发布了Transformer,这是一种新的机器学习模型,在现有的机器翻译算法和其他语言理解方面取得了显著成功。在Transformer之前,大多数基于神经网络的机器翻译方法依赖于循环运算的递归神经网络(RNN),它使用循环(即每一步的输出都进入下一步)按顺序运行(例如,一个接一个地翻译句子中的单词)。虽然RNN在建模序列方面非常强大,但它们的顺序性意味着它们训练起来很慢,因为较长的句子需要更多的处理步骤,并且它们的重复结构也使得它们难以正确训练。
AiTechYun
2018/09/26
1.9K0
谷歌发布机器翻译模型最新版本Universal Transformer,性能提高近50%
苹果公司打假大模型,反转了
长期跟踪关注统计学、机器学习算法、深度学习、人工智能、大模型技术与行业发展动态,日更精选技术文章。回复机器学习有惊喜资料。
Ai学习的老章
2025/06/11
950
苹果公司打假大模型,反转了
GPT-3没有亲自上手,不如展望一下GPT-4?
近日,GPT-3在国内外引起了火爆的关注,各路大神都对它玩起了图灵测试,不知道小伙伴们有没有亲手实践一波,但是据说GPT-3的API申请列表早已满了,需要做维护才能后期开放。
AI科技评论
2020/08/10
1.3K0
GPT-3没有亲自上手,不如展望一下GPT-4?
从图灵机到量子计算机,计算机可以解决所有问题吗?
今天,我们正式开启一个新专栏 —— 计算机组成原理。计算机组成原理是计算机科学中最基础的理论知识,你越早掌握这些知识,你就能越早享受知识带来的 "复利效应"。
用户9995743
2022/12/22
1.1K0
从图灵机到量子计算机,计算机可以解决所有问题吗?
图灵 V.S 冯诺依曼
图灵和冯诺依曼都对计算机的发展做出了杰出的贡献,那么这两位大神级的人物,谁更配得上计算机之父呢?
程序猿石头
2021/09/02
2.1K0
图灵 V.S 冯诺依曼
推荐阅读
Excel 不讲武德,公式界革命,宣布支持 λ 表达式,人人都是程序员
1.2K0
一文读懂人工智能的前世今生(建议收藏)
1.1K0
Nature重磅:软硬分离、图灵完备,清华首次提出“类脑计算完备性”
1.3K0
从图灵到 Transformer:可计算与不可计算的边界探讨
1400
智能的本质(二)---图灵机,电脑,以及人脑
1.4K0
超越 Transformer局限,优化思维链Prompt以提升大型语言模型的推理能力 !
1750
谁才是百年计算机的数学灵魂:莱布尼茨、图灵还是希尔伯特?
8760
AI图书下载:计算机:一部历史
940
大四学生发明文言文编程语言,设计思路清奇
1.5K0
编程语言进化史《禅与计算机程序设计艺术》 / 陈光剑
1.9K0
把Transformer当通用计算机用,还能执行in-context learning算法,这项研究脑洞大开
9380
【自然语言处理】NLP入门(九):1、正则表达式与Python中的实现(9):自动机:⾮确定有限⾃动机与正则表达式
2480
国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力
3080
154页GPT-4报告刷屏:提到了这些新能力和缺陷【附原文及译文领取方式】
2.3K0
从石器时代到成为“神”,一文讲透eBPF技术发展演进史
5840
谷歌发布机器翻译模型最新版本Universal Transformer,性能提高近50%
1.9K0
苹果公司打假大模型,反转了
950
GPT-3没有亲自上手,不如展望一下GPT-4?
1.3K0
从图灵机到量子计算机,计算机可以解决所有问题吗?
1.1K0
图灵 V.S 冯诺依曼
2.1K0
相关推荐
Excel 不讲武德,公式界革命,宣布支持 λ 表达式,人人都是程序员
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档