部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ICML 2025|如何凭「自动补全」实现100K生成3×加速?

ICML 2025|如何凭「自动补全」实现100K生成3×加速?

作者头像
机器之心
发布于 2025-05-19 02:14:34
发布于 2025-05-19 02:14:34
550
举报
文章被收录于专栏:机器之心机器之心

在当前大模型推理愈发复杂的时代,如何快速、高效地产生超长文本,成为了模型部署与优化中的一大核心挑战。随着 GPT-o3, DeepSeek R1 等具备 「超级上下文窗口」 能力的大模型持续刷新业界记录,百万甚至千万 Token 级别的推理任务已从研究话题迈入现实场景。然而,生成这些超长文本的背后,却隐藏着令人咋舌的计算成本 —— 长时间的等待、巨大的内存负担以及偶尔重复乏味的输出,严重制约了这些模型的真正潜力。

面对这一挑战,BIGAI NLCo 团队提出了一项全新的推理加速框架 —— TokenSwift,该工作已成功被 ICML 2025 正式接收!在这项研究中提出了一套可插拔、无损、高效的生成加速策略,专为 100K Token 级别的长文本推理而设计。在保持原始模型输出一致性的前提下,加速比达到 3 倍以上,极大提升了推理效率。

  • 论文标题:TokenSwift: Lossless Acceleration of Ultra Long Sequence Generation
  • Arxiv: https://arxiv.org/abs/2502.18890
  • Github: https://github.com/bigai-nlco/TokenSwift
  • Blog: https://bigai-nlco.github.io/TokenSwift/

🧠 重新定义超长生成:为什么传统方法「慢」?

为了更好地理解 TokenSwift 的意义,我们先看一下目前主流大模型(如 LLaMA、Qwen 等)在长文本生成中的瓶颈所在。

尽管这些模型具备了强大的生成长上下文的能力,但大多数依然采用传统的自回归(Autoregressive)生成方式:每次仅生成一个新的 Token,并以其作为输入接着生成下一个。这种方式本身在短文本生成中问题不大,但当序列长度扩展至 10 万甚至更多时,性能就会急剧下降。

主要原因有三:

  • 模型重复重载:每生成一个 Token,都会触发一次完整的前向推理过程;在多进程或流水线执行时,模型需要不断读取参数,造成 I/O 瓶颈。
  • KV 缓存无限膨胀:Transformer 架构要求保留所有历史 Token 的 Key/Value 信息,用于后续 Token 的注意力计算。随着生成进程推进,KV 缓存占用不断增加,导致计算与内存开销雪上加霜。
  • 语义重复堆叠:生成越长,模型越容易陷入句式与主题的复读循环,降低输出多样性与用户体验。

尤其在当前日益增长的多轮对话、大模型代理(Agent)、逐步推理等任务中,一个 Query 可能会触发几千甚至上万的推理 Token 输出。传统自回归的效率显然已经难以满足需求。

🚀 TokenSwift:拥抱并行的超长推理时代

TokenSwift 的提出,正是为了解决上述超长生成中的三大瓶颈。它通过一个极为轻量且高效的框架,对传统自回归推理进行了 「重构」,提出了以 「多 Token 草拟 + 并行验证 + 动态缓存更新」 为核心的全新机制。

让我们来逐步拆解 TokenSwift 的关键技术理念:

✳️ 多 Token 并行草拟:告别一次一 Token 的低效时代

在 TokenSwift 中,不再坚持 「一步一 Token」 的生成模式,而是通过对已有模型的最小化修改(添加极少量的线性层),实现了 「一次性草拟多个 Token」。这意味着,模型每一次前向传播,都可以并行生成 γ 个候选 Token,大幅降低模型重载频率,显著节省 I/O 时间。

更关键的是,草拟阶段并非 「胡乱猜测」。引入了上下文引导机制,使草拟结果具备较高的语义相关性与语法一致性,随后通过结构化的验证机制确保其与标准 AR 路径一致。

🧩 n-gram 启发式补全:巧用历史片段,精确草拟结构

为了避免粗略草拟带来的语义偏离,TokenSwift 设计了基于历史生成内容的 n-gram 片段缓存机制。会定期保存频率较高的 n-gram 序列,并在草拟新 Token 时,借助这些高频片段进行 「自动补全」。

此外,TokenSwift 还引入了 「随机筛选器」,在多个 n-gram 片段中选择语义最优的一组进行结构构建。这不仅提升了草拟的准确性,也保证了后续验证的成功率。

🧠 树结构验证机制:确保与 AR 一致,输出 「无损」 保障

有了草拟机制,还需要验证其 「正当性」。TokenSwift 的另一大亮点在于提出了树结构的并行验证模块,通过构建多个验证路径,对草拟的多个 Token 并行进行预测评分判断,并筛选出与标准 AR 路径一致的候选。

换句话说,TokenSwift 不仅快,而且不牺牲任何输出质量,生成内容与原始模型保持一致,是一套真正 「无损」 的加速方案。

💡 动态 KV 管理 + 重复惩罚:越长越快,越长越优

为了解决 KV 缓存膨胀的问题,TokenSwift 实现了动态的 KV 裁剪机制。模型会根据 Token 重要度与时间衰减策略,对 KV 对进行 「主动淘汰」,在保证上下文保留质量的同时,显著减轻缓存负担。

与此同时,为了缓解长文本生成过程中的重复问题,设计了重复惩罚机制,在生成过程中动态降低重复 n-gram 的概率,确保最终输出具备更高的多样性和可读性。

📈 实验评估:全面剖析 TokenSwift 的性能与质量

在多个主流模型上,包括 YaRN-LLaMA2-7b-128k、LLaMA3.1-8b、Qwen2.5-1.5B, 7B, 14B 等,进行了大规模实验,序列长度涵盖从 20K 到 100K,TokenSwift 表现均极其亮眼:

  • 加速比普遍在 3 倍以上
  • 生成质量与原模型一致
  • Distinct-n 指标显著优于原始 AR 路径

更令人振奋的是,随着序列越长,TokenSwift 的加速效果越显著。在 100K Token 生成任务中,LLaMA3.1-8B 的生成时间从近 5 小时缩短至 1.5 小时,极大降低了实际使用成本。

Token 重用的决定性作用

我们对比了禁用(k=0)与启用状态下的接受率和加速比。结果显示,未启用重用时,随着生成长度增长,接受率和加速比均出现明显下滑;而在 k=20 时,接受率不仅维持在 70–90% 的高水平,还随序列越长而略有提升,加速比亦从~2.1× 提升至~3.1×,凸显 Token 重用在减少模型重载和保持验证高效中的关键作用 。

动态 KV 更新的巧妙平衡

针对 KV 缓存管理,我们进一步实验了「全量缓存」、「仅预填后一次更新」与 TokenSwift 中的「动态部分缓存」三种策略。在关闭 Token 重用的前提下,「部分缓存」因接受率低而加速有限,「全量缓存」虽保证了较高接受率,却因管理成本抵消了速度收益;而 TokenSwift 的动态更新策略恰好在接受率与计算开销之间取得平衡,使得在 100K Token 任务上依然能保持近 2× 以上的加速效果 。

上下文惩罚对多样性的提升

为了抑制超长生成中的机械复读,TokenSwift 采用了仅对最近 W Token 应用惩罚值 θ 的「上下文惩罚」机制。在与 top-p、η-sampling、min-p 等多种采样方法结合的实验中,未启用惩罚时 Distinct-n 平均值仅约 0.12;引入 θ=1.2、W=1024 后,平均多样性飙升至 0.43–0.69,同时加速比仅轻微下降~2–8% 左右,证明了该机制在保持质量一致性与提升文本多样性上的高效性 。

✨ 小结

TokenSwift 摆脱了传统自回归生成的性能枷锁,让我们在面对超长文本推理任务时,不再被时间与内存所拖累。

它并非一个 「另起炉灶」 的新模型,而是一种可直接嵌入现有主流模型(LLaMA、Qwen 等)的通用加速策略,具备极强的兼容性与部署便利性。

更重要的是,TokenSwift 对推理质量的 「无损」 保证,让我们在享受速度提升的同时,不牺牲任何精度与语义一致性。我们相信,这一框架将为未来多轮推理、代码生成、Agent 计划编排等长文本场景提供坚实的技术支撑。

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
在通用人工智能的黎明时刻,大语言模型被越来越多地应用到复杂任务中,虽然展现出了巨大的潜力和价值,但对计算和存储资源也提出了前所未有的挑战。在以 transformer 模型为基础的大模型中,键值缓存虽然用以存代算的思想显著加速了推理速度,但在长上下文场景中成为了存储瓶颈。例如,半精度的 LLaMA-2-7B 模型权重约 14GB,在上下文长度为 128K 时键值缓存占据 64GB,总和已经接近高端卡 NVIDIA A100 的 80GB 显存容量上限。键值量化可被用于压缩缓存,但往往受到异常值的干扰,导致模型性能的显著下降。为此,本文的研究者提出了 MILLION,一种基于乘积量化的键值缓存压缩和推理加速设计。
机器之心
2025/04/30
870
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式
金天,麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)博士五年级学生,师从 Michael Carbin 和 Jonathan Ragan-Kelley。他主要研究机器学习与编程系统的结合。此前曾在 IBM Research 主导实现深度神经网络在 IBM 主机上的推理部署。本科毕业于 Haverford College,获计算机科学与数学双学位。
机器之心
2025/05/22
1180
策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式
英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜
当下的手机及AIPC中都会安装本地大模型,然而上下文长度增加,推理时的计算成本也会显著增长。最明显的一个后果就是,用户输入问题后需要等待很久才能看到结果。
新智元
2025/02/15
580
英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜
90分钟生成10万Token,新框架实现3倍无损加速超长文本生成
在人工智能领域,大语言模型(LLMs)的应用日益广泛,但生成超长序列(如长达100K Token)却面临着耗时长的难题。传统的推测解码方法在扩展生成限制时并不能有效加速,甚至可能损害生成效果。TOKENSWIFT框架的出现,为这一问题提供了创新性的解决方案,它能够在保持目标模型固有质量的前提下,显著加速超长序列的生成过程。
Michel_Rolle
2025/03/02
1.2K0
GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1.5,伯克利出品。
量子位
2024/02/22
2740
GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
大语言模型序列长度的限制,极大地制约了其在人工智能领域的应用,比如多轮对话、长文本理解、多模态数据的处理与生成等。造成这一限制的根本原因在于当前大语言模型均采用的 Transformer 架构有着相对于序列长度的二次计算复杂度。这意味着随着序列长度的增加,需要的计算资源成几何倍数提升。如何高效地处理长序列一直是大语言模型的挑战之一。
机器之心
2024/01/18
5190
​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
LLM推理技术之StreamingLLM:如何拥有无限长生成能力
MIT,Meta AI,CMU的研究人员最近提出了一种StreamingLLM,声称可以使得经过有限序列长度训练的大型语言模型能够在无需任何微调的情况下,推广到无限序列长度的输入和输出。 不过这里值得强调的是,这个方法并没有增加LLM的对上文的记忆,只是让它输入输出无限长。一个显而易见的好处就是,在对话机器人生成一个很长的回答时,你不需要再输入“继续”了。
NewBeeNLP
2023/10/25
1.9K0
LLM推理技术之StreamingLLM:如何拥有无限长生成能力
AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3
近日,中国电信翼支付针对大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》已被 AAAI 2025 接收。
机器之心
2025/02/03
2160
AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3
AI变鉴片大师,星际穿越都能看懂!贾佳亚团队新作,多模态大模型挑战超长3小时视频
对于电影来说,除了精准回答所涉细节,LLaMA-VID也能对角色进行十分准确的理解和分析。
量子位
2023/12/12
3170
AI变鉴片大师,星际穿越都能看懂!贾佳亚团队新作,多模态大模型挑战超长3小时视频
揭秘AI智算中心网络流量之AI推理
本篇为“揭秘AI智算中心网络流量“系列的第二篇,前篇请参阅:一文揭秘AI智算中心网络流量 – 大模型训练篇 。有关数据存储流量的分析将于下篇呈现,敬请关注。
星融元Asterfusion
2024/07/26
3210
揭秘AI智算中心网络流量之AI推理
匿名论文提出奇招!增强大模型长文本能力居然还能这么做
具体办法就是建一个临时Lora模块,让它仅在长文本生成过程中“流式更新”,也就是用先前生成的内容不断作为输入来充当训练数据,以此保证知识被存进模型参数中。
量子位
2024/02/22
2360
匿名论文提出奇招!增强大模型长文本能力居然还能这么做
FXCM福汇官网:LLMs serving 面临的一些挑战
如果您正在开发 AI 解决方案,并托管基于大语言模型(LLMs)的基础模型,那么您就应该关注模型服务的成本。然而,资金并非唯一的考量因素。请相信,如果无法解决模型性能的难题,即便预算充足,LLMs serving 的实际效果仍会大打折扣。本文将探讨如何将 LLM 的推理过程从「烧钱的无底洞」转变为「高性能的生产力引擎」。
用户9550247
2025/05/29
580
FXCM福汇官网:LLMs serving 面临的一些挑战
【大模型部署实战】VLLM+OpenWebUI实现DeepSeek模型部署,文末有福利
vLLM(Very Large Language Model Serving)是由加州大学伯克利分校团队开发的高性能、低延迟大语言模型(LLM)推理和服务框架。其核心创新在于PagedAttention技术,通过将注意力键值(KV)缓存分页管理,显著提升显存利用率并降低碎片化问题,使吞吐量比传统框架(如Hugging Face Transformers)提升24倍。该框架支持连续批处理、动态显存分配和多GPU并行推理,能够高效处理8k+长上下文请求,并兼容OpenAI API接口,开发者可快速部署Hugging Face模型。通过集成FP8、AWQ等量化技术,vLLM在保证推理精度的同时大幅降低资源消耗,目前已成为企业级AI部署(如DeepSeek-R1 671B模型分布式集群)的首选方案。
AI浩
2025/03/17
6290
【大模型部署实战】VLLM+OpenWebUI实现DeepSeek模型部署,文末有福利
DeepSeek和月之暗面的论文撞车了!!
昨天下午,DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与,一时之间吸引眼球无数,参阅报道《 刚刚!DeepSeek团队丢出注意力新机制重磅论文》。
小白学视觉
2025/02/20
1410
DeepSeek和月之暗面的论文撞车了!!
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B。
机器之心
2025/05/08
1370
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
训练后的模型会用于推理或者部署。推理即使用模型用输入获得输出的过程,部署是将模型发布到恒定运行的环境中推理的过程。一般来说,LLM的推理可以直接使用PyTorch代码、使用VLLM/XInference/FastChat等框架,也可以使用llama.cpp/chatglm.cpp/qwen.cpp等c++推理框架。
汀丶人工智能
2024/05/28
12.7K0
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!
大模型只能够记忆与理解有限的上下文已经成为大模型在真实应用中的能力瓶颈,例如对话式AI系统往往无法记忆你前一天对话的内容,利用大模型构建智能体会产生前后不一致的行为与记忆。
新智元
2024/03/13
1.6K0
清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!
全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线
10 月 30 日,百川智能正式发布 Baichuan2-192K 长窗口大模型,将大语言模型(LLM)上下文窗口的长度一举提升到了 192K token。
机器之心
2023/11/02
6.1K0
全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线
动态NTK与Azure推理优化:低成本扩展LLM上下文窗口
在自然语言处理领域的广泛应用,其上下文窗口(Context Window)的限制逐渐成为制约模型性能的关键因素。传统LLM的上下文窗口通常在2k至32k tokens之间,难以满足长文本生成、复杂推理和知识整合等场景需求。为此,研究者提出了多种上下文扩展技术,其中动态NTK(Dynamic Neural Tangent Kernel)方法凭借其灵活性与低微调成本脱颖而出。与此同时,云平台如通过硬件优化和算法协同设计,进一步降低了扩展上下文窗口的计算开销。本文将从技术原理、实现路径及工程实践角度,探讨动态NTK与推理优化的协同效应。
Michel_Rolle
2025/01/10
1.6K0
AI日报 - 2025年4月8日
▎🤖 模型进展 | Llama 4发布引爆讨论 (性能、应用、部署、训练争议),OpenAI保持高速迭代,香港大学推Dream 7B扩散模型。
訾博ZiBo
2025/04/07
1350
AI日报 - 2025年4月8日
推荐阅读
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
870
策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式
1180
英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜
580
90分钟生成10万Token,新框架实现3倍无损加速超长文本生成
1.2K0
GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
2740
​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
5190
LLM推理技术之StreamingLLM:如何拥有无限长生成能力
1.9K0
AAAI 2025 | 大模型推理加速新范式:加速比高达3.51倍、成本降至1/3
2160
AI变鉴片大师,星际穿越都能看懂!贾佳亚团队新作,多模态大模型挑战超长3小时视频
3170
揭秘AI智算中心网络流量之AI推理
3210
匿名论文提出奇招!增强大模型长文本能力居然还能这么做
2360
FXCM福汇官网:LLMs serving 面临的一些挑战
580
【大模型部署实战】VLLM+OpenWebUI实现DeepSeek模型部署,文末有福利
6290
DeepSeek和月之暗面的论文撞车了!!
1410
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
1370
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
12.7K0
清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!
1.6K0
全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线
6.1K0
动态NTK与Azure推理优化:低成本扩展LLM上下文窗口
1.6K0
AI日报 - 2025年4月8日
1350
相关推荐
上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档