首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大语言模型推理优化论文-Reasoning on a Budget

大语言模型推理优化论文-Reasoning on a Budget

原创
作者头像
aaronwjzhao
修改2025-07-21 14:49:54
修改2025-07-21 14:49:54
2090
举报
文章被收录于专栏:AI工程落地AI工程落地

论文地址:https://arxiv.org/pdf/2507.02076

研究机构:华为诺亚方舟实验室

摘要

这篇论文主要讨论了如何提高大型语言模型(LLMs)在推理时的计算效率。目前的LLMs在推理时往往采用固定的计算预算,导致对于简单问题过度思考,而对于复杂问题则不足思考。为了改善这种情况,作者提出了适应性和可控性两种策略,并对这两种策略进行了详细的介绍和比较。通过在多个数据集上进行测试,作者还探讨了这些策略之间的关键权衡,并指出了未来需要解决的关键挑战。总体来说,本文为提高LLMs的计算效率提供了有价值的参考。

方法描述

该论文把现有的论文分成两种方法来优化模型推理过程中的计算效率:可控测试时间计算(Controllable Test-Time Compute)和自适应测试时间计算(Adaptive Test-Time Compute)。可控测试时间计算需要用户预先设置一个预算约束,而自适应测试时间计算则会根据问题难度和模型推理能力动态分配计算资源。这两种方法都通过衡量推理路径中每个步骤的性能和效率指标来实现高效推理。

L1(可控计算):用户设定预算上限(如最多生成1000 tokens),模型在此约束下优化答案质量。

L1计算公式
L1计算公式

其中p为性能指标,ε为效率指标,C是用户设定的预算

核心思想:像"考试限时答题",强制在规定资源内完成推理。

L2(自适应计算):模型自主分配计算量,平衡质量与效率:

L2计算公式
L2计算公式

α调节效率权重

核心思想:像"学生根据题难度自主分配时间",简单题快速作答,难题深入思考。

根据L1、L2方法的划分,作者把业界相关的论文进行了总结,相关贡献如下图。

L1/L2分类架构
L1/L2分类架构

L1方法概述

Sequential

TokenSkip压缩:

  • 生成完整思维链(CoT)
  • 删除冗余token(如重复解释)
  • 微调模型学习压缩版CoT

优势:压缩率可达70%,但可能损失可读性。

System 1.x混合规划

  • Controller:将任务分解为子目标
  • System 1:处理简单子目标(直觉式快速推理)
  • System 2:处理复杂子目标(搜索式慢速推理)

用户通过"混合因子"调控速度-精度平衡

Parallel

自一致性提前终止

当多数投票结果稳定时(如5个样本中4个答案相同),立即停止采样,避免无效计算。

推理感知微调

训练时模拟推理过程(如Best-of-N采样),使模型适应测试环境。

L2方法概述

Prompting-based

简洁思维链(CCoT)

指令"逐步思考并保持简洁"使GPT-4输出长度减少40%,但弱模型(如GPT-3.5)在数学题上性能下降。

元推理器(MetaReasoner)

动态监控推理进度,遇困时触发策略调整(如:"当前路径无效,建议回溯步骤3")。

Supervised Finetuning

连续潜空间推理

将离散token替换为隐藏层向量

效果:减少50% token,但需防范灾难性遗忘。

长短思维链蒸馏

  • 教师模型生成长短两种CoT
  • 学生模型学习"何时用短CoT"(如添加[简单]标签)

突破:模型自适应选择推理深度。

强化学习

核心是在奖励函数中加入效率惩罚:

基础设计

奖励 = 准确性得分 - β × 输出长度

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 方法描述
  • L1方法概述
    • Sequential
    • Parallel
  • L2方法概述
    • Prompting-based
    • Supervised Finetuning
    • 强化学习
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档