
论文地址:https://arxiv.org/pdf/2507.02076
研究机构:华为诺亚方舟实验室
这篇论文主要讨论了如何提高大型语言模型(LLMs)在推理时的计算效率。目前的LLMs在推理时往往采用固定的计算预算,导致对于简单问题过度思考,而对于复杂问题则不足思考。为了改善这种情况,作者提出了适应性和可控性两种策略,并对这两种策略进行了详细的介绍和比较。通过在多个数据集上进行测试,作者还探讨了这些策略之间的关键权衡,并指出了未来需要解决的关键挑战。总体来说,本文为提高LLMs的计算效率提供了有价值的参考。
该论文把现有的论文分成两种方法来优化模型推理过程中的计算效率:可控测试时间计算(Controllable Test-Time Compute)和自适应测试时间计算(Adaptive Test-Time Compute)。可控测试时间计算需要用户预先设置一个预算约束,而自适应测试时间计算则会根据问题难度和模型推理能力动态分配计算资源。这两种方法都通过衡量推理路径中每个步骤的性能和效率指标来实现高效推理。
L1(可控计算):用户设定预算上限(如最多生成1000 tokens),模型在此约束下优化答案质量。

其中p为性能指标,ε为效率指标,C是用户设定的预算
核心思想:像"考试限时答题",强制在规定资源内完成推理。
L2(自适应计算):模型自主分配计算量,平衡质量与效率:

α调节效率权重
核心思想:像"学生根据题难度自主分配时间",简单题快速作答,难题深入思考。
根据L1、L2方法的划分,作者把业界相关的论文进行了总结,相关贡献如下图。

TokenSkip压缩:
优势:压缩率可达70%,但可能损失可读性。
System 1.x混合规划:
用户通过"混合因子"调控速度-精度平衡
自一致性提前终止:
当多数投票结果稳定时(如5个样本中4个答案相同),立即停止采样,避免无效计算。
推理感知微调:
训练时模拟推理过程(如Best-of-N采样),使模型适应测试环境。
简洁思维链(CCoT):
指令"逐步思考并保持简洁"使GPT-4输出长度减少40%,但弱模型(如GPT-3.5)在数学题上性能下降。
元推理器(MetaReasoner):
动态监控推理进度,遇困时触发策略调整(如:"当前路径无效,建议回溯步骤3")。
连续潜空间推理:
将离散token替换为隐藏层向量
效果:减少50% token,但需防范灾难性遗忘。
长短思维链蒸馏:
突破:模型自适应选择推理深度。
核心是在奖励函数中加入效率惩罚:
基础设计:
奖励 = 准确性得分 - β × 输出长度
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。