社区首页 >专栏 >「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

「模仿学习」只会套话？解释微调+130亿参数Orca：推理能力打平ChatGPT

新智元

发布于 2023-08-05 09:38:06

2900

文章被收录于专栏：新智元新智元

新智元报道

编辑：LRS

【新智元导读】用GPT-4辅助训练小模型，想会推理还得用「解释微调」。

自ChatGPT API开放后，大量的研究都选择利用ChatGPT和GPT-4等大型基础模型（LFM）的输出作为训练数据，然后通过模仿学习来提升小模型的能力。

但由于模仿信号流于表面、训练数据量不够大、缺乏严格的评估标准等问题，小模型的实际性能被高估了。

从效果上来看，小模型更倾向于模仿LFM的输出风格，而非推理过程。

论文链接：https://arxiv.org/pdf/2306.02707.pdf

为了应对这些挑战，微软最近发布了一篇长达51页论文，提出了一个130亿参数的Orca模型，可以学习模仿LFMs的推理过程。

研究人员为大模型设计了丰富的训练信号，使得Orca可以从GPT-4中学习到解释痕迹、逐步的思维过程、复杂的指令等，并由ChatGPT的教师协助指导；并通过采样和选择来挖掘大规模且多样化的模仿数据，可以进一步提升渐进式学习效果。

在实验评估中，Orca超过了其他SOTA指令微调模型，在BigBench Hard（BBH）等复杂的零样本推理基准中实现了比Vicuna-13B翻倍的性能表现，在AGIEval上也实现了42%的性能提升。

此外，Orca在BBH基准上还实现了与ChatGPT持平的性能，在SAT、LSAT、GRE和GMAT等专业和学术考试中只有4%的性能差距，并且都是在没有思维链的零样本设置下测量的。

研究结果表明，让模型从分步解释中学习，无论这些解释是由人类还是更高级的人工智能模型产生的，都是提高模型能力和技能的一个有前景的研究方向。

解释微调（Explanation Tuning）

数据集构造

在训练数据中，每个实例都包括三部分，即系统消息、用户查询和LFM回复。

系统消息（system message）放置在提示中开头的部分，提供给LFM基本的上下文、引导以及其他相关的细节。

系统消息可以用来改变回复的长度、描述AI助手的性格、建立可接受和不可接受的LFM行为，并确定AI模型的回复结构。

研究人员手工制作了16条系统信息来设计LFM不同类型的回复，可以生成创造性的内容以及解决信息查询问题，最重要的是能够根据提示生成解释和逐步推理的答案。

用户查询（user query）定义了希望LFM执行的实际任务。

为了获得大量的、多样化的用户查询，研究人员利用FLAN-v2集合，从中抽取500万个用户查询（FLAN-5M），并收集ChatGPT的回复；然后进一步从500万条指令中抽出100万条指令（FLAN-1M），收集GPT-4的回复。

FLAN-v2集合由五个子集合组成，即CoT、NiV2、T0、Flan 2021和Dialogue，其中每个子集包含多个任务，每个任务都是一个查询的集合。

每个子集合都与多个学术数据集相关，并且每个数据集都有一个或多个任务，主要关注零样本和少样本的查询。

在这项工作中，研究人员只取样训练Orca的零样本查询，并且没有从Dialogue子集中取样，因为这些查询往往缺乏背景，无法从ChatGPT中获得有用的回复。

让ChatGPT扮演Teaching Assistant

首先在FLAN-5M数据上训练Orca（ChatGPT增强），随后在FLAN-1M上进行第二阶段的训练（GPT-4增强）。

将ChatGPT作为中间的教师助手主要有两个原因：

1. 能力差距

虽然GPT-4的参数量没有公开，但130亿参数的Orca肯定比GPT-4要小很多倍，而ChatGPT和Orca之间的能力差距更小，更适合作为中间教师，并且这种方式已经被证明可以提高更小的学生模型在知识蒸馏中的模仿学习性能。

这种方式也可以看作是一种渐进式学习或课程学习，学生首先从较容易的例子中学习，然后再学习较难的例子，假定了较长的回复会比较短的回复更难模仿，可以从更大规模的教师模型中改进推理和逐步解释能力。

2. 成本和时间

从Azure OpenAI API进行大规模数据收集时会受到一些限制，包括每分钟请求的速率限制，防止流量过大；由于服务延迟问题，每分钟可用的token数量有限；提示长度和token补全的金钱成本。

相比之下，ChatGPT API比GPT-4终端更快、更便宜，所以从ChatGPT上收集了比GPT-4多5倍的数据。

从ChatGPT和GPT-4对应于不同系统消息的回复长度分布中可以观察到，GPT-4的回复平均比ChatGPT长1.5倍，使得Orca能够逐步从教师解释的复杂性中学习，并通过消融实验证明了教师帮助的影响。

训练

在分词阶段，研究人员利用LLaMA的字节对编码（BPE）分词器来处理输入的样本，其中多位数字会被分割成多个单数字，并回落到字节来分解未知的UTF-8字符。

为了处理可变长度的序列，在LLaMA分词器的词汇表中引入了一个填充词[[PAD]]，最终的词汇表包含32001个token

为了优化训练过程并有效利用可用的计算资源，研究人员利用了packing技术，将多个输入实例串联成一个序列后再训练模型。

在packing的过程中，串联序列的总长度不超过max_len=2048 tokens，对输入的样本进行随机打乱后将分成几组，每组串联序列的长度最多为max_len

考虑到训练数据中增强指令的长度分布，每个序列的打包系数为2.7

为了训练Orca，研究人员选择只计算教师模型生成token的损失，也就是说学习生成以系统信息和任务指令为条件的回复，可以确保模型专注于从最相关和最有信息的token中学习，提高了训练过程的整体效率和效果。

最后在20个装有80GB内存的NVIDIA A100 GPU上训练Orca，先在FLAN-5M（ChatGPT增强）上训练4个epoch，花了160个小时；然后在FLAN-1M（GPT-4增强）上继续训练4个epoch

由于流量限制、终端负载以及回复的长度问题，从GPT-3.5-turbo（ChatGPT）和GPT-4的多个终端收集数据分别用了2周和3周的时间。

实验部分

研究人员主要验证了Orca在推理上的能力。

在AGIEval的实验中可以看到，Orca的表现与Text-da-Vinci-003相当，并实现了ChatGPT 88%的性能表现，不过明显落后于GPT-4

对于分析和推理任务，Vicuna的表现明显更差，只保留了62%的ChatGPT质量，表明这种开源语言模型的推理能力很差。

虽然Orca与Text-da-Vinci-003的表现相当，但仍然比ChatGPT低5分，Orca在与数学有关的任务（在SAT、GRE、GMAT中）上与ChatGPT表现出较大的差距。

与Vicuna相比，Orca显示出更强的性能，在每个类别上都超过了Vicuna，平均有42%的相对提高。

GPT-4的性能远远超过了所有其他模型，但在这个基准中仍有很大的提升空间，目前所有模型的性能都明显低于人类的得分。

Orca的性能根据系统信息的类型有很大的不同，对于训练的模型来说，空的系统消息往往效果很好。

Orca在不同任务的325个样本中超越了ChatGPT（Orca-beats-ChatGPT例子），其中大部分来自LogiQA（29%），而其他LSAT任务和SAT-英语任务各占不到10%

在Big-Bench Hard Results数据集上的推理评估结果显示，Orca在所有任务中的综合表现上略好于ChatGPT，但明显落后于GPT-4；比Vicuna性能高出113%

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-06-16，如有侵权请联系 cloudcommunity@tencent.com 删除

chatgpt

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

1629

Go 开发者必备：Protocol Buffers 入门指南

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

731

60页PPT全解：DeepSeek系列论文技术要点整理

1494

微软也搞起了开源小模型！利用OpenAI的ChatGPT和GPT-4 训练，实力碾压当前最强开源模型

开源 chatgpt gpt openai 模型

深度学习与Python

2023/08/09

3270

微软也搞起了开源小模型！利用OpenAI的ChatGPT和GPT-4 训练，实力碾压当前最强开源模型

微软教小模型推理进阶版：Orca 2性能媲美10倍参数模型，已开源

开源模型数据系统性能

如你我所见，像 GPT-4、PaLM 等前沿语言模型已经展现了出色的推理能力，例如回答复杂问题、生成解释，甚至解决需要多步推理的问题，这些能力曾被认为是 AI 无法达到的。这样的能力在较小的语言模型中并不明显，因此现在的挑战就是如何利用对大型语言模型不断增长的知识，进而提升较小模型的能力。

机器之心

2023/12/05

3710

新加坡科技设计大学提出FLACUNA：提高LLMs问题解决能力!

科技模型设计数据性能

zenRRan

2023/08/22

3010

推理大模型的后训练增强技术-指令微调篇，如何用指令微调提升推理能力？

数据性能优化架构模型

指令微调定义：指令微调是一种在带有指令提示和相应输出的标记数据集上微调大模型的技术，通过提供一组概述所需操作的指南或指令，使预训练模型适应执行特定任务。

致Great

2025/03/09

4550

AI考公考编指日可待！微软华人团队发布全新基准AGIEval，专为人类考试而生

基础模型数据数学性能

---- 新智元报道编辑：LRS 【新智元导读】让AI参加法考、高考、公务员考试的话，能拿几个offer？随着语言模型的能力越来越强，现有的这些评估基准实在有点小儿科了，有些任务的性能都甩了人类一截。通用人工智能（AGI）的一个重要特点是模型具有处理人类水平任务的泛化能力，而依赖于人工数据集的传统基准测试并不能准确表示人类的能力。最近，微软的研究人员发布了一个全新基准AGIEval，专门用于评估基础模型在「以人为本」（human-centric）的标准化考试中，如高考、公务员考试、法学院入

新智元

2023/05/15

2960

GPT-4太烧钱，微软想甩掉OpenAI？曝出Plan B：千块GPU专训「小模型」，开启必应内测

gpt gpu openai 产品模型

今年，无数场微软AI大会上，CEO纳德拉台前激动地官宣，将GPT-4、DALL·E 3整合到微软「全家桶」。

新智元

2023/09/27

3720

GPT-4太烧钱，微软想甩掉OpenAI？曝出Plan B：千块GPU专训「小模型」，开启必应内测

用GPT4进行指令微调

开源 gpt 模型数据性能

代码：https://instruction-tuning-with-gpt-4.github.io/

西西嘛呦

2023/04/08

1.5K0

300美元平替ChatGPT！斯坦福130亿参数「小羊驼」诞生，暴杀「草泥马」

机器人测试模型数据性能

---- 新智元报道编辑：桃子好困【新智元导读】继草泥马（Alpaca）后，斯坦福联手CMU、UC伯克利等机构的学者再次发布了130亿参数模型骆马（Vicuna），仅需300美元就能实现ChatGPT 90%的性能。继Meta的LLaMA模型开源后，AI界研究人员就在这个模型基础上衍生出许多版本。前段时间，斯坦福发布了Alpaca，是由Meta的LLaMA 7B微调而来，仅用了52k数据，性能可以与GPT-3.5匹敌。今天，斯坦福学者联手CMU、UC伯克利等，再次推出一个全新模型——1

新智元

2023/04/01

7740

Stability AI火速发布Llama 2微调模型FreeWilly，性能媲美ChatGPT！网友惊呼游戏规则已改变

开源 chatgpt 模型数据性能

正如OpenAI科学家Karpathy所说，对于整个大语言模型领域来说，这是极其重要的一天。在开放权重的所有模型中，Llama 2是最强大的一个。

新智元

2023/08/07

3610

Stability AI火速发布Llama 2微调模型FreeWilly，性能媲美ChatGPT！网友惊呼游戏规则已改变

一篇关于LLM指令微调的综述

测试模型数据性能 LLM

指令微调(IT)是提高大型语言模型(LLM)能力和可控性的关键技术。其本质是指在由(INSTRUCTION, OUTPUT)对组成的数据集上以监督的方式进一步训练LLM的过程，它弥合了LLM的下一个词预测目标与用户让LLM遵循人类指令的目标之间的差距。这篇文章对现有研究进行了系统的回顾、包括IT的一般方法、IT数据集的构建、IT模型的训练、以及不同模式，领域和应用的应用。

zenRRan

2023/09/11

6.9K0

ChatGPT一周岁啦！开源LLMs正在紧紧追赶吗？

开源 chatgpt 模型数据性能

自2022年底ChatGPT发布以来，其已经在人工智能的整个领域带来了翻天覆地的变化。通过对大型语言模型(LLM)进行指令微调，并从人类反馈中进行监督微调和强化学习，表明模型可以回答人类问题并在广泛的任务中遵循指令。在这一成功之后，对LLM的研究兴趣增强了，新的LLM在学术界和工业界频繁蓬勃发展。虽然非开源LLM(例如，OpenAI的GPT, Anthropic的Claude)通常优于它们的开源同行，但后者的进展很快。这对研究和商业都有至关重要的影响。在ChatGPT成立一周年之际，本文对这类LLMs进行了详尽的介绍。

zenRRan

2023/12/05

4700

击败Llama 2，抗衡GPT-3.5，Stability AI新模型登顶开源大模型排行榜

开源 gpt 测试模型数据

「我就午休了 30 分钟，我们的领域又变了？」在看到最新的开源大模型排行榜后，一位 AI 领域的创业者发出了灵魂追问。

机器之心

2023/08/08

2560

击败Llama 2，抗衡GPT-3.5，Stability AI新模型登顶开源大模型排行榜

单GPU实现99%ChatGPT性能，「原驼」火了：手机也能微调大模型

chatgpt gpu 模型手机性能

机器之心报道编辑：小舟、泽南「原驼」大模型输出的内容和 ChatGPT 比，人类也无法区分谁好谁坏。用微调的方法，现在羊驼模型也可以打 ChatGPT 了，这不是随便说说，有测试结果为证。最近，来自华盛顿大学的 QLoRA 成为了 AI 领域的热门，很多人把它形容为里程碑级、改变规则的技术。新方法训练出的模型在评测基准上可以做到 ChatGPT 99% 的能力，而且 33B 的版本只需要在单块 24GB GPU 上进行微调，65B 的版本只需要 46GB 的 GPU。现在用一块 RTX 409

机器之心

2023/05/31

6330

一文解决所有「语言模型」疑问：能不能训多个epoch？怎么微调效率高？需要多少条数据？

epoch 基础论文模型数据

过去几个月里，Meta的LLaMA引领了一场语言模型的开源狂潮，并且随着大众对语言模型训练研究的深入，很多问题也都有了答案。

新智元

2023/08/05

1.3K0

一文解决所有「语言模型」疑问：能不能训多个epoch？怎么微调效率高？需要多少条数据？

华人科学团队推出「思维链集」，全面测评大模型复杂推理能力

开源基础模型数据数学

然而，越来越多的研究人员声称，小于10B的模型也可以实现与GPT-3.5相当的性能。

新智元

2023/08/07

6000

Llama 2高调开源颠覆大模型圈！2万亿token训练，打不过GPT3.5

开源 token 测试模型数据

继LLaMA开源后，Meta今天联手微软高调开源Llama 2，一共有7B、13B、70B三个版本。

新智元

2023/08/07

7120

GLoRE：大型语言模型的逻辑推理能力探究

gpt 测试模型数据性能

zenRRan

2023/11/01

1.2K0

300美元复刻ChatGPT九成功力，GPT-4亲自监考，130亿参数开源模型「小羊驼」来了

开源模型内存数学性能

机器之心报道机器之心编辑部 OpenAI 的强大模型们，被开源社区复刻得差不多了。过去几个月，OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局，也成为其他研究赶超的对象。以 Meta 开源 LLaMA（直译为「大羊驼」）系列模型为起点，斯坦福大学等机构的研究人员先后在其上进行「二创」，开源了基于 LLaMA 的 Alpaca（羊驼）、Alpaca-Lora、Luotuo（骆驼）等轻量级类 ChatGPT 模型，大大降低了这类模型的研究、应用门槛，训练、推理成本一再降低。由于「二创」过

机器之心

2023/04/06

4510

300美元复刻ChatGPT九成功力，GPT-4亲自监考，130亿参数开源模型「小羊驼」来了

放弃RLHF吧！无需手动训练模型价值观，达特茅斯学院华人领衔发布全新对齐算法：「AI社会」是最好的老师

测试模型数据算法性能

训练大型语言模型的最后一步就是「对齐」（alignment），以确保模型的行为符合既定的人类社会价值观。

新智元

2023/08/05

2450

放弃RLHF吧！无需手动训练模型价值观，达特茅斯学院华人领衔发布全新对齐算法：「AI社会」是最好的老师

轻松打造家用版GPT-4！微软开源微调指令集：效果不输原版，中英双语都能用

开源 gpt 模型数据性能

---- 新智元报道编辑：LRS 【新智元导读】缺数据不是问题，直接用GPT-4生成的指令就够了，标注员恐怕要失业了！「指令」（Instruction）是ChatGPT模型取得突破性进展的关键因素，可以让语言模型的输出更符合「人类的偏好」。但指令的标注工作需要耗费大量的人力，即便有了开源的语言模型，资金不足的学术机构、小公司也很难训练出自己ChatGPT. 最近微软的研究人员利用之前提出的Self-Instruct技术，首次尝试使用GPT-4模型来自动生成语言模型所需的微调指令数据。论文

新智元

2023/05/09

3980