前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型

微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型

作者头像
深度学习与Python
发布于 2023-08-09 01:03:27
发布于 2023-08-09 01:03:27
3310
举报

整理 | 核子可乐,褚杏娟

Chatbot Arena 等排行榜已经反复证明,数十亿美元支撑起来的 ChatGPT 仍然是聊天机器人领域无可争辩的王者。而人们只能调用其 API ,无法私有化部署,无法自己训练调整。因此,大家现在热衷于用开源大模型来构建 AI 聊天机器人,希望能在性能层面达到甚至超越 ChatGPT 等专有模型的水平。

近期,微软出人意料地发布了一个只有 13 亿参数但具有大模型推理能力的开源小模型 Orca,它使用创新的训练方法,成为首位敢于同专有模型叫板的挑战者。而且,Orca 的规模仅是其竞争对手的几十分之一(甚至可能只相当于 GPT-4 的几百分之一)。令人难以置信的是,Orca 在某些场景下甚至表现更好,而且完全碾压迄今为止所谓最强开源模型 Vicuna。

论文地址:https://arxiv.org/pdf/2306.02707.pdf

那么,Orca 究竟是怎么做到的?

新的训练方式:巧劲胜于蛮力

在说起 AI 模型训练时,资金投入基本已经成为首要前提。具体来讲,谈到模型中的几十亿参数,这背后的涵义包括:

  • 光是收集训练数据就要花上几百万美元;
  • 基础模型的训练还要再花上几百万美元;
  • 模型的微调也可能花费几十万美元;
  • 更不要说人类反馈强化学习(RLHF)。如果公司单季度收入达不到数十亿美元的量级,这个环节最好碰都别碰。

所以说起“大语言模型”的竞逐,其实全世界有资格参与进来的也不过四、五家公司。

因此,为了在性能层面跟 ChatGPT 等大体量专有模型相对抗,研究人员别无选择,只能选择以巧劲破解对方的财力。而在生成式 AI 领域,所谓的“巧劲”正是“蒸馏”(distillation)。

简单来说,蒸馏就是选位优秀的同志,再把它的响应能力作为小模型的学习素材。为什么要这么干?非常简单:ChatGPT 虽然拥有数十亿个参数,但只有“少数”参数真正重要。从原理层面来讲:

  • 我们必须先让模型拥有足够多的参数,才能保证其掌握现实世界中的种种复杂表征。
  • 这样做的结果就是,大部分模型中的大部分参数始终处于未使用状态。

研究人员意识到这个现实问题后,得出了以下结论:假设 GPT-4 这样的先进模型未来仍须以体量增长作为必要条件,那在拥有了训练得到的大模型之后,能不能再用一个比其小得多的模型简单重现大模型的部分或者全部特性?

换句话说,在引导 AI 模型学习现实情境时,能不能先用大语言模型完成其中最繁重的“模式提取”任务,再让它们作为“老师”指导那些体量较小的模型?

答案是可以。蒸馏的过程就是这样一种 AI 学习方法,以大体量模型为模板训练小体量模型。所以开源社区的最佳 AI 聊天机器人开发流程基本可以概括为:

  • 对大语言模型(教师)进行采样,以构建{用户指令,输出}的查询数据集。这里常见的选项当然是 ChatGPT。
  • 接下来,选择一个较小的模型(参数量大约在 5 亿到 150 亿之间)作为“学生”。
  • 学生的任务就是尽量减少自身输出与教师输出间的差异,学习它、模仿它。
  • 这样,小体量模型就能够掌握教师的风格并输出类似结果,并把训练和运行成本控制在更低的水平。

这样新的先进模型就此诞生,且成本仅为大模型的百分之一。听起来不错,但现实世界显然没那么美好。

虽然这些模型能够有效学习教师的风格和语言连续性(例如 Vicuna 或 Alpaca),但却往往无法掌握对方的强大推理能力。也就是说,在对复杂任务做出评估时,其表现会远逊于自己的老师。没错,是“远远”逊于。

Orca 碾压开源模型, 赶超 ChatGPT

现在,大多数开源模型的性能其实被故意夸大了。Vicuna、Alpaca 等开源模型的出色性能,可能是研究人员精心挑选的结果。直到现在,它们在推理基准测试上的表现仍一言难尽。

例如,虽然 Vicuna 在衡量复杂任务的基准测试中,已经能在风格和语言连续性方面达到 GPT-4 的 89% 左右,可一旦面对七步逻辑推演等挑战,双方的差距就会扩大到令人尴尬的 5400%。换句话说,这时 GPT-4 的性能达到 Vicuna 的 55 倍。

Orca 的研究人员意识到了这个问题,并努力做出了改进。在 Big-Bench Hard 上使用零样本提示的性能测试中,括号内的 2900% 代表 Orca 相对 Vicuna 的改进程度。

Orca 在所有任务上的综合表现略好于 ChatGPT,但明显落后于 GPT-4,比 Vicuna 高出 113%。与 AGIEval 的结果类似,Vicuna 在此基准测试的复杂推理任务上表现不佳。Orca 虽然明显优于 Vicuna 且略优于 ChatGPT,但平均性能为 49.7%,落后于 GPT-4 26%。

测试中,Orca 在时间序列(时间推理)、导航(遵循导航指令)、彩色物品(识别给定上下文的对象颜色)方面分别优于 ChatGPT 102%、3.6% 和 1.7%。Orca 在因果判断任务上表现出色,性能与 GPT-4 相当,同时超过 ChatGPT 4.7%。在检测翻译错误上,Orca 和 ChatGPT 水平差不多。Orca 在需要各种知识的任务(例如体育、艺术家、幽默等)方面表现不如 ChatGPT,但在电影推荐方面表现更好。

在 Web of Lies 测试中,Orca 甚至把 GPT-4 也斩落马下,性能比这套体量百倍于自身的明星模型还高出 3%。Vicuna 自然也不在话下,但 Orca 的得分比其高出 24.3%。

来源:Microsoft (Web of lies example)

令人印象深刻的是,在以上所有任务中,Orca 的平均性能已经超越 GPT-3.5。这不仅是开源模型的一个新里程碑,同时也稳定将性能保持在 Vicuna 的两倍以上。

虽然在大多数情况下,Orca 仍落后于无可争议的王者 GPT-4,但这种以小搏大、碾压其他开源同侪并偶尔超越老大哥的表现,究竟是怎么实现的?

Orca 研究人员做了什么

当前小模型通过指令微调来模仿大模型的方式主要存在以下问题:

  • 指令简单且缺乏多样性。
  • 收集的数据规模小,任务缺乏多样性。
  • 模仿信号有限,只能通过老师模型生成的 <query、response> 进行模仿学习。
  • 评估标准较弱。用大模型对小模型进行指令调优后的结果一般依靠 GPT-4 进行自动评估,例如使用 GPT-4 响应的结果进行指令调优后的模型倾向于生成更长的文本,同时 GPT-4 在候选响应的顺序上有偏差。

Orca 的研究人员主要采取了以下两项重要创新举措:

1. 解释性训练

在 Orca 之前,Vicuna 和 Alpaca 等模型只能从 GPT-4 等模型中采样简单的{用户指令,回答}查询来进行蒸馏,借此训练新模型模仿自己的老师:

但在 Orca 这边,研发思路发生了巨大转变。

研究人员没有像之前那样简单提取查询,而是引入了第三项约束条件,即系统指令。也就是说,除了用户指令和模型答案之外,微软研究人员又额外添加了一系列指令,旨在对学生模型的行为和思考过程进行建模,如下图所示:

这并不难理解:学生不仅需要模仿 GPT-4 的输出质量,还需要模仿老师的思维过程,从而掌握类似的推理能力。

2. 通过中间教学实现渐进式学习

截至目前,大多数开源模型只使用一对{学生,教师}素材。但在 Orca 却有两个老师。首先自然是 ChatGPT。作为第一位老师,它负责指导学生模型解决那些不太复杂的查询。之后再经由 GPT-4 提供更复杂的查询指引,让学生根据之前掌握的知识做进一步学习。

这个过程跟人类的学习方式非常相似。我们在学习乘除法之前,先得掌握加减法的诀窍,循序渐进突破一道道难关。而且与单纯使用 GPT-4 的训练方法比较,渐进式学习的效果确实更胜一筹。

结束语

目前越来越大、耗能越来越高的发展模式是否将很快走向终点,还有待验证,但如今每周几乎都会出现突破现有游戏规则和技术边界的新成果,大家都在效率方面做了很多努力。

从 Orca 凭借一点小技巧就能碾压众多开源模型来看,我们对于 AI 技术只能说还知之甚少。而作为已经凭借 ChatGPT 在市场上占据绝对优势的王者,微软率先出手,再将开源模型升级到新的维度。开源模型或将开启属于自己的新时代。

参考链接:

https://medium.com/@ignacio.de.gregorio.noblejas/orca-microsoft-7c78ca03c803

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT
自ChatGPT API开放后,大量的研究都选择利用ChatGPT和GPT-4等大型基础模型(LFM)的输出作为训练数据,然后通过模仿学习来提升小模型的能力。
新智元
2023/08/05
2990
「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT
2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载
鱼羊 编辑整理 量子位 | 公众号 QbitAI 2000块,调教出一个达到ChatGPT九成功力的开源大模型。 还是被GPT-4亲自盖章认证实力的那种。 这事儿,一群主要来自加州大学伯克利分校的研究人员做到了。 如图中所见,这个模型名叫Vicuna (小羊驼)。 没错,熟悉的配方,熟悉的味道 。Vicuna同样是基于Meta开源的LLaMA大模型(大羊驼)微调而来。 与此前斯坦福大学基于LLaMA的Alpaca(还是羊驼)不同的是,尽管也薅了ChatGPT羊毛——用了ChatGPT生成的数据,但Vic
量子位
2023/04/06
7820
2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载
用GPT4进行指令微调
代码:https://instruction-tuning-with-gpt-4.github.io/
西西嘛呦
2023/04/08
1.5K0
用GPT4进行指令微调
「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%
最近,大型语言模型获得了前所未有的关注度。在更迭迅速的情况下,开源模型与闭源模型的发展并驾齐驱,同时呈现百花齐放的态势。
机器之心
2023/08/07
2060
「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道
---- 新智元报道   编辑:LRS 【新智元导读】语言模型动物园加入新成员Koala,更符合真实用户需求! 自从Meta开源LLaMA之后,学术界内各种类ChatGPT模型如雨后春笋般开始发布。 先是斯坦福提出了70亿参数Alpaca,紧接着又是UC伯克利联手CMU、斯坦福、UCSD和MBZUAI发布的130亿参数Vicuna,在超过90%的情况下实现了与ChatGPT和Bard相匹敌的能力。 最近伯克利又发布了一个新模型「考拉Koala」,相比之前使用OpenAI的GPT数据进行指令微调,Koa
新智元
2023/05/09
3440
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道
训练14分钟,超越Alpaca!华人团队发布「飞天羊驼」,基于LLM的数据过滤新范式
近期,指令微调(IFT)已经被作为预训练大语言模型(LLMs)获得指令遵循能力的关键训练阶段。
新智元
2023/08/07
3610
训练14分钟,超越Alpaca!华人团队发布「飞天羊驼」,基于LLM的数据过滤新范式
放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师
训练大型语言模型的最后一步就是「对齐」(alignment),以确保模型的行为符合既定的人类社会价值观。
新智元
2023/08/05
2550
放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师
一份来自Huggingface的大模型进化指南:没有必要完全复现GPT-4
ChatGPT爆火之后,AI界进行了一场“百模大战”。近日,Huggingface的机器学习科学家Nathan Lambert,在一篇博文中对当前入局大模型的力量,从开源视角进行了梳理,并提出了很多深刻的见解。
大数据文摘
2023/08/08
3370
一份来自Huggingface的大模型进化指南:没有必要完全复现GPT-4
GPT-4太烧钱,微软想甩掉OpenAI?曝出Plan B:千块GPU专训「小模型」,开启必应内测
今年,无数场微软AI大会上,CEO纳德拉台前激动地官宣,将GPT-4、DALL·E 3整合到微软「全家桶」。
新智元
2023/09/27
3780
GPT-4太烧钱,微软想甩掉OpenAI?曝出Plan B:千块GPU专训「小模型」,开启必应内测
300美元平替ChatGPT!斯坦福130亿参数「小羊驼」诞生,暴杀「草泥马」
---- 新智元报道   编辑:桃子 好困 【新智元导读】继草泥马(Alpaca)后,斯坦福联手CMU、UC伯克利等机构的学者再次发布了130亿参数模型骆马(Vicuna),仅需300美元就能实现ChatGPT 90%的性能。 继Meta的LLaMA模型开源后,AI界研究人员就在这个模型基础上衍生出许多版本。 前段时间,斯坦福发布了Alpaca,是由Meta的LLaMA 7B微调而来,仅用了52k数据,性能可以与GPT-3.5匹敌。 今天,斯坦福学者联手CMU、UC伯克利等,再次推出一个全新模型——1
新智元
2023/04/01
7810
300美元平替ChatGPT!斯坦福130亿参数「小羊驼」诞生,暴杀「草泥马」
IBM 入局:开源自对齐方法训练「单峰骆驼」,比GPT4更值得信赖
机器之心报道 编辑:Panda 用最少的人类监督,从零实现原则驱动的大语言模型的自对齐,IBM 研究院淦创团队在这方面取得了新的成果。他们的结果表明,仅仅通过不到300行的人工标注,他们的方法(即SELF-ALIGN)便能让一个65B的LLaMA基础语言模型在TruthfulQA上超越GPT-4。 大语言模型(LLM)除了性能强大之外,可靠且符合道德伦理也至关重要。为了确保大语言模型实现这些目标,需要它们的输出与人类的意图保持一致。我们通常把这个任务称为对齐(alignment)。 为了满足这一需求,Cha
机器之心
2023/05/09
6580
IBM 入局:开源自对齐方法训练「单峰骆驼」,比GPT4更值得信赖
用ChatGPT训练羊驼:「白泽」开源,轻松构建专属模型,可在线试玩
机器之心报道 编辑:泽南 高质量数据,由 ChatGPT「自我博弈」生成。 ChatGPT 出现之后,科技公司正在争相追赶,学界也在不断寻找开源且轻量的解决方案。 此前,人们基于 Meta 的 LLaMA 构建了一系列参数较少的新模型,只用几十亿参数就可以获得接近 GPT-3.5 的效果。然而从 ChatGPT 和 GPT-4 的发展中我们可以看到,高质量的标注数据至关重要,OpenAI 对数据和标注工作下了很大力气。 对于学界来说,很难在短期做同样的事。最近,有研究者尝试通过让 ChatGPT 自我对话生
机器之心
2023/04/06
6730
用ChatGPT训练羊驼:「白泽」开源,轻松构建专属模型,可在线试玩
IBM加入战局!任意大模型低成本变ChatGPT方法开源,个别任务超GPT-4
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 科幻中有机器人三原则,IBM说不够,要十六原则 。 最新大模型研究工作中,以十六原则为基础,IBM让AI自己完成对齐流程。 全程只需300行(或更少)人类标注数据,就把基础语言模型变成ChatGPT式的AI助手。 更重要的是,整个方法完全开源,也就是说,任何人都能按此方法,低成本把基础语言模型变成类ChatGPT模型。 以开源羊驼LLaMA为基础模型,IBM训练出Dromedary(单峰骆驼),在TruthfulQA数据集上甚至取得超越GPT-4的成绩
量子位
2023/05/12
3040
IBM加入战局!任意大模型低成本变ChatGPT方法开源,个别任务超GPT-4
微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源
如你我所见,像 GPT-4、PaLM 等前沿语言模型已经展现了出色的推理能力,例如回答复杂问题、生成解释,甚至解决需要多步推理的问题,这些能力曾被认为是 AI 无法达到的。这样的能力在较小的语言模型中并不明显,因此现在的挑战就是如何利用对大型语言模型不断增长的知识,进而提升较小模型的能力。
机器之心
2023/12/05
3800
微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源
开源大型语言模型(llm)总结
大型语言模型(LLM)是人工智能领域中的一个重要研究方向,在ChatGPT之后,它经历了快速的发展。这些发展主要涉及以下几个方面:
deephub
2023/08/30
5080
开源大型语言模型(llm)总结
重磅内幕:OpenAI即将开源新模型!开源社区的繁荣,全靠大厂「施舍」?
---- 新智元报道   编辑:Aeneas 好困 【新智元导读】OpenAI再次开源,是科技大厂的「施舍」还是开源社区的「救赎」? 就在刚刚,根据The Information的最新爆料,OpenAI即将发布一款全新的开源大语言模型。 虽然目前还不清楚,OpenAI是不是打算利用即将开源的模型,来抢占Vicuna或其他开源模型的市场份额。 但几乎可以肯定的是,新模型的能力大概率无法与GPT-4甚至GPT-3.5相竞争。 毕竟,270亿美元的估值也决定了,OpenAI最先进的模型将会被用于商业目的,
新智元
2023/05/22
1970
重磅内幕:OpenAI即将开源新模型!开源社区的繁荣,全靠大厂「施舍」?
低成本开源聊天机器人Vicuna:可达到ChatGPT/Bard 90%以上水平
出品 | OSC开源社区(ID:oschina2013) 大型语言模型 (LLM) 的快速发展彻底改变了聊天机器人系统,从而实现了前所未有的智能水平,譬如 OpenAI 的 ChatGPT。但 ChatGPT 的训练和架构细节仍不清楚,阻碍了该领域的研究和开源创新。受 Meta LLaMA 和 Stanford Alpaca 项目的启发,来自加州大学伯克利分校、CMU、斯坦福大学和加州大学圣地亚哥分校的成员,共同推出了一个 Vicuna-13B 开源聊天机器人,由增强的数据集和易于使用、可扩展的基础设施支持
程序猿DD
2023/04/11
7690
低成本开源聊天机器人Vicuna:可达到ChatGPT/Bard 90%以上水平
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
机器之心报道 机器之心编辑部 OpenAI 的强大模型们,被开源社区复刻得差不多了。 过去几个月,OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局,也成为其他研究赶超的对象。 以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型为起点,斯坦福大学等机构的研究人员先后在其上进行「二创」,开源了基于 LLaMA 的 Alpaca(羊驼)、Alpaca-Lora、Luotuo(骆驼)等轻量级类 ChatGPT 模型,大大降低了这类模型的研究、应用门槛,训练、推理成本一再降低。 由于「二创」过
机器之心
2023/04/06
4560
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
一文解决所有「语言模型」疑问:能不能训多个epoch?怎么微调效率高?需要多少条数据?
过去几个月里,Meta的LLaMA引领了一场语言模型的开源狂潮,并且随着大众对语言模型训练研究的深入,很多问题也都有了答案。
新智元
2023/08/05
1.3K0
一文解决所有「语言模型」疑问:能不能训多个epoch?怎么微调效率高?需要多少条数据?
超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
---- 新智元报道   编辑:桃子 拉燕 【新智元导读】碾压GPT-4识图能力的多模态生成模型来了。华人团队最新提出的InstructBLIP在多项任务上实现SOTA。 GPT-4看图聊天还没上线,就已经被超越了。 近来,华人团队开源了多模态基础模型InstructBLIP,是从BLIP2模型微调而来的模型。 BLIP家族中增加了一个新成员:InstructBLIP 据介绍,InstructBLIP模型更擅长「看」、「推理」和「说」,即能够对复杂图像进行理解、推理、描述,还支持多轮对话等。 比如
新智元
2023/05/15
5690
超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
推荐阅读
「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT
2990
2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载
7820
用GPT4进行指令微调
1.5K0
「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%
2060
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道
3440
训练14分钟,超越Alpaca!华人团队发布「飞天羊驼」,基于LLM的数据过滤新范式
3610
放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师
2550
一份来自Huggingface的大模型进化指南:没有必要完全复现GPT-4
3370
GPT-4太烧钱,微软想甩掉OpenAI?曝出Plan B:千块GPU专训「小模型」,开启必应内测
3780
300美元平替ChatGPT!斯坦福130亿参数「小羊驼」诞生,暴杀「草泥马」
7810
IBM 入局:开源自对齐方法训练「单峰骆驼」,比GPT4更值得信赖
6580
用ChatGPT训练羊驼:「白泽」开源,轻松构建专属模型,可在线试玩
6730
IBM加入战局!任意大模型低成本变ChatGPT方法开源,个别任务超GPT-4
3040
微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源
3800
开源大型语言模型(llm)总结
5080
重磅内幕:OpenAI即将开源新模型!开源社区的繁荣,全靠大厂「施舍」?
1970
低成本开源聊天机器人Vicuna:可达到ChatGPT/Bard 90%以上水平
7690
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
4560
一文解决所有「语言模型」疑问:能不能训多个epoch?怎么微调效率高?需要多少条数据?
1.3K0
超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
5690
相关推荐
「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档