前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >国产大模型追上GPT4有希望?天才黑客揭秘GPT4训练秘籍

国产大模型追上GPT4有希望?天才黑客揭秘GPT4训练秘籍

原创
作者头像
成江东
发布2023-06-22 22:19:32
3160
发布2023-06-22 22:19:32
举报
文章被收录于专栏:强人工智能之路

我们知道,OpenAI的GPT1,GPT2的训练方法是开源的,然而GPT3和GPT3以后的模型都没有开源。国产大模型和开源大模型目前已经逐步追上3.0、3.5的水平,但离GPT4都差得很远。GPT3有1750亿参数,所以很多人认为可能GPT4有1万亿参数,但究竟是不是这样,其实除了OpenAI的开发人员,没有人知道。

今年6月21号Latent Space的播客(一档关于AI 工程师的播客)中,乔治·霍兹揭秘了GPT4的训练方法!

先介绍下乔治·霍兹,他17 岁成为第一个解锁iPhone的人,让其支持非 AT&T 的其它 GSM 网络,他将这台越狱的iPhone放到eBay上拍卖,换到了一辆跑车和3台未破解的iPhone。

他目前是自动驾驶解决方案http://Comma.ai 的创始人。最近新创立了一家提供“个人计算集群”的小公司Tinycorp (深度学习框架 tinygrad 以及最近发布的 tinybox 背后的公司)。

播客访谈较长,历时1小时23分钟,我们把其中关于GPT4的部分摘录出来:

GPT-4的真正结构是一种“头部”结构,然后它是一个八路混合模型。混合模型是当你无法找到新的创新点时,通常会选择的模型。所以你看,这就是一个混合模型,他们训练了同一个模型八次,然后使用了一些小技巧,其实他们进行了16次推理,但这与模型的多模态性无关。

多模态只是一个视觉模型附着在上面的部分。多模态性其实很明显,你只需要将视觉模型放入与你的语言模型相同的标记空间即可。所以混合并不是关于视觉或语言的部分,它只是与我们无法制作大于2200亿参数的模型有关。

我们希望模型能更好,那么我们该如何提高呢?我们可以训练它更长时间,但我们已经尽力了,并且收效逐渐减小。好吧,那么我们试试看专家混合模型,我们试试八个专家。其实,每当一家公司保密,除了苹果以外,都是因为他们在隐藏一些并不那么酷的东西。人们总是错误地认为他们隐藏这些信息是因为这些信息很酷,必须是很了不起的,有一万亿个参数。但实际上,它只是比GPT-3稍大一些,他们只是做了一个八路的专家混合,只是花了八倍的资金。但这并不是真正的创新,任何人都可以花八倍的钱去实现这一点。

通俗的说法就是:GPT-4是8个一模一样的2200亿参数模型连起来做的,只是训练数据不同,8个专家模型(mixture expert model),一共1.76万亿参数,每次推理要做16次循环推理。


精华文章推荐阅读:

1. 站在大时代的边上:ChatGPT使用姿势大全

2. 一文搞懂chatGPT与New Bing的本质区别

3. 星星之火,可以燎原:微软154页GPT-4测试报告精华版

4. 人人能看懂的图解GPT原理说明系列(一):神经网络基础知识

5. 终于有人用GPT炒股了:最高400%利润

6. 真IPhone时刻来临|24小时登顶热榜第一 : ChatGPT官方IOS版上线!!!

7. 马化腾、比尔·盖茨、李开复、陆奇论本次人工智能革命

8. 神级提示词量身打造全学科1对1AI导师

9. 使用开源大语言模型私有化部署打造数据库专家系统

10. GPT 官方最佳实践指南

11. 面向初学者的人工智能教程(1)--人工智能简介

12.GPT王炸更新:新函数调用功能、16K上下文、更低的价格

13.追平GPT3.5!5道推理题测试国产大模型与GPT差距

知识星球推荐:

目前全国最大的关于AI的知识星球和社区,刚突破2.5万成员,2个月时间,已发布了11个专栏、67+课程,产生了5K+篇帖子,日均95+篇;精华帖子122+篇,日均2.5篇。并组织了北京、深圳等多个城市的线下交流会。扫下面的优惠卷加入星球可优惠69元,对内容不满意72小时可无条件退款。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档