首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

理解开源语言模型的影响

编者按:长期以来,大的科技公司都在训练LLM上投入了巨额资金,但随着竞争的加剧,它们变得越来越不愿意共享技术和研究成果。近期,Tech Talks 的创始人 Ben Dickson 在 Tech Talks 上发表了一篇名为"Understanding the impact of open-source language models"《理解开源语言模型的影响》的文章,文章中描述 Cerebras Systems的CEO Andrew Feldman在最近的一次采访中强调了开源LLM的重要性。他表示:开源LLM的成功在于它们满足了用户的多样化需求,使得企业能够掌握自己的命运。这些模型不仅可以根据不同领域的特定任务取得优异表现,而且可以通过精细调整在较低的成本下进行定制化。开源LLM的兴起为用户提供了更多选择,使得他们能够根据自身需求和预算灵活地选择合适的模型和训练方式。这一趋势有望在未来继续发展,并为各行各业的创新和解决问题带来更多可能性。我们特将该内容编译出来和各位客户、合作伙伴朋友分享。如需转载,请联系我们(ID:15937102830)】

在似乎大型科技公司即将主导大型语言模型(LLM)市场时,一波新的开源LLM出现,打破了这一观点。开源社区在创建能够满足各种计算、隐私和数据需求的模型方面付出了巨大努力。这些模型是ChatGPT和其他只能通过API接口访问的LLM的替代品

在最近接受TechTalks采访时,Cerebras Systems的首席执行官安德鲁·费尔德曼(Andrew Feldman)讨论了封闭模型的影响以及创建开源LLM的努力,并分享了创建开源LLM的经验和教训,以及这些模型将开启的新应用。

01

闭源与开源

语言模型

“一部分社区开始向更少开放的方向发展”

直到最近,人工智能界存在着大量的发表和信息共享。随着对人工智能实验室增加了对其技术实现盈利或寻找研究资金的压力,一部分社区开始向更少开放的方向发展。一个描述性的例子是OpenAI最新的LLM,GPT-4的技术报告,其中对模型的架构、训练数据和成本几乎没有详细信息。

“我们开始看到的是一种根本性的变化。随着这些大公司花费了数十亿甚至数百亿美元来训练这些模型,他们越来越不愿意分享,”费尔德曼说道。

争夺生成式人工智能市场的竞赛激励着大型科技公司及其相关实验室保持他们的研究机密,以在竞争对手面前占据优势,尤其是因为训练和测试非常大型的模型非常昂贵。黑盒API和应用程序逐渐成为发布新模型的事实标准。

但是在最近几个月,我们看到了一系列开源模型的发布,这些模型提供了对闭源商业产品(如DALL-E 2和ChatGPT)的替代选择。LLM社区在发布了Alpaca、Vicuna、Dolly 2、MPT-7B和Cerebras-GPT等模型后变得格外活跃。这些模型使组织在应用中部署LLM时有更多选择的可能性。

“我认为企业,无论是大型企业还是小型企业,都不希望在语言模型方面依赖于一两个供应商。他们希望掌控自己的命运,”费尔德曼说道。“超大型语言模型在很多方面都非常出色。但业界已经表明,在特定领域的任务中,规模小得多的模型可以胜过这些大型通用模型。而在万亿个标记上训练和微调处于10亿到400亿参数范围内的模型对大多数公司来说是完全可以实现的。因此,在某种程度上,开源领域出现了爆炸性增长,部分是对封闭或AI工作面临的威胁的反应。”

拥有对模型、训练数据和应用的控制是开源语言模型的吸引力之一。由于开源模型的规模比非常大型的LLM小几个数量级,因此它们更容易运行和定制。

“我们发现,大型企业希望使用他们自己的专有数据训练这些模型,并构建狭义、特定领域的模型,以及为他们所需的精确调优,”费尔德曼说道。

02

开源LLM

如何取得成功

“对于LLM,是训练参数重要,还是模型大小重要”

“很长一段时间以来,行业认为参数越多越好。我认为OpenAI在某种程度上开创了这种思维方式。从一般意义上讲,这是正确的,”费尔德曼说道。“但从具体意义上说,这是完全错误的。”

2022年,DeepMind的研究人员在一篇论文中表明,通过训练更多的数据而不是增加模型大小,可以提高语言模型的性能。该论文中介绍的模型Chinchilla的参数范围从160亿到700亿。Chinchilla模型在训练过程中使用了1.4万亿个标记,平均每个参数使用了约20个标记。相比之下,GPT-3模型有175亿参数,使用了3000亿个标记,平均每个参数使用了约2个标记。因此,Chinchilla在许多任务上表现优于像GPT-3这样更大的模型。同时,运行和微调Chinchilla模型的成本要低得多。

“[Chinchilla] 可以通过在更多数据上训练较小的模型来实现令人印象深刻的结果,并创建和开源大型数据集,”费尔德曼说道。“有了这个洞见,即在固定预算下,数据可能比参数更强大,就在开源社区中引发了大量的在10亿到400亿参数范围内的工作,而在1000亿到5000亿参数范围内的工作相对较少。”

LLaMA是Meta发布的一系列模型的成功案例,它再次证明了训练数据的重要性超过模型大小。借鉴了从Chinchilla中得到的经验教训,Meta继续增加每个模型参数的训练标记数量。

“在LLaMA论文中,他们展示了通过使用更多数据(每个参数50或100个标记)可以继续获得优势,”费尔德曼说道。“在每个参数大约20或30个标记之后,你会发现效益递减。但是如果你愿意投入计算周期,花费在训练计算上的金钱,你的模型的准确性将持续提高。”

这使得开发人员在模型和训练方案方面具有更多的灵活性,可以根据预算、应用程序、数据和使用频率进行选择。例如,如果你希望进行快速且频繁的推理,你可能希望将预算用于在更多数据上训练一个较小的模型。这会增加训练的成本,但会减少推理的成本。另一方面,如果你不太担心推理成本,你可以通过在较少的标记上训练一个较大的模型来降低训练成本。然而,在推理阶段你将支付更高的费用。

“对于那些进行生产工作的人来说,你会面临一系列非常有趣的权衡,”费尔德曼说道。

03

对开源LLM

进行微调

“对参数进行微调将是一个非常经济高效的训练方式”

与科学研究不同,科研通常在非常普遍的基准测试上评估模型,而对于实际应用而言,专业化非常重要。

费尔德曼表示:“在大多数生产应用中,广泛性对任何人都没有帮助。大多数企业希望解决一些非常具体的问题,例如一系列金融问题、税务问题、法律问题或生物医学问题。”“这些都是非常具体的任务,因此模型的广泛性远不如专业性重要。”

同时,许多企业拥有自有的数据,希望用这些数据对模型进行训练。开源模型的一个令人兴奋的机会就是微调的高效性。一旦你在大规模数据集上训练了基础模型,对其进行下游任务的微调将非常经济高效。虽然非常大型的LLM需要昂贵的计算设备进行微调,但许多开源LLM可以以非常低的成本进行微调,甚至可以在消费级GPU上进行微调。

04

LoRA是一种能够

的低成本进行微调的方案

“用干净的数据训练LoRA,将是未来特定领域工作的发展方向之一”

费尔德曼表示:“通过以非常具体、非常干净的数据对这些开源基础模型进行训练,你可以以不多的花费在其基础上构建,这些数据针对一个非常具体的领域。”“毫不奇怪,模型在该特定领域非常准确。这是一个强大的要素,我们将会看到越来越多的领域特定工作。我认为这绝对是未来的方向之一。”

费尔德曼表示:“GPU是一台相对较小的机器,如果你想使用400、600或1000台,你必须花费大量的时间、精力和金钱来分配工作任务。”“我们认为这在各个方面都不是一个好主意。你应该建立不需要这种分布式计算的硬件。”

“当你构建基础设施并将其投入到开源社区时,你希望人们用你的发明做出酷炫的东西。然后你可以用它来解决有趣的问题,我们对已经出现的成果感到非常自豪。”

源于硅谷、扎根中国,上海殷泊信息科技有限公司 (MoPaaS魔泊云) 是中国领先的人工智能(AI) 平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能云平台专利技术,MoPaaS 魔泊云在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的GPU算力优化和规模化AI模型开发运维 (ModelOps) 能力和服务。MoPaaS魔泊云 AI平台已经服务在教学科研、工业制造、能源交通、互联网、医疗卫生、政府和金融等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS魔泊云致力打造全方位开放的AI技术和应用生态。同时,MoPaaS魔泊云在浙江嘉兴设立安尚云信信息科技有限公司全资子公司,致力于推动当地的科技产业发展,并积极培养本地专业技术人才,创造更大的社会和经济效益。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者(Strong Performer)。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OpfxukNhRf8XrahorQDUgMWg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券