OCI(Oracle Cloud Infrastructure)提供的Generative AI Service是完全管理的服务,提供一组可定制的LLM、用户可以通过一个API构建生成式AI应用程序。用户可以选择来自Meta和Cohere的预训练基础模型,通过微调等方式创建自己的数据集,并将其托管在专用的GPU AI集群。Generative AI Service用于大规模地理解、生成和处理人类语言。例如,生成文本、摘要、数据提取、分类、对话等等。
图片来自Oracle官网
预训练的模型分为三类,文本生成、文本摘要,及嵌入。
微调与推理
微调功能用于对预训练的基础模型在指定的数据集上进行优化,以改善模型在特定任务上的性能和效率。当预训练的基础模型无法按预期执行任务时可以通过微调进行优化。OCI Generative AI Service使用T-Few fine tuning进行快速高效的定制。T-Few是一种高效的参数微调技术,是附加的Few-Shot Parameter-Efficient Fine-Tuning,仅更新模型的一部分权重(参数)可以以更低的成本获得更准确的结果。它在模型中添加额外的层,占基线模型大小的0.01%,在微调的过程中仅更新该层的权重(参数)。与更新全部的权重相比,将权重更新隔离到T-Few层显著减少了训练时间和成本。
T-Few Fine-tuning过程
在机器学习中,推理是指使用经过训练的ML模型根据新的输入数据做出预测或决策的过程。在语言模型中,推理是指模型接收新的文本作为输入,基于训练和微调所学习的内容生成文本。
OCI Generative AI Service的微调工作流程
OCI Generative AI Service的推理工作流程
专用AI集群
专用AI集群是基于GPU的计算资源,用于托管用户的微调和推理的工作负载。OCI Generative AI Service建立一个专用AI集群,包括专用的GPU和专用的RDMA集群网络用以连接这些GPU。GPU被分配用户的生成式AI服务后将与其他的GPU隔离。集群的类型分为微调和托管。
微调:用以训练预训练的基础模型。
托管:托管用户定制的推断模型端点。
降低推理成本
推理的计算成本非常昂贵,每次发送请求时,都会收到回复,这会产生相关的成本。每个AI托管集群可以托管一个基础模型端点和高达50个经过微调的定制化端点。它们可以同时处理请求。这些模型共享同一GPU资源,可以将其理解为多租户,从而减少推理的相关成本。定制化的端点可以停用,之后可以再度开启。GPU由于其超强的并行处理能力,特别适合深度学习任务,但GPU的内存是有限的,当用户在模型之间切换时,由于需要重新加载完整的GPU内存才能开始处理数据,会带来巨大的开销,开销包括将模型从系统内存传输到GPU内存所需的时间和计算资源,以及准备使用新模型处理GPU所需的初始化设置任务。
在OCI Generative AI Service中,由于使用了T-Few技术,这些模型共享大部分的权重,它们之间只有轻微的变化,因此,它他们可以在专用的AI集群中相同的GPU上部署,模型中的公用部分仅需加载到内存中一次,当发生模型切换时,产生的开销非常小。
本文分享自 MySQL解决方案工程师 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有