首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI 大模型加速AI在千行百业的应用

当前,AI技术应用存在两大困难:一是模型训练数据标注量大、数据标注所需的时间成本高,如果标注的数据量不够充分,就会导致模型的准确度达不到应用场景的实际需求,进而导致应用开发的门槛高;另一方面是使用场景碎片化,为一个具体使用场景打造的模型不能应用到其他场景中,很多应用场景的具体模型存有重复开发、反复建模和数据浪费的情况。

原本的定制化应用开发中数据和行业知识无法积累,无法规模化复制,重新定制新的AI应用场景需要一切从头再来。

AI的进一步推广和更多具体使用场景的落地,需要提高数据标注的利用效率、降低开发成本,开发出具有通用性的模型,使得AI技术能够大规模复制。

因此,预训练大模型应运而生。“预训练大模型”即使用通用数据来初始化训练通用大模型,然后再根据各行各业、具体使用场景的需求有针对性地进行数据微调,以通用大模型套小模型的方式是成功破局AI应用场景碎片化问题的关键。

预训练技术最早应用在计算机视觉领域。2017年,Vaswani等提出Transformer架构,奠定了当前大模型领域主流的算法架构基础。2018年,谷歌提出了大规模预训练语言模型BERT(基于 Transformer的双向深层预训练模型),OpenAI提出了GPT(生成式预训练Transformer模型), 极大地推动了自然语言处理领域的发展,成为预训练史上重要的里程碑。

此后,基于BERT的改进模型、XLNet、RoBERTa、T5等大量新式预训练语言模型不断涌现,预训练 技术在自然语言处理领域蓬勃发展。2020年5月,OpenAI公开了超大规模预训练语言模型GPT-3, 参数达1750亿,在全球范围内掀起了研发千亿参数规模模型的热潮。(援引:智源研究院《超大规模智能模型产业发展报告》)

图源:智源研究院《超大规模智能模型产业发展报告》

在大模型领域,马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立的OpenAI开发出GPT系列。GPT(Generative Pre-trained Transformer)是一种基于互联网可用数据训练的文本生成深度学习模型。它用于问答、文本摘要生成、机器翻译、分类、代码生成和对话AI。2020年发布的GPT3是自然语言处理最强的AI模型。

GPT3通过海量学习数据进行训练,参数规模达到了1750亿,接近人类神经元的数量,作为通用语言模型它还可以帮助开发一系列工具。AI从符号智能、感知智能,正在走向认知智能阶段。

GPT3的强劲表现,让人们对预计将于明年推出的GPT4抱有很大期待。新近推出的ChatGPT以对话方式进行交互,是GPT(或生成式预训练转换器)文本生成AI系列的最新发展,被业界称为GPT3.5。

Transformer模型架构图

谷歌在2017年推出的NLP经典模型Transformer,是一个利用注意力机制来提高模型训练速度的模型,在机器翻译及其他语言理解任务上表现优异,是AI大模型领域的元老级模型。

AI将逐渐向应用终端发力,大规模复制和通用化推广是AI产业的大势所趋。AI大模型套小模型使传统的定制化、碎片化开发转为集中开发。AI大模型具有良好的泛化能力,支持不同的具体应用场景,解决数据标注浪费和反复建模的难题,推动AI产业标准化、模块化、自动化大规模应用,使人工智能落地寻常百姓家。

图源:智源研究院《超大规模智能模型产业发展报告》

在大模型好用的另一方面,AI模型训练需要大规模、高质量数据作为支撑,同时对相关配套软件、模型算法以及训练算力等方面有很高要求。

据澎湃新闻报道,斯坦福人工智能研究所副所长克里斯托弗·曼宁表示,对于许多相对简单的AI应用来言,假设意味着训练成本的降低。但对于有些应用现在却不是这样的,特别是因为不断增加的研究复杂性和竞争性,使得最前沿模型的训练成本还在不断上升。

曼宁用BERT模型来举例,BERT是谷歌在18年提出的AI语言模型,已被用在谷歌搜索中。该模型有超过3.5亿个内部参数,而且要大量数据来进行训练,大概用了33亿个大部分来自维基百科的单词来训练。接着曼宁说,现在看来维基百科都不是个多大的数据集了。“如果能用300亿个单词训练一个系统,那它的性能肯定比用30亿个单词训练的系统要好。”但更多的数据也意味着要用更多算力进行支持。

BERT的开发者在 Reddit 上也表示预训练的计算量非常大:“OpenAI 的 Transformer 有 12 层、768 个隐藏单元,他们使用 8 块 P100 在 8 亿词量的数据集上训练 40 个 Epoch 需要一个月,而 BERT-Large 模型有 24 层、2014 个隐藏单元,它们在有 33 亿词量的数据集上需要训练 40 个 Epoch,因此在 8 块 P100 上可能需要 1 年?16 个 Cloud TPU 已经是非常大的计算力了。”

AI大模型的通用性越强,在训练阶段所需的数据量和对应的算力水准越高。GPT-3 1750 亿参数,训练所用的数据量达到 45TB,使用了上万块 V100,机时费用 460 万美元,总成本超过1200 万美元。

OPT-176B 训练使用了 992 块 A100、PaLM 540B 使用 6144 块 TPUv4。

由于大模型的开发和使用极大依赖高性能计算机提供算力资源,所以对于大模型的研发和应用企业也有一定门槛条件。

诚然,AI大模型的通用性,正是建立在基于不同领域数据收集、训练的基础上。

当前全球大模型产业落地仍处于早期探索阶段。算法架构、预训练和微调策略、计算并行加速等技术已较为成熟,然而对具体应用场景的落地还没有探索出成熟的商业模式。同时,不少企业对于AI大模型还缺乏足够了解,或缺乏能够支撑模型微调的算力,这都是大模型具体应用中需要具体解决的问题。

受益于我国科技创新所呈现出的勃勃生机,智能算力在三大算力类型中增长最为迅速,智能算力的应用场景也随着AI渗透的进程而日益丰富。蓝耘持续关注前沿科技领域的算力需求,针对于AI大模型开发中数据训练对算力的刚需,蓝耘可为AI大模型研发企业和科研院所提供高性价比的按需付费算力解决方案,同时致力于从算力服务的维度推动大模型应用的落地。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20221221A04W5800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券