ChatGPT是由OpenAI研发的一种语言AI模型,其特点在于使用海量语料库来生成与人类相似的反应。初代GPT模型参数1.17亿,GPT2模型、GPT3模型参数分别达到15亿、1750亿。不断提升的参数量级,使得ChatGPT3当前已经能够应用在商业、研究和开发活动中。当前此类参数体量庞大的模型,成为各大科技厂商研发重点。大模型的基础为高质量大数据。ChatGPT的前身 GPT-3 就使用了3,000 亿单词、超过40T的数据。此类大数据基础的前提为三部分1)有效场景下的采集数据;2)大数据的存储、清洗和标注;3)数据质量检验。
算力:ChatGPT类人工智能需要更充足的算力支持其处理数据,带来更多高性能的算力芯片需求。英伟达表示,GPT-3需要512颗V100显卡训练7个月,或者1024 颗A100芯片训练一个月。2012年以来,AI训练任务中的算力增长(所需算力每3.5月翻一倍)已经超越摩尔定律(晶体管数量每18月翻一倍)。
网络设施:以微软Azure为例,其AI基础设施由互联的英伟达Ampere A100 Tensor Core GPU组成,并由Quantum infiniBand交换机提供横向扩展能力。服务器节点多、跨服务器通信需求巨大,网络带宽性能成为GPU集群系统的瓶颈,解决方式包括增加单节点通信带宽与降低网络收敛比,带来光模块、交换机等需求。
领取专属 10元无门槛券
私享最新 技术干货