Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >鹅厂发布大模型计算集群!算力提升3倍,4天就能训完万亿规模大模型

鹅厂发布大模型计算集群!算力提升3倍,4天就能训完万亿规模大模型

作者头像
量子位
发布于 2023-05-06 06:41:13
发布于 2023-05-06 06:41:13
3500
举报
文章被收录于专栏:量子位量子位
明敏 发自 凹非寺 量子位 | 公众号 QbitAI

没想到,就在大家争相发大模型的时候,鹅厂另辟蹊径在算力上下手了。

刚刚,腾讯云最新一代HCC(High-Performance Computing Cluster)高性能计算集群,来了!

面向大模型训练,采用最新一代腾讯云星星海自研服务器,搭载了NVIDIA H800 Tensor Core GPU,可提供业界目前最高的3.2T超高互联带宽

实测结果显示,腾讯云新一代集群的算力性能较前代提升高达3倍

以训练自家大模型效果为例——万亿参数的混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训练时间将进一步缩短至4天

在这波AIGC热潮下,行业内算力需求空前增加,各种与智能算力相关的硬件软件都变得更加火热。

鹅厂这波突然放送,又带来哪些新进展?

带来3.2T超高通信带宽

据了解,腾讯云新一代集群通过对单机算力、网络架构和存储性能进行协同优化,能够为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。

计算层面,服务器的单机性能是集群算力的基础。

在非稀疏规格情况下,新一代集群单GPU卡支持输出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。

针对大模型训练场景,腾讯云星星海服务器采用6U超高密度设计,相较行业可支持的上架密度提高30%;利用并行计算理念,通过CPU和GPU节点的一体化设计,将单点算力性能提升至最强。

网络层面,计算节点间存在海量的数据交互需求,随着集群规模扩大,通信性能会直接影响训练效率。

腾讯自研星脉网络,可为新一代集群带来了业界最高的3.2T的超高通信带宽。

节点内外统一的AllReduce通信带宽,实现网络和算力的最大协同。

实测结果显示,搭载同样的GPU,最新的3.2T星脉网络相较1.6T网络,能让集群整体算力提升20%。

基于多轨道聚合的无阻塞网络架构、主动拥塞控制和定制加速通信库,腾讯云能提供业界领先的集群构建能力,支持单集群高达十万卡级别的组网规模。

在超大集群场景下,仍然能保持优秀的通信开销比和吞吐性能,满足大模型训练以及推理业务的横向扩展。

同时,腾讯自研高性能集合通信库TCCL,基于星脉网络硬件平台深度优化,在全局路径规划、拓扑感知亲和性调度、网络故障实时告警/自愈等方面融入了定制设计的解决方案。

相对业界开源集合通信库,为大模型训练优化40%负载性能,消除多个网络原因导致训练中断问题。

存储层面,训练场景下,几千台计算节点会同时读取一批数据集,需要尽可能缩短数据集的加载时长。新一代集群,引入了腾讯云最新自研存储架构,支持不同场景下对存储的需求。

COS+GooseFS对象存储方案,提供多层缓存加速,大幅提升端到端的数据读取性能;将公开数据集、训练数据、模型结果统一存储到对象存储COS中,实现数据统一存储和高效流转。

同时,GooseFS按需将热数据缓存到GPU内存和本地盘中,利用数据本地性提供高性能访问。

CFS Turbo高性能并行文件存储方案,采取多级缓存加速,基于全分布式架构,提供100GB/s带宽、1000万IOPS的极致性能。并通过持久化客户端缓存技术,将裸金属服务器本地NVMe SSD和Turbo文件系统构成统一命名空间,实现微秒级延时,解決大模型场景大数据量、高带宽、低延时的诉求。

同时,通过智能分层技术,自动对冷热数据分层,节省80%的存储成本,提供极致的性价比。

底层架构之上,针对大模型训练场景,新一代集群集成了腾讯云自研的TACO Train训练加速引擎,对网络协议、通信策略、AI框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。

腾讯太极机器学习平台自研的训练框架AngelPTM,也已通过腾讯云对外提供服务,能够帮助企业加速大模型落地。

目前,腾讯混元AI大模型已经覆盖了自然语言处理计算机视觉、多模态等基础模型和众多行业、领域模型。

在腾讯云上,企业基于大模型能力和工具箱,可结合产业场景数据进行精调训练,提升生产效率,快速创建和部署 AI 应用。

此前,腾讯多款自研芯片已经量产。

其中,用于AI推理的紫霄芯片、用于视频转码的沧海芯片已在腾讯内部交付使用,性能指标和综合性价比显著优于业界。

紫霄采用自研存算架构,增加片上内存容量并使用更先进的内存技术,消除访存能力不足制约芯片性能的问题,同时内置集成腾讯自研加速模块,减少与CPU握手等待时间。

目前,紫霄已经在腾讯头部业务规模部署,提供高达3倍的计算加速性能,和超过45%的整体成本节省。

据悉,腾讯云的分布式云原生调度总规模超过1.5亿核,并提供16 EFLOPS(每秒1600亿亿次浮点运算)的智算算力。未来,新一代集群不仅能服务于大模型训练,还将在自动驾驶、科学计算、自然语言处理等场景中充分应用。

(最近量子位发起《中国AIGC算力产业全景报告》征集活动,感兴趣的童鞋欢迎戳下方报名表单━(*`∀´*)ノ亻!)

《中国AIGC算力产业全景报告》征集启动

AIGC算力需求爆发,谁将在此次算力产业变革中脱颖而出?

量子位《中国AIGC算力产业全景报告》《最值得关注的AIGC算力玩家》正式启动对外征集,期待有更多优秀的机构产品、案例与技术能够被大众看到。

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
鹅厂发布的这个算力集群,最快4天训练万亿参数大模型
大模型要成功,算力是关键。 这是腾讯云面向大模型训练场景,发布的全新一代的HCC高性能计算集群性能参数: “算力性能和上一代相比提升3倍,服务器接入带宽从1.6T提升到3.2T。” 采用最新一代腾讯云星星海自研服务器,并搭载NVIDIA H800 Tensor Core GPU的这代HCC高性能集群,单GPU卡支持输出最高1979 TFlops的算力。 具体强在哪里? 去年10月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训
腾讯云开发者
2023/04/19
2.8K0
鹅厂发布的这个算力集群,最快4天训练万亿参数大模型
大模型训练再提速20%!腾讯星脉网络2.0来了
大模型算力集群就像协作严密的“超级工厂”,员工(GPU)完成阶段性“交付”(计算结果输出)后,必须与其他同事“拉通”(计算结果同步)才能开始新一轮工作。
小腾资讯君
2024/07/02
1.2K0
AI Infra 现状:一边追求 10 万卡 GPU 集群,一边用网络榨取算力
云行业进入了生成式 AI 时代,除模型算法外,头部企业纷纷将大量精力投入到解决算力和互联问题上。然而,如果没有网络支持,计算的篇章就无法开启。
深度学习与Python
2024/07/12
8840
AI Infra 现状:一边追求 10 万卡 GPU 集群,一边用网络榨取算力
腾讯Q1财报:“三驾马车”发力,企业服务双增!
刚刚,腾讯发布财报 2023年一季度,实现收入1500亿元 ToB、游戏、广告 “三驾马车”集体发力 其中,ToB业务*实现收入487亿元 连续八季度占比超过30% *金融科技与企业服务业务 财报指出,企业服务收入同比增速转正,毛利率显著提升,部分得益于云服务的销售额增加。 这意味着 “健康可持续”落地一年多 CSIG战略转型基本完成! 释放技术红利,发力自研! 本季度,腾讯研发投入达152亿元。 昨天,我们宣布多款核心云产品降价,部分产品线最高降幅达40%。 聚焦技术实力和产品力,腾讯云的基础产品性价比
腾讯专有云
2023/05/20
6150
腾讯Q1财报:“三驾马车”发力,企业服务双增!
星脉高性能计算网络:为AI大模型构筑网络底座
前言     AI大模型以其优异的自然语言理解能力、跨媒体处理能力以及逐步走向通用AI的潜力成为近年AI领域的热门方向。业内头部厂商近期推出的大模型的参数量规模都达到了万亿、10万亿级别。     前几天横空出世的AI爆款产品ChatGPT,可以聊天、写代码、解答难题、写小说,其技术底座正是基于微调后的GPT3.5大模型,参数量多达1750亿个。据报道,GPT3.5的训练使用了微软专门建设的AI超算系统,由1万个V100 GPU组成的高性能网络集群,总算力消耗约3640 PF-days (即假如每秒计算一千
鹅厂网事
2022/12/16
5.2K0
星脉高性能计算网络:为AI大模型构筑网络底座
恭喜!腾讯云星脉获「未来网络领先创新科技成果奖」
在第七届未来网络大会上,腾讯云星脉网络获得「2023中国未来网络领先创新科技成果奖」。
鹅厂网事
2023/09/01
4610
恭喜!腾讯云星脉获「未来网络领先创新科技成果奖」
🌍 算力即权力?解析AI竞赛背后的基础设施战争
2023年ChatGPT的爆发,揭开了AI竞赛的冰山一角:GPT-4训练消耗的算力≈5亿度电,足够支撑一个小国全年用电。全球科技巨头疯狂囤积GPU,OpenAI被曝“算力饥荒”限制模型迭代速度。算力,这个曾经藏在代码背后的“隐形资源”,正成为大国博弈与企业竞争的核心战场。
Jimaks
2025/03/20
1550
死磕AI大模型网络,鹅厂出招了!
2023年,以ChatGPT为代表的AIGC大模型全面崛起,成为了整个社会关注的焦点。
鲜枣课堂
2023/08/21
7330
死磕AI大模型网络,鹅厂出招了!
多加一倍GPU,大模型训练时间能省一半吗?
欢迎关注公众账号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络最接地气的干货分享。
鹅厂网事
2023/07/25
5160
多加一倍GPU,大模型训练时间能省一半吗?
深度:腾讯云数据中心网络是怎么升级改造的?
网络的能力直接决定着数据中心的算力,尤其是随着AIGC时代的到来,人们对算力的需求越来越大,网络的升级改造也成为每个数据中心关注的重点。
了不起的云计算
2023/09/19
9190
腾讯云AI超级底座新升级:训练效率提升幅度达到3倍
大模型推动AI进入新纪元,对计算、存储、网络、数据检索及调度容错等方面提出了更高要求。在9月7日举行的2023腾讯全球数字生态大会“AI超级底座专场”上,腾讯云介绍异构计算全新产品矩阵“AI超级底座”及其新能力。
云存储
2023/09/13
6000
腾讯云AI超级底座新升级:训练效率提升幅度达到3倍
腾讯云公布行业大模型最新进展
这是每家企业的关切。然而,面对算力昂贵、数据有限、经验缺乏、人才不足等等挑战,实际难度不小。
腾讯云TI平台
2023/07/25
1.1K0
腾讯云公布行业大模型最新进展
大模型之战,腾讯来了
9 月 7 日,腾讯在数字生态大会上正式推出混元大模型。据介绍,腾讯混元大模型是由腾讯全链路自研的通用大语言模型,拥有超千亿参数规模,预训练语料超 2 万亿 tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
深度学习与Python
2023/09/18
3980
大模型之战,腾讯来了
一场脑机接口的大赛,看到时代需要的「AI超级底座」
从 2022 年开始,大模型就成为了最热门的技术关键词,这种热度显然辐射到了多个相关领域。比如,在近日召开的 2023 世界机器人大会上,「大模型 + 机器人」就成为现场讨论最多的话题。
机器之心
2023/09/08
2920
一场脑机接口的大赛,看到时代需要的「AI超级底座」
【首批】腾讯云HCC通过电子标准院算力服务成熟度增强级测评
中国电子技术标准化研究院启动《信息技术 算力服务 能力成熟度评估模型》标准符合性测评,腾讯云高性能计算集群 HCC 首批通过测评,成绩领先友商。本次测评完成了企业在通用计算、人工智能计算、高性能计算等领域服务能力评估,腾讯云在算力资源、技术、管理能力和一体化服务方面体现出了行业领先水平。经过电子标准院的专家审核,确认腾讯云通过了算力服务成熟度(CPMM)增强级评估。
腾讯云计算产品团队
2024/07/12
3360
【首批】腾讯云HCC通过电子标准院算力服务成熟度增强级测评
腾讯星脉高性能计算网络:为AI大模型构筑网络底座
阿里灵骏智算产品有磐久可预期网络(参考:阿里整网络顶呱呱,整图苦哈哈!),腾讯也没闲着,星脉高性能计算网络为AI大模型构筑网络底座。
用户6874558
2023/03/06
5.6K0
腾讯星脉高性能计算网络:为AI大模型构筑网络底座
AI 大模型竞争白热化,算力优化才是“超车点”?
算力是驱动人工智能产业发展的核心动力。在数据、算法和算力三大人工智能要素中,算力是将数据和算法真正通过硬件执行的基础单元,并将数据、算法转化为最终的生产力。
深度学习与Python
2023/08/09
6140
AI 大模型竞争白热化,算力优化才是“超车点”?
“GPT们”背后,谁来支撑大模型训练需要的极致算力?
👉 腾小云导读 近期大量 AIGC 产品横空出世,可以聊天、写代码、解答难题、写小说,饱受热捧。其技术基座大模型的给力支持,往往伴随着大规模、长时间的 GPU 集群训练任务。这对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。业界主流 GPU 集群网络技术路线是什么?腾讯的解决方案是什么?腾讯工程师何春志将带来最新解读。欢迎阅读。 ---- 👉 看目录,点收藏 1 业界主流 GPU 集群网络技术路线 2 如何创造AI训练集群下的极致性能网络    2.1 超带宽计算节点    2.2 多轨道流量聚
腾讯云开发者
2023/03/24
2.6K0
“GPT们”背后,谁来支撑大模型训练需要的极致算力?
大咖共探AGI时代机遇,腾讯云助力大模型规模化应用提速
2023 年,科技圈的“顶流”莫过于大模型。自 ChatGPT 的问世拉开大模型与生成式 AI 产业的发展序幕后,国内大模型快速跟进,已完成从技术到产品、再到商业的阶段跨越,并深入垂直行业领域。
TVP官方团队
2023/09/20
3670
大咖共探AGI时代机遇,腾讯云助力大模型规模化应用提速
我有大量GPU,怎么用?在线等,急!
大模型越来越火,不少手里有卡的伙伴给鹅提“需求”:用自己的卡能不能组建大模型算力集群?
小腾资讯君
2024/07/10
2460
推荐阅读
相关推荐
鹅厂发布的这个算力集群,最快4天训练万亿参数大模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档