Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MiniMax:大模型,云上造!

MiniMax:大模型,云上造!

作者头像
小腾资讯君
发布于 2023-07-20 10:13:17
发布于 2023-07-20 10:13:17
1.6K0
举报
文章被收录于专栏:资讯分享资讯分享

“到哪里补上算力缺口?”

去年6月,MiniMax自研文本大模型MiniMax-ABAB(“阿巴阿巴”)快速迭代到第二个版本,随着参数规模增长、海量数据涌入,彼时的计算资源捉襟见肘。

如果算力不足,大模型研发进度将被严重影响。而带来的后果可能是,这家国内最早入场之一的大模型创业公司,将会失去他们好不容易获得的市场先机。

解决算力问题,刻不容缓。

// 向云看,底座大升级

不同于上一波人工智能的“算法制胜”,大模型更像是一个用算力”大力出奇迹“的工程。

在规模不大时,依靠自购服务器、自建小规模的算力平台,还能够满足业务需求。

但一旦上量,弊病就逐步显现:

  • 每一台物理服务器上架、通电、调试都要耗费大量人力,即使不考虑供应链紧张的问题,光是采购、搬机器、通电开机也要耗费数周,效率很低;
  • 更关键的是,大模型训练、推理,不是单台服务器所能完成,需要由成百上千台服务器共同处理。如果没有成熟经验就自己搭架构,很容易在性能和成本上落后。

MiniMax找到了腾讯云团队——

腾讯云布局异构计算多年,在深度学习、科学计算、芯片仿真等高性能计算场景下积累的多年经验,还面向大模型推出了「HCC高性能计算集群

它协同优化了单机算力、网络架构和存储性能:

借助自研星脉网络,将集群通信带来的算力损耗降到更低;腾讯云CFS Turbo、COS+GooseFS高性能存储,让上千个计算节点能同时高速读取训练数据。

双方先拿出少量服务器做性能验证。随着实测符合预期、可用性达到99.9%,集群规模很快提升到千卡级以上。

随后,业务逐步开放,MiniMax也迎来了创立以来首个的模型验证、推理任务的洪峰,在云底座的支撑下,激增的并发计算量被稳健扛住。

在保证研发进度的情况下,MiniMax也完成了一次顺滑的底座升级。

// 抠成本,资源利用率再高一点

大模型创业,算力是成本的大头。对MiniMax而言,一个理想的算力基础设施,不仅要能承载海量任务,还要足够高性价比。

在整体支出不变的情况下,提升利用率成为了MiniMax努力的方向。

逻辑很简单——

虽然云计算工程师们已经能把故障率降得很低很低,但由于大模型任务和环境的复杂,仍然有可能出现偶发的中断。

一个粗略的计算是,一小时异常,在千卡规模下可产生数以十万计的成本开销。

怎么把这部分成本抠出来?MiniMax和腾讯云提出的解决方案是云原生。

一方面,利用腾讯云TKE,MiniMax实现了对不同规格云服务器的统一管理和调度,各种类型的应用和服务得以部署在同一套基础设施上,资源实现了高效整合,资源利用率大幅提升;

另一方面,云原生的管理方式,支撑7*24小时的全局监控视角,支持编排、框架、实例等多层级的指标监控。一旦触发故障,能够在5分钟内恢复任务、10分钟内恢复基础设施,无需人工干预完成,能够最大化保障任务连续进行。

统计下来,基于云原生的支撑,MiniMax整体用云成本降低了至少20%。这些成本,也将进一步投入到MiniMax的业务研发中。

// 用大数据,给大模型性能做诊断

大模型需要的不止是算力,也包括大数据分析、安全防护。

比如,在研发时,为了确定大模型的优化方向,需要根据准确率和召回率等性能指标评估大模型性能。

一套存算分离的海量大数据分析架构被迅速拉起。通过腾讯云的数据集成DataInlong、流计算Oceanus、数据湖计算DLC等云原生大数据产品提供的数据处理能力,对大量数据做实时或离线分析,满足了MiniMax在各个阶段的数据分析需求,实现数据的快速灵活部署。

容器化的方式使用大数据组件,使得模型验证、推理等任务得以按计划推进。

此外,大模型研发过程中,MiniMax对云上资产安全、Web业务运营风险、DDoS攻击防护等高度关注。

通过引入腾讯云的防火墙、WAF、主机安全漏洞扫描数据加密、iOA零信任安全管理等一系列安全产品,MiniMax实现了对云上资产的全方位保护,确保业务的稳定运行和数据的安全性。

将业务搬到云上,经过这些大量的改进调优,MiniMax的更多难题被逐一攻破,大模型研发得以加速。从以月为单位更新,到每周一个改进版本。

“基础设施的问题要说完全靠自己,可能也能解决,但一定不是最有性价比的方案。MiniMax打算进一步扩大用云规模,将训练、推理等更多核心环节放到云上。“MiniMax业务副总裁魏伟说。

云上的一系列技术与产品,是大模型的助推器。

除了算力集群、向量数据库,腾讯云还推出涵盖模型预训练、模型精调、智能应用开发的一站式行业大模型解决方案,助力企业快速搭建专属模型。

腾讯云助力下,更多探索正在加速启航。

如果你也想试试MiniMax自研的文本模型 “MiniMax-ABAB 5.5” ,可以点击申请体验

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大模型之战,腾讯来了
9 月 7 日,腾讯在数字生态大会上正式推出混元大模型。据介绍,腾讯混元大模型是由腾讯全链路自研的通用大语言模型,拥有超千亿参数规模,预训练语料超 2 万亿 tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
深度学习与Python
2023/09/18
4020
大模型之战,腾讯来了
火山引擎给大模型造大底座!MiniMax、智谱AI等已登陆
它将国内多个明星大模型放在平台上,如MiniMax、智谱AI、复旦MOSS、百川智能、IDEA、澜舟科技、出门问问等。
量子位
2023/08/05
3120
火山引擎给大模型造大底座!MiniMax、智谱AI等已登陆
没有大招的火山引擎,拿下70%大模型玩家
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 有没有在开发大模型?在学习。 什么时候发布大模型?没计划。 当被问起自研大模型,字节跳动副总裁杨震原口风甚严。但席卷全球的这场大模型竞逐战,没有人会主动放弃阵地。 最新线索,在上海露出端倪。 火山引擎对外的最新技术、产品发布动作中,我们发现:炼大模型的基础设施,不仅已经在字节内部运转,还到了能够对外输出“技术秘籍”的阶段。 直观的数字,更能说明情况: 抖音2022年最火特效「AI绘画」,就是在火山引擎机器学习平台上训练而成。在训练场景下,基于Stable
量子位
2023/05/06
3400
没有大招的火山引擎,拿下70%大模型玩家
企业拥抱大模型,腾讯云为什么值得期待?
如果做大模型的鸿沟是数据、算力和成本等,那阻碍产业应用与大模型结合实践的高墙则更为具体。
ToB行业头条
2023/09/25
3090
腾讯云AI超级底座新升级:训练效率提升幅度达到3倍
大模型推动AI进入新纪元,对计算、存储、网络、数据检索及调度容错等方面提出了更高要求。在9月7日举行的2023腾讯全球数字生态大会“AI超级底座专场”上,腾讯云介绍异构计算全新产品矩阵“AI超级底座”及其新能力。
云存储
2023/09/13
6010
腾讯云AI超级底座新升级:训练效率提升幅度达到3倍
【精彩回顾】腾讯云智能全链路大模型技术驱动产业智能化升级
腾讯云上海城市峰会AI产业应用分论坛聚焦"全链路大模型技术方案"展开深度研讨。腾讯云副总裁、腾讯云智能解决方案负责人王麒表示,基于混元大模型与DeepSeek技术的双引擎协同,腾讯云提供覆盖AI云智算基建、模型开发、部署、应用落地的完整技术体系,为产业智能化转型提供可验证的实践路径。
腾讯云AI
2025/03/27
1650
【精彩回顾】腾讯云智能全链路大模型技术驱动产业智能化升级
MiniMax :2023上云,2024起飞,2025...
去年我们分享过它的研发进展(参考阅读:MiniMax:大模型,云上造!)。短短一年多时间,这家公司结出了新的果实——
小腾资讯君
2024/12/18
1710
扒一扒腾讯混元大模型“老底”
模型亮相的同时,腾讯还宣布几大腾讯业务就已经直接用上了:腾讯文档、腾讯会议、腾讯广告等均已接入。
量子位
2023/09/19
5640
扒一扒腾讯混元大模型“老底”
腾讯云:为国产化智算云筑基
智算中心要达成的任务或者目标是,完成特定的一个或多个大模型训练或者推理的任务。而完成这个任务所需要的内容包括算法、数据和算力。因此,要求智算中心必须具备对算法进行开发、优化、调度的模型管理能力,算力和数据所对应的高性能计算和高性能存储能力,以及算力和数据交互所需要的高性能网络能力。
腾讯专有云
2024/04/23
7480
腾讯云:为国产化智算云筑基
百度发布「AI大底座」:一口气把10年AI技术积累打包了
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 技术创新的节点性时刻,往往是以基建变革的形式展现。 现在,中国AI头号玩家百度,再次明确复现了这一规律: AI大底座,已正式对外推出。 就在刚刚结束的百度AI开发者大会上,李彦宏判断,深度学习算法是第四次科技革命的标志。 并且“创新驱动增长,反馈驱动创新”,这种技术力量向产业蔓延的过程中,真正的应用创新要靠在产业实际应用中的“反馈”才能实现。 △百度创始人、董事长兼首席执行官李彦宏 而集百度AI能力之大成的AI大底座,正是百度交出的答卷。 什么是AI
量子位
2023/02/28
3320
百度发布「AI大底座」:一口气把10年AI技术积累打包了
全球最强智算来了:12000000000000000000(别数了18个0)FLOPS!
金磊 梦晨 假装发自 张北县 量子位 | 公众号 QbitAI “全球最强智算”王座,刚刚易主。 来自中国河北省张北县的“中国选手”,一举击败谷歌。 △图:张北县草原 而其所凭借的算力值,每秒浮点运算次数已经高达12EFLOPS(百亿亿次)。 相比之下,谷歌单集群算力峰值是9EFLOPS,特斯拉也仅有1.9EFLOPS。 那么张北县的这个“速度”,到底有多快? 举个例子 。 以前要训练一个自动驾驶的模型,大概需要花费的时间是7天。 而在“全球最强算力”加持之下,这个时间直接缩短到了1小时之内,整整提速
量子位
2022/08/31
4550
全球最强智算来了:12000000000000000000(别数了18个0)FLOPS!
一场脑机接口的大赛,看到时代需要的「AI超级底座」
从 2022 年开始,大模型就成为了最热门的技术关键词,这种热度显然辐射到了多个相关领域。比如,在近日召开的 2023 世界机器人大会上,「大模型 + 机器人」就成为现场讨论最多的话题。
机器之心
2023/09/08
2920
一场脑机接口的大赛,看到时代需要的「AI超级底座」
数据湖存储在大模型中的应用
9月5日,浪潮信息新产品“互联网+AIGC”行业巡展在深圳举行。本次巡展以“智算 开新局·创新机”为主题,腾讯云存储受邀分享数据湖存储在大模型中的应用,并在展区对腾讯云存储解决方案进行了全面的展示,引来众多参会者围观。
云存储
2023/11/01
1.1K0
数据湖存储在大模型中的应用
汤道生详解AI 思考:腾讯要打造「好用的AI」
今天举办的腾讯全球数字生态大会上海峰会上,围绕大模型的研发与应用,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生详细解读了对于 AI的思考和业务最新进展。
小腾资讯君
2025/03/19
2170
性能优于RTX 4090!摩尔线程千卡智算集群助力国产大模型训推
2024年5月,摩尔线程与智谱AI开展了新一轮GPU 大模型适配及性能测试,包括大模型推理以及基于夸娥(KUAE)千卡智算集群的大模型预训练。测试用相关大模型来自智谱AI基座大模型及其开源版本。
芯智讯
2024/06/18
3360
性能优于RTX 4090!摩尔线程千卡智算集群助力国产大模型训推
AI Infra 现状:一边追求 10 万卡 GPU 集群,一边用网络榨取算力
云行业进入了生成式 AI 时代,除模型算法外,头部企业纷纷将大量精力投入到解决算力和互联问题上。然而,如果没有网络支持,计算的篇章就无法开启。
深度学习与Python
2024/07/12
8880
AI Infra 现状:一边追求 10 万卡 GPU 集群,一边用网络榨取算力
百度交流会大玩心跳!现场实时调教大模型,炸出背后更强底座文心千帆
鱼羊 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 大模型评价标准,现在到了被摆上台面讨论的时刻。 过去两个月,“百模大战”吸足了外界眼球,大模型越发越多,但到底什么样的大模型才是好大模型,却也越来越众说纷纭、备受关注。 就在这样的时间节点,国内最早内测生成式AI大模型的百度,一波新的技术动作,迅速在线下引发热烈反响: 5月9日的百度智能云的文心大模型技术交流活动现场,文心一言先是化身“文心问数”,秀了一把分分钟数据可视化的能力。 但下一分钟,“出bug”的一幕就给逮住了:在面对画折线图的需求时,
量子位
2023/05/12
3950
百度交流会大玩心跳!现场实时调教大模型,炸出背后更强底座文心千帆
产业智能化升级的最短路径是什么?我们在“云智一体3.0”中找到了答案 | Q推荐
根据中国中小商业企业协会数据显示,数字化成熟度高的企业在疫情冲击下 3 个月内恢复比例高达 60%,而数字化成熟度低的企业恢复比例只有 48%。透过这组数据不难发现,身处 VUCA 时代,中国实体经济的发展命脉与数字化技术捆绑地愈发紧密。 基于此,传统企业也纷纷开始思考如何利用数智化技术来寻找产业升级的突破口。而云计算作为数字化转型的关键基础设施,也成为了对抗不确定性的重要因素。这几年,各地数据中心、算力中心的建设突飞猛进,据统计,国内算力产业近五年平均增速超过 30%,算力排名全球第二,目前算力已经不是产
深度学习与Python
2023/03/29
3300
产业智能化升级的最短路径是什么?我们在“云智一体3.0”中找到了答案 | Q推荐
腾讯云 Serverless 函数跑在 K8s 上,突破企业服务新格局
背景 自 2013 年提出以来,Serverless(无服务器)作为屏蔽服务器、按调用计费、事件驱动、弹性自动伸缩的计算服务,深受开发者喜爱,被称为云原生未来发展的方向。 最新的调查报告显示:在核心业务中使用 Serverless 的用户达到 18.11%;已经开始和计划使用 Serverless 技术的用户超过了 70%。根据 Datadog 数据,有超过 50% 的使用云服务的企业或组织使用了 Serverless 技术。 但是,当开发者从创业阶段过渡到大型企业阶段,原来的 Serverless 模式
腾讯云原生
2023/05/04
8780
腾讯云 Serverless 函数跑在 K8s 上,突破企业服务新格局
打造生成式AI应用,什么才是关键?
生成式AI作为当前人工智能的前沿领域,全球多家科技企业都在加大生成式AI的研发投入力度。
科技云报道
2023/11/01
2890
打造生成式AI应用,什么才是关键?
推荐阅读
相关推荐
大模型之战,腾讯来了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档