Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >qGPU on TKE - 腾讯云发布下一代 GPU 容器共享技术

qGPU on TKE - 腾讯云发布下一代 GPU 容器共享技术

作者头像
腾讯云原生
发布于 2021-09-10 10:11:38
发布于 2021-09-10 10:11:38
2.8K0
举报

timxbxu,腾讯云专家工程师,深耕云计算Kubernetes、离在线混部、GPU 容器化领域,Kubernetes 社区积极贡献者。 jikesong,腾讯云异构计算研发负责人,KVM上第一个 GPU 全虚拟化项目 KVMGT 作者,对 GPU 虚拟化有深入的研究。 zoeyzyyan,腾讯云容器产品经理,专注资源管理、降本增效、云原生AI领域。

背景

qGPU 是腾讯云推出的 GPU 共享技术,支持在多个容器间共享 GPU卡,并提供容器间显存、算力强隔离的能力,从而在更小粒度的使用 GPU 卡的基础上,保证业务安全,达到提高 GPU 使用率、降低客户成本的目的。

qGPU on TKE 依托腾讯云 TKE 对外开源的 Nano GPU 调度框架[1],可实现对 GPU 算力与显存的细粒度调度,并支持多容器共享 GPU 与多容器跨 GPU 资源分配。同时依赖底层强大的 qGPU 隔离技术,可做到 GPU 显存和算力的强隔离,在通过共享使用 GPU 的同时,尽最大可能保证业务性能与资源不受干扰

功能优势

qGPU 方案通过对 NVIDIA GPU 卡上任务更有效的调度,达到给多个容器共享使用的目的,支持的功能如下:

灵活性:用户可以自由配置 GPU 的显存大小和算力占比

云原生:支持标准的 Kubernetes,兼容 NVIDIA Docker 方案

兼容性:镜像不修改/CUDA 库不替换/业务不重编,易部署,业务无感知

高性能:在底层对 GPU 设备进行操作,高效收敛,吞吐接近0损耗

强隔离:支持显存和算力的严格隔离,业务共享不受影响

技术架构

qGPU on TKE 使用 Nano GPU 调度框架,通过 Kubernetes 扩展调度机制,同时支持 GPU 算力与显存资源调度。并且依赖 Nano GPU 的容器定位机制,支持精细化 GPU 卡调度,同时支持多容器 GPU 卡共享分配与多容器 GPU 跨卡分配。

qGPU 直接采用英伟达 GPU 底层硬件特性进行调度,实现细粒度算力隔离,打破传统上 CUDA API 劫持方案的只能以 CUDA Kernel 为粒度进行算力隔离的限制,提供更好的 QoS 保证。

客户收益

  1. 多任务灵活共享 GPU,提升利用率
  2. GPU 资源强隔离,业务共享不受影响
  3. 完全面向 Kubernetes,业务使用零成本

未来规划

  1. 支持细粒度资源监控:qGPU on TKE 将支持对 Pod 和容器级的 GPU 使用率采集,实现更细粒度的资源监控和与 GPU 弹性能力的整合
  2. 支持在离线混部:qGPU on TKE 将支持在线业务和离线业务的高低优先级混部,最大限度地提升 GPU 利用率
  3. 支持 qGPU 算力池化:基于 qGPU 的 GPU 算力池化,实现 CPU、内存资源与异构计算资源解耦

内测申请

qGPU 已经开放免费内测,欢迎添加腾讯云原生小助手备注”qGPU内测申请“进行试用!

参考资料

[1]

Nano GPU 调度框架: 【https://github.com/nano-gpu】

  往期精选推荐  

点个“在看”每天学习最新技术

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云原生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
qGPU 容器产品全量上线,重磅发布 GPU 在离线混部功能
徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研发经验,长期深耕 Kubernetes、在离线混部与 GPU 容器化领域,Kubernetes KEP Memory QoS 作者,Kubernetes 积极贡献者 摘要 qGPU 是腾讯云推出的 GPU 共享技术,支持在多个容器间共享 GPU 卡资源,提供百分比算力与 MB 级显存细粒度分配和强隔离能力,并且搭配业界独有的 GPU 在离线混部技术,在充分保证业务安全、稳定的前提下,将 GPU 利用率提升到了极致。 qGPU 已服
腾讯云原生
2022/03/10
1.3K0
直播报名中|TKE 下的 qGPU 容器虚拟化技术实践
看过这篇文的读者们,你想要的直播干货来了!  【qGPU 容器产品全量上线,重磅发布 GPU 在离线混部功能】 该篇文章由腾讯云容器技术专家徐蓓所写,分享并介绍了腾讯云推出的 GPU 共享技术—— qGPU,支持在多个容器间共享 GPU 卡资源,提供百分比算力与 MB 级显存细粒度分配和强隔离能力,并且搭配业界独有的 GPU 在离线混部技术,在充分保证业务安全、稳定的前提下,将 GPU 利用率提升到了极致。 【云原生正发声】第十五期,我们邀请到了该篇文的作者——腾讯云容器技术专家徐蓓,来和大家分享 TKE
腾讯云原生
2022/03/10
5870
TKE 注册节点,IDC 轻量云原生上云的最佳路径
林顺利,腾讯云原生产品经理,负责分布式云产品迭代和注册节点客户扩展,专注于云原生混合云新形态的推广实践。 背景 企业在业务的持续运维过程中,感受到腾讯云 TKE 带来的便捷性和极致的使用体验,将新业务的发布以及老业务的维护都迁移到云上 TKE 来实现。但很多企业数据中心建设较为早期,选型上采取了自建 IDC 机房的方案,长久以来的 IDC 运营维护和企业上云的诉求产生了冲突和矛盾: 1、资源难利旧/利用率低 业务大部分在云上运行,存量的 IDC 主机难以利旧; 云下资源业务利用率低(主要是 CPU 资源),
腾讯云原生
2022/12/27
1.7K0
TKE 注册节点,IDC 轻量云原生上云的最佳路径
TKE qGPU 通过两层调度解决 GPU 资源碎片问题
李波,腾讯云高级工程师,Kubernetes 社区积极贡献者,多年 PaaS 平台及 Kubernetes 研发经验,目前负责 TKE qGPU 产品研发。 背景 TKE qGPU 是腾讯云推出的 GPU 容器共享技术,支持在多个容器间共享 GPU 卡并提供容器间显存、算力强隔离的能力,在保证业务稳定的基础上,达到提高 GPU 使用率、降低成本的目的。 TKE qGPU 支持单个容器的百分比算力及显存 MB 级调度,同时支持分配单卡或者多卡,满足业务同时使用 GPU 共享及整卡独占的场景。该统一调度方案帮助
腾讯云原生
2022/05/30
2K1
TKE qGPU 通过两层调度解决 GPU 资源碎片问题
9月月报|腾讯云容器女团邀你共祝祖国生日快乐!
2021年9月 VOL:17 腾小云告诉你最前线的产品新特性, 总有一款让你心动~ 云说新品 容器产品新特性 9月上新 腾讯云边缘服务TKE@Edge 从中心云管理边缘云资源的容器系统 边缘容器服务(Tencent Kubernetes Engine for Edge,简称 TKE Edge)是腾讯云容器服务推出的用于从中心云管理边缘云资源的容器系统。  SuperEdge 0.6.0 版本9 月底发布,包含特性如下: 集成TopoLVM,支持边缘本地持久化存
腾讯云原生
2021/10/08
1K0
使用 Elastic GPU 管理 Kubernetes GPU 资源
徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研发经验,长期深耕 Kubernetes、在离线混部与 GPU 容器化领域,Kubernetes KEP Memory QoS 作者,Kubernetes 积极贡献者。 当前存在问题 GPU 具备大量核心和高速内存,擅长并行计算,非常适合训练和运行机器学习模型。由于近几年 AI 技术愈发成熟,落地场景越来越多,对 GPU 的需求呈井喷趋势。而在资源管理调度平台上,Kubernetes 已成为事实标准。所以很多客户选择在 Kubern
腾讯云原生
2022/04/21
3.4K0
使用 Elastic GPU 管理 Kubernetes GPU 资源
11月腾讯云容器产品技术月报|转发集赞抢腾讯周边
2021年11月 VOL:19 腾小云告诉你最前线的产品新特性, 总有一款让你心动~ 云说新品 容器产品新特性11月上新 腾讯云边缘服务TKE@Edge 从中心云管理边缘云资源的容器系统 边缘容器服务(Tencent Kubernetes Engine for Edge,简称 TKE Edge)是腾讯云容器服务推出的用于从中心云管理边缘云资源的容器系统。 公有云 TKE-Edge 支持边缘节点绑定 ENI 公有云 TKE-Edge 支持边缘节点 Pod 直通能
腾讯云原生
2021/12/01
4.9K1
开发者看过来!2021年最受欢迎 & 最具影响力文章盘点
各位读者朋友们:大家好! 2021年即将结束,这一年中,云原生迅速发展,越来越多的优秀开发者为其作出贡献。「腾讯云原生」有幸参与其中,贡献了非常多优质的技术文章,同时腾讯云容器产品也秉承初心为不断迭代更新,致力于为用户提供更好的服务! 回顾这一年,我们共发布了 248 篇文章,平均每月分享 20 篇文章,腾讯内部和外部开源社区的技术专家们积极分享了自己对于「云原生」技术和实践的思考。 我们评选出了【最受开发者欢迎】和【最具影响力】的 20 篇文章,给 2021 年一个总结。 与君共享~ 最受开发者欢迎 T
腾讯云原生
2021/12/30
6190
腾讯云&信通院国内首发《降本之源-云原生成本管理白皮书》
在11月4日举办的2021腾讯数字生态大会云原生专场上,腾讯云联合中国信通院率先在国内重磅发布了《降本之源-云原生成本管理白皮书》(简称白皮书),基于腾讯云在业内最大规模的 Kubernetes 实践经验,系统性呈现云原生成本优化方法论和最佳实践路径。 腾讯云容器产品总经理邹辉表示:“Kubernetes 是云原生技术栈的核心,腾讯云原生经过多年的技术积累以及众多腾讯内外部复杂业务考验已经步入非常成熟的阶段。TKE 目前拥有国内最大规模的 Kubernetes 集群以及业界最好的 Kubernetes
腾讯云原生
2021/11/08
1.9K0
双引擎 GPU 容器虚拟化,用户态和内核态的技术解析和实践分享
来源 | 经授权转载自 百度智能云技术站 公众号 如何让硬件算力发挥最大效率,是所有资源运营商和用户非常关注的问题。百度作为一家领先的 AI 公司,拥有可能是业界最全的 AI 应用场景。 在这篇文章中,将和大家分享和讨论 GPU 容器虚拟化在复杂AI场景中的解决方案和厂内的最佳实践。 下面这张图片的左右两部分,在不同场合下已经多次展示过,放到这里主要想强调算力需求 —— 硬件算力的指数型增长,与真实应用场景中利用率偏低资源浪费之间的矛盾。 左边的部分是 OpenAI 统计的数据,从 2012 年以来,模
深度学习与Python
2023/03/29
1.5K0
双引擎 GPU 容器虚拟化,用户态和内核态的技术解析和实践分享
GPU虚拟化,算力隔离,和qGPU
宋吉科,腾讯云异构计算研发负责人,专注系统虚拟化、操作系统内核十多年,KVM平台上第一个GPU全虚拟化项目KVMGT作者,对GPU、PCIe有深入的研究。 〇、本文写作背景 大约 2 年前,在腾讯内网,笔者和很多同事讨论了 GPU 虚拟化的现状和问题。从那以后,出现了一些新的研究方向,并且,有些业界变化,可能会彻底颠覆掉原来的一些论断。 但这里并不是要重新介绍完整的 GPU 虚拟化的方案谱系。而是,我们将聚焦在英伟达 GPU + CUDA 计算领域,介绍下我们最新的技术突破 qGPU,以及它的意义究竟是什
腾讯云原生
2021/06/02
14.1K0
qGPU云原生最佳实践
腾讯云qGPU提供的GPU共享能力,支持在多个容器间共享 GPU 卡并提供容器间显存、算力强隔离能力,在使用中以更小的粒度进行调度。在保证业务稳定的前提下,为云上用户控制资源成本,提高运行效率提供帮助。
远远小七宝
2022/11/04
1.5K0
qGPU云原生最佳实践
Stable Diffusion 腾讯云云原生容器部署实践
👉腾小云导读 Stable Diffusion 是一种深度学习的文本到图像模型,由 Runway 和慕尼黑大学合作构建,第一个版本于 2021 年发布。目前主流版本包含 v1.5、v2和v2.1。它主要用于生成基于文本描述得详细图像,也应用于其他任务,如修复图像、生成受文本提示引导的图像到图像的转换等。本文主要讲解如何在腾讯云上部署 Stable Diffusion以及使用,欢迎阅读。 👉看目录,点收藏 1 应用场景 2 部署 Stable Diffusion 3 搭建步骤     3.1 准备需使用容器
腾讯云开发者
2023/05/29
3K0
Stable Diffusion 腾讯云云原生容器部署实践
Stable Diffusion 腾讯云云原生容器部署实践
刘远,腾讯云泛互联网首席解决方案架构师。 技术背景 Stable Diffusion 是一种深度学习的文本到图像模型,由 Runway 和慕尼黑大学合作构建,第一个版本于 2021 年发布。目前主流版本包含 v1.5、v2和v2.1。它主要用于生成基于文本描述的详细图像,也应用于其他任务,如修复图像、生成受文本提示引导的图像到图像的转换等。 应用场景 AI 绘图在各个行业领域会起到革命性的作用,目前多数是加快现有工作的效率和质量。以下是几个典型的应用场景: 1. 插画:无论是游戏 CG 还是概念插画,使用
腾讯云原生
2023/05/16
2.6K0
Stable Diffusion 腾讯云云原生容器部署实践
Stable Diffusion 腾讯云云原生容器部署实践
刘远,腾讯云泛互联网首席解决方案架构师。 技术背景 Stable Diffusion 是一种深度学习的文本到图像模型,由 Runway 和慕尼黑大学合作构建,第一个版本于 2021 年发布。目前主流版本包含 v1.5、v2和v2.1。它主要用于生成基于文本描述的详细图像,也应用于其他任务,如修复图像、生成受文本提示引导的图像到图像的转换等。 应用场景 AI 绘图在各个行业领域会起到革命性的作用,目前多数是加快现有工作的效率和质量。以下是几个典型的应用场景: 1. 插画:无论是游戏 CG 还是概念插画,使用
云存储
2023/06/07
1.6K0
Stable Diffusion 腾讯云云原生容器部署实践
TKE qGPU 通过 CRD 管理集群 GPU 卡资源
刘旭,腾讯云高级工程师,专注容器云原生领域,有多年大规模 Kubernetes 集群管理经验,现负责腾讯云 GPU 容器的研发工作。 背景 目前 TKE 已提供基于 qGPU 的算力/显存强隔离的共享 GPU 调度隔离方案,但是部分用户反馈缺乏 GPU 资源的可观测性,例如无法获取单个 GPU 设备的剩余资源,不利于 GPU 资源的运维和管理。在这种背景下,我们希望提供一种方案,可以让用户在 Kubernetes 集群中直观地统计和查询 GPU 资源的使用情况。 目标 在目前 TKE 共享 GPU 调度方案
腾讯云原生
2022/05/26
1.2K0
TKE qGPU 通过 CRD 管理集群 GPU 卡资源
5月腾讯云容器产品技术月报|容器给大小儿童发礼物啦~
2022年5月 VOL:25 腾小云告诉你最前线的产品新特性, 总有一款让你心动~ 云说新品 容器产品新特性5月上新 腾讯云容器服务公有版TKE 高可扩展和高性能容器管理服务 腾讯云容器服务(Tencent Kubernetes Engine,TKE)是高度可扩展的高性能容器管理服务,您可以在托管的云服务器实例集群上轻松运行应用程序。 TKE集群支持 Kubernetes 1.22 版本 (白名单体验中) ‍‍‍扩展组件 Addon 支持组件升级 CBS/CFS/COS-CSI 组件支持
腾讯云原生
2022/05/31
1.2K0
5月腾讯云容器产品技术月报|容器给大小儿童发礼物啦~
百万人同屏狂欢背后,腾讯云异构计算平台助力高效渲染
在本月的五四青年节上,由央视和TMELAND共同合作的一场创新性的数实融合五四特别节目,火了! 活动开场,尼格买提化身虚拟人,在TMELAND虚拟世界中进行了二次元式的报幕和主持,紧接着,腾讯旗下的吉莉、童和光、星瞳也集体空降现场,与青年演员联合出演情景歌舞《New Youth》。 在虚拟世界中云蹦迪,参加线上音乐会,腾讯音乐虚拟世界TMELAND在全真互联网时代给大家提供了身临其境的音乐服务和沉浸式的娱乐体验。 TMELAND 虚拟世界在活动期间有超过百万的乐迷访问,最高支持10万人在线同屏互动。其中虚
腾讯云计算产品团队
2022/05/26
2.1K0
百万人同屏狂欢背后,腾讯云异构计算平台助力高效渲染
腾讯云AI超级底座新升级:训练效率提升幅度达到3倍
大模型推动AI进入新纪元,对计算、存储、网络、数据检索及调度容错等方面提出了更高要求。在9月7日举行的2023腾讯全球数字生态大会“AI超级底座专场”上,腾讯云介绍异构计算全新产品矩阵“AI超级底座”及其新能力。
云存储
2023/09/13
5880
腾讯云AI超级底座新升级:训练效率提升幅度达到3倍
腾讯云原生年度精选文章,读这一篇就够了!(内送红包!)
腾讯云原生年度精选文章,读这一篇就够了! 感谢这一年的遇见与陪伴,我们帮大家总结了全年精选文章,涵盖产品信息、技术实践、用户案例等内容,恭祝大家新的一年大展宏“兔”!“兔”飞猛进! Tips:文末有红包封面 及互动礼品 等你来领! 腾讯云原生2022精华合集 腾讯云原生产品中心总经理邹辉谈腾讯自研业务云原生上云历程 登云之路|腾讯大规模云原生技术实践案例图鉴 资料下载|你可能遇到的8个开发运维难题,用云原生解决! 腾讯云原生 2022 年终总结 腾讯云原生核心技术产品 节点管理新范式 Hou
腾讯云原生
2023/01/18
1.4K0
腾讯云原生年度精选文章,读这一篇就够了!(内送红包!)
推荐阅读
相关推荐
qGPU 容器产品全量上线,重磅发布 GPU 在离线混部功能
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档