首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >助力成本优化,腾讯全场景在离线混部系统Caelus正式开源

助力成本优化,腾讯全场景在离线混部系统Caelus正式开源

作者头像
腾讯大数据
发布于 2021-11-10 11:40:28
发布于 2021-11-10 11:40:28
1.3K0
举报

导读 / Introduction

11月4日,在2021腾讯数字生态大会上,腾讯正式宣布开源全场景在离线混部系统Caelus

Caelus由腾讯大数据团队联合腾讯多个业务部门共同研发,旨在解决大数据资源缺口问题,通过Caelus在离线混部,扩充大数据任务可用资源,发挥空闲资源更大价值。在腾讯内部,Caelus混部方案已经被大规模应用到广告、存储、大数据、机器学习等多个业务,平均提升30% 资源利用率,节省了上亿成本

近年来,随着互联网业务的发展,大数据类任务的资源需求呈指数级增长,资源成本问题突出。但各大权威机构的调研数据显示行业目前在线资源利用率普遍很低,平均维持在15%左右,资源浪费严重。对此,业内一直在进行诸多探索,在线离线混部被认为是解决该问题的终极方案。

由于很多大数据任务具有实时性要求不高、运行时间较短、使用碎片资源等特点,而在线应用的资源使用通常具有潮汐的特点,因此大数据任务比较适合复用在线应用的空闲资源,但混部也面临诸多核心技术难题,具体包括:

  1. 大部分混部系统只针对云原生场景,无法利用大量非容器化的在线空闲资源;
  2. 部分混部方案要求大数据必须云原生化改造,增加了依赖条件;
  3. 资源复用在粒度、灵活性、时间等方面策略都不够精细,导致利用率不高;
  4. 缺乏比较好的干扰检测机制,导致在线服务质量无法很好保证,限制了可以混部的场景;
  5. 在内核层、容器层缺乏完善的资源隔离、热迁移等机制,导致容易发生干扰,且处理干扰代价高;
  6. 混部调度器缺乏在离线应用调度的兼容性、高性能以及SLA保证。

解决这些问题,也是Caelus混部研发的初衷。

适用全场景

Caelus

目前在线作业容器化已成为主流,但绝大公司的在线业务还有相当大未容器化的存量,或有些业务(如存储类服务)不适合容器化,这些没有经过容器化的在线应用,没有很好的资源隔离方式,但资源却非常可观,因此Caelus通过以后置容器的方式来管理在线应用,将这部分资源也充分利用起来,也减少了混部在很多公司、很多场景的限制。

对于离线任务,Caelus可以支持大数据任务,也可以支持任何非大数据类的任务。但由于大数据任务占到了离线任务的极高比例,并且离线大数据任务资源碎片化特点比较明显,而大数据又有很多是hadoop的生态,因此腾讯做了很多的兼容工作。同时,也看到有很多公司已经在云原生大数据领域有了比较不错的进展,对于使用Caelus来做混部更加自然。

充分兼容的架构设计

Caelus

Caelus为了适应各种的混部场景,遵循了几个关键原则,主要包括:

  1. 不改变业务使用方式,便于业务迁移到Caelus混部平台。比如大数据任务仍然可以使用原有的方式提交job,如果原来是Yarn,Caelus实现了Yarn on k8s。如果大数据已经是on k8s的方式,也可以更方便的使用统一调度;
  2. 对基础生态零入侵。不论是对hadoop,还是对k8s,都是零入侵的实现,因此保证了对多种版本的兼容性,以及后续的可扩展性;
  3. 非耦合、可扩展的架构。在实现时,充分兼顾了未来的可扩展性,大多功能都是以插件的形式实现。

保障在线业务服务质量

Caelus

Caelus挖掘的是在线业务的空闲资源,混部要优先保障在线服务的正常运行,当在线业务需要资源时,大数据业务要及时归还资源。Caelus内部集成了指标收集、资源画像、资源隔离、干扰检测、离线驱逐等模块,从调度、隔离、检测等方面全方位保障在线的服务质量。   

对于资源隔离,Caelus采用全维度弹性资源隔离,包括CPU、内存、磁盘IO、磁盘空间、网络IO等。同时可以配合腾讯OS版本,进一步提升资源隔离效果。

在干扰检测方面,通过RDT、perf、eBPF等技术深度采集硬件、内核及业务相关指标数据,通过丰富的异常检测算法,判断在线服务是否受到干扰。例如,Caelus采用eBPF技术从内核中采集了更加丰富的diskIO和内存操作相关指标以及在线服务请求处理时长,以此来判断在线服务是否发生了性能影响,一旦识别出在线服务质量受到干扰,就会采取一定策略退还更多资源给在线服务,保证在线服务不受影响。

为大数据业务提供“质”的保证

Caelus

混部虽然为大数据业务挖掘到了很多免费资源,但是也带来了比较差的服务质量,因为资源画像的本质是对未来的预测,资源隔离是对可能的干扰进行预防,但预测不会完全准确,预防也不能保证问题一定不会发生,所以在离线混部往往在干扰发生时陷入不得不牺牲离线任务的窘境,导致离线任务可能会被压制甚至被kill。

Caelus采取了一系列措施来实现“质”的保证,保证离线作业的成功率,比如为了更好地隔离在线和离线作业的磁盘IO及磁盘空间,Caelus会为节点动态地挂载Ceph RBD盘;引入Remote Shuffle Service,解决在线应用所在机器通常磁盘不足的问题,从而避免了CPU等计算资源的浪费,进一步提升利用率;Caelus除了对在线应用作资源画像之外,还对离线任务做画像,并且与调度相配合,来提升离线任务的服务质量。

同时,Caelus还提供了一个混部的“后悔药”——容器热迁移能力。容器热迁移是指在不终止离线任务的前提下将其移动到更适合的节点。由于热迁移一定发生在干扰产生之后,因此可以获得离线任务实际使用资源的准确认知,基于这种认知的调度决策会比基于预测的决策更有效,可以更好地保障离线任务的SLA。

另外,很多大数据场景下,大规模集群、大量短作业都对调度器的调度吞吐提出了很高的挑战,特别是云原生大数据,更是缺乏这种能力,因此,Caelus实现了自研的高性能调度器,是原生K8S调度器的10倍调度吞吐。

欢迎大家关注和贡献

Caelus

目前 Caelus 已经在腾讯内部经过长时间规模化的考验,未来还将在更多网络模式下的容器热迁移、对机器学习等长时间运行的离线任务混部质量提升等方面进行持续迭代优化。

开源版本地址:

https://github.com/Tencent/Caelus

(点击“阅读原文”即可访问)

欢迎大家关注和star ,一起优化,同时也欢迎各位优秀的开发者加入腾讯大数据团队。

扫码关注 | 即刻了解腾讯大数据技术动态

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
助力成本优化,腾讯全场景在离线混部系统Caelus正式开源
11月4日,在2021腾讯数字生态大会上,腾讯正式宣布开源其全场景在离线混部系统Caelus。 Caelus由腾讯大数据团队联合腾讯多个业务部门共同研发,旨在解决大数据资源缺口问题,通过Caelus在离线混部,扩充大数据任务可用资源,发挥空闲资源更大价值。在腾讯内部,Caelus混部方案已经被大规模应用到广告、存储、大数据、机器学习等多个业务,平均提升30% 资源利用率,节省了上亿成本。 近年来,随着互联网业务的发展,大数据类任务的资源需求呈指数级增长,资源成本问题突出。但各大权威机构的调研数据显
腾讯开源
2021/11/18
5920
Caelus—全场景在离线混部解决方案
引言:集群管理的一个重要目标是提高资源利用率,随着集群规模的扩大,基础设施成本上涨,资源利用率问题逐步突显,为降低成本,混部技术应运而生。本篇文章结合腾讯技术团队在混部方面的落地和实战经验,来介绍各类场景下在线离线混部的相关概念、面临的问题及混部技术方案,抛砖引玉,供大家交流。 混部背景 各大厂商都有自己的集群管理平台,典型的是以k8s(kubernetes)为代表的容器云平台,集群管理的一个重要目标便是提高资源利用率,随着集群规模的扩大,机器成本增加,资源利用率问题开始变得越来越重要。造成集群利用率低的
腾讯大数据
2020/12/14
9.3K4
一文看懂业界在离线混部技术
刚刚过去的 2021 年,在全球经济增长放缓、疫情时起时伏、中美关系摩擦不断、国家平台监管趋严等宏观趋势叠加影响下,很多互联网厂商都遭遇了明显的市值下滑以及亏损加大,裁员消息时有耳闻,所以在 2022 年,降本增效无疑将进一步成为业界大势所趋。
深度学习与Python
2022/03/22
1.4K0
一文看懂业界在离线混部技术
6月直播专场来了|腾讯基于 K8s 的全场景在离线混部技术实践
腾讯云主办首个云原生百科知识直播节目——《云原生正发声》,每周二晚19:30 开播。《云原生正发声》围绕云原生技术领域,覆盖实时的云原生技术实践、性能优化、前沿趋势、当前热点、案例分享、大咖分享、开发者成长路径、就业方向选择等等内容。 【云原生正发声】开播至今,已推出4期啦~本月干货主题更精彩! 6月初初到来,我们集结了一批技术专家,为技术爱好者们精心策划了一场大数据云原生专场——腾讯基于K8s的全场景在离线混部技术实践。 腾讯大数据,基于多年在混部技术积累的实践经验与基于 Kubernetes 的全场景
腾讯云原生
2021/06/10
1.1K0
Volcano:在离线作业混部管理平台,实现智能资源管理和作业调度
现代互联网数据中心的规模随着应用服务需求的快速增长而不断扩大,但服务器资源利用率却一直很低,导致企业基础设施成本不断上涨。随着云原生技术的发展,混合部署成为了降低成本的一大手段。本文结合华为云云原生团队在混合部署方面的研究和实战,介绍了混合部署的背景、概念、混部技术的设计方案和实际落地情况,以及对未来的计划和展望。
崔秀龙
2022/04/15
1.5K0
Volcano:在离线作业混部管理平台,实现智能资源管理和作业调度
集群 CPU 利用率均值达 45% ,揭秘小红书规模化混部技术实践
根据 Gartner 预测数据显示:2024 年全球 IT 支出预计将达到 5.1 万亿美元,比 2023 年增长 8 %。然而,该机构的另一项调查数据显示:全球数据中心服务器平均 CPU 利用率普遍低于 20%,存在巨大的资源浪费。据测算,以数百万核 CPU 规模的数据中心为例,每提升 1 个百分点的整体资源利用率,每年将节省数千万元的成本。由此可见,提高资源利用率对于降低企业运营成本具有显著的效果。
架构狂人
2023/11/29
8400
集群 CPU 利用率均值达 45% ,揭秘小红书规模化混部技术实践
Serverless 如何应对 K8s 在离线场景下的资源供给诉求
韩沛,腾讯云高级工程师、专家产品经理,从事云计算行业 8 年,拥有丰富的研发和云产品策划经验。目前主要负责建设腾讯云云原生产品体系,主导 TKE、EKS 等产品及容器化监控、大数据、AI等解决方案的设计工作,并协助推动腾讯各BG 业务架构的云原生化。 本文整理自腾讯云云原生产品团队的专家产品经理韩沛在 Techo 开发者大会云原生专题的分享内容——Kubernetes 混部与弹性容器。本次分享主要分为三部分:基于 K8s 的应用混部、提升应用混部效果的关键、弹性容器对混部集群的价值。 讨论 K8s 的
腾讯云原生
2021/01/11
1K0
如何治理资源浪费?百度云原生成本优化最佳实践
作者 | 百度云原生团队 根据 Gartner 的调查数据,到 2022 年底,全球企业在云计算基础设施方面的支出约为 3330 亿美元。麦肯锡在调查报告中指出,2020 年,由于缺乏成本优化手段,80% 企业的云资源成本大幅超出预算;同时,45% 的企业由于缺乏优化措施,在直接迁移上云的过程中会超买 55% 的资源,并且在上云的头 18 个月会多花 70% 的费用。 随着全球经济持续下行,企业应该如何做好精细化运营和降本增效,如何优化云资源的分配、使用和管理成为了当下必须要考虑的问题。 本文将会具体介绍百
深度学习与Python
2023/03/29
1.7K0
如何治理资源浪费?百度云原生成本优化最佳实践
今日Qcon热门分享|腾讯K8s大规模离在线混部与内核隔离实践
2021年5月29-31日Qcon软件大会在北京国家会议中心举行。自2007年3月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过QCon大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向5年以上工作经验的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。 云计算平台带来 IT 基础设施巨大变革,每一次 IT 基础设施的变革都会激发开发人员去思考能够充分发挥新平台优势的软件设计和开发方法。“云原生”就是一种充分利用云计算模式的优点来构建和运行应用的方法。 无论是构建
腾讯云原生
2021/05/31
1.5K0
三年全面上云,腾讯自研业务超千万核资源的容器管理实践
作者 | 王涛 仅用三年时间,基于腾讯云 TKE 底座,腾讯自研业务容器化规模已达到千万核级别的 CPU 资源规模。面对如此海量的异构资源和复杂多样的业务场景,腾讯是如何做到资源利用率 65% 的?在调度编排、弹性伸缩、应用管理、稳定性保障等方面,腾讯又有哪些秘籍?在 ArchSummit 2022 全球架构师峰会(深圳站)上,腾讯云自研上云容器平台负责人王涛发表了题为《如何管理超千万核资源的容器规模》的演讲,为大家逐一揭秘。 腾讯自研业务容器化上云历程 腾讯自研业务容器化上云的技术路线经历了多个阶段
深度学习与Python
2023/03/29
1.6K0
三年全面上云,腾讯自研业务超千万核资源的容器管理实践
腾讯云专家集结亮相 KubeCon2021,门票100张免费送
KubeCon+ CloudNativeCon + Open Source Summit China 2021 —— 年度最顶级的云原生开源技术峰会要来了! 自 2018 年以来,历年的 KubeCon + CloudNativeCon+ Open Source Summit China 汇聚了全球最活跃的开源云原生社区、最先进的技术代表与行业的最佳落地实践,推动云原生计算领域的知识更新和技术进步。 由于疫情的原因,2021年的峰会将采用线上虚拟大会的形式举办,大会专题论坛涵盖云基础设施、人工智能与数
腾讯云原生
2021/12/02
8340
【大数据云原生系列】大数据系统云原生渐进式演进最佳实践
王玉君,腾讯云后台工程师,拥有多年大规模Kubernetes集群的开发运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。 谭春强,腾讯云后台工程师,拥有两年大数据EMR集群管控运维经验,目前负责腾讯云大数据EMR组件的容器化方向。 1.引言 随着云原生概念的兴起,越来越多的企业投身于云原生转型的浪潮,以解决传统应用面临的弹性能力不足、资源利用率较低、迭代周期较长等问题。通过云原生技术(如容器,不可变基础设施和声明式API等),使得企业在公有云、私有云和混合云等云环境构建和运
腾讯云原生
2020/09/22
4.1K0
6月15日|揭秘腾讯内部业务多方落地,节约上亿成本内幕
腾讯云主办首个云原生百科知识直播节目——《云原生正发声》,每周二晚19:30 开播。《云原生正发声》围绕云原生技术领域,覆盖实时的云原生技术实践、性能优化、前沿趋势、当前热点、案例分享、大咖分享、开发者成长路径、就业方向选择等等内容。 【云原生正发声】开播至今,已推出4期啦~第五期干货主题更精彩! 腾讯大数据,基于多年在混部技术积累的实践经验与基于 Kubernetes 的全场景在线离线混部解决方案,对 K8s 零入侵,兼容各种场景(容器化、非容器化等),已经在腾讯内部业务多方落地,节约了上亿成本。 这些
腾讯云原生
2021/06/11
6170
最佳实践 | 作业帮云原生成本优化实践
董晓聪,作业帮基础架构负责人,主要负责架构研发、运维、DBA、安全等工作。基于开源的力量,和云厂商一起完成作业帮技术体系的云原生重塑。 项目背景 作业帮教育科技(北京)有限公司成立于2015年,一直致力于用科技手段助力教育普惠,运用人工智能、大数据等前沿技术,为学生提供更高效的学习解决方案。随着业务需求的发展,作业帮的 IT 系统面临巨大挑战,现有基础平台架构已经无法满足快速增长的业务需求。业务对快速迭代、急速弹性、调用链追踪、统一的监控日志平台、提升计算资源利用率等需求迫在眉睫。 2019年下半年,作业
腾讯云原生
2021/11/24
9950
连夺双奖,腾讯云大数据云原生究竟凭什么?
300+参评项目,100+入围项目,10000+开发者公开票选,20+专家评审,10+主编团打分,历经数月打磨,由 InfoQ 发起组织的【 2020 中国技术力量年度榜单评选】结果揭晓: 腾讯云大数据云原生技术脱颖而出,荣获 2020年度十大云原生创新技术 早前,在2020年7月可信云大会上 腾讯云大数据云原生已荣获评年度技术最佳实践 那么腾讯云大数据云原生究竟凭什么能连续拿走两座大奖呢? 大数据云原生作为当前行业内热门的钻研话题,未来发展前景及趋势均不可小觑。各大云厂商、大型互联网企业都在尝试
腾讯云原生
2020/11/25
1.8K0
腾讯云Serverless容器混部实战(如何提升集群利用率至65%)
在云计算成本日益成为企业核心关注点的今天,闲置的集群资源如同静默燃烧的经费。传统Kubernetes集群的平均利用率常年在15%-30%低位徘徊,巨大的资源空洞与业务快速增长的需求形成尖锐矛盾。本文将深入剖析腾讯云团队如何借助Serverless容器技术与深度混部策略,在保障核心业务SLA的前提下,将生产集群利用率稳定提升至65%以上,并分享实战中沉淀的关键技术与踩坑经验。
大熊计算机
2025/07/08
1100
Crane如何做到利用率提升3倍稳定性还不受损?
陈凯悦,腾讯云高级开发工程师,Crane和SuperEdge项目核心开发。专注于大规模离在线混部和资源调度,目前负责Crane离在线混部和调度相关工作。 颜卫,腾讯高级开发工程师,Crane项目核心开发。专注于Kubernetes大规模集群管理和成本优化,丰富的超大规模集群管理和混部经验。目前负责Crane离在线混部和资源优化相关工作。 作为云平台用户,我们都希望购买的服务器物尽其用,能够达到最大利用率。然而要达到理论上的节点负载目标是很难的,计算节点总是存在一些装箱碎片和低负载导致的闲置资源。下图展示了
腾讯云原生
2022/12/08
1.2K0
Crane如何做到利用率提升3倍稳定性还不受损?
年终大禧 | 腾讯云 Crane 国内首批通过云原生混部技术评估
2023 年 1 月 9 日云原生产业联盟(CNIA)举办 2022 年度线上年会,中国信通院云大所云计算发布了云原生系列测评成果,腾讯云主导开源的云原生成本优化项目 Crane 首批通过“云原生混部”项目评估。 Crane 是国内第一个基于云原生技术的成本优化开源项目,遵循 FinOps 标准,旨在为云原生用户提供云成本优化一站式解决方案。 技术方面,Crane 基于两级调度能力,实现高优先级延迟敏感业务和低优先级高吞吐业务在相同节点上的混合运行。 一级调度能力,确保应用的高效调度,实现真正的“用多少占多
腾讯云原生
2023/01/30
1.4K0
年终大禧 | 腾讯云 Crane 国内首批通过云原生混部技术评估
打造开放的云原生操作系统和系统软件架构
大家早上好,我今天给大家分享我们的基础软件建设。网易杭州研究院在整个网易集团的主要职责是为网易的非游戏业务构建统一的技术平台,来支撑网易音乐、网易新闻、严选,以及之前的考拉海购的业务需求。在 2019 年的时候,我们把考拉海购出售给阿里集团了,但是在之前,考拉也曾经一度是我们最大的一个支撑对象。所以对我们来讲,重点就是要去探索一个比较统一的、开放的、自主可控的技术架构,来满足我们的业务需求。
深度学习与Python
2021/06/08
1.3K0
打造开放的云原生操作系统和系统软件架构
混部之殇-论云原生资源隔离技术之CPU隔离(一)
蒋彪,腾讯云高级工程师,10+年专注于操作系统相关技术,Linux内核资深发烧友。目前负责腾讯云原生OS的研发,以及OS/虚拟化的性能优化工作。 导语 混部,通常指在离线混部(也有离在线混部之说),意指通过将在线业务(通常为延迟敏感型高优先级任务)和离线任务(通常为 CPU 消耗型低优先级任务)同时混合部署在同一个节点上,以期提升节点的资源利用率。其中的关键难点在于底层资源隔离技术,严重依赖于 OS 内核,而现有的原生 Linux kernel 提供的资源隔离能力在面对混部需求时,再次显得有些捉襟见肘(
腾讯云原生
2021/05/10
3.4K1
推荐阅读
相关推荐
助力成本优化,腾讯全场景在离线混部系统Caelus正式开源
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档