首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏深度学习与python

    一文看懂业界在离线技术

    (注:离在线计划另文阐述) 图 1 示意图 在离线的成本价值 为了更形象的了解在离线的成本价值,我们来看一个中小型企业,4 核 8G 的机器一共有 1000 台,主要计算资源就是 阿里等大厂也成功借助部将资源利用率提升了 3 倍以上,成本节省可观。 在离线的技术门槛 在离线虽然有明显的成本价值,但目前真正落地到生产环境的还是只有头部的一些大厂。 引入在离线之后,势必需要打破部门墙,对成本和利用率计算有一个能融合能分解的调整,才能准确反映出的巨大成本价值并持续精细化运营。 以下是美团某部门精细化成本运营后的分解图: 图 2 成本指标分解图 业界在离线方案解析 方案拆分 通过对目前业界在离线方案方案的分析,我们可以抽象出在离线方案的三个划分维度: 从在离线的隔离类型上 如果服务是于同一台物理机上,属于共享内核;如分属于不同物理机,则属于独占内核。 从在离线的部署底座上,可以分为物理机部署和容器部署。 从在离线的调度决策上,可以分为静态决策和动态决策。

    1.5K31编辑于 2022-03-22
  • 来自专栏腾讯大数据的专栏

    Caelus—全场景在离线解决方案

    本篇文章结合腾讯技术团队在混方面的落地和实战经验,来介绍各类场景下在线离线的相关概念、面临的问题及技术方案,抛砖引玉,供大家交流。 第一种方式适合不同类型的应用,应用之间资源互补,高峰时段错开。若是同种类型的应用,应用都在同一时段处于高峰,这种情况适合第二种方式。本篇文章主要是讲基于方式二的,即在线离线场景 概念中将应用类型分为在线作业和离线作业,要解决的问题是如何通过填充离线作业把集群各个时段的在线空闲资源利用起来。集群每个时段的空闲资源会发生变化,这就要求离线作业要快速上线下线。 图2 的场景 业内研究 在线离线对于提高集群利用率是非常有意义的,无论是在学术界,还是各大厂商实际落地,都对做了深入的研究。 图9 资源使用百分比 结论 带来的效果是不言而喻的,对资源利用率提升、降低成本都有实际的作用。

    9.4K71发布于 2020-12-14
  • 来自专栏深度学习与python

    4 个月节省千万成本的机器学习实践

    在今年 9 月份的 QCon 全球软件开发大会(北京站),贝联珠贯 (www.lccomputing.com) 合伙人王元良老师以《增强型 RunC 的最佳实践:克服离线高压力场景的关键挑战》为题, 所以在混出让算力时,优先需要考虑的是高压力场景下,业务如何稳定运行的问题。 二级告警,LCC-Agent 通知 NM NM 会调整心跳时间 NM 会根据任务的优先级,优先 KILL 低优先级任务 三级告警,LCC-Agent 直接 kill 非白名单进程 机器夯死问题得到解决,解决掉最关键的资源卡点问题 集群维度感知,先于业务发现问题 前期为了了解客户集群中的各种资源问题状态,我们采用手动脚本单台机器日志并聚类的方式来拿到结果;这种方式耗时长 (两周一次)、只能分析问题大类、没法观察问题走势和分布等 后单机压力与复杂度指数级上升,需要高频全视角的分析问题,这种方式不再适用。需要一套能分钟级展示、多视角、自动聚类分析的手段,包括时间对比、子系统分布、问题大类、问题子类、业务角度等。

    56510编辑于 2023-10-02
  • 来自专栏云计算技术笔记

    谷歌Borg论文阅读笔记(二)—— 任务和资源隔离

    相关笔记:谷歌Borg论文阅读笔记(一)—— 集群操作系统 Google的情况 Google几乎所有的机器都是的,在一台机器上,可能运行着不同jobs的tasks。 这里主要讲的是Google对任务对CPU性能影响的研究。 Google为了评估不同任务部署到同一个机器的CPU干扰影响做了一个实验。 资源分类 的一大问题是某个资源不足的情形。但是,不同的资源有不同的特点,有的资源能快速调整,而有的则需要很大的代价来调整。 在内存不足的时候,Linux会进行内存回收,释放PageCache,将匿名页调入Swap。 如果还是没有足够的内存,会进入OOM-KILL流程。这个代价是很大的。 总结 应用,尽可能使用多线程。 使用轻量级的隔离机制,而不是VM。 合理的对资源超分配,以此提高资源利用率。很多任务并不是任何时刻都会用到很多资源。 对任务和资源进行分级。

    95830编辑于 2022-09-07
  • 来自专栏Hank’s Blog

    2-7 R语言基础 数据框

    > df <- data.frame(id=c(1,2,3,4),name=c("a","b","c","d"),gender=c(TRUE,TRUE,FALSE,FALSE)) > nrow(df) #4行 [1] 4

    29220发布于 2020-09-16
  • 来自专栏Deep learning进阶路

    2-7 顺序表 和 链表 对比

    2-7 顺序表 和 链表 对比 1、存储结构的不同 虽然它们同属于线性表,但数据的存储结构有本质的不同: 顺序表存储数据,需预先申请一整块足够大的存储空间,然后将数据按照次序逐一存储,逻辑关系就是靠元素间物理空间上的邻接关系来维持

    38720发布于 2019-07-02
  • 来自专栏腾讯云原生团队

    之殇-论云原生资源隔离技术之CPU隔离(一)

    导语 ,通常指在离线(也有离在线之说),意指通过将在线业务(通常为延迟敏感型高优先级任务)和离线任务(通常为 CPU 消耗型低优先级任务)同时混合部署在同一个节点上,以期提升节点的资源利用率 (混合部署)因此应运而生。这里的“”,本质上就是“区分优先级”。狭义上,可以简单的理解为“在线+离线”(在离线),广义上,可以扩展到更广的应用范围:多优先级业务混合部署。 相关技术起源甚早,颇有渊源,大名鼎鼎的 K8s(前身 Borg)其实源于 Google 的场景,而从的历史和效果看,Google 算是行业内的标杆,号称 CPU 占用率(均值)能做到60%,具体可参考其经典论文 超线程干扰问题是场景中的关键问题,而 CFS 在最初设计时是(几乎)完全没有考虑过的,不能说是设计缺失,只能说是 CFS 并不是为场景而设计的,而是为更通用的、更宏观的场景而生。 不太适合(云原生)场景。 本质还是:Core scheduling 亦非为云原生场景而设计。 结论 综合前面的分析,可以抽象的总结下当前现有的各种方案的优点和问题。

    3.6K94发布于 2021-05-10
  • 来自专栏腾讯开源的专栏

    助力成本优化,腾讯全场景在离线系统Caelus正式开源

    11月4日,在2021腾讯数字生态大会上,腾讯正式宣布开源其全场景在离线系统Caelus。 对此,业内一直在进行诸多探索,在线离线被认为是解决该问题的终极方案。 .大部分系统只针对云原生场景,无法利用大量非容器化的在线空闲资源; 2. 调度器缺乏在离线应用调度的兼容性、高性能以及SLA保证。 解决这些问题,也是Caelus研发的初衷。 充分兼容的架构设计 Caelus为了适应各种的场景,遵循了几个关键原则,主要包括: 1. 不改变业务使用方式,便于业务迁移到Caelus平台。

    63241发布于 2021-11-18
  • 来自专栏腾讯大数据的专栏

    助力成本优化,腾讯全场景在离线系统Caelus正式开源

    对此,业内一直在进行诸多探索,在线离线被认为是解决该问题的终极方案。 由于很多大数据任务具有实时性要求不高、运行时间较短、使用碎片资源等特点,而在线应用的资源使用通常具有潮汐的特点,因此大数据任务比较适合复用在线应用的空闲资源,但也面临诸多核心技术难题,具体包括: 大部分系统只针对云原生场景 ,限制了可以的场景; 在内核层、容器层缺乏完善的资源隔离、热迁移等机制,导致容易发生干扰,且处理干扰代价高; 调度器缺乏在离线应用调度的兼容性、高性能以及SLA保证。 解决这些问题,也是Caelus研发的初衷。 充分兼容的架构设计 Caelus Caelus为了适应各种的场景,遵循了几个关键原则,主要包括: 不改变业务使用方式,便于业务迁移到Caelus平台。

    1.4K40发布于 2021-11-10
  • 来自专栏腾讯云原生团队

    【云原生下离在线实践系列】深入浅出 Google Borg

    作者徐蓓,腾讯云专家工程师,长期从事云计算 IaaS、PaaS 架构和研发工作,现负责腾讯云 TKE 资源调度、离在线、大数据云原生化等领域。 Google Borg 是资源调度管理和离在线领域的鼻祖,同时也是 Kubernetes 的起源与参照,已成为从业人员首要学习的典范。 Isolation 由于 Google Borg 天生就考虑场景,所以资源隔离对其尤为重要。 Google Borg 作为 Google 内部的经验结晶,系统的阐述了应有的基本形态,很有启发意义。 后续会持续分享相关的理论和实战经验。

    2K21发布于 2020-05-26
  • 来自专栏腾讯云原生团队

    年终大禧 | 腾讯云 Crane 国内首批通过云原生技术评估

    2023 年 1 月 9 日云原生产业联盟(CNIA)举办 2022 年度线上年会,中国信通院云大所云计算发布了云原生系列测评成果,腾讯云主导开源的云原生成本优化项目 Crane 首批通过“云原生” 腾讯云自 2015 年起在混领域进行探索,在支撑海量自研业务上云的过程中广泛使用。目前管理规模已达数千万核,能力使服务器资源利用率从30% 提升至 65%。 云原生解决方案依托容器、微服务、平台编排调度等云原生技术,帮助用户将业务负载与大数据分析、人工智能计算等不同优先级的应用混合部署到共享的基础设施上,提高资源利用率,实现“降本增效”。 在此背景下,中国信通院牵头,联合腾讯云等多家云服务商,经过多轮研讨,形成了《云原生技术能力要求》标准。 标准涉及基础设施能力要求、平台能力要求、业务应用能力要求,以及效果评价四个部分,从资源隔离、资源复用、干扰检测、负载反馈、任务调度、资源预测、应用服务质量等不同维度,对产品及解决方案进行全面评估

    1.5K30编辑于 2023-01-30
  • 来自专栏云原生

    腾讯云Serverless容器实战(如何提升集群利用率至65%)

    本文将深入剖析腾讯云团队如何借助Serverless容器技术与深度策略,在保障核心业务SLA的前提下,将生产集群利用率稳定提升至65%以上,并分享实战中沉淀的关键技术与踩坑经验。 三、实战精要:架构设计与核心策略目标: 在共享资源池内同时部署延迟敏感型在线服务(如API、Web)与资源消耗型离线作业(如Spark、Flink、AI训练),互不干扰。 四、稳定性守卫:多维熔断与逃生机制的最大风险在于资源争抢导致在线业务抖动。 五、效果验证:从理论到生产的数据飞跃在日均百亿请求的电商核心集群落地方案:指标 后 提升幅度集群CPU利用率 22% 68% 方案需结合业务特性深度调优,不可直接复制参数。

    20010编辑于 2025-07-08
  • 来自专栏腾讯云原生团队

    qGPU 容器产品全量上线,重磅发布 GPU 在离线功能

    徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研发经验,长期深耕 Kubernetes、在离线与 GPU 容器化领域,Kubernetes KEP Memory QoS 除此之外,腾讯云 qGPU 创新性的将在离线混合部署技术与 GPU 相结合,在业界首次实现了 GPU 在离线的方案,将 GPU 容器共享技术推进到了下一个纪元。 在线业务通常指推理业务,离线业务可能是推理、也可能是训练,于是在离线主要形式有 推理 + 推理、推理 + 训练。 在具备 qGPU 在离线能力之后,用户可以安全地将在线业务与其他业务部署在同一张 GPU 卡,在共享复用资源的同时,可以完全保障在线业务健康、稳定运行。 可以说,腾讯云 qGPU 在离线是提升 GPU 利用率的创新性的突破技术。

    1.4K30编辑于 2022-03-10
  • 来自专栏伪架构师

    Volcano:在离线作业管理平台,实现智能资源管理和作业调度

    本文结合华为云云原生团队在混合部署方面的研究和实战,介绍了混合部署的背景、概念、技术的设计方案和实际落地情况,以及对未来的计划和展望。 基于Volcano混合部署解决方案如下图所示: 图 3 基于Volcano混合部署架构 02 Volcano调度能力 目前Kubernetes的默认调度器是以Pod为单位进行调度的,不区分Pod中运行的业务类型 因此无法满足场景对资源分配的特殊要求。 资源超卖及在离线作业必然会导致不同作业之间的相互干扰,因此除了通过cgroup进行资源隔离之外,kubelet同时会实时采集节点上物理资源使用率,根据不同的情况驱逐离线作业,提前释放相应资源,防止对在线作业的 htm [4] 中国数据中心行业研究报告2020年: https://pdf.dfcfw.com/pdf/H3_AP202012161440695500_1.pdf [5] 王康瑾,贾统,李影.在离线作业调度与资源管理技术研究综述

    1.7K20编辑于 2022-04-15
  • 来自专栏嵌入式音视频

    2-7 输入圆的半径,计算其周长与面积

    预览图如下 #include<stdio.h> int main() { int r; printf("请输入r:"); scanf("%d",&r); { if(r>0) {printf("面积是:%f\n",3.14159*r*r); printf("周长是:%f\n",2*3.14159*r);} else printf("输入的r不合法!\n"); } return 0; }

    54030编辑于 2022-12-01
  • 来自专栏腾讯云原生团队

    今晚直播 | 腾讯基于 K8s 的全场景在线离线解决方案

    腾讯大数据,基于多年在混技术积累的实践经验与基于 Kubernetes 的全场景在线离线解决方案,对 K8s 零入侵,兼容各种场景(容器化、非容器化等),已经在腾讯内部业务多方落地,节约了上亿成本 揭秘有状态服务上  Kubernetes 的核心技术 6月直播专场来了|腾讯基于 K8s 的全场景在离线技术实践 Dapr | 云原生的抽象与实现 用 edgeadm 一键安装边缘 K8s 集群和原生

    47520发布于 2021-06-17
  • 来自专栏架构狂人

    集群 CPU 利用率均值达 45% ,揭秘小红书规模化技术实践

    截止目前,集群 CPU 利用率均值可达 45% 以上,为业务提供数百万核时的算力成本优化。 阶段三:常态 为了降低资源碎片率和业务资源持有成本,平台持续推进业务的大规模合池,将业务从独占资源池迁移到平台托管的公共池。 另外,在合池后的复杂场景下,整机腾挪、分时离线的调度策略很难再继续实施。平台需要建设更为细粒度的资源管理与调度能力,来实现均值利用率提升的目标,具体包含以下几点: 1. 通过大规模容器的持续推进,小红书在资源成本效能等方面都取得了显著收益,具体包含以下两方面: CPU 利用率 在保证在线服务服务质量的前提下,在线集群天均 CPU 利用率提升至 45% 作者简介 桑铎(宋泽辉):基础技术/云原生平台 小红书资源调度负责人,在容器资源调度、部署、资源隔离等方面有丰富的实践经验,目前主要负责小红书大规模容器资源调度、在离线等方向的技术研发工作。

    1K10编辑于 2023-11-29
  • 来自专栏腾讯云原生团队

    今日Qcon热门分享|腾讯K8s大规模离在线与内核隔离实践

    介绍大数据容器化如何与在离线结合,使大数据系统能够利用在线系统中空闲的资源,提升整体资源的使用率。 分享提纲: 1. 大数据云原生的问题与挑战 2. 腾讯云大数据云原生实践介绍 3.  专题演讲嘉宾 徐蓓 腾讯云专家工程师 11年软件架构与研发经验,其中7年云计算经验,在 IaaS、PaaS、离在线和云原生大数据领域有丰富的研发与落地经验。 Kubernetes 集群下通过技术将在线与离线业务混合部署在一起,以统一调度与提升资源利用率。 分享提纲: 1.腾讯云原生离在线背景、现状及发展趋势 2.腾讯 Kubernetes 隔离架构与实践 腾讯基本原理与核心架构 利用负载预测实现资源超卖 利用资源 QoS 框架实现资源隔离 利用 batch 调度加速调度性能 3.腾讯自研内核隔离技术与实践 CPU 隔离 内存隔离 IO/网络隔离 Quality Monitor 4.技术未来展望 听众收益: 1.了解资源隔离的关键技术

    1.5K40发布于 2021-05-31
  • 来自专栏全栈程序员必看

    WDA问题

    多个xcode线程在跑,杀掉xcode, 杀掉xcodebuild进程 , clean

    1K30编辑于 2022-09-14
  • 来自专栏刷题笔记

    2-7 一元多项式求导 (20 分)

    本文链接:https://blog.csdn.net/shiliang97/article/details/101025651 2-7 一元多项式求导 (20 分) 设计函数求一元多项式的导数。

    74420发布于 2019-11-08
领券