Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >鹅厂上万节点大规模集群的跨城自动迁移(上)

鹅厂上万节点大规模集群的跨城自动迁移(上)

原创
作者头像
腾讯技术工程官方号
修改于 2017-07-04 09:03:41
修改于 2017-07-04 09:03:41
3.3K1
举报

前言

TDW 是腾讯内部最大的离线处理平台,也是国内最大的 HADOOP 集群之一。在运营这么大集群的时候,运营面临各种各样的难题,在解决这些难题的过程中,团队提炼出来的一个运营理念,用两句话去描述。

  • 用建模的思路去解决运营的难题 运营的问题怎么解决?你必须用一些数据建模的办法,把这个难题解析清楚,然后我们再去考虑运营平台建设。
  • 运营平台支撑模型运作 不是为了建设运营平台而建设,而是它必须有一定的运营理念。下文写到这样的运营理念是怎么贯穿在迁移平台的建设里面的。

本文主题主要包含以下几个方面: 1、介绍一下腾讯大规模集群 TDW,以及为什么做迁移。 2、迁移模型是怎么样的。 3、迁移平台是怎么做的。

腾讯大规模集群TDW

先介绍一下腾讯大规模集群,我们这里讲的集群是指 TDW。TDW 是腾讯分布式数据仓库,它是一个海量数据存储和计算平台。为什么说是大规模集群?记得刚开始接手 TDW 运营的时候,很多年前,当时我们有400台的集群,觉得我们集群已经很大了,但是过了几年之后,我们要运营的集群已经达到4400台。现在看来4400台还算挺大的,但是又过了几年后,我们规模到了8800台,这是我们的现状。我们的现状可以用三个指标来描述: 1、单集群 8800 台 2、支撑每天 20PB 扫描量 3、同时提供 200PB 存储能力 所以我们说是“大”,用苹果一句话说,biger than biger,我们预计到2017年底我们规模会达到2万台。

运营这么大规模的集群,运营人员自然会面临很多挑战。比如像设备运维、版本上线变更、配置管理、还有快速扩容等等。这些问题,我们都有相应系统去支撑,本文说的是我们遇到的另外一个头痛的问题:集群不断膨胀,从400台到8800台,前期可以通过扩容解决。到目前这个阶段,8800台之后,我们发现扩容已经搞不定了。为什么?因为现有机房的容量和网络架构只能支撑这么大的规模,这时候我们需要将 TDW 迁移到其他城市更大容量的机房,这也就是我们面临的另一个问题,跨城迁移。

上文说了 TDW 的迁移原因,现在回过头来看 TDW 的整体架构。TDW 是腾讯大数据的处理平台的一部分,整个腾讯大数据处理平台包含了下面五层。

我们从下往上看: 1、最底层是数据存储层,包括 HDFSHBase、Ceph、PGXZ; 2、第二层是资源调度层; 3、第三层是计算引擎层,包括 MR、Spark 和 GPU; 4、第四层是计算框架,包括 Hermes、Hive、Pig、SparkSQL、GraphX 等; 5、最上层是服务层,提供给外部数据分析能力和机器学习能力。

这是整个腾讯大数据平台,刚才说的 8800 覆盖了其中离线数据处理的部分。我们整个迁移覆盖了 HDFS、盖娅、MR、SPARK、HIVE、Pig 和 SparkSQL。

迁移模型是怎么样的

跨城数据迁移到底难在哪里? 首先,运维工作量非常大。有上百P的数据要腾挪,有几十万任务需要切换,还有近万台的设备需要搬迁,这个事情对于运维来说工作量非常大。 其次,要保障业务无感知。迁移过程中系统要稳定可用,要保障数据不能丢失,不能把一份数据从一个地方搬迁到另外一个地方的时候,把数据弄丢了。 最后,要保障任务的计算结果准确而且任务的运行时长不能有明显的波动。 不管是运维工作量大还是业务无感知,这都还不是最致命的,对于跨城迁移来说,最致命的问题是:当数据和计算分散在两个城市的时候,数据穿越可能造成专线阻塞,从而影响使用专线的所有系统,导致影响扩大化。在介绍跨城迁移模型之前,我们先简单介绍两个方案,一个是双集群方案,一个是单集群方案。

方案一:双集群方案 双集群方案比较好理解,左侧跟右侧是两个城市的集群,双集群方案就是两套完全独立的系统,让它们独立去跑。

在说方案之前,我再深入介绍一下 TDW 里面的几个模块。我们只看左边就可以了。左边从下面最底层是 GAIA,GAIA 负责资源调度。中间最左侧是数据采集 TDBank,它负责把各个业务线数据收集到 TDW。TDW 的核心是计算引擎和存储引擎,存储引擎是放数据的地方,计算引擎提供 MapReduce 和 Spark 的计算能力。之上有查询引擎,最上面提供两个用户入口,任务统一调度和集成开发环境 IDE。

举两个例子来说说各模块是怎么交互的。

案例一,数据是怎么进入 TDW 的? 首先业务数据经过数据采集模块,落地到存储引擎的某个目录下;统一任务调度 Lhotse 配置的一个入库任务,与 Hive 交互,将目录的数据转换成 Hive 表的数据。

案例二,数据是怎么计算的? 数据计算通过任务触发,任务是对数据的处理加工,比如统计日报的时候,计算任务对某个表做操作,把结果写回到另一个表中。迁移是把存储和计算整套 TDW 平台,从一个城市搬迁到另外一个城市,双集群方案思路就很简单,在另外一个城市把所有系统都搭起来,跑起来就好了。系统在两个城市之间是完全独立的,比如数据两份,计算两份,在这两个独立的系统之间不需要有任何的数据穿越(除了在迁移本身的数据穿越)。这个方案最大优点就是不需要数据穿越,业务可以做到完全无影响,但是它最大缺点是需要大量的冗余设备。

方案二:单集群方案 下面讲一下单集群方案,它跟双集群差异点在哪里?最核心的差别在于:存储不会同时在两个地方,要么在左边,要么在右边。

单集群方案有一个最大的优点就是不需要大量的设备,慢慢地把一部分设备,一部分业务,从左边迁移到右边。这里会面临一个问题,比如刚才说到的一个计算的场景,如果没有控制好的话,会出现计算在左侧,数据已经跑到右侧去了,因为数据只有一份。任务跑起来的时候,左侧的计算引擎就会大量拉取右侧的数据,会对专线造成很大的风险。

对比一下刚才那两个方案,我们可以总结一下思路:在一个大的系统里,如果优先考虑成本,建议采用单集群方案。单集群方案最大风险是跨城流量控制,跨城流量控制最重要的点是:数据在哪里,计算就去哪里,要不然就是穿越;如果访问的数据两边都有,哪边数据量大,计算就在哪边。

建立基于关系链的迁移模型 前面我们分析了一下我们实现跨城迁移的问题和方案,接下来我们为了解决跨城的流量控制降低跨城迁移的流量,我们引入一个基于关系链的迁移模型。

我们需要知道数据流是怎么样来的,比如上面的一个关系链中,入库任务对最顶层的 HDFS 数据做一些加工处理,处理之后把结果保存到入库表;分析人员基于这个入库表做各种计算和统计分析,比如统计某些指标,做关联性分析,这里配置了四个任务,这四个任务运行后产生新的结果表,其中还有两个结果表由下层的任务做进一步的处理,这样就产生了数据和任务的关系链。引入关系链模型,它能帮助我们理清楚数据和任务的关系。我们用椭圆描述数据,矩形描述对数据的加工,他们的连线表明访问数据的方向,是读还是写。这个关系可以用来指导我们的数据迁移,可以做到数据在哪里,计算就在哪里。

关系链的生成 接着的问题是在一个大的系统里关系链怎么生成?在任务调度里面有一个概念,叫做依赖,用来描述任务的父子关系,父任务运行完成后子任务才允许运行。原来我们没有做关系链的时候,这是纯粹的任务调度层的关系,虽然它有一定指导作用,但是不能直接应用在迁移里面,因为我们需要的是数据和任务的关系,而不仅是任务和任务的关系,我们需要从庞大的任务管理系统生成关系链,来指导数据迁移。

接下来介绍一个叫 hadoopdoctor 的运营工具,它是用做什么的?它会把我们跑的任务信息采集回来,把它保存在 DB 里面,这些信息用于定位 MR 失败原因或性能分析。它有一个主控模块,每五分钟去所有的 NodeManager 采集每个 MR 的配置和运行信息,比如说它的访问数据是什么,输出结果是什么。为了支持迁移,我们改了一些逻辑,让 hadoopdocter 记录数据路径和任务ID,同时区分标识是读的还是写的。把这个数据采集出来以后,我们就可以做关系链的分析。

这里面采集到的路径会非常多,比如一个日报可能访问的是昨天某一个表的数据,比如访问量,就需要访问昨天的分区。采集出来的数据路径粒度非常细,它是包含日期的。但是我们关注点并不需要到分区,我们关注的是表本身。所以我们把涉及到日期相关的路径规约掉,转成与日期无关的路径,数据规约对关系链分析有好处,归完之后减少了很多的数据量。我们把最基础的信息采集到,它描述了一个任务,访问什么数据,产生什么数据。经过我们的逻辑采集完之后,我们得到的是最原子的数据访问关系,就是一个任务对存储的操作,读或者是写,我们会产生非常多这样的原子关系,这种关系累计的结果就是关系链。我们清洗出来一个最基础的关系,可以拼凑成一个大的关系链。

切分大关系链 关系链里面特别注意的地方,是一定要覆盖全面。统计分析里不仅有日报,还有周报和月报,统计周期一定要覆盖较长的时间范围,这样才能把所有关系描述准确。从最基础的原子关系聚合成关系链,可以用并查集算法。聚合出来的关系链,有大有小。对于小的关系链,很简单就可以把它迁走;但是我们发现一个很头痛的问题,聚合除了产生很多小的关系链,同时也产生了少量非常大的关系链,一个大的关系链可能包括超过十万个结点。这时候我们发现回到原点,本来想把整个数据仓库从一个城市挪到另外一个城市,思路是将它打散生成多个关系链,最后也确实产生一些小的关系链,方便我们做迁移。但是遗留了一些大的关系链。

如果看这个图我们自然而然想:既然这么大的关系链迁不动,就先迁上面部分,这里就是把大的关系链切开的想法。我们引入一些关键结点,这些关键点把大的关系链切分成多个小关系链。那么哪个关系链结点才是最合适的?这个也很难找,大家可以想理论上是存在的,比如从图中标红色部分一刀切过去就可以一分为二,但是在上十万结点规模的关系链里是很难做到这个事情的。

引入HIVE双写表 把这个问题先留在后面,我们先做一个假设,已经找到合适的结点了,怎么实施关键结点的迁移,有两种思路:一种是单份数据方案,比如把这份数据迁到另外一个城市,就让它穿越,很容易实现,但是不好控制流量;另一种是双份数据方案,把关系链一分为二的时候,就把关键结点的数据变成两份。我们引入双写表的概念,双写表有两个 location。

双写表的数据有两份,在城市A访问数据的时候,城市A 的 HIVE 会返到主的 location,城市B则返回备的 location,计算可以访问离自己近的存储。这里,需要一个任务把城市A的数据同步到城市B中,这是一个同步任务,这个任务在数据在城市A生成后(总有个计算任务往里面写数据),把城市A的数据同步到城市B,保证两边的数据是一致的。在迁移过程中把一个表升级成双写表的过程业务是无感知的,我们有机制保证数据双份,就近访问。

数据一致性保证 刚才说到双写表在城市A和城市B有两份数据,由同步任务负责同步,这时候我们会遇到一个问题,在城市A和城市B,它的下游任务会不会在同步任务没跑完之前就去访问这个数据?

我们必须要保证数据的一致性,这通过增加对同步任务的依赖实现。比如任务产生数据表1,下面三个任务会读取表1数据,这个依赖关系是上面这个任务是父任务,只有这个父任务跑完之后,下面三个子任务才能跑起来。这个依赖逻辑保证了三个子任务总能正确访问表-1的数据。

加入了同步任务之后,我们就保证了数据的一致性。比如这个图里,我们有两个任务从城市A迁到城市B,这时候我们要保持数据和计算的一致性,只需要保证城市B访问表-1数据的任务依赖同步任务即可。

最小化切分和关系链融合 回到一个大的关系链怎么拆分的问题,假设已经把它拆开了。拆开的时候产生了很多小的关系链,把小的关系链从一个城市迁移到另外一个城市的时候,为了减少数据穿量引入双写表的概念,双写表加上任务依赖,保证了所有拆分出来的关系链有一个比较非常好的特性,就是不管产生多少个关系链,每个关系链都是随时可以迁移的。还有一个问题:我们很难找到合适的关键点,对一个十万节点关系链,我们做了一些尝试,用遍历的方式查找所有可行的双写表,都不能把这么大的关系链拆开,我们发现不存在单个双写表可以拆开这么复杂的关系链。

大家可以想象一下,一个很复杂的图里面可能找不到一个结点能够将它切分成多个关系链。单个双写表做不到,则需要使用多个双写表,这时候找出合适双写表的算法就会非常复杂。后来我们做了一个变通,让所有符合双写表规则的表都变成双写表,这样可以实现对一个大关系链的最小化拆分。之后我们对最小化拆分后的小关系链又做了融合,把很小的关系链并成规模适中的关系链。

这里面整体的思路,类似于工厂流水线打包,我们把关系链聚合,再把它拆分融合,变成一个个大小适中的关系链,就像工厂打包的一个个箱子,迁移就是把这些箱从从城市A运输到城市B的过程。

计算的迁移 我再补充一下计算的迁移,刚才上面架构里面,说计算需要从城市A迁移城市B,怎么切呢?我们对每个任务加上城市 ID 的扩展参数,当这个任务需要从城市A切到城市B跑的时候,只需要改这个参数就好了。平台会记录城市 ID,并在不同系统上传递,进行准确的路由,这样实现任务是方便迁移的。

再总结一下迁移模型,我们面临运营上很头疼的事情,要做跨城迁移,我们解决的方案是基于关系链,把关系链打散,通过机制保证关系链的一致性,使得我们迁移能够跑起来。

鹅厂上万节点大规模集群的跨城自动迁移(下)

注:本篇内容来自”腾讯技术工程官方号“,公众号ID:tegwzx

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
mark
mark
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
腾讯上万节点大规模集群的跨城自动迁移
前言 作者在腾讯一直从事数据相关领域的系统运营和运营平台的建设工作。目前主要负责 TDW 的系统运营,TDW 是腾讯内部最大的离线处理平台,也是国内最大的 HADOOP 集群之一。 在运营这么大集群的时候,运营面临各种各样的难题,在解决这些难题的过程中,团队提炼出来的一个运营理念,用两句话去描述。 用建模的思路去解决运营的难题 运营的问题怎么解决?你必须用一些数据建模的办法,把这个难题解析清楚,然后我们再去考虑运营平台建设。 运营平台支撑模型运作 不是为了建设运营平台而建设,而是它必须有一定的运营理念。下文
腾讯大数据
2023/03/03
1.6K0
腾讯上万节点大规模集群的跨城自动迁移
鹅厂上万节点大规模集群的跨城自动迁移(下)
腾讯技术工程官方号
2017/06/06
1.5K0
鹅厂上万节点大规模集群的跨城自动迁移(下)
腾讯大规模Hadoop集群实践
TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。 TDW服务覆盖了腾讯绝大部分业务产品,单集群规模达到4400台,CPU总核数达到10万左右,存储容量达到100PB;每日作业数100多万,每日计算量4PB,作业并发数2000左右;实际存储数据量80PB,文件数和块数达到6亿多;存储利用率83%左右,CPU利
CSDN技术头条
2018/02/07
1.8K0
腾讯大规模Hadoop集群实践
CSDN专访腾讯蒋杰:深度揭秘腾讯大数据平台
腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户,为了保证公司各业务产品能够使用更丰富优质的数据服务,腾讯的大数据平台做了那些工作?具备哪些能力?记者采访到了腾讯数据平台总经理蒋杰先生,他将给大家揭秘腾讯的大数据平台! 建设专业数据平台、持续提升处理能力、贴身满足业务需求、挖掘创造数据价值———蒋杰(腾讯大数据团队使命) CSDN: 首先还是请蒋总介绍一下自己和你的职业生涯。 蒋杰:我是蒋杰,目前是腾讯数据平台部的负责人。我的第一份工作其实并非在互联网行业,而是在传
腾讯大数据
2018/01/26
3.5K0
揭秘腾讯大数据之平台综述篇
4月12日,在腾讯分享日的大数据分论坛上,腾讯首次对外展现了自己的大数据平台,受到外界的普遍关注,后续,我们将持续为大家分享腾讯大数据的方方面面。本篇为综述篇,针对整体情况做概要性的介绍,后续将会有更详细的离线计算、实时计算、数据实时采集以及大数据应用产品等系列文章输出,绝对干货,敬请期待。 腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户。特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,对于大数据分析和挖掘的重视程度高于以往任何时
腾讯大数据
2018/01/26
2.2K1
CIO学习:深入了解腾讯大数据平台
目前我们数据平台部共有200多人。整个数据平台是按照基础平台、核心应用、产品包装和质量监控的思路分为四部分: 数据中心,负责建设管理腾讯大数据基础平台;   精准推荐中心,负责研发落地以数据挖
小莹莹
2018/04/20
1.7K0
CIO学习:深入了解腾讯大数据平台
大规模 codis 集群的治理与实践
小时光
2017/11/01
6.6K0
大规模 codis 集群的治理与实践
行进中换轮胎——万字长文解析美团和大众点评两大数据平台是怎么融合的
背景 互联网格局复杂多变,大规模的企业合并重组不时发生。原来完全独立甚至相互竞争的两家公司,有着独立的技术体系、平台和团队,如何整合,技术和管理上的难度都很大。2015年10月,美团与大众点评合并为今天的“美团点评”,成为全球规模最大的生活服务平台。主要分布在北京和上海两地的两支技术团队和两套技术平台,为业界提供了一个很好的整合案例。 本文将重点讲述数据平台融合项目的实践思路和经验,并深入地讨论Hadoop多机房架构的一种实现方案,以及大面积SQL任务重构的一种平滑化方法。最后介绍这种复杂的平台系统如何保证
美团技术团队
2018/03/13
1.3K0
行进中换轮胎——万字长文解析美团和大众点评两大数据平台是怎么融合的
TDW千台Spark千亿节点对相似度计算
相似度计算在信息检索、数据挖掘等领域有着广泛的应用,是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长,对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架下进行相似度计算会引入大量的网络开销,导致性能低下。我们借助于Spark对内存计算的支持以及图划分的思想,大大降低了网络数据传输量;并通过在系统层次对Spark的改进优化,使其可以稳定地扩展至上千台规模。本文将介绍腾讯TDW使用千台规模的Spark集群来对千亿量级的节点对进行相似度计算这个案例,通过实验对比,我
腾讯大数据
2018/01/26
1.5K0
重磅 | 腾讯大数据宣布开源第三代高性能计算平台Angel
AI科技评论按:昨日,腾讯大数据技术峰会暨KDD China技术峰会上在深圳召开,腾讯数据平台部总经理,首席数据专家蒋杰做了腾讯大数据平台Angel即将全面开源的报告,AI科技评论现场摘编如下。 获得Sort benchmark4冠军背后 大家好,很多人已经知道腾讯获得了今年的Sort benchmark的排序的4项冠军,很多朋友来问我,腾讯是怎么做到的,背后支撑的究竟是什么样的技术?今天,我借这个机会,跟大伙来讲讲背后的一些故事。 相信很多人看过我们在很多城市机场投放的这个广告,这个广告里面画的是一个赛跑
AI科技评论
2018/03/09
9170
重磅 | 腾讯大数据宣布开源第三代高性能计算平台Angel
直播回顾 | 随意迁移,无损迁移,其实很简单
腾讯云数据库国产数据库专题线上技术沙龙正在火热进行中,3月24日吴夏的分享已经结束,没来得及参与的小伙伴不用担心,以下就是直播的视频和文字回顾。 关注“腾讯云数据库”公众号,回复“0324吴夏”,即可下载直播分享PPT。 大家好,我是腾讯云TDSQL高级工程师吴夏,我今天的主题是关于TDSQL异构数据同步与迁移能力的建设以及应用方面的内容。整个内容分四个部分: 一是异构数据库方面包括数据分发迁移同步的背景——我们为什么要发展这一块的能力以及现在这部分服务的基本架构; 二是TDSQL异构迁移能力有哪些比较
腾讯云数据库 TencentDB
2020/04/26
7430
有赞大数据离线集群迁移实战
有赞是一家商家服务公司,向商家提供强大的基于社交网络的,全渠道经营的 SaaS 系统和一体化新零售解决方案。随着近年来社交电商的火爆,有赞大数据集群一直处于快速增长的状态。在 2019 年下半年,原有云厂商的机房已经不能满足未来几年的持续扩容的需要,同时考虑到提升机器扩容的效率(减少等待机器到位的时间)以及支持弹性伸缩容的能力,我们决定将大数据离线 Hadoop 集群整体迁移到其他云厂商。
有赞coder
2020/08/24
2.5K0
有赞大数据离线集群迁移实战
腾讯云大数据 TBDS 在私有化场景万节点集群的实践
作者 | 杨鹏程 策划 | 凌敏 4 月 15 日 -16 日,由 InfoQ 主办的 DIVE 全球基础软件创新大会 通过云上展厅的形式成功召开。在 腾讯云基础软件创新实践专场,来自腾讯云的 TBDS 大数据引擎研发负责人杨鹏程带来了主题为《腾讯云⼤数据 TBDS 在私有化场景万节点集群的实践》的演讲,以下为主要内容。 本次分享主要分为三个部分展开:第一部分是 Hadoop 体系下存算⼀体存在的问题;第二部分是 TBDS 存算分离架构和三层优化;第三部分是云原⽣环境下计算引擎优化和最佳实践,最后是对本次分
深度学习与Python
2023/03/29
1.1K0
腾讯云大数据 TBDS 在私有化场景万节点集群的实践
2021年大数据Hadoop(三):Hadoop国内外应用
Yahoo是Hadoop的最大支持者,Yahoo的Hadoop机器总节点数目已经超过42000个,有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有4500个节点(每个节点双路4核心CPUboxesw,4×1TB磁盘,16GBRAM)。总的集群存储容量大于350PB,每月提交的作业数目超过1000万个。
Lansonli
2021/10/11
3.3K0
以朋友圈为例,腾讯资深架构师揭秘鹅厂大数据平台是怎样运营的
导读:本文将从构成运营成本的主要运营资源(设备资源、带宽资源、专线资源)出发,以实际案例分别阐述精细化技术运营实施的要点。
IT阅读排行榜
2018/09/29
1.3K0
以朋友圈为例,腾讯资深架构师揭秘鹅厂大数据平台是怎样运营的
鹅厂存储往事
2005年,是中国第二次互联网浪潮的发始之年。刚刚从破碎泡沫中走出的互联网产业,逐渐迎来了“web 2.0”时代。
鲜枣课堂
2020/11/19
9490
鹅厂存储往事
TBDS大数据集群迁移实践总结
这次迁移算是TBDS集群的第一次完整迁移案例,包括用户的业务数据,平台应用,从项目启动到最后完成迁移差不多耗费了1个月的时间。
mikealzhou
2018/12/13
4.1K0
快手超大规模集群调度优化实践
导读:随着公司业务的快速发展,离线计算集群规模和提交的作业量持续增长,如何支撑超大规模集群,如何满足不同场景的调度需求成为必须要解决的问题。基于以上问题,快手大数据团队基于YARN做了大量的定制和优化,支撑了不同场景下的资源调度需求。
数据社
2021/03/11
1.2K0
快手超大规模集群调度优化实践
使用Twine进行高效,可靠的大规模集群管理
导语:Twine是Facebook的IaaS层,可以说绝大部分的Facebook服务器都运行在这个系统下面。本篇文章介绍了Facebook使用Twine进行高效,可靠的大规模集群管理的实践经验。
灵雀云
2021/03/16
6360
重磅!腾讯云首次披露自研业务上云历程
导语:传统行业转型的过程中,腾讯向来扮演的是数字化助手的角色,腾讯云作为帮助企业数字化转型的入口,也已经成为腾讯的“独角兽”业务。 然而伴随着云业务的增长,腾讯内部业务如何上云,对于外界来说一直是个秘密。近日,腾讯自研上云项目负责人周小军首次披露,腾讯如何把内部海量的自研业务搬上云端的故事。以下是他的分享内容。 大家好,我今天分享的核心内容有三个: 腾讯自研业务如何从私有云的模式搬迁到公有云; 如何把这些大体量的业务搬到云端; 如何拥抱云原生。 腾讯的业务量非常庞大,社交业务包括QQ和空间的体量有
腾讯技术工程官方号
2019/08/15
15.6K0
重磅!腾讯云首次披露自研业务上云历程
推荐阅读
相关推荐
腾讯上万节点大规模集群的跨城自动迁移
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档