目录
每 5 秒采集一次所有集群上的负载信息(CPU 指标、内存、存储 I/O、网络 I/O、GPU 各项指标以及作业进程对 GPU 的使用等),支持监控数据存放于 Elasticsearch 或 Prometheus 数据库中。
支持基于实际资源使用阈值的调度、大作业资源预留、小作业回填等功能,基于容器的资源管理软件(如 K8S,MESOS)不具备这样完整的大型生产环境需要的高级调度策略支持。
默认情况下,禁止普通用户登录到计算节点;当计算节点承载运行普通用户的计算作业时,允许对应的用户账号 ssh 登录到相关的计算节点。允许专属队列的普通用户登录到专属队列对应的计算节点。
对分布式多种任务异构资源的集中调度管理
其它的资源调度器对多种任务的资源每次调度一种,当一种任务所需资源不足时其它作业占着资源等待,造成资源浪费。
SkyForm AIP 把整个学习框架作为单一作业,直到所有任务所需资源都满足时才启动,以保证昂贵资源利用的最大化。
多任务异构资源的统一调度是 SkyForm AIP 的独特调度能力,保障应用性能和资源利用最大化。 伸缩资源主动分配应用(作业)在一开始可以告诉调度器所需最小和最大资源的值,调度器会根据调度策略和可用资源尽量满足应用的需求。如果不能满足最大资源需求,在应用运行的过程中若有冗余资源可用,调度器会主动把这些资源分配给作业直到作业所需最大资源得到满足。
这种主动分配的调度有益于提高像深度学习一类资源饥渴型应用的性能。这种调度算法也是其它资源管理软件缺乏的。
支持全面的调度策略
a)先进先出:根据作业递交的先后时间顺序分发作业。
b)优先级:作业根据优先级递交到不同优先级的队列中,调度系统先分发优先级高的队列中的作业,当高优先级队列中没有等待作业时,才分发下一个优先级队列中的作业。
c)轮循:当同一队列中有多个用户的作业时,调度系统为每个用户分发一个作业,等队列中所有的用户的第一个作业分发后,再分发每个用户的第二个作业,每个用户的第三个作业,等等。
d)独占:用户递交作业时可指定为独占作业。独占作业是指每个主机上只能运行这一指定的作业。若有一个独占作业分发到一台主机上,主机将不接受其它普通作业。若主机上已有其他普通作业,则独占作业不会分发到该主机上。独占作业一般用于需占用大量资源的作业,以防与其他作业在同一主机上发生冲突。
f)抢占:高优先级作业通过抢占 CPU 核、GPU 以及其他资源使低优先级作业暂停(释放 CPU)或重调度(释放 GPU 等其他资源)的方式提前运行。高优先级作业运行结束后,低优先级作业继续或重运行
g)并行作业资源自动预留:在繁忙的集群系统中,往往空出来的资源比较小,小作业就容易拿到资源而先走,这样即使大作业优先级高,也会因没有大块资源空出而长期等待。调度系统可以配置使高优先级并行作业自动将空出的小块资源保留一段时间不被小作业所占,等保留的资源足够时运行。
h)基于资源阀值的调度:由于作业所用资源难以实现预估,为防止资源不足,尤其是内存不足导致作业失败,可以定义资源的阈值来控制作业调度。对每一个资源可以定义两个阈值(上下水位),第一个下水位用于停止调度,第二个上水位用户停止(杀掉或挂起)已在运行的作业。资源阈值可设在主机层或/和队列层。
i)资源平衡方式:资源平衡可以有两种方式:减少资源碎片(Packing)或负载平衡(Spreading)。减少资源碎片将作业尽量往最少的主机上调度,以便留下大块资源给大作业用。负载平衡是将作业尽量分布开,以保证作业运行性能和降低主机功耗。
j)异构系统:允许将不同架构的主机、不同型号和性能的主机、不同操作系统和版本的主机放到一个集群里,通过“host type”参数进行配置。每种不同种类的主机可以定义一个 CPU 的性能值。在递交作业时可以指定这些参数配合使用。
k)定时作业作业:定时作业与普通作业一样可由所有调度策略调度和作业定义(如环境变量、资源需求等)。在作业定义中可指定运行用户名、运行时间点、作业命令行、作业最长运行时间(若超出此时间限制,作业会被自动杀掉)、启动超时(若由于在规定的时间里资源不足作业无法启动,最长等待的时间)、覆盖(下一个作业启动时上一个作业未完成是继续运行还是杀掉以前的作业)、失败重新运行最多次数等参数。
l)优先级抢占:高优先级作业可以暂停低优先级作业获得作业资源(CPU 核、GPU、或其它资源)。高优先作业运行结束后,低优先级作业可以自动恢复。
在多个方面存在显著差异,以下是对两者区别的详细分析:
综上所述,裸金属服务器和虚拟化服务器各有优缺点,选择哪种类型的服务器取决于具体的业务需求、预算和技术偏好。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。