8月30日,在2018浪潮技术与应用峰会(Inspur World 2018)上,浪潮发布OpenStack AI云平台,实现了在OpenStack云平台上快速、轻松的构建AI开发能力。
这一平台的推出契合了本届峰会提出的“云数赋能 智慧未来”战略构想,将云计算的灵活性与人工智能的“智慧”予以融合,从而使行业AI用户可以更加敏捷的利用开源云计算平台,高效完成各类AI研究与开发工作。
浪潮集团副总裁彭震表示:“以云计算、大数据、人工智能为代表的智慧计算,正加快驱动生产力跃升和商业模式变革,重塑社会运行结构和组织生态。在这一趋势驱动下,计算力实际上已经成为社会经济的核心生产力之一。为此,浪潮将持之以恒的发展融合架构IT基础设施,此次OpenStack AI云平台的推出,是浪潮在云+AI融合基础架构上的一次探索与实践。”
△ 浪潮集团副总裁 彭震
随着AI在社会生产生活各环节的渗透加速,可以预见的是AI将会快速步入到“应用繁荣期”,商业组织与科研机构的AI技术与应用研发将趋向多样化,传统的集群架构在灵活性上将难以满足未来AI开发的多元需求。
因此,如何将云计算与AI融合,使得IT基础架构既能具备云的灵活性,也能保留AI所需的高性能,将成为推动AI真正成为一项社会性变革技术的重点所在。
此次浪潮发布的OpenStack AI云平台,可帮助行业AI用户快速便捷的构建CPU+GPU的弹性异构云环境,并实现对异构计算资源池的动态调度与分配,支撑数据管理、模型训练、模型部署等各类AI应用场景。
通过对GPU虚拟机的支持,浪潮OpenStack AI云平台能够以多租户的形式,按需分配异构计算资源,从而实现AI敏捷开发。同时,多租户任务排队策略、资源分组优化策略、租户资源配额集均衡策略以及GPU共享策略等精细化调度策略,也进一步提高了GPU资源的利用率。
△ 浪潮OpenStack AI云平台架构
浪潮自主开发的AIStation在集成度上有显著提升,极大的降低了AI开发难度并简化操作。
一方面,AIStation内置优化的Caffe-MPI、TensorFlow-OPT等深度学习分布式框架,能够有效提高模型训练的扩展性,同时内置的高性能深度学习容器镜像针对Xeon SkyLake + Tesla GPU + 25G Ethernet环境予以深度优化,可充分发挥GPU计算性能,平均训练速度提高30%;另一方面,AIStation整合了训练数据、模型文件、计算资源,可提供多机并行训练服务和模型可视化工具,支持创建模型训练工作流,通过界面化操作极致简化AI开发人员工作流程,实现了秒速构建深度学习开发环境。
浪潮AI&HPC总经理刘军表示:“浪潮OpenStack AI云平台为用户提供了面向未来的云+AI融合基础架构,使其在开源云平台上能够简单、快速构建易用、先进、完整的AI开发环境,赋能更多行业快速利用人工智能技术进行产品服务开发、精细化管理等,将有力推动人工智能技术的商业价值实现与社会变革。”