内容来源:Facebook 官网,作者:李家豪和XiaodongWang
机器学习推动着人们在Facebook上的使用体验的许多方面。我们使用自动语言翻译系统来消除沟通障碍,让人们能够互相交流,即使他们说的语言不一样。我们的图像分类系统不仅让人们可以搜索记录精彩瞬间的珍贵照片,还可以借助用指尖就能阅读的“会说话的图像”,为视障人士提供一种身临其境的体验。我们还将机器学习运用于语音识别、对象及面部识别、样式转换、视频理解以及其他许多服务,涵盖我们的全部应用。
鉴于机器学习工作负载的需求日益增长,Facebook一直致力于通过开源贡献和协作,推动AI及其学科的发展。打造尖端平台以支持和促进AI日益增长的需求,这一直是我们的重心之一。在过去几年,我们一直在加大投入于数据中心中机器学习硬件的力度,专注于加快我们的产品和服务使用神经网络。2013年,我们开始利用面向AI研究的HP SL270s G8系统进行初始部署。我们对于在数据中心大规模部署GPU方面已有了深入的了解,明确可维护性、热效率、性能、可靠性和集群管理是我们下一代系统的重点方面。随后,我们向开放计算项目(OCP)贡献了两种服务器设计:Big Sur和BigBasin,已将它们添加到我们的数据中心设施。
这些硬件平台已成为Facebook的AI研究和机器学习服务的基石。今天,我们很高兴宣布硬件创新迎来了下一步:Big Basin v2。
Big Basin v2介绍
这种模块化设计采用了与之前的Big Basin系统同样的构建模块,让我们得以利用和组装现有的开放计算项目(OCP)部件来构建Big Basin v2系统。由于最新一代的英伟达TeslaV100 GPU加速器提升了性能,我们还将主节点(head-node)升级到TiogaPass以获得更高的CPU性能,并将CPU与GPU之间的PCIe带宽翻了一番。此外,我们升级了OCP网卡,为分布式训练工作负载提供额外的网络带宽。通过这些升级,我们不仅观察到单GPU性能比前一代系统提高了66%,而且在大规模分布式GPU训练方面实现了接近线性的性能提升。这让我们的研究员和工程师得以构建更庞大、更复杂的机器学习模型,从而进一步改善用户体验。
Facebook的机器学习管道
一系列最先进的软硬件平台支持Facebook的机器学习工作流程,并且已通过OCP或其他开源项目加以发布,而Big Basin v2是最新的平台。
Facebook的机器学习管道基本上依赖FBLearner,这是我们的AI软件平台,包括FeatureStore、Flow和Predictor。FeatureStore利用数据生成特征,并将特征馈入到FBLearner Flow。Flow用来基于生成的特征,构建、训练和评估机器学习模型。最终的训练模型随后通过FBLearner Predictor部署到生产环境。Predictor对实时流量进行推断或预测。比如说,它可以预测某个人最关注哪些故事、帖子或照片。
后台支撑整个FBLearner平台的是Facebook精心设计的硬件,这些硬件已向OCP发布。数据存储和FeatureStore由Bryce Canyon支持;FBLearner Flow在TiogaPass CPU或Big Basin v2 GPU系统上训练模型;FBLearner Predictor使用我们的计算系统TiogaPass和Twin Lakes。
未来的硬件设计
为了支持种类和重要性都在迅速日增的机器学习工作负载,Facebook致力于推动先进的AI基础设施硬件发展。我们与合作伙伴一起设计更节能的系统,这类系统针对我们的训练和推断阶段进行了优化,重点关注性能、电源效率以及节点内和节点间通信(支持大规模分布式训练)以及存储效率和数据局部性(用于管理机器学习管道中不断增加的数据)。
我们认为,开放社区的合作有助于促进未来设计的创新,并让我们得以构建更复杂的AI系统,最终为更身临其境的Facebook体验提供支持。
Big Basin v2的设计规范和相关资料可以通过OCPMarketplace(http://www.opencompute.org/products/specsanddesign)来获得。
领取专属 10元无门槛券
私享最新 技术干货