“AI 开发者”即日起全新升级为“AI 源创评论”,在延续开发者、开源、赛事报道的基础上,增加技术人物栏目“AI 源创 100”、企业开源&技术实力数据库“AI 源创因子”、开发者线下峰会“AI 源创会”,为开发者、企业带来更全面、深入的信息、技术服务。
“深度学习是旷视的核心竞争力,也是支撑人工智能革命的关键。”
文 | 张梦华
开源越来越被证明为大势所向。近日,国内计算机视觉企业旷视传出,最快将在 3 月底开源其基于计算平台 Brain++ 的深度学习框架 MegEngine 。届时,复工、开学的企业、学生开发者们也将获得更多选择。
旷视CEO 印奇曾公开表示:“深度学习是旷视的核心竞争力,也是支撑人工智能革命的关键。”其在深度学习中的重要驱动便是 Brain++ 。
2019 年的世界互联网大会上,旷视在入选“国家新一代图像感知人工智能开放创新平台”的同时,发布了端到端的人工智能算法平台 Brain++,后者集成了数据管理、自动化算法研发和算力调度能力,其架构主要包括三部分:作为主体的深度学习算法开发框架 MegEngine ,提供算力支持的 MegCompute,提供数据支持的 MegData 。
今年已经成立近 9 个年头的旷视一直聚焦计算机视觉,因此,和目前通用的深度学习框架相比,MegEngine 更垂直于计算机视觉应用,加上近几年公司在物联网产业不断提速的商业落地,从众多业务场景中获取的数据能力也给予了 MegEngine 更扎实的应用能力。而开源也意味着,作为视觉领域的头部级公司,旷视已经在建设自己的开发者生态上做足了准备。
开源成为人工智能下一阶段发展新趋势
2012 年后,深度学习的发展带动人工智能进入拐点,前者拥有高于传统机器学习十倍、百倍的神经网络参数,在人工智能最先落地的语音识别、图像识别领域,深度学习都是不可或缺的重要工具。商业落地中的数据反哺,也带动了算力、框架上的不断升级。开发者口中通用的深度学习开源框架基本不出这几种:TensorFlow、 PyTorch、Caffe、CNTK、ONNX 等,这背后又分别站着谷歌、Facebook、微软等巨头。
在国内,业内的共识近几年不断被强化,即人工智能给了中国企业、产业弯道超车的机会,但如果在人工智能发展中重要的深度学习中一直处于被动,前者的概率也将被大大压缩。
而除去开发工具的语言问题,安全性、适用性等需求也在倒逼中国企业在深度学习框架上建立自己的领地,国内头部企业已在此做出不少投入:
比如2016 年 8 月底,百度在宣布“All in AI ”的前一年,开源了自研深度学习平台 PaddlePaddle;2018 年 10 月,华为发布了自研深度学习框架 MindSpore ,虽然没有官宣,但关于其开源的消息已经出现不少雨点。
有头部公司的示范效应,起家于AI 的旷视,相比大厂在AI 人才、数据、算法上有更深的积淀,要在开源上出一份力也不足为奇。鉴于开源在企业人才贡献、代码维护、企业文化、技术影响力等方面的正面效应,势必也将有越来越多的互联网和科技企业加入中国开源生态的建设中来。
旷视MegEngine亮点前瞻
历经近6年的打磨,MegEngine 的框架一直紧跟旷视的应用场景调整升级,尤其针对国内需求,相比 TensorFlow、PyTorch 适用性更加突出。
整体上,Brain++ 可针对视觉任务定制化优化,更好满足大量图像及视频训练,完成图像分类、物体检测、物体场景分割、影像分析等复杂的视觉任务。
值得一提的是,作为 Brain++ 最为核心的引擎框架,MegEngine 配备了 AutoML 技术,将深度神经网络设计、参数调整及设备适配等过程自动化,提高开发效率,同时可智能调度平台硬件基础设施的计算能力,支持数百名研究人员同时在数万个 GPU 芯片上执行从数百到数千个训练任务。
旷视从 2014 年开始,内部成立了“Engine”小组自研深度学习框架,经过5年多的打磨和实践,MegEngine 已经逐渐成为支撑其算法研究开发的底层平台,并在旷视实现全员使用。近几年,旷视的计算机视觉技术在智慧城市、智慧物流、智慧零售中的落地逐渐加快,其算力及深度学习框架也在海量数据的补给中更加茁壮。
据了解,MegEngine 基于C++开发,可帮助用户借助编程语言进行高性能的运算执行。同时旷视在框架内部,使用了目前流行的计算图方式,但是和其他框架不同,MegEngine 使用的是异构架构,方便使用框架进行分布式计算。
此外,MegEngine 内部的计算以算子的形式进行,它支持多种算子节点和变量算子,包括常用的卷积、全连接、ReLU 和用户可定制的算子,甚至可以计算二阶梯度,从而进行更多底层和灵活的运算。
可以说,MegEngine 在尽全力提升深度学习计算性能的基础上,为用户提供了灵活易用的模型构建工具,极大地提升了开发效率。相比于很多深度学习开源框架,MegEngine 的特点也非常明显:
首先在运算速度上,旷视 MegEngine 具备高性能计算核心,动态静态结合的内存优化机制运算速度更快,且占用更少的内存资源;其次在易用性上,MegEngine 封装了平台细节,且接口兼容 PyTorch,新人用户可快速上手;最后,MegEngine 还支持多种硬件平台和异构计算,整个框架既可用于训练又同时支持推理,实现模型一次训练,多设备部署,能够免除了不必要的转换流程导致的性能下降和精度损失。
除以上性能,MegEngine 据称也为 IoT 和视觉任务进行了特别的优化,广泛支持各种芯片。通过领先的量化计算支持,其可以通过统一量化模型来支持多种设备,同时支持低于8bit 的网络推理。
深度学习框架对于人工智能发展的推动作用自是不言而喻,但框架安装、部署、上手使用一直是难点,要针对不同硬件、模型、内存做调试。而 MegEngine 做了相应的自动化和封装,使得门槛大大降低,初级开发者也能掌握。正如深度学习框架降低了 AI 的门槛,MegEngine 又进一步降低了框架本身的部署、使用门槛。
COCO 三连冠验证的实践能力
旷视是赶上深度学习兴起的第一批科技新创企业,三位创始人印奇、唐文斌、杨沐均出自清华姚班,代表着国内第一批最优秀的人工智能从业者。尤其近几年,旷视技术团队更在国际比赛中成绩不俗。
* 旷视团队获得 COCO 2019 三项冠军
2017 年 ,旷视获得 MC COCO 挑战赛物体检测、人体关键点检测第一名和物体分割的第二名,参赛团队则是谷歌、Facebook、微软、卡耐基·梅隆大学等实力竞队;2018 年,旷视团队又包揽了 3 项 MC COCO 比赛冠军和一项 Mapillary 比赛冠军;2019 年,旷视再次在物体检测、人体关键点和全景分割三项比赛中获得冠军。COCO 三连冠的成绩在国内史无前例。
2019 年 4 月,旷视又推出了物体检测数据集 Objects365,第一批开放 63 万张图像,拥有高达 1000 万的标注框,量级分别是目前全球最权威的物体检测数据集 MS COCO 的 5 倍和 11 倍。
TensorFlow、PyTorch 在开发者中的口碑、影响力或许一时一刻很难被替代,但若旷视在深度学习框架的开源上能为后来者打个样,对国内人工智能产业界不失为一件值得兴奋的事。
4 月 29 日,AI 研习社和 GMIC 将联合推出以“开源创新之势”为主题的开发者峰会——「GMIC*AI源创全球开发者峰会(北京)」,雷锋网旗下 AI 源创会将邀请全球顶级开源框架作者现场演讲,与上下游生态专家共聚一堂尽享干货。
领取专属 10元无门槛券
私享最新 技术干货