中国科学院,国家科学科研重器。
现在,同样也是中国AI创新创业重镇。
继寒武纪、银河水滴、中科视拓、中科慧眼等AI公司后,又一家“中科院系”AI初创公司浮出水面。
这家公司全名中科视语(北京)科技有限公司,源自中科院自动化研究所模式识别国家重点实验室,是主打步态识别、多模态识别的银河水滴的“胞弟”。
名如其司,一样主打AI视觉赛道。
而且中科视语“初出”江湖便出手不凡。本月内,先与影谱科技联手斩获2018吴文俊人工智科技进步二等奖。
最近又在刚落幕的“AI Challenger 2018全球AI挑战赛”年度总决赛中,拿下无人驾驶视觉感知赛道冠军。
而且夺冠成绩领先第二名4倍之多,得到“达到世界级领先水平”的评价。
这就是一家怎样背景的公司?
“AI Challenger 全球AI挑战赛”,想必中国AI领域内已不必赘述。
今年由创新工场、搜狗、美团、美图等联合发起,不仅出钱出力,而且分享数据。
虽才第二届,但已是国内规模最大的、最关注前沿科研与产业实践相结合的非商业化数据集和竞赛平台。
本次大赛吸引了来自81个国家的1100所高校和990家公司的上万支团队参赛,中科视语团队,正从上万支团队中脱颖而出。
其带队者,亦是公司董事长,乃中科院自动化所研究员王金桥博士。
王金桥2004年硕士毕业于天津大学,当年进入中科院自动化所攻读博士学位,2008年博士毕业后留校,并在2016年正式成为中科院自动化所研究员。
其间,2011年,王金桥还以“铸星计划”青年访问学者身份“加入”微软亚洲研究院。
AI视觉领域也是王金桥强项所在。其履历所系,一直从事视频分析与检索、目标检测与跟踪、图像分类与识别方面的应用基础研究。
同时也涉及模式识别与机器学习方面的相关理论研究,围绕大规模视觉识别和视频大数据分析成立了智能媒体计算联合实验和视频大数据云识别联合实验。
而代表科研能力的论文方面,王金桥主页显示,共发表论200余篇,国际杂志36篇,国际会议160余篇。其中以第一作者或通讯作者发表高水平国际期刊论文30篇。
这也是中科视语创办的缩影之一。
虽然创立时间不长,但团队人员及背靠中科院自动化所的积累,却已有20年历史,而AI领域,中科院自动化所更是有“全球第七、中国第一”的夸赞。
在过去科研中,中科视语团队将AI技术,核心在公安、交通、娱乐、零售和工业等各个垂直领域进行了广泛的技术验证和应用,并宣称已经具有上百家上市公司、政府和行业客户,包括杰创、联想、京东、华为、影谱、京东方等多家上市公司,拥有坚实的数据、理论、算法和用户基础。
而正式创办中科视语后,聚焦智慧交通、智能商业和智能制造等三大领域,提供AI引擎和解决方案。
并获得了中科院产业基金和金沙江创投的首轮投资。
当然,此次AI Challenger夺冠后,中科视语团队也分享了个中经验。
我们原文转载如下:
以无人驾驶视觉感知为例,需要同时解决“目标检测”和“可行驶区域分割”两个子问题。
而由于计算资源有限,为了追求精度和速度的平衡,算法设计需要考虑多任务学习框架。
接下来,需要深入剖析子问题的难点,对算法各个模块进行定制化设计。
比如对于目标检测来说,该应用场景需要尽量提高各类目标的检出率,所以小目标检测就成为难点,这里的小目标包括交通标志、交通灯、远处的行人和车辆等。
对于可行驶区域分割来说,主要难点在于类间定义模糊,即可直接行驶区域和可间接行驶区域之间有时候界限并不是很清晰。
本质上可行驶区域就是道路,但是对于双车道来说另一侧车道就是背景了,所以对于可行驶区域分割来说需要算法具有较强的上下文语义感知能力。
基于上述分析,视语团队提出了一种多任务耦合神经网络的解决方案。
具体来说,针对速度方面的要求,从三方面进行优化:
考虑到解码部分耗时较高,团队将图片解码放到GPU上进行实现,以充分利用GPU的并发性来加速解码。
同时形成前处理(CPU)、网络前向(GPU)以及后处理(CPU)的流水式操作,用网络前向的时间掩盖CPU读图和写图的时间。
为了有效提升模型的精度,团队采用了三种有效的策略:
基于上述策略,团队提出了一个面向多任务的耦合神经网络(MCoupleNet),能够同时处理目标检测和可行驶区域分割两个任务。
整个网络包含了5个模块:基础网络、ASPP、特征金字塔、检测分支以及分割分支。基础网络部分是团队自主设计的轻量级网络Inception-56,基础网络和特征金字塔之间通过ASPP模块连接在一起,ASPP模块由一系列采用不同膨胀系数的卷积层组合,可以同时捕捉多种上下文信息,并加入深层监督来引导整个学习过程。
特征金字塔的设计可以参考团队在ACCV16发表的工作以及Facebook发表于 CVPR17的论文。
ACCV16的论文主要用来处理监控场景下不同尺度的行人,通过自适应的上采样模块在不同分辨率的特征图上处理不同尺度的行人目标,Facebook CVPR17的论文进一步引入lateral connections并且推广到通用目标检测上,是目前比较成熟的解决目标多尺度的算法。
团队在此基础上加入基本的检测分支和分割分支,从而组成一个多任务的学习框架。
轻量级耦合网络主要包含两个模块:基本的下采样模块和简化版的残差Inception模块。
基本的下采样模块主要应用在网络的早期,用来快速下采样从而减少计算量,同时改善特征表达能力。简化版的残差Inception模块使用了更少的通道数,在每次下采样的时候通过两个1x1的维度扩充卷积、动态的增加一倍的通道数,用来补偿空间分辨率损失。
不同于MobileNet和ShuffleNet,该轻量级网络中所有的卷积都是常规卷积,没有group卷积和depthwise卷积,因此能够适用于所有的平台,并且有助于减少MAC(memory access cost),同时所有的卷积后边紧跟着BN和ReLu,最终网络的计算量只有143M。
除了基础网络之外,对新加入的特征金字塔也需要进一步的调整。尤其是高分辨率输入下,算法的各个部分都有可能成为计算瓶颈。
以720P输入为例,特征金字塔部分的通道数默认为256,网络上采样的倍率为4,对于特征金字塔中的一个3x3的卷积层,其计算量#FLOPS=33256256184*320=34.7G,非常大!
所以特征金字塔部分也需要进行裁剪,并且对输入分辨率和上采样倍率之间也需要进行权衡。
最终,团队凭借上述原创的算法设计方案,在2018全球AI挑战赛无人驾驶视觉感知赛道中取得了性能的遥遥领先。
— 完 —