视频智能理解是“体量最大”的人工智能

文章来源：企鹅号 - 起点创汇

和围绕人类生活的其他事物相比，人工智能半个多世纪历时并不算长。从一开始的神学家，科学家讨论，到后来的所有行业都布局人工智能，人工智能技术高度普及，高调而全面的进入人类的生活。属于人工智能的这部“简史”，高效而垂直。现代社会很快从已经达成共识的“万物互联”走向探索“万物智能”，人工智能将更加浸入式、碎片化地嵌入生活。

在人工智能的众多类别中，哪一项应用范围最广泛，最为“包罗万象”？4月25日，在由镁客网主办，苏州市科学技术局指导的以“AI创新带来的智能革命”为主题的M-TECH论坛上，小视科技联合创始人，上海交通大学副教授倪冰冰指出，视频智能理解是“体量最大”的人工智能。

视频智能包含人脸识别、动作识别、物体检测、媒体制作、视频推荐等内容。这项技术也正在与市场相结合，在安防监控、辅助驾驶和社交媒体中探索新的发展空间。甚至成为了一些行业的技术制高点，并引导着行业的发展方向。

倪冰冰教授认为，目前，智能视频也面临着诸多挑战。例如：时序问题突出、目标尺度变化大、视频体量大等等。面临亟待解决的难题，小视科技的AI研发团队提出了几大创新。

一是行为识别。基于时序特征金字塔，提取多时间尺度运动特征，通过深度递归神经网络-LSTM提取多时间尺度运动特征。这一研究获得了由谷歌、斯坦福等国际顶尖人工智能研究机构主办的，国际最大规模视频行为识别竞赛，挑战难度最高的THUMOS’15行为检测国际竞赛中，获得视频检测小组国际第一名。

二是行人重识别。从双路LSTM网络入手，取代传统的取帧、识别方法，解决跨摄像头行人重识别的问题。目前此项技术已在跨相机客流实时分析系统中应用。支持客流大数据的展示和百路以上监控视频，行人重识别准确率超过95%。

三是群体计数。针对人像大小变化大，单一分辨率模型无法适应的问题，基于单路CNN卷积神经网络人群密度估计算法，自适应多路CNN卷积神经网络人群密度估计算法，通过Switchable-CNN，实现自适应子网选择，解决Model Averaging问题。其典型应用案例是世博会场景下的人数统计系统。在规模最大，人数最多的WorldExpo’10数据库中，达到误差5%以内的国际最佳精度。

四是将轻量化深度网络运用于人脸识别、活体检测。目前已运用到人脸识别门禁闸机，智能访客机等安防产品中。

倪冰冰教授在发言还提及到了视频从识别到生成的问题。“视频智能内容制作是人工智能的新战场”。

以上这些技术创新，已经分别在商圈客流实时分析、实时行人、车辆检测，智能医疗影像等领域实施和应用，并获得了良好的反馈。作为新工业革命的最新驱动力，人工智能不仅在走科技的最前沿，同时也在全面下沉。下沉至产业，细分市场，和场景结合，去解决问题，这也正是小视科技力求的行业+AI的发展方向。

文章源自《凤凰科技》，图片源自网络

发表于: 2018-04-282018-04-28 18:00:21
原文链接：http://kuaibao.qq.com/s/20180428B1B9C100?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

视频智能理解是“体量最大”的人工智能

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐