相较于云端AI需要用户将数据发送到云端进行处理,存在网络稳定性、隐私安全等问题。随着终端算力的提升,端侧AI本地处理数据的高隐私性以及对用户使用习惯的智能感知,将为用户带来更可靠的个性化优质服务。
文 / 庄光庭
策划 / LiveVideoStack
庄光庭:很高兴有机会可以在LiveVideoStack进行些AI和视频相关技术的分享与交流,我是OPPO AI多媒体技术总监庄光庭。OPPO致力于手机研发,为用户提供至美科技的体验,公司也持续在5G、AI、视频、IOT等领域技术加强投入。希望可以借由LiveVideoStack和业界的技术专家们交流,共同激发更能提升用户使用体验的技术。
庄光庭:每次技术的演进都伴随着整体生态的改变。从2G的语音通讯开始,当时更多的还是在从以局域网为主的大型主机时代逐渐过渡到PC互联网时代。直到3G时代,原本运营商期待透过视频通话抢占市场的主要特性也没起来,但越来越多的业务逐渐迁移到了互联网云侧。到了4G时代,对于所有应用入口,手机终端已经逐渐取代PC占据八成以上份额,移动互联网成为主流。而5G时代,也是运营商、互联网、移动终端厂商重新洗牌竟合的关键时刻。各家企业都很看重AI、5G、AIOT、VR/AR等技术是否会引出新形态的Killer产品及应用。对此演进历程,我们还是可以看到许多的创新。或许AI技术会从2015年IMAGENET/AlphaGO/…所带动起来的高潮,逐渐稳定固化,并成为万物互融时代下,满足5G视频及AIOT业务的刚需技术。
庄光庭:目前我们观察到5G的三大特性、高带宽、低时延、更多连接,最直观的收益应用还是在视频、VR、远程会议、AIOT等场景下。设备间的互联会从有线连接,全方面的迁移到无线连接。万物互融成为可能,所以OPPO今年整体的技术及业务方向也是朝万物互融开拓及摸索。
庄光庭:对智能手机而言,视频业务已经逐渐取代了由文字、图片所组成的业务服务,5G技术的来临,视频相关的技术需求肯定是最关键的。AI芯片除了要满足DSP对视频编解码的需求外,必定还需要支撑视频后处理的功能,因此对端侧的视频AI高算力需求是存在的。同时,面对AIOT多设备连接,和智能感知服务,长时间低功耗运行的AI能力也同时需要。所以可以同时克服高算力及低功耗两个截然不同方向的芯片能力,应该才能真正适应这变化万千的智能终端需求。
庄光庭:端侧AI的发展相比于云侧AI,限制及差异是巨大的,技术在各方面都有劣势。端侧AI不仅在算力、功耗、内存、芯片架构等方面存在巨大差异,而且对数据基本是没有掌控的。如何在保护数据隐私的前提下提供给用户最佳的算法模型是极大的挑战。云侧在数据、算力、功耗、内存、平台方面并不存在像端侧这么大的挑战和限制。但端侧AI也并不是完全没有优势,端侧AI对数据隐私的保护,相对而言是天然完美的屏障,所有数据可以都在端侧进行处理用后即焚,数据比较容易被保护及限制在端侧设备中。另外一个优势就是在满足隐私保护的前提下,基于用户的使用习惯,更容易智能的提供差异性的个性化服务,同时保障用户隐私又提供用户智能感知推荐的服务。AIOT的设备普及后,借由多设备分布式智能融合计算,可以更轻易的提供小型化、轻量化低功耗的端侧AI服务。
庄光庭:隐私安全问题一直是软件技术最关注的一个基础问题,用户的数据是否会因为新的AI功能,暴露了新的漏洞及落点,这一定是每个技术研发人员要竭尽全力避免的事。当前我们在设计端侧AI平台,我们希望从简单直接的安全加密保护逐渐迁移到芯片等级的安全通路设计,同时采取用后即焚的数据处理策略,避免数据缓存被拦截窃取及篡改等。
庄光庭:移动终端等差异化,是我们端侧AI最头疼的问题。时常我们设计了一个先进的算法,却因为硬件的差异,而无法全面铺开到所有产品,或是只能折衷采取裁剪的方式,让算法可以适配更多的智能终端。更严重的是,企业很可能需要付出更多的人力预算来满足所有硬件产品上的功能开发。因此针对硬件条件的差异化带来的诸多难题,端侧AI的平台承担了极大的责任,需要克服端侧硬件的差异性,我们采取分层的设计,将算法对硬件适配的工作复用,支撑所有算法团队聚焦开发他们的功能特性,屏蔽算法模型对硬件的耦合程度,极大化的避免各个算法团队重复造轮子的工作。
庄光庭:端侧AI的需求简单可以分为几个方面,比如高性能、高品质、低时延、低功耗、超融合等大方向。这几个大方向围绕着视频、游戏、显示、音频、投屏、场景感知、AR/VR、云游戏、设备连动等场景展开。而痛点除了数据隐私、硬件差异,我们发现端侧还存在能力无法共享、应用需求差异大、实时运算要求高、模型算子支持度差、AI算法迭代速度快、运行内存受限、第三方合作困难等问题。
庄光庭:未来的AI,肯定会朝着技术融合,基于用户体验的AI业务能力展开。举例来说以前可能只是基于CV的AI算法能力的具备,直接提供物体识别的AI能力。未来肯定会是多模态基于各种传感器的多通道讯息,提供一个整合的服务给到用户。比如,智能设备可以分析用户喜欢听的音乐,分析出用户的喜好歌手,推荐歌手相关的演唱会讯息给到用户。又或是未来对话系统、AR眼镜成熟之后,虚拟的家庭陪伴看护,或许会逐渐取代基于文字及语音的智能助手。我们可以透过表情、语言、手势、视觉等讯息,搭配AR技术,借由手机为入口,虚构出一个学生家教、家庭看护、健身教练、等虚拟人物来辅助用户。这些场景都有可能在不远的未来会实现。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。