前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2020 | 将深度学习算法应用于移动端最新研究汇总

CVPR 2020 | 将深度学习算法应用于移动端最新研究汇总

作者头像
AI算法与图像处理
发布于 2020-07-20 07:25:52
发布于 2020-07-20 07:25:52
1.1K0
举报

作者:Derrick Mwiti 编译:ronghuaiyang

导读

边缘设备上的机器学习是未来的一大方向。

在最近结束的2020年CVPR会议上,有很多优秀的计算机视觉研究。在本文中,我们将重点关注与移动或与边缘计算相关的任务和内容。虽然并非所有这些论文都直接接触到移动相关的应用,但它们对移动端机器学习的影响是巨大的。它们推动了通常在移动设备和边缘设备上执行的ML任务,因此它们的进步对推动行业向前发展至关重要。

智能手机摄影的感知质量评估

本文作者对智能手机摄影的感知质量评估进行了深入的研究。他们还引入了智能手机摄影属性和质量(SPAQ)数据库。该数据库包含66部智能手机拍摄的11,125张照片。每个图像都有丰富的标注信息。

论文地址:http://openaccess.thecvf.com/content_CVPR_2020/html/Fang_Perceptual_Quality_Assessment_of_Smartphone_Photography_CVPR_2020_paper.html

作者还收集了人们对每张图片的看法。收集的一些信息包括图像质量、图像属性、图像属性和场景类别标签。为了进行更深入的分析,他们还记录了每张图像的可交换图像文件格式(EXIF)。然后,他们使用数据库训练由基线和多任务深度神经网络构建的盲图像质量评估(BIQA)模型。得到的结果让我们了解到:

  • 如何用EXIF数据,图像属性,和高级语义与图像质量交互
  • 如何设计下一代BIQA模型
  • 更好的计算摄影系统可以如何优化移动设备

BIQA模型和数据库可以在这里找到

这是一个图像质量评估 — IQA — 相机畸变数据集的比较。

分类级的多关节物体姿态估计

本文研究了单深度图像中分类级的多关节物体的姿态估计问题。他们提出了一种分类级的方法,其中包括在训练中未见过的物体实例。他们为给定类别中的不同关节对象引入了一种规范表示 —— 支持关节的标准化坐标空间层次结构(ANCSH)。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Li_Category-Level_Articulated_Object_Pose_Estimation_CVPR_2020_paper.html

该表示构造了规范的物体空间和一组规范的部件空间,以实现类内泛化。进一步,作者开发了一个基于PointNet++的深度网络:

该网络从单深度点云预测ANCSH。通过使用规范化的关节,作者实现了:

  • 使用关节诱导的运动学约束改进部分姿态和尺度估计的性能
  • 摄像机空间联合参数估计精度高

下图是联合参数估计的对比。

KFNet:使用卡尔曼滤波学习瞬时摄像机重新定位

与单镜头重定位通过聚焦静止图像来估计姿态不同,瞬时相机重定位根据序列中每一帧视频来估计姿态。本文旨在提高时域再定位方法的姿态估计能力。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Zhou_KFNet_Learning_Temporal_Camera_Relocalization_Using_Kalman_Filtering_CVPR_2020_paper.html

他们通过使用一个网络架构来实现这一点,该架构包含了用于在线相机重新定位的Kalman filtering (KFNet)。网络的设计和损失是基于贝叶斯学习背景下的卡尔曼滤波。

代码:https://github.com/zlthinker/KFNet

KFNet弥补了瞬时性和一次性定位方法之间的性能差距。作者还提出了一个统计评估工具,使KFNet能够在线自我检查潜在的异常值预测。

下面是不同重定位方法的中值平移和旋转误差的可视化结果。

这是一次one-shot和瞬时的准确度的比较。

EventCap:使用事件摄像机单目3D捕捉高速人体运动

本文提出了一种利用单镜头进行人体运动高速三维捕捉的方法EventCap。利用基于模型的优化和基于cnn的人体姿态估计捕获高频运动细节。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Xu_EventCap_Monocular_3D_Capture_of_High-Speed_Human_Motions_Using_an_CVPR_2020_paper.html

作者能够捕捉毫秒分辨率的快速运动,与使用高帧率视频相比,具有更高的数据效率。

在联合优化框架中,利用事件流和来自事件摄像机的低帧率强度图像流,设计了一种运动捕捉算法。这在以下阶段发生:

  • 在二维空间异步跟踪事件,重建相邻亮度图像帧之间的连续时空事件轨迹。
  • 估计人体的3D运动使用基于批处理的优化算法。
  • 根据从异步事件流接收到的边界信息精炼捕获的高速运动。

通过利用跟踪的事件轨迹和基于cnn的二维和三维姿态估计强度图像来解决漂移问题。

作者还提出了一个基于事件相机的快速人体动作捕捉评价数据集。

本文将几种方法在跟踪精度和数据吞吐量方面与本文提出的方法进行比较。

RetinaFace: Single-Shot多层次人脸定位

提出了一种single-shot、多层次的人脸定位方法。他们还对WIDER FACE dataset手工标注了五个人脸landmarks,对WIDER FACE,AFLW,FDDB等数据集采用半自动pipeline为人脸图像生成三维顶点。

将人脸 bounding box预测、二维人脸landmark定位和三维顶点回归相结合,实现了图像平面上的点回归。他们还提出了一种学习策略来训练一种统一的、多层次的人脸定位方法,该方法可以同时预测人脸 bounding box、五个2D人脸landmark和1K个3D顶点。

FReeNet: 多重身份人脸重现

本文提出了一个基于多重身份的人脸重构框架 —— FReeNet。它可以通过共享的模型将来源的脸部表情转移到另一张脸部。框架由两部分组成:

  • 统一Landmark转换器(ULC),采用编码器 — 解码器的架构,在一个潜在的landmark空间转换表情。这减少了源图像和目标图像之间的面部轮廓的差距。
  • 几何感知发生器(GAG)使用转换的landmark重新制定照片真实的形象,给定目标人脸作为参考。

论文:http://openaccess.thecvf.com/content_CVPR_2020/html/Zhang_FReeNet_Multi-Identity_Face_Reenactment_CVPR_2020_paper.html

作者还提出了一个新的triplet感知损失,使GAG模块同时学习外观和几何信息。这丰富了重现图像的面部细节。这种损失是由triplet损失和感知损失相结合而形成的。

人脸重现面临两个主要挑战:首先,通过统一的网络实现多身份面部表情的转换,其次,在保持姿势、色调和光照的同时,再现逼真的、身份一致的目标人脸。

源人脸和目标人脸之间的轮廓差距也构成了严重的挑战。为了解决这些难题,作者使用了一个landmark探测器来将人脸编码到潜在的landmark空间中。

利用landmark转换模块将源图像转换为潜在landmark空间中的目标人物。几何感知生成器从转换后的landmark空间中提取几何信息,从转换后的landmark空间中提取外观信息。并从参考人物中提取外观信息,重现目标人脸。

通过本文方法得到的一些结果如下:

最后的想法

如果这些论文引起了你的兴趣,那你就走运了!如果你想进一步了解的话,还有很多其他的资源:https://openaccess.thecvf.com/CVPR2020

英文原文:https://heartbeat.fritz.ai/cvpr-2020-research-with-mobile-ml-implications-fb63a1d06b25

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI算法与图像处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
汇总|3D目标检测文章(CVPR2020)
今年CVPR20-paper-list前几天已经出了,所以这里做一点大致的综述介绍在CVPR20上在3D目标检测的一些文章。如下图所示,3D目标检测按照大方向可以分为室外和室内的目标检测,室内场景数据集一般有ScanNet等,该领域研究比较少,笔者注意到的第一篇文章是来自FAIR的voteNet,采用霍夫投票机制生成了靠近对象中心的点,利用这些点进行分组和聚合,以生成box proposals。今年在CVPR20上也至少有两篇该文章的后续工作,分别是来自pointnet之父的Imvotenet,地址是:https://arxiv.org/pdf/2001.10692.pdf;另外一篇MLCVNet来自南京大学和卡迪夫大学的联合工作 ,文章地址:https://arxiv.org/pdf/2004.05679,该文章在vote的基础上利用自注意力机制融合Multi-scale的特征。 此外,在室外场景的目标检测中,可以大致按照输入分为lidar-input,image-input和multi-sensors-fusion的研究工作。
3D视觉工坊
2020/12/11
9370
自动驾驶研究回顾:CVPR 2019摘要
我们相信开发自动驾驶技术是我们这个时代最大的工程挑战之一,行业和研究团体之间的合作将扮演重要角色。由于这个原因,我们一直在通过参加学术会议,以及最近推出的自动驾驶数据集和基于语义地图的3D对象检测的Kaggle竞赛,来帮助研究社区解决自动驾驶这个挑战。
磐创AI
2019/10/18
1.1K0
简单盘点 CVPR2020 的图像合成论文
本文将简单盘点在 CVPR2020 上的图像合成方面的论文,然后给出下载地址以及开源代码 github(如果有开源)。
kbsc13
2020/08/06
9270
做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点
目标检测是计算机视觉中的经典问题之一。凭借大量可用数据、更快的 GPU 和更好的算法,现在我们可以轻松训练计算机以高精度检测出图像中的多个对象。
机器之心
2020/07/28
1.7K0
做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点
CVPR 2021 | “以音动人”:姿态可控的语音驱动说话人脸
本文不使用任何人为定义的结构信息(人脸关键点或者3D人脸模型),成功实现了人头姿态可控的语音驱动任意说话人脸生成。本文的关键在于,隐式地在潜空间(latent space)中定义了一个12维的姿态编码,用于头部运动控制。
公众号-arXiv每日学术速递
2021/05/18
3.3K0
CVPR 2021 | “以音动人”:姿态可控的语音驱动说话人脸
28篇论文、6 大主题带你一览 CVPR 2020 研究趋势
首度于线上召开的CVPR 2020 会议已经落下帷幕。今年,大会共有1467篇论文被接收,共举办了29个Tutorial、64个Workshop,线上与会者人数达 7600人。大量的论文,加上今年新采用虚拟会议的形式,曾一度让会议浏览器不堪重负(浏览速度非常慢)。
AI科技评论
2020/06/29
1.2K0
28篇论文、6 大主题带你一览 CVPR 2020 研究趋势
机器人收集 + Keypose 算法:准确估计透明物体的 3D 姿态
计算机视觉应用领域的核心问题是 3D 物体的位置与方向的估计,这与对象感知有关(如增强现实和机器人操作)。在这类应用中,需要知道物体在真实世界中的 3D 位置,以便直接对物体进行操作或在其四周正确放置模拟物。
磐创AI
2020/09/28
9040
机器人收集 + Keypose 算法:准确估计透明物体的 3D 姿态
在CVPR上,OPPO的一系列「业界首次」
机器之心报道 作者:泽南 下个爆款应用,可能就来自于这些研究。 用 AI 重建真实环境的 3D 数字模型,是虚拟现实、游戏环境渲染等任务的重要环节。通常人们必须依赖红外传感器、ToF 等特殊设备才能获得精确的图像,处理数据也需要消耗巨大的算力时间,因此,它经常会成为构建应用的瓶颈。 最近,有人展示了全新的技术:只需要一个平板电脑的算力,我们就可以用普通摄像头实时描绘一个房间的复杂实景,同时 AI 算法可以自动标记所有物体并将其正确分类。 更进一步,如果扫描的视角转了完整的 360 度,算法就可以自动重建出
机器之心
2022/07/06
6200
在CVPR上,OPPO的一系列「业界首次」
CVPR 2019 | 37篇!Facebook今年被CVPR收录的论文都说了啥?
AI 科技评论按:CVPR 2019 已于 6 月 16 日至 20 日在美国加利福利亚州长滩市盛大举办,吸引了超过万人参加,AI 科技评论的记者也前往现场为大家带来了精彩的大会报道。作为工业界的学术实力干将之一,Facebook AI 研究院在本次大会上的成果也备受瞩目。而 Facebook AI 研究院也对自己今年的战绩进行了统计:共有 37 篇论文被收录,其中包括 15 篇 Oral 论文。下面就让我们一起来看看这些成果吧。
AI研习社
2019/07/04
9110
从CVPR2019看计算机视觉的最新趋势
我从CVPR中选取已被录用的论文进行分析,了解研究的主要领域和论文题目中的常见关键词。这可以提供研究进展的一个迹象。
AI算法与图像处理
2019/08/23
5990
从CVPR2019看计算机视觉的最新趋势
1.2万人朝圣CVPR,华人学者夺最佳论文!Sora舵手火爆演讲成大型追星现场
2024年CVPR会议将在美国西雅图拉开帷幕,根据官方的公告,本届会议已经成为CVPR历史上规模最大、参与人数最多的一届,截止6月19日,现场参会人数已超过1.2万人。
新智元
2024/06/27
1520
1.2万人朝圣CVPR,华人学者夺最佳论文!Sora舵手火爆演讲成大型追星现场
CVPR2018公布优秀论文,何恺明获PAMI青年研究者奖
正在美国盐湖城举行的年度计算机视觉和模式识别盛会CVPR(Conference on Computer Vision and Pattern Recognition)评选出年度优秀论文。
IT派
2018/08/10
4030
CVPR2018公布优秀论文,何恺明获PAMI青年研究者奖
[CVPR | 论文简读] 深度密度的无约束人脸聚类算法
Deep Density Clustering of Unconstrained Faces
智能生信
2022/12/29
5200
[CVPR | 论文简读] 深度密度的无约束人脸聚类算法
历年 CVPR 最佳论文盘点(2000 年——2018 年)
作为计算机视觉领域的顶级学术会议,CVPR 2019 近期公布了最终论文接收结果,引来学界密切关注。据悉,CVPR 2019 今年一共获得 5165 篇有效提交论文,最终抉出了 1300 篇接收论文,接收率达到 25.2% 。
朱晓霞
2019/04/30
1.2K0
历年 CVPR 最佳论文盘点(2000 年——2018 年)
CVPR 2022正式公布最佳论文奖!李飞飞获Thomas S. Huang 纪念奖
点击 机器学习算法与Python学习 ,选择加星标 精彩内容不迷路 机器之心报道 刚刚,CVPR 2022 正式公布了最佳论文、最佳学生论文等奖项。来自 ETH Zurich、华盛顿大学、佐治亚理工学院、捷克理工大学多个机构的研究者共同获得了最佳论文奖,来自阿里巴巴和同济大学的研究者获得了最佳学生论文奖。此外,斯坦福大学教授李飞飞获得了本次大会的 Thomas S. Huang (黄煦涛)纪念奖。 2022 年,‍‍CVPR 大会的投稿量达到 8161 份,相比 2021 年度的 7093 份提交增长
昱良
2022/06/27
2.4K0
CVPR 2022正式公布最佳论文奖!李飞飞获Thomas S. Huang 纪念奖
Detectors for the 2020s 目标检测算法最新进展
近几年目标检测的落地越发成熟,新的sota网络同样层出不穷,不断刷新着coco的记录。本文盘点截止2019-2021年,在coco test-dev上霸榜,且知名度较广的目标检测网络(未完全开源不加入讨论)。
BBuf
2022/04/06
1.3K0
Detectors for the 2020s 目标检测算法最新进展
《 NEXT 技术快报》:计算机视觉篇(下)
本文介绍了视觉跟踪领域的一些研究进展,包括基于深度学习的方法、基于度量学习的方法、基于无监督学习的方法和基于强化学习的方法。这些方法在跟踪性能、速度和鲁棒性方面都取得了不错的效果。同时,作者还介绍了一些最新的跟踪算法,包括SiamRPN++、GOTURN、MDNet和DeepSORT。这些算法在最新的跟踪数据集上进行了测试,并与其他算法进行了比较。结果表明,这些最新的算法在跟踪性能、速度和鲁棒性方面都表现出色。
WesleyJiang
2017/10/13
1.2K0
《 NEXT 技术快报》:计算机视觉篇(下)
270篇CVPR 2020代码开源的论文,全在这里了!
"不开源,就是耍流氓","开源,就是生产力",这是我们经常调侃的话术。因为我们经常看到一些所谓重磅或者心仪的论文后,会赶紧看看有没有开源。
Amusi
2020/06/19
1K0
270篇CVPR 2020代码开源的论文,全在这里了!
【CVPR】四篇好文简读-专题1
Manifold Regularized Dynamic Network Pruning
智能生信
2022/05/23
8490
【CVPR】四篇好文简读-专题1
DDT:基于深度距离变化提高管状结构分割任务的性能 (CVPR2020)
今天分享一篇发表在CVPR2020上的关于医学图像处理的论文:Deep Distance Transform for Tubular Structure Segmentation in CT Scans (原文链接:[1])。
Minerva
2020/06/23
2.1K0
推荐阅读
相关推荐
汇总|3D目标检测文章(CVPR2020)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档