社区首页 >专栏 >谷歌发布PhotoScan:拍摄无炫光的图片

谷歌发布PhotoScan:拍摄无炫光的图片

YingJoy_

修改于 2017-06-19 11:05:53

2.9K00

代码可运行

文章被收录于专栏：应兆康的专栏应兆康的专栏

运行总次数：0

代码可运行

前言

昨天（4月19日），谷歌发布了一个适用于IOS和Android应用程序PhotoScan(中文名: 照片扫描仪)，它可让您仅使用智能手机将照片打印数字化。

PhotoScan的主要功能之一是能够从打印件中去除眩光，这些打印件通常具有光泽和反光性，它们的塑料相册页面或玻璃覆盖的相框也会造成反光。为了创解决这个问题，我们开发了独特的计算机视觉和图像处理技术，可以仔细对齐和组合几个稍微不同的打印图片，以将眩光与图像分开。

Google 相册全新推出照片扫描仪应用，只要使用手机摄像头就能扫描并保存最心爱的冲印照片。

1.照片完美、无眩光

只能通过拍照修图已成为过去时。只要进行扫描，就能制作效果更佳的数字照片，无论照片在哪里都不成问题。

通过简单的分步流程进行扫描，轻松获取无眩光的扫描内容
根据边缘检测进行自动剪裁
透视校正功能可矫正扫描照片中歪斜扭曲的视角
无论扫描角度如何，智能旋转功能都摆正照片

2.数秒内完成扫描

轻松快捷地截取您最心爱的照片，节省修改照片的时间，好好回味一下青春年少时的非主流造型。

Google 相册能让照片安全无虞且便于搜索

通过免费的 Google 相册应用备份您的扫描照片，不仅安全可靠、便于搜索，而且井井有条。借助影片、滤镜和高级修片控件，可以让扫描的照片愈发生动有趣。只需发送一个链接，就能与任何人分享照片。

左：物理打印的常规图片。 右：PhotoScan的无眩光输出

正文

当拍摄照片的单张照片时，确定图片的哪些区域是实际照片，哪些区域是眩光，这是程序面临的主要挑战。此外，眩光可能经常使图像中的区域饱和，使得那些区域无法看到或恢复其下面的照片的部分。但如果在移动相机的同时拍摄照片的照片，眩光的位置往往会改变，覆盖照片的不同区域。大多数情况下，照片的每个像素在至少一张照片中可能不会被眩光所覆盖。我们可以组合多张照片拍摄的不同角度的照片去除眩光。面临的挑战是，图像需要非常准确地对齐，以便正确地组合它们，并且该处理需要在手机上非常快速地运行以提供即时的体验。

左：捕获的输入图像（共5个） 右：如果我们稳定照片上的图像，我们可以看到只有眩光移动，覆盖照片的不同部分。 注意：没有一个图像是无眩光的。

我们的技术灵感来自于我们早前在SIGGRAPH 2015上发表的作品，我们称之为“obstruction-free photography（无障碍摄影）”。它使用的原理是从视野中去除障碍物。然而，我们最初提出的算法是基于生成模型，其中主场景和障碍层的运动和外观被估计。虽然该型号相当强大，可以清除各种障碍物，但是在智能手机上运行的计算的费用太贵了。因此，我们建立了一种更简单的模型，将眩光视为异常值，只尝试注册底层的无眩光照片。虽然这种模式更简单，但是由于注册需要高度准确和稳健，所以这个任务仍然是非常具有挑战性的。

工作原理

从用户移动相机拍摄的一系列照片开始。第一张图片 - “参考框架” - 定义了所需的输出视点。然后，用户被指示需要另外四个帧。在每个附加帧中，我们检测稀疏特征点)（我们计算哈里斯角上的ORB特征），并使用它们来建立将每个帧映射到参考帧的同位处。

左：检测到的特征在参考帧和每个其他帧（左）之间匹配 根据估计的同形异义（右）匹配。

虽然这种技术可能听起来很直接，但是有一种捕捉----同态性只能对齐平面图像。但是打印的照片通常不是完全平坦的（如上所示的例子）。因此，我们使用光流 - 运动的基本计算机视觉表示，其在两个图像之间建立像素点映射，以校正非平面。我们从单体对齐的帧开始，并计算“流场”以扭曲图像并进一步优化注册。在下面的示例中，请注意左边照片的角落在注册框架之后，只能使用同型字，缓慢地“移动”。右侧显示如何使用光流优化注册后照片可以更好地对齐。

原图（左）和使用光流的细化之后（右）的比较

注册的差异是很微小的，但对最终结果有很大的影响。请注意，结果中多少小的错位显示为重复的图像结构，以及如何通过额外的流程细化减轻这些工件。

原图（左）和使用光学流动细化去除眩光结果之间的比较。在结果中，仅使用同位素（左），注意人的眼睛，鼻子和牙齿周围的物品，以及织物上重复的茎和花瓣。

这也是一个难点，就是使光流成为一种自然而然的算法，在手机上工作非常快。代替在传统上计算每个像素处的光流（计算的流向量的数量等于输入像素的数量），我们通过较少数量的控制点表示流场，并且在作为控制点运动的函数的图像。具体来说，我们将每个图像划分成平铺的，不重叠的单元格，以形成网格，并将单元格中的像素的流程表示为包含单元格的四个角的流的双线性组合。

网格光流网格设置。 p表示为封装它的单元格的四个角点的双线性插值。

左：在其中一个框架上计算的流场的图示。 右：流色彩编码：分别由色相和饱和度表示的取向和幅度。

这使要解决的问题少了很多，因为现在计算的流向量的数量等于网格点的数量，其通常远小于像素数。这个过程在本质上类似于Szeliski和Coughlan（1997）中描述的基于花键的图像配准。通过这种算法，我们可以在Pixel手机上将光流计算时间减少约40倍！

叠加在（清洁）参考系上的单色注册的帧和流动精化的扭曲帧（使用上述流场）之间的翻转示出了所计算的流场如何将图像部分“捕捉”到参考帧中的相应部分优化注册。

最后，为了组合无眩光输出，对于注册帧中的任何给定位置，我们检查像素值，并使用求最小值算法来获得最暗的观察值。更具体地说，我们计算最小亮度超过注册帧的期望值，将较少的权重分配给靠近（翘曲）图像边界的像素。我们使用这种方法，而不是直接在两帧之间计算最小值，因为每帧的相应像素可能具有略微不同的亮度。因此，由于突出图像之间的边界处的突然强度变化，每像素最小值可能产生可见的接缝。

常规最小值（左）与软最小值（右）相比。

该算法可以支持各种扫描条件 - 无光泽和光泽打印，照片内部或外部相册，杂志封面。

          输入                       注册                     输出（无眩光）

为了获得最终的结果，谷歌照片团队开发了一种自动检测和裁剪照片区域的方法，并将其整理为正面。由于透视失真，扫描的矩形照片通常在图像上看起来是四边形。该方法分析图像信号，如颜色和边缘，以计算出扫描图像上原始照片的准确边界，然后应用几何变换将四边形区域修正为原始的矩形，产生高质量，无眩光数码版的照片。

总的来说，所有这些操作都在你的手机上几乎瞬间完成！要给PhotoScan一个尝试，请在IOS或Android上下载该应用程序。

本文系转载，如有侵权，请联系 cloudcommunity@tencent.com 删除。

图像处理

人工智能

本文系转载，如有侵权，请联系 cloudcommunity@tencent.com 删除。

图像处理

人工智能

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

2291

Go 开发者必备：Protocol Buffers 入门指南

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

1271

60页PPT全解：DeepSeek系列论文技术要点整理

2288

手机中的计算摄影3-多摄融合

编程算法

前几天，荣耀发布了Magic 3系列手机，通过多主摄融合的计算摄影技术，带来全焦段的高清体验。根据荣耀官方的数据，在彩色黑白融合时，进光量最大提升13%，清晰度最大提升18%。在主摄和广角镜头融合时，中心清晰度最大提升80%，在主摄和长焦镜头融合时，中心清晰度最大提升180%！

HawkWang

2021/10/13

1.4K0

宛如白昼，谷歌发布最强夜景拍照AI算法，单摄秒杀一众苹果华为三星

其他

是的，这张照片拍摄于夜晚，用普通模式拍照只能拍出勉强看到的酒杯和水果，在谷歌的夜视模式下，就能像白天一样，所有物品细节一清二楚。

量子位

2018/12/13

1.6K0

Pixel 3的超分辨变焦技术

编程算法

原文：http://ai.googleblog.com/2018/10/see-better-and-further-with-super-res.html

LiveVideoStack

2021/09/01

9610

ECCV 2022｜码流信息辅助的压缩视频超分框架

编程算法文件存储图像处理神经网络

目前网络上的电影、网络广播、自媒体视频等大部分是分辨率较低的压缩视频，而智能手机、平板电脑、电视等终端设备正逐渐配备 2K、4K 甚至 8K 清晰度的屏幕，因此端侧的视频超分辨率（VSR）算法引起越来越广泛的关注。与图像超分辨率（SISR）相比，视频超分辨率（VSR）可以通过沿视频时间维度利用邻近帧的信息来提高超分辨率的效果。视频超分辨率算法大致可以分为两类：基于滑窗的视频超分算法（Sliding-window）和基于循环神经网络的视频超分算法（Recurrent VSR）。基于滑窗的视频超分算法会重复的提取邻近帧的特征，而基于循环神经网络的视频超分辨率算法避免了重复的特征提取，还可以高效的传递长期时间依赖信息，鉴于端侧运算单元和内存有限的情况来说是一个更具潜力的方案。在视频超分中，视频帧之间的对齐对超分辨率性能有着重要的影响。目前的视频超分算法通过光流估计、可形变卷积、注意力和相关性机制等方式来设计复杂的运动估计网络来提升视频超分的性能。而目前商用终端设备很难为视频超分辨率算法提供足够的计算单元和内存来支撑视频帧之间复杂的运动估计以及大量的冗余特征计算。

用户1324186

2022/11/07

2K0

Google为Pixel更新HDR，夜间拍摄无「鬼影」，每个像素都是细节

编程算法

HDR是数字摄影中一项重要的技术，意为「高动态范围」。HDR技术可以克服多数相机传感器动态范围有限的缺点，并将图片色调控制在人眼识别范围之内，HDR简单的说就是让你的照片无论高光还是阴影部分细节都很清晰，不用担心过曝和欠曝。

新智元

2021/05/27

1.4K0

Google Pixel 2拍照黑科技：单摄搞定背景虚化+内部潜伏神秘芯片

其他

安妮夏乙发自凹非寺量子位出品 | 公众号 QbitAI Google最新亲儿子Google Pixel 2系列一发布，拍照效果的好评就已铺天盖地。凭借着几乎毫无亮点的单摄像头，这款手机在D

量子位

2018/03/26

2.1K0

一拖一拽，小猫活了！Netflix等新作爆火，噪声扭曲算法让运动控制更简单

效率模型视频数据算法

在视频扩散生成领域，如何精准操控视频中的运动细节而又不牺牲画面质量，一直是研究者共同追逐的目标。

新智元

2025/02/04

760

「事件相机」告别模糊！CVPR 2021发表视频慢动作的新sota，还发了160FPS的数据集

网络安全编程算法

在缺少额外信息的情况下，必须借助光流（optical flow）进行一阶近似（first-order approximations），但这种方法能够建模的物体运动类型比较少，从而可能导致在高度动态的场景下插帧错误的情况。

新智元

2021/10/12

1.5K0

MMEditing | 新视频超分算法冠军BasicVSR++来了

node.js

在日常生活中, 我们早已习惯用视频纪录生活点滴；视频影像在案件侦破等方面产生突出作用。

OpenMMLab 官方账号

2022/01/17

1.6K0

AI「照妖镜」：不仅知道你P过图，还知道你P图前长啥样

https 网络安全

现在的社交媒体上充斥着各种自拍，而且其中大部分人物都长得挺好看。但大家心知肚明的是，这些照片大多被 P 过。有很多人甚至因为 P 得一手堪比「整容」的照片而走红。

机器之心

2019/06/20

1.4K0

视频编码器的智能化——AI辅助编解码的ASIC解决方案

机器学习神经网络深度学习人工智能硬件开发

在此次LiveVideoStackCon 2021 音视频技术大会北京站，来自镕铭半导体的刘迅思详细列举了目前常用的AI辅助编解码的方法，论述如何在硬件和软件层面将AI结合编解码的实践，探索新的标准和新一代编码器结合AI应该如何设计。

LiveVideoStack

2021/12/08

1.6K0

基于空洞补全的动态SLAM方法

人工智能自动驾驶

同步定位和制图（SLAM）一直被认为机器人定位导航以及无人驾驶的核心技术，而利用摄像头作为传感器的视觉SLAM在近几十年也得到了广泛的研究，在这期间涌现了大量优秀的SLAM方法，为后人对SLAM技术的研究打下了坚实的基础。

一点人工一点智能

2022/12/27

1.8K0

谷歌解释了Pixel 4在夜空摄影方面为何表现出色

google pixel

迄今为止，在夜间拍摄室外场景一直是大型相机（例如DSLR）才能做的事情，虽然手机摄像头的夜间拍摄技术有了一定进步，但是它还不足以让人们满意。

AiTechYun

2019/12/03

9080

深度揭秘京东全景主图背后的技术

人工智能大数据编程算法深度学习

作者黄志标：中国科学院大学硕士，京东AI与大数据部算法工程师。擅长图像检索、深度学习领域。曾参与京东的上亿重图检测项目，目前主要负责京东全景主图、视频审核项目。安山：山东大学机器人研究中心硕士，京东AI与大数据部资深算法工程师。研究兴趣为大规模图像检索、计算机视觉。负责京东图像搜索引擎、知识产权保护、深度学习算法移动化。在计算机视觉领域获得2项发明专利授权，另有十余项专利申请。据京东财报显示，京东集团第二季度净利润达9.765亿，年度活跃用户达2.583亿，订单完成量为5.912亿。扎实的用户基

京东技术

2018/06/20

9270

Meta清华校友推全新AI「视频生视频」方法！单张A100生成「男人秒变猩猩」大片

meta 论文模型设计视频

我们已经见证，AI视频生成领域在过去一年里发生的巨变，RunWay的Gen-2、Pika的Pika 1.0等工具实现了高保真度、一致性。

新智元

2024/01/04

2840

Meta清华校友推全新AI「视频生视频」方法！单张A100生成「男人秒变猩猩」大片

Google Super Res Zoom算法解读

编程算法腾讯云开发者社区

这是google发表在SIGGRAPH2019上面的一篇超分辨的文章，也就是在自家手机Pixel3中使用的Super Res Zoom技术。在Google AI Blog中已经对该技术做了初步的介绍，而这篇文章则更加详细的介绍了技术实现细节。

云深无际

2020/08/11

2.6K0

微软亚洲研究院|探索真实事物的虚拟再现

人工智能编程算法 windows

SIGGRAPH Asia 今年首次来到内地，于 12月3日在深圳国际会议中心开幕。此次，微软亚洲研究院共有七篇论文入选此次大会，研究员们也会大会现场进行演讲和项目演示。在这里，我们特别挑选了三篇精彩的入选论文，和大家分享一下论文背后的技术设想。他们的共同关注点都是如何利用设备更好地捕捉和呈现现实中的人物和场景，但是每一篇论文的项目都有独特的切入点。

计算机视觉研究院

2018/07/25

7630

不用P30 Pro，普通手机也能变身望远镜：陈启峰团队新作，登上CVPR 2019

图像处理

不过现在，就算不是P30 Pro，没有徕卡四摄，没有4,000万像素，只靠深度学习，iPhone也可以把50米之外的细节，拍得清楚明白。

量子位

2019/04/23

7100

不用P30 Pro，普通手机也能变身望远镜：陈启峰团队新作，登上CVPR 2019

微软自拍应用一键美颜背后的人工智能技术（附论文下载）

其他

日前，微软宣布推出一款图片美化应用——微软自拍（Microsoft Selfie），它能够针对照片中出现的所有人脸的年龄和性别进行差异化一键自动美颜和降噪、补光，微软亚洲研究院视觉计算组主管研究员袁路

用户1737318

2018/06/06

2K0

Parrot Anafi AI无人机介绍.上

图像处理编程算法 SSL 证书

法国无人机厂商Parrot将在下半年发布全新无人机“Anafi AI",快来看看吧！

云深无际

2021/07/23

2.1K0