社区首页 >专栏 >每日学术速递12.28

每日学术速递12.28

AiCharm

发布于 2023-12-28 06:29:22

2010

文章被收录于专栏：AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片，关注「AiCharm」公众号

Subjects: cs.CV

1.HUGS: Human Gaussian Splats

标题：HUGS：人类高斯泼溅

作者：Muhammed Kocabas, Jen-Hao Rick Chang, James Gabriel, Oncel Tuzel, Anurag Ranjan

文章链接：https://arxiv.org/abs/2311.17910

项目代码：https://github.com/apple/ml-hugs

摘要：

神经渲染的最新进展将训练和渲染时间提高了几个数量级。虽然这些方法展示了最先进的质量和速度，但它们是为静态场景的摄影测量而设计的，并不能很好地推广到环境中自由移动的人类。在这项工作中，我们引入了人类高斯分布 (HUGS)，它使用 3D 高斯分布 (3DGS) 来表示可动画的人体和场景。我们的方法只需要一个具有少量（50-100）帧的单眼视频，它就能在 30 分钟内自动学习将静态场景和完全可动画化的人类头像分开。我们利用 SMPL 身体模型来初始化人类高斯模型。为了捕捉 SMPL 未建模的细节（例如布料、头发），我们允许 3D 高斯偏离人体模型。将 3D 高斯函数用于动画人物会带来新的挑战，包括在表达高斯函数时产生的伪影。我们建议联合优化线性混合蒙皮权重，以协调动画期间各个高斯的运动。我们的方法能够实现人类的新颖姿势合成以及人类和场景的新颖视图合成。我们以 60 FPS 的渲染速度实现了最先进的渲染质量，同时训练速度比之前的工作快约 100 倍。

2.HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models

标题：HD-Painter：使用扩散模型进行高分辨率且快速忠实的文本引导图像修复

作者：Senmao Li, Taihang Hu, Fahad Shahbaz Khan, Linxuan Li, Shiqi Yang, Yaxing Wang, Ming-Ming Cheng, Jian Yang

文章链接：https://arxiv.org/abs/2312.14091

项目链接：https://github.com/Picsart-AI-Research/HD-Painter

摘要：

基于文本到图像扩散模型的空前成功，文本引导图像修复的最新进展带来了异常真实且视觉上合理的结果。然而，当前的文本到图像修复模型仍然存在巨大的改进潜力，特别是在更好地将修复区域与用户提示对齐以及执行高分辨率修复方面。因此，在本文中，我们介绍了 HD-Painter，这是一种完全无需训练的方法，可以准确地遵循提示并连贯地缩放到高分辨率图像修复。为此，我们设计了提示感知内向注意力（PAIntA）层，通过提示信息来增强自我注意力分数，并产生更好的文本对齐生成。为了进一步提高即时一致性，我们引入了重新加权注意力评分指导（RASG）机制，将事后采样策略无缝集成到 DDIM 的一般形式中，以防止分布外的潜在变化。此外，HD-Painter 通过引入专门为修复而定制的超分辨率技术，可以扩展到更大的尺度，从而能够完成高达 2K 分辨率的图像中的缺失区域。我们的实验表明，HD-Painter 在定性和定量上都超越了现有的最先进方法，生成精度显着提高了 61.4% 与 51.9%。

3.Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis

标题：Fairy：快速并行指令引导视频到视频合成

作者：Bichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda

文章链接：https://arxiv.org/abs/2312.13834

项目代码：https://fairy-video2video.github.io/

摘要：

在本文中，我们介绍 Fairy，这是图像编辑扩散模型的简约而强大的改编，增强了它们的视频编辑应用程序。我们的方法以基于锚的跨帧注意力的概念为中心，这是一种隐式跨帧传播扩散特征的机制，确保卓越的时间一致性和高保真度合成。Fairy 不仅解决了以前模型的限制，包括内存和处理速度。它还通过独特的数据增强策略提高了时间一致性。该策略使模型与源图像和目标图像中的仿射变换等变。Fairy 效率极高，只需 14 秒即可生成 120 帧 512x384 视频（30 FPS 时长 4 秒），比之前的作品至少快 44 倍。一项涉及 1000 个生成样本的全面用户研究证实，我们的方法提供卓越的质量，明显优于现有方法。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-12-28，如有侵权请联系 cloudcommunity@tencent.com 删除

渲染