前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每日学术速递12.28

每日学术速递12.28

作者头像
AiCharm
发布于 2023-12-28 06:29:22
发布于 2023-12-28 06:29:22
2010
举报
文章被收录于专栏:AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.HUGS: Human Gaussian Splats

标题:HUGS:人类高斯泼溅

作者:Muhammed Kocabas, Jen-Hao Rick Chang, James Gabriel, Oncel Tuzel, Anurag Ranjan

文章链接:https://arxiv.org/abs/2311.17910

项目代码:https://github.com/apple/ml-hugs

摘要:

神经渲染的最新进展将训练和渲染时间提高了几个数量级。虽然这些方法展示了最先进的质量和速度,但它们是为静态场景的摄影测量而设计的,并不能很好地推广到环境中自由移动的人类。在这项工作中,我们引入了人类高斯分布 (HUGS),它使用 3D 高斯分布 (3DGS) 来表示可动画的人体和场景。我们的方法只需要一个具有少量(50-100)帧的单眼视频,它就能在 30 分钟内自动学习将静态场景和完全可动画化的人类头像分开。我们利用 SMPL 身体模型来初始化人类高斯模型。为了捕捉 SMPL 未建模的细节(例如布料、头发),我们允许 3D 高斯偏离人体模型。将 3D 高斯函数用于动画人物会带来新的挑战,包括在表达高斯函数时产生的伪影。我们建议联合优化线性混合蒙皮权重,以协调动画期间各个高斯的运动。我们的方法能够实现人类的新颖姿势合成以及人类和场景的新颖视图合成。我们以 60 FPS 的渲染速度实现了最先进的渲染质量,同时训练速度比之前的工作快约 100 倍。

2.HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models

标题:HD-Painter:使用扩散模型进行高分辨率且快速忠实的文本引导图像修复

作者:Senmao Li, Taihang Hu, Fahad Shahbaz Khan, Linxuan Li, Shiqi Yang, Yaxing Wang, Ming-Ming Cheng, Jian Yang

文章链接:https://arxiv.org/abs/2312.14091

项目链接:https://github.com/Picsart-AI-Research/HD-Painter

摘要:

基于文本到图像扩散模型的空前成功,文本引导图像修复的最新进展带来了异常真实且视觉上合理的结果。然而,当前的文本到图像修复模型仍然存在巨大的改进潜力,特别是在更好地将修复区域与用户提示对齐以及执行高分辨率修复方面。因此,在本文中,我们介绍了 HD-Painter,这是一种完全无需训练的方法,可以准确地遵循提示并连贯地缩放到高分辨率图像修复。为此,我们设计了提示感知内向注意力(PAIntA)层,通过提示信息来增强自我注意力分数,并产生更好的文本对齐生成。为了进一步提高即时一致性,我们引入了重新加权注意力评分指导(RASG)机制,将事后采样策略无缝集成到 DDIM 的一般形式中,以防止分布外的潜在变化。此外,HD-Painter 通过引入专门为修复而定制的超分辨率技术,可以扩展到更大的尺度,从而能够完成高达 2K 分辨率的图像中的缺失区域。我们的实验表明,HD-Painter 在定性和定量上都超越了现有的最先进方法,生成精度显着提高了 61.4% 与 51.9%。

3.Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis

标题:Fairy:快速并行指令引导视频到视频合成

作者:Bichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda

文章链接:https://arxiv.org/abs/2312.13834

项目代码:https://fairy-video2video.github.io/

摘要:

在本文中,我们介绍 Fairy,这是图像编辑扩散模型的简约而强大的改编,增强了它们的视频编辑应用程序。我们的方法以基于锚的跨帧注意力的概念为中心,这是一种隐式跨帧传播扩散特征的机制,确保卓越的时间一致性和高保真度合成。Fairy 不仅解决了以前模型的限制,包括内存和处理速度。它还通过独特的数据增强策略提高了时间一致性。该策略使模型与源图像和目标图像中的仿射变换等变。Fairy 效率极高,只需 14 秒即可生成 120 帧 512x384 视频(30 FPS 时长 4 秒),比之前的作品至少快 44 倍。一项涉及 1000 个生成样本的全面用户研究证实,我们的方法提供卓越的质量,明显优于现有方法。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每日学术速递12.6
作者:Jing Nathan Yan, Jiatao Gu, Alexander M. Rush
AiCharm
2023/12/06
2430
每日学术速递12.6
每日学术速递8.19
1.Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation
AiCharm
2023/09/06
2470
每日学术速递8.19
每日学术速递9.7
1.MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation
AiCharm
2023/09/08
2170
每日学术速递9.7
每日学术速递8.31
1.VideoCutLER: Surprisingly Simple Unsupervised Video Instance Segmentation
AiCharm
2023/09/06
2070
每日学术速递8.31
每日学术速递4.17
作者:Johanna Karras, Aleksander Holynski, Ting-Chun Wang, Ira Kemelmacher-Shlizerman
AiCharm
2023/05/15
3270
每日学术速递4.17
每日学术速递4.20
作者:Yuming Du, Robin Kips, Albert Pumarola, Sebastian Starke, Ali Thabet, Artsiom Sanakoyeu
AiCharm
2023/05/15
2750
每日学术速递4.20
每日学术速递1.4
1.NoPose-NeuS: Jointly Optimizing Camera Poses with Neural Implicit Surfaces for Multi-view Reconstruction
AiCharm
2024/01/04
1840
每日学术速递1.4
每日学术速递1.5
1.Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action
AiCharm
2024/01/05
2110
每日学术速递1.5
TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!
人类图像动画是指根据一系列动作控制信号,从静态的人类图像生成动态且逼真的视频。该领域由于其在电影制作、社交媒体和在线零售等多个行业的广泛应用而受到了广泛关注。尽管生成式人工智能迅速发展,但人类图像动画仍然具有挑战性,因为它需要对帧内连贯性和帧间一致性有全面的理解。
AIGC 先锋科技
2025/02/20
1380
TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!
每日学术速递8.14
1.3D Gaussian Splatting for Real-Time Radiance Field Rendering
AiCharm
2023/09/06
4160
每日学术速递8.14
每日学术速递10.17
1.MotionDirector: Motion Customization of Text-to-Video Diffusion Models
AiCharm
2023/10/24
1940
每日学术速递10.17
每日学术速递12.16
1.REDUCIO! Generating 1024×1024 Video within 16 Seconds using Extremely Compressed Motion Latents
AiCharm
2024/12/19
860
每日学术速递12.16
每日学术速递12.24
1.Paint-it: Text-to-Texture Synthesis via Deep Convolutional Texture Map Optimization and Physically-Based Rendering
AiCharm
2023/12/28
1740
每日学术速递12.24
CVPR 2025 高分论文 | 单图秒变3D真人!IDOL技术开启数字分身新时代
在虚拟现实、游戏以及 3D 内容创作领域,从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题:人体多样性、姿势复杂性、数据稀缺性等等。
机器之心
2025/03/24
1530
CVPR 2025 高分论文 | 单图秒变3D真人!IDOL技术开启数字分身新时代
每日学术速递2.10
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2025/02/12
1160
每日学术速递2.10
每日学术速递10.30
1.Detecting Pretraining Data from Large Language Models
AiCharm
2023/11/01
2530
每日学术速递10.30
每日学术速递4.28
1.StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos(CVPR 2023)
AiCharm
2023/05/16
1550
每日学术速递4.28
每日学术速递4.13(全新改版)
作者:Francesco Ballerini, Pierluigi Zama Ramirez, Roberto Mirabella, Samuele Salti, Luigi Di Stefano
AiCharm
2024/04/16
2430
每日学术速递4.13(全新改版)
每日学术速递9.18
作者:Chen Geng, Hong-Xing Yu, Sharon Zhang, Maneesh Agrawala, Jiajun Wu
AiCharm
2023/09/19
2160
每日学术速递9.18
必读!2018最具突破性计算机视觉论文Top 10
自从卷积神经网络在特定的图像识别任务上开始超越人类以来,计算机视觉领域的研究一直在飞速发展。
新智元
2019/03/07
7930
必读!2018最具突破性计算机视觉论文Top 10
相关推荐
每日学术速递12.6
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档