三维生成相关
Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation
https://arxiv.org/abs/2306.17115
上海科技大学、腾讯、复旦大学等
一种新的生成前对齐的方法,用来解决通过2D图像或文本生成3D shape的问题。
One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization
https://arxiv.org/abs/2306.16928
UCSD,UCLA,康奈尔大学,浙江大学,印度理工学院,Adobe
使用一张任意物体的单图作为输入,在一个feed-forward pass里输出360度的3D带纹理mesh。
相机运动与姿态估计
ID-Pose: Sparse-view Camera Pose Estimation by Inverting Diffusion Models
https://arxiv.org/abs/2306.17140
腾讯ARC Lab
ID-Pose,使用Zero-1-to-3的预训练模型,通过diffusion的逆过程,预测两个输入图片之间的相对姿态。
The Drunkard's Odometry: Estimating Camera Motion in Deforming Scenes
https://arxiv.org/abs/2306.16917
University of Zaragoza, ETH, University of Amsterdam, 微软
提出一个Drunkard数据集,一个面向视觉导航和可变形环境下重建的数据集。并提出Drunkard's Odometry,将光流估计分解为相机运动和非刚性场景变形的方法,用于可变形场景下的相机运动估计问题研究。
自动驾驶
https://arxiv.org/abs/2306.16927
UCSD,上海AI Lab, University ofTübingen,上海交通大学
定义端到端的自动驾驶系统为完全可分割的部分,使用原始传感器数据作为输入输出一个计算或low-level控制动作作为输出。本文提供了相应的技术综述。
今日更新结束
Jason陪你练绝技B站更新地址:https://space.bilibili.com/455056488
NeRF相关工作整理Github repo:https://github.com/yangjiheng/nerf_and_beyond_docs
领取专属 10元无门槛券
私享最新 技术干货