点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained Networks
标题:SpawnNet:从预训练网络学习通用视觉运动技能
作者:Xingyu Lin, John So, Sashwat Mahalingam, Fangchen Liu, Pieter Abbeel
文章链接:https://arxiv.org/abs/2307.03567
项目代码:https://xingyu-lin.github.io/spawnnet/
摘要:
现有的互联网规模的图像和视频数据集涵盖了广泛的日常对象和任务,带来了具有广泛泛化性的学习策略的潜力。先前的工作已经探索了具有不同自我监督目标的视觉预训练,但所学习策略的泛化能力仍然相对未知。在这项工作中,我们迈出了应对这一挑战的第一步,重点关注预训练的表示如何帮助学习策略的泛化。我们首先确定使用冻结的预训练视觉主干进行策略学习的关键瓶颈。然后,我们提出了 SpawnNet,这是一种新颖的双流架构,它学习将预先训练的多层表示融合到一个单独的网络中,以学习稳健的策略。通过广泛的模拟和真实实验,我们证明了与模仿学习环境中的现有方法相比明显更好的分类概括。
2.AutoDecoding Latent 3D Diffusion Models
标题:自动解码潜在 3D 扩散模型
作者:Evangelos Ntavelis, Aliaksandr Siarohin, Kyle Olszewski, Chaoyang Wang, Luc Van Gool, Sergey Tulyakov
文章链接:https://arxiv.org/abs/2307.05445
项目代码:https://snap-research.github.io/3DVADER/
摘要:
我们提出了一种以 3D 自动解码器为核心的静态和铰接 3D 资产生成的新颖方法。3D 自动解码器框架将从目标数据集学习到的属性嵌入到潜在空间中,然后可以将其解码为体积表示,以渲染视图一致的外观和几何形状。然后,我们确定适当的中间体积潜在空间,并引入强大的归一化和反归一化操作,以从刚性或铰接物体的 2D 图像或单眼视频中学习 3D 扩散。我们的方法足够灵活,可以使用现有的摄像机监督或根本不使用摄像机信息,而是在训练期间有效地学习它。我们的评估表明,我们的生成结果在各种基准数据集和指标上都优于最先进的替代方案,包括合成对象的多视图图像数据集、移动人物的真实野外视频以及大规模、静态对象的真实视频数据集。
Subjects: cs.LG
3.Self-Supervised Learning with Lie Symmetries for Partial Differential Equations
标题:偏微分方程的李对称性自监督学习
作者:Grégoire Mialon, Quentin Garrido, Hannah Lawrence, Danyal Rehman, Yann LeCun, Bobak T. Kiani
文章链接:https://arxiv.org/abs/2307.05432
摘要:
微分方程的机器学习为数值求解器的计算高效替代方案铺平了道路,对科学和工程具有潜在的广泛影响。尽管当前的算法通常需要针对给定设置定制的模拟训练数据,但人们可能希望从异构源或从混乱或不完整的真实动态系统观察中学习有用的信息。在这项工作中,我们通过实施自监督学习(SSL)的联合嵌入方法从异构数据中学习偏微分方程的通用表示,SSL是一种无监督表示学习框架,在计算机视觉领域取得了显着的成功。我们的表示优于不变任务的基线方法,例如回归偏微分方程的系数,同时还提高了神经求解器的时间步进性能。我们希望我们提出的方法将在偏微分方程通用基础模型的最终开发中发挥作用。
CVPR 2023 | 南洋理工、商汤提出E3DGE:2D图片秒出3D形象
点击卡片,关注「AiCharm」公众号
喜欢的话,请给我个在看吧!