计算机视觉社区一直渴望找到一种方法,让计算机和人类都能够理解室内场景的复杂性。通过交互式模拟环境创建了没有真实标签的逼真合成数据集,推动了对这些环境的整体理解的快速进展。
但是现有的合成数据集和模拟器存在局限性,因此无法满足要求。这些限制包括:
Apple 研究人员开发了“ Hypersim”,这是一种用于整体室内场景理解的逼真合成数据集,解决了上述所有限制。
为了创建“ Hypersim ”数据集,苹果研究人员使用了由专业艺术家创建的大型合成场景存储库。生成了 461 个室内场景的 77,400 张图像,带有详细的每像素标签和相应的地面实况几何。
Hypersim 是一个数据集,可以提供具有高分辨率纹理和动态照明的逼真 3D 场景。Hypersim 数据库除了对所有图像进行密集的每像素语义实例分割外,还包括每个图像的完整场景几何、材料信息和照明信息。这些功能使 Hypersim 数据集成为任何需要直接 3D 监督的几何学习问题以及涉及对多个输入和输出模式进行推理的多任务问题的绝佳选择。
研究人员分析了各种不同级别的“Hypersim”数据集。从头开始生成整个数据集是可能的,其成本约为训练高级自然语言处理模型成本的一半。