黄仁勋提到的机器人世界，还需要AI数据来“调教” | CVPR 2024

量子位

发布于 2024-06-19 13:47:20

3150

文章被收录于专栏：量子位量子位

允中发自凹非寺量子位 | 公众号 QbitAI

本周，CVPR 2024正在美国西雅图拉开序幕。今年CVPR论文投稿数再次创下新纪录，可想而知本届会议的火热。

从研究主题来看，具身智能这一大热点值得关注。

黄仁勋在COMPUTEX大会开幕前夕的演讲中预言：AI的下一个浪潮将是物理AI。

即那些理解物理定律的AI机器人，尤其是人形机器人最有可能适应人类所构建的世界。

但随之而来的问题是，这背后需要海量的数据支持，尤其是人形机器人更为明显。因为人形机器人面临的场景多样，而且这些场景的数据采集不容易。

甚至有业界人士认为，当前具身智能最大的瓶颈就是缺乏数据。

其实不止于机器人场景，无论是构建具有强逻辑的AI模型，还是训练像GPT-4这样的大语言模型，都离不开大规模、高质量的数据集。

例如，GPT-4的模型训练就动用了大约13万亿个tokens的数据集，这无疑是一个天文数字。

在这样的数据需求下，我们自然会思考：

如此庞大的训练数据究竟从何而来？

AI行业数据的瓶颈，何解？

基于庞大数据和超高算力的“暴力美学”，是当前生成式人工智能的核心打法，也是以OpenAI为代表的一众企业的发展关键。

简单来说，在同等条件下，喂的数据越多，人工智能就越强。

海量、优质的数据争夺已经成为国家和企业间的无声战场。基于数字技术形成的通用数据、优质数据垄断，可能将成为这场数字拓荒当中，后发者无法逾越的天堑。在一定程度上可以说，掌握数据，就掌握了包括人工智能等众多未来产业的主导权。

但是从真实世界获取数据是一件困难重重的事。

Google在RT-1项目中的经历就是一个例证，在雄厚的资金和科研资源支持下，Google团队历时17个月，仅收集到13万条覆盖700多个任务的机器人数据，这些数据的泛化能力远未达到预期。

由此可见，获取真实数据难度大、耗时长、成本高，同时还存在现实世界数据采集在隐私合规和数据安全方面的挑战，难以满足人工智能大模型训练的需求，当前，“百模大战”如火如荼，头部企业竞相投身人工智能赛道，但有效数据不足，特别是高质量数据短缺，部分领域封闭式的数据生态给人工智能发展带来了掣肘。如何解决“数据瓶颈”是未来一段时期我们即将面临——或已经面临的挑战。

如何应对挑战，目前一家利用计算机技术生成数据的服务商非常值得关注，它是群核科技（酷家乐）创新实验室Koolab孵化出的Coohom Cloud。

群核科技是国内最大的空间设计软件平台，Coohom Cloud利用其庞大的室内数据资源，结合高性能的渲染引擎和先进的数据处理技术，为AI行业“投喂”逼真且物理真实的2D、3D室内数据集等产品和服务。

群核科技平台每天会生成40万+3D设计方案，并沉淀了约3.6亿个3D模型数据，涵盖家具、电器、生活用品等，在此基础上，群核科技与包括英国帝国理工大学、美国南加州大学浙江大学等高校联手推出了多种数据集，为室内环境理解，3D重构，机器人交互等研究提供的强大数据基础。

在2D图片渲染技术上，Coohom Cloud利用自研渲染引擎，在多样化的室内场景中，通过调整相机参数、行径轨迹、灯光条件等设置进行图片数据的采集，最终生成RGB、深度、语义、法向、点云等格式的2D数据集。这样的数据输出能力，使得Coohom Cloud每天能够产出30万组2D数据集，为AI智能体的导航、视觉感知、环境理解等能力提供了充足的训练素材。

群核科技怎么解？低成本+高质量

成本更低是数据获取必须要的优点，包括获取成本和经济成本，不少企业都在大量烧钱试图通过海量数据来满足AI模型训练需求，高额的投入和预期的不确定性，让资金的持续投入陷入困境。

为了提供更高性价比的数据服务方案，Coohom Cloud通过自研数据引擎，这是一套专为挖掘数据转化而设计的高效工具，可以高效的将设计平台沉淀数据库转化为AI训练的燃料。它不仅能够定制化输出针对不同行业所需要的数据集，还能实现室内场景的数字化生成，与NVIDIA Isaac Sim、Unreal Engine、Blender等专业仿真器和渲染引擎无缝对接。

所有流程全部利用计算机技术实现，用户对于数据的使用会更加便捷和直观，无需再耗费大量人力物力去采集获取数据，从而可以将更多的重心放在模型调优上。

当然，数据想要投入商用，除了数据量、成本优势以外，更需要保证的是高质量，这将决定数据产业的未来发展面有多大。

在这一点上，Coohom Cloud是怎么考虑的呢？

1、物理性质增强

在人形机器人的发展道路上，环境交互能力是其智能化的关键。比如自如开关门、精准取放物体、甚至叠放衣物等。

以NVIDIA Isaac Sim仿真平台项目为例，通过创建一个包含物理属性的逼真3D环境，让机器人能够在虚拟世界中学习如何与物体互动、预测物理事件，甚至在虚拟世界中进行探索和导航。在这样的虚拟环境中，机器人可以进行无数次的交互测试，无需担心物理损伤或环境限制，从而大幅降低了训练成本，同时提高了训练的安全性和可重复性。

Coohom Cloud正是基于这样的理念，利用Isaac Sim，Unreal Engine等为代表的的仿真平台，为机器人训练提供了定制化的场景和交互模型。这些数据不仅在视觉上逼真，更重要的是，它们具备真实的物理属性——铰链、滑轨等组件可以进行旋转和平移，同时模型还拥有真实的密度、摩擦力和弹性等物理状态信息。这使得机器人能够在物理真实的虚拟环境下，以极低的成本获取大量的训练数据，测试并优化其性能。

2、场景环境增强

在AI的世界里，光线就像是那个决定成败的细节，特别是在视觉感知任务中，光线条件对AI的识别和分析能力起着至关重要的作用。

拿上文提到的InteriorNet来说，这一大规模多传感器真实感室内场景数据集，通过提供不同光照环境下的高真实感渲染图像，展示了环境增强与多样化在提升AI性能方面的重要性。服务类机器人在面对室内外光线变化时，可能会遇到识别障碍，因此，拥有一个涵盖广泛光照条件的数据集对于训练AI以适应各种环境至关重要。

Coohom Cloud为虚拟室内场景中的每个灯源设定详细参数，实现个性化的灯光环境控制，让机器人在不同的光照环境下都能“看”得清清楚楚，学得明明白白。

除了光照条件的多样性，Coohom Cloud还通过Domain Randomization技术，进一步增强了场景环境的复杂性，就像是给机器人的训练场来了一场“大变身”。这项功能能够根据不同的训练需求，灵活切换模型的表面材质，比如将大理石地面替换为木质地板，调整不同反射效果，从而在虚拟环境中模拟出真实世界的多样性和复杂性。让机器人的训练更加贴近现实，增强了它的适应性和泛化能力。

3、高效标注系统

AI领域中的数据标注是模型性能的关键因素，但传统的人工标注方式劳动密集且耗时。

Coohom Cloud利用先进的合成数据生成技术，可以根据研究者需求定制化分割和标注数据。例如，处理卧室场景的3D模型时，系统能细分为床、枕头、毛毯等基础要素，并生成精准语义标签，提高数据准确性并满足需求，从而提升模型认知精度。这种方式不仅减少了人工标注工作量，也使研究者能更专注于模型创新和优化，提高数据处理效率，为AI技术发展注入新活力。

此外，在隐私、安全法规等问题上，Coohom Cloud采取的合成数据安全策略亦可以避免接触任何真实用户数据，安全审核机制用于检查数据是否合规，并针对交付使用的数据进行相关授权管理，从而确保数据的安全使用。在生态链上，Coohom Cloud也串联了优秀的设计者和研究者，针对AI需求，开发更高效的工具来促进设计生态向AI前沿融合。

产业级应用时刻，正在到来

不论是诸多机构的预测数据，还是资本机构的”投注“，亦或是产业侧的实际应用，都可以看出数据服务已经从科研场景逐步走向市场化。也有越来越多玩家选择加入。

不过在人工智能领域，数据的质量和应用的实际效果比盲目堆砌更为关键。那么，Coohom Cloud的海量室内数据集是如何落地到不同的行业场景中的呢？

2022年底，群核科技KooLab与英特尔实验室、西班牙计算机视觉中心以及慕尼黑工业大学共同打磨的SPEAR智能仿真平台，面向开发者全面开放，帮助开发人员加快对不同智能机器人的训练和验证。

在整个项目中，Coohom Cloud团队提供超300个场景、超17000个模型，为仿真器的研究提供了数据上的神助攻，让研究者能便捷的在虚拟环境中测试机器人性能。

英特尔首席科学家Mike Roberts赞叹Coohom Cloud的高质量数据：

不仅加速了具身智能研究，还为仿真器项目的落地提供了全方位的数据保障。

再以清洁机器人产品为例，在室内为主的业务场景下，积累边缘场景数据需要大量时间，这会直接影响到C端用户的产品体验，因此解决机器人场景边缘场景问题成了产品提高竞争力的关键。

清洁机器人的边缘场景主要包含一些难以收集的宠物粪便，果壳碎屑等障碍物，特殊狭窄的过道、高反光的地板玻璃以及强暗光环境下的数据等，以前为了采集数据，厂家得组建个数十人团队，耗时数月，还得外包给第三方，整个过程繁琐又烧钱，数据质量还不一定达标。

Coohom Cloud的方案，让企业从模型素材到语义标注，再到数据结构处理全流程把控，为用户关注的边缘场景，专门打造特殊的室内虚拟环境，并通过调整光照参数，实现场景多样性衍生，在45个工作日即生成了数万组高质量的3D模型数据集和百万组精细化图片数据，数据交付即可用，帮助企业大幅减少数据侧投入，提高AI项目进度。