前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >黄仁勋提到的机器人世界,还需要AI数据来“调教” | CVPR 2024

黄仁勋提到的机器人世界,还需要AI数据来“调教” | CVPR 2024

作者头像
量子位
发布于 2024-06-19 05:47:20
发布于 2024-06-19 05:47:20
1520
举报
文章被收录于专栏:量子位量子位
允中 发自 凹非寺 量子位 | 公众号 QbitAI

本周,CVPR 2024正在美国西雅图拉开序幕。今年CVPR论文投稿数再次创下新纪录,可想而知本届会议的火热。

从研究主题来看,具身智能这一大热点值得关注。

黄仁勋在COMPUTEX大会开幕前夕的演讲中预言:AI的下一个浪潮将是物理AI

即那些理解物理定律的AI机器人,尤其是人形机器人最有可能适应人类所构建的世界。

但随之而来的问题是,这背后需要海量的数据支持,尤其是人形机器人更为明显。因为人形机器人面临的场景多样,而且这些场景的数据采集不容易。

甚至有业界人士认为,当前具身智能最大的瓶颈就是缺乏数据。

其实不止于机器人场景,无论是构建具有强逻辑的AI模型,还是训练像GPT-4这样的大语言模型,都离不开大规模、高质量的数据集。

例如,GPT-4的模型训练就动用了大约13万亿个tokens的数据集,这无疑是一个天文数字。

在这样的数据需求下,我们自然会思考:

如此庞大的训练数据究竟从何而来?

AI行业数据的瓶颈,何解?

基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展关键。

简单来说,在同等条件下,喂的数据越多,人工智能就越强。

海量、优质的数据争夺已经成为国家和企业间的无声战场。基于数字技术形成的通用数据、优质数据垄断,可能将成为这场数字拓荒当中,后发者无法逾越的天堑。在一定程度上可以说,掌握数据,就掌握了包括人工智能等众多未来产业的主导权。

但是从真实世界获取数据是一件困难重重的事。

Google在RT-1项目中的经历就是一个例证,在雄厚的资金和科研资源支持下,Google团队历时17个月,仅收集到13万条覆盖700多个任务的机器人数据,这些数据的泛化能力远未达到预期。

由此可见,获取真实数据难度大、耗时长、成本高,同时还存在现实世界数据采集在隐私合规和数据安全方面的挑战,难以满足人工智能大模型训练的需求,当前,“百模大战”如火如荼,头部企业竞相投身人工智能赛道,但有效数据不足,特别是高质量数据短缺,部分领域封闭式的数据生态给人工智能发展带来了掣肘。如何解决“数据瓶颈”是未来一段时期我们即将面临——或已经面临的挑战。

如何应对挑战,目前一家利用计算机技术生成数据的服务商非常值得关注,它是群核科技(酷家乐)创新实验室Koolab孵化出的Coohom Cloud

群核科技是国内最大的空间设计软件平台,Coohom Cloud利用其庞大的室内数据资源,结合高性能的渲染引擎和先进的数据处理技术,为AI行业“投喂”逼真且物理真实的2D、3D室内数据集等产品和服务。

群核科技平台每天会生成40万+3D设计方案,并沉淀了约3.6亿个3D模型数据,涵盖家具、电器、生活用品等,在此基础上,群核科技与包括英国帝国理工大学、美国南加州大学浙江大学等高校联手推出了多种数据集,为室内环境理解,3D重构,机器人交互等研究提供的强大数据基础。

在2D图片渲染技术上,Coohom Cloud利用自研渲染引擎,在多样化的室内场景中,通过调整相机参数、行径轨迹、灯光条件等设置进行图片数据的采集,最终生成RGB、深度、语义、法向、点云等格式的2D数据集。这样的数据输出能力,使得Coohom Cloud每天能够产出30万组2D数据集,为AI智能体的导航、视觉感知、环境理解等能力提供了充足的训练素材。

群核科技怎么解?低成本+高质量

成本更低是数据获取必须要的优点,包括获取成本和经济成本,不少企业都在大量烧钱试图通过海量数据来满足AI模型训练需求,高额的投入和预期的不确定性,让资金的持续投入陷入困境。

为了提供更高性价比的数据服务方案,Coohom Cloud通过自研数据引擎,这是一套专为挖掘数据转化而设计的高效工具,可以高效的将设计平台沉淀数据库转化为AI训练的燃料。它不仅能够定制化输出针对不同行业所需要的数据集,还能实现室内场景的数字化生成,与NVIDIA Isaac Sim、Unreal Engine、Blender等专业仿真器和渲染引擎无缝对接。

所有流程全部利用计算机技术实现,用户对于数据的使用会更加便捷和直观,无需再耗费大量人力物力去采集获取数据,从而可以将更多的重心放在模型调优上。

当然,数据想要投入商用,除了数据量、成本优势以外,更需要保证的是高质量,这将决定数据产业的未来发展面有多大。

在这一点上,Coohom Cloud是怎么考虑的呢?

1、物理性质增强

在人形机器人的发展道路上,环境交互能力是其智能化的关键。比如自如开关门、精准取放物体、甚至叠放衣物等。

以NVIDIA Isaac Sim仿真平台项目为例,通过创建一个包含物理属性的逼真3D环境,让机器人能够在虚拟世界中学习如何与物体互动、预测物理事件,甚至在虚拟世界中进行探索和导航。在这样的虚拟环境中,机器人可以进行无数次的交互测试,无需担心物理损伤或环境限制,从而大幅降低了训练成本,同时提高了训练的安全性和可重复性。

Coohom Cloud正是基于这样的理念,利用Isaac Sim,Unreal Engine等为代表的的仿真平台,为机器人训练提供了定制化的场景和交互模型。这些数据不仅在视觉上逼真,更重要的是,它们具备真实的物理属性——铰链、滑轨等组件可以进行旋转和平移,同时模型还拥有真实的密度、摩擦力和弹性等物理状态信息。这使得机器人能够在物理真实的虚拟环境下,以极低的成本获取大量的训练数据,测试并优化其性能。

2、场景环境增强

在AI的世界里,光线就像是那个决定成败的细节,特别是在视觉感知任务中,光线条件对AI的识别和分析能力起着至关重要的作用。

拿上文提到的InteriorNet来说,这一大规模多传感器真实感室内场景数据集,通过提供不同光照环境下的高真实感渲染图像,展示了环境增强与多样化在提升AI性能方面的重要性。服务类机器人在面对室内外光线变化时,可能会遇到识别障碍,因此,拥有一个涵盖广泛光照条件的数据集对于训练AI以适应各种环境至关重要。

Coohom Cloud为虚拟室内场景中的每个灯源设定详细参数,实现个性化的灯光环境控制,让机器人在不同的光照环境下都能“看”得清清楚楚,学得明明白白。

除了光照条件的多样性,Coohom Cloud还通过Domain Randomization技术,进一步增强了场景环境的复杂性,就像是给机器人的训练场来了一场“大变身”。这项功能能够根据不同的训练需求,灵活切换模型的表面材质,比如将大理石地面替换为木质地板,调整不同反射效果,从而在虚拟环境中模拟出真实世界的多样性和复杂性。让机器人的训练更加贴近现实,增强了它的适应性和泛化能力。

3、高效标注系统

AI领域中的数据标注是模型性能的关键因素,但传统的人工标注方式劳动密集且耗时。

Coohom Cloud利用先进的合成数据生成技术,可以根据研究者需求定制化分割和标注数据。例如,处理卧室场景的3D模型时,系统能细分为床、枕头、毛毯等基础要素,并生成精准语义标签,提高数据准确性并满足需求,从而提升模型认知精度。这种方式不仅减少了人工标注工作量,也使研究者能更专注于模型创新和优化,提高数据处理效率,为AI技术发展注入新活力。

此外,在隐私、安全法规等问题上,Coohom Cloud采取的合成数据安全策略亦可以避免接触任何真实用户数据,安全审核机制用于检查数据是否合规,并针对交付使用的数据进行相关授权管理,从而确保数据的安全使用。在生态链上,Coohom Cloud也串联了优秀的设计者和研究者,针对AI需求,开发更高效的工具来促进设计生态向AI前沿融合。

产业级应用时刻,正在到来

不论是诸多机构的预测数据,还是资本机构的”投注“,亦或是产业侧的实际应用,都可以看出数据服务已经从科研场景逐步走向市场化。也有越来越多玩家选择加入。

不过在人工智能领域,数据的质量和应用的实际效果比盲目堆砌更为关键。那么,Coohom Cloud的海量室内数据集是如何落地到不同的行业场景中的呢?

2022年底,群核科技KooLab与英特尔实验室、西班牙计算机视觉中心以及慕尼黑工业大学共同打磨的SPEAR智能仿真平台,面向开发者全面开放,帮助开发人员加快对不同智能机器人的训练和验证。

在整个项目中,Coohom Cloud团队提供超300个场景、超17000个模型,为仿真器的研究提供了数据上的神助攻,让研究者能便捷的在虚拟环境中测试机器人性能。

英特尔首席科学家Mike Roberts赞叹Coohom Cloud的高质量数据:

不仅加速了具身智能研究,还为仿真器项目的落地提供了全方位的数据保障。

再以清洁机器人产品为例,在室内为主的业务场景下,积累边缘场景数据需要大量时间,这会直接影响到C端用户的产品体验,因此解决机器人场景边缘场景问题成了产品提高竞争力的关键。

清洁机器人的边缘场景主要包含一些难以收集的宠物粪便,果壳碎屑等障碍物,特殊狭窄的过道、高反光的地板玻璃以及强暗光环境下的数据等,以前为了采集数据,厂家得组建个数十人团队,耗时数月,还得外包给第三方,整个过程繁琐又烧钱,数据质量还不一定达标。

Coohom Cloud的方案,让企业从模型素材到语义标注,再到数据结构处理全流程把控,为用户关注的边缘场景,专门打造特殊的室内虚拟环境,并通过调整光照参数,实现场景多样性衍生,在45个工作日即生成了数万组高质量的3D模型数据集和百万组精细化图片数据,数据交付即可用,帮助企业大幅减少数据侧投入,提高AI项目进度。

当AI大模型和人形机器人成为科技界的热议话题,数据已然成为了这个时代的核心资产。Coohom Cloud正以其强大的数据生成技术,为AI的多样化应用需求提供支撑,推动行业向更广泛的智能化发展迈进。

One More Thing

我们期待着Coohom Cloud在未来能够持续深化其技术,不断探索新的领域。

而就在6月17日至6月21日,Coohom Cloud团队将在西雅图举办的2024年CVPR会议上,展位号1637,展示他们的最新成果。如果你对数据服务充满兴趣,不如亲临现场与Coohom Cloud团队深入交流,共同见证AI数据服务的未来。

*本文系量子位获授权刊载,观点仅为作者所有。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
「源神」稚晖君又双叒叕开源,这一次机器人直接进入人类生活!
近期开源的 Deepseek V3,让国产 MoE 大模型在全球圈粉无数,一跃成为中国 AI 圈的顶流担当。
计算机视觉研究院
2024/12/31
1170
「源神」稚晖君又双叒叕开源,这一次机器人直接进入人类生活!
NaVILA:用于足式机器人导航的VLA模型
论文地址:https://navila-bot.github.io/static/navila_paper.pdf
一点人工一点智能
2024/12/27
2690
NaVILA:用于足式机器人导航的VLA模型
前特斯拉Optimus科学家跳槽HF,直接开源了一个机器人代码库
今年 3 月,以构建大型开源社区而闻名的 AI 初创公司 Hugging Face,挖角前特斯拉科学家 Remi Cadene 来领导一个新的开源机器人项目 ——LeRobot,引起了轰动。
机器之心
2024/05/14
3840
前特斯拉Optimus科学家跳槽HF,直接开源了一个机器人代码库
被谷歌点名感谢!杭州六小龙开源黑科技,让机器人瞬间「悟透」3D世界
2025年,谷歌与斯坦福联合发表的FirePlace论文中,这项研究首次让AI学会像人类一样「布置房间」:沙发不悬空、台灯必放桌面、书架与墙保持合理间距。而实现这一切的背后,也有来自一家中国公司的技术贡献。
新智元
2025/03/20
1200
被谷歌点名感谢!杭州六小龙开源黑科技,让机器人瞬间「悟透」3D世界
VR-Robo:视觉机器人导航和运动的Real-Sim-Real框架
地址:https://mp.weixin.qq.com/s/Mlik8mEHYSb2XmJXqXlKNQ
一点人工一点智能
2025/02/17
1450
VR-Robo:视觉机器人导航和运动的Real-Sim-Real框架
真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!
他先是向全世界展示了搭载Blackwell新架构的新一代卡皇RTX 5090,然后介绍了英伟达对于人形机器人发展的期盼和投入,并以令人印象深刻的画面结尾——
新智元
2025/02/15
2600
真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!
机器人安卓时刻!行业首个通用具身智能平台亮相,国家队全程真机直播
目前,大部分机器人主要是基于特定机型、特定场景、特定任务进行固定程序的开发,机器人的智能化仍处于初级阶段。
新智元
2025/03/18
890
机器人安卓时刻!行业首个通用具身智能平台亮相,国家队全程真机直播
Meta重磅更新,小扎在元宇宙里养了会做家务的狗!人形化身超逼真,AI智能体在真实物理世界和人互动
Meta宣布推出Habitat 3.0,目的是开发出社会化的AI智能体,这意味着社交智能机器人已经进入新的里程碑阶段。
新智元
2023/10/25
2580
Meta重磅更新,小扎在元宇宙里养了会做家务的狗!人形化身超逼真,AI智能体在真实物理世界和人互动
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
在复杂的3D结构组装中,理解和执行说明书是一个多层次的挑战:从高层的任务规划,到中层的视觉对应,再到底层的动作执行,每一步都需要精确的空间理解能力。
新智元
2025/02/15
1340
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
「杭州六小龙」首个IPO,群核科技递表港交所,空间智能赛道开启资本化元年
当 AI 正从二维世界迈向三维空间,一场智能形态的范式转换正在发生。这不仅是计算架构的革新,更是智能形态从 “在计算机里思考世界” 到 “作为物理实体认知世界” 的根本转变。
机器之心
2025/02/19
950
「杭州六小龙」首个IPO,群核科技递表港交所,空间智能赛道开启资本化元年
第七章 AI数据质量-4
3D渲染引擎生成AI训练数据是一种利用计算机图形学技术生成大量高质量、多样化的训练数据集的方法。适用的场景包括但不限于:
bettermanlu
2025/04/15
2370
第七章 AI数据质量-4
具身智能,究竟还缺什么?
本期AGI路线图中关键节点:Figure 02、Optimus Gen-2、宇树G1、傅利叶GR-2、众擎SE01、BVS、WonderWorld、ReKep、DrEureka、DeepMind足球机器人、腾讯「小五」、达芬奇AI机器人、Project GR00T、LeRobot。
小腾资讯君
2024/11/14
3170
一文全面了解目前具身智能的核心内容和未来发展
文章:Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
点云PCL博主
2025/02/03
8700
一文全面了解目前具身智能的核心内容和未来发展
《探索具身智能机器人视觉-运动映射模型的创新训练路径》
视觉 - 运动映射模型作为实现智能交互与精准行动的核心,吸引着全球科研人员与技术爱好者的目光。这一模型就像机器人的 “神经中枢”,连接着视觉感知与肢体运动,使机器人能够在复杂的现实环境中灵活应对各种任务。
程序员阿伟
2025/05/20
1260
《探索具身智能机器人视觉-运动映射模型的创新训练路径》
成立7年,这家AI独角兽造出机器人元宇宙「海元世界」
---- 新智元报道   编辑:桃子 qq 【新智元导读】近日,达闼GDC全球开发者大会悄然落地。这不,机器人元宇宙来了! 纵观人类科技发展历程,每一次重大变革的拐点,往往都始于一个新生态的确立。 从PC时代的「Wintel联盟」,到智能手机时代的安卓和苹果,每一代的技术浪潮的兴盛与衰落,都是从硬件到软件,从产品到服务,围绕一个或数个核心生态,无数厂商共同协作形成的合力。 生态存,则产业兴。 这也正是智能机器人行业当下最大的机遇与挑战所在。 一个充满无限可能的机器人时代,即将扑面而来,这已成为共识;
新智元
2022/04/08
6400
成立7年,这家AI独角兽造出机器人元宇宙「海元世界」
世界模型挑战赛,单项奖金10000美元!英伟达全新分词器助力下一帧预测
去年3月,挪威人形机器人公司1X拿到了OpenAI领投的2350万美元,今年初又完成了1亿美元的B轮融资。
新智元
2025/02/15
770
世界模型挑战赛,单项奖金10000美元!英伟达全新分词器助力下一帧预测
黄仁勋圈重点的世界模型平台是个啥?技术报告全解析,华人贡献中坚力量
AI 的下一个前沿是物理。在昨天的 CES 发布会上,英伟达 CEO 黄仁勋通过一个名为「Cosmos」的平台点明了这一主题。
机器之心
2025/02/03
1360
黄仁勋圈重点的世界模型平台是个啥?技术报告全解析,华人贡献中坚力量
NVIDIA 发布Isaac Sim 5.0与Isaac Lab 2.2:推动机器人开发的革命性升级
在2025年台北国际电脑展(COMPUTEX)上,NVIDIA 宣布对其机器人仿真应用程序Isaac Sim 和机器人学习框架Isaac Lab进行重大升级,旨在加速全形态机器人的开发进程。作为构建物理智能(Physical AI)的核心工具链,本次更新围绕传感器物理仿真增强、系统开放性与定制化、合成数据生成能力扩展及模型基准测试体系四大维度展开,为工业自动化、服务机器人、人形机器人等领域提供了从仿真设计到模型训练的全流程优化方案。
GPUS Lady
2025/05/21
3850
NVIDIA 发布Isaac Sim 5.0与Isaac Lab 2.2:推动机器人开发的革命性升级
智元机器人发布并开源首个机器人动作序列驱动的世界模型
近日,智元机器人重磅发布具身智能领域双重里程碑式突破:全球首个基于机器人动作序列驱动的具身世界模型 EVAC (EnerVerse-AC),以及具身世界模型评测基准 EWMBench。这两大创新成果现已全面开源,旨在构建“低成本模拟 - 标准化评测 - 高效迭代”的全新开发范式,持续赋能全球具身智能研究,加速技术落地与产业发展。
深度学习与Python
2025/05/25
1660
智元机器人发布并开源首个机器人动作序列驱动的世界模型
专访 OmniH2O 项目发起人何泰然:探索人形机器人遥操作通向具身智能的可行之路
在谈到人形机器人遥操作的可行路径时,何泰然表示他既可以实现机器人的全身控制,还可以用强化学习来实现这一点。在他所探索的这条路上,不必因为技术瓶颈或短期目标而妥协,可以“既要又要”。
AI科技评论
2024/07/05
8570
专访 OmniH2O 项目发起人何泰然:探索人形机器人遥操作通向具身智能的可行之路
推荐阅读
「源神」稚晖君又双叒叕开源,这一次机器人直接进入人类生活!
1170
NaVILA:用于足式机器人导航的VLA模型
2690
前特斯拉Optimus科学家跳槽HF,直接开源了一个机器人代码库
3840
被谷歌点名感谢!杭州六小龙开源黑科技,让机器人瞬间「悟透」3D世界
1200
VR-Robo:视觉机器人导航和运动的Real-Sim-Real框架
1450
真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!
2600
机器人安卓时刻!行业首个通用具身智能平台亮相,国家队全程真机直播
890
Meta重磅更新,小扎在元宇宙里养了会做家务的狗!人形化身超逼真,AI智能体在真实物理世界和人互动
2580
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
1340
「杭州六小龙」首个IPO,群核科技递表港交所,空间智能赛道开启资本化元年
950
第七章 AI数据质量-4
2370
具身智能,究竟还缺什么?
3170
一文全面了解目前具身智能的核心内容和未来发展
8700
《探索具身智能机器人视觉-运动映射模型的创新训练路径》
1260
成立7年,这家AI独角兽造出机器人元宇宙「海元世界」
6400
世界模型挑战赛,单项奖金10000美元!英伟达全新分词器助力下一帧预测
770
黄仁勋圈重点的世界模型平台是个啥?技术报告全解析,华人贡献中坚力量
1360
NVIDIA 发布Isaac Sim 5.0与Isaac Lab 2.2:推动机器人开发的革命性升级
3850
智元机器人发布并开源首个机器人动作序列驱动的世界模型
1660
专访 OmniH2O 项目发起人何泰然:探索人形机器人遥操作通向具身智能的可行之路
8570
相关推荐
「源神」稚晖君又双叒叕开源,这一次机器人直接进入人类生活!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档