Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >身手不凡的机器人,开源项目汇总

身手不凡的机器人,开源项目汇总

作者头像
CV君
发布于 2024-07-12 08:46:45
发布于 2024-07-12 08:46:45
9520
举报

最初,因隋炀帝思念心切,命工匠按照柳抃的形象制作了木偶机器人,被认为是历史上最早的机器人之一。这些木偶机器人通过精巧设计的机关,能够执行坐、起、拜、伏等动作。

如今,随着科技的发展,机器人已经广泛应用于医疗、军事、教育、服务等各个领域,为人类提供更安全、更便捷、更高效的服务。

因此,本文整理了一些机器人相关的开源数据集、模型和项目,旨在帮助研究人员更好地开展相关领域的工作。

LeRobot

LeRobot 是由 Hugging Face 开源的一个机器人代码库,提供模型、数据集和工具。它通过预训练模型、数据集和模拟来拉低机器人入门门槛。

核心特点:

  • 开源:与各方合作创建一个庞大的众包机器人数据集,增强了开发复杂人工智能驱动机器人的资源。
  • 多功能:一个用于共享、可视化数据和训练最先进模型(SOTA)的库。用户可以访问大量预训练模型,快速启动项目。
  • 兼容性高:兼容各种机器人硬件,从简单的机械臂到复杂的类人机器人。

推人表示 Hugging Face 这一举动将削弱大型人工智能技术公司的垄断地位,加速人工智能机器人技术的创新!!!

  • Github:https://github.com/huggingface/lerobot
  • Huggingface:https://huggingface.co/lerobot

RoboFlamingo

RoboFlamingo 是机器人领域首个开源的视觉-语言操作大模型,由 ByteDance 团队开发。通过简单的微调,即可使 RoboFlamingo 适应基于语言的机器人操作任务。此外,它能够通过开环控制实现实时响应,并且可以灵活部署在性能较低的平台上。

  • 论文链接:https://arxiv.org/abs/2311.01378
  • 项目链接:https://roboflamingo.github.io/

Open X-Embodiment

Open X-Embodiment 数据集是迄今为止最大的开源真实机器人数据集,由全球 34 个机器人研究实验室提供的 60 个现有机器人数据集构建而成。该数据集包含超过 1 百万条真实机器人轨迹,涵盖了 22 种不同的机器人具身,从单臂机器人到双手臂机器人和四足机器人。

  • 论文链接:https://arxiv.org/abs/2310.08864
  • 项目链接:https://robotics-transformer-x.github.io/

RoboAgent

由 CMU 和 Meta AI 共同开发的通用的 RoboAgent,仅在 7500 条轨迹数据上进行训练,就能在 38 个任务中展示 12 种多样的操作技能,且不限于拾取 / 推动,还包括关节对象操纵和物体重新定位,以及能将这些技能推广应用于数百个不同的未知情境(未知物体、未知任务,甚至完全未知的厨房环境)。

其中用于训练 RoboAgent 的数据集 RoboSet(MT-ACT)仅包括 7500 条轨迹(比 RT-1 的数据少 18 倍)。除此之外,还发布了一个更大的数据集 RoboSet,该数据集是在几个相关项目过程中收集的,总共包含 100050 条轨迹,其中包括非厨房场景。并且已开源。

  • 论文链接:https://arxiv.org/pdf/2309.01918.pdf
  • 项目链接:https://robopen.github.io/

Mobile ALOHA

Mobile ALOHA 是由斯坦福大学的研究团队开发的一个机器人开源项目。它的运动控制能力采用模仿学习,通过人类操作机器人,机器人学习模仿人类行为,形成机器人的行为逻辑。仅需要进行 50 次演示的训练,就能够在处理日常家务时达到 80% 以上的成功率。

例如,在论文中列出的任务执行成功率如下:擦拭红酒、呼叫电梯、击掌、收纳平底锅、冲洗平底锅、推椅子成功率分别为 95%、95%、85%、85%、80%、80%。

其中,最令人惊讶的是制作滑蛋虾仁这项长达 75 秒的艰巨烹饪任务,尽管成功率只有40%。

  • 论文链接:http://arxiv.org/abs/2401.02117
  • 项目链接:https://mobile-aloha.github.io/

Dobb·E

Dobb·E 是由纽约大学的研究团队开发的一个开源家庭机器人系统,仅需约 20 分钟就可以教会机器人完成一项家务,成功率达到 81%。

Homes of New York(HoNY)数据集包含纽约 22 户家庭使用 Stick 工具收集的 13 小时互动的视频,包含每秒 30 帧的 RGB 和深度视频,以及 6D 握爪姿势和握爪张开角度的完整动作标注。

  • 论文链接:https://arxiv.org/abs/2311.16098
  • 项目链接:https://dobb-e.com/

MCD

MCD 是由南洋理工开源的大规模多校区机器人感知数据集。该数据集在亚洲和欧洲的大型校园区域不同季节收集而成,具有以下特点:

  • 多种感测模态
    • 3D spinning lidar
    • Non-repetItive lidar
    • Stereo cameras
    • High quality IMUs
    • UWB ranging sensors
  • 覆盖领域广:横跨欧亚的三个大学校区
  • 逐点标注的NRE点云
  • 高精度连续时间真实值
  • 迎接感知中的挑战
  • 广泛的基准测试

收录于 CVPR 2024。

  • 论文链接:https://arxiv.org/abs/2403.11496v1
  • 项目链接:https://mcdviral.github.io/

TreeScope

TreeScope 是一个用于精准农业和林业的机器人数据集,用于对林业和果园中的树木进行计数和绘图。

特点如下:

  • 超 1800 多个人工标注的树干语义标签和实地测量的树木直径
  • 10 小时的 ROS bags,2.2 TB 的数据,覆盖 50 公顷的地形
  • 使用无人机和移动机器人平台收集数据
  • 弗吉尼亚州和新泽西州森林中的各种松树和橡树林
  • 加利福尼亚中部开心果和杏仁果园的树冠开启和关闭情况
  • 无人机自主飞行和传感器数据可供飞行一小时使用

收录于 ICRA 2024。

  • 论文链接:https://arxiv.org/abs/2310.02162
  • 项目链接:https://treescope.org/

USTC FLICAR Dataset

USTC FLICAR Dataset 是由中国科大发布的首个高空作业机器人多模态感知数据集,超过 1.5TB 个数据,包括 4 万个立体图像对、10万个单目图像、7万帧激光雷达点云以及高频IMU/INS和激光跟踪仪运动测量数据。

  • 中文介绍:https://lmbd.ustc.edu.cn/2023/1012/c10217a614638/page.htm
  • 论文链接:https://journals.sagepub.com/doi/abs/10.1177/02783649231195650
  • 项目链接:https://ustc-flicar.github.io/

RoboNet

RoboNet 是由伯克利人工智能研究公司开源的大规模多机器人学习数据集,包含超过 1500 万个机器人与物体交互的视频帧,这些视频帧来自 113 个独特的摄像机视角。

RoboNet 示例及数据统计如下:

  • 论文链接:https://arxiv.org/abs/1910.11215
  • 项目链接:https://www.robonet.wiki/
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
清华、华为等提出iVideoGPT:专攻交互式世界模型
近年来,生成模型取得了显著进展,其中视频生成正在成为一个新的前沿领域。这些生成视频模型的一个重要应用是,在多样化的互联网规模数据上以无监督方式学习,用于构建预测世界模型。这些世界模型有望积累关于世界如何运作的常识性知识,从而能够基于智能体的行为预测潜在的未来结果。
机器之心
2024/06/04
2360
清华、华为等提出iVideoGPT:专攻交互式世界模型
自动驾驶界秋名山车神!CoRL杰出论文让自驾车学会漂移,机器人整出新活
最后来个蛇形绕桩(Slalom,这次没有实体的桩)。可以听见,在绕到一半的时候,工作人员忍不住欢呼了一下。
机器之心
2025/02/14
770
自动驾驶界秋名山车神!CoRL杰出论文让自驾车学会漂移,机器人整出新活
「源神」稚晖君又双叒叕开源,这一次机器人直接进入人类生活!
近期开源的 Deepseek V3,让国产 MoE 大模型在全球圈粉无数,一跃成为中国 AI 圈的顶流担当。
计算机视觉研究院
2024/12/31
1340
「源神」稚晖君又双叒叕开源,这一次机器人直接进入人类生活!
AI: 引领视觉-语言-动作模型 OpenVLA的新进展探讨
近年来,OpenVLA(Open-Source Vision-Language-Action)取得了显著的进步,为机器人领域带来了颠覆性的变化。本文将深入探讨OpenVLA的技术特点、应用场景以及其未来发展趋势。
运维开发王义杰
2024/07/31
1.2K0
AI: 引领视觉-语言-动作模型 OpenVLA的新进展探讨
具身智能中VLA(视觉-语言-动作)技术论文解读
上个月的“全球首场人机马拉松”的赛事,可以说是具身智能技术发展的一个小里程碑。不过机器人们的躺平,摔倒,瘫痪,掉头等突发状况也直观暴露了当前具身智能技术的瓶颈:大脑和四肢协调能力、续航能力、环境感知与决策等问题,所以在复杂环境的长距离运动对机器人的“身体”(硬件)与“大脑”(算法)都还是一个很大的挑战。
languageX
2025/04/29
1.2K0
LeRobot:开启机器人开发新纪元——邀您共赴智能革命之旅
在人工智能的浩瀚星空中,机器人技术无疑是那颗最耀眼的星辰,它不仅承载着人类对未来世界的无限遐想,更正以前所未有的速度改变着我们的生产生活方式。随着技术的不断迭代与突破,机器人已不再局限于工业生产线上的重复劳动,而是逐渐渗透到医疗、教育、服务、探索等多个领域,成为推动社会进步的重要力量。在此背景下,LeRobot——这一由Hugging Face倾力打造,并得到NVIDIA强力支持的开源机器人开发平台,正以它独特的魅力,吸引着全球开发者的目光,引领我们进入一个机器人开发的新纪元。
GPUS Lady
2025/06/07
1370
LeRobot:开启机器人开发新纪元——邀您共赴智能革命之旅
智元机器人发布并开源首个机器人动作序列驱动的世界模型
近日,智元机器人重磅发布具身智能领域双重里程碑式突破:全球首个基于机器人动作序列驱动的具身世界模型 EVAC (EnerVerse-AC),以及具身世界模型评测基准 EWMBench。这两大创新成果现已全面开源,旨在构建“低成本模拟 - 标准化评测 - 高效迭代”的全新开发范式,持续赋能全球具身智能研究,加速技术落地与产业发展。
深度学习与Python
2025/05/25
1930
智元机器人发布并开源首个机器人动作序列驱动的世界模型
可变腿长、能下楼、走沙坑,数研院具身四足机器人控制取得突破
机器之心专栏 机器之心编辑部 近日,上海数字大脑研究院(简称 “数研院”)成功用强化深度学习方法,将 Transformer 大模型应用于四足机器人跨地形、跨具身运动控制,让不同具身的四足机器人成功在多种真实复杂地形上 “化险为夷”,如履平地,为自由、自主的运动控制奠定基础。相关成果以两篇论文的形式发表在国际机器人顶级会议 ICRA 2023 上。(文末附文章链接) 四足机器人运动控制的发展现状 足式机器人常见的有双足机器人和四足机器人,相比其他类型的机器人(例如轮式,履带式),它们有着更好的灵活性和通过性
机器之心
2023/03/29
5070
可变腿长、能下楼、走沙坑,数研院具身四足机器人控制取得突破
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作,无法像人类一样与物理世界产生交互。
新智元
2025/03/11
2040
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
机器人研究迎来ImageNet时刻:一个数据集,让DeepMind具身智能大模型突飞猛进
在大模型不断取得突破的 2023,把大模型当做大脑来辅助运行的具身智能机器人研究也在被迅速推进。
机器之心
2023/10/04
7060
机器人研究迎来ImageNet时刻:一个数据集,让DeepMind具身智能大模型突飞猛进
10%训练数据超越100%表现,机器人学习领域迎来重要突破
第一作者陈昌和是美国密歇根大学的研究生,师从 Nima Fazeli 教授,研究方向包括基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制优化。
机器之心
2025/06/12
1030
10%训练数据超越100%表现,机器人学习领域迎来重要突破
60项基于深度学习的SLAM顶会开源方案汇总(上篇)
深度学习结合SLAM是近年来很热门的研究方向,也因此诞生了很多开源方案。笔者最近在阅读SLAM综述论文“A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence”,该综述参考了255篇SLAM领域的顶会顶刊论文,并且涵盖了VO、建图、特征提取、定位、描述子提取、BA优化、回环、数据集等多个方向,非常全面。也因此,笔者一直想整理下文章中出现的开源项目,用于在后续工作中进行对比。
3D视觉工坊
2023/04/29
1.6K0
60项基于深度学习的SLAM顶会开源方案汇总(上篇)
李飞飞两位高徒联合指导:能看懂「多模态提示」的机器人,zero-shot性能提升2.9倍
人工智能领域的下一个发展机会,有可能是给AI模型装上一个「身体」,与真实世界进行互动来学习。
新智元
2023/01/06
5110
李飞飞两位高徒联合指导:能看懂「多模态提示」的机器人,zero-shot性能提升2.9倍
2.8K Star开源AI加持的家务机器人
开源日记
2024/01/23
1780
2.8K Star开源AI加持的家务机器人
Google AI年终总结第六弹:没有波士顿动力的谷歌机器人,发展得怎么样了?
---- 新智元报道   编辑:LRS 【新智元导读】让机器人听懂人类指令,谷歌都做了什么? 波士顿动力的一个后空翻,让我们看到了人造机器人所带来的无限可能。 尽管谷歌已于2017年把波士顿动力出手了,但谷歌仍然继续他们的机器人开发之路,不只是在「身体」上逼近人类,在「智力」也追求更好的理解人类指令。 由Jeff Dean领衔的Google Research年终总结系列「Google Research, 2022 & beyond」已经更新到第六期,本期的主题是「机器人」,作者为高级产品经理 Kend
新智元
2023/02/27
4640
Google AI年终总结第六弹:没有波士顿动力的谷歌机器人,发展得怎么样了?
谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍
注意看,眼前的这个男人正在对着一个机器人不断发出自然语言指令,如「把绿色的星推到红色块之间」、「把蓝色的方块移动到左下角」,机器人对每一次输入的指令都可以实时完成。
新智元
2023/01/08
4360
谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍
10万+,超大规模人手交互视频数据集!面向可泛化机器人操作|CVPR 2025
随着具身智能的不断发展,机器人操作也逐渐融入到人们的日常生活中,可辅助完成物体抓取、倒水、表面清洁和整理等任务。
新智元
2025/04/26
930
10万+,超大规模人手交互视频数据集!面向可泛化机器人操作|CVPR 2025
伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难
随着人工智能和机器人技术的迅速发展,功能操控(Functional Manipulation)在机器人学中的重要性愈加突出。传统的基准测试已无法满足目前机器人对复杂操控任务的需求,呼吁新的操控基准(Functional Manipulation Benchmark)出现。
机器之心
2024/02/06
1520
伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难
推荐 | 机器学习开源项目 Top 10
编译 | AI科技大本营 一直为开发者提供优质学习资源的Mybridge最近又发布了一篇资源性文章:机器学习领域开源项目Top 10,AI科技大本营做了简要编译。 ▌Rank 1 Openpose:是一个实时的多人关键点检测库,用于身体,脸部和手部的行为估计。[Github 6199颗星]。 github链接:https://github.com/CMU-Perceptual-Computing-Lab/openpose ▌Rank 2 TensorComprehensions:由Facebook
AI科技大本营
2018/04/26
6540
推荐 | 机器学习开源项目 Top 10
李飞飞团队将ViT用在机器人身上,规划推理最高提速512倍,还cue了何恺明的MAE
杨净 发自 凹非寺 量子位 | 公众号 QbitAI 人类的预测能力+ViT,会产生什么样的化学反应? 会让机器人的行动规划能力又快又准。 这是李飞飞团队的最新研究——MaskViT,通过MVM,掩码视觉建模对Transformer进行预训练,从而建立视频预测模型。 结果显示,MaskViT不仅能生成256*256视频,还可以让机器人行动规划的推理速度最高提高了512倍。 来看看这是项什么样的研究? 从人类身上找灵感 神经科学领域的研究表明,人类的认知、感知能力是有一种预测机制来支持的。 这种对世界的
量子位
2022/06/27
2300
李飞飞团队将ViT用在机器人身上,规划推理最高提速512倍,还cue了何恺明的MAE
推荐阅读
清华、华为等提出iVideoGPT:专攻交互式世界模型
2360
自动驾驶界秋名山车神!CoRL杰出论文让自驾车学会漂移,机器人整出新活
770
「源神」稚晖君又双叒叕开源,这一次机器人直接进入人类生活!
1340
AI: 引领视觉-语言-动作模型 OpenVLA的新进展探讨
1.2K0
具身智能中VLA(视觉-语言-动作)技术论文解读
1.2K0
LeRobot:开启机器人开发新纪元——邀您共赴智能革命之旅
1370
智元机器人发布并开源首个机器人动作序列驱动的世界模型
1930
可变腿长、能下楼、走沙坑,数研院具身四足机器人控制取得突破
5070
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
2040
机器人研究迎来ImageNet时刻:一个数据集,让DeepMind具身智能大模型突飞猛进
7060
10%训练数据超越100%表现,机器人学习领域迎来重要突破
1030
60项基于深度学习的SLAM顶会开源方案汇总(上篇)
1.6K0
李飞飞两位高徒联合指导:能看懂「多模态提示」的机器人,zero-shot性能提升2.9倍
5110
2.8K Star开源AI加持的家务机器人
1780
Google AI年终总结第六弹:没有波士顿动力的谷歌机器人,发展得怎么样了?
4640
谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍
4360
10万+,超大规模人手交互视频数据集!面向可泛化机器人操作|CVPR 2025
930
伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难
1520
推荐 | 机器学习开源项目 Top 10
6540
李飞飞团队将ViT用在机器人身上,规划推理最高提速512倍,还cue了何恺明的MAE
2300
相关推荐
清华、华为等提出iVideoGPT:专攻交互式世界模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档