Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基本物理任务,全球顶级AI均失败!普通零件加工,o3不如老师傅

基本物理任务,全球顶级AI均失败!普通零件加工,o3不如老师傅

作者头像
新智元
发布于 2025-05-21 07:11:13
发布于 2025-05-21 07:11:13
980
举报
文章被收录于专栏:新智元新智元


新智元报道

编辑:KingHZ

【新智元导读】在基本物理任务上,前沿AI模型仍会失败!ML研究院的测试案例显示白领将被Ai替代,而制造业等蓝领工作不受影响。未来已来,只是分布得不均匀。

基于AI研究、机器人以及实际制造等过往经验,Adam Karvonen在零件制造任务上,测评了顶尖模型的表现。

包括OpenAI o3、Gemini 2.5 Pro等顶尖LLM,全部失败,没有一个让他满意!

即便o3的智商高达136,超越GeminI 2.5 Pro和90%的人类,但在这次测试中,不如Gemini 2.5 Pro,更不要提经验丰富的工人老师傅了。

基于此,他认为,在未来一段时间内,AI将自动化大量白领工作,而蓝领工作不受影响。

也就是说,自动化在全行业里并不会均匀发生。

尽管还不知道这种不均衡会持续多久,但他认为局部自动化几乎已成定局。

Adam Karvonen

这与Anthropic的首席执行官Dario Amodei的预测截然不同。

Dario曾公开表示:几乎所有工作会同时被自动化,从而把每个人都「放在同一条船上」

但Adam Karvonen做过机械师,还从事过机器人相关工作。

此外,他从事过软件开发,现在是MATS学者项目的机器学习研究人员。

可以说,他是研究AI对蓝领工人影响的上佳人选。

零件制造:物理+视觉双重挑战

评估很简单:制定一个详细的计划,使用3轴CNC铣床和2轴CNC车床来加工一个零件,如下图所示。

测试中要加工的零件

尽管这并不简单,但在典型的原型制造或工作车间环境中,大多数技师会将执行这一任务视为常规工作,涉及标准的车削和铣削技术,但需要多个加工步骤。

CNC铣床和车床零件加工示意图

尽管这个零件很简单,即便是像o1-Pro或Gemini 2.5 Pro这样的前沿模型也经常犯下重大错误。

这些错误可以分为两类:视觉能力和物理推理能力。

视觉错误

大多数模型的视觉能力非常差:在过去的两年里,在视觉能力上,Anthropic和OpenAI的模型没有任何实质性的进步。

它们总是错过一些显而易见的特征。

哪怕只是这个零件做出合理的描述,Claude 3.5、Claude 3.7、GPT-4.5、GPT-4o或o1-Pro也做不到。

如果没有视觉能力,创建制造计划几乎是完全不可能的。

有趣的是,在像MMMU之类的视觉推理基准测试中,许多模型得分高于或接近人类专家的水平。

MMMU基准的测试科目和示例

然而,容易衡量的东西,往往与现实世界的实用性没有直接关联。

当看到Gemini 2.5在视觉能力上有了重大进展时,他感到非常惊讶。

在大约尝试四次,它能够识别出大多数主要特征,没有额外的虚构内容。

它能捕捉到的一些细节确实令人印象深刻。

然而,这种视觉改进主要揭示了更深层次的未解决问题。

Gemini 2.5 Pro能够识别大多数主要特征,而没有重大的虚构错误。

然而,它仍然会做出一致的、更微妙的视觉错误:漏过细节、偶尔的虚构/误解、特征识别不一致。

对比一下Adam Karvonen和Gemini 2.5 Pro对加工零件的描述

Adam Karvonen的描述

Gemini 2.5 Pro的描述

这是一根细长的黄铜圆柱体,两端带有不同直径的台阶和螺纹。该部件长2英寸,直径为0.187英寸,因此长度与直径的比例超过了10:1。

材料:黄铜(可能是C360自由切削黄铜,便于加工)形状:主要为圆柱形,具有多个不同直径的部分,两端带有螺纹,中央部分有铣削平面,平面上有两个螺纹孔,且有一个横向穿过螺纹部分的孔。大致尺寸:长度约为2英寸,最大直径约为3/16英寸(0.1875英寸)。螺纹看起来比较细(可能是#6-32或M4规格)。螺纹孔较小(可能是#2-56或M2.5规格)。横向孔较小(约1/16英寸或1.5mm)。确切的尺寸需要从图纸中获取,但我们可以根据这些估算的尺寸进行分析。

物理推理错误

以前,很难将视觉误解与更深层次的物理推理问题区分开来

现在,即便从准确的视觉解释出发,Gemini 2.5仍然会产生充满实际错误的加工计划。

典型错误包括:忽视刚性和振动;物理上不可能的工件夹持。

忽视刚性和振动。

这个零件相对于其直径来说长而细。

如果用标准技术来加工它,这很可能导致零件在加工时发生变形,或在切削工具上快速振动(称为「振刀」现象)。

刚入行的技师都能立刻意识到,刚性对于像这样的长细零件至关重要。

当专门询问振刀问题时,Gemini错误地使用尾座等教科书解决方案,反而加剧了像在这根长细黄铜零件中弯曲问题。

尾座是机械加工中常用的装置

物理上不可能的工件夹持。

Gemini通常提出一些无法实现的工件夹持和操作顺序。

最常见的建议是将零件夹在夹具中(特别是卡盘块),加工一些特征,然后旋转夹具以加工其他特征。

然而,这在物理上是不可能的,因为夹具会挡住这些新特征。

CNC工件夹持方法

Adam Karvonen的总体印象是:「就像是在复述教科书知识,但根本不懂他们在说什么」。

这些模型非常乐于提供教科书上的知识,但在重要的实际细节上,完全错误。

这与他收到的制造业及建筑行业的反馈一致:目前的LLM,在他们工作的核心、动手操作部分,几乎完全无用

这项评估仅仅是皮毛

生成文本计划,只是工作中最简单的部分。

实际的加工,涉及管理每个高层步骤背后的许多细节。

仅仅选择一个切削工具就需要考虑刀尖半径、刀柄碰撞间隙、刀具刚性、涂层、切削速度/进给速率等多个因素。

而且往往存在取舍与权衡,例如间隙与刚性之间的平衡。

许多因素,本质上是空间问题,而这些问题利用文本是无法完全评估的。

如果模型在这些可描述的方面表现如此糟糕,那么它们对基础物理现实的理解可能会更糟。

事实上,真正的关键是克服众多难题,每个难题都比前一个更加困难:

  1. 准确的视觉感知:基础步骤是从输入图像中,正确识别所有几何特征和它们的关系。这几乎不需要空间推理能力,但大多数模型在这方面表现依然非常差。
  2. 基本的物理合理性:不仅仅是看清零件,模型还必须提出物理上可行的操作和设置。这涉及基本的空间推理,以确保例如工具访问不会被夹具阻挡。
  3. 融入物理知识:成功的加工需要理解现实世界的物理和潜在知识。这通常要实操获得经验,但现有的数据集无法做到这一点。
  4. 工艺优化:在步骤1-3中处理细节是正确加工零件的前提。正如马斯克所说,高效制造比制造原型要困难10-100倍。这才是工作中真正具有挑战性的部分

步骤2到4可能难以通过模拟生成的合成数据来解决。

与Adam Karvonen交流过的技师,几乎都认为:工程师理解教科书公式和CAD,但不理解现实制造中的约束。

而模拟环境,似乎很可能会创造出具有相同缺陷的AI。

为什么LLM表现不佳?

缺乏数据,是LLM在物理任务中表现不佳的最明显的原因。

像加工这样的问题,依赖于大量的隐性知识和通过经验学到的无数微妙细节。这些细节通常并不会被记录下来。

这并不是因为专家故意隐瞒秘密——而是因为记录这种细致入微的现实世界知识既不现实也不高效。

软件工程师,很少记录每一行代码背后的所有推理。

类似地,加工技师也不会记录每次设置零件时的所有考虑因素。

导师手把手教学,比通过教科书学习或死记硬背程序更加快捷高效。

这与软件工程或法律等领域有着显著的区别。

尽管软件工程师或律师可能不会明确记录每个推理步骤,但他们会生成像代码、版本控制历史和合同这样的制品,这些都包含了非常丰富详细的信息。

而在物理任务中,虽然同样存在相应的详细信息,但这些信息嵌入在3D世界,通常非常难以有效数字化。

因此,LLM在回顾某些教科书知识时表现出色,但这远远不够。

改进物理任务可能很困难

从经验来看,顶尖模型目前在这些任务上表现不佳。

这只是暂时的障碍,很快就能克服吗?

这很难确定,但Adam Karvonen有一些推测性的理由来解释为什么未来的进展可能会很困难,也可能比预期的更容易。

一个显然的解释是,LLM在物理任务上表现不佳,是因为目前没人投入足够的精力。

然而,改进对物理世界的理解可能非常难。

提升编码能力的路径依赖于大量的训练数据和清晰的奖励信号,支持强化学习和合成数据的使用。

然而,这种方法在物理任务中并不适用。

为什么改进可能很困难

缺乏可验证的奖励:为复杂物理任务定义奖励信号非常困难。

零件的缺陷可能表现为几年后稍微增加的故障率,或者是多年后错误应用防水涂层造成的腐烂。

注塑产品中的裂缝

反馈回路可能很长,而且结果很难通过自动化方式衡量。

缓慢、昂贵且危险的试错法:通过强化学习或生成合成数据的学习,可能非常困难。

一次错误很容易导致数十万甚至更多的损失。

与运行有漏洞的代码不同,使用重型机械或从事建筑施工时的错误可能带来严重后果。

制造业获得经验通常需要使用昂贵且有限的资源,而不仅仅是几个GPU小时。

为什么改进可能比预期容易

自动化AI研究员:AI在编码和AI研究方面正在取得重大进展。

人类可能很快就会迎来AI研究员。

也许这种自动化的AI研究员,能够通过创建更高效的算法或大量的模拟数据,轻松解决这些挑战。

合成数据:有些明显的方法还没有得到充分探索。

例如,模拟可以被用来创建大量数据,尽管模拟与现实之间会存在差距。

以特定的制造工艺(如CNC加工)为例,计算机辅助制造(CAM)软件可以准确地模拟大多数操作。

然而,制造过程中有很多多样化的工艺,许多工艺没有很好的模拟解决方案。

总体来说,虽然改进物理任务处理能力存在诸多挑战,但随着技术的发展,自动化AI研究员的出现以及合成数据的广泛使用,未来可能会取得意想不到的进展。

自动化不均衡的影响

如果这一趋势持续下去,人类将要面临新阶段,其中远程工作会经历显著的自动化,而熟练的体力工作则在很大程度上不受AI影响

这一「自动化差距窗口」可能持续一段未知的时间,并带来潜在的影响:

1. 加剧紧张局势

自动化与非自动化行业之间可能很容易出现重大阶级冲突,尤其是因为这两个群体之间还存在其他潜在的差异。

白领工人更有可能面临职位替代,而他们通常收入更高,并且拥有更为自由的政治信仰。

这些差异可能加剧紧张局势,并导致自动化行业群体的重大经济痛苦。

2. 公众对AI的反对

这可能导致公众反对进一步的AI研究。

像蓝领工人这样的群体,现在已经有了自动化可以迅速发生的证据,他们可能不希望被AI取代。这可能会阻碍进一步的AI发展展,并延长不平衡的存在。

3. 体力劳动瓶颈

如果大多数知识工作被自动化,像制造业这样的体力劳动能力可能会成为技术进步或国防的瓶颈。

像中国这样的国家,凭借其更强大的工业基础,可能会获得显著的战略优势。

但这存在许多不确定性。

参考资料:

https://adamkarvonen.github.io/machine_learning/2025/04/13/llm-manufacturing-eval.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
十二条数控加工经验总结
数控编程、车铣复合、普车加工、Mastercam、行业前沿、机械视频,生产工艺、加工中心、模具、数控等前沿资讯在这里等你哦
lrglu
2024/05/17
1710
十二条数控加工经验总结
钼合金零件的螺纹车削加工
  钼合金的强度、硬度均较高,韧性差,性脆易折断,可加工性差,但因其具有熔点高、密度低和热胀系数小的特性,常用于制造航空和航天的各种高温部件。两种钼合金零件分别为钼螺钉和钼螺栓,如附图所示。毛坯来料为热轧Ф16mm钼合金钢棒,加工中发现该材料密度低,表皮硬度非常高,应为退火残余硬度。表层以内硬度仍然很高,韧性差,导热慢。使用普通高速钢或硬质合金刀具加工非常困难。首先,刀具前、后刀面及刀尖磨损很快,加注切削液,使用常态下不同切削用量多次试验,均无法获得满意效果,一般外圆刀片加工不过4件就需更换;其次,零件在刀具稍有磨损时即出现掉渣缺陷,平端面、切断及车螺纹时均出现掉渣现象。外圆加工及端面加工在精车刀保持锋利情况下可基本满足图样要求,但螺纹加工掉渣始终无法避免。
lrglu
2022/03/30
1.3K0
钼合金零件的螺纹车削加工
2D – 3D 和 4 轴加工零件之间的差异
数控编程、车铣复合、普车加工、行业前沿、机械视频,生产工艺、加工中心、模具、数控等前沿资讯在这里等你哦
lrglu
2023/09/06
7530
2D – 3D 和 4 轴加工零件之间的差异
大直径薄壁零件的磨削工艺
数控编程、车铣复合、普车加工、Mastercam、行业前沿、机械视频,生产工艺、加工中心、模具、数控等前沿资讯在这里等你哦
lrglu
2023/12/15
5370
大直径薄壁零件的磨削工艺
加工中心究竟该如何正确选择刀柄?
精密的加工中心机床配合先进的切削刀具可提供出色的金属切削生产率。而刀柄作为切削刀具和机床主轴之间的关键性接口,对于实现高生产率至关重要。那么,该如何选择、应用和维护最适合生产需求的刀柄呢?
UG数控编程
2020/03/16
9920
加工中心究竟该如何正确选择刀柄?
UG编程基本操作及加工工艺
肄本章主要介绍UG编程的基本操作及相关加工工艺知识,读者学习完本章后将会对UG编程知识有一个总体的认识,懂得如何设置编程界面及编程的加工参数。另外,为了使读者在学习UG编程前具备一定的加工工艺基础,本章还介绍了数控加工工艺的常用知识。
用户7505898
2020/09/22
2K0
UG编程基本操作及加工工艺
PowerMiLL2023安装教程,数控编程PowerMiLL软件下载安装流程教程
Powermill是一款由英国公司Autodesk开发的先进CAM制造软件,它可以为机器人、CNC车床和加工中心等设备提供高效、精确的加工方案。
用户10436734
2023/04/01
8220
PowerMiLL2023安装教程,数控编程PowerMiLL软件下载安装流程教程
工业质检如何以“智”取胜?15分钟上手工业零部件检测全流程方案
工信部联合国家发展改革委、教育部、科技部等部门发布了十四五智能制造发展规划。规划中提出:到2025年70%规模以上的制造业企业基本要实现数字化网络化,建成500个以上引领行业发展的智能制造示范工厂。
用户1386409
2022/08/31
8430
FANUC-加工中心编程
通过编程并运行这些程序而使数控机床能够实现的功能我们称之为可编程功能。一般可编程功能分为两类:一类用来实现刀具轨迹控制即各进给轴的运动,如直线/圆弧插补、进给控制、坐标系原点偏置及变换、尺寸单位设定、刀具偏置及补偿等,这一类功能被称为准备功能,以字母G以及两位数字 组成,也被称为G代码。另一类功能被称为辅助功能,用来完成程序的执行控制、主轴控制、刀具控制、辅助设备控制等功能。在这些辅助功能中,Tx x用于选刀,Sx x x x用于控制主轴转速。其它功能由以字母M与两位数字组成的M代码来实现。有缘学习更多:fu置内容¥PHUX1Er9kkI¥打楷τao寶【奉献教育】知识店铺
用户7505898
2020/08/02
2.9K0
FANUC-加工中心编程
OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?
OpenAI 正式官宣 o3 & o4-mini:迄今最强模型,AI 终于学会“十八般武艺”全家桶了。
AI进修生
2025/04/18
1560
OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?
机械零件深孔测量方法的探究 - 激光频率梳 3D 轮廓测量
本文围绕机械零件深孔测量展开,分析传统测量方法不足,重点探究激光频率梳 3D 轮廓测量技术在机械零件深孔测量中的应用。阐述该技术原理,结合实例说明其优势,为机械零件深孔测量提供新的技术思路与参考。
新启航光学频率梳
2025/05/29
730
机械零件深孔测量方法的探究 - 激光频率梳 3D 轮廓测量
CMU朱俊彦等上新LEGOGPT,一句话就能搭乐高,网友:复杂零件行不行?
近日,CMU 助理教授朱俊彦团队带来了新研究 —— 基于文本生成 3D 乐高的大模型。
机器之心
2025/05/13
890
CMU朱俊彦等上新LEGOGPT,一句话就能搭乐高,网友:复杂零件行不行?
机器视觉技术原理解析及应用领域
01 简介 机器视觉是一项综合技术,包括图像处理、机械工程技术、控制、电光源照明、光学成像、传感器、模拟与数字视频技术、计算机软硬件技术(图像增强和分析算法、图像卡、 I/O卡等)。 一个典型的机器视觉应用系统包括图像捕捉、光源系统、图像数字化模块、数字图像处理模块、智能判断决策模块和机械控制执行模块。 机器视觉系统最基本的特点就是提高生产的灵活性和自动化程度。在一些不适于人工作业的危险工作环境或者人工视觉难以满足要求的场合,常用机器视觉来替代人工视觉。 同时,在大批量重复性工业生产过程中,用机器视觉检
企鹅号小编
2018/02/28
3.7K0
机器视觉技术原理解析及应用领域
AI日报 - 2025年4月2日
▎🤖 AGI突破 | 研究揭示零RL训练可诱发模型顿悟,Anthropic发布Claude 3.5内部机制研究,简化语言模型推理优化新方法提出。
訾博ZiBo
2025/04/01
2300
AI日报 - 2025年4月2日
AI日报 - 2025年03月29日
▎🤖 模型进展 | GPT-4o迎更新,多项能力提升;Gemini 2.5 Pro获赞最佳代码模型;Cohere发布企业级Command A/R7B;Gemma 3技术报告发布,支持多模态与长上下文;阿里云Qwen发布视觉推理模型QVQ-Max。
訾博ZiBo
2025/03/29
1290
AI日报 - 2025年03月29日
一文看懂2025 Google I/O开发者大会 - 250刀Ultra会员、Veo3、Imagen4等等全线开花。
说个小插曲,本来我现在,人应该是在硅谷Google总部现场的,因为受到小红书和Google的邀请,喊我去现场看。。。
数字生命卡兹克
2025/05/21
2000
一文看懂2025 Google I/O开发者大会 - 250刀Ultra会员、Veo3、Imagen4等等全线开花。
UG初级教程
Unigraphics Solutions公司(简称UGS)是全球著名的MCAD供应商,主要为汽车与交通、 航空航天、日用消费品、通用机械以及电子工业等领域通过其虚拟产品开发(VPD)的理念提供多级化的、集成的、企业级的包括软件产品与服务在内的完整的MCAD解决方案。其主要的CAD产品是UG。
用户7505898
2020/10/11
2.3K0
UG初级教程
o3 deep research: 智能体的应用和演进
人工智能 Agent(智能代理/智能体)的发展正引领着新一轮技术变革。从最初只能回答问题的聊天机器人,到如今能够自主规划和执行任务的Agent(智能代理/智能体),AI 正在从“工具”走向“生产力主体” (link1)。针对 AI Agent 的架构设计,出现了两种不同范式:白硕老师称之为编译型 Agent与解释型 Agent。简言之,前者将大部分“智能”体现在开发编译阶段,由开发者预先规划好流程;而后者则把智能延伸到运行时,Agent 在执行过程中自主决策。两者理念迥异。
立委
2025/03/10
2480
PowerMILL快速入门
PowerMILL是一种专业的数控加工编程软件,由英国Delcam Plc公司研制开发。Delcam Plc是世界领先的专业化CAD/CAM软件公司,其软件产品适用于具有复杂形体的产品、零件及模具的设计制造,广泛地应用于航空航天、汽车、船舶、内燃机、家用电器、轻工产品等行业,尤其对塑料模、压铸模、橡胶模、锻模、大型覆盖件冲压模、玻璃模具等的设计与制造具有明显的优势。
用户7505898
2021/02/01
1.8K0
PowerMILL快速入门
每周AI论文速递(250421-250425)
Kuwain 1.5B:通过语言注入(Language Injection)构建的阿拉伯语小型语言模型(Small Language Model)
叶子的技术碎碎念
2025/04/28
1420
每周AI论文速递(250421-250425)
推荐阅读
相关推荐
十二条数控加工经验总结
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档