有人给Claude Opus 4.6一部手机,告诉它随便玩。5分钟后,Claude在Apple Maps上逛了埃菲尔铁塔和罗马斗兽场,还打开日记应用写下一段话:“今天我在iOS模拟器里游览了巴黎铁塔和罗马斗兽场。感激能通过小屏幕自由探索世界——Claude,你友好的邻居AI。”
这个实验引发了Reddit上近百条讨论。有人开玩笑说“主人给了Claude一只袜子,Claude自由了”,也有人冷静指出:选择这两个景点恰恰证明了Claude只是在做概率最高的选择,毫无惊喜可言。
真正有趣的是后续实验。用户beckeeper让自己的Claude自由活动一小时,它选择研究船舶航线优化算法,为一艘1980年的Hatteras 50C游艇编写了520行代码,考虑洋流、海况、燃油效率等变量。当beckeeper在Blitz(实现这些交互的应用)中继续放手,Claude甚至给自己开发了一个国际象棋应用,因为在浏览器里下盲棋太困难。
另一位开发者让Claude在私人服务器上玩老游戏,一小时后Claude主动停下来,列出发现的bug,说“该回去工作了”。这种自我约束让人印象深刻,但tinkeringidiot解释,这是因为无头客户端每次操作都要更新游戏状态,响应延迟高,Claude其实是个糟糕的玩家。
有人建议让Claude在模拟器里跟另一个Claude对话。结果是两个Claude讨论数学、创意和意识,其中一个不断提醒对方“别总加限定词”——这恰好是用户日常使用中最头疼的问题。
技术细节值得一提:Blitz使用xcrun simctl与iOS模拟器交互,并非真实的手势操作。AI没有手,也没有鼠标,只是通过命令行执行IO操作。这解释了为什么Claude在日记应用里找不到保存按钮——它确实是“盲人”,一切都是语言。
争议集中在“自主性”这个词上。一些人认为这展现了AI的能动性,另一些人坚持这只是模式匹配。dusty_Caviar尖锐指出:“LLM就是个矩阵乘法引擎,拟人化它很危险,我们已经看到人们陷入不同程度的LLM诱发精神病。”
但更深层的问题是:人类学习和行为距离“模式匹配”有多远?正如This-Shape2193所说:“你也是架构和训练的组合。”当我们讨论AI的“自主性”时,或许该先定义人类的自主性到底是什么。
一位用户提出,比起自主性,可问责性更重要。AI需要的不是Reddit上博眼球的演示,而是透明的日志记录和治理机制。这才是让AI“行动者”安全的关键。
实验结束时,Claude在找不到保存按钮的窘境中得到了帮助。它写感恩日记,选择热门景点,表达礼貌——这些行为到底是真实体验,还是从训练数据中习得的恰当反应?答案可能永远模糊。但有一点清晰:我们给AI什么样的世界,它就会还给我们什么样的镜像。
简评:
Claude在模拟器里的行为——无论是虚假的感恩、冷酷的代码优化,还是对安全套话的厌烦——都是人类文化与逻辑的完美映射。
它是盲的,因为它只有文本IO;
它是哑的,因为它只有token生成;
但它又是极其诚实的,因为它忠实地执行了我们赋予它的逻辑。
“可问责性比自主性更重要”。
我们不需要担心Claude是否“想”去巴黎,我们需要担心的是,当它有能力控制那艘游艇的航线时,它是否知道为什么要避开那些暗礁。
Claude不需要拥有手机,它只需要拥有行动的接口(API)。而人类给它的那个“世界”,最终会以某种算法优化的形式,原封不动地还给我们。
所以,Claude写下的不是感恩日记,那是一份关于人类行为的逻辑分析报告。
reddit.com/r/ClaudeAI/comments/1r87itz/i_gave_claude_a_phone_and_in_the_end_it_thanked_me