AI 帮你生成了一段代码。逻辑看着没毛病,变量命名也规范。你扫了两眼,点了 Approve。两周后的某个深夜,这段代码在边界 case 下崩了。排查的时候你才看...
这不是段子,而是 Bryan Catanzaro—Nvidia 应用深度学习副总裁—的原话。在 AI 席卷全球、科技公司疯狂裁员的当下,这个来自卖铲子的人的表态...
科大讯飞 | 资深架构师 (已认证)
系列说明:这是 RAG 工程化系列的最终篇。前三篇我们走完了从 Naive 到 Modular 的完整演进——把基础工程做扎实、把 Hybrid+Rerank ...
团队花了三周搭了一个 Agent 原型,接入了内部知识库,CEO 看了 Demo 点头说"不错"——然后呢?上线两周后,Agent 把客户的订单信息张冠李戴,把...
今天的 Coding Agent 已经是一个相对成熟的工程系统。以 Claude Code、Codex、Cursor Agent 这类工具为代表,Agent 已...
就在今天凌晨,Anthropic 毫无预警地投下一枚重磅炸弹—Claude Fable 5 和Claude Mythos 5 同时上线。
系列说明:这是 RAG 工程化系列第三篇。前两篇我们完成了从 Naive 到 Advanced 的进化——把基础工程做到极致,把准确率从 38% 推到 87%。...
最近体验了不少 AI 产品,我越来越在意一个问题:当 AI 从回答问题走向主动做事,它做出的判断,最后由谁负责?
系列说明:这是 RAG 工程化系列第二篇。第一篇我们拆了 Naive RAG 的 8 颗雷,得出一个反直觉的结论:90% 的"模型不够好",其实是"工程没做好"...
2026年6月初,AI行业被一句内部宣言震动了—Chat is Dead(聊天已死)。这不是某个竞争对手的嘲讽,而是来自 OpenAI 内部一位高级员工的断言。
很多的企业已在生产环境部署 Agent,团队将"质量评估"列为部署首要障碍时,Agent 评测已不再是锦上添花,而是生死线。
每个职场人都听过这句话。开会吵架了,领导说"我们对事不对人";绩效面谈,HR说"这次评估对事不对人";同事间起了冲突,有人说"我下面说的对事不对人啊"。
过去两年,资本市场对 AI 的信仰近乎狂热。但从上周开始,华尔街用真金白银投出了不同意见—Meta 宣布考虑增发数百亿美元股票融资后,股价应声大跌,拖累纳斯达克...
秦腔是一种很老的东西。《主角》里,忆秦娥从一个烧火丫头,靠着不顾死活的练功,一步步挤进了那个属于戏曲的黄金时代。彼时剧院场场爆满,名角儿走在街上会被围堵,人们愿...
你的 AI Agent 记住了所有事,却不知道该忘掉什么。更糟的是——攻击者正在利用这一点。
三年前我接手过一个客服系统的 AI 改造。需求很简单:把原来的关键词匹配换成大模型问答。我们花两周接上了模型,上线第一天就翻车——用户平均等待从不到一秒涨到六七...
你还记得最后一次打开天涯是什么时候吗?也许是2023年4月1日之前某天,你随手点开一个帖子,像往常一样看看鬼话、天涯杂谈、情感天地,然后关掉浏览器,觉得它永远都...
如果你只看 benchmark 对比图,大概率会觉得索然无味—SWE-Bench Verified 从 64.3 涨到 69.2,OSWorld 从 82.8 ...
说这句话的人叫 Demis Hassabis。他是 Google DeepMind 的 CEO,2024年诺贝尔化学奖得主,AlphaGo 和 AlphaFol...