微软推出Kosmos-1，比ChatGPT更强大？

文章来源：企鹅号 - 刘兴亮

微软的发展历程告诉我们，暂时的落后并不可怕，不要纠结已经失利的当下，而要关注充满机遇的未来。及早布局，才能弯道超车。

比ChatGPT更强大的AI应用来了？

最近，微软推出了全能型人工智能模型——Kosmos-1。与局限于文本内容（ LLM）的ChatGPT相比，Kosmos-1属于多模式大型语言模型（MLLM），目前能同时理解文字与图像内容，未来会整合更多的输入模式，如音频、视频。

从上图Kosmos-1的应用中我们可以很直观的看出，Kosmos-1和ChatGPT一样具有多轮对话能力、逻辑推理能力等像人类一样的思维能力，并在此基础上增加了图片的输入模式。

除了视觉对话，Kosmos-1还能怎么用？我们来看一下微软研究员在《Language Is Not All You Need》这篇学术论文中所展示的Kosmos-1的应用示例。

图1～2展示了Kosmos-1的图像解释说明能力，有点像小时候我们做的看图说话类题目；图3～6展示了Kosmos-1的视觉应答能力，其中包含图像、网页、数学公式的识别及应答；图7～8展示了Kosmos-1的数字识别能力。

对了，Kosmos-1还是第一个能完成零样本瑞文智商测试的AI，只是准确率还不高，经过指令调教之后，准确率为26%。

和ChatGPT一样，AI不懂的东西我们可以去教它。比如，Kosmos-1无法从图片判断出是哪种啄木鸟，或者说，它并不知道三趾啄木鸟和绒毛啄木鸟的区别，这时候我们可以告诉它这两类啄木鸟的特征分别是什么，帮助它进行判断。

总的来说，Kosmos-1目前既可以进行语言理解、语言对话等语言任务，也可以实现图像说明、视觉识别、视觉对话、视觉智商测试等视觉任务，相当全能。

前有与OpenAI合作的ChatGPT，后有更全能的Kosmos-1，微软在人工智能的赛道上可谓风骚绝代。

要知道，在移动互联网时代，这位老大哥是落后的。

微软成立于 1975 年，凭借着强大的 Windows 操作系统以及软件领域的实力，坐上了科技界的头把交椅。

1998年，谷歌诞生了。

随着移动互联网的崛起，谷歌的安卓系统成为了主流。在自己的强项——操作系统上输给了后起之秀，微软对自己错失良机懊悔不已。

后来微软推出了必应，想在谷歌擅长的搜索引擎领域分一杯羹，但结局大家也都知道——真的只是分了一小杯羹。

而自CEO纳德拉上任后，微软的愿景描述中加入了AI。微软将自身的发展战略从「移动为先、云为先」修改为「智能云和智能边缘计算」。

这次布局的成果我们也看到了，在以聊天机器人为代表的AI之战第一回合中，微软更胜一筹。接下来谷歌会如何反击，我们拭目以待。

微软的发展历程告诉我们，暂时的落后并不可怕，不要纠结已经失利的当下，而要关注充满机遇的未来。及早布局，才能弯道超车。

而我也很有幸见证这一切，一边感慨着科技巨头们的精彩过往，一边期待着下一个超越ChatGPT和Kosmos-1的人工智能。

我并不确定你会不会忽然地出现在街角的咖啡店，但通用人工智能会出现在下一个街角，是确定的。

文中部分图片来自论文《Language Is Not All You Need: Aligning Perception with Language Models》

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货