首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软推出Kosmos-1,比ChatGPT更强大?

微软的发展历程告诉我们,暂时的落后并不可怕,不要纠结已经失利的当下,而要关注充满机遇的未来。及早布局,才能弯道超车。

01

比ChatGPT更强大的AI应用来了?

最近,微软推出了全能型人工智能模型——Kosmos-1。与局限于文本内容( LLM)的ChatGPT相比,Kosmos-1属于多模式大型语言模型(MLLM),目前能同时理解文字与图像内容,未来会整合更多的输入模式,如音频、视频。

从上图Kosmos-1的应用中我们可以很直观的看出,Kosmos-1和ChatGPT一样具有多轮对话能力、逻辑推理能力等像人类一样的思维能力,并在此基础上增加了图片的输入模式。

02

除了视觉对话,Kosmos-1还能怎么用?我们来看一下微软研究员在《Language Is Not All You Need》这篇学术论文中所展示的Kosmos-1的应用示例。

图1~2展示了Kosmos-1的图像解释说明能力,有点像小时候我们做的看图说话类题目;图3~6展示了Kosmos-1的视觉应答能力,其中包含图像、网页、数学公式的识别及应答;图7~8展示了Kosmos-1的数字识别能力。

对了,Kosmos-1还是第一个能完成零样本瑞文智商测试的AI,只是准确率还不高,经过指令调教之后,准确率为26%。

和ChatGPT一样,AI不懂的东西我们可以去教它。比如,Kosmos-1无法从图片判断出是哪种啄木鸟,或者说,它并不知道三趾啄木鸟和绒毛啄木鸟的区别,这时候我们可以告诉它这两类啄木鸟的特征分别是什么,帮助它进行判断。

总的来说,Kosmos-1目前既可以进行语言理解、语言对话等语言任务,也可以实现图像说明、视觉识别、视觉对话、视觉智商测试等视觉任务,相当全能。

03

前有与OpenAI合作的ChatGPT,后有更全能的Kosmos-1,微软在人工智能的赛道上可谓风骚绝代。

要知道,在移动互联网时代,这位老大哥是落后的。

微软成立于 1975 年,凭借着强大的 Windows 操作系统以及软件领域的实力,坐上了科技界的头把交椅。

1998年,谷歌诞生了。

随着移动互联网的崛起,谷歌的安卓系统成为了主流。在自己的强项——操作系统上输给了后起之秀,微软对自己错失良机懊悔不已。

后来微软推出了必应,想在谷歌擅长的搜索引擎领域分一杯羹,但结局大家也都知道——真的只是分了一小杯羹。

而自CEO纳德拉上任后,微软的愿景描述中加入了AI。微软将自身的发展战略从「移动为先、云为先」修改为「智能云和智能边缘计算」。

这次布局的成果我们也看到了,在以聊天机器人为代表的AI之战第一回合中,微软更胜一筹。接下来谷歌会如何反击,我们拭目以待。

04

微软的发展历程告诉我们,暂时的落后并不可怕,不要纠结已经失利的当下,而要关注充满机遇的未来。及早布局,才能弯道超车。

而我也很有幸见证这一切,一边感慨着科技巨头们的精彩过往,一边期待着下一个超越ChatGPT和Kosmos-1的人工智能。

我并不确定你会不会忽然地出现在街角的咖啡店,但通用人工智能会出现在下一个街角,是确定的。

文中部分图片来自论文《Language Is Not All You Need: Aligning Perception with Language Models》

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230309A02E6B00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券