站长之家(ChinaZ.com) 3月5日消息:微软近期已经将与OpenAI合作的ChatGPT技术应用在新版Bing搜索等产品,但并没有停下探索的脚步。微软日前公布名为「Kosmos-1」的多模式大型语言模型,将能同时理解文字与图像内容,以对应更复杂、多元的人工智能技术应用。
ChatGPT 是纯文本 LLM,而它是更强大的多模式大型语言模型(MLLM)。Kosmos-1可以处理文本、音频、图像和视频等内容,构建一个全能型的人工智能,可以像人类思维一样来处理任务。
微软表示,用于训练Kosmos-数据同样源自网络,同时为了让Kosmos-1能进一步理解图像内容,研究人员通过事先将图像以文字内容加上大量标记,让此大型语言模型可以进一步理解图像内容,以实现多模式大型语言模式。加入图像内容理解能力之后,将有助于Kosmos-1识别文字以外的图像内容,甚至进一步判断动态视频描述内容。
在进一步朝多模式大型语言模型发展后,微软预期将能在全能型的人工智能技术发展迈进一大步,不再让现有人工智能局限对应特定领域应用发展。
领取专属 10元无门槛券
私享最新 技术干货