在人工智能领域,一场新的较量正在展开。OpenAI公司在春季更新会上宣布了其最新AI模型GPT-4o,紧接着谷歌也在其年度I/O开发者大会上宣布了Gemini 1.5 Pro模型的更新。两者均在提升其生成性AI模型的性能,展示了新的接口和功能。
GPT-4o和Gemini 1.5 Pro都是高级语言模型,旨在理解用户输入的文本提示,并生成类似人类书写的文本回应。然而,尽管它们功能相似,但每个模型都有其独特的设计和集成方式。例如,GPT-4o旨在与微软产品集成,并独立运行,而Gemini 1.5 Pro则是为谷歌设计的。
在上下文窗口方面,Gemini 1.5 Pro宣布将扩展到100万个token的上下文窗口,并计划在今年晚些时候翻倍至200万token,而GPT-4o及其前身GPT-4的上下文窗口为128,000个token。上下文窗口是指语言模型在生成回应时可以考虑到的文本范围,类似于其记忆能力。更大的上下文窗口意味着模型可以记住更多的先前对话内容,或代表用户处理更多的文字、视频、音频或代码行。
尽管OpenAI和谷歌都没有透露具体的参数信息,但据估计,谷歌模型的参数可能在1.6万亿到175万亿之间。GPT-4o的具体参数尚不清楚,但据报道,其前身GPT-4使用了1.8万亿参数来处理查询。
在信息获取方面,Gemini由于其与互联网的连接,相较于ChatGPT的免费版本中的语言模型GPT-3.5,具有访问更更新信息的优势。然而,随着OpenAI与Reddit和新闻集团签订协议,引入更实时的内容,这种优势可能已经不复存在。
此外,GPT-4o将支持50种语言,而Gemini 1.5 Pro支持35种。尽管如此,考虑到谷歌在Google Translate方面18年的经验,它可能拥有更多的数据来训练其模型的多语言能力。
最后,两个模型都引入了新的会话功能,允许用户与聊天机器人进行更自然的交流。ChatGPT-4o的新界面允许用户与聊天机器人对话或分享实时视频,而谷歌也推出了Gemini Live,允许用户与Gemini进行交流。
这篇文章是根据CNET网站上的报道创作而成,旨在为读者提供关于AI领域最新进展的简明扼要的报道。
参考链接:
https://www.cnet.com/tech/services-and-software/gpt-4o-and-gemini-1-5-pro-how-the-new-ai-models-compare/
领取专属 10元无门槛券
私享最新 技术干货