万众瞩目、被业界认为最有可能打败GPT-4的谷歌最强AI大模型终于亮相了!
美西时间12月6日,谷歌首席执行官Sundar Pichai和DeepMind负责人Demis Hassabis共同在官网宣布Gemini 1.0正式上线。
Gemini(双子座)由Google Research和DeepMind等多个Alphabet团队共同打造。作为一款新型的强大多模态人工智能模型,它可以归纳、理解、操作以及组合不同类型的信息。不仅能够处理文本,图像、视频和音频,还可以完成复杂的数学、物理等科学领域任务,并能理解和生成各种编程语言的高质量代码。
Pichai将Gemini 形容为“我们迄今为止规模最大、能力最强的AI模型”,并表示它在许多领先的基准测试中都展现出最先进的性能。“第一代 Gemini 1.0 针对不同尺寸进行了优化,分别是:Ultra、Pro 和 Nano。这些是进入 Gemini 时代的第一个模型,也是我们今年早些时候成立 Google DeepMind 时的愿景的首次实现。”
在今年5月的Google I/O大会上,Pichai就剧透谷歌正在开发Gemini的消息。它被描述为“下一代多模态智能网络”,为 API集成而设计,据传拥有像 GPT-4 一样的万亿参数,算力却是GPT-4 的5倍,能够执行更复杂多样的任务。
为此,谷歌还将自己的两个最强人工智能实验室:谷歌大脑(Google Brain)和 DeepMind合并,由原DeepMind首席执行官Demis Hassabis带队,投入数亿美元潜心研发Gemini。
甚至连已经辞职四年、云淡风轻地做公益、搞飞艇的谷歌联合创始人谢尔盖·布林也重新回归,亲自坐镇硅谷山景城办公室参与 Gemini决策,加入了这场LLM大混战。
可就在上周, The Information援引知情人士消息称,Pichai近期默默取消了本该在加利福尼亚、纽约和华盛顿举行的一系列Gemini公开亮相活动,原因是发现它“处理某些非英语查询时不可靠”,给产品面世过程蒙上一层灰色。
也许是为了巩固市场信心,今天一早,Gemini 1.0忽然隆重登场,强势出现在大众的视野中,迅速占据各大科技媒体头版。
那么这个谷歌举全军之力押注的最强人工智能大模型,到底怎么样?
三个版本,灵活部署
DeepMind负责人Hassabis称Gemini是他们最灵活的模型,能够在从数据中心到移动设备的各种设备上高效运行。
为了实现这种可扩展性,Gemini 1.0设计了三个不同功能和尺寸版本:
Gemini Nano — 端侧设备上最高效的模型。专为智能手机设计,可以在没有连接外部服务器的情况下执行高效的 AI 处理任务。现已集成入Pixel 8 Pro,可以支持录音应用中的“总结文本”功能,Gboard “智能回复”功能。从 WhatsApp 开始,明年还将扩展到更多应用。
Gemini Pro — 运行在谷歌数据中心,适用于各种任务的最佳模型。从今天起为最新版本的AI聊天机器人 Bard 提供支持。它能够快速响应并理解复杂查询,是 Bard推出以来的最大升级。目前为170 多个国家和地区提供英语服务,计划未来几个月内支持新的语言和地区,并应用于搜索、广告、Chrome 和 Duet AI等更多谷歌产品。
Gemini Ultra —规模最大且功能最强大的模型,专用于高度复杂的任务,会在完成当前测试阶段后的明年初向开发者和企业客户提供。届时还会推出基于Gemini Ultra的Bard Advanced更新版本。
在模型架构方面,Gemini依然使用Transformer架构,采用了高效的注意力机制,支持32k的上下文长度。
跑赢多项GPT-4先进性能
谷歌自信表示,在对 Gemini 模型进行严格测试和性能评估后,从自然图像、音频和视频理解到数学推理,在被大型语言模型研究和开发中广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项都超越了目前ChatGPT 代表的最先进水平。发布Gemini前,谷歌对它进行了一系列以标准行业指标评估的测试。
大规模多任务语言理解(MMLU)测试中,Gemini Ultra得分率为90.0%,高于GPT-4的86.4%,成为首个超越人类专家表现的模型。MMLU 测试涵盖了包括数学、物理、历史、法律、医学和伦理在内的57个科目,旨在评估模型在全球知识领域的理解和问题解决能力。
在Reasoning(推理)、Math(数学)、Code(编码)三大块能力测试中,除HellaSwag(日常任务常识推理)以87.8%落后于GPT-4 的95.3%外,其它包括“多步推理挑战性任务”、“”代数/几何/预微积分等挑战性数学问题“、“Python代码生成”等多项测试都取得了比GPT-4更高的得分率。
多模态能力上,Gemini Ultra在新的MMMU基准测试中获得59.4%的SOTA分数,超过了OpenAI多模态版本GPT-4V的56.8%。这项基准测试跨越了多个不同的领域,需要精密推理多种任务。
在图像基准测试中,即使没有采用对象字符识别(OCR)系统辅助,仅通过分析像素信息,Gemini Ultra的表现还是超过了以往所有模型。音频测试方面,Gemini的自动语音识别和自动语音翻译分数均高于接入GPT-4的Whisper系统。
Hassabis表示,这凸显出了Gemini原生多模态的优越性。到目前为止,创建多模态模型的通常做法是先独立训练不同模态的单独组件,再把它们拼接起来,试图模拟出一些功能。
这样的模型虽然有时可以有效执行描述图片等特定任务,但在概念性更强、更复杂的推理方面,它们往往表现不佳。
而Gemini起初就是以原生多模态的方式设计,从一开始就在不同模态上使用由 Google 设计的 TPUs v4 和 v5e芯片接受预训练。接着用更多额外的多模态数据对它进行不断微调,以提升效能。
这种方法使得Gemini在最初阶段就能更自然地理解和推理各种类型的输入内容,在几乎所有领域的能力都达到了前所未有的先进水平。
下一代模型能力大升级
首先,Gemini具有复杂的多模态推理能力,可以帮助理解复杂的书面和视觉信息,在海量的数据中发掘难以辨别的知识内容。
例如,通过自然语言prompt指示它过滤不相关论文,或通过阅读提取关键数据。只需一个午饭休息时间,Gemini就可以帮你从20万篇论文中提取250篇文献要点,进一步将数据转化为任何需要的图表形式。这将大大有助于在科学、金融等多个领域以数字化速度实现创新突破。
经过训练的Gemini显然还可以同时识别并理解文本、图像、音频数据,更好地理解具有细微差别的信息,回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等科目推理。在示例中,工作人员展示了Gemini可以检查手写物理错题,并解释正确做法。
为了更直观显示Gemini的多模态能力,劈柴哥在X发布了一段视频,表示“理解Gemini潜在惊人能力的最佳方式就是看看它们的实际应用”。
视频中,Gemini根据指示教工作人员“鸭子”的普通话发音,还解释了汉语声调。
工作人员还给Gemini做了一个仅用中文提示互动的演示。通过询问一张图片中的室内光线,用中要求Gemini给出公寓朝向。Gemini用中文回答猜测房间朝南。又圈出照片中一株植物,询问它需要什么样的照明,gemini接着解释了植物种类和光照需求。整个过程母语般流畅,可见Gemini在多语言环境下表现出众,完全也不亚于GPT-4。
此外, Gemini 还可以理解、解释和生成世界上最流行的编程语言(如 Python、Java、C++ 和 Go)的高质量代码。实现跨语言工作并对处理复杂信息,这些能力使其成为世界领先的编码基础模型之一,协助程序员使用功能强大的 AI 模型作为协作工具设计应用程序。
对于开发人员来说,从 12 月 13 日开始,就可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 获取 Gemini Pro。Android 开发者还可以通过 AICore 使用端侧任务最高效的模型 Gemini Nano。
谷歌能否迎头赶上?
回想谷歌一路的大模型发展之路,与OpenAI“王炸“不断、极速更新,微软将GPT各项AI功能整合进核心产品铺天盖地推向客户相比,总显得慢人一步。今年2月发布聊天机器人Bard时更是出师不利,以一个事实错误让市值一夜蒸发1000亿美元;对标微软Copilot的Duet AI工作套件,市场反响不愠不火,云服务的财报表现也败给了微软。
特别是经历过Brain与DeepMind团队重组内耗、高级人才纷纷向OpenAI流失后,谷歌的AI之战打的更是精疲力竭。
不过,这毕竟是贡献出Transformer开山巨作《Attention is all you need》论文和里程碑式人工智能程序AlphaGo、启发后续包括ChatGPT在内许多大模型发展的AI先驱之师。无论从技术基因、训练数据、资金和基建来说,都本该具备数一数二的实力。
这次Gemini的发布被谷歌视为十年来最关键的技术创新。它能否让谷歌重整旗鼓,击败OpenAI,重登大模型赛场王座?
明年Genmini Ultra问世后,AI竞赛格局是否会被重塑?
以及,新的Google Bard大家都试用了没,感觉如何?
欢迎留言分享,或进群和我们一起探讨!
欢迎加入这个星球,见证硅基时代发展
点个“在看”,再走吧
领取专属 10元无门槛券
私享最新 技术干货