引言
2023年,AI巨头谷歌不温不火,紧急推出BARD还被人笑话,憋了大半年后,终于露面了。
(1)Gemini 介绍
(1.1)Gemini 1.0发布
2023年12月6日上午,谷歌CEO劈柴正式宣布,“大杀器”Gemini 1.0,正式上线。
Google官网上毫不谦虚的说:The Gemini era
链接:https://deepmind.google/technologies/gemini/#capabilities
超强的原生态多模态大模型
Gemini 1.0上下文窗口为32k,基于谷歌自家的TPUs v4 和 v5e进行大规模训练
(1.2)Gemini 能力
Gemini原生多模态,支持任意模态的输入和输出,涉及文本、图像、视频、音频和代码。
除了多模态理解,还有多模态推理能力,官方提供了多个示例
多模态对话、多语言能力、游戏创作、视觉猜谜、自动关联、文本图像生成、逻辑空间推理、可视翻译、文化理解
演示视频:
详见官网:https://deepmind.google/technologies/gemini/#capabilities
(1.3)Gemini 应用案例
Gemini AI实际应用:
图片转代码
相似图片搜索
异常emojis表情理解
穿搭理解
猜电影
环境感知
(1.4)Gemini 版本
一口气发布三个版本
Ultra:超级版,最强的模型,处理复杂任务,云端,尚未公开服务,预计2024年初优先面向开发者和企业客户,还会应用到Bard Advanced版。
Pro:专业版,适合大部分任务;已落地到升级版Bard上,理解、总结、推理、编码和规划等方面的能力更强。
Nano:迷你版,端侧设备上部署推理,Nano还细分了两种型号尺寸:Nano-1(18 亿参数)和 Nano-2(32.5 亿参数),分别针对低内存和高内存设备,已部署到Pixel Pro手机
另外,Pixel 8 Pro 是为Gemini Nano设计的首款谷歌智能手机,不用联网就可以离线调用。
Pixel 8 Pro有两个自带功能
手机录音内容自动归纳总结;
WhatsApp上聊天时,谷歌键盘可以根据聊天内容,自动给出推荐回复的文字。
12月13日,借助Google AI Studio 和 Google Cloud Vertex AI,大家就可以将Gemini能力继承到自己的应用里了。
(2)Gemini评测
总结
Gemini Pro在8个基准测试中6个优于 GPT-3.5
Gemini Ultra几乎全方面击败GPT-4!
(2.1)Gemini vs Human
Gemini在MMLU数据集上的表现优异(90%),首次超越人类(89.8%),而GPT-4是86.4%。
(2.2)文本效果
除了HellaSwag数据集,其余全部超过GPT-4
(2.3)多模态效果
Gemini在几乎所有多模态任务上超过GPT-4V,达到sota(state of the art),除了1个数据集FLEURS。
(3)Gemini 实测
Ultra版和Nano版暂未放开,目前个人能体验的是Pro版,在BARD上体验。
BARD实验版支持文本+图片模态对话,因此,以下case侧重图文模态,暂不含视频。
(3.1)案例一:古董鉴赏
输入
图片:一个宋代文物图(略)
问题:这是什么,怎么分辨,哪个年代的
GPT-4:解读很仔细,有模有样,细节多,略啰嗦
Gemini:简介扼要,比GPT-4好
(3.2)案例二:流程图理解
图片:一个PEFT技术方法的韦恩图
问题:这个图说的啥
GPT-4:图里的关键内容识别正确,分类清晰准确
Gemini:全部译成中文,少了英文名字,解读全面
(3.3)案例三:服饰理解
图片:古装美女图(略)
问题:这是哪个国家的?
GPT-4:知道图片非实拍,中国古汉服。
Gemini:拒绝识别,可能被Gemini识别为危险图片,自动删除,拒识。
其它:
装修设计咨询:识别出简约风格,颜色,并给出合理建议。
(3.4)总结
图文模态的3个case中,Gemini胜2负1,确实如宣传所说,优于GPT-4.
附录
领取专属 10元无门槛券
私享最新 技术干货