“AI 领域刚开年就风起云涌,先是 Open AI 推出了 Sora 炸弹,Gemini Ultra 刚发布没几天,Gemini 1.5 就已经来袭,更是悄然开源了全新的大模型 Gemma,谷歌可真是进入了高产模式。”
Gemini 1.5
就在不久前,谷歌的 DeepMind 首席科学家 Jeff Dean 和联合创始人兼 CEO Demis Hassabis 兴奋地宣布了全新一代多模态大型模型——Gemini 1.5 系列的问世。
其中,Gemini 1.5 Pro 是能够支持最高达 10,000K token 超长上下文的,也是谷歌目前最强大的 MoE 大型模型之一。
可以想象,借助百万级 token 上下文的支持,我们可以更轻松地与数十万字的超长文档、拥有数百个文件的庞大代码库,甚至是一整部电影等进行交互。
同时,为了向大家介绍这一划时代的模型,谷歌还发布了长达 58 页的技术报告。
这次的突破将使大语言模型领域进入全新的时代!
在上下文窗口方面,先前的 SOTA 模型已经扩展到了 200K token(20 万)。而现在,谷歌成功将这一数字大幅提升,能够稳定处理高达 100 万 token(极限为 1000 万 token),刷新了上下文窗口的最长记录。
对于文本处理,Gemini 1.5 Pro 在处理高达 530,000 token 的文本时,能够实现 100% 的检索完整性;在处理 1,000,000 token 的文本时,达到了 99.7% 的检索完整性;甚至在处理高达 10,000,000 token 的文本时,检索准确性仍然高达 99.2%。
在音频和视频处理方面,Gemini 1.5 Pro 也表现出色。它能够在数小时的音频或视频资料中,成功检索到各种隐藏的片段和视觉元素。
此外,谷歌研究人员还开发了一个更通用的版本的「大海捞针」测试,结果显示,Gemini 1.5 Pro 在较短的文本长度上的性能超过了 GPT-4 Turbo,并且在整个 100 万 token 的范围内保持了相对稳定的表现。
与之相比,GPT-4 Turbo 的性能则急剧下降,且无法处理超过 128,000 token 的文本。
Gemini 1.5 Pro 的设计基于谷歌在 Transformer 和混合专家(MoE)架构方面的前沿研究。与传统的 Transformer 不同,MoE 模型由许多小型的「专家」神经网络组成,能够根据不同的输入类型激活最相关的专家网络路径,从而提高模型的效率。
看看官方甩给它一份阿波罗11号任务到月球的402页飞行记录,它对于多复杂的信息,都能表现出深刻的理解。
让它从文件中列举出3个喜剧性的时刻,接下来,就是见证奇迹的时刻——
才过了30秒出头,答案就已经生成了!
接下来,看看它的多模态功能。
把这张图输入进去,问它:这是什么时刻?
它会回答,这是阿姆斯特朗迈上月球的一小步,也是人类的一大步。
比如,输入这部44分钟的无声电影——Buster Keaton主演的经典之作《小神探夏洛克》。
模型不仅能够精准地捕捉到电影的各个情节和发展,还能洞察到极易被忽略的细微之处。
我们可以问它:找到一张纸从主角口袋中被拿出的瞬间,然后告诉我关于这个细节的信息。
令人惊喜的是,模型大约用了60秒左右就准确地找出,这个镜头是在电影的12:01,还描述出了相关细节。
果然,模型精准找出了这个镜头的时间点,所述细节也完全准确!
输入一张粗略的涂鸦,要求模型找到电影中的对应场景,模型也在一分钟内找到了答案。
不仅如此,Gemini 1.5 Pro在处理长达超过100,000行的代码时,还具备极强的问题解决能力。
面对如此庞大的代码量,它不仅能够深入分析各个示例,提出实用的修改建议,还能详细解释代码的各个部分是如何协同工作的。
开发者可以直接上传新的代码库,利用这个模型快速熟悉、理解代码结构。
这一架构创新不仅使模型更快地掌握复杂任务、保持高质量输出,还使训练和部署变得更加高效。因此,谷歌团队能够以惊人的速度不断迭代和推出更先进的 Gemini 版本。
Gemma
这次推出的 Gemma 比起旗下的 Gemini 更为轻盈,同时也放出了模型权重。不仅可以在笔记本电脑上运行,而且还支持免费商用,还能用中文。看来不少初创公司都看到了商机。
对于还不了解 Gemma 的人,可以跟着我们一起来了解一下。
Gemma 是一个轻量级、最先进的开源大模型,采用了和 Gemini 模型相同的技术构建。Gemma 是由 Google DeepMind 和 Google 其他团队共同开发的,灵感来自双子座,拉丁语中 gemma 的意思是“宝石”。除了释放模型权重,谷歌还放出了一些工具,来支持开发人员进行创新、促进合作,并指导负责任地使用 Gemma 模型。
目前 Gemma 已经全球上线。以下是一些关于 Gemma 的要点:
两种尺寸的模型权重:Gemma 2B 和 Gemma 7B。每种尺寸都有预训练和指令微调版本。
一个生成式人工智能工具包,提供指导和必要工具,以创建更安全的 AI 应用程序。
通过原生 Keras 3.0,为所有主要框架(JAX、PyTorch 和 TensorFlow)提供推理和监督微调(SFT)的工具链。
准备好的 Colab 和 Kaggle 笔记本电脑,以及与 Hugging Face、MaxText、NVIDIA NeMo 和 TensorRT-LLM 等流行工具的集成,使得 Gemma 的使用变得更容易。
经过预训练和指令微调的 Gemma 模型可以在笔记本电脑、工作站或 Google Cloud 上运行,并可以轻松部署到 Vertex AI 和 Google Kubernetes Engine (GKE) 上。
通过对多个人工智能硬件平台的优化,确保行业领先的性能,包括 NVIDIA GPU 和 Google Cloud TPU。
使用条款允许负责任的商业使用和传播。
Gemini 是目前市场上最大、功能最强的人工智能模型,而 Gemma 与 Gemini 之间共享技术和基础设施组件。这也使得 Gemma 2B 和 7B 能够在规模上胜过其他开源模型。
Gemma 更为轻量级,可以直接在开发人员的笔记本电脑或台式计算机上运行。值得一提的是,Gemma 在 18 个关键基准测试中,已经明显超越了当前的主流模型 Llama-2 和 Mistral。
特别是在数学、科学和编码相关的任务中,Gemma 表现出色。
看来之前被 Sora 抢走的热点,这次谷歌决心要抢回来。
就连 Google 人工智能研究员、Keras 作者 François Chollet 也表示:“最强开源大模型的位置现在易主了。”
不少用户已经开始尝试安装使用了。
发布当天仅仅几个小时,在 Hugging Face 上,Gemma 的 2B 和 7B 模型就已经双双登顶。
AI 全民时代真的要到了吗?
面对如此热火朝天的 AI 世界,作为普通人,还是需要踏实打好基础,不断更新技能,为未来做好准备!
领取专属 10元无门槛券
私享最新 技术干货