在近日OpenAI最新Sora模型发布引发全球AI领域热议之际,谷歌公司不甘示弱,趁热打铁推出了其下一代人工智能模型——Gemini 1.5。
这一消息由谷歌首席执行官Sundar Pichai与首席科学家Jeff Dean等高层联合在网上上宣布,瞬间引起了业界的广泛关注。
尽管OpenAI的新作吸引了大部分目光,但Gemini 1.5凭借在跨模态长文本理解上的惊人突破,成功从侧翼突围,成为近期AI圈内的一大焦点。
这款新模型展现出前所未有的信息处理能力,能够稳定驾驭高达100万个tokens的信息量,相当于约1小时视频、11小时音频、3万行代码或70万个单词的庞大数据体量。
这一壮举不仅让Gemini 1.5轻松超越了自家的Gemini 1.0 Pro(3.2万tokens)以及市场上的GPT-4(12.8万tokens)和Claude 2.1(20万tokens),更是打破了当前公开LLM在上下文窗口长度上的纪录。
更令人惊叹的是,谷歌透露Gemini 1.5已经在实验环境中成功测试处理过1000万tokens的数据,这相当于将整部《指环王》三部曲的内容一次性摄入模型进行分析。
Pichai对此表示,更大的查询窗口为企业级应用提供了无限可能,例如电影制作人可以上传整部作品获取Gemini对剧情走向的专业意见,审计人员也能利用它来高效审查海量财务记录。
此次升级,Gemini 1.5采用了时下最先进的MoE架构设计,以提升模型效率和响应质量。
相较于传统Transformer模型的大一统网络结构,MoE模型创新地将自身划分为多个专业模块,在处理任务时针对性地激活最合适的子模块,从而实现资源的有效分配与精准计算。
这种架构不仅适用于大规模数据集的复杂任务,还赋予了模型更强的可扩展性和灵活性,据称包括GPT-4在内的诸多先进模型都在不同程度上运用了该技术。
根据Google提供的初步数据,供早期测试的Gemini 1.5 Pro在数学、科学、推理、多语言处理及视频理解等领域取得了显著进步,即便是在较少计算资源条件下,其性能已接近上一代旗舰产品Gemini 1.0 Ultra。
在官方演示和技术论文中,Google通过一系列实例展示了Gemini 1.5 Pro的强大功能:
复杂推理与多模态分析:
该模型能无缝解析并总结复杂的文档内容,如针对阿波罗11号登月任务长达402页的PDF文件,Gemini能够在短时间内按要求列出三个关键瞬间,并提供原始对话引用;
对于雨果的巨著《悲惨世界》,它不仅能概述场景,还能准确指出特定画面所在页码及其相关情节。
超长视频理解:
面对时长44分钟、相当于68.4万tokens的无声电影《Sherlock Jr.》,Gemini 1.5 Pro能在短短57秒内给出精炼的剧情概要,并迅速回应关于影片中“纸张从口袋取出”的具体时间和关键信息。
深度代码分析:
当面临一个包含超过10万行代码、总计81.6万tokens的大型项目时,该模型可以快速定位到指定demo的代码段,甚至提出有益的修改建议并详尽解释理由。
此外,Gemini 1.5 Pro在“上下文学习”方面的表现堪称惊艳。
在一项特别测试中,研究人员向模型输入了一本关于Kalamang语(一种使用者仅不足200人的濒危语言,且网络资料极其稀少)的语法书、双语词汇表和大量平行句子,总计约25万tokens作为上下文信息。
在没有任何预先训练的情况下,Gemini 1.5 Pro成功掌握了从英语到Kalamang语以及反之的翻译技能,其翻译质量接近人类水平,在半本书内容的翻译效果上明显优于GPT-4 Turbo和Claude 2.1。
谷歌Gemini 1.5的推出无疑为AI领域树立了新的里程碑,尤其是在上下文理解和处理能力方面取得的重大突破,使得企业在处理复杂信息和知识密集型任务时拥有了更为强大的工具。
随着Gemini 1.5崭露头角,OpenAI在头条位置上的短暂独占似乎显得有些冤枉,而这场围绕AI模型效能的竞争无疑会继续推动整个行业的创新与发展。
领取专属 10元无门槛券
私享最新 技术干货