首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI模型解码海豚语言通信技术

AI模型解码海豚语言通信技术

原创
作者头像
用户11764306
发布2026-01-09 19:26:55
发布2026-01-09 19:26:55
1120
举报

DolphinGemma:AI如何帮助解码海豚通信

数十年来,理解海豚的咔嗒声、哨声和爆发脉冲一直是一个科学前沿。如果我们不仅能倾听海豚的声音,还能充分理解它们复杂通信的模式以生成逼真的回应,会怎样?

今天,在“全国海豚日”,某中心的研究人员与佐治亚理工学院的研究人员以及野生海豚项目的实地研究合作,宣布了DolphinGemma的进展:这是一个基础AI模型,旨在学习海豚发声的结构并生成新的类海豚声音序列。这种探索跨物种通信的方法正在推动AI的边界以及我们与海洋世界潜在的连接。

研究海豚社会数十年

理解任何物种都需要深入的背景,这正是WDP提供的诸多信息之一。自1985年以来,WDP开展了世界上运行时间最长的水下海豚研究项目,研究巴哈马地区一个特定的野生大西洋斑点海豚社群,跨越了数代海豚。这种非侵入性的、“在它们的世界,按照它们的规则”的方法产生了一个丰富、独特的数据集:数十年的水下视频和音频,与单个海豚的身份、生活史和观察到的行为精心配对。

WDP的一个主要重点是观察和分析海豚的自然通信和社交互动。在水下工作使研究人员能够将声音与特定行为直接联系起来,这是水面观测无法做到的。几十年来,他们已将声音类型与行为情境关联起来。以下是一些例子:

  • 用于母子重聚的独特签名哨声(唯一名字)
  • 在打斗时常见的爆发脉冲“嘎嘎声”
  • 在求偶或追逐鲨鱼时常用的咔嗒“嗡嗡声”

了解相关的个体海豚对于准确解释至关重要。这项观察工作的最终目标是理解这些自然声音序列中的结构和潜在含义——寻找可能指示语言的模式和规则。这种对自然通信的长期分析构成了WDP研究的基石,并为任何AI分析提供了必要的背景。

介绍DolphinGemma

分析海豚自然、复杂的通信是一项艰巨的任务,而WDP庞大且标注的数据集为尖端AI提供了独特的机会。

这就是DolphinGemma。由某中心开发,这个AI模型利用了特定的音频技术:SoundStream标记器有效地表示海豚声音,然后由适合处理复杂序列的模型架构进行处理。这个约4亿参数的模型规模适中,可以直接在WDP野外使用的某机构手机上运行。

该模型基于Gemma的见解构建,Gemma是某机构一系列轻量级、最先进的开源模型,由为Gemini模型提供动力的相同研究和技术构建而成。DolphinGemma在大西洋斑点海豚的声学数据库上进行了大量训练,作为一个音频输入、音频输出模型,它处理自然海豚声音序列,以识别模式、结构,并最终预测序列中可能的下一个声音,这类似于人类语言的大型语言模型预测句子中的下一个词或标记。

WPD正计划在本季实地部署DolphinGemma,并有望立即带来好处。通过识别重复的声音模式、聚类和可靠的序列,该模型可以帮助研究人员揭示海豚自然通信中隐藏的结构和潜在含义——这项任务以前需要耗费大量人力。最终,这些模式,结合研究人员创建的合成声音(用于指代海豚喜欢玩耍的物体),可能会建立一个与海豚互动的共享词汇表。

使用某机构手机聆听和分析海豚声音

除了分析自然通信外,WDP还正在追求另一条平行的路径:利用海洋中的技术探索潜在的双向互动。这项努力导致了CHAT(鲸类听觉增强遥测)系统的开发,与佐治亚理工学院合作完成。CHAT是一个水下计算机系统,其设计目的不是直接破译海豚复杂的自然语言,而是建立一个更简单的共享词汇表。

这个概念首先依赖于将新颖的合成哨声(由CHAT创建,与自然海豚声音不同)与海豚喜欢的特定物体(如马尾藻、海草或研究人员使用的丝巾)关联起来。通过在人类之间演示该系统,研究人员希望天生好奇的海豚能学会模仿这些哨声来请求这些物品。最终,随着对海豚更多自然声音的理解,它们也可以被添加到系统中。

为了实现双向互动,CHAT系统首先需要:

  1. 在海洋噪音中准确听到模仿声。
  2. 实时识别被模仿的是哪个哨声。
  3. 通知研究人员(通过可在水下工作的骨传导耳机)海豚“请求”了哪个物体。
  4. 使研究人员能够快速响应,提供正确的物体,从而强化这种关联。

一部某机构Pixel 6实时处理了海豚声音的高保真分析。下一代系统以某机构Pixel 9为中心(研究计划于2025年夏季进行),在此努力基础上整合了扬声器/麦克风功能,并使用手机的高级处理能力同时运行深度学习模型和模板匹配算法。

使用某机构智能手机极大地减少了对定制硬件的需求,提高了系统可维护性,降低了功耗,并缩小了设备的成本和尺寸——这些对于在开阔海洋中进行实地研究至关重要。同时,DolphinGemma的预测能力可以帮助CHAT在发声序列的早期预测和识别潜在的模仿声,从而提高研究人员对海豚反应的速度,使互动更加流畅并起到强化作用。

与科研界共享DolphinGemma

认识到科学发现中协作的价值,计划在今年夏天将DolphinGemma作为开源模型分享。虽然该模型在大西洋斑点海豚的声音上进行了训练,但预计其对研究其他鲸类物种(如宽吻海豚或飞旋海豚)的研究人员也具有潜在效用。对于不同物种的发声,可能需要进行微调,而该模型的开源特性有助于这种适应。

通过提供DolphinGemma这样的工具,旨在为全球的研究人员提供工具来挖掘他们自己的声学数据集,加速寻找模式的进程,并共同加深我们对这些智能海洋哺乳动物的理解。

理解海豚通信的旅程是漫长的,但WDP专注的实地研究、佐治亚理工学院的工程专业知识以及某机构技术力量的结合正在开启令人兴奋的新可能性。我们不再仅仅是倾听。我们开始理解声音中的模式,为一个未来铺平道路——在这个未来,人类与海豚之间的通信鸿沟或许会变得更小一些。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • DolphinGemma:AI如何帮助解码海豚通信
    • 研究海豚社会数十年
    • 介绍DolphinGemma
    • 使用某机构手机聆听和分析海豚声音
    • 与科研界共享DolphinGemma
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档