首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌 DeepMind 推出 Mirasol3B 模型,旨在提高对长视频输入的理解能力

据 VentureBeat 报道,本周二,谷歌 DeepMind 披露了其人工智能研究的一项重大进展,提出了一个新的自回归模型,旨在提高对长视频输入的理解能力。这个被命名为“Mirasol3B”的新模型展示了一种突破性的多模态学习方法,能以更综合、更高效的方式处理音频、视频和文本数据。

谷歌研究院的软件工程师 Isaac Noble 和谷歌 DeepMind 的研究科学家 Anelia Angelova 表示,构建多模态模型的挑战在于模态的异质性。他们解释说:“有些模态可能在时间上很同步(如音频、视频),但与文本不一致。”“此外,视频和音频信号的数据量比文本大得多,因此在多模态模型中将它们结合在一起时,视频和音频往往无法被完全利用,需要进行不成比例的压缩。对于较长的视频输入而言,这一问题更加严重。”针对这种复杂性,谷歌的 Mirasol3 B 模型将多模态建模分解为单独的重点自回归模型,根据模态的特性处理输入。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O6PhFqd6cftBDqeUT0ewueSg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券