Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >视觉 AI 的「Foundation Model」,已经发展到哪一步?丨CVPR 2024 现场直击

视觉 AI 的「Foundation Model」,已经发展到哪一步?丨CVPR 2024 现场直击

作者头像
AI科技评论
发布于 2024-07-05 02:26:40
发布于 2024-07-05 02:26:40
2560
举报
文章被收录于专栏:AI科技评论AI科技评论

CVPR 不再只是一个纯粹的学术会议,也是产业发展的嗅觉源。

作者|房晓楠

编辑|陈彩娴

2024 年美国时间 6 月 17 日至 21 日,IEEE 国际计算机视觉与模式识别会议(CVPR)在美国西雅图召开。

如大家预料,视觉 Foundation Model 成为今年 CVPR 除自动驾驶、3D 视觉等传统研究课题以外的核心会议主题。

此外,由于会议召开前后,国内快手「可灵」开放图生视频功能火爆出圈、Runway 时隔一年推出新模型 Gen-3 Alpha,文生视频也成为 CVPR 2024 的一大热词。

今年, CVPR 的两篇最佳论文都颁给了 AIGC。从论文接收数量的角度看,图像和视频合成与生成(Image and video synthesis and generation)以329 篇论文成功占据榜首。而文生视频也属于视觉 Foundation Model 的研究讨论范畴。

事实上,Foundation Model 在人工智能领域的最早出圈就是在计算机视觉领域。

2021 年 8 月,斯坦福大学百位学者联名发表 Foundation Model 综述,作者队列里就有多位计算机视觉领域的翘楚,如李飞飞、Percy Liang 等。但OpenAI 凭借一己之力,在自然语言处理领域的 Foundation Model 上率先弯道超车,通过堆参数量与拼算力,将语言大模型做到极致,语言基座模型的风头也在 2023 年一度盖过了视觉基座模型。

然而,由于 Sora 与可灵等工作的炫丽效果,CV 领域内关于视觉「Foundation Model」的话题又重回牌桌。

在 CVPR 2024 的大会现场,AI 科技评论走访了多位从事过视觉基座模型的研究者,试图求解在现阶段领域内的专家人士如何看待「Foundation Model」。

我们发现:

  • 视觉 Foundation Model 的研究思路也借鉴 OpenAI 的路线,将下一步重要突破放在如预测下一个 visual token、扩大算力规模等思路上;
  • 不止一位研究者认为,无论是语言还是视觉,Foundation Model 的概念崛起后,AI 已经从一个开放的研究问题变成了一条实实在在的「工业生产线」,研究员的目标只有两个——「搞数据」与「搞算力」;
  • 「多模态」成为视觉基础模型研究的一门显学,但视觉与语言两派的合作通道仍未有效建立。

除了 Foundation Model,我们也访谈了自动驾驶、3D 视觉领域的相关人士。我们也发现,诸如 CVPR 等从论文接收截止到会议召开时间长度跨越半年的学术会议,或许已不再适用于跟踪如今变化万象、日新月异的研究成果。

当 AI 研究中工业界与产业界的隔阂越来越小、融合越来越多时,哪怕是一个传统的学术会议也要有跟上时代潮流的意识。

1、「Foundation Model」

的瓶颈与突破

事实上,基于 Transformer 开发通用的视觉基础模型并不是 2023 年 ChatGPT 火起来后才有的研究思路。

国外从微软 Swin Tranformer 到谷歌 ViT,再到国内上海人工智能实验室的「书生」(Intern)系列,都很早开始了通用视觉智能的探索。只不过与 BERT 被 GPT-3 碾压的命运一样,它们都被后来出现的 Sora 光芒掩盖;同时,由于 Sora 的技术路径独辟蹊径,也开始学习 Sora、借鉴 Sora。

在今年的 CVPR 上,上海人工智能实验室的通用视觉团队(OpenGVLab)展示了他们最新的视觉多模态基础模型研究成果 InternVL-1.5。该工作凭借强大的视觉编码器 InternViT-6B、高动态分辨率,以及高质量双语数据集,在业内广受追捧。CMU、面壁智能等国内外的多个开源对比数据也表示,InternVL 的效果名列前茅:

上海人工智能实验室OpenGVLab「书生」多模态大模型团队认为,视觉基础模型区别于以往工作的一个直接体现是多模态对话系统的构建。

InternVL-26B 的研究始于 2023 年 3 月。此前,视觉基础模型的相关研究代表工作是 OpenAI 在 2021 年发表的CLIP。「CLIP 作为古早的视觉基础模型,通过与 BERT 对齐,使 ViT 获得一定程度的语言表征对齐能力,但参数量只有 300 M 左右,规模太小,且对齐的对象不是 LLM。(多模态对话系统的构造)必须使用更多训练数据才能进行表征对齐。」

这启发了上海 AI Lab 团队开始研究 InternVL。他们的目标是在保持基础模型强大性和多功能性的前提下,将其作为对话系统的 backbone,既支持图像检测、分割,也能够像 CLIP 支持多模态任务,例如图文检索。最开始是研究了一个 6+7 的 13B 模型(即 InternVL-Chat-V1.2),但由于在对话系统的实际应用中表现一般,又投入大量精力优化对话功能,又得出了一个 26B 模型,即风靡一时的 InternVL-Chat-V1.5。

从 InternVL-1.5 技术报告得知,视觉基础模型研究的三个关键点是:

一,视觉模型必须接驳能力与之相媲美的语言模型。比如,他们一开始的 7B 语言模型无法充分发挥 6B 视觉模型的优势,但在他们将语言模型的规模扩大到 20B 后,问题得到了大幅改善。InternVL-Chat-V1.5 采用的是书生·浦语的 20B 模型,使模型具备了强大的中文识别能力;二是要适配高分辨率;三是要采用高质量数据集。

在今年的 CVPR 上,GPT-4o 团队作者首次公开分享了背后的技术路线:GPT-4o 的文字转图像采用了 DALL·E 路线,文字转文字是 GPT,文字转语音是 TTS。InternVL 研究员评价,GPT-4o 注重不同模型间的跨模态转化,但 InternVL 的路线是专注于同一个模型上不同模态的输入与文本理解的输出。OpenAI 路线并不是所有视觉Foundation Model 研究的权威路线。

目前领域内有一种声音认为,视觉基础模型应具备更强的离散化特性,即各个模态(包括视觉、语音和3D输入)都转换为离散表示、而非高维向量,并将其存储在同一框架下,解耦对外感知侧模型和 LLM 大脑模型,如此一来,多模态更加统一,训练更加独立,不用再关注视觉模型是否传梯度。

对此,研究员认为,「这是对原生多模态支持的一种尝试,便于进行端到端的训练和跨模态能力的支持。离散压缩可能会损失一些细微但关键的信息,此技术路线还有很多关键问题有待探索。」

针对视觉基础模型的瓶颈与突破方向,思谋科技研究员、香港中文大学 DV Lab 实验室成员张岳晨也提出了相似的看法。

他认为,目前视觉基础模型的难点主要在于大规模高质量数据如何收集和助力大规模的训练。不仅如此,视觉基础模型如何跳出模型输出语言的限制,支持原生多模态(如GPT-4o)也是接下来值得思考与研究的问题。

据 AI 科技评论了解,目前 DV Lab 自研的视觉基座 Mini-Gemini 在开源社区引起了广泛的关注和反响,一度保持 SOTA 的位置,获得了 3k+ 的 stars。在今年的 CVPR 上,贾佳亚 DV Lab 团队的 LISA 模型、Video-P2P 等工作也获得了高度评价。

而南洋理工大学副教授张含望则认为,在视觉基础模型的研究中,大家经常忽视“理解任务”和“生成”任务本质是互斥的问题:前者是要让大模型丢掉视觉信息,而后者是让大模型尽可能保留视觉信息。然而,在语言大模型当中,这种互斥现象确从来没存在过。

张教授认为,症结就在于目前visual token 只是简单地把视觉信号“分块”,这种块状的空间序列和语言的“递归结构”是有本质区别。「如果不把图片或是视频变成递归序列 token 的话,是无法接入大语言模型的,而大语言模型是一个很重要的推理机器。但目前这一块,从行业来看,还没有特别好的研究成果出现,未来值得加大投入研究力度。」

图注:「理解」与「生成」的区别,来自南洋理工大学张含望教授的分享

此外,不止一位研究者认为,无论是语言还是视觉,Foundation Model 的概念崛起后,AI 已经从一个开放的研究问题变成了一条实实在在的「工业生产线」,研究员的目标只有两个——「搞数据」与「搞算力」。

接近 OpenAI 的知情人士也称,一开始冲着OpenAI 的 AGI 光环加入的顶级高校博士毕业生在加入研究后,也发生自己在实际研究中也更多扮演着螺丝钉般的角色,比如花大量的时间处理数据。一句逐渐在 OpenAI 内部成为经典的 Slogan 是:

There is no magic。

2、自动驾驶、端侧 AI

自动驾驶在今年的 CVPR 上占据了非常重要的位置,将语言大模型落地到自动驾驶是特色。

其中,核心就在于如何把大模型放到自动驾驶的场景中,因为驾驶需要理解环境、预测下一个时刻该如何前行,遇到边缘场景(corner case)的时候能否确保安全性等,这些都是自动驾驶领域接下来要重点研究的方向。

今年自动驾驶的一个探索趋势就是,大语言模型为自动驾驶端到端技术的算法和infra提供了新的思路和解决方案。以仿真平台为例,之前的仿真平台,多半是以计算机图形学的能力去做固定引擎,从而生成仿真平台,今年就有多家公司通过生成式AI的方式去做仿真平台。

CVPR 2024 自动驾驶国际挑战赛是业界和学界都关注的重要赛事。该比赛由上海人工智能实验室联合清华大学、图宾根大学、美团等国内外高校和科技企业共同举办,围绕当前自动驾驶领域的前沿技术、实践落地场景难题等共设置了 7 大赛道,吸引了全球近 500 支队伍参赛。

挑战赛要求参赛者开发一个端到端的 AV 模型,使用 nuPlan 数据集进行训练,根据传感器数据生成行驶轨迹。据 AI 科技评论了解,端到端自动驾驶是今年 7 大赛道中竞争最为激烈的赛道之一,冠军来自于英伟达联合复旦大学的自动驾驶算法参赛团队,亚军则是来自中国的零一汽车自动驾驶研发团队。

英伟达的研究人员告诉 AI 科技评论,L2++ 级别的端到端自动驾驶,其能力主要体现于两大板块,分别是 Planning 和 Percetion。

在自动驾驶领域中非常重要的多模态数据集 nuScenes,其中有 93% 的数据只是包含直行在内的简单驾驶场景,天然无法实现工业界产品级别的自动驾驶。这些场景多为自动跟车、自动泊车,以及静态环境信息,如交通标志、道路标示线、交通灯位置等。

Perception 是自动驾驶系统中的感知部分,负责通过各种传感器来感知周围环境的能力。它相当于自动驾驶车辆的“眼睛”,为系统提供关于道路、车辆、行人、障碍物等元素的信息。而 Planning 模块相当于自动驾驶系统中的“大脑”,负责决策和规划车辆的行驶路径。它接收来自上游模块(如地图、导航、感知、预测)的信息,并在当前周期内进行思考并做出判断。

英伟达团队告诉 AI 科技评论,他们所作出的创新在于,在边缘场景的数据量不足够的情况下,使用基于规则的专家(rule-based expert)作为教师,将规则知识蒸馏给神经网络规划器。“我们认为,即便在数据量足够多的情况下,这一方法也将使得神经网络规划器变得更具有解释性。”

除了这些热门话题,在 CVPR 现场,还有很多厂商带来了亮眼的技术与产品,苹果就是其中一家。

从去年开始,苹果对大模型的投入力度肉眼可见地加大,尤其是生成式人工智能(GenAI)。虽然本身并不是一家 AI 能力特别强大的公司,但不懈的努力追赶后,苹果已然成功从一个三流水平的 AI 玩家挤进了二流水平战队。

今年 3 月,苹果正式发布多模态 LLM 系列模型,并在论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,通过构建大模型 MM1,阐述了多模态大模型预训练的方法、分析和见解,引起大众围观。

此次在 CVPR 大会上,论文的作者之一 Zhe Gan 现身大会论坛,系统介绍了苹果在更好地进行多模态大模型预训练所做的最新研究进展。他表示,大规模且与任务相关的数据对于训练高性能模型非常重要,因此,着重分析了如何通过基于模型的过滤和更多样化的数据源,来获得高质量的预训练数据。

据 Zhe Gan 介绍,在实验中,他们使用 45% 有字幕描述图像、45% 交错图像文本和 10% 的纯文本数据混合,作为预训练的数据混合,并为了评估,在各种字幕和 VQA 数据集使用 zero-shot (0-shot)和 few-shot (4-shot 和 8-shot)。

实验结果表明,交错数据对于 few-shot 和纯文本性能至关重要,而字幕数据提高了 zero-shot 性能;纯文本数据有助于提高 few-shot 和纯文本性能;精心混合图像和文本数据可以实现最佳多模态性能,同时保持强大的文本理解能力;合成数据有助于 few-shot 学习。

另外,Zhe Gan 表示,对于当前热门的 MoE 架构来说,可以在保持激活参数不变的情况下扩大模型总参数量,他们正在研究如何为多模态大模型设计更好的 MoE 架构。

3、写在最后

今年的 CVPR 是一场别开生面的盛会。

很多参会人员都向 AI 科技评论表示,相较于往年,今年 CVPR 的 AIGC 元素异常浓厚,新技术、新产品接连涌现,让人印象深刻。但也有一些学者认为,还应该有更多更新的技术出现。

香港中文大学深圳(CUHKSZ)助理教授韩晓光参加完此次 CVPR 之后,认为 CVPR 的论文投稿时可以考虑设置两条轨道,一个是工程轨道,以效果作为动机驱动点,一个是研究轨道,专门以好奇心为驱动。两条轨道都应该需要有最佳论文奖项,Sora 是他心里工程轨道的最佳研究,而今年的「Generative Image Dynamics」则满足了他对最佳研究论文的想象。

「一直思考 CV 的未来是什么景象,斗胆预测(或者是一种希望)未来将 from ‘virtual’ to ‘physical’,可能以各种不同的形式。」韩晓光说道。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
商汤披露:50篇论文入选CVPR 2024
日前,AI顶会常客选手商汤科技,已经披露了今年成绩单:50篇论文入选,其中还有9篇被录用为Oral、Highlight。
量子位
2024/06/21
1990
商汤披露:50篇论文入选CVPR 2024
超 1.2 万人参加 CVPR 2024,谷歌研究院获得最佳论文
北京时间今天凌晨,美国西雅图正在召开的计算机视觉盛会 CVPR 2024 正式公布了最佳论文等奖项。
AI科技评论
2024/06/21
5120
超 1.2 万人参加 CVPR 2024,谷歌研究院获得最佳论文
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5
得益于大语言模型强大的文本理解与生成能力,用户可以用「自然语言」来操控其他模态的模态,比如用文本生成图片、视频等。
新智元
2025/05/21
900
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5
CVPR 2023线下分享会全日程公布,这周六不见不散
近年来,大语言模型(LLM)取得了显著进展,其中尤以 ChatGPT 和 GPT-4 为代表,前者是火出圈的对话模型,后者是多模态大模型。最近一段时间,视觉领域也出现突破性研究,比如 Meta 发布了「分割一切 」AI 模型(SAM),将 NLP 领域的 Prompt 范式延展到 CV 领域。OpenAI 开源模型 Consistency Models 无需对抗训练即可快速获得高质量样本,被视为扩散模型的终结者。同时,3D 与具身智能也成为计算机视觉领域的热门研究课题。 为了便于了解 AI 领域的最新科研成
机器之心
2023/05/31
7180
CVPR 2023线下分享会全日程公布,这周六不见不散
徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂
在 GPT-4 发布一年多后,OpenAI 推出 GPT-4o,是有史以来第一个真正实现「多模态输入—多模态输出」的多模态模型。
AI科技评论
2024/06/17
1670
徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2023/07/26
2790
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
近年来,生成式人工智能(AIGC)引发广泛关注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。
新智元
2025/02/14
1270
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
揭秘 CVPR 2024 Workshop 新兴技术与研究方向(上)
本文汇总了 CVPR 2024 所有的研讨会(上篇),会议中既有延续举办的经典研讨会,也有首次举办的全新研讨会。大部分研讨会的论文征稿已经截止,部分接收的论文也已经公布,欢迎感兴趣的伙伴先行查阅。
CV君
2024/05/20
7480
揭秘 CVPR 2024 Workshop 新兴技术与研究方向(上)
从CVPR 2021的论文看计算机视觉的现状
计算机视觉(Computer Vision, CV)是人工智能领域的一个领域,致力于让计算机能够像人类一样识别和处理图像和视频中的物体。以前,计算机视觉只能在有限的能力下工作。但由于深度学习的进步,该领域近年来取得了巨大的飞跃,现在正在迅速改变不同的行业!
deephub
2021/07/23
4560
从CVPR 2021的论文看计算机视觉的现状
比 Sora DiT 架构早两个月的 U-ViT,由这家中国 AIGC 公司提出
CVPR2023 曾拒稿 OpeanAI 的 DiT,收录生数科技的 U-ViT。
AI科技评论
2024/03/18
3450
比 Sora  DiT 架构早两个月的 U-ViT,由这家中国 AIGC 公司提出
AI Vision 2024:CVPR 引爆科技核爆,解锁计算机视觉未来无限可能!
随着人工智能(AI)的飞速发展,计算机视觉(CV)已经成为支撑多种AI应用的重要基础。从自动驾驶汽车、面部识别系统到精准医疗影像分析,计算机视觉的技术正在极大地改变社会各行各业。CVPR(计算机视觉与模式识别会议)一直是全球计算机视觉领域最为权威的学术会议之一。每年,成千上万的研究人员和工程师通过CVPR展示最新的技术成果和创新思路。2024年的CVPR,带来了令人瞩目的技术突破,标志着计算机视觉技术在多个领域的飞跃发展。
羑悻的小杀马特.
2025/01/25
1740
1.2万人朝圣CVPR,华人学者夺最佳论文!Sora舵手火爆演讲成大型追星现场
2024年CVPR会议将在美国西雅图拉开帷幕,根据官方的公告,本届会议已经成为CVPR历史上规模最大、参与人数最多的一届,截止6月19日,现场参会人数已超过1.2万人。
新智元
2024/06/27
1560
1.2万人朝圣CVPR,华人学者夺最佳论文!Sora舵手火爆演讲成大型追星现场
每周AI论文速递(250414-250418)
我们推出InternVL3,这是InternVL系列的重大突破,采用原生设计的多模态预训练范式。不同于将纯文本大语言模型(LLM)改造为支持视觉输入的多模态大语言模型(MLLM)的传统方法,InternVL3在单一预训练阶段中,通过多样化的多模态数据和纯文本语料库同步学习多模态与语言能力。这种统一训练范式有效解决了传统MLLM训练后流程中常见的复杂性和对齐难题。为提升性能和可扩展性,InternVL3引入了可变视觉位置编码(V2PE)以支持扩展多模态上下文,采用了监督微调(SFT)和混合偏好优化(MPO)等先进训练后技术,并实施了测试阶段扩展策略及优化的训练基础设施。大量实验评估表明,InternVL3在各类多模态任务中均展现卓越性能。其中,InternVL3-78B在MMMU基准测试中获得72.2分,在开源MLLM中创下新的SOTA记录。其性能与主流专有模型(包括ChatGPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro)相当,同时兼具出色的纯文本处理能力。遵循开放科学原则,我们将公开训练数据和模型权重,以推动下一代MLLM的研究发展。
叶子的技术碎碎念
2025/04/20
840
每周AI论文速递(250414-250418)
人类离AGI时代,又近了18个月
9月19日,云栖大会“通往AGI的大模型发展之路”圆桌对话现场,阶跃星辰创始人、CEO 姜大昕、月之暗面创始人 杨植麟、清华大学人工智能研究院副院长、生数科技首席科学家朱军以及极客公园创始人张鹏,以从业者和亲历者身份,回顾了过去18个月行业的发展,都提到“AGI加速非常快”。
小腾资讯君
2024/09/24
2600
我“AI”发文——AI发展现状与未来趋势分析
人工智能(AI)作为当前科技发展的核心领域,正以前所未有的速度影响着各行各业。从自然语言处理(NLP)、计算机视觉(CV),到自动驾驶、智能制造,AI的发展正逐步走向更高的智能化阶段。本文将详细分析AI的现状,并探讨其未来的发展趋势。
LucianaiB
2025/03/23
6280
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
2024年开年,很多小伙伴都已经回到了自己的工作岗位,并开始规划未来一年的工作。今天作者给大家梳理了2023年至今有关大模型的发展趋势。希望对大家有一些帮助。
ShuYini
2024/02/22
1.3K0
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
NeRF、视频生成、多模态爆火!CVPR 2025 热门趋势全解析
在AI飞速演进的时代,计算机视觉(CV)早已不是“看图识物”那么简单了。作为CV领域的顶级学术盛会,CVPR 和 ICCV 这两大顶会的投稿数据和主题方向,堪称“风向标”级别的存在。
CoovallyAIHub
2025/06/05
3180
NeRF、视频生成、多模态爆火!CVPR 2025 热门趋势全解析
CVPR最佳学生论文!1千万张图像、跨越45万+物种的超大数据集,多模态模型BioCLIP实现零样本学习
北京时间 6 月 20 日凌晨,CVPR 2024 正式公布了本届会议的最佳论文等奖项,「BIoCLIP: A Vision Foundation Model for the Tree of Life」被评为最佳学生论文。
HyperAI超神经
2024/07/01
1830
CVPR最佳学生论文!1千万张图像、跨越45万+物种的超大数据集,多模态模型BioCLIP实现零样本学习
OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年
美国时间 7 月18 日,OpenAI 正式发布了多模态小模型 GPT-4o mini,在海内外引起了广泛关注。
AI科技评论
2024/07/29
2790
OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年
中国版Sora震撼登场,原生16秒直出超清视频!国产黑马火了,世界模型签约多个大客户
近日,在奇绩创坛路演日上,世界模型公司「极佳科技」联合清华大学自动化系正式发布中国首个超长时长、高性价比、端侧可用的Sora级视频生成大模型「视界一粟 YiSu」,引起社会各界广泛的反响和关注。
新智元
2024/06/17
1690
中国版Sora震撼登场,原生16秒直出超清视频!国产黑马火了,世界模型签约多个大客户
推荐阅读
商汤披露:50篇论文入选CVPR 2024
1990
超 1.2 万人参加 CVPR 2024,谷歌研究院获得最佳论文
5120
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5
900
CVPR 2023线下分享会全日程公布,这周六不见不散
7180
徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂
1670
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat
2790
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用
1270
揭秘 CVPR 2024 Workshop 新兴技术与研究方向(上)
7480
从CVPR 2021的论文看计算机视觉的现状
4560
比 Sora DiT 架构早两个月的 U-ViT,由这家中国 AIGC 公司提出
3450
AI Vision 2024:CVPR 引爆科技核爆,解锁计算机视觉未来无限可能!
1740
1.2万人朝圣CVPR,华人学者夺最佳论文!Sora舵手火爆演讲成大型追星现场
1560
每周AI论文速递(250414-250418)
840
人类离AGI时代,又近了18个月
2600
我“AI”发文——AI发展现状与未来趋势分析
6280
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
1.3K0
NeRF、视频生成、多模态爆火!CVPR 2025 热门趋势全解析
3180
CVPR最佳学生论文!1千万张图像、跨越45万+物种的超大数据集,多模态模型BioCLIP实现零样本学习
1830
OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年
2790
中国版Sora震撼登场,原生16秒直出超清视频!国产黑马火了,世界模型签约多个大客户
1690
相关推荐
商汤披露:50篇论文入选CVPR 2024
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档