Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >何恺明CVPR最新讲座PPT上线:走向端到端生成建模

何恺明CVPR最新讲座PPT上线:走向端到端生成建模

作者头像
机器之心
发布于 2025-06-20 00:34:49
发布于 2025-06-20 00:34:49
2720
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:张倩

生成模型会重现识别模型的历史吗?

今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。除了交流论文、互加好友,很多参会者还参加了个非常有意思的项目 —— 追星。

这个「星」自然是学术明星。从前方发来的实况来看,MIT 副教授何恺明可能是人气最高的那一个。他的讲座全场爆满,还有很多同学晒出了与恺明大神的合影。

图片
图片

其实,这次现身 CVPR 会场的何恺明有着多重身份,包括但不限于最佳论文奖委员会成员、「Visual Generative Modeling: What’s After Diffusion?」workshop 演讲嘉宾等。

图片
图片

这个 workshop 聚焦的主题是扩散模型之后的视觉生成建模演进方向。

近年来,扩散模型迅速超越了先前的方法,成为视觉生成建模中的主导方法,广泛应用于图像、视频、3D 物体等的生成。然而,这些模型也存在一些显著的局限性,例如生成速度较慢、生成过程中人类干预有限,以及在模拟复杂分布(如长视频)时面临挑战。

这个 workshop 旨在探索视觉生成建模中能够超越扩散模型的方法,何恺明在活动中做了主题为「Towards End-to-End Generative Modeling(走向端到端生成建模)」的分享。

近日,他的个人网页上传了 workshop 的 PPT,非常值得学习。

图片
图片

PPT 地址:https://people.csail.mit.edu/kaiming/cvpr25talk/cvpr2025_meanflow_kaiming.pdf

走向端到端生成建模

在 PPT 前几页,何恺明首先带大家回顾了识别模型(recognition model)的演进。在 AlexNet 之前,逐层训练更为流行,如深度信念网络(DBN)和去噪自编码器(DAE)。但 AlexNet 之后,识别模型普遍实现了端到端训练,大大简化了模型设计和训练的复杂性。 

图片
图片
图片
图片
图片
图片
图片
图片
图片
图片

有趣的是,今天的生成模型在概念上更像是逐层训练:Diffusion 模型通过 T 个去噪步骤逐步生成,自回归模型通过 T 个 token 逐步生成,它们都需要多步推理过程。这让我们不禁思考:历史能否在生成模型领域重演?

图片
图片

从更高层面来看,识别与生成其实是同一枚硬币的两面。识别可以被看作是一个「抽象」的过程:我们从丰富的原始数据(如图像像素)出发,通过网络的多层处理,逐步提取出越来越抽象的特征,直到最终得到一个高度抽象的分类标签或嵌入。

而生成则恰恰相反,它是一个「具体化」的过程:我们从一个抽象的表示(比如一个随机噪声或概念向量)开始,通过网络的多步转换,逐渐将其具体化,最终生成出具有复杂细节的真实数据。 

图片
图片

下图更直观地描绘了这种「抽象」与「具体化」的对应关系。底部代表原始数据,顶部代表抽象的嵌入空间。表示学习是从数据向上流动,将数据映射到嵌入。而生成建模则是从嵌入向下流动,将嵌入转换为数据。这个过程可以被视为数据在不同抽象层次之间的「流动」。

图片
图片
图片
图片
图片
图片
图片
图片
图片
图片

不过,识别和生成和生成有着本质的不同。识别任务通常有一个确定的数据到标签的映射,但生成任务不然:我们希望从一个简单的「噪声」分布映射到复杂多变的数据分布。这个映射是高度非线性的,而且存在无限的可能性。

如何有效地「构造」这个映射,是生成模型面临的核心挑战。连续归一化流(Continuous Normalizing Flow),尤其是其中衍生的「流匹配」(Flow Matching)技术,为解决这个问题提供了有希望的方向。 

图片
图片

在讲座中,何恺明提到了流匹配方向的几篇代表性论文:

图片
图片

下图直观地展示了 Flow Matching 在生成模型领域中的位置:

图片
图片

何恺明还介绍了流匹配的一些技术细节:   

图片
图片
图片
图片

讲到这里,何恺明总结出了几个关键点:

  • 识别与生成都可以被视为数据分布之间的一种「流」。
  • Flow Matching 为训练生成模型提供了一种强大的方法,它能够构建出 ground-truth 场,这些场是隐式存在的,并且与具体的神经网络结构无关。
  • 尽管我们希望实现精确的积分来生成,但在实践中,我们通常采用有限求和的近似,这与 ResNet 的离散化方法类似,或者利用数值 ODE 求解器。
  • 我们的终极目标是实现前馈式的、端到端的生成建模,摆脱多步迭代的依赖。
图片
图片

接下来,何恺明介绍了他们近期提出的新方法 ——「Mean Flows for One-step Generative Modeling」。它的核心思想是追求一步到位的生成。 

图片
图片

具体来说,论文提出了一种名为 MeanFlow 的理论框架,用于实现单步生成任务。其核心思想是引入一个新的 ground-truth 场来表示平均速度,而不是流匹配中常用的瞬时速度。

论文推导出平均速度与瞬时速度之间存在一个内在的关系,从而作为指导网络训练的原则性基础。

基于这一基本概念,论文训练了一个神经网络来直接建模平均速度场,并引入损失函数来奖励网络满足平均速度和瞬时速度之间的内在关系。

以下是该论文的技术细节(可参见机器之心之前的报道辅助理解:《何恺明团队又发新作: MeanFlow 单步图像生成 SOTA,提升达 50%》:   

图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片

论文所提方法的实验结果如下。MeanFlow 与之前的单步扩散 / 流模型进行了比较,总体而言,MeanFlow 的表现远超同类:它实现了 3.43 的 FID,与 IMM 的单步结果 7.77 相比,相对提升了 50% 以上。如果仅比较 1-NFE(而不仅仅是单步)生成,MeanFlow 与之前的最佳方法(10.60)相比,相对提升了近 70%。不难看出,该方法在很大程度上缩小了单步和多步扩散 / 流模型之间的差距。

图片
图片
图片
图片
图片
图片
图片
图片
图片
图片

然后,他展示了一些 1-NFE 的生成结果。

图片
图片

接下来,何恺明致敬了整个社区在实现高效、端到端生成方面所做的共同努力。他列举了几个主要的研究方向:

  • Consistency Models (CM):包括 Song 等人的原始工作,以及后续的改进版本如 iCT、ECT、sCM。
  • Two-time-variable Models:例如 Consistency Trajectory Models (CTM)、Flow Map Matching、Shortcut Models 和 Inductive Moment Matching。
  • Revisiting Normalizing Flows:如 TarFlow 等。
图片
图片

最后,何恺明对整个方向进行了展望,并提出了几个问题:      

  • 我们是否还在生成模型的「AlexNet 前时代」?
  • 尽管 MeanFlow 已经取得了显著的进步,但它在概念上仍然受限于迭代的 Flow Matching 和扩散模型框架。
  • MeanFlow 网络扮演着双重角色:它既要构建从噪声到数据的理想轨迹(这些轨迹是隐式存在但需要模型去捕捉的),又要通过「粗化」或概括这些场来简化生成过程。
  • 那么,究竟什么是真正适用于端到端生成建模的良好公式?这是一个开放性的、激动人心的研究问题。
图片
图片

© THE END 

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
「流匹配」成ICML 2025超热门主题!网友:都说了学物理的不准转计算机
众所周知,第 42 届国际机器学习大会(ICML)将于 7 月 13 日至 19 日在加拿大温哥华盛大举行。
机器之心
2025/07/14
1340
「流匹配」成ICML 2025超热门主题!网友:都说了学物理的不准转计算机
何恺明等降维打击!彻底颠覆AI生图,无需预训练一步到位
全新的生成模型MeanFlow,最大亮点在于它彻底跳脱了传统训练范式——无须预训练、蒸馏或课程学习,仅通过一次函数评估(1-NFE)即可完成生成。
新智元
2025/05/22
1660
何恺明等降维打击!彻底颠覆AI生图,无需预训练一步到位
何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%
文章提出了一种名为 MeanFlow 的单步生成建模框架,通过引入平均速度(average velocity)的概念来改进现有的流匹配方法,并在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散 / 流模型的结果,FID 分数达到 3.43,且无需预训练、蒸馏或课程学习。
机器之心
2025/05/22
2570
何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
推特上,有学者打趣说,CV论文可以分为这几类:「只想混文凭」、「教电脑生成更多猫的照片」、「ImageNet上实验结果提升0.1%!」、「手握超酷数据集但并不打算公开」、「3年过去了,代码仍在赶来的路上」、「实验证明还是老baseline性能更牛」、「我们的数据集更大!」、「研究范围超广,无他,我们有钱」、「花钱多,结果好」......
新智元
2021/07/06
8200
Idea撞车何恺明「分形生成模型」!速度领先10倍,性能更强
前不久,大神何恺明刚刚放出新作「分形生成模型」,递归调用原子生成模块,构建了新型的生成模型,形成了自相似的分形架构,将GenAI模型的模块化层次提升到全新的高度。
新智元
2025/03/24
1460
Idea撞车何恺明「分形生成模型」!速度领先10倍,性能更强
CVPR2018公布优秀论文,何恺明获PAMI青年研究者奖
正在美国盐湖城举行的年度计算机视觉和模式识别盛会CVPR(Conference on Computer Vision and Pattern Recognition)评选出年度优秀论文。
IT派
2018/08/10
4120
CVPR2018公布优秀论文,何恺明获PAMI青年研究者奖
Facebook介绍ICCV2017收录论文,其中五分之一都有何恺明的名字(附下载链接)
本周,全球的计算机视觉专家们即将齐聚威尼斯参加 ICCV (International Conference on Computer Vision)2017,展示计算机视觉和相关领域的最新研究进展。ICCV由IEEE主办,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议。CVPR每年召开一次,而ECCV和ICCV在世界范围内每年间隔召开。ICCV论文录用率很低,也符合它顶级会议的地位。 今年ICCV中,Facebook有15篇论文被收录,同时Faceboo
AI研习社
2018/03/19
1K0
何恺明上榜CVPR 2021获奖名单,4篇「最佳」是华人一作
CVPR 2021本周正式召开啦,作为计算机视觉领域最重要的学术会议,大会的最佳论文自然是领域学者们关注的重要风向标。
量子位
2021/07/19
4590
何恺明团队新突破:给扩散模型加正则化,零成本整理内部特征,效果立竿见影
何恺明团队最新研究出手,给火爆的扩散模型加了个「收纳整理」功能!无需修改模型结构、不增参数、不靠外部数据,仅需一个即插即用的正则化项——Dispersive Loss,就能让模型内部特征自动“排排坐”,效果显著提升>>更多资讯可加入CV技术群获取了解哦~
CoovallyAIHub
2025/06/16
2130
何恺明团队新突破:给扩散模型加正则化,零成本整理内部特征,效果立竿见影
如何评价何恺明团队最新推出的RegNet?| CVPR 2020
最近何恺明团队在arXiv 上公布了他们发表在CVPR 2020 上的最新论文《Designing Network Design Spaces》[1]。和何恺明之前发表的大多数论文一样,一经公布,迅速得到众人的关注。知乎上迅速有人提出问题:“如何评价何恺明团队最新推出的RegNet?”[2]
AI科技评论
2020/04/14
2.5K0
如何评价何恺明团队最新推出的RegNet?| CVPR 2020
IJCAI 2025 | 文本到时序:用扩散模型生成高分辨率时间序列
论文标题:T2S: High-resolution Time Series Generation with Text-to-Series Diffusion Models
时空探索之旅
2025/05/23
4380
IJCAI 2025 | 文本到时序:用扩散模型生成高分辨率时间序列
何恺明ResNet级神作,分形生成模型计算效率狂飙4000倍!清华校友一作
这些都是大自然中的「分形」。早在1983年,数学家Mandelbrot就揭示了这一现象。
新智元
2025/02/26
1590
何恺明ResNet级神作,分形生成模型计算效率狂飙4000倍!清华校友一作
ICML 2025 | 联动生成 (CGFlow):用生成流网络实现分子与合成路径协同设计
新药研发中,设计出一个高亲和力的分子只是第一步,更重要的是确保它能够顺利合成。传统的分子生成方法往往只关注到分子结构本身,忽视了后续的合成可行性。这篇文章将为您介绍一项名为3DSynthFlow的方法,它利用Compositional Generative Flows(CGFlow),能够同时生成分子的三维构象和对应的合成路径,真正实现“设计→合成”一体化。
DrugOne
2025/06/07
1180
ICML 2025 | 联动生成 (CGFlow):用生成流网络实现分子与合成路径协同设计
CVPR 2018奖项出炉:两篇最佳论文,何恺明获PAMI 青年研究员奖
而在一个小时前,最受关注的 CVPR 2018 最佳论文结果揭晓:来自斯坦福大学和 UC Berkeley 的 Amir R. Zamir 等人获得 CVPR2018 的最佳论文(Best Paper Award);来自卡内基梅隆大学的 Hanbyul Joo 等人获得了本届大会最佳学生论文奖(Best Student Paper Award)。此外,Tübingen 大学教授 Andreas Geiger 与 FAIR 研究科学家何恺明获得本届大会的 PAMI 年轻学者奖。
机器之心
2018/07/26
5700
CVPR 2018奖项出炉:两篇最佳论文,何恺明获PAMI 青年研究员奖
何恺明、LeCun领衔,用“动态Tanh”重塑AI底层设计,Transformer架构迎颠覆性革新!
在AI模型动辄千亿参数的今天,归一化层(Normalization) 曾被视为神经网络不可撼动的“定海神针”——它像数据调音师,将每层输出的数值调整到合理范围,防止模型训练崩溃。然而,Meta AI华人科学家刘壮团队联合何恺明、Yann LeCun等大牛,用一篇CVPR 2025论文彻底打破这一铁律:只需一个复古的tanh函数,就能替代所有归一化层!更令人惊叹的是,新方法Dynamic Tanh(DyT) 不仅性能更强,训练速度还提升30%,代码仅需9行即可实现。
AI浩
2025/04/02
2700
何恺明、LeCun领衔,用“动态Tanh”重塑AI底层设计,Transformer架构迎颠覆性革新!
CVPR 2021奖项出炉:最佳论文花落马普所,何恺明获提名,首届黄煦涛纪念奖颁布
今年,大会一共接收了 7039 篇有效投稿,其中进入 Decision Making 阶段的共有约 5900 篇,最终有 1366 篇被接收为 poster,295 篇被接收为 oral,其中录用率大致为 23.6%,略高于去年的 22.1%。
计算机视觉
2021/07/05
6860
学界 | CVPR 2018颁布五大奖项,何恺明获年轻学者奖
大数据文摘出品 年度计算机视觉和模式识别盛会CVPR(Conference on Computer Vision and Pattern Recognition)在美国盐湖城开幕啦! 据统计,本届大会有超过3309篇大会论文投稿,接收979篇论文。 面对如此多的论文评审任务,CVPR 2018 采用了多线程多论文并行的模式,最后颁布了五大奖项,分别是:最佳论文、最佳学生论文、提名论文、PAMI年轻学者奖、PAMI Longuet-Higgins Prize。 Tübingen大学教授Andreas Geig
大数据文摘
2018/06/29
6570
RCG:何恺明新作,无条件图像生成新SOTA
这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。
公众号机器学习与AI生成创作
2023/12/11
3860
RCG:何恺明新作,无条件图像生成新SOTA
6512名学者聚首CVPR 2018,斯坦福伯克利获最佳论文奖,何恺明获青年研究奖
第 31 届计算机视觉和模式识别大会(Conference on Computer Vision and Pattern Recognition, CVPR)在 6 月 18 日至 22 日于美国盐湖城召开。
AI科技评论
2018/07/27
4060
6512名学者聚首CVPR 2018,斯坦福伯克利获最佳论文奖,何恺明获青年研究奖
图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS
---- 新智元报道   编辑:桃子 好困 【新智元导读】OpenAI重磅研究「一致性模型」项目开源,不仅一步瞬时生图,还能图像编辑,连最能打的扩散模型也得让步了。 ChatGPT、Midjourney的火爆,让其背后技术扩散模型成为「生成式AI」革命的基础。 甚至,还受到业内研究者极力追捧,其风头远远盖过曾经逆袭天下的GAN。 就在扩散模型最能打的时候,竟有网友突然高调宣布: Diffusion models时代终结!Consistency models加冕为王! 这究竟是怎么回事??? 原来,
新智元
2023/05/09
3070
图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS
推荐阅读
「流匹配」成ICML 2025超热门主题!网友:都说了学物理的不准转计算机
1340
何恺明等降维打击!彻底颠覆AI生图,无需预训练一步到位
1660
何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%
2570
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
8200
Idea撞车何恺明「分形生成模型」!速度领先10倍,性能更强
1460
CVPR2018公布优秀论文,何恺明获PAMI青年研究者奖
4120
Facebook介绍ICCV2017收录论文,其中五分之一都有何恺明的名字(附下载链接)
1K0
何恺明上榜CVPR 2021获奖名单,4篇「最佳」是华人一作
4590
何恺明团队新突破:给扩散模型加正则化,零成本整理内部特征,效果立竿见影
2130
如何评价何恺明团队最新推出的RegNet?| CVPR 2020
2.5K0
IJCAI 2025 | 文本到时序:用扩散模型生成高分辨率时间序列
4380
何恺明ResNet级神作,分形生成模型计算效率狂飙4000倍!清华校友一作
1590
ICML 2025 | 联动生成 (CGFlow):用生成流网络实现分子与合成路径协同设计
1180
CVPR 2018奖项出炉:两篇最佳论文,何恺明获PAMI 青年研究员奖
5700
何恺明、LeCun领衔,用“动态Tanh”重塑AI底层设计,Transformer架构迎颠覆性革新!
2700
CVPR 2021奖项出炉:最佳论文花落马普所,何恺明获提名,首届黄煦涛纪念奖颁布
6860
学界 | CVPR 2018颁布五大奖项,何恺明获年轻学者奖
6570
RCG:何恺明新作,无条件图像生成新SOTA
3860
6512名学者聚首CVPR 2018,斯坦福伯克利获最佳论文奖,何恺明获青年研究奖
4060
图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS
3070
相关推荐
「流匹配」成ICML 2025超热门主题!网友:都说了学物理的不准转计算机
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档