首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【GAN优化】从动力学视角看GAN是一种什么感觉?

【GAN优化】从动力学视角看GAN是一种什么感觉?

作者头像
用户1508658
发布于 2019-08-29 05:30:35
发布于 2019-08-29 05:30:35
1.5K1
举报
文章被收录于专栏:有三AI有三AI

今天讲述的内容是GAN与动力学,这是一个非常好玩、非常新鲜的视角。考虑到很多人微积分和线性代数等知识的涉猎不多,我将会对涉及的内容都做出基本说明,也并不会涉及过深入的东西,然后争取串成一个故事,扩展一下大家的视野。

作者&编辑 | 小米粥

最近这几期我们都一直在讲GAN的训练,最开始说明了实际训练GAN面临的几个理论和实践上的问题,然后接着从博弈论角度解释了GAN和纳什均衡,还说了几个帮助网络收敛的技巧。

这期将从动力学的视角看一下GAN,首先介绍基本概念常微分方程和欧拉法,然后介绍非常经典的梯度下降动力学系统,最后将GAN表示成动力学系统,并给出了一些比较好的结论。其实无论是什么视角,都是为了能更好的解决训练收敛的问题。

1 常微分方程与欧拉法

很多人平时接触的方程大部分是代数方程、超越方程等等,比如:

其解是一个或几个数值,例如上式的解为:

而微分方程是一种稍微“抽象”的方程,它是表示未知函数y(x)、未知函数的导数y`(x)以及自变量x关系的方程,比如:

其解(如果可解)应是一个函数或者函数族,例如上式的解析解为:

未知函数y(x)是一元函数的称为常微分方程,若是多元函数则称为偏微分方程。方便起见,将自变量x写成时间t,则可以用微分方程来表示某些随时间变化的规律或者动力学系统:

需要说明,对于常微分方程,只有某些特殊类型的方程能求得解析解,大部分是很难求得解析解的,所以实际中主要依靠数值法来近似计算求得数值解,以一个简单的具有初始值常微分方程为例:

其解析解为:

而数值解只能给出部分、离散的自变量、因变量近似数值对,例如

欧拉法便是一种非常经典的一阶数值方法。给定初始值和一系列固定间隔h的离散时间点,则可迭代计算:

得到微分方程的数值解。根据递推关系:

可以看出,欧拉法是先从初始点开始,在每一点做切线并沿当前切线推进至下一点,最后连接成一条折线,这种比较“粗糙”的方式精度是比较差的。上面的例子使用欧拉法得到的解如蓝线所示:

2 梯度下降法

机器学习或者神经网络中,我们大量使用梯度下降法,其实它也可以看作是一个动力系统。给定关于训练集的某种损失函数:

一般情况下,对相当复杂的损失函数,不太可能一步到位直接求解参数的最优解,只能通过某些算法“慢慢地”去寻找最优解,比如使用经典的梯度下降算法,参数不断更新,在参数空间留下一条美妙的轨迹,其行为与动力系统十分相像。

考虑一个由常微分方程表示的动力系统:

使用欧拉法求解该动力系统,则有如下迭代关系:

如果把固定时间间隔h视为学习速度learning rate,则这就是大家非常熟悉的梯度下降算法的表达式,到此应该看得出,所谓梯度下降算法从动力学角度来看,就是使用欧拉法求解某个动力学系统。

当然,我们并不单单致力于能求解微分方程的数值解或者得到参数的轨迹,更重要的是,希望参数θ能够收敛到某个稳定点,动力系统达到某个稳定的状态,损失函数能够收敛。

3 GAN的动力学系统

在GAN中,我们设定生成器的优化目标为最大化f,而判别器的优化目标为最大化g,动力系统的参数由两部分组成:

那么动力学微分方程可写为:

整个动力学仍然采用梯度下降法进行迭代更新,若使用欧拉法求解GAN动力学系统,则可理解为使用同时梯度下降算法:

即在一个时间节点上,同时更新生成器和判别器的参数,其参数轨迹如下:

需要说明一下,通常在GAN中我们使用的是交替梯度下降,两者有一些区别(但是很多情况下并不影响最终的结论),即依次交替更新生成器和判别器的参数,其参数轨迹为:

上一期也说过,GAN并不是在寻找全局最优解,而是在寻找一个局部最优解。我们希望动力学系统的轨迹可以随着不断迭代而进入一个局部收敛点,也就是纳什均衡,定义纳什均衡点为:

容易证明对于零和博弈(f=-g),在纳什均衡点,其雅可比矩阵:

是负定的。反过来,可以通过检查雅可比矩阵的性质来判断是否达到了局部收敛,如果在某个点,其一阶导数为0

且其雅可比矩阵为负定矩阵,则该点为纳什均衡点。

我们知道半负定矩阵的特征值均小于等于0,则:如果在某一点的雅可比矩阵的特征值为均负实数,则在足够小的学习速率的前提下,训练过程收敛;如果特征值出现复数,则训练一般而言不会实现局部收敛;如果复数特征值的实部很小而虚部比较大,此时需要某种非常苛刻的学习速率才能达到收敛状态。

[1] Mescheder L , Nowozin S , Geiger A . The Numerics of GANs[J]. 2017.

[2] Nagarajan V, Kolter J Z, Nagarajan V, et al. Gradient descent GAN optimization is locally stable[J]. 2017.

总结

这篇文章首先介绍了常微分方程以及使用欧拉法得到常微分方程的数值解,然后从动力学的系统重新看梯度下降算法,最后从动力学视角重新表述了GAN,并且给出几个有用的结论。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 有三AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
你好,”容易证明对于零和博弈(f=-g),在纳什均衡点,其雅可比矩”,这个不是黑塞矩阵么?
你好,”容易证明对于零和博弈(f=-g),在纳什均衡点,其雅可比矩”,这个不是黑塞矩阵么?
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
【强基固本】从动力学角度看优化算法(五):为什么学习率不宜过小?
“强基固本,行稳致远”,科学研究离不开理论基础,人工智能学科更是需要数学、物理、神经科学等基础学科提供有力支撑,为了紧扣时代脉搏,我们推出“强基固本”专栏,讲解AI领域的基础知识,为你的科研学习提供助力,夯实理论基础,提升原始创新能力,敬请关注。
马上科普尚尚
2020/11/04
5920
【强基固本】从动力学角度看优化算法(五):为什么学习率不宜过小?
【GAN优化】如何选好正则项让你的GAN收敛
今天讲述的内容还是GAN的训练,也是最后一期,做几个简单的小实验,告诉大家怎么给GAN加正则项,使得你的GAN尽可能收敛。其实今天的内容本来还是与动力学结合很紧密,但是考虑到复杂的数学内容可能有害无益,我就将数学部分都删除了,只展示最直观的结果。
用户1508658
2019/09/17
1.4K0
【GAN优化】如何选好正则项让你的GAN收敛
天生一对,硬核微分方程与深度学习的「联姻」之路
近日,北京智源人工智能研究院开展了第一次论坛,其以「人工智能的数理基础」这一重大研究方向为主题,从数学、统计和计算等角度讨论了智能系统应该怎样融合数学系统。
机器之心
2019/05/22
1.5K0
机器人动力学:机械臂正向动力学与逆向动力学
正向动力学:已知机器人的关节驱动力矩和上一时刻的运动状态(角度和角速度),计算得到机器人下一时刻的运动加速度,再积分得到速度和角度;
ZC_Robot机器人技术
2020/10/16
23.6K1
机器人动力学:机械臂正向动力学与逆向动力学
【GAN优化】详解GAN中的一致优化问题
GAN的训练是一个很难解决的问题,上期其实只介绍了一些基本的动力学概念以及与GAN的结合,并没有进行过多的深入。动力学是一门比较成熟的学科,有很多非常有用的结论,我们将尝试将其用在GAN上,来得到一些有意义的结果,指导一下我们怎么训练GAN。
用户1508658
2019/09/10
8490
【GAN优化】详解GAN中的一致优化问题
数学建模--微分方程
在数学建模中,微分方程模型是一种极其重要的方法,广泛应用于各种实际问题的描述和解决。微分方程模型通过建立变量及其变化率之间的关系,可以预测和分析系统的行为。这些模型在科技、工程、生态、环境、人口、交通、医学、经济管理等各个领域都有广泛应用。
用户11315985
2024/10/16
5540
数学建模--微分方程
被誉为「教科书」,牛津大学231页博士论文全面阐述神经微分方程,Jeff Dean点赞
在机器学习(ML)领域,动力学系统与深度学习的结合已经成为研究社区感兴趣的课题。尤其是对神经微分方程(neural differential equation, NDEs)而言,它证明了神经网络和微分方程是「一枚硬币的正反面」。
机器之心
2022/02/24
1.1K0
被誉为「教科书」,牛津大学231页博士论文全面阐述神经微分方程,Jeff Dean点赞
柔性机械臂:动力学建模原理
刚性机械臂建模方法已经可以有效地求解出机械臂各部分之间的耦合情况,但是对于柔性机械臂的动力学建模其侧重点在于基于刚性机械臂建模方法的基础上如何有效的处理机械臂关节柔性以及臂杆柔性的问题。由于机械臂的截面相对于其长度而言很小,可以将柔性杆作为Euler-Bernouli梁,柔性机械臂可以视为一个具有无限自由度的连续系统。相对于刚性机械臂杆件之间的耦合,柔性机械臂还需要考虑关节的柔性以及臂杆弹性变形的耦合。因而,柔性机械臂的运动方程具有高度非线性。
ZC_Robot机器人技术
2020/10/03
4.5K0
柔性机械臂:动力学建模原理
神经网络常微分方程 (Neural ODEs) 解析
在本文中,我将尝试简要介绍一下这篇论文的重要性,但我将强调实际应用,以及我们如何应用这种需要在应用程序中应用各种神经网络。
AI科技评论
2019/08/15
7.4K1
Robot-走近机器人动力学建模与仿真
云机器人就是云计算与机器人学的结合。而机器人则是云机器人的主要终端,云可以为机器人提供数据监控以及分析服务,同时也可从远端遥操作机器人的动作。腾讯云社区为大家了解和使用腾讯云服务提供了优秀的平台。而对于机器人部分,下面给出关于机器人关键技术之一的动力学建模与仿真的介绍。
ZC_Robot机器人技术
2020/05/09
14.9K2
Robot-走近机器人动力学建模与仿真
Robot-adams机器人动力学仿真
机器人的动力学仿真软件有很多,在之前的文章中【Robot-走近机器人动力学建模与仿真】也有详细的分类介绍,在众多的机器人仿真软件中,Adams 是科学研究中关于动力学仿真求解最稳定的。这主要是由于adams 具有强大的动力学微分仿真求解器.本文旨在详细介绍adams在机器人研发领域内的应用。
ZC_Robot机器人技术
2020/06/16
8.1K9
Robot-adams机器人动力学仿真
形态发生作为贝叶斯推理:复杂生物系统中模式形成和控制的变分方法
Morphogenesis as Bayesian inference: A variational approach to pattern formation and control in complex biological systems 2020
CreateAMind
2024/06/04
2900
形态发生作为贝叶斯推理:复杂生物系统中模式形成和控制的变分方法
自由漂浮机器人运动学和动力学建模
随着空间技术的不断发展和人类对空间探索的不断深入,空间机器人在完成诸如空间站的建造与维护等任务中发挥着重要的作用。
ZC_Robot机器人技术
2020/10/17
4.2K2
自由漂浮机器人运动学和动力学建模
组合体惯量法B:原理—机械臂动力学建模
对于多自由度机械臂, 为了研究机械臂的运动特性, 因此需要建立多自由度机械臂的半实物仿真系统以及全数值仿真系统, 而对其动力学的研究又是其中必不可少的环节之一。考虑到实时系统下, 计算机的运算速度以及数据通讯速度, 用于模拟机械臂运动的正向动力学需满足实时性、 快速性以及稳定性。 为此,有必要研究一种针对多自由度冗余机械臂的实时动力学用于模拟机械臂的实际运动情况。
ZC_Robot机器人技术
2020/09/23
4.1K2
组合体惯量法B:原理—机械臂动力学建模
振型叠加法解动力学方程
振型叠加法解动力学方程 振型叠加法求解动力学方程由两个步骤组成:一是求解结构的固有频率和振型;二是求解结构的动力响应。本文重点讨论第二步。 对于结构的运动方程 引入坐标变换 式中, ,,, 称为广义位移。此变换的意义是将看成是的线性组合。从数学上看,是将位移从有限元系统的节点位移向量为基向量(物理坐标)的维空间转换到以为基向量(振型坐标)的维空间。 将代入,两边同时乘以,并考虑到关于刚度矩阵和质量矩阵的正交性,得到结构在以为基向量的维空间内的运动方程 其中 称为广义力。在两端同时左乘,并令,可将初始条件变换
fem178
2022/08/25
9800
硬核NeruIPS 2018最佳论文,一个神经了的常微分方程
在最近结束的 NeruIPS 2018 中,来自多伦多大学的陈天琦等研究者成为最佳论文的获得者。他们提出了一种名为神经常微分方程的模型,这是新一类的深度神经网络。神经常微分方程不拘于对已有架构的修修补补,它完全从另外一个角度考虑如何以连续的方式借助神经网络对数据建模。在陈天琦的讲解下,机器之心将向各位读者介绍这一令人兴奋的神经网络新家族。
机器之心
2019/01/02
1.1K0
【知识】什么是ρ-Lipschitz连续性?有什么作用?
在数学中,ρ-Lipschitz 是描述函数平滑性的一种条件,属于Lipschitz 连续性的概念。它表示一个函数在整个定义域上,任意两点之间的变化速率有一个全局的上界。
小锋学长生活大爆炸
2025/05/24
1840
【知识】什么是ρ-Lipschitz连续性?有什么作用?
学界 | Michael I.Jordan:AI 时代变革,源于应用场景中的优化算法
AI 科技评论按:8 月 9 日,为期两周的 2018 国际数学家大会(ICM)在里约热内卢完美谢幕,来自全球一百多个国家的 3000 多位数学家出席了本次盛会。
AI科技评论
2018/10/25
5710
学界 | Michael I.Jordan:AI 时代变革,源于应用场景中的优化算法
Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器
ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新著称。每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。
新智元
2025/04/24
1260
Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器
ASI 8年计划 paper1:what is a thing?特定物理的自由能原理 part1
本专著尝试提出一种可以在统计意义上与其他“事物”区分的每个“事物”的理论。随之而来的统计独立性,通过马尔科夫毯介导,涉及到在越来越高的时空尺度上递归组合的整体(事物)。这种分解提供了对小事物的描述,例如,通过薛定谔方程的量子力学,通过统计力学和相关波动定理的小事物的整体,再到通过经典力学的大事物的描述。这些描述与自主或主动的事物的贝叶斯力学相辅相成。尽管这项工作提供了对每个“事物”的制定,但其主要贡献是研究马尔科夫毯对自组织到非平衡稳态的影响。简而言之,我们恢复了一个信息几何学和相应的自由能原理,使人们能够将某物的内部状态解释为代表或对其外部状态进行推断。随之而来的贝叶斯力学与量子力学、统计力学和经典力学兼容,可能提供对类似生命的粒子的正式描述。
CreateAMind
2024/02/06
2070
ASI 8年计划 paper1:what is a thing?特定物理的自由能原理 part1
推荐阅读
相关推荐
【强基固本】从动力学角度看优化算法(五):为什么学习率不宜过小?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档