前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >SGD 的光辉,带来深度学习的意义

SGD 的光辉,带来深度学习的意义

作者头像
大数据文摘
发布于 2023-10-24 03:08:30
发布于 2023-10-24 03:08:30
1990
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘出品

7月份,纽约大学(NYU)博士后Naomi Saphra撰写了一篇题为“Interpretability Creationism”,从进化论的角度解释了随机梯度下降(SGD)与深度学习之间的关系,解读视角发人深思。

例如:“就像人类尾骨一样,有些现象在模型训练过程中可能已经失去了原来的作用,变成了类似退化器官的存在。”

“无论是在研究寄生育雏行为还是神经网络的内部表现,如果不考虑系统是如何发展的,就很难分辨哪些是有价值信息。”

以下是原文,文摘菌做了不改变原意的编译,请欣赏。

几个世纪前,欧洲人布谷鸟蛋出现在鸟巢中是筑巢鸟的荣誉。因为,筑巢鸟热情地喂养她的“神圣客人”,甚至比喂养自己的(被驱逐的)雏鸟还要卖力,筑巢鸟的这种行为符合基督教热情好客的精神。

1859年,查尔斯·达尔文研究了另一种偶尔寄生的雀科鸟类——雀鸟,从而质疑了鸟类行为的乐观、合作观念。

如果不从进化论角度考虑布谷鸟的角色,人们很难认识到筑巢鸟不是布谷鸟幼鸟的慷慨主人,而是一个不幸的受害者。

正如进化生物学家Theodosius Dobzhansky所言:“没有进化的光辉,生物学中的一切都无法理解。”

虽然随机梯度下降并不是生物进化的真正形式,但机器学习中的事后分析与生物学的科学方法有很多相似之处,这通常需要理解模型行为的起源。

无论是在研究寄生育雏行为还是神经网络的内部表现,如果不考虑系统是如何发展的,就很难分辨哪些是有价值信息。

因此,在分析模型时,不仅要关注训练结束时的状态,还要关注训练过程中的多个中间检查点。这样的实验开销很小,但可能带来有意义的发现,有助于更好地理解和解释模型的行为。

恰到好处的故事

人类是因果思考者,喜欢寻找事物之间的因果关系,即使可能缺乏科学依据。

在NLP领域,研究者们也倾向于为观察到的行为提供一种可解释的因果解释,但这种解释可能并没有真正揭示模型的内部工作原理。例如,人们可能会高度关注句法注意力分布或选择性神经元等可解释性工件,但实际上我们并不能确定模型是否真的在使用这些行为模式。

为了解决这个问题,因果建模可以提供帮助。当我们尝试通过干预(修改或操作)模型的某些特征和模式来测试它们对模型行为的影响时,这种干预可能只针对某些明显的、特定类型的行为。换句话说,在尝试理解模型如何使用特定特征和模式时,我们可能只能观察到其中一部分行为,而忽略了其他潜在的、不太明显的行为。

因此,在实践中,我们可能只能对表示中的特定单元进行某些类型的轻微干预,无法正确反映特征之间的相互作用。

在尝试通过干预(修改或操作)模型的某些特征和模式来测试它们对模型行为的影响时,我们可能会引入分布偏移。显著的分布偏移可能导致不稳定的行为,那么为什么不会导致伪造的可解释性工件呢?

译者注:分布偏移指的是模型在训练数据上建立的统计规律与干预后数据之间的差异。这种差异可能导致模型无法适应新的数据分布,从而表现出不稳定的行为。

幸运的是,研究生物进化的方法可以帮助我们理解模型中产生的一些现象。就像人类尾骨一样,有些现象在模型训练过程中可能已经失去了原来的作用,变成了类似退化器官的存在。有些现象可能存在相互依赖的关系,例如,在训练早期出现的某些特征可能影响了后续其他特征的发展,就像动物在发展复杂的眼睛之前,需要先有基本的光感应能力。

还有一些现象可能是由于特征之间的竞争导致的,例如,具有很强嗅觉能力的动物可能不太依赖视觉,因此视觉方面的能力可能会减弱。另外,一些现象可能只是训练过程中的副作用,类似于我们基因组中的垃圾DNA,它们占据了基因组的很大一部分,但并不直接影响我们的外观和功能。

在训练模型的过程中,有些未使用的现象可能会出现,我们有很多理论来解释这种现象。例如,信息瓶颈假说预测,在训练早期,输入信息会被记忆下来,然后在模型中进行压缩,只保留与输出相关的信息。这些早期记忆在处理未见过的数据时可能并不总是有用,但它们对于最终学习到特定输出表示是非常重要的。

我们还可以考虑到退化特征的可能性,因为训练模型的早期和后期行为是很不一样的。早期的模型更简单。以语言模型为例,早期的模型类似于简单的n-gram模型,而后期模型则能表现出更复杂的语言模式。这种训练过程中的混合可能会产生一些副作用,而这些副作用很容易被误认为是训练模型的关键部分。

进化观点

仅根据训练结束后的特征来理解模型的学习倾向是非常困难的。根据Lovering等人的研究成果,观察训练开始时特征提取的容易程度以及对微调数据的分析,对于理解微调性能的影响比仅仅在训练结束时进行的分析要深入得多。

语言分层行为是一个典型的基于分析静态模型的解释。有人认为在句子结构中位置靠近的单词在模型中的表示会更接近,而与结构上较远的单词表示相距较远。那么,我们如何知道模型是通过按照句子结构上的接近程度来对单词进行分组呢?

实际上,我们可以更有把握地说,某些语言模型是分层的,因为早期模型在长短时记忆网络(LSTM)和Transformer中编码了更多的局部信息,并且当这些依赖关系可以分层地堆叠在熟悉的短成分上时,它们更容易学习更远距离的依赖关系。

处理解释性创造主义问题时遇到了一个实际案例。使用不同的随机种子多次训练文本分类器时,可以观察到模型分布在多个不同的簇中。还发现,可以通过观察模型在损失表面上与其他模型的连接情况来预测模型的泛化行为。换句话说,根据损失表面上的位置,模型的泛化性能可能会有所不同。这种现象可能与训练过程中使用的随机种子有关。

但是真的可以这么说吗?如果一个簇实际上对应于模型的早期阶段呢?如果一个簇实际上只是表示了模型的早期阶段,那么最终这些模型可能会转向具有更好泛化性能的簇。因此,在这种情况下,观察到的现象只表示一些微调过程比其他过程慢。

需要证明训练轨迹可能会陷入损失表面上的一个盆地(basin),从而解释训练模型中泛化行为的多样性。实际上,在检查了训练过程中的几个检查点后,发现位于簇中心的模型会在训练过程中与其簇中的其他模型建立更强的联系。然而,有些模型还是能够成功地转向一个更好的簇。

一个建议

对于研究问题的回答,仅观察训练过程是不够的。在寻求因果关系时,需要进行干预。以生物学中关于抗生素耐药性的研究为例,研究人员需要故意将细菌暴露于抗生素,而不能依赖自然实验。因此,基于训练动态的观察所做的声明(statement),需要实验证实。

并非所有声明都需要观察训练过程。在古代人类看来,许多器官都有明显的功能,如眼睛用于看东西,心脏用于泵血等。在自然语言处理(NLP)领域中,通过分析静态模型,我们可以做出简单的解读,例如特定神经元在特定属性存在时会激活,或某些类型的信息在模型中仍然可获取。

然而,训练过程的观察仍然可以弄明白许多在静态模型中进行的观察的含义。这意味着,尽管不是所有问题都需要观察训练过程,但在许多情况下,了解训练过程对于理解观察结果是有帮助的。

建议很简单:在研究和分析训练模型时,不要仅关注训练过程中的最终结果。相反,应该将分析应用于训练过程中的多个中间检查点;在微调模型时,要检查训练早期和晚期的几个点。在训练过程中观察模型行为的变化非常重要,这可以帮助研究人员更好地理解模型策略是否合理,并在观察到训练早期发生的情况后对模型策略进行评估。

参考链接:

https://thegradient.pub/interpretability-creationism/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Bengio:实现AGI的主要原则已经被发现?剩下的主要障碍是扩大规模?还是。。
Inductive biases for deep learning of higher-level cognition 高级认知深度学习的归纳偏差
CreateAMind
2024/06/17
1180
Bengio:实现AGI的主要原则已经被发现?剩下的主要障碍是扩大规模?还是。。
机器学习时代的哈希算法,将如何更高效地索引数据
选自blog.bradfieldcs 作者:Tyler Elliot Bettilyon 机器之心编译 哈希算法一直是索引中最为经典的方法,它们能高效地储存与检索数据。但在去年 12 月,Jeff Dean 与 MIT 等研究者将索引视为模型,探索了深度学习模型学习的索引优于传统索引结构的条件。本文首先将介绍什么是索引以及哈希算法,并描述在机器学习与深度学习时代中,如何将索引视为模型学习比哈希算法更高效的表征。 2017 年 12 月,谷歌和麻省理工学院的研究人员发表了一篇研究论文 The Case for
机器之心
2018/06/08
1.1K0
DeepMind最新研究登Nature,揭示AI时代科研新范式,开拓未知领域,带来全新挑战
8月2日,谷歌团队研究人员在Nature上发表了一项研究——人工智能时代的科学发现,总结了AI在科学发现中的应用和进展。
新智元
2023/09/09
2630
DeepMind最新研究登Nature,揭示AI时代科研新范式,开拓未知领域,带来全新挑战
布谷鸟搜索算法(Cuckoo Search)
随着科学技术的发展,许多复杂的优化问题已经超出了传统优化方法的解决能力,尤其是在高维空间中的问题。为了应对这些问题,智能优化算法应运而生,这些算法模仿了自然界的各种现象或生物的行为。布谷鸟搜索算法(Cuckoo Search, CS)就是其中的一种,它模拟了布谷鸟的繁殖行为,用于求解复杂的全局优化问题。
一键难忘
2025/02/10
2860
Nat. Rev. Genet. | 单细胞时代下系统生物学解析人类疾病的复杂性
系统生物学旨在通过测量、分析和扰动的迭代循环,全面理解细胞系统的分子机制。这一框架在单细胞模型生物中已取得显著成功。近年来,随着单细胞和空间组学分析、CRISPR基因编辑及机器学习等实验与计算技术的进步,研究人员有望借助这些策略更有效地预防、诊断和治疗人类疾病。然而,由于人类组织的生物特征与常用实验模型之间存在差异(本文称为“转化距离”),将系统生物学方法应用于解析人类疾病的复杂性仍具有挑战性。本文综述了如何在多尺度的人类疾病进程背景下,对样本、测量和分析进行系统整合,以减少数据与真实情境之间的差距。此外,研究人员还探讨了如何缩短系统驱动的人类疾病研究循环与模型系统验证循环之间的转化距离,以推动单细胞基因组时代的精准医学干预。
DrugAI
2025/03/17
1120
Nat. Rev. Genet. | 单细胞时代下系统生物学解析人类疾病的复杂性
分层网络结构作为生物系统分层的动力学
Hierarchical network structure as the source of hierarchical dynamics (power-law frequency spectra) in living and non-living systems: How state-trait continua (body plans, personalities) emerge from first principles in biophysics
CreateAMind
2024/01/17
2920
分层网络结构作为生物系统分层的动力学
深度学习三巨头共同发文,聊聊深度学习的过去、现在与未来
作者|Yoshua Bengio,Yann LeCun,Geoffrey Hinton 译者|香槟超新星 出品|AI科技大本营(ID:rgznai100) 人工神经网络领域的研究是基于对人类智能的观察而来:人类智能从高度并行的网络中产生,这些网络由结构相对简单的非线性神经元组成,通过调整连接强度来进行学习。 这一观察随即引入了一个核心的计算科学问题:如果要让这种普通类型的网络完成目标检测或理解语言这样的困难任务,怎样才能让它学会复杂的内部表示? 深度学习尝试通过使用多层的活动向量作为表示,以及最优化损失函数
AI科技大本营
2023/05/08
4160
深度学习三巨头共同发文,聊聊深度学习的过去、现在与未来
深度学习败于“捷径”
这一话题已经有过了无数讨论,大部分讨论都承认当前的深度学习还不是真正的智能,必须转向理解、常识。
AI科技评论
2020/07/28
3600
深度学习败于“捷径”
Yoshua Bengio:深度学习如何实现系统进化?
8月29日至30日,主题为“智周万物”的2020年中国人工智能大会(CCAI 2020)在位于江苏南京的新加坡·南京生态科技岛举办。
AI科技评论
2020/09/04
7230
【深度】“信息瓶颈”理论揭示深度学习本质,Hinton说他要看1万遍
【新智元导读】在深度学习应用突飞猛进的现在,我们比任何时候都急需理论上的突破。日前,希伯来大学计算机科学家和神经学家Naftali Tishby等人提出了一种叫做“信息瓶颈”的理论,在AI圈激发热议。信息瓶颈理论认为,深度神经网络在学习过程中像把信息从瓶颈中挤压出去一般,去除噪音输入,只保留与通用概念最相关的特征。Tishby认为这一理论不但能够解释深度学习的根本原理,还能解释人类学习过程。Hinton表示,信息瓶颈理论是近年来少有的突破,“这简直太有趣了,”Hinton写道:“我还得听上10,000次才能
新智元
2018/03/22
1.5K0
【深度】“信息瓶颈”理论揭示深度学习本质,Hinton说他要看1万遍
学界 | UC Berkeley新研究:通过深度学习建模注意点采样阵列
选自BAIR 作者:Brian Cheung 机器之心编译 参与:黄小天、蒋思源、路雪 近日,加州大学伯克利分校(UC Berkeley)在研究中尝试使用深度学习计算模型解释生物学中观察到的自然特征,在建模灵长类动物视网膜的注意点采样点阵的基础上,这些结果可引领主动视觉系统前端的新型设计方式的未来思考,并希望这种学科之间的良性循环仍会持续。 我们为什么需要注意力 我们通过眼睛观察到的只是世界的很小一部分,双眼只能采样周遭光场的少许片段,即使在这些片段中,大多数分辨力都是专注于神经节细胞(ganglion c
机器之心
2018/05/10
7790
每日论文速递 | 陈丹琦新作:启发式核心-理解PLM子网络
摘要:之前的研究发现,使用不同随机种子进行微调的预训练语言模型(LMs)可以获得相似的域内性能,但在句法泛化测试中的泛化效果却大相径庭。在这项研究中,我们发现即使在一个模型中,我们也能找到多个子网络,它们在域内in-domain的表现相似,但泛化效果out-of-domain却大相径庭。为了更好地理解这些现象,我们研究了是否可以从 "competing subnetworks "的角度来理解它们:模型最初代表了各种不同的算法,对应于不同的子网络,当最终趋同于一个子网络时,泛化就发生了。这种解释被用来解释简单算法任务中的泛化。我们没有发现相互竞争的子网络,而是发现所有的子网络--无论它们是否泛化--都共享一组注意头,我们称之为启发式核心。进一步的分析表明,这些注意头在训练的早期就出现了,并计算浅层的、非泛化的特征。模型通过加入额外的注意头来学习泛化,这些注意头依赖于 "启发式 "注意头的输出来计算更高层次的特征。总之,我们的研究结果为预训练 LM 的句法泛化机制提供了更详细的描述。
zenRRan
2024/03/25
1250
每日论文速递 | 陈丹琦新作:启发式核心-理解PLM子网络
2024集体智慧:跨尺度整合生物学的统一概念
https://www.nature.com/articles/s42003-024-06037-4
CreateAMind
2024/04/19
2200
2024集体智慧:跨尺度整合生物学的统一概念
理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
大数据文摘授权转载自AI科技评论 作者|Boaz Barak 编译|黄楠 编辑|陈彩娴 上世纪九十年代,斯坦福大学的知名生物信息学教授 Rob Tibshirani 曾拟了一个词汇表,将机器学习与统计学中的不同概念作了简单而粗暴的对应关系: 一方面,这个表格为理解机器学习提供了基础的认识,但同时,其简单地将深度学习或机器学习中的概念归纳为统计学中的词义,也引起了大多数人对深度学习本质的认知偏差:即深度学习是“简单的统计”。 然而,在深入探讨中,这样的认知在一定程度上阻碍了研究者理解深度学习成功的本质原因。
大数据文摘
2022/08/26
3430
理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
Cell | 利用人工智能构建虚拟细胞:关键优先事项与发展机遇
细胞是理解健康与疾病的核心,但传统模型在模拟其复杂功能和行为方面仍存在诸多局限。随着人工智能和组学技术的飞速发展,创建AI虚拟细胞(AIVC)成为可能,为生物学研究带来了革命性机遇。AIVC是一种基于多尺度、多模态大规模神经网络的创新模型,能够动态表征并精准模拟分子、细胞和组织在不同状态下的行为。2024年12月12日发表在Cell期刊的综述文章《How to build the virtual cell with artificial intelligence: Priorities and opportunities》全面阐述了AIVC的设计愿景,并深入探讨了通过跨领域协作构建AIVC的路径。AIVC不仅可实现高保真模拟,加速科学突破,还能有效指导实验研究,为深入理解细胞功能提供前所未有的视角,同时推动开放科学中的跨学科合作与创新。
DrugAI
2024/12/20
5330
Cell | 利用人工智能构建虚拟细胞:关键优先事项与发展机遇
麻省理工科研人员开发出新型人脸识别算法
美国麻省理工学院网站发布消息称,该校科研人员开发出了一种新的人脸识别算法,这是一种新的基于人脑面部识别机制的计算模型,似乎能够捕获被现有模型忽略的一些人类神经学方面的特征。 研究人员设计了一个机器学习系统来实现其模型,并使用了大量样本图像训练该系统识别特定人脸。他们发现,经过训练的系统多了一个中间处理步骤,该步骤能够表示面部的旋转度,例如从中心旋转45度,但未说明是向左还是向右。 这一属性没有被内置到系统中,而是在训练过程中自发出现的,其特征与过去实验中观察到的灵长类动物的面部处理机制相似,研究人员认为这表
人工智能快报
2018/03/07
9230
Nat Commun|在生物科学领域应用深度学习的当前进展和开放挑战
2022年4月1日,休斯顿莱斯大学计算机科学系的Todd J. Treangen等人在Nat Commun杂志发表文章,讨论了深度学习在五个生物科学领域的最新进展、局限性和未来前景。
智药邦
2022/06/08
1.3K0
Nat Commun|在生物科学领域应用深度学习的当前进展和开放挑战
scGPT: 基于生成式人工智能构建单细胞多组学的基础模型
今天为大家介绍的是来自Bo Wang团队的一篇关于单细胞多组学的论文。生成式预训练模型在自然语言处理和计算机视觉等各个领域取得了显著的成功。特别是将大规模多样化的数据集与预训练的转换器相结合,已经成为开发基础模型的一种有前途的方法。文本由单词组成,细胞也可以通过基因进行表征。这种类比启发作者探索细胞和基因生物学基础模型的潜力。通过利用呈指数增长的单细胞测序数据,作者首次尝试通过对超过1000万个细胞进行生成式预训练来构建单细胞基础模型,展示了生成式预训练scGPT有效地捕捉了有关基因和细胞的有意义的生物学洞见。此外,该模型可以轻松进行微调,以在各种下游任务中实现最先进的性能,包括多批次整合、多组学整合、细胞类型注释、基因扰动预测和基因网络推断。
DrugAI
2023/09/19
7640
scGPT: 基于生成式人工智能构建单细胞多组学的基础模型
Neuron脑影像机器学习: 表征、模式信息与大脑特征:从神经元到神经影像
人们对于神经影像的研究已不满足于对大脑局部的研究,开始探索汇集了更多分散于多个脑系统的脑活动预测模型。这里我们回顾多变量预测模型如何对定量可重复的预测结果进行优化,构建了比传统模型具有更大影像的身心交互模型并对大脑表达构筑于思维模式的方法进行了解释,尽管在实现前两个目标方面取得了越来越大的进展,但是模型仅仅开始处理后一个目标。通过明确地识别知识的缺口,研究项目可以有意地、程序化地朝着识别潜在心理状态和过程的大脑表征的目标前进。本文由美国科罗拉多大学学者发表在Neuron杂志。
用户1279583
2019/12/30
1.7K0
深度学习的光环背后,都有哪些机器学习的新进展被忽视了?
从神经网络被学术界排挤,到计算机科学界三句话不离人工智能、各种建模和预测任务被深度学习大包大揽,只不过短短十年时间。这十年里我们目睹了 dropout、SGD+动量、残差连接、预训练等等深度学习技术的大爆发,见证了学术研究全面拥抱深度学习,也听到了对深度学习不足之处的质疑之声、感受到了很多人对非深度学习方法「复兴」的期盼。
AI研习社
2020/02/21
7140
推荐阅读
Bengio:实现AGI的主要原则已经被发现?剩下的主要障碍是扩大规模?还是。。
1180
机器学习时代的哈希算法,将如何更高效地索引数据
1.1K0
DeepMind最新研究登Nature,揭示AI时代科研新范式,开拓未知领域,带来全新挑战
2630
布谷鸟搜索算法(Cuckoo Search)
2860
Nat. Rev. Genet. | 单细胞时代下系统生物学解析人类疾病的复杂性
1120
分层网络结构作为生物系统分层的动力学
2920
深度学习三巨头共同发文,聊聊深度学习的过去、现在与未来
4160
深度学习败于“捷径”
3600
Yoshua Bengio:深度学习如何实现系统进化?
7230
【深度】“信息瓶颈”理论揭示深度学习本质,Hinton说他要看1万遍
1.5K0
学界 | UC Berkeley新研究:通过深度学习建模注意点采样阵列
7790
每日论文速递 | 陈丹琦新作:启发式核心-理解PLM子网络
1250
2024集体智慧:跨尺度整合生物学的统一概念
2200
理论计算机科学家 Boaz Barak:深度学习并非“简单的统计”,二者距离已越来越远
3430
Cell | 利用人工智能构建虚拟细胞:关键优先事项与发展机遇
5330
麻省理工科研人员开发出新型人脸识别算法
9230
Nat Commun|在生物科学领域应用深度学习的当前进展和开放挑战
1.3K0
scGPT: 基于生成式人工智能构建单细胞多组学的基础模型
7640
Neuron脑影像机器学习: 表征、模式信息与大脑特征:从神经元到神经影像
1.7K0
深度学习的光环背后,都有哪些机器学习的新进展被忽视了?
7140
相关推荐
Bengio:实现AGI的主要原则已经被发现?剩下的主要障碍是扩大规模?还是。。
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档