主动推理不仅将感知,而且将行动、计划和学习视为(贝叶斯)推理的问题
“贝叶斯大脑”假说(Doya 2007),感知不是将感觉状态(例如,来自视网膜)纯粹自下而上地转换成外部事物的内部表示(例如,作为神经元活动的模式)。相反,它是一个推理过程,将(自上而下)关于感觉最可能原因的先验信息与(自下而上)感官刺激相结合。推理过程对世界状态的概率表示进行操作,并遵循贝叶斯规则,该规则根据感官证据规定了(最佳)更新。感知不是一个被动的由外向内的过程 信息是从“外面”的感觉上皮细胞的印象中提取的这是一个由内而外的建设性过程——在这个过程中,感觉被用来证实或推翻关于它们是如何产生的假设
根据证据(或惊喜)对模型进行评分的过程通常被称为贝叶斯模型比较。对于更复杂的模型,惊喜的形式可能没有那么简单
作为推论的行动
对这一点的讨论是所有贝叶斯大脑理论共有的。 然而,我们现在介绍由主动推理提供的简单但基本的进展。这从上面讨论的推理角度出发,但将其扩展到将动作视为推理。这种想法源于贝叶斯推断最小化惊奇的概念
(或者,等价地,最大化贝叶斯模型证据)。到目前为止,我们已经考虑了当我们通过执行推理来计算惊喜时会发生什么——并根据模型最小化惊喜的能力来选择模型。然而,惊喜不仅仅取决于模型。 也要看数据。通过改变数据生成的方式,我们可以选择那些在我们的模型下最不令人惊讶的数据,从而确保模型符合目的。
一个有机体装备了产生行动的机制,就能与它的环境进行互惠的交换;参见图2.2。在动物中,这种机制采取运动反射回路的形式。本质上,对于每个动作-感知周期,环境向有机体发送一个观察。有机体使用(近似)贝叶斯推理来推断其最可能的隐藏状态。然后,它生成一个动作,并将其发送到环境中,试图使环境不那么令人惊讶。 环境执行动作,生成新的观察结果,并发送给有机体。然后,新的循环开始了
主动推理超越了感知和行动具有相同(推理)性质的认识。它还假设感知和行动共同实现一个目标,或者优化一个功能,而不是像通常假设的那样有两个不同的目标。在主动推理文献中,这一共同目标已经以各种(非正式和正式)方式描述过,包括惊奇、熵、不确定性、预测误差或(变分)自由能的最小化
我们现在转向推理的目标是什么的问题。换句话说,通过推理优化的是什么?在认知科学中,通常假设不同的认知功能(如感知和行动)优化不同的目标。例如,我们可以假设感知使重建的准确性最大化,而行动选择使效用最大化。相反,主动推理的一个基本观点是,感知和行动服务于完全相同的目标。 作为第一个近似值,感知和行动的共同目标可以表述为模型和世界之间差异的最小化。有时这是根据预测误差来操作的。
变分自由能表面上看起来似乎是一个抽象的概念,但当分解成认知科学中更直观和熟悉的量时,它的性质和它在主动推理中的作用就变得显而易见了。关于变分自由能的每一个观点都提供了有用的直觉,告诉我们自由能最小化意味着什么。我们在这里简要概述这些直觉,因为当我们讨论本书第二部分的例子时,它们会变得很重要。

等式2.5的第一行表明,最小化Q需要与生成模型(能量)保持一致,同时保持较高的后验熵。5后一种情况意味着,在缺乏数据或精确的先验信念(仅影响能量项)的情况下,我们应根据Jaynes的最大熵原理(Jaynes 1957)采用关于世界隐藏状态的最大不确定信念。简单来说,在没有信息的情况下,我们应该是不确定的(采用高熵信念)。术语能量继承自统计物理学。具体来说,在玻尔兹曼分布下,系统采用某种配置的平均对数概率与该配置相关的能量成反比,即,将系统从基线配置移动到该配置所需的能量。
第二行强调将自由能最小化解释为找到感官数据的最佳解释,该解释必须是能够准确解释数据的最简单(最低复杂程度)的解释(参见奥卡姆剃刀)。复杂性-准确性的权衡在几个领域中反复出现,
从认知的角度来看,推断具有最小复杂性的解释也很重要。这是因为人们可以假设,更新已知信息(先验)以适应数据需要认知成本(Ortega和Braun 2013年,Zénon等人2019年);因此,一个与先前的解释偏离最小的解释是更可取的。
变分自由能具有追溯性,因为它是过去和现在的函数,而不是未来的函数。尽管它促进了基于过去数据的对未来的推断,但它并不直接促进基于预期的未来数据的预期形式的推断。这对于规划和决策非常重要。在这里,我们根据预期会带来的未来观察来推断最佳行动或行动顺序(政策)。要做到这一点,我们需要用预期自由能的概念来补充我们的生成模型。
预期自由能和规划作为推论
预期自由能将主动推理扩展到包括一种典型的预期认知形式:计划。计划一系列行动,例如逃离迷宫所需的一系列行动,需要考虑人们期望收集的未来观察结果。例如,可能的行动过程的结果包括在右转后看到一个死胡同,或者在连续三次左转后看到出口。每个可能的动作序列被称为一个策略。这突出了主动推理中动作和策略之间的重要区别。前者是直接影响外界的东西,后者是关于一种行为方式的假设。言外之意是,主动推理把计划和决策当作一个推断做什么的过程。这将计划牢牢地带入了贝叶斯推理的领域,意味着我们必须像以前一样指定先验和可能性。
什么是期望自由能?

它表达了寻找新信息(即探索)的价值与寻找偏好观察(即利用)的价值完全相同的单位(NAT ),解决了行为心理学中经典的利用-探索困境。通过最小化期望自由能,这些项之间的相对平衡决定了行为主要是探索性的还是开采性的
想象一下,一个人想要一杯浓咖啡,并且知道镇上有两家不错的咖啡馆:一家只在周一到周五营业,另一家只在周末营业。如果他不知道今天是星期几,他必须首先选择一个具有认知价值并解决他的不确定性的动作(即,看日历的认知动作),并且只有在这之后才选择一个具有实用价值并带来回报的动作(即,去正确的咖啡馆的实用动作)。这个场景说明了这样一个事实:在大多数不确定的情况下,一个人必须首先执行认知行为来解决不确定性,然后才能自信地选择实用行为。没有考虑选择的认知启示的策略选择方法只能通过使用随机数生成器来选择策略,并且经常会失败
等式2.6中的第二个分解是根据风险和预期模糊性。这些术语类似于复杂性和不准确性:风险是预期的复杂性,而模糊性是预期的不准确性。风险是经济学中的一个常见概念,对应于策略及其后果之间可能存在一对多映射的事实
总之,预期自由能可以分解为风险和模糊性,以及实用和认知价值。这些分解很有趣,因为它们允许对主动推理所处理的各种各样的情况有一个正式的理解。此外,它们有助于理解主动推理如何包含几个决策方案——这可以通过忽略预期自由能的一个或多个组成部分来获得(图2.6)。如果一个人去除了先前的偏好,实用价值就变得无关紧要了,所有的行动都是由认知启示所驱动的——因此这样的方案只能解决不确定性。一旦先前的偏好被移除,(负的)预期自由能被不同地称为预期贝叶斯惊喜(在注意力探索的背景下)或内在动机(在自主学习的背景下)。如果消除了模糊性,得到的方案就相当于控制理论中的风险敏感控制或KL控制。最后,如果消除了模糊性和先验偏好,剩下的唯一必要条件是最大化观测值(或状态,如果使用等式2.6第三行的公式)的熵。这可能被解释为不确定性抽样(或保留自己的选择)。主动推理表明了这些方案和它们应用的(有限的)情况之间的形式关系。
参考:
生命主动推理的数学描述
回答薛定谔问题: 生命是什么?自由能公式
强化学习缺陷:如何用贝叶斯从错误中学习-安全及效率
新概率书 Structured Probabilistic Reasoning
用数学范畴定义生命的尝试
神经网络的一个底层结构缺陷
how we learn 第二章 人脑比机器强在哪?(长文)
自由能AI认知框架优点123456