前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Science:大规模神经元记录的分析方法

Science:大规模神经元记录的分析方法

原创
作者头像
悦影科技
发布于 2025-02-21 01:48:52
发布于 2025-02-21 01:48:52
960
举报

摘要:由于仪器、分子工具和数据处理软件的创新,同时记录数百或数千个神经元的活动已成为常规操作。这些记录可以通过数据科学方法进行分析,但尚不清楚应使用哪些方法或如何将其应用于神经科学研究。我们回顾、分类并展示了多种用于神经群体记录的分析方法,并描述了这些方法如何用于解决神经科学中的长期问题。我们回顾了从数学简单到复杂、从探索性到假设驱动、从新近开发到更成熟的方法。我们还展示了一些在分析大规模神经数据时常见的统计陷阱。

1. 引言

过去十年中,出现了许多用于研究大脑的新工具。其中包括通过电生理或光学成像方法记录大量神经元功能的工具。这些工具对于解决神经科学中的各种问题至关重要。例如,单个神经元在重复呈现相同刺激时会产生不同数量的动作电位,但尚不清楚这种变异性是否在整个大脑区域中以宏观水平协调。同样,感觉皮层中的神经元在没有感觉输入时也会产生动作电位,但尚不清楚它们的所谓“自发”活动在整个神经群体水平上是如何相关的,或者这种活动可能代表什么。最后一个例子是,内嗅皮层中的单个网格细胞代表环境的周期性空间特征,但尚不清楚这些单独的网格如何在整个群体中对齐和协调。

总的来说,大规模神经记录至少有三个原因是有用的:(i)它们大大加速了数据收集;(ii)它们使得研究协调的神经活动成为可能;(iii)它们使得研究跨多个空间尺度同时发生的计算成为可能。我们简要回顾了使大规模记录成为可能的技术进展,然后将本综述的大部分内容用于解释大规模神经数据的分析技术。

2. 技术进展的简要历史

在电生理学方面,Neuropixels的开发标志着单个电极杆上同时记录通道数量的重大飞跃。这一进展得益于微型化和电子集成的工程努力。随后的探针迭代进一步实现了微型化,用于自由移动的动物,并在多个电极杆上增加了更多通道,适用于较平坦的大脑区域,如皮层和海马体,以及更厚更长的探针,用于非人类灵长类动物和人类。其他具有多通道的探针也分别开发出来——特别是用于视网膜记录的数千个电极的平面阵列,以及多种类型的柔性电极,这些电极有望提高慢性记录的稳定性。为了利用这些新设备,需要对经典的数据处理方法进行彻底改革,因为现有方法需要大量的人工手动处理,这对于这种规模的数据来说效率低下。这导致了自动化的尖峰排序方法的开发,如Kilosort、MountainSort、JRClust等。

在光学成像方面,进展主要依赖于双光子钙成像。尽管双光子钙成像早在之前就已开发,但随着基因编码的钙指示剂GCaMP6的引入,它变得广泛使用。其他推动钙成像采用的因素包括易于使用的商用显微镜的可用性、高功率激光技术的创新,以及研究兴趣向较小动物模型的转变,这些模型更容易开发和测试分子工具,如GCaMP。在斑马鱼和小鼠中,已经展示了数万到数十万个神经元的超大规模记录,尽管这些记录在时间分辨率上做出了牺牲。还开发了专门的头戴式“微型显微镜”设备,用于自由移动的动物,使用单光子或最近的双光子激发。最近的钙传感器迭代更准确地代表了动作电位,并且这些传感器现在可以针对特定的神经元区域,如胞体和轴突。钙成像在非人类灵长类动物中也变得有效。与电生理学的发展类似,收集的大量数据需要开发自动化流程,如Suite2p、Caiman等,用于识别感兴趣的区域(如细胞),提取它们的时间变化活动轨迹,并通过反卷积方法将这些轨迹转换为尖峰时间的估计。

过去几年中,这些技术改进已传播到许多神经科学实验室。大量数据正在生成,如何处理这些数据的问题经常出现。我们回顾了最近的大规模神经记录分析方法及其产生的发现。本综述将作为一系列问题、方法和可能的答案进行,这些问题、方法和答案可能是在分析大规模神经记录时遇到的。也许您自己收集了这些数据,或者合作者为您收集了这些数据。或者,您可能在网上找到了共享的数据,因为越来越多的开放数据集在线可用。以下是您可能如何处理这些数据的一个可能的计划:(i)首先,您可以使用经典方法的扩展版本来寻找具有特定调谐特性的神经元,并研究这些特性在不同条件下的分布。(ii)然后,您可能会寻找所有同时记录的神经元活动的协调结构,这通常通过降维方法完成。(iii)最后,您可能会尝试将步骤(i)和(ii)中发现的神经群体与任务相关变量联系起来,这些变量可以明确地定义(如刺激或行为)或通过模型隐式定义(如奖励预期或注意调制)。

3. 大规模单神经元特性

开始分析大规模记录的最简单方法是使用现有的单神经元分析方法。这作为起点特别方便,因为它允许复制以前的结果,并确保新的记录方法不会引入伪影或以未知方式扭曲数据的统计特性。相反,它允许验证以前研究中发现的具有较少神经元的结果,并可能识别出以前结果不成立的特定群体。利用现代设备快速收集神经记录的优势,人们可能能够在同一动物中从不同大脑区域、不同细胞类型、多天的学习过程中或各种操作中实验性地获取多个数据集。这使得能够进行调查类型的研究,其中测量单神经元特性的分布并在神经群体之间或条件之间进行比较,这在以前相对较少的神经元数据集中是困难的(图1A)。这种方法在研究感觉系统(如视觉、听觉和体感皮层)的反应特性或丘脑和中脑感觉区域的反应特性方面非常有效,并且也已用于决策任务和导航任务。在这种数据体制中,可以使用简单的散点图对从单神经元反应特性估计的参数对进行探索性分析(图1A)。通常可以测量许多反应特性——例如,选择性指数、调谐曲线形状、潜伏期和行为相关性——跨试验变异性或Fano因子。因此,可以生成并可视化大量探索性散点图,这可能会发现意想不到的关系。随后可以研究这些关系如何跨大脑区域或作为操作的结果而变化(图1A)。

图片
图片

图1 大规模单神经元分析

3.1 群体平均

在发现了一些感兴趣的调谐特性后,下一步可能是以某种合适的方式组合或“平均”神经元,以清楚地说明整个群体的调谐。在最近的一项研究中,我们使用这种方法找到了对某些学习过的、熟悉的视觉刺激调谐的神经元群体,并测试了该群体是否根据其视觉类别对新刺激作出反应。其他应用包括识别对准备运动活动或运动行为执行调谐的神经群体,并分析该群体在全局光遗传学扰动测试试验中的动态。

群体平均的一个简单例子是“编码方向”分析(图1B)。为了获得编码方向,可以对调谐相似的神经元进行平均,从而创建一个噪声较小的群体平均,并且可以从该平均中减去调谐相反的群体平均。可以通过使用不同的变量获得多个编码方向。解码方法也可以用于推断神经元在编码方向上的权重——例如,使用线性回归、降秩回归和其他模型。这种方法的一个可能的警告是它们依赖于单神经元特性,这些特性可能是有噪声的。为了改进这一点,可以从去噪或“平滑”神经元开始,使用简单的方法如主成分分析(PCA)或非负矩阵分解(NMF),或使用更复杂的方法,如使用时间信息的高斯过程因子分析(GPFA)。

4. 神经群体活动的结构

一个更雄心勃勃的目标可能是使用大规模记录来识别神经群体中的结构和协调模式。这种结构可能由神经回路的内在动态生成,例如在果蝇环形吸引子或其他无脊椎动物中表征的中央模式生成器的精确布线系统中。在哺乳动物大脑中,尚不清楚哪些模式是由回路内在生成的,哪些是从该回路的输入中继承的。正如我们将看到的,通过提取和分析神经群体活动的结构,可以出现有用的线索。

这些分析通常从将数据转换为一系列群体向量开始,每个向量代表整个群体在特定时间点的神经放电模式。这通常随后是某种类型的降维方法,以识别高维神经数据的更简单的潜在表示。尽管这些表示可以单独研究,但它们也可以与任务或行为的特性相关联。

4.1 表征群体向量

首先,可以询问神经群体向量的结构和几何形状是否在各种任务条件下以及在自发活动或睡眠期间保持不变(图2A)。如果几何形状保持不变,这可能与神经协调由内在动态而非输入产生的假设一致。例如,内嗅皮层网格细胞中的群体向量在清醒和睡眠之间以及多个不同环境中保持其结构,表明内在吸引子动态的作用。相比之下,在感觉大脑区域中,我们和其他人发现小鼠和鱼中感觉诱发和自发活动的表示几乎正交。

图片
图片

图2 群体向量和降维

另一个感兴趣的特性是神经群体向量所跨越的可能子空间的线性维度。如果特定回路中的神经活动在许多刺激或行为下被限制在低维子空间中,这可能与神经元网络动态迫使活动进入该子空间的假设一致。尽管早期的研究表明许多大脑区域中的神经活动被限制在低维子空间中,但理论分析表明,这可能是由于记录的神经元数量较少和任务条件较少。大规模记录发现,小鼠视觉皮层中的刺激诱发和运动驱动的群体活动都是高维的,并且似乎遵循主成分的方差幂律衰减。类似的高维结构在小脑和猴子V1中也发现。相比之下,内嗅皮层群体活动的线性维度似乎是六,无论任务条件如何。

另一类几何方法侧重于不同数据集之间的几何形状的成对比较,例如,两个不同动物的记录,或同一动物在不同天或不同实验条件下的记录,或神经元数据集与模型之间的比较。当直接比较不可能或不希望时,可以旋转一个神经群体活动的子空间以匹配不同数据集中等效子空间的结构。这种子空间对齐方法可能与脑机接口或跨日学习研究相关,这些研究可能导致某些大脑区域(如海马体)中的“表示漂移”。

4.2 非线性降维

神经回路的内在动态可能导致低维群体动态,这些动态跨越非线性、弯曲的流形,因此可能无法通过线性方法找到。非线性降维方法可以揭示这种在拓扑意义上低维的结构。识别这种结构的方法通常从构建根据欧几里得空间中的距离连接的群体向量图开始(图2B),并使用优化方法(如Isomap、均匀流形逼近和投影(UMAP)或t分布随机邻域嵌入(t-SNE))将这些图映射到低维嵌入。最后,嵌入维度通常被识别为相关的行为变量,如头部方向或二维(2D)位置,并且神经活动的拓扑通常与任务或环境的拓扑进行比较。在某些情况下,对识别的流形周围的扰动分析或流形在行为状态之间的持久性可以进一步表明围绕固定点的吸引子样动态。该领域的下一个障碍是从更嘈杂和混合的表示中识别拓扑不变量,例如在主动行为期间皮层中发现的表示。

4.3 神经动态的降维

另一个可能的线索来自考虑神经元跨时间的行为。神经元的放电率不会从一个时刻随机变化到下一个时刻;相反,它们的动态可以预测未来的神经活动,并且神经元之间的相关性不仅存在于瞬时,还存在于不同的时间滞后,跨越多个时间尺度。这些时空相关性是否可能是内在动态系统的结果,我们能否从观察到的神经模式中揭示动态的规则?这个问题激发了许多研究,将神经网络模拟与神经数据进行比较或直接从数据中推断时间结构和复杂动态系统。然而,全面回顾这些工作超出了本综述的范围。进一步的进展可能受到相对较新的神经常微分方程(ODE)领域的启发,该领域最近在神经科学中找到了适用性。

4.4 将神经结构与任务变量相关联

本综述描述了试图通过各种形式的降维和建模将内在生成的神经动态与神经群体活动联系起来的方法。然而,降维也可以用于探索性分析——例如,帮助识别观察到的或潜在的变量(如注意调制或奖励预期)的影响,这些影响可能不会立即显现。无论使用哪种特定的降维方法,应用后的步骤都是相似的:通常将组件与刺激、行为或推断的潜在变量进行比较,以查看哪些组件可能是有趣的。一旦找到感兴趣的组件(不一定是算法输出的“顶部”组件),进一步的探索性分析包括在成对组件图中绘制轨迹,并用各种信息注释这些轨迹。成功通常定义为能够在此类图中识别科学上有意义的模式,并且通常随后进行量化,如下一节所述。

这种方法的一个警告是,组件通常不能在不同动物或会话之间明确识别。例如,一个动物中的组件2实际上可能是另一个动物中的组件3,或者可能根本找不到。这不一定归因于动物之间的差异,而是由于大多数降维方法的相似性:当组件旋转或以其他方式混合在一起时,可以获得相似的模型性能,这阻止了单一解决方案主导成本函数景观。存在各种方法来提高可识别性,通常通过施加稀疏性、正交性、最大方差排序或特征值分解等约束。降维的另一个警告是,它需要检查潜在的大量组件以找到具有有趣结构的组件,并且可能还需要在这些组件之间进行成对散点图。最近提出了一种更全局的探索性步骤方法,称为Rastermap,这是一种将神经活动的主要组件或集群嵌入到单个图中的技术,可以更容易地在单试验基础上可视化。

5. 编码和解码模型

在前几节中,我们讨论了几种探索性分析和各种可以直接拟合神经数据并可能将其与刺激和行为相关联的无监督模型。在本综述的其余部分,我们讨论编码和解码模型,这些模型可以更直接地将神经活动与观察到的和潜在的变量相关联。例如,可以询问小鼠大脑中的神经元是否编码感觉、运动和/或反馈信息,并且可以在每个区域的基础上进行评估。或者,可以询问感觉神经元群体(如V1)包含多少关于漂移光栅方向的信息,如我们的研究中所做的那样。这些类型的目标可以通过编码和解码模型分别实现,我们接下来讨论这些模型,然后讨论进行此类大规模分析时出现的统计陷阱。

5.1 编码模型

假设我们想要证明特定神经元群体强烈编码某些感兴趣的变量,如行为和刺激。我们可以构建一个基于这些变量的适当数学函数——编码模型——将其拟合到神经反应的训练数据中,并使用拟合的模型来预测测试试验中的反应(图3A)。在最近的工作中,我们正是这样做的,以基于口面部行为预测浅表皮层的神经反应,并发现我们可以预测约55%的可解释方差(不考虑单神经元变异性)。这之所以成为可能,是因为我们可以将编码模型拟合到大量同时记录的神经元,从而允许我们拟合更大的模型,具有更多的参数和更强的预测能力。在这种情况下,性能持续提高,直到达到约10,000个同时记录的神经元。编码模型也可以用于将神经数据与潜在变量(如决策变量、信心、期望、信念、行为状态、策略或内部时间估计)相关联。为此,必须首先构建一个行为模型,以从可观察的变量中估计潜在变量,然后使用这些估计作为预测因子。

图片
图片

图3 编码、解码和交叉验证

编码模型还可以用于消除相关变量对神经活动的影响。例如,决策信号通常与运动信号高度相关,这使得很难区分大脑中的神经元是与前者还是后者相关。编码模型可以分离这些信号的贡献,只要这些信号在试验中有足够的变异性以提供足够的统计功效。在多项研究中,这种方法被用来表明,虽然运动信号广泛分布在整个大脑中,但决策信号则更为空间受限。因此,必须小心不要将这些运动相关性错误地解释为决策相关性或行为诱发刺激(如声音)的相关性。如果没有扰动研究,也无法知道这些神经表示是否在因果上驱动运动,或者它们只是代表运动传出和本体感觉。

编码模型可以采取广泛的数学形式。对于大规模神经活动,特别有效的一类编码模型可以通过使用降秩回归或典型相关分析来构建,这些方法可以通过使用少量中间线性或非线性组合来捕捉大量输入和输出之间的关系。另一类编码模型可以通过使用一组预定义的基础函数来捕捉神经数据与离散时间事件(如感觉线索或奖励时间)之间的关系。当适当加权时,这些基础函数定义了神经对离散事件的暂时扩展响应。编码模型也可以是更强大的非线性模型,如卷积神经网络甚至是通常以自监督方式应用的变压器。

5.2 解码方法

另一种证明神经群体编码外部变量的方法是从测试试验中的群体活动中解码该变量(图3B)。可以解码动作或刺激,以连续时间或逐试验为基础。性能总是在未用于训练解码器的一组时间点或试验上测量。变量的可解码程度本身可能是有信息的,特别是在跨时间或空间位置分析时,或在比较不同脑区、细胞类型或实验操作时。对抽象变量(如图像类别)的线性解码可以用作执行输入解缠和增加表示不变性的神经计算的证据。随着神经元和试验数量的增加,误差的缩放也可以提供信息。已经表明,在某些皮层感觉系统中,刺激解码误差接近零,这与一些基于信息理论的感知误差起源解释不一致(图3A)。当解码误差在非零值处渐近时,解码器与真实刺激的偏差可能表明内部变异性,并且可以相对于报告感知状态的行为进行解释。最后,解码器可以用于“解码”完全内部生成的神经活动,如在海马体或HVC中发生的回放或计划期间的神经活动(图3B)。

5.3 大规模分析的统计陷阱

大规模分析有几个陷阱,可以通过使用更严格的方法来克服。首先,尽可能减少测试和训练数据点之间的统计依赖性非常重要,这可能不容易实现。例如,缓慢变化的行为变量(如唤醒或姿势)如果在测试数据上看起来是可解码的,可能是因为神经活动和行为都包含缓慢的时间尺度,从而产生“无意义”的相关性。为了减少训练和测试数据之间的依赖性,可以将时间点或试验分成时间扩展的块,并将每个块随机分配给训练或测试数据。

解码误差的解释也可能是一个主要的陷阱,因为有时假设该误差代表神经元对解码刺激、空间位置或环境中潜在奖励状态的不确定性。然而,如果记录的神经元或试验数量不足,误差更可能只是代表解码器噪声,保留了训练试验上的噪声结构。当测试试验和训练试验之间存在噪声结构的相似性时,解码器将在该测试试验上输出类似于训练试验的预测。这种类型的噪声无法与真实信号区分开来,除非有非常多的试验和神经元可用。然而,在足够多的神经元和试验的情况下,解码误差可能在某些情况下接近零,在这种情况下,解码器变异性只能是噪声,而不是代表内部不确定性。因此,在将解码误差解释为感知不确定性之前,需要清除一个高门槛;此外,感知不确定性可能以不同的方式由大脑编码和使用。一般来说,大规模记录可能允许任何感兴趣的变量在足够多的神经元的情况下被解码,这可能会削弱解码分析在分析神经数据中的作用。

简单分析也不能免于统计陷阱,特别是在应用于大规模神经数据时。这些陷阱通常源于单神经元的变异性,这使得它们的参数估计变得嘈杂。因此,这种估计成为一个统计问题,必须用统计严谨性来处理。作为一个简单的例子,考虑根据刺激后发放的延迟对神经元进行排序的情况(图3C)。当数据在用于获得排序的训练试验上显示时,神经元似乎按顺序发放。然而,这可能是对噪声数据的过拟合的结果,相同的排序在相同实验条件下的测试试验上可能给出完全随机的延迟或位置。很少有研究以交叉验证的方式执行此分析;一个正确方法的示例见。

许多这样的场景存在,并且可能不容易识别。考虑通过对齐和平均单神经元调谐曲线来构建群体调谐曲线的情况(图3C)。隐含在这个过程中的是为每个神经元选择首选刺激,这与前一个示例中选择最佳延迟的过程类似。因此,在训练试验上存在类似的偏差,其中明显的感觉响应可能仅仅是由于过拟合。当存在真正的感觉响应时,它在训练试验上可能看起来比实际更大。这些偏差通常在测试试验上被消除或大大减少。在操作的背景下,这些偏差可能特别难以检测。在一个假设的场景中,如果使用控制条件找到首选刺激,操作后的调谐曲线可能相对于训练试验看起来更宽且幅度更小,而当与“控制”条件的测试试验正确比较时,它们的宽度可能不变且幅度增加。不幸的是,检测和解决这些场景的方法还不够普及。

6. 讨论

本综述可以作为拥有大规模神经数据的科学家的指南(图4,图形摘要)。上述许多方法可以用于探索性分析,以识别神经活动与行为或刺激之间的新关系。通常可以通过编码或解码分析进行量化,这些分析可以直接应用于神经数据或通过无监督分析方法找到的降维组件。在量化高维数据时,必须避免许多陷阱,这些陷阱可能在没有足够经验的情况下难以识别。未来的理论和计算研究可能特别有助于解决这些问题,但它们必须针对实验科学家的受众。一些统计研究示例结合了简单直观的解释,但统计神经科学领域的扩展将是必要的,以避免大规模数据引入的众多陷阱。

图片
图片

图4 分析大规模记录的框架

展望未来,动物神经科学正在重新关注更复杂和更生态的行为——例如,在自由移动的动物在大环境中。在这些背景下的大规模神经记录正在成为可能,可能伴随着神经活动和行为的连续24/7监测。这些场景中的大变异可能对我们描述的多数分析方法造成不可逾越的困难,并将需要创新。这些场景中的大量潜在干扰变量(如环境变量或自发运动)非常难以控制。基于模型的方法将需要通过环境、任务或神经活动的操作来迭代地完善和测试假设。

对于更标准的神经科学实验,分析方法的未来进展仍然可能很大。获取此类数据的障碍已大大减少,许多实验室发现自己拥有比他们知道如何处理更多的数据。与计算和理论科学家建立合作将是利用这些数据的关键。为了推动该领域的更快进展,实验神经科学家将需要采用新的数学概念和分析技术。诸如Neuromatch Academy之类的暑期学校提供了专门针对神经科学应用的数据科学方法培训的良好机会。现在可能是新人和资深神经科学家更新和刷新数学概念和技术知识的好时机。

参考文献:Analysis methods for large-scale neuronal recordings.

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档