(原文MACHINE LEARNING TECHNIQUES FOR BRAIN-COMPUTER INTERFACES K.-R. Müller, M. Krauledat, G. Dornhege, G. Curio, B. Blankertz)
本文综述了机器学习方法及其在脑机接口中的应用。特别关注的是特性选择。我们还指出了在BCI环境下验证机器学习方法时的常见缺陷。最后,我们简要介绍了Berlin-Brain Computer Interface (BBCI)。
脑机接口是一个有趣的、活跃的、高度跨学科的研究课题([3,4,5,6]),涉及医学、心理学、神经学、康复工程、人机交互、机器学习和信号处理。例如,BCI可以让瘫痪患者将她/他的意图传达给计算机应用程序。从人机交互研究的角度来看,从健康人脑到计算机的沟通渠道还没有深入的探索,但它有潜力,如加速反应时间,如[7],或更好地理解人类操作者的心理状态。
传统的BCI技术主要依赖于人类大脑对生物反馈的适应性,即受试者学习机器理解所需的心理状态,这种努力可能需要几个月的时间,直到它可靠地工作[8,9]。
柏林脑机接口(BBCI)在这方面追求另一个目标,即把学习任务的主要负荷强加给“学习机器”,由于使用了合适的机器学习(如[2])和自适应信号处理(如[10])算法,这也具有适应特定任务和变化环境的潜力。然而,短的训练时间意味着一个挑战,即只有很少的数据样本可用于学习,以描述要区分的个体大脑状态。特别是在高维特征空间(多通道eeg,通常每个通道有几个特征)中处理少量数据样本(训练会话的试验)时,需要避免过拟合。正是在这种高维小样本统计场景中,现代机器学习可以证明它的实力。
本文介绍了机器学习的基本概念,包括对常见线性分类的讨论和在核特征空间中分类的思想。分类与稳健特征选择这一有趣的任务相关。最后,我们简要描述了我们的BBCI活动,在这些活动中,我们讨论的机器学习思想得到了应用,并得出了结论。请注意,我们并没有试图全面处理所有可用的文献,相反,我们提出了一个有点偏颇的观点,主要是从作者的作品中引申出来,并提供-据我们所知-提供相关作品的参考以供进一步阅读。尽管如此,我们希望它将对读者有所帮助。
学会分类--一些理论背景
让我们从我们在这篇论文中考虑的学习问题的一般概念开始。分类的任务是找到一条规则,根据外部观察,将一个对象分配给几个类别中的一个。在最简单的情况下,只有两个不同的类。此任务的一种可能形式化是使用根据未知概率分布 P(x,y) 生成独立同分布(independent identically distributed,i.i.d) 的输入-输出训练数据对从给定函数类 F 中估计函数 f:R^N \rightarrow \{-1,+1\}
这样f将正确地分类未知的例子(x,y)。如果f(X)≥0,则将示例分配给类+1,否则将示例分配给类−1。假设测试示例是从与训练数据相同的概率分布P(x,y)生成的。所能得到的最佳函数f是使预期误差(风险)最小化的函数。
其中l表示适当选择的损失函数,例如,对于\hat{y} =y,l(\hat{y},y)=0,否则 l(\hat{y},y)=1(所谓的0/1损失)。同样的框架可以应用于回归问题,其中y∈R。这里,最常见的损耗函数是损耗的平方:l(f(x),y) = (f(x)−y)^2;其他损失函数的讨论见11。
不幸的是,风险不能直接最小化,因为潜在的概率分布P(x,y)是未知的。因此,我们必须尝试基于现有的信息,即训练样本和所选择的解的函数类的性质,来估计接近最优的函数。为此,我们需要所谓的归纳原则。一种特别简单的方法是将风险(1)的最小值近似为经验风险的最小值
可以在学习机上给出条件,确保渐近地(如K→∞),经验风险将收敛于预期风险。然而,对于小样本量,可能会出现大的偏差和过拟合(见图1)。那么不能通过简单地最小化训练误差来获得较小的泛化误差(2)。避免过拟合困境的一种方法是限制函数类F的复杂性,即从[12]中选择函数f。我们的直觉是,解释大多数数据的“简单”(如线性)函数比复杂的(奥卡姆剃刀)函数更可取。通常,我们会引入规则化术语(例如[13])来限制学习机可以从中选择的函数类的复杂性。这就提出了模型选择的问题(如[13]),即如何找到函数的最优复杂度。
图1:过拟合困境的说明:给定一个小样本(左),实值或虚线假设可能是正确的,虚线假设更复杂,但也有较小的训练误差。只有在大样本的情况下,我们才能看到哪个决策更接近真实的分布。如果虚线假设是正确的,实线将不适合(中间);如果实线是正确的,虚线假设就会过拟合(右)。来自[2]。
在脑-机接口研究中,使用线性分类器是很常见的,但是,尽管线性分类已经使用了一个非常简单的模型,但如果基本假设不成立,例如在存在离群值或强噪声的情况下,事情仍然可能出错,这是脑-机接口数据分析中非常常见的情况。我们将讨论这些陷阱并指出绕过它们的方法。
让我们首先确定符号并介绍线性超平面分类模型,下面我们将主要依赖该模型(见:图2,例见[14])。在BCI设置中,我们测量k=1…K个样本x_k,其中x是n维空间中的一些适当的特征向量。在训练数据中,对于每个采样点x_k,我们有一个类别标签,例如y_k∈\{−1,+1\}。要获得线性超平面分类器,执行以下操作
我们需要通过一些优化技术从训练数据中估计超平面w的法向量和阈值b[14]。在新数据x上,即在BCI反馈会话中,我们通过公式(3)计算新数据样本到法线w的方向上的投影,从而根据我们的线性模型确定应该给予x什么类别标签y。
图2:线性分类器和边距:线性分类器由超平面的法向量和偏移量b定义,即决策边界是\{x|w^Tx+b=0\}(粗线)。这个超平面定义的两个半空间中的每一个都对应一类,即f(x)=sign(w^Tx+b)。线性分类器的边缘是任何训练点到超平面的最小距离。在这种情况下,它是虚线和粗线之间的距离。来自[2]。
线性方法假定数据的线性可分性。我们将在下面看到,最优分离超平面从上一节最大化最小边界距(minmax)。和相反的,Fisher判别法使平均边距值最大化,即类均值之间的间距值。
对于线性可分的数据,有大量的可能性来确定(w,b),所有的分类都在训练集中正确,然而在未知的数据(测试集)上是不一定的。简单超平面分类器(典型形式为cf\ [12] ) 的一个优点是,文献(如[14,12])告诉我们如何为未知数据选择最佳分类器w:它是具有最大边界值ρ=1/||w||_2^2的分类器,即最小(欧几里德)范数||w||_2^2 [12] (也见图2)。线性支持向量机(svm)通过根据以下公式确定法向量w来实现大边界值
其中||·||_1表示l_1-范数:||ξ||_1=∑|ξ\_k|。这里,向量ξ的元素是松弛变量,参数C控制边距的大小与分离的复杂性。虽然用户不必关心松弛变量,但必须为每个特定数据集的自由参数C选择适当的值。选择C的过程称为模型选择,可见[2]。这里的一个重要问题将在第5节中讨论。支持向量机的一个特别优点是它们可以以一种优雅而有效的方式转换非线性分类器,参见第3.3节。
费舍尔判别式以不同的方式计算投影w。在类分布为(同分布)协方差相等的高斯分布的限制性假设下,可以证明它是贝叶斯最优的。数据的可分性由两个量来衡量:投影类均值的距离有多远(应该很大),以及数据在这个方向上的方差有多大(应该很小)。这可以通过最大化关于w[15,16]的类间和类内方差的所谓瑞利系数来实现。稍微更强的假设已经在我们的几个BCI实验中得到了满足,例如在[17,18]中。当获得(正则化的)费舍尔判别式的最优化被表示为数学规划时,[19,2],它类似于支持向量机:
线性分类器通常比非线性分类器更健壮,因为它们只有有限的灵活性(需要调整的自由参数较少),因此不太容易过拟合。然而,请注意,在强噪声和离群值的存在下,即使是线性系统也可能失败。在图3的流图中,人们可以清楚地看到,如果单个数据点对学习的影响不受限制,一个离群值或强噪声事件可以彻底改变决策曲面。尽管对于线性学习机器来说,这种效应会大大降低分类结果,但对于非线性方法来说,它的破坏性更大。控制人们对可用训练数据的不信任的一种更正式的方法是使用正规化(例如[13,20])。正则化有助于限制(a)离群值或强噪声的影响(例如避免图3的中间部分),(b)分类器的复杂性(例如避免图3的右边部分)和(c)决策曲面的杂乱程度(例如避免图3的右边部分)。无论使用的是线性还是非线性方法,都应该进行正则化,特别是对于BCI数据!
图3:在可靠数据(左)、带有离群值的数据(中)和带有错误标签的模式(右)的数据上定义最大边距“超平面”的问题。实线显示生成的决策线,而虚线标记边距区域。在中间和右边,原来的决策线是用点画的。说明了噪声敏感性:只有一个强噪声/离群值模式会破坏整个决策线的估计。来自[21]
基于核的学习以一种特别有趣和有效的方式迈出了从线性分类到非线性分类的一步:在适当的(核)特征空间中应用线性算法。因此,保持了线性分类的所有有益属性(例如,最佳性),但是由于特征和输入空间是非线性相关的,因此整个分类在输入空间中是非线性的。
特征空间中的算法利用了以下思想:通过非线性映射
数据x1,…,xn∈R^N被映射到一个可能高得多的特征空间F。对于一个给定的学习问题,我们现在在F而不是R^N中考虑相同的算法,即使用样本
给定这种映射表示,就可以在F中找到一个简单的分类或回归。对于(一个隐藏层)神经网络、径向基网络(例如[22,23,24,20])或Boosting算法[25],输入数据分别映射到由隐藏层、RBF凸点或假设空间给出的某种表示。
图4二维分类实例。使用二阶单项式x^2_1,\sqrt{2}x_1x_2和x^2_2作为特征,可以使用线性超平面在特征空间中找到分离(右)。而在输入空间中,这一构造得对应于一个非线性椭球形决策边界(左)。[2]。
从统计学上说,所谓的维数诅咒本质上说,随着空间维数N的增加,估计问题的难度急剧增加,因为原则上,作为N的函数,需要指数级的许多模式来正确地采样空间。这一众所周知的陈述引出了一些疑问,即去往高维的特征空间学习是否是个好主意。
然而,统计学习理论告诉我们,相反的情况可能是正确的:如果使用低复杂性,即简单的决策规则类别(如线性分类器),在F中的学习可能会更简单。然后映射Φ引入了功能强大的函数类所需的所有可变性和丰富性。简而言之:影响[12]的不是维度而是函数类的复杂性。直观地,这个想法可以从图4的示例中理解:在二维中,分离类需要一个相当复杂的非线性决策曲面,而在二阶单项式的特征空间(参见[26])中,分离所需要的全部是线性超平面。
在这个简单的玩具例子中,我们可以很容易地控制统计复杂度(通过使用一个简单的线性超平面分类器)和学习机的算法复杂度,因为特征空间只是三维的。然而,对于现实世界中的大型问题,控制后者变得相当棘手。例如,将BCI实验中的256维特征向量作为模式,将5阶单项式映射为Φ,那么就可以映射到包含256个特征的所有5阶乘积的空间,即(\frac{5+256-1}{5})\approx10维空间。因此,即使可以控制这个函数类的统计复杂性,在执行这个空间中的算法时仍然会遇到棘手的问题。
幸运的是,对于某些特征空间F和相应的映射Φ,存在使用核函数在特征空间中计算标量积的高效技巧[27,28,29,12]。让我们回到公式中的例子(5)。这里,两个特征空间向量之间的标量积的计算可以容易地根据核函数k重新表示
这个发现推广到x,y∈R^N和d∈N,核函数在x和y的d个向量项(单项式)的所有乘积的空间中计算标量积[12,30]。还要注意的是,使用特定SV核对应于隐式选择正则化运算符(参见。[33,34]))。表1列出了一些使用最广泛的内核函数。更复杂的核(例如,生成样条或傅立叶展开的核)可以在[35,36,33,37,38,39]中找到。
关于核函数有趣的一点是,标量积可以在F中隐式计算,而不需要显式使用甚至可以不知道映射Φ。因此,核允许计算空间中的标量积,而在这些空间中,人们几乎不执行任何计算。这个发现的一个直接结果是[30]:每个只使用标量积的(线性)算法都可以通过使用核隐式地在F中执行,也就是说,我们可以非常优雅地构造线性算法的非线性版本。这种基于核的学习机器的例子还有很多,例如支持向量机(SVMs)[12,2]、核Fisher判别(KFD)[40]或核主成分分析(KPCA)[30]。
表1:常用核函数:高斯RBF (c∈R)、多项式(d∈N,θ∈R)、s形(κ,θ∈R)和反二次(c∈R+)核函数最为常见。众所周知,RBF和多项式满足Mercers条件,但对于s形核[31]来说,情况并非如此。在正则化网络中进一步提出的有效核是多重二次核或样条核[13,32,33]。
综上所述:简单地将训练误差降至最小,并不能获得对不可见数据的小误差,反之,即使是线性方法,一般也会导致过拟合和非鲁棒行为(见图3)。避免过拟合困境的一种方法是限制函数类的复杂性,即解释大部分数据的“简单”(如线性)函数优于解释所有数据的复杂函数(Occam’s razor)。这仍然留下了离群值问题,只能通过离群值删除步骤和正规化来缓解。请注意,每当某个线性分类器不能很好地工作时,就会有(至少)两个潜在的原因:(a)要么正则化做得不好,要么使用了非鲁棒估计器,正确选择的线性分类器就会做得很好。或者也可以是(b)问题本质上是非线性的。然后建议在适当的核特征空间(如支持向量机)中尝试一个线性分类器并将其正则化。
最后,请注意,如果可以进行理想的模型选择,那么学习算法的复杂性就不那么重要了。换句话说,模型选择过程可以选择最好的方法,无论是线性的还是非线性的。在实践中,k-fold交叉验证对于这种理想的模型选择策略是相当有用的(尽管不是最优的)近似。
在讨论了分类、正则化和模型选择的一般概念之后,重要的是要强调,学习机的最终成功通常依赖于对数据的适当预处理。这里考虑了先前的知识,例如有关感兴趣的信号的频率内容。此外,在实践中非常重要的一点是,我们可以丢弃数据的非信息性维度,从而选择感兴趣的特征进行分类(参见[41])。虽然这看起来很简单,但它实际上是一种机器学习艺术,因为我们必须决定特征,即不能过度拟合训练样本,而是要推广到未知的测试数据,即使存在噪声。如何使特征选择与分类成为一种交叉集成的算法过程也是一个挑战。在这种情况下,很明显,例如,基于pca的特征选择在大多数情况下是一个糟糕的选择,因为它只考虑了所有样本的总密度,而实际上它应该考虑类标签,以避免丢弃对分类器有价值的信息。下面我们将简要回顾BBCI系统中使用的一些流行的特征选择技术。但是请注意,在我们的阐述中,我们不会详尽无遗,关于特征选择的进一步参考参见[41,14],或在BCI的背景下参见[17,42]。
假设每个记录的脑信号都有一个多维向量x。这个向量的每个维度称为一个特征,整个向量称为特征向量。这些样本来自一个受控测量,这样潜在的精神状态是已知的,每个样本,对应。特征向量xk(k=1,…,k)有一个标签yk。这些特征可能是原始的、原始的特征,即脑电图设备在特定时间、特定通道上测量到的电位值,也可能是某些预处理变换的结果,如特定频段的谱功率值。特征选择的问题是在所有特征中找到一个能充分代表整个特征向量信息的小子集。这样一个企图的目标可以是多方面的。(1)当特征向量相对于可用的训练示例的数量非常高维时,选择一个合适的更小的特征子集可以使分类器的训练更鲁棒。注意,在某些表示中,相关信息分布在所有特性维度,因此不可能选择有用的特性。在这种情况下,人们必须以一种聪明的方式转换数据,以集中有区别的信息。在单次脑电图分析中,这种转换的选择往往是关键的一步。这种转换可能基于有关大脑功能的神经生理学知识(频率滤波,空间滤波,…),或者可以从监督学习理论中吸收投影技术,例如,常见的空间模式分析([16,43,44]),或者从非监督学习中,例如,独立分量分析([45,46,47])。(2)对所选特征的神经生理学评估可能导致更好地理解所涉及的大脑功能,并作为结果,进一步改进算法。(3)人们可能会对减少需要测量的特征的数量感兴趣。在BCI研究中,一个典型的目标是减少操作BCI所需的通道数量。请注意,当从每个通道派生出多个特征时,特征选择并不自动意味着有用的通道选择,因为所选择的特征可能分布在许多通道上。然而,可以通过特征选择直接获得通道的选择:将通道的分数定义为属于该通道的特征分数向量的范数。
下面讨论的大多数特征选择方法都是为每个特征确定一个分数(即真实数\ge0)。基于这个分数的特征选择可以通过不同的策略获得。当目标是选择最有信息量的特征时,人们会选择k个分数最高的特征。这样的标准并没有考虑抛弃某些特征所能承受的损失。另一种策略是按照分数递减的顺序选择特征,直到它们的总和分数占所有特征总分数的特定百分比。
为了说明特征选择方法,我们从一个BCI实验中获取数据,这将在第6.2节中详细解释。在这里,只要知道受试者在每一类上进行140个时间段长为3.5秒的左手和脚的运动的想象。通过118个脑电图通道记录脑活动,利用Kaiser窗在6 ~ 32Hz频率范围内以2Hz分辨率计算谱功率值。因此特征向量有13·118=1534维。
统计学的基本方法是量化两种独立观测的分布的平均值之间的差异“有多显著”。这样的测量方法可以分别应用于每个特征,以获得关于区分两个分布的每个特征的信息程度的评分。
本节中的方法通过仅查看每个特征(及其标签)来确定每个特征的得分。设(x1,y1),…,(xk,yk)是具有标签yk∈{+1,−1}的一维观测(即,单个特征)的序列,定义X^+:=\{ x_k|y_k=+1 \}和X^−:=\{ x_k|y_k=-1 \},并设N^+,N^−是正、负类别中的样本数。
图5:左头皮图描绘了以R^2系数计算的频道选择分数。t-标度法、r-系数法和Fisher判别法得到的分数相似。右边的头皮图显示了稀疏LPM分类器获得的权重,参见第4.3.2节。
正如从t检验中所知道的,人们可以衡量两个一维分布的估计均值之间的差异,使其服从t统计量。定义X+均值与X−均值差的标准差的估计为
sxd:=
按t比例缩放的差异是X_t:=\frac{mean(X^+)-mean(X^-)}{sxd}。X_t的绝对值较大,表明两种分布的均值之间的差异是显著的。(对于t检验,计算一个阈值,它取决于所需的显著性水平α和自由度N^++N^-−2。)X_t的绝对值为score:scoreX_t(X) = abs(X_t)。基于此评分特征可以选择如上所述。
另一种统计方法是用双序列相关系数来衡量一个特征携带了多少标签信息:
或者r_2系数X_{r^2}:=X_r^2,这反映了在所有样本分布中的差异有多大程度上是由所属类解释的。图5显示了由上面解释的r^2特征评分得到的通道评分的头皮图。
Fisher准则对与类内方差相关的类之间的(平方)距离进行评分:
在本节中,我们提出了两种基于分类器的特征选择方法。在考虑基于分类器的特征评分时,必须注意一个重要问题。与上面讨论的方法相比,基于分类器的方法也可能对一些只有或主要由噪声组成的特征打分很高。分类器可以使用这种特征来消除另一个包含混合信号和噪声的信道中的噪声。所选择的噪声通道有助于找到有区别的信息,尽管它本身并不包含这些信息。是否需要这个属性,取决于选择的特征是什么。
这种简单的方法来自于机器学习理论。它是一个迭代过程,可以使用任何分类器来执行。从空集开始,根据交叉验证结果在每个步骤中添加一个特性。请注意,这种方法可以直接用于通道选择,而不必绕道平均特征分数。
设\varphi为所有通道的集合。从所选特性的空集\varphi_0:=\phi开始。在步骤 j中,确定每个通道c∈\varphi-\varphi_{j-1}的err(c)作为通道\varphi_{j-1}∪\{c\}对应的特征向量的交叉验证误差。设c_{best}为交叉验证误差最小的通道,并定义e(j):=err(c_{best})=min\{err(c)|c∈\varphi-\varphi_{j-1}\}和\varphi_{j}:=\varphi_{j-1}∪\{c_{best}\}。(增量选择)
停止标准的选择取决于特征选择的目的。如果目标是获得一组K个特征,则在步骤K之后简单地停止。如果目标是找到给出最佳分类的一组特征,则当序列<e(j)|j=1,...,|\varphi|>开始增加(或停止到‘显著’减少)时停止。图6显示了增量特性选择的三个步骤。
图6:从增量通道选择程序得到的一系列头皮图。第一块头皮显示了单通道分类的错误率。选择验证误差最小的通道CCP6。下一个头皮显示了两种信道分类的错误率,其中CCP6与所有其他信道相结合。CCP6、CCP2这一对给出了最好的结果。最后一张图显示,对于三个信道分类,选择C3来加入先前选择的信道。值得注意的是,被选择的通道位于那些预计有助于区分左手和脚图像的皮质上。(在C3中可以观察到左手运动表象的激活/去激活差异。)
一种特殊类别的分类器产生了一种特征选择方法,这种方法比上面的增量过程快得多。如果线性分类器倾向于对元素的高百分比的权重向量(总权重元素数少),则称为稀疏分类器。表述“高百分比”不是很精确,但通常这样的分类器有一个参数,允许控制稀疏性和错误分类分数之间的折衷(在训练集上)。有两种稀疏分类器的变体,它们与线性支持向量机非常密切地相关,参见。第3.1.1节。在这里给出的分类器中,稀疏解是通过使用线性范数而不是二次范数来获得的,如下所述。这样的策略会产生可行的优化问题,但不能保证稀疏性。然而,在解决方案稀少的实际问题中,它们通常是可以找到的。
使用与上述相同的符号,通过将正则化子上的l2范数替换为l1范数(||w||_1=Σ|W_n|)从线性支持向量机获得线性规划机(Linear Programming Machine,LPM),即,通过最小化来确定权重向量w(分离超平面的法向量)、偏差b和松弛变量ξ
这里的参数C控制稀疏性(||w||_1很小)和边距误差(||ξ||_1)之间的权衡。这种分类器被称为线性规划机器,因为极小化是一个受约束的线性优化问题,可以用线性规划技术来求解。
通过将正则化的Fisher判别式表示为数学规划,可以获得不同的方法,参见。第3.1.2节。这种形式化使我们有机会考虑一些有趣的变体。同样,用l1范数替换正则化函数上的l2范数,可以得到Fisher判别式的稀疏变体:
该优化是一个受约束的二次凸问题,可以例如通过cplex优化器[48]来解决。为了得到计算量要求较低的分类器,松弛变量ξ上的l2范数也可以用l1范数(线性稀疏费舍尔判别Linear Sparse Fisher Discriminant, LSFD)代替。在这种情况下,可以通过约束线性规划找到最小值。请注意,尽管这个分类器和LPM之间在形式上有很小的区别(‘=’vs‘>’和约束中的ξ_k>0),但是目标是非常不同的。与支持向量机类似,LPM是一种大间隔分类器,而LSFD则像通常的Fisher判别式一样,最大化类均值与类内方差之间的距离。
对其中一个线性稀疏分类器进行训练后,得到一个稀疏权重向量w,该稀疏权重向量垂直于分离超平面投影特征向量。每个特征的权重的绝对值可以作为特征选择的分数。图7描述了由LPM确定的权重向量作为灰度编码矩阵。在图5的右图中,导出的通道分数由右条指示,并排列为头皮拓扑图。
请注意,本节中提供的分类器可以内核化。但是在核化的非线性分类器中,稀疏性是在特征空间中获得的,因此不能用于(输入)特征的选择。
图7:此图显示了稀疏分类器的权值向量(绝对值)。底部的条形图显示了所有通道的总和。频率范围内的焦点位于α波段(这里是11-14Hz)。注意,只有不到4%的特征被赋予了非零权重。图5中右边的图显示了由这些特性评分得到的通道评分。
评估离线分类的目的是估计所研究方法的未来性能,或换句话说泛化能力。对BCI绩效最客观的报告是实际反馈会话的结果。但在开发和完善BCI系统的过程中,必须进行线下调研。做BCI反馈实验是昂贵和耗时的。因此,当一个人在探索处理或分类大脑信号的新方法时,他首先会想要验证和调整这些新方法,然后再将它们整合到一个在线系统中,并进行反馈实验。但有许多方法会导致(无意的)高估泛化能力。在本节中,我们讨论在分析本文中提出的方法时需要注意的问题。对BCI分类的评价方法进行更深入的讨论将是即将出版的一篇论文的主题。
泛化误差估计的实质是将已有的标注数据分成训练集和测试集,确定训练集上的所有自由超参数和参数,然后在测试数据上对该方法进行评估。在计算了所有参数、选择了所有超参数和进行了所有其他选择之前,不得以任何方式使用测试数据,以确保误差估计是无偏的。在交叉验证或留一验证中,以许多不同的方式将数据集分割成训练集和测试集,对每个分割执行如上所述的过程,最后将测试数据获得的所有误差的平均值作为泛化误差的估计。机器学习技术评估中的一个常见错误是在交叉验证之前对整个数据集执行一些预处理步骤或一些参数选择。如果预处理在每个样本上局部进行,则没有问题,但如果一个样本的预处理以某种方式依赖于所有样本的分布,则违反了测试集必须在所有自由参数固定之前保持不可见的基本原则。这种违反是否导致对泛化误差的严重低估还不能说,因为它取决于许多因素,但肯定不能排除它。
当有足够的数据样本时,可以通过将数据分为训练集、测试集和验证集三部分来解决问题。在该设置中,具有竞争参数设置的方法都将在训练上被训练并应用于验证集。选择在验证集上具有最佳性能的设置并将其应用于测试集。在交叉验证中,有许多这样的三重分裂,测试集上的平均误差被用作泛化误差的估计。
虽然这一过程在概念上是合理的,但在BCI环境中往往不是可行的方法,因为与数据的复杂性相比,可用标记样本的数量非常有限。在这种情况下,在一个固定的分割上进行模型选择是不可靠的。当有足够的计算资源(计算能力或时间)时,可以通过执行嵌套的交叉验证来避免这个问题。外部交叉验证用于泛化误差的估计,而外部验证的每个训练集上都有一个内部交叉验证来进行模型选择。
机器学习分类器具有参数,其值通过某种优化准则(如(4)中的w、b、ξ)与给定的标记数据(训练数据)相适应。一些分类器也有一些所谓的超参数,如(4)中的C。这些参数也必须适应数据,但不存在直接优化标准。通常,超参数控制分类器的容量或分离面的粗糙程度。在第4.3.2节中给出的分类器中,超参数C控制分类器的稀疏性(稀疏分类器的容量较小)。要验证具有超参数的分类器的泛化能力,必须执行如上所述的嵌套交叉验证。在外部交叉验证的每个训练集上,对不同值的超参数执行内部交叉验证。在外部交叉验证的测试集上选择(内部)交叉验证误差最小的一个,并对其进行评估。
当在交叉验证之前将预处理方法(如CSP)应用于整个数据集时,将出现5.1节中讨论的基本问题。但是,即使是不依赖于标签的预处理在其非本地操作时也可能是有问题的。为了进行无偏验证,必须在交叉验证内执行非本地处理,其中所有参数都必须从训练数据中估计。例如,要正确评价使用独立分量分析作为预处理的方法,必须计算每个训练集上的交叉验证的投影矩阵。使用该矩阵投影测试集的数据。虽然在交叉验证之前应用ICA引入的偏差可以预期是微乎其微的,但对于标签依赖方法CSP来说这是至关重要的。
通过在整个数据集上运行特征选择,然后在约简特征的数据集上进行交叉验证来评估特征选择方法是非常诱人的。而且不幸的是,这样的程序在许多出版物中都能找到,但它在概念上是错误的,很可能导致对泛化误差的低估。如第5.3节所述,必须在交叉验证中执行预处理,如特征选择。当方法具有超参数(如要提取的特征数量)时,必须通过内部交叉验证来选择这些超参数,请参见第5.2节。
柏林脑机接口的理念是,在“让机器学习”的口号下,将学习任务的主要负担从人类主体转移到计算机。为此,我们将前几节介绍的机器学习和特征选择方法应用于选取的BBCI范式的脑电图数据:自定节奏[17,18]和想象[49,44,50]实验
在准备运动任务时,在实际执行之前会有一个负的准备潜势。使用多通道脑电图记录,已经证明几个大脑区域对这种负移有贡献(参见。[51,52])。在单侧手指或手的运动中,负移主要集中在相应运动皮层区域的额叶,即执行动作的手的对侧。基于运动前电位的偏侧性,可以区分即将到来的左手运动和右手运动的多通道EEG记录。图8显示了“自定进度”实验期间的侧向准备潜力,这里可以通过在一个受试者中平均超过260次试验来揭示这一点。
图8:头皮图显示了左右手食指按键前的电位地形图。中间的图描述了在相对于电极位置CCP3的按键的-1000到-500ms的时间间隔内,左(细线)和右(粗线)食指的事件相关电位(ERP),这是由头皮图中的一个较大的十字标记的。对侧负波(偏侧化准备电位,LRP)明显可见。平均每个班级约有260次试验。
在“自定节奏”的实验中,受试者坐在一张正常的椅子上,手指放在电脑键盘前的打字位置。他们根据自己的自由意志(但被要求保持大约2秒的速度),以自己的食指和小手指按下按键。
EEG数据用27至120个电极记录,排列在扩展的10-20系统的位置,参照NASION,以1000Hz采样。数据被下采样到100Hz,以便进一步离线分析。记录两个前臂的表面肌电信号以确定肌电(EMG)起始时间。此外,还记录了水平和垂直眼电图(EOG),以检查相关的眼球运动。
在7中已经证明,当用前面章节中详细描述的方法离线分析LRP数据时,在按键前110ms,即EMG分类仍处于机会水平的时间点,分类准确率可以达到90%以上。这些发现表明,在时间要求苛刻的应用中使用脑机接口进行早期分类和快速响应是可能的。
表2显示了比较不同的机器学习方法时对同一主题的分类结果。显然,规则化和仔细的模型选择是强制性的,例如,可以通过比较LDA和RLDA来看出这一点。当然,特征的维数越高,正则化就越重要。K-NN性能很差的原因是其基本的欧几里德度量不适合于EEG实验中发现的低信噪比。有关详细信息,请参阅[17,18]。请注意,在最近的实时反馈实验中可以保持90%的准确率[53]。在这里,由于事先没有可用的触发信息,分类决定被分为一个分类器决定是否准备一个动作,第二个分类器决定是否要进行左或右的动作。由于反馈是即时的,被试在他们的决策反省中讲述了一些特殊的经历。
**表2**:击键前110ms的测试集误差(±STD);>MC<表示(感官)运动皮质上的56个通道,>ALL<表示全部105个通道。这些算法包括线性判别分析(LDA)、正则化线性判别分析(RLDA)、线性规划机器(LPM)、高斯径向基核支持向量机(SVMRbf)和k近邻算法(k-NN)。
在想象运动时,可以在相应的运动和躯体感觉皮层中观察到侧化的µ节律和/或中β节律的弱化。除了通常的频谱分析外,这种效应还可以通过绘制事件相关的去同步(ERD)曲线[54]来显示,该曲线显示了特定频带内频带功率的时间演化。一个典型的平均ERD如图9所示。
图9:这张头皮图显示了8-14 Hz频段内频带功率相对于参考周期的地形。中间的曲线图显示了左手(细线)和右手(粗线)运动图像在CCP5通道(头皮图中用较大的十字标记)的ERD曲线(频带功率的时间演变)。在运动想象过程中,µ节律的对侧衰减是清晰可见的。有关ERD的详细信息,请参见[54]。
我们对6名健康受试者进行了运动想象实验。受试者舒舒服服地坐在椅子上,手臂放松地放在扶手上。我们提供了两种不同的数据收集过程:在计算机屏幕上,目标“L”、“R”和“F”(用于左手、右手和脚的运动)持续3.5秒。在第一个会话类型中,这是通过在屏幕中间可视化字母来完成的。在第二个会话类型中,移动的灰色菱形的左、右或被涂成红色的下三角形。在整个过程中,受试者被要求想象左手的感觉运动/动作,右手反应。一只脚。刺激呈现后,屏幕空白1.5 - 2秒。以这种方式,每个session每一类记录35个trail。25次试验结束后,有一个短暂的休息时间。进行了四个session(每种训练类型两个)。128个电极记录脑电图数据,同时记录双臂和受累足的肌电图,EOG如上所述。
对“想象”实验的离线机器学习分析再次产生很高的分类率(使用特征组合算法PROB[44,49]可达98.9%),这预测了这种范式在在线反馈情况下的可行性(另见[50])。事实上,我们最近的在线实验证实了这一预测,在几个实验对象中显示了较高的比特率。这些实验对象没有经过训练,玩“brain pong”、“basket”(一个拼写任务)和“受控的1-D光标移动”[55]等电子游戏。根据“游戏”场景,最好的受试者可以实现高达37比特/分钟的信息传输速率。
在简要回顾了一般的线性和非线性机器学习技术之后,本文讨论了变量选择方法及其在脑电图数据中的应用。这些技术是BBCI在线反馈系统的重要组成部分。请注意,尽管机器学习算法最初总是离线测试,但为学习问题选择“正确”复杂性的掌握,使结果分类器普遍化,从而使它们在真正的BCI反馈实验中有用。特别是,从主体训练到个性化和适应(“让机器学习”)的信号处理和分类算法到“被研究”的特定大脑的范式转变是BBCI成功的关键。能够为未经训练的被试使用(B)BCI极大地提高和扩大了人机接口的实际应用范围。
原文链接: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.69.3062&rep=rep1&type=pdf.
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。