首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在给定数值矩阵的情况下,生成结果的联合分布的最有效方法是什么?

在处理数值矩阵并生成结果的联合分布时,可以采用多种统计和机器学习方法。以下是一些基础概念和相关方法:

基础概念

  • 联合分布:描述两个或多个随机变量的概率分布。
  • 数值矩阵:通常表示为一个二维数组,其中每一行代表一个观测样本,每一列代表一个特征。

相关方法及其优势

  1. 核密度估计(Kernel Density Estimation, KDE)
    • 优势:适用于非参数估计,能够处理多维数据,不需要假设数据的分布形式。
    • 应用场景:当数据分布未知或不符合常见分布时。
  • 高斯混合模型(Gaussian Mixture Models, GMM)
    • 优势:能够捕捉数据的复杂分布,通过多个高斯分布的组合来近似真实分布。
    • 应用场景:适用于数据可能由多个子群体组成的情况。
  • 主成分分析(Principal Component Analysis, PCA)
    • 优势:降维技术,能够提取数据的主要特征,简化联合分布的分析。
    • 应用场景:当数据维度很高,需要减少计算复杂度时。
  • 自编码器(Autoencoders)
    • 优势:深度学习方法,能够学习数据的紧凑表示,适用于高维数据的降维和分布学习。
    • 应用场景:在大数据集和复杂分布的数据上表现良好。

示例代码

以下是使用Python和Scikit-learn库进行核密度估计的简单示例:

代码语言:txt
复制
import numpy as np
from sklearn.neighbors import KernelDensity
import matplotlib.pyplot as plt

# 假设我们有一个二维数值矩阵 X
X = np.array([[1, 2], [2, 3], [3, 4], [4, 5]])

# 创建核密度估计模型
kde = KernelDensity(kernel='gaussian', bandwidth=0.2).fit(X)

# 生成网格以绘制密度图
x, y = np.mgrid[0:5:.1, 1:6:.1]
positions = np.vstack([x.ravel(), y.ravel()])
values = np.exp(kde.score_samples(positions.T))
values = values.reshape(x.shape)

# 绘制结果
plt.imshow(np.rot90(values), cmap=plt.cm.Blues)
plt.colorbar()
plt.title('Kernel Density Estimation')
plt.show()

解决问题的步骤

  1. 数据预处理:确保数据清洗和标准化。
  2. 选择合适的方法:根据数据的特性和需求选择上述方法之一。
  3. 模型训练:使用选定的方法训练模型。
  4. 评估和调整:通过交叉验证等方法评估模型性能,并根据需要调整参数。
  5. 结果可视化:使用图表或其他可视化工具展示联合分布。

通过这些步骤,可以有效地从给定的数值矩阵生成结果的联合分布。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

论文赏析无监督循环神经网络文法 (URNNG)

首先对于无监督成分句法分析,常规做法就是学习一个生成模型 ? ,就比如RNNG就是一个生成模型,但是缺少句法树 ? 的监督信号怎么办呢?现在给你的输入只有句子 ?...的概率分布 ? 。右边是一个生成模型(Generative Model),用来计算从推理网络中采样出来的句法树 ? 的联合概率 ?...然后就是采样了,推理网络目的就是计算出句法树的概率分布,然后根据这个分布采样出若干个句法树,那么现在给定一棵句法树可以根据上面的算法计算出它的概率了,那怎么采样呢?...,生成网络的目的就是计算它的联合概率 ? 。...为了防止数值溢出,常规上我们计算联合概率的对数: ? 从这个式子可以看出,联合概率定义为所有给定某段单词和action预测下一个单词和给定某段单词和action预测下一个action的概率之积。

37710

NAACL19 | 无监督循环神经网络文法 (URNNG)

: 接下来就需要计算句法树的概率分布了,这里不直接计算句法树 z,而是计算它的邻接矩阵 B 的概率分布,这个邻接矩阵意思就是如果 存在,那么 ,否则的话 。...然后就是采样了,推理网络的目的就是计算出句法树的概率分布,然后根据这个分布采样出若干个句法树,那么现在给定一棵句法树可以根据上面的算法计算出它的概率了,那怎么采样呢?...上面的推理网络采样出了若干个句法树 z,生成网络的目的就是计算它的联合概率 。...为了防止数值溢出,常规上我们计算联合概率的对数: 从这个式子可以看出,联合概率定义为所有给定某段单词和 action 预测下一个单词和给定某段单词和 action 预测下一个 action 的概率之积...结论 和之前两篇语言模型做无监督成分句法分析类似,这篇论文用推理网络学习句法树的概率分布并采样句法树,再用生成网络计算这些句法树和句子的联合概率,最后用变分推理最大化句子的概率,也就是学习出一个好的语言模型

68910
  • . | 用于分子生成的遮掩图生成模型

    该模型优于先前提出的基于图的方法,并且与基于 SMILES 的方法可比。最后,作者展示了MGM模型生成具有指定属性所需值的分子,同时保持与训练分布的物理化学相似性。...作者基于无需直接对联合分布建模就能够从中采样的思想,探索了一种新的概率图生成方法,提出了一个遮掩图模型MGM,这是一个基于图的生成模型,在给定图的其余部分的情况下学习被遮盖图组件的条件分布。...2 模型框架 作者使用单个图神经网络来参数化由给定图产生的任何条件分布,并且假设遮掩部分η在给定剩余图的情况下彼此条件独立。...然后,给定图的其余部分,作者最大化遮掩部分 η 的对数概率。这一过程类似于带有mask的语言模型,即在给定不完整句子的情况下预测mask部分的单词。这一过程的损失函数如下图所示: ?...也可以扩展到蛋白质生成上,以氨基酸为节点,以接触图为邻接矩阵。在这个框架中可以使用条件生成来重新设计蛋白质,以实现所需的功能。此外,该模型也适用于先导化合物优化。

    81050

    斯坦福CS229机器学习笔记-Lecture9- Learning Theory 学习理论

    简单来讲,就是希望获得的模型,既能有效的概括出数据的结构特征,又对其他新的样本具有良好的适应性, 2.Union Bound + Hoeffding Inequality (联合约束+Hoeffding...不等式) 为了后面的证明,需要先引入两个引理: ① Union bound(联合约束)(维基百科中提到,其实这就是布尔不等式) 设 A1, A2, ..., Ak 是 K个不同事件(但不一定互相独立),.... , Zm 是 m 个独立同分布(同伯努利分布)的随机变量, ? 是这些随机变量的均值,则有: ? 它说明:假设我们从一个伯努利分布的随机变量中随机变量的均值 ? 去估计参数 ?...(最原始的那个式子,使用hoeffding不等式那个阶段,不是指化简后的最后结果), 这里有三个变量, m 和 γ 以及 误差概率,事实上,我们可以通过其中任意两个来对另一个变量进行约束。...这种联合约束说明了 需要多少数量的训练样本才能对结果有所保证。这种 为了使某些方法 达到特定的 表现水平所需要的 训练集的规模 m 也被称为 样本复杂度--Sample complexity。

    1K10

    全网最全数据分析师干货-python篇

    k-means原理: 在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)...一种常用的降维方法是对目标属性产生许多巨大的树,然后根据对每个属性的统计结果找到信息量最大的特征子集。Eg,如果我们能能够对一个非常巨大的数据集生成非常层次非常浅的树,每棵树只训练一小部分属性。...1.删除含有缺失值的个案 主要有简单删除法和权重法。简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。...对B组估计出一组Y3的值,对C将利用 Y1,Y2,Y3它们的联合分布为正态分布这一前提,估计出一组(Y1,Y2)。 上例中假定了Y1,Y2,Y3的联合分布为正态分布。...这个假设是人为的,但是已经通过验证(Graham和Schafer于1999),非正态联合分布的变量,在这个假定下仍然可以估计到很接近真实值的结果。

    1.7K53

    教程 | 一文读懂如何用LSA、PSLA、LDA和lda2vec进行主题建模

    直观来说,截断 SVD 可以看作只保留我们变换空间中最重要的 t 维。 ? 在这种情况下,U∈ℝ^(m⨉t)是我们的文档-主题矩阵,而 V∈ℝ^(n⨉t)则成为我们的术语-主题矩阵。...,但它也有一些主要缺点: 缺乏可解释的嵌入(我们并不知道主题是什么,其成分可能积极或消极,这一点是随机的) 需要大量的文件和词汇来获得准确的结果 表征效率低 PLSA pLSA,即概率潜在语义分析,采取概率方法替代...从形式上看,一个给定的文档和单词同时出现的联合概率是: ? 直观来说,等式右边告诉我们理解某个文档的可能性有多大;然后,根据该文档主题的分布情况,在该文档中找到某个单词的可能性有多大。...我不打算深入讲解狄利克雷分布,不过,我们可以对其做一个简短的概述:即,将狄利克雷视为「分布的分布」。本质上,它回答了这样一个问题:「给定某种分布,我看到的实际概率分布可能是什么样子?」...即使没有看到某个文件,我们可以很容易地从狄利克雷分布中抽样得来,并继续接下来的操作。 代码实现 LDA 无疑是最受欢迎(且通常来说是最有效的)主题建模技术。

    2.2K10

    干货 | 一文详解隐含狄利克雷分布(LDA)

    )期望 证明: ▌1.5 多项式分布 多项式分布是二项式分布的推广,二项式分布做 n 次伯努利试验,规定每次试验的结果只有两个,而多项式分布在 N 次独立试验中结果有 K 种,且每种结果都有一个确定的概率...假设有一个转移矩阵为 Q 的马氏链(Q(i,j) 表示从状态 i 转移到状态 j 的概率),通常情况下很难满足细致平稳条件的,即: 我们对公式(36)进行改造,使细致平稳条件成立,引入 α (i,j)...最简单的我们可以取: Q' (i,j)=Q (i,j)α (i,j) ,Q' (j,i)=Q (j,i)α (j,i) ,所以我们有: 转移矩阵 Q' 满足细致平稳条件,因此马氏链 Q' 的平稳分布就是...,这里以一个常见的马氏链状态转移矩阵 Q 通过一定的接受-拒绝概率得到新的马氏链状态转移矩阵 Q'。...EM算法可以有效地解决这个问题,引入 表示 的概率分布 。

    3.8K51

    MCMC原理解析(马尔科夫链蒙特卡洛方法)

    如果我们要求f(x)的积分,如 而f(x)的形式比较复杂积分不好求,则可以通过数值解法来求近似的结果。...2、均匀分布,Box-Muller 变换 在计算机中生成[0,1]之间的伪随机数序列,就可以看成是一种均匀分布。而随机数生成方法有很多,最简单的如: ?...既然 p(x) 太复杂在程序中没法直接采样,那么我设定一个程序可抽样的分布 q(x) 比如高斯分布,然后按照一定的方法拒绝某些样本,达到接近 p(x) 分布的目的,其中q(x)叫做 proposal distribution...使用矩阵的表示方式,转移概率矩阵记为 ? ? ? 我们发现从第7代人开始,这个分布就稳定不变了,事实上,在这个问题中,从任意初始概率分布开始都会收敛到这个上面这个稳定的结果。 ?...对于给定的概率分布p(x),我们希望能有便捷的方式生成它对应的样本。

    2.7K21

    机器学习算法中的概率方法

    梯度下降的细节留在下一节介绍。 概率方法的优缺点各是什么? 优点: 这种参数化的概率方法使参数估计变得相对简单。缺点: 参数估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。...在现实应用中,欲做出能较好地接近潜在真实分布的假设,往往需在一定程度利用关于应用任务本身的经验知识,否则仅凭 “猜测”来假设概率分布形式,很可能产生误导性的结果。...1.2 梯度下降 我们的目标是求解下列无约束的优化问题。 ? 其中 L(θ) 是连续可微函数。梯度下降是一种一阶 (frstorder) 优化方法,是求解无约束优化问题最简单、最经典的求解方法之一。...5.1 生成式模型 判别式模型和生成式模型各是什么?...判别式模型和生成式模型各是什么,各自优缺点是什么,常见算法中哪些是判别式模型,哪些是生成式模型? 答案见上文。 贝叶斯定理各项的含义? 答案见上文。 朴素贝叶斯为什么叫“朴素”贝叶斯?

    1.3K30

    史上最全《四万字 AI 词典》助力通关AI学习

    Bayes optimal classifier(贝叶斯最优分类器):在给定先验分布的情况下,最小化错误率的分类器。...Conditional risk(条件风险):在给定一些条件的情况下,事件发生可能带来的损失或风险。Confidence(置信度):对于某一事件发生的信心或度量。...Gibbs sampling(吉布斯采样):一种马尔可夫链蒙特卡洛采样方法,用于从联合概率分布中抽取样本。...Markov Random Field(马尔可夫随机场):用于建模联合概率分布的图模型,具有马尔可夫性质。Matrix inversion(矩阵求逆):计算矩阵的逆矩阵的过程。...Soft voting (软投票): 一种集成学习方法,多个分类器的预测结果按照一定权重进行投票。Sparse activation (稀疏激活): 在神经网络中,指神经元只有少数几个被激活的状态。

    31510

    算法工程师-机器学习面试题总结(2)

    多项式核可以处理一定程度的非线性问题,但对于复杂的非线性问题仍然可能不够有效。 3....后验概率最大化是一种基于贝叶斯定理的决策准则,表示在给定一些先验信息和观测数据的情况下,选择使后验概率最大的假设或类别。...生成模型(Generative Model)是通过对数据的生成过程进行建模来学习数据的分布。它试图学习数据和标签之间的联合概率分布,即P(X, Y),其中X表示输入特征,Y表示对应的标签或类别。...生成模型可以通过学习数据的潜在结构及其生成过程来生成新的数据样本,并且可以使用联合概率分布进行概率推断,包括生成样本、条件概率计算等。...判别模型(Discriminative Model)则是直接对条件概率分布进行建模,即P(Y|X),它关注的是在给定输入特征X的情况下,预测对应的标签或类别Y的概率。

    55240

    机器学习速成第三集——无监督学习之降维(理论部分)!

    然而,对于高维度数据,数值稳定性和精度可能受到影响,这使得PCA在某些情况下效率较低。 增量PCA:针对大规模数据集,传统的计算方式可能不现实。...复杂度和稳定性:PCA需要对数据矩阵进行SVD分解,这可能会导致数值精度和稳定性下降,特别是在高维度数据上。 分布式计算:PCA不适合分布式计算环境,因为其计算过程较为集中且难以并行化。...这意味着每个源信号在统计上是独立的,其联合概率分布可以分解为各个源信号的概率分布的乘积。 最大化独立性:ICA算法的关键思想是通过数学变换最大化源信号之间的独立性。...这种变换基于对混合信号的估计,从而分离出原始的独立成分信号。 然而,值得注意的是,ICA在处理依赖性强的源信号时可能面临挑战。实验表明,在依赖性较强的情况下,ICA可能无法有效分离这些信号。...非负矩阵分解(NMF)和局部保持投影(LPP)在降维中的优缺点分别是什么?

    14610

    EM算法求解pLSA主题模型

    隐性语义索引并不是概率模型,因此也算不上一个主题模型,但是其基本思想为主题模型的发展奠定了基础,LSI通过奇异值分解的方法计算出文本中各个主题的概率分布,在LSI的基础上,Hofman提出了概率隐性语义索引...的主题, ? 表示在给定主题 ? 下单词,M代表文档数目,N表示文档的长度; ? 表示文档 ? 出现的概率, ? 表示文档 ? 中主题 ? 出现的概率, ? 表示在给定主题 ? 出现单词 ?...的概率; 每个文档在所有主题上服从多项分布,每个主题在所有词项上服从多项分布。 下面是pLSI的文档的生成过程,这个文档的生成过程循环M词,也就是文本档的个数: ?...▲pLSI文档的生成过程 根据pLSI的图模型也可以发现,其实pLSI就是一个含有隐含变量的贝叶斯网络,观测到的变量有 ? 和 ? ,那这两个变量的联合分布就可以写出来,也就是 ? : ?...这里得到模型的两组主要参数,其实从pLSI的文档的生成过程也可以看出我们需要求的就是 ? 这两组参数: ? 表示的各文档的主题概率分布; ? 表示的各主题下词项概率分布; iV.

    78810

    深入浅出最大熵模型

    当概率分布最均匀时候,预测的风险最小,此时得到的概率分布的熵是最大。 3. 判别模型 vs 生成模型 分类问题,就是给定一个数据 x,要判断它对应的标签 y。分类模型有判别模型和生成模型两种。...生成式模型关注结果是如何产生的。但是生成式模型需要非常充足的数据量以保证采样到了数据本来的面目,所以速度相比会慢。或者说生成模型是在模拟数据真实分布。 生成模型的例子:HMM / 朴素贝叶斯。...通俗的解释为在给定特征数值后预测结果出现的概率。 判别模型直接将数据的 Y(或者label),根据所提供的 X (features)来学习。...那么你可以有两种方法达到这个目的: 学习每一种语言,你花了大量精力把汉语、英语和法语等都学会了,我指的学会是你知道什么样的语音对应什么样的语言。然后再有人过来对你说话,你就可以知道他说的是什么语音。...构建最大熵模型 5.1 目的 我们的任务是构造一个统计模型,该模型能够准确表示随机过程的行为。该模型任务是预测在给定上下文 x 的情况下,输出y的概率:p(y|x).

    2.2K31

    【生成模型】关于无监督生成模型,你必须知道的基础

    在判别模型中,我们直接对p(Y|X)进行建模,它试图描述在给定输入特征X的情况下,标签信息Y的分布,典型判别模型包括: 近邻法、感知机、决策树、逻辑回归和条件随机场等。...在生成模型中,对数据特征 X 和标签Y的联合分布p(X,Y)进行建模,然后利用条件概率公式,即可计算 p(Y|X) ,如下所示: ? 实际中,我们通常将联合分布变换成易于求解的形式: ?...典型生成模型有朴素贝叶斯方法和隐马尔科夫模型等,在朴素贝叶斯方法中,我们通过训练集学习到先验概率分布p(Y)和条件概率分布 p(X|Y) ,则可得到联合概率分布p(X,Y);在隐马尔可夫模型中,我们通过训练集学习到初始概率分布...、状态转移概率矩阵和观测概率矩阵,则得到了一个可以表示状态序列与观测序列联合分布的马尔可夫模型。...无监督生成模型是近些年深度学习的热门方向,但其已经拥有很长时间的发展。基于极大似然法的参数点估计可认为是最简单的无监督生成模型,上世纪80年代Hinton已经使用玻尔兹曼机学习二值向量的任意概率分布。

    1.8K10

    教程 | 一文读懂如何用LSA、PSLA、LDA和lda2vec进行主题建模

    直观来说,截断 SVD 可以看作只保留我们变换空间中最重要的 t 维。 ? 在这种情况下,U∈ℝ^(m⨉t)是我们的文档-主题矩阵,而 V∈ℝ^(n⨉t)则成为我们的术语-主题矩阵。...,但它也有一些主要缺点: 缺乏可解释的嵌入(我们并不知道主题是什么,其成分可能积极或消极,这一点是随机的) 需要大量的文件和词汇来获得准确的结果 表征效率低 PLSA pLSA,即概率潜在语义分析,采取概率方法替代...从形式上看,一个给定的文档和单词同时出现的联合概率是: ? 直观来说,等式右边告诉我们理解某个文档的可能性有多大;然后,根据该文档主题的分布情况,在该文档中找到某个单词的可能性有多大。...我不打算深入讲解狄利克雷分布,不过,我们可以对其做一个简短的概述:即,将狄利克雷视为「分布的分布」。本质上,它回答了这样一个问题:「给定某种分布,我看到的实际概率分布可能是什么样子?」...即使没有看到某个文件,我们可以很容易地从狄利克雷分布中抽样得来,并继续接下来的操作。 代码实现 LDA 无疑是最受欢迎(且通常来说是最有效的)主题建模技术。

    1.6K00

    概率论--最大似然估计

    其核心思想是通过最大化观测数据出现的概率来找到最优的参数值。 基本原理 最大似然估计的基本思想是利用已知的样本结果,反推最有可能导致这些结果的参数值。...最大似然估计的目标是找到一个参数 ^θ^,使得在给定 ^θ^ 的情况下,观测到的数据出现的概率最大。...对先验选择敏感:贝叶斯估计的结果高度依赖于所选的先验分布,不同的先验选择可能导致不同的结果。 解释性差:贝叶斯方法返回的是模型的加权平均值,往往导致更复杂且难以理解的解。...具体的计算过程如下: 定义似然函数:假设误差项遵循正态分布,可以推导出多重线性回归模型的似然函数。 求解参数:使用等式和矩阵运算来求解似然函数的最大值对应的参数值。...最大似然估计的数值优化算法有哪些,它们的效率和适用场景分别是什么? 最大似然估计(MLE)是一种通过最大化似然函数来找到参数值的方法,广泛应用于统计模型和机器学习中。

    27410

    解读 | 得见的高斯过程

    而我们最感兴趣的是多元高斯分布,其每个随机变量都呈正态分布,联合分布也是高斯的。一般来说,多元高斯分布由均值向量 μ 和协方差矩阵 Σ 定义。...那么,高斯过程背后的关键点在于所有的函数值都来源于多元高斯分布。这意味着联合概率分布 P(X,Y) 跨越了我们想要预测的函数的可能取值空间。这个测试数据和训练数据的联合分布有∣X∣+∣Y∣维。...这样做假设总是没错的,就算 μ≠0,我们也可以在预测结束后把μ 加回到结果函数值中。所以配置μ 非常简单,更有意思的是这个分布的另一个参数。 高斯过程中巧妙的一步是如何设置协方差矩阵Σ。...为了对核函数的作用有一个更直观的理解,我们可以想一想协方差矩阵中元素描述的是什么。Σ_ij 描述的是第 i 个点和第 j 个点之间的相互影响,这和多元高斯分布的定义一致。...增加训练点 (■) 会改变多元高斯分布的维数;通过两两配对核函数的值生成协方差矩阵,结果是一个十二维的分布;在条件作用下,我们会得到一个分布,这个分布可以描述我们对于给定 x 值所预测的函数值。

    58710

    看得见的高斯过程:这是一份直观的入门解读

    而我们最感兴趣的是多元高斯分布,其每个随机变量都呈正态分布,联合分布也是高斯的。一般来说,多元高斯分布由均值向量 μ 和协方差矩阵 Σ 定义。...那么,高斯过程背后的关键点在于所有的函数值都来源于多元高斯分布。这意味着联合概率分布 P(X,Y) 跨越了我们想要预测的函数的可能取值空间。这个测试数据和训练数据的联合分布有∣X∣+∣Y∣维。...这样做假设总是没错的,就算 μ≠0,我们也可以在预测结束后把μ 加回到结果函数值中。所以配置μ 非常简单,更有意思的是这个分布的另一个参数。 高斯过程中巧妙的一步是如何设置协方差矩阵Σ。...为了对核函数的作用有一个更直观的理解,我们可以想一想协方差矩阵中元素描述的是什么。Σ_ij 描述的是第 i 个点和第 j 个点之间的相互影响,这和多元高斯分布的定义一致。...增加训练点 (■) 会改变多元高斯分布的维数;通过两两配对核函数的值生成协方差矩阵,结果是一个十二维的分布;在条件作用下,我们会得到一个分布,这个分布可以描述我们对于给定 x 值所预测的函数值。

    1.2K30

    【机器学习】看得见的高斯过程:这是一份直观的入门解读

    从名字我们可以得知,高斯分布(也叫做正态分布)是高斯过程的基础构件。而我们最感兴趣的是多元高斯分布,其每个随机变量都呈正态分布,联合分布也是高斯的。...那么,高斯过程背后的关键点在于所有的函数值都来源于多元高斯分布。这意味着联合概率分布 P(X,Y) 跨越了我们想要预测的函数的可能取值空间。这个测试数据和训练数据的联合分布有∣X∣+∣Y∣维。...这样做假设总是没错的,就算 μ≠0,我们也可以在预测结束后把μ 加回到结果函数值中。所以配置μ 非常简单,更有意思的是这个分布的另一个参数。 高斯过程中巧妙的一步是如何设置协方差矩阵Σ。...为了对核函数的作用有一个更直观的理解,我们可以想一想协方差矩阵中元素描述的是什么。Σ_ij 描述的是第 i 个点和第 j 个点之间的相互影响,这和多元高斯分布的定义一致。...增加训练点 (■) 会改变多元高斯分布的维数;通过两两配对核函数的值生成协方差矩阵,结果是一个十二维的分布;在条件作用下,我们会得到一个分布,这个分布可以描述我们对于给定 x 值所预测的函数值。

    84360
    领券