例如,考虑一个确定给定邮件为垃圾邮件的概率的 logistic 回归模型,如果分类阈值是 0.9,那么 logistic 回归值在 0.9 以上的被归为垃圾邮件,而在 0.9 以下的被归为非垃圾邮件。...上述混淆矩阵展示了在 19 个确实为肿瘤的样本中,有 18 个被模型正确的归类(18 个真正),有 1 个被错误的归类为非肿瘤(1 个假负类)。...类似的,在 458 个确实为非肿瘤的样本中,有 452 个被模型正确的归类(452 个真负类),有 6 个被错误的归类(6 个假正类)。 多类别分类的混淆矩阵可以帮助发现错误出现的模式。...例如,将一个英语句子中的单词以以下任何一种方式表示: 拥有百万数量级(高维)的元素的稀疏向量,其中所有的元素都是整数。...少量的非零的单元将取一个小的整数值(通常为 1)表示句子中一个单词的出现次数。 拥有数百个(低维)元素的密集向量,其中每一个元素取 0 到 1 之间的浮点数。
ROC 曲线下面积是,对于随机选择的正类别样本确实为正类别,以及随机选择的负类别样本为正类别,分类器更确信前者的概率。...以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为“垃圾邮件”,低于 0.9 的则被归类为“非垃圾邮件”。...例如,下面显示了一个二元分类问题的混淆矩阵示例: 上面的混淆矩阵显示,在 19 个实际有肿瘤的样本中,该模型正确地将 18 个归类为有肿瘤(18 个真正例),错误地将 1 个归类为没有肿瘤(1 个假负例...少数非 0 的单元格中将包含一个非常小的整数(通常为 1),该整数表示相应单词在句子中出现的次数。 表示成包含数百个元素(低维度)的密集向量,其中每个元素都包含一个介于 0 到 1 之间的浮点值。...一个样本包含一个或多个特征,此外还可能包含一个标签。另请参阅有标签样本和无标签样本。 F 假负例 (FN, false negative) 被模型错误地预测为负类别的样本。
例如,考虑一个确定给定邮件为垃圾邮件的概率的 logistic 回归模型,如果分类阈值是 0.9,那么 logistic 回归值在 0.9 以上的被归为垃圾邮件,而在 0.9 以下的被归为非垃圾邮件。...上述混淆矩阵展示了在 19 个确实为肿瘤的样本中,有 18 个被模型正确的归类(18 个真正),有 1 个被错误的归类为非肿瘤(1 个假负类)。...类似的,在 458 个确实为非肿瘤的样本中,有 452 个被模型正确的归类(452 个真负类),有 6 个被错误的归类(6 个假正类)。 多类别分类的混淆矩阵可以帮助发现错误出现的模式。...少量的非零的单元将取一个小的整数值(通常为 1)表示句子中一个单词的出现次数。 拥有数百个(低维)元素的密集向量,其中每一个元素取 0 到 1 之间的浮点数。...one-hot 编码(one-hot encoding) 一个稀疏向量,其中: 一个元素设置为 1。 所有其他的元素设置为 0。 独热编码常用于表示有有限可能值集合的字符串或标识符。
例如,考虑一个确定给定邮件为垃圾邮件的概率的 logistic 回归模型,如果分类阈值是 0.9,那么 logistic 回归值在 0.9 以上的被归为垃圾邮件,而在 0.9 以下的被归为非垃圾邮件。...例如,以下为一个二元分类问题的简单的混淆矩阵: 上述混淆矩阵展示了在 19 个确实为肿瘤的样本中,有 18 个被模型正确的归类(18 个真正),有 1 个被错误的归类为非肿瘤(1 个假负类)。...类似的,在 458 个确实为非肿瘤的样本中,有 452 个被模型正确的归类(452 个真负类),有 6 个被错误的归类(6 个假正类)。 多类别分类的混淆矩阵可以帮助发现错误出现的模式。...少量的非零的单元将取一个小的整数值(通常为 1)表示句子中一个单词的出现次数。 拥有数百个(低维)元素的密集向量,其中每一个元素取 0 到 1 之间的浮点数。...one-hot 编码(one-hot encoding) 一个稀疏向量,其中: 一个元素设置为 1。 所有其他的元素设置为 0。 独热编码常用于表示有有限可能值集合的字符串或标识符。
比如,树结构可以被用来可视化关系,并且显示簇是如何关联起来的。一个好的特征向量将得到树中好的分离。另一个优势是树可以在不同的簇阈值中被重用,而不需要重新计算树。...缺点是需要选择一个阈值如果实际的簇需要的话。 谱聚类 对于n个元素的相似度矩阵(或者叫affinity matrix, 有时也叫距离矩阵)是一个有着成对相似度分数的n*n矩阵。...同时,把这些求内点属于这个类的概率加1,这个参数将用于最后步骤的分类 以center为中心点,计算从center开始到集合M中每个元素的向量,将这些向量相加,得到向量shift。...13、L1和L2的区别 L1范数为向量中各个元素的绝对值之和,符合拉普拉斯分布,可以使权值稀疏; L2范数为向量中各个元素的平方和的1/2次方,符合高斯分布,可以防止过拟合; Lp范数为向量中各个元素的...通常用作权衡模型的敏感度与模型对一个错误分类报警的概率。 真正率表示:表示 正的样本被预测为正占所有正样本的比例。
在支持向量的帮助下,SVM通过寻找超平面进行分类,并使两个类之间的边界距离最大化。 ? SVM中超平面的学习是通过将问题转化为使用一些某种线性代数转换问题来完成的。...类似于与逻辑回归类似,sigmoid核用于二分类问题。 ? 径向基核(RBF:Radial Basis Function ) RBF核支持向量机的决策区域实际上也是一个线性决策区域。...在朴素贝叶斯的基础上,高斯朴素贝叶斯根据二项(正态)分布对数据进行分类。 ? P(class|data) 表示给定特征(属性)后数据属于某类(目标)的后验概率。...信息熵和信息增益用于被用来构建决策树。 信息熵 信息熵是衡量元素无序状态程度的一个指标,即衡量信息的不纯度。 ? 信息熵是衡量元素的无序状态的程度的一个指标,或者说,衡量信息的不纯度。 ?...这就像一个警示,错误如果能被修正就更好,但是与假负例相比,它并不是一个严重的问题。
或者,我们需要将一首歌曲进行归类,如归类为流行,摇滚,说唱等。集合 [0,1,2,...,9]、[流行,摇滚,说唱,等等] 中的每一个元素都可以表示一个类。...特征(x):对于线性回归,特征都表示为一个列向量;对于涉及二维图像的逻辑回归,特征是一个二维矩阵,矩阵的每个元素表示图像的像素值,每个像素值是属于 0 到 255 之间的整数,其中 0 表示黑色,255...每个类的分数和具有最高分数的类成为被预测的类 对于给定的图片,为求这个分数向量,每个像素都会贡献一组分数(针对每一类),分数表示系统认为这张图片属于某类的可能性,每个像素分数之和成为预测向量。 ?...第一步:One-hot 向量 由于我们已经将预测 (y) 转换成分数向量,因此,我们也应该将实际图片类(y』)转换成相同维数的向量;one-hot 向量是将对应于实际类的的元素为设为 1,其它元素为 0...由于这张蓝色图片对应一个 one-hot 向量,one-hot 向量仅仅有一个元素是 1,它对应一个正确的图片类,交叉熵的其它所有元素乘积为 0,交叉熵简化为: ?
如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为 “垃圾邮件”,低于 0.9 的则被归类为 “非垃圾邮件”。...上面的混淆矩阵显示,在 19 个实际有肿瘤的样本中,该模型正确地将 18 个归类为有肿瘤(18 个真正例),错误地将 1 个归类为没有肿瘤(1 个假负例)。...同样,在 458 个实际没有肿瘤的样本中,模型归类正确的有 452 个(452 个真负例),归类错误的有 6 个(6 个假正例)。...少数非 0 的单元格中将包含一个非常小的整数(通常为 1),该整数表示相应单词在句子中出现的次数。 表示成包含数百个元素(低维度)的密集向量,其中每个元素都包含一个介于 0 到 1 之间的浮点值。...张量是 N 维(其中 N 可能非常大)数据结构,最常见的是标量、向量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。
以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为“垃圾邮件”,低于 0.9 的则被归类为“非垃圾邮件”。...上面的混淆矩阵显示,在 19 个实际有肿瘤的样本中,该模型正确地将 18 个归类为有肿瘤(18 个真正例),错误地将 1 个归类为没有肿瘤(1 个假负例)。...同样,在 458 个实际没有肿瘤的样本中,模型归类正确的有 452 个(452 个真负例),归类错误的有 6 个(6 个假正例)。...少数非 0 的单元格中将包含一个非常小的整数(通常为 1),该整数表示相应单词在句子中出现的次数。 表示成包含数百个元素(低维度)的密集向量,其中每个元素都包含一个介于 0 到 1 之间的浮点值。...张量是 N 维(其中 N 可能非常大)数据结构,最常见的是标量、向量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。
以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为“垃圾邮件”,低于 0.9 的则被归类为“非垃圾邮件”。...上面的混淆矩阵显示,在 19 个实际有肿瘤的样本中,该模型正确地将 18 个归类为有肿瘤(18 个真正例),错误地将 1 个归类为没有肿瘤(1 个假负例)。...少数非 0 的单元格中将包含一个非常小的整数(通常为 1),该整数表示相应单词在句子中出现的次数。 表示成包含数百个元素(低维度)的密集向量,其中每个元素都包含一个介于 0 到 1 之间的浮点值。...---- one-hot 编码 (one-hot encoding) 一种稀疏向量,其中: 一个元素设为 1。 所有其他元素均设为 0。...张量是 N 维(其中 N 可能非常大)数据结构,最常见的是标量、向量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。
以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为「垃圾邮件」,低于 0.9 的则被归类为「非垃圾邮件」。...上面的混淆矩阵显示,在 19 个实际有肿瘤的样本中,该模型正确地将 18 个归类为有肿瘤(18 个真正例),错误地将 1 个归类为没有肿瘤(1 个假负例)。...同样,在 458 个实际没有肿瘤的样本中,模型归类正确的有 452 个(452 个真负例),归类错误的有 6 个(6 个假正例)。...少数非 0 的单元格中将包含一个非常小的整数(通常为 1),该整数表示相应单词在句子中出现的次数。 表示成包含数百个元素(低维度)的密集向量,其中每个元素都包含一个介于 0 到 1 之间的浮点值。...张量是 N 维(其中 N 可能非常大)数据结构,最常见的是标量、向量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。
从决策树可视化中,我们可以了解模型如何对花朵进行分类: 根节点:在根节点处,模型确定花瓣长度是否为 2.45 厘米或更小。如果是这样,它将花归类为 setosa。否则,它将移动到下一个内部节点。...重复此过程,直到点找到其完美位置。最终结果是一个聚类表示,其中相似的数据点形成组,使我们能够看到隐藏在高维混沌中的模式和关系。...考虑一个可以完美区分正样本和负样本的分类器:它的真阳性率始终为 1,其假阳性率始终为 0,与我们选择的阈值无关。...“正分数”是给定模型输出的样本实际属于正类的条件概率(P(样本属于正类|模型的输出介于 0 和 1 之间))。 这听起来是不是太抽象了?...让我们看一个例子: 校准曲线示例:比较不同型号 | 来源:作者 首先,看一下对角线。它代表了一个完美校准的分类器:模型的输出介于 0 和 1 之间,恰好是样本属于正类的概率。
以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为“垃圾邮件”,低于 0.9 的则被归类为“非垃圾邮件”。...18 个归类为有肿瘤(18 个正例),错误地将 1 个归类为没有肿瘤(1 个假负例)。...之后,softmax 函数会生成一个(标准化)概率向量,对应于每个可能的类别。 此外,对数有时也称为 S 型函数的元素级反函数。...如果事件涉及二元概率,则几率指的是成功概率 (p) 与失败概率 (1-p) 之比。例如,假设某个给定事件的成功概率为 90%,失败概率为 10%。...张量是 N 维(其中 N 可能非常大)数据结构,最常见的是标量、向量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。
以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为“垃圾邮件”,低于 0.9 的则被归类为“非垃圾邮件”。...,该模型正确地将 18 个归类为有肿瘤(18 个真正例),错误地将 1 个归类为没有肿瘤(1 个假负例)。...少数非 0 的单元格中将包含一个非常小的整数(通常为 1),该整数表示相应单词在句子中出现的次数。 表示成包含数百个元素(低维度)的密集向量,其中每个元素都包含一个介于 0 到 1 之间的浮点值。...稀疏特征 (sparse feature) 一种特征向量,其中的大多数值都为 0 或为空。例如,某个向量包含一个为 1 的值和一百万个为 0 的值,则该向量就属于稀疏向量。...张量是 N 维(其中 N 可能非常大)数据结构,最常见的是标量、向量或矩阵。张量的元素可以包含整数值、浮点值或字符串值。
领取专属 10元无门槛券
手把手带您无忧上云