对于初学者,可以认为这个说法是错误的。忽略就可以了。
在机器学习中,一般会把要处理的数据转换为向量(Vector),也就是把高维数据映射到低维空间,这个转换过程叫做 Embedding。 虚一,公众号:的数字化之路浅入浅出——生成式 AI
主要原因在于这句话直接连接了“原始数据”和“转换后的特征向量维度”,且对 “原始数据” 和 “维度” 的定义缺乏明确约束,让初学者觉得好像 “原始数据的固有属性” 与 “数据转换后的特征向量维度”有一个确定的关系,实际上“原始数据”映射到“向量空间是多少维”与转换模型有直接关系。
这就是造成了理解上的混乱。
下面我们从以下角度展开撸一撸:
“原始数据” 在机器学习中通常指未经特征工程或模型转换的初始数据形态(如文本的字符 / 词语序列、图像的像素矩阵、语音的波形信号等)。这类数据的 “高维性” 更多体现在其固有信息的复杂性(而非直接对应某个具体的向量维度),但这种复杂性并不直接等于 “转换后的特征向量维度”。
你提到的不同模型(词袋、Word2Vec、大模型 Embedding)转换后维度不同,恰好说明:特征向量的维度是 “转换方式” 的结果,而非原始数据本身的固有属性。
可见,原始数据的 “高维性” 是其信息复杂度的体现(如文本包含海量词汇、图像包含海量像素),而转换后的特征维度是对这种复杂度的 “编码或压缩结果”。因此,“原始数据是高维的” 这句话若不区分 “固有复杂性” 和 “转换后维度”,容易让人误以为 “原始数据的维度是固定的高值”,而忽略了转换过程对维度的影响。
若要让这句话更严谨,需要补充对 “原始数据” 和 “高维性” 的约束,例如: “机器学习中,原始数据在未经降维或语义压缩时,其直接编码(如像素拆解、词汇表映射)的特征向量通常是高维的”。
这种表述既承认了原始数据信息复杂度带来的 “潜在高维性”,也明确了 “高维” 是 “直接编码” 的结果,而非绝对属性 —— 因为通过不同的转换模型,其维度可以被大幅降低。
“原始数据是高维的” 这句话的不完整性,源于它模糊了 “原始数据的固有信息复杂度” 与 “特征向量维度” 之间复杂的映射策略,为了表达的方便而牺牲了准确性,给初学者带来了不少的困惑。原始数据的 “高维性” 是其信息复杂性的体现,而具体的特征维度则由转换模型决定(可高可低)。因此,在讨论时需要明确语境:是指原始数据的固有复杂性,还是其直接编码后的特征维度。
拓展:
Part1:
若图片尺寸为100×100,且是 RGB 三通道,为什么它的维度就是30000维?
在解答之前,先重温一下向量、向量空间、维度的概念。
在机器学习中,“维度” 本质上代表特征的数量,每个维度对应一个独立的特征。就是用来描述数据所需的最少独立特征数量。特征越多,维度越高。
理解数据“变形”,需要三个基础概念: 向量:数据的数字化身。[3, 5, 2] 就是一个3维向量,每个数字代表一个特征(如身高、体重、年龄)。 向量空间:由多个“独立特征轴”构成的抽象空间。例如,“身高轴”和“体重轴”构成2维空间,每个人的数据都能在其中找到位置。 维度:空间中“独立特征轴”的数量。描述一个水果可能需要“甜度”“酸度”“硬度”3个独立特征,即3维。 维度本质:就是描述数据所需的最少独立特征数量。特征越多,维度越高。 唐成,公众号:的数字化之路机器学习中,为什么数据需要向量化?
机器学习模型(尤其是传统的统计模型、神经网络等)的输入通常需要是一维向量(即 “特征向量”),而非二维的图像矩阵。
再从向量空间“特征的独立性”的视角来理解一下:
回到最初的问题,为什么是 “30000维” ?
是将图像的空间结构(100×100 像素)和颜色信息(3 通道)转化为模型可处理的一维特征向量后,得到的特征数量。这一过程体现了机器学习对数据的 “向量化” 处理逻辑 —— 通过将复杂的结构化数据(如图像)拆解为独立的特征维度,让模型能够学习特征之间的关联,从而完成分类、识别等任务。
Part2:
使用不同转换模型,“原始数据”映射到向量空间的维度是不同的,那么这个30000维,是基于哪个转换模型的?
没有使用复杂模型(如词向量模型、嵌入模型)进行的特征提取或维度转换。
得到30000维特征向量的转换过程,不依赖于特定的 “机器学习模型”,只是一种对图像原始数据的基础预处理操作—— 即 “像素值直接展开(flatten)”。这种转换方式的核心是将图像的空间结构和通道信息直接映射为一维向量,本质上是对原始数据的 “无加工编码”,而非通过复杂模型(如词向量模型、嵌入模型)进行的特征提取或维度转换。
Part3:
什么是稀疏向量?
利用词汇匹配优化信息检索,依赖词袋模型将查询和文档表示为高维向量,各元素对应词语及重要性,适用于关键词检索。 假设我们有一个文档向量,其中只包含几个特定特征的标识,比如向量 [0, 0, 1, 0, 1,...],其中 1 可能表示存在某个特定关键词(如“科技”, “知识”),而其他位置为 0。这个向量就是相对稀疏的,它明确标记了与某些特定关键词相关的信息。
Part4:
什么是稠密向量?
利用语言模型优化信息检索,用 Embedding 模型将查询和文档映射到低维向量空间,使 Query 与 Doc 匹配转化为向量相似度问题,适用于语义检索。 假设我们有一个文本,通过预训练的 Embedding 模型得到的稠密向量 [0.25, -0.1, 0.3, 0.7, -0.4, ...],它是通过对文本进行深度语义分析得到的。这个向量包含了许多非零的具体数值,就是稠密向量。
https://www.volcengine.com/docs/84313/1318623