首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >机器学习中,为什么原始数据是高维的?

机器学习中,为什么原始数据是高维的?

作者头像
烟雨平生
发布2025-08-06 10:30:58
发布2025-08-06 10:30:58
2100
举报
文章被收录于专栏:数字化之路数字化之路

对于初学者,可以认为这个说法是错误的。忽略就可以了。

在机器学习中,一般会把要处理的数据转换为向量(Vector),也就是把高维数据映射到低维空间,这个转换过程叫做 Embedding。 虚一,公众号:的数字化之路浅入浅出——生成式 AI

主要原因在于这句话直接连接了“原始数据”和“转换后的特征向量维度”,且对 “原始数据” 和 “维度” 的定义缺乏明确约束,让初学者觉得好像 “原始数据的固有属性” 与 “数据转换后的特征向量维度”有一个确定的关系,实际上“原始数据”映射到“向量空间是多少维”与转换模型有直接关系。

这就是造成了理解上的混乱。

下面我们从以下角度展开撸一撸:

1. 核心问题:“原始数据” 的定义模糊

“原始数据” 在机器学习中通常指未经特征工程或模型转换的初始数据形态(如文本的字符 / 词语序列、图像的像素矩阵、语音的波形信号等)。这类数据的 “高维性” 更多体现在其固有信息的复杂性(而非直接对应某个具体的向量维度),但这种复杂性并不直接等于 “转换后的特征向量维度”。

  • 例如,文本的原始数据是 “词语序列”,其本身没有明确的 “维度” 概念,只有当通过模型(如词袋、Word2Vec)转换为特征向量后,才会产生具体的维度。
  • 图像的原始数据是 “像素矩阵”(如 100×100×3 的 RGB 图像),其固有信息可以被拆解为 30000 个像素值,此时 “原始数据的高维性” 可直接对应这个拆解后的维度;但这本质上也是一种 “初步转换”(将空间结构扁平化)的结果。

2. 关键混淆:“原始数据的高维性”≠“转换后的特征维度”

你提到的不同模型(词袋、Word2Vec、大模型 Embedding)转换后维度不同,恰好说明:特征向量的维度是 “转换方式” 的结果,而非原始数据本身的固有属性

  • 词袋模型通过 “词汇表大小” 定义维度(如 10000 个词的词汇表对应 10000 维),这是对原始文本中 “词语出现频率” 的直接编码,维度通常较高(接近原始数据中潜在的词汇规模);
  • Word2Vec 通过 “降维” 将词语映射到低维空间(如 100-300 维),其维度是人为设定的超参数,与原始文本的词汇规模无关;
  • 大模型 Embedding 则通过更深层的语义压缩,将复杂原始数据映射到更低维的空间(如 768 维、1024 维),维度由模型结构决定。

可见,原始数据的 “高维性” 是其信息复杂度的体现(如文本包含海量词汇、图像包含海量像素),而转换后的特征维度是对这种复杂度的 “编码或压缩结果”。因此,“原始数据是高维的” 这句话若不区分 “固有复杂性” 和 “转换后维度”,容易让人误以为 “原始数据的维度是固定的高值”,而忽略了转换过程对维度的影响。

3. 更完整的表述方式

若要让这句话更严谨,需要补充对 “原始数据” 和 “高维性” 的约束,例如: “机器学习中,原始数据在未经降维或语义压缩时,其直接编码(如像素拆解、词汇表映射)的特征向量通常是高维的”。

这种表述既承认了原始数据信息复杂度带来的 “潜在高维性”,也明确了 “高维” 是 “直接编码” 的结果,而非绝对属性 —— 因为通过不同的转换模型,其维度可以被大幅降低。

总结

“原始数据是高维的” 这句话的不完整性,源于它模糊了 “原始数据的固有信息复杂度” 与 “特征向量维度” 之间复杂的映射策略,为了表达的方便而牺牲了准确性,给初学者带来了不少的困惑。原始数据的 “高维性” 是其信息复杂性的体现,而具体的特征维度则由转换模型决定(可高可低)。因此,在讨论时需要明确语境:是指原始数据的固有复杂性,还是其直接编码后的特征维度。

拓展:

Part1:

若图片尺寸为100×100,且是 RGB 三通道,为什么它的维度就是30000维?

在解答之前,先重温一下向量、向量空间、维度的概念。

在机器学习中,“维度” 本质上代表特征的数量,每个维度对应一个独立的特征。就是用来描述数据所需的最少独立特征数量。特征越多,维度越高。

理解数据“变形”,需要三个基础概念: 向量:数据的数字化身。[3, 5, 2] 就是一个3维向量,每个数字代表一个特征(如身高、体重、年龄)。 向量空间:由多个“独立特征轴”构成的抽象空间。例如,“身高轴”和“体重轴”构成2维空间,每个人的数据都能在其中找到位置。 维度:空间中“独立特征轴”的数量。描述一个水果可能需要“甜度”“酸度”“硬度”3个独立特征,即3维。 维度本质:就是描述数据所需的最少独立特征数量。特征越多,维度越高。 唐成,公众号:的数字化之路机器学习中,为什么数据需要向量化?

机器学习模型(尤其是传统的统计模型、神经网络等)的输入通常需要是一维向量(即 “特征向量”),而非二维的图像矩阵。

  • 对于 100×100×3 的图像,需要将其 “扁平化”(flatten):把三维矩阵按顺序展开为一个长向量。
  • 例如,先按行遍历第一个通道的 100×100 像素,再遍历第二个通道,最后遍历第三个通道,最终得到一个长度为30000的向量。
  • 这个向量中的每个元素(即每个像素的通道值)都是一个独立的特征,因此整个向量的维度就是30000。

再从向量空间“特征的独立性”的视角来理解一下:

  • 图像中每个像素的 RGB 值都是描述图像的基本特征:例如,(x=10, y=20) 位置的红色通道值、绿色通道值、蓝色通道值,分别是三个不同的特征,彼此独立。
  • 30000维意味着这个图像由30000个独立的基本特征共同描述,这些特征组合起来唯一确定了图像的内容。

回到最初的问题,为什么是 “30000维” ?

是将图像的空间结构(100×100 像素)和颜色信息(3 通道)转化为模型可处理的一维特征向量后,得到的特征数量。这一过程体现了机器学习对数据的 “向量化” 处理逻辑 —— 通过将复杂的结构化数据(如图像)拆解为独立的特征维度,让模型能够学习特征之间的关联,从而完成分类、识别等任务。

Part2:

使用不同转换模型,“原始数据”映射到向量空间的维度是不同的,那么这个30000维,是基于哪个转换模型的?

没有使用复杂模型(如词向量模型、嵌入模型)进行的特征提取或维度转换。

得到30000维特征向量的转换过程,不依赖于特定的 “机器学习模型”,只是一种对图像原始数据的基础预处理操作—— 即 “像素值直接展开(flatten)”。这种转换方式的核心是将图像的空间结构和通道信息直接映射为一维向量,本质上是对原始数据的 “无加工编码”,而非通过复杂模型(如词向量模型、嵌入模型)进行的特征提取或维度转换。

Part3:

什么是稀疏向量?

利用词汇匹配优化信息检索,依赖词袋模型将查询和文档表示为高维向量,各元素对应词语及重要性,适用于关键词检索。 假设我们有一个文档向量,其中只包含几个特定特征的标识,比如向量 [0, 0, 1, 0, 1,...],其中 1 可能表示存在某个特定关键词(如“科技”, “知识”),而其他位置为 0。这个向量就是相对稀疏的,它明确标记了与某些特定关键词相关的信息。

  • 优点:存储和计算效率高,资源要求低。在特定场景模式下表现好。
  • 缺点:难以捕捉更丰富细腻的语义和相似性。例如检索语句为“红色的漂亮苹果”,如果文档中写的是“色泽艳丽的红苹果非常好看”,可能由于没有精准匹配到“红色”“漂亮”这两个具体关键词而错过。

Part4:

什么是稠密向量?

利用语言模型优化信息检索,用 Embedding 模型将查询和文档映射到低维向量空间,使 Query 与 Doc 匹配转化为向量相似度问题,适用于语义检索。 假设我们有一个文本,通过预训练的 Embedding 模型得到的稠密向量 [0.25, -0.1, 0.3, 0.7, -0.4, ...],它是通过对文本进行深度语义分析得到的。这个向量包含了许多非零的具体数值,就是稠密向量。

  • 优点:可以理解多义词,处理错别字和语法错误,提供语义相关度更高的答案。
  • 缺点:缺乏查找特定的关键字或短语的能力,对 Embedding 模型能力依赖性较强。例如检索语句是“最新电子产品评测”,如果文档中写的是“这里有各类最新上架的电子产品的详细介绍与相关的用户评测”,可能因语义理解偏差而未能准确关联。

https://www.volcengine.com/docs/84313/1318623

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 的数字化之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 核心问题:“原始数据” 的定义模糊
  • 2. 关键混淆:“原始数据的高维性”≠“转换后的特征维度”
  • 3. 更完整的表述方式
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档