首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >机器学习中,为什么数据需要向量化?

机器学习中,为什么数据需要向量化?

作者头像
烟雨平生
发布2025-08-01 14:05:42
发布2025-08-01 14:05:42
2380
举报
文章被收录于专栏:数字化之路数字化之路

机器学习的核心是让机器“理解”数据。然而,原始数据(文本、图像、声音等)本身无法被模型直接计算。这就好比不同语言无法直接交流。因此,我们需要一个“通用语”——将数据转换成由数字组成的向量

一、高维原始数据:细节丰富但臃肿

现实世界的信息往往包含多个维度的特征,是“高维”的:

  1. 本身属性多:例如图片中每个像素都是一个维度,一张图片由很多像素点组成,若图片尺寸为 100×100,且是 RGB 三通道,那么它的维度就是 100×100×3 = 30,000 维。
  2. 编码方式简单粗暴:一段文本若用 “词袋模型” 表示(统计每个词的出现次数),假设词汇表有 10 万个词,那么文本就会被表示为 10 万维的向量;一个用户的特征可能包括年龄、性别、职业、消费记录等数十甚至上百个属性,自然形成高维数据。

离散数据的 “稀疏表示” 导致维度膨胀。高维是捕获细节的必要代价,为了完整保留数据的细节信息,原始表示往往需要足够多的维度。例如,音频的波形数据、视频的帧序列,维度都会随着时间或空间分辨率的提高而大幅增加。高维如同“高清照片”,保留了所有细节,但数据量大且充满冗余(如文本中的“的”“是”,图像中的大片相同背景)。

二、向量空间:机器的“数字坐标系”

理解数据“变形”,需要三个基础概念:

  • 向量:数据的数字化身。[3, 5, 2] 就是一个3维向量,每个数字代表一个特征(如身高、体重、年龄)。
  • 向量空间:由多个“独立特征轴”构成的抽象空间。例如,“身高轴”和“体重轴”构成2维空间,每个人的数据都能在其中找到位置。
  • 维度:空间中“独立特征轴”的数量。描述一个水果可能需要“甜度”“酸度”“硬度”3个独立特征,即3维。

维度本质:就是描述数据所需的最少独立特征数量。特征越多,维度越高。

三、低维映射的智慧:从“高清照”到“素描画”

高维数据虽然庞大,却藏有“可精简”的空间:

  1. 冗余信息多:许多维度价值低(如高频无实义词、重复背景),可以压缩。
  2. 存在潜在规律:看似独立的高维特征,底层可能紧密关联。例如“猫”“狗”“虎”在词袋模型中是独立维度,但它们共享“哺乳动物”等特性。

Embedding 技术的核心,就是智能地将高维数据映射到低维空间。这如同将一本厚厚的《动物百科》浓缩成精炼摘要:

  • 丢掉“废话”:去除冗余信息。
  • 保留“核心”:捕捉关键特征和潜在规律(如“猫”和“狗”都是宠物)。
  • 结果是“素描画”:用更少的线条(维度),勾勒出事物的核心特征,既简化又保留了关键信息。

四、数据变向量的三种策略

策略

维度

原理

优点

缺点

词袋模型

高维

每个词一个维度,统计次数

简单直观

维度爆炸(10万词=10万维)、向量稀疏、忽略语义关联

字符级表示

中维

按字符/组合构建维度

能处理生僻词

破坏词的整体语义(“苹果”≠“苹”+“果”)

Embedding

低维

模型学习特征融合

向量稠密、蕴含语义关联

依赖模型质量和数据量

五、高维VS低维?关键看“信息效率”

维度高低并非绝对优劣,核心在于信息组织效率——能否用更少的维度,更清晰、更有效地承载信息?判断标准:

  • 稠密性:低维Embedding向量通常更稠密(每个维度都有意义),效率远高于高维稀疏向量(大部分是0)。
  • 蕴含关联:低维空间能体现特征间的关系(如“医生”和“医院”向量接近),这对模型理解数据至关重要。
  • 任务适配性:检索任务需要快速计算相似度,低维更高效;简单分类任务用高维也能做,但性价比低。

六、Embedding的“魔法”:如何炼成“浓缩版字典”?

Embedding 是机器学习中 “让数据从‘不可计算’到‘可计算’” 的关键桥梁。

图片
图片

Embedding 的本质是 “给万物一个可计算的语义向量”。它通过低维向量浓缩高维数据的核心信息,让机器能通过简单的向量运算(如距离计算、相似度比较)理解数据间的关联——这就像给机器配备了一套 “语义字典”,让原本无法直接沟通的复杂数据,变成了可量化、可比较的 “数字语言”。

而这一切的效果,都依赖于 Embedding 模型的 “提炼能力”:模型越能理解数据的本质规律,生成的向量就越精准,应用场景也就越广泛。可以说,Embedding 是机器学习中 “让数据从‘不可计算’到‘可计算’” 的关键桥梁。

Embedding 能实现低维表达高维,靠的是智能提炼规律,而非简单删减:

  • 本质:模型通过学习数据的内在规律(语义关联、特征共性),将这些规律“编码”进低维向量。如同优秀编辑提炼长文核心观点。
  • 实现:模型(如神经网络)在训练过程中,将多个高维特征的信息“融合”。例如,“猫”和“狗”的向量会共享“毛茸茸”“宠物”等维度,再用其他维度区分“体型”“叫声”,既压缩了维度,又保留了差异。
  • 依赖:模型能力、训练数据质量、维度设置(过低丢信息,过高冗余)。
  • “模型”与“Embedding”的关系:模型是“榨汁机”,原始数据是“水果”,Embedding就是榨出的富含精华的“果汁”。神奇的是,向量距离越近,数据含义越相似(如“高兴”与“开心”)。
  • 存储与应用:训练得到的Embedding作为参数存储在“字典”(数据库)中,应用时直接查表调用。大模型训练耗时数月,很大一部分就是在优化这些Embedding;开源模型分享的核心资产之一,就是这些“浓缩版字典”。

在机器学习中,Embedding 的核心价值在于将复杂数据(文本、图像、用户行为等)转化为低维、稠密且富含语义关联的向量,让机器能通过向量运算理解数据间的关系。

Embedding打破了语言壁垒。通过多语言模型(如 mBERT),可以让 “猫”(中文)和 “cat”(英文)的 Embedding 向量非常接近,因为模型在训练时学习到了不同语言中 “同一概念” 的共性。这使得机器能直接比较不同语言文本的相似度,比如判断一句中文和一句英文是否在讲同一件事。

Embedding是 “用数据驱动的方式,让文字从‘符号’变成‘可计算的语义向量’”,解决了传统技术 “高维低效、缺乏语义、泛化差” 的核心痛点,成为现代 NLP 的基石;但其劣势也源于 “数据依赖” 和 “黑箱特性”,在低资源场景、强解释性需求或快速领域适配任务中,仍需与传统技术结合使用。

七、小结与思考

数据变向量,是机器理解的“翻译术”。原始数据的高维是保留细节的代价,但其冗余和内在规律为低维映射提供了可能。

Embedding 的价值在于:用紧凑的低维向量,高效承载高维数据的核心信息——它不是删减信息,而是优化信息的存储与表达方式。

从“高清照片”到传神的“素描画”,从“厚书”到精炼的“摘要”,Embedding 在“简单”与“有效”间找到了精妙的平衡。其背后,是模型对数据规律的深刻洞察——能将复杂事物凝练表达,方显真章。

思考:你能想到生活中哪些信息,看似复杂高维,但其实可以被提炼出几个核心维度来有效描述吗?(例如:如何用几个数字描述一首歌给你的感觉?)

补充:

Part1:什么是理解?

理解指机器不仅能识别文字表面的符号形式,还能捕捉文字背后的真实含义、上下文关联、情感倾向及深层逻辑,像人类一样理解语言的 “言外之意” 和 “语境内涵”。

例如,在 “忘了带伞” 的语境中 ,机器能明白“下雨了” 是表达麻烦,而非单纯陈述天气。

例如,“今天的考试像天书一样”——机器能读懂这不是说考试内容真的是 “天书”,而是通过比喻表达 “考试内容太难、完全看不懂” 的情绪,而非仅匹配 “天书” 的字面符号。

例如,“我饿了,但冰箱是空的”——机器能理解这两句话的逻辑关联:因为冰箱没食物,所以 “饿了” 这个状态需要解决,可能需要推荐外卖或附近餐馆,而非单独处理两个孤立的句子。

Part2:什么是词袋模型?

词袋模型(Bag-of-Words),将文本拆成独立词语,用 “是否出现” 或 “出现次数” 作为向量(比如 “我爱吃苹果”→ [1,1,1,0,...],其中 1 代表 “我”“爱”“吃” 出现)。

特点:向量维度极高(等于词汇表大小),且词语之间毫无关联(“苹果” 和 “香蕉” 在向量中是独立维度,机器不知道它们都是水果)。

Part3:什么是词袋?

“词袋”(Bag-of-Words)中的 “袋” 可以理解为词的集合,但更准确地说,是对文本中词语的一种 “无序集合” 的抽象比喻。

具体来说,“词袋” 的核心含义是:把一段文本看作一个 “袋子”,里面装着构成这段文本的所有词语,忽略词语的顺序、语法结构和上下文关系,只关注词语本身是否出现以及出现的频率。

比如对于句子 “猫追狗” 和 “狗追猫”,在词袋模型中会被视为 “相同的袋子”—— 因为它们包含的词语(“猫”“追”“狗”)完全一致,只是顺序不同,但模型会忽略这种顺序差异,将两者转化为相同的向量表示。

这个比喻的关键点在于 “袋” 的 “无序性”:就像袋子里的物品没有固定顺序一样,词袋模型也不考虑词语在文本中的排列顺序,仅以词语的存在与否或出现次数作为特征。这也是它与后续更复杂的文本表示方法(如词向量、Transformer 等)的核心区别之一。

Part4:

“在机器学习中,一般会把要处理的数据转换为向量(Vector),也就是把高维数据映射到低维空间,这个转换过程叫做 Embedding。”

为什么原始数据是高维的?

简单地讲,因为数据本身的维度就很高(如多属性、高分辨率)。按照机器学习中向量表示的理论,由于原始数据的 “离散性” 和 “多样性”(如多属性、高分辨率),数据本身包含的信息维度多, “天然高维”。

在机器学习的向量表示中,“维度”(Dimension)本质上对应向量空间中“独立特征轴” 的数量,每个 “可独立变化的特征”对应一个维度。

为什么要把高维数据映射到低维向量空间?

简单来说,Embedding 的本质是用更紧凑、更有意义的方式重新表示数据,让 “复杂的高维信息” 变得 “简洁且可理解”,并且缓解维度灾难、降低计算成本。

在机器学习中,Embedding 的核心价值在于将复杂数据(文本、图像、用户行为等)转化为低维、稠密且富含语义关联的向量,让机器能通过向量运算理解数据间的关系。不过理解的效果都依赖于Embedding模型的 “提炼能力”:模型越能理解数据的本质规律,生成的向量就越精准,应用场景也就越广泛。可以说,Embedding 是机器学习中 “让数据从‘不可计算’到‘可计算’” 的关键桥梁。

将这种 “低效高维”(稀疏、冗余)转化为 “高效低维”(稠密、紧凑),同时保留核心信息 —— 这才是低维映射的关键价值。


相关阅读:

终于把业务搞定了,复盘一下,持续提升服务业务的能力

没有RAG打底,一切都是PPT!RAG作者Douwe Kiela的10个关键教训

大模型都火了这么久了,大模型是如何“理解”知识的,你知道吗?

浅入浅出——生成式 AI

因为不提供精确查询,而是近似。 在向量检索系统或Elasticsearch(ES)中使用“召回”(Recall)一词,主要是因为这些系统更侧重于处理模糊匹配、语义相似性检索以及大规模数据中的近似搜索问题。 唐成,公众号:的数字化之路查询ES或VDB时为什么要叫“召回”?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 的数字化之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档