机器学习的核心是让机器“理解”数据。然而,原始数据(文本、图像、声音等)本身无法被模型直接计算。这就好比不同语言无法直接交流。因此,我们需要一个“通用语”——将数据转换成由数字组成的向量。
一、高维原始数据:细节丰富但臃肿
现实世界的信息往往包含多个维度的特征,是“高维”的:
离散数据的 “稀疏表示” 导致维度膨胀。高维是捕获细节的必要代价,为了完整保留数据的细节信息,原始表示往往需要足够多的维度。例如,音频的波形数据、视频的帧序列,维度都会随着时间或空间分辨率的提高而大幅增加。高维如同“高清照片”,保留了所有细节,但数据量大且充满冗余(如文本中的“的”“是”,图像中的大片相同背景)。
二、向量空间:机器的“数字坐标系”
理解数据“变形”,需要三个基础概念:
[3, 5, 2]
就是一个3维向量,每个数字代表一个特征(如身高、体重、年龄)。维度本质:就是描述数据所需的最少独立特征数量。特征越多,维度越高。
三、低维映射的智慧:从“高清照”到“素描画”
高维数据虽然庞大,却藏有“可精简”的空间:
Embedding 技术的核心,就是智能地将高维数据映射到低维空间。这如同将一本厚厚的《动物百科》浓缩成精炼摘要:
四、数据变向量的三种策略
策略 | 维度 | 原理 | 优点 | 缺点 |
---|---|---|---|---|
词袋模型 | 高维 | 每个词一个维度,统计次数 | 简单直观 | 维度爆炸(10万词=10万维)、向量稀疏、忽略语义关联 |
字符级表示 | 中维 | 按字符/组合构建维度 | 能处理生僻词 | 破坏词的整体语义(“苹果”≠“苹”+“果”) |
Embedding | 低维 | 模型学习特征融合 | 向量稠密、蕴含语义关联 | 依赖模型质量和数据量 |
五、高维VS低维?关键看“信息效率”
维度高低并非绝对优劣,核心在于信息组织效率——能否用更少的维度,更清晰、更有效地承载信息?判断标准:
六、Embedding的“魔法”:如何炼成“浓缩版字典”?
Embedding 是机器学习中 “让数据从‘不可计算’到‘可计算’” 的关键桥梁。
Embedding 的本质是 “给万物一个可计算的语义向量”。它通过低维向量浓缩高维数据的核心信息,让机器能通过简单的向量运算(如距离计算、相似度比较)理解数据间的关联——这就像给机器配备了一套 “语义字典”,让原本无法直接沟通的复杂数据,变成了可量化、可比较的 “数字语言”。
而这一切的效果,都依赖于 Embedding 模型的 “提炼能力”:模型越能理解数据的本质规律,生成的向量就越精准,应用场景也就越广泛。可以说,Embedding 是机器学习中 “让数据从‘不可计算’到‘可计算’” 的关键桥梁。
Embedding 能实现低维表达高维,靠的是智能提炼规律,而非简单删减:
在机器学习中,Embedding 的核心价值在于将复杂数据(文本、图像、用户行为等)转化为低维、稠密且富含语义关联的向量,让机器能通过向量运算理解数据间的关系。
Embedding打破了语言壁垒。通过多语言模型(如 mBERT),可以让 “猫”(中文)和 “cat”(英文)的 Embedding 向量非常接近,因为模型在训练时学习到了不同语言中 “同一概念” 的共性。这使得机器能直接比较不同语言文本的相似度,比如判断一句中文和一句英文是否在讲同一件事。
Embedding是 “用数据驱动的方式,让文字从‘符号’变成‘可计算的语义向量’”,解决了传统技术 “高维低效、缺乏语义、泛化差” 的核心痛点,成为现代 NLP 的基石;但其劣势也源于 “数据依赖” 和 “黑箱特性”,在低资源场景、强解释性需求或快速领域适配任务中,仍需与传统技术结合使用。
七、小结与思考
数据变向量,是机器理解的“翻译术”。原始数据的高维是保留细节的代价,但其冗余和内在规律为低维映射提供了可能。
Embedding 的价值在于:用紧凑的低维向量,高效承载高维数据的核心信息——它不是删减信息,而是优化信息的存储与表达方式。
从“高清照片”到传神的“素描画”,从“厚书”到精炼的“摘要”,Embedding 在“简单”与“有效”间找到了精妙的平衡。其背后,是模型对数据规律的深刻洞察——能将复杂事物凝练表达,方显真章。
思考:你能想到生活中哪些信息,看似复杂高维,但其实可以被提炼出几个核心维度来有效描述吗?(例如:如何用几个数字描述一首歌给你的感觉?)
补充:
Part1:什么是理解?
理解指机器不仅能识别文字表面的符号形式,还能捕捉文字背后的真实含义、上下文关联、情感倾向及深层逻辑,像人类一样理解语言的 “言外之意” 和 “语境内涵”。
例如,在 “忘了带伞” 的语境中 ,机器能明白“下雨了” 是表达麻烦,而非单纯陈述天气。
例如,“今天的考试像天书一样”——机器能读懂这不是说考试内容真的是 “天书”,而是通过比喻表达 “考试内容太难、完全看不懂” 的情绪,而非仅匹配 “天书” 的字面符号。
例如,“我饿了,但冰箱是空的”——机器能理解这两句话的逻辑关联:因为冰箱没食物,所以 “饿了” 这个状态需要解决,可能需要推荐外卖或附近餐馆,而非单独处理两个孤立的句子。
Part2:什么是词袋模型?
词袋模型(Bag-of-Words),将文本拆成独立词语,用 “是否出现” 或 “出现次数” 作为向量(比如 “我爱吃苹果”→ [1,1,1,0,...],其中 1 代表 “我”“爱”“吃” 出现)。
特点:向量维度极高(等于词汇表大小),且词语之间毫无关联(“苹果” 和 “香蕉” 在向量中是独立维度,机器不知道它们都是水果)。
Part3:什么是词袋?
“词袋”(Bag-of-Words)中的 “袋” 可以理解为词的集合,但更准确地说,是对文本中词语的一种 “无序集合” 的抽象比喻。
具体来说,“词袋” 的核心含义是:把一段文本看作一个 “袋子”,里面装着构成这段文本的所有词语,忽略词语的顺序、语法结构和上下文关系,只关注词语本身是否出现以及出现的频率。
比如对于句子 “猫追狗” 和 “狗追猫”,在词袋模型中会被视为 “相同的袋子”—— 因为它们包含的词语(“猫”“追”“狗”)完全一致,只是顺序不同,但模型会忽略这种顺序差异,将两者转化为相同的向量表示。
这个比喻的关键点在于 “袋” 的 “无序性”:就像袋子里的物品没有固定顺序一样,词袋模型也不考虑词语在文本中的排列顺序,仅以词语的存在与否或出现次数作为特征。这也是它与后续更复杂的文本表示方法(如词向量、Transformer 等)的核心区别之一。
Part4:
“在机器学习中,一般会把要处理的数据转换为向量(Vector),也就是把高维数据映射到低维空间,这个转换过程叫做 Embedding。”
为什么原始数据是高维的?
简单地讲,因为数据本身的维度就很高(如多属性、高分辨率)。按照机器学习中向量表示的理论,由于原始数据的 “离散性” 和 “多样性”(如多属性、高分辨率),数据本身包含的信息维度多, “天然高维”。
在机器学习的向量表示中,“维度”(Dimension)本质上对应向量空间中“独立特征轴” 的数量,每个 “可独立变化的特征”对应一个维度。
为什么要把高维数据映射到低维向量空间?
简单来说,Embedding 的本质是用更紧凑、更有意义的方式重新表示数据,让 “复杂的高维信息” 变得 “简洁且可理解”,并且缓解维度灾难、降低计算成本。
在机器学习中,Embedding 的核心价值在于将复杂数据(文本、图像、用户行为等)转化为低维、稠密且富含语义关联的向量,让机器能通过向量运算理解数据间的关系。不过理解的效果都依赖于Embedding模型的 “提炼能力”:模型越能理解数据的本质规律,生成的向量就越精准,应用场景也就越广泛。可以说,Embedding 是机器学习中 “让数据从‘不可计算’到‘可计算’” 的关键桥梁。
将这种 “低效高维”(稀疏、冗余)转化为 “高效低维”(稠密、紧凑),同时保留核心信息 —— 这才是低维映射的关键价值。
相关阅读:
没有RAG打底,一切都是PPT!RAG作者Douwe Kiela的10个关键教训
大模型都火了这么久了,大模型是如何“理解”知识的,你知道吗?
因为不提供精确查询,而是近似。 在向量检索系统或Elasticsearch(ES)中使用“召回”(Recall)一词,主要是因为这些系统更侧重于处理模糊匹配、语义相似性检索以及大规模数据中的近似搜索问题。 唐成,公众号:的数字化之路查询ES或VDB时为什么要叫“召回”?