大模型都火了这么久了，AI是如何“理解”知识的，你知道吗？

烟雨平生

发布于 2025-05-19 11:57:57

2750

用大模型这么久了，你有没有想过，为什么聊天机器人能回答你的问题？为什么搜索引擎能“懂”你在找什么？这背后有一个神奇的“翻译官”——它能把文字变成一串数字，让机器理解人类的语言。这个翻译的过程叫Embedding。

机器如何理解你的问题？在机器学习中，一般会把要处理的数据转换为向量（Vector），也就是把高维数据映射到低维空间，这个转换过程叫做 Embedding。把数据转换为向量之后，就可以通过向量的计算来获得数据的相似性。也就是说接近的 Embedding 其 token 的意思也是相近的，也就是机器理解了。要注意，这个 Embedding 是通过训练获得的参数，存储在数据库中，在使用的时候直接查表得到。在大模型的训练过程中需要耗费大量资源，动辄训练几个月，其中一部分工作就是训练这个 Embedding，开源模型开源的参数也有一部分是这个。虚一，公众号：的数字化之路浅入浅出——生成式 AI

今天，我们就来揭开这个“文字变数字”的魔法：Embedding（嵌入）。

在展开讲之前，先拉齐几个概念：

什么是非结构化数据？

非结构化数据是指数据结构不规则、没有统一的预定义数据模型、不方便用数据库二维逻辑表来表现的数据，包括图片、视频、音频、自然语言等。非结构化数据可以通过各种人工智能（AI）或机器学习（ML）模型转化为向量数据。

什么是向量？

向量是指在数学中具有一定大小和方向的量，文本、图片、音视频等非结构化数据，通过机器学习/深度学习模型 Embedding 提取出来的“特征” 用数学中的向量来表示。在大模型中，向量（Vector）通常是由浮点数（Float）组成的数组。两个向量之间的距离衡量它们的相关性。距离小表示相关性高，距离大表示相关性低。嵌入数组的长度称为向量的维度。向量维度，通常维度越高，检索越准确。除非有极高性能要求和超大规模数据量，方可考虑降维。其主要功能是将文本转换为数值向量，通常称为向量化。

什么是特征向量？

特征向量是包含事物重要特征的向量。大家比较熟知的一个特征向量是 RGB（红-绿-蓝）色彩，每种颜色都可以通过对红(R)、绿(G)、蓝(B)三种颜色的比例来得到，这样一个特征向量可以描述为：颜色 = [红，绿，蓝]。对于一个像素点，我们可以用数组 [255, 255, 255] 表示白色，用数组 [0, 0, 0] 表示黑色，这里 [255, 255, 255]、[0, 0, 0] 可以认为是该像素点的特征向量。

什么是Embedding？

通过深度学习神经网络提取非结构化数据里的内容和语义，把图片、视频等变成特征向量，这个过程叫Embedding。

什么是向量相似度检索？

相似度检索是指将目标对象与数据库中数据进行比对，并召回最相似的结果。同理，向量相似度检索是一种基于向量空间模型的检索方法，用于计算和比较两个向量之间的相似度，返回最相似的向量数据。如果两条向量十分相似，意味着他们所代表的源数据（例如图片）也十分相似。

一、Embedding：给每个词发一串“数字身份证”

想象一下，每个词语（比如“猫”、“快乐”、“北京”、“上海”、”ai“、”MRO“）都有一个独一无二的“数字身份证”——比如“猫”可能是 [0.3, -1.2, 2.5…]，而“狗”是 [0.5, -0.8, 2.4…]。这串数字不是乱编的，而是通过分析海量文本后，按词语的“共同出现规律”生成的。

举个栗子🌰： “猫”和“狗”经常出现在“宠物”“喂食”“可爱”这类句子中，所以它们的数字身份证很像；而“汽车”和它们八竿子打不着，数字身份证就差别很大。
本质：Embedding 就是通过深度学习神经网络提取非结构化数据里的内容和语义，把图片、视频等变成特征向量的过程，就是把词语的“语义灵魂”压缩成一串数字，让机器能“看见”词语之间的关系。Embedding 的本质是高维空间到低维空间的映射，目的是用低维向量表示原始数据的语义或特征。Embedding 向量不是人工设计的，而是通过模型自动学习得到的，其数值隐含了数据的内在结构。

二、原始数据的高维性：为什么需要压缩？

你可能好奇：为什么要把词语变成数字？直接处理文字不行吗？

原始数据的“高维爆炸”：如果直接用文字处理，比如把“猫”表示成“在词典第12345位”，这就是“one-hot编码”——一个超级长的数字串（比如10万维【维度高】），只有一位是1，其他全是0。
- 问题：这就像用一本厚厚的电话簿找人，效率极低，而且机器根本看不懂这些数字之间的关系。
Embedding的魔法：通过压缩，把10万维的“电话簿”变成300维的“精华版身份证”。每个维度不再是孤立的位置，而是隐含了词语的特征（比如“是不是动物”“情感积极还是消极”）。

三、向量空间：词语的“数字地球仪”

所有词语的数字身份证，会放在一个高维的“数字地球仪”上，叫做向量空间。这个地球仪上，词语的“地理位置”决定了它们的含义。

语义相似=地理位置近： “猫”和“狗”是邻居，“北京”和“上海”紧挨着，“悲伤”和“难过”在同一条街上。
语义无关=天各一方： “猫”和“汽车”可能隔着一个太平洋，“火锅”和“量子物理”更是远在银河两端。

训练过程就像“老师排座位”：

初始时，所有词语随机分布在地球仪上。
模型（老师）读遍全网文本，发现“猫”和“狗”总一起出现，就把它们的座位调近；发现“猫”和“汽车”从不互动，就把它们拉开。
经过亿万次调整后，地球仪上的“语义地图”就成型了——相似的词成了邻居。

四、如何判断词语的“亲密度”？三种算法大比拼

在地球仪上，判断两个词是否“亲密”，常用三种方法：

内积（IP）：算“共同兴趣积分”
- 规则：把两个向量的每个数字相乘再相加。积分越高，越相似。
- 例子：如果“猫”和“狗”的向量是 [2, 3] 和 [1, 4]，内积就是 2×1 + 3×4 = 14。
- 适合场景：向量长度（模长）本身有意义时，比如推荐系统（用户兴趣强度）。
余弦相似度：看“方向是否一致”
- 规则：忽略向量长度，只比较方向夹角。方向越一致，余弦值越接近1。
- 例子：“快乐”和“开心”方向一致，但“快乐”可能更长（情感更强烈）。
- 适合场景：文本相似性（更关注语义方向，而不是强度）。
欧氏距离（L2）：量“直线距离”
- 规则：直接算两个向量的直线距离，距离越小越相似。
- 例子：“北京”和“中国”距离近，“北京”和“火星”距离远。
- 适合场景：需要精确距离时（比如图像检索）。

一句话总结：

内积像“算共同爱好总分”，余弦像“看兴趣方向是否一致”，欧氏像“量直线距离”。
实际应用：搜索引擎多用余弦相似度，推荐系统可能用内积，图像搜索常用欧氏距离。

五、Embedding的魔法会失灵吗？影响精度的关键因素

虽然Embedding很强大，但它也不是万能的。精度高低取决于几个关键因素：

数据量：模型“读了多少书”
- 如果训练数据太少，模型就像没读完小学的学生，理解力有限。
- 比如专业术语（如“量子纠缠”），如果数据里没出现过，模型根本学不会。
模型设计：静态VS动态
- 比如“苹果股价上涨”中的“苹果”，模型会生成“公司版”向量。
- 问题：多义词（如“苹果”）会混淆，模型分不清是水果还是公司。
- 静态模型（如Word2Vec）：给每个词发固定身份证。
- 动态模型（如BERT）：根据上下文生成不同身份证。
训练目标：模型“考试考什么”
- 如果训练目标是“预测下一个词”，模型会更关注语法；如果是“判断句子情感”，会更关注情感词。
- 就像学生备考不同科目，复习重点不一样。
领域适配：通用VS专业
- 通用模型（比如用新闻训练的BERT）在医疗、法律领域可能表现差，就像让文科生做数学题。
- 解决方法：用专业数据微调模型，相当于“补课”。