首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大模型都火了这么久了,AI是如何“理解”知识的,你知道吗?

大模型都火了这么久了,AI是如何“理解”知识的,你知道吗?

作者头像
烟雨平生
发布2025-05-19 11:57:57
发布2025-05-19 11:57:57
2570
举报
文章被收录于专栏:数字化之路数字化之路

用大模型这么久了,你有没有想过,为什么聊天机器人能回答你的问题?为什么搜索引擎能“懂”你在找什么?这背后有一个神奇的“翻译官”——它能把文字变成一串数字,让机器理解人类的语言。这个翻译的过程叫Embedding。

机器如何理解你的问题? 在机器学习中,一般会把要处理的数据转换为向量(Vector),也就是把高维数据映射到低维空间,这个转换过程叫做 Embedding。 把数据转换为向量之后,就可以通过向量的计算来获得数据的相似性。也就是说接近的 Embedding 其 token 的意思也是相近的,也就是机器理解了。 要注意,这个 Embedding 是通过训练获得的参数,存储在数据库中,在使用的时候直接查表得到。在大模型的训练过程中需要耗费大量资源,动辄训练几个月,其中一部分工作就是训练这个 Embedding,开源模型开源的参数也有一部分是这个。 虚一,公众号:的数字化之路浅入浅出——生成式 AI

今天,我们就来揭开这个“文字变数字”的魔法:Embedding(嵌入)

在展开讲之前,先拉齐几个概念:

什么是非结构化数据?

非结构化数据是指数据结构不规则、没有统一的预定义数据模型、不方便用数据库二维逻辑表来表现的数据,包括图片、视频、音频、自然语言等。非结构化数据可以通过各种人工智能(AI)或机器学习(ML)模型转化为向量数据。

什么是向量?

向量是指在数学中具有一定大小和方向的量,文本、图片、音视频等非结构化数据, 通过机器学习/深度学习模型 Embedding 提取出来的“特征” 用数学中的向量来表示。在大模型中,向量(Vector)通常是由浮点数(Float)组成的数组。两个向量之间的距离衡量它们的相关性。距离小表示相关性高,距离大表示相关性低。嵌入数组的长度称为向量的维度。向量维度,通常维度越高,检索越准确。除非有极高性能要求和超大规模数据量,方可考虑降维。其主要功能是将文本转换为数值向量,通常称为向量化。

图片
图片

什么是特征向量?

特征向量是包含事物重要特征的向量。大家比较熟知的一个特征向量是 RGB(红-绿-蓝)色彩,每种颜色都可以通过对红(R)、绿(G)、蓝(B)三种颜色的比例来得到,这样一个特征向量可以描述为:颜色 = [红,绿,蓝]。对于一个像素点,我们可以用数组 [255, 255, 255] 表示白色,用数组 [0, 0, 0] 表示黑色,这里 [255, 255, 255]、[0, 0, 0] 可以认为是该像素点的特征向量。

图片
图片

什么是Embedding?

通过深度学习神经网络提取非结构化数据里的内容和语义,把图片、视频等变成特征向量,这个过程叫Embedding。

什么是向量相似度检索?

相似度检索是指将目标对象与数据库中数据进行比对,并召回最相似的结果。同理,向量相似度检索是一种基于向量空间模型的检索方法,用于计算和比较两个向量之间的相似度,返回最相似的向量数据。如果两条向量十分相似,意味着他们所代表的源数据(例如图片)也十分相似。


一、Embedding:给每个词发一串“数字身份证”

想象一下,每个词语(比如“猫”、“快乐”、“北京”、“上海”、”ai“、”MRO“)都有一个独一无二的“数字身份证”——比如“猫”可能是 [0.3, -1.2, 2.5…],而“狗”是 [0.5, -0.8, 2.4…]。这串数字不是乱编的,而是通过分析海量文本后,按词语的“共同出现规律”生成的

  • 举个栗子🌰: “猫”和“狗”经常出现在“宠物”“喂食”“可爱”这类句子中,所以它们的数字身份证很像;而“汽车”和它们八竿子打不着,数字身份证就差别很大。
  • 本质:Embedding 就是通过深度学习神经网络提取非结构化数据里的内容和语义,把图片、视频等变成特征向量的过程,就是把词语的“语义灵魂”压缩成一串数字,让机器能“看见”词语之间的关系。Embedding 的本质是高维空间到低维空间的映射,目的是用低维向量表示原始数据的语义或特征。Embedding 向量不是人工设计的,而是通过模型自动学习得到的,其数值隐含了数据的内在结构。

二、原始数据的高维性:为什么需要压缩?

你可能好奇:为什么要把词语变成数字?直接处理文字不行吗?

  • 原始数据的“高维爆炸”: 如果直接用文字处理,比如把“猫”表示成“在词典第12345位”,这就是“one-hot编码”——一个超级长的数字串(比如10万维【维度高】),只有一位是1,其他全是0。
    • 问题:这就像用一本厚厚的电话簿找人,效率极低,而且机器根本看不懂这些数字之间的关系。
  • Embedding的魔法: 通过压缩,把10万维的“电话簿”变成300维的“精华版身份证”。每个维度不再是孤立的位置,而是隐含了词语的特征(比如“是不是动物”“情感积极还是消极”)。

三、向量空间:词语的“数字地球仪”

所有词语的数字身份证,会放在一个高维的“数字地球仪”上,叫做向量空间。这个地球仪上,词语的“地理位置”决定了它们的含义。

  • 语义相似=地理位置近: “猫”和“狗”是邻居,“北京”和“上海”紧挨着,“悲伤”和“难过”在同一条街上。
  • 语义无关=天各一方: “猫”和“汽车”可能隔着一个太平洋,“火锅”和“量子物理”更是远在银河两端。

训练过程就像“老师排座位”

  1. 初始时,所有词语随机分布在地球仪上。
  2. 模型(老师)读遍全网文本,发现“猫”和“狗”总一起出现,就把它们的座位调近;发现“猫”和“汽车”从不互动,就把它们拉开。
  3. 经过亿万次调整后,地球仪上的“语义地图”就成型了——相似的词成了邻居。

四、如何判断词语的“亲密度”?三种算法大比拼

在地球仪上,判断两个词是否“亲密”,常用三种方法:

  1. 内积(IP):算“共同兴趣积分”
    • 规则:把两个向量的每个数字相乘再相加。积分越高,越相似。
    • 例子:如果“猫”和“狗”的向量是 [2, 3][1, 4],内积就是 2×1 + 3×4 = 14
    • 适合场景:向量长度(模长)本身有意义时,比如推荐系统(用户兴趣强度)。
  2. 余弦相似度:看“方向是否一致”
    • 规则:忽略向量长度,只比较方向夹角。方向越一致,余弦值越接近1。
    • 例子:“快乐”和“开心”方向一致,但“快乐”可能更长(情感更强烈)。
    • 适合场景:文本相似性(更关注语义方向,而不是强度)。
  3. 欧氏距离(L2):量“直线距离”
    • 规则:直接算两个向量的直线距离,距离越小越相似。
    • 例子:“北京”和“中国”距离近,“北京”和“火星”距离远。
    • 适合场景:需要精确距离时(比如图像检索)。

一句话总结

  • 内积像“算共同爱好总分”,余弦像“看兴趣方向是否一致”,欧氏像“量直线距离”。
  • 实际应用:搜索引擎多用余弦相似度,推荐系统可能用内积,图像搜索常用欧氏距离。

五、Embedding的魔法会失灵吗?影响精度的关键因素

虽然Embedding很强大,但它也不是万能的。精度高低取决于几个关键因素

  1. 数据量:模型“读了多少书”
    • 如果训练数据太少,模型就像没读完小学的学生,理解力有限。
    • 比如专业术语(如“量子纠缠”),如果数据里没出现过,模型根本学不会。
  2. 模型设计:静态VS动态
    • 比如“苹果股价上涨”中的“苹果”,模型会生成“公司版”向量。
    • 问题:多义词(如“苹果”)会混淆,模型分不清是水果还是公司。
    • 静态模型(如Word2Vec):给每个词发固定身份证。
    • 动态模型(如BERT):根据上下文生成不同身份证。
  3. 训练目标:模型“考试考什么”
    • 如果训练目标是“预测下一个词”,模型会更关注语法;如果是“判断句子情感”,会更关注情感词。
    • 就像学生备考不同科目,复习重点不一样。
  4. 领域适配:通用VS专业
    • 通用模型(比如用新闻训练的BERT)在医疗、法律领域可能表现差,就像让文科生做数学题。
    • 解决方法:用专业数据微调模型,相当于“补课”。

六、Embedding的魔法应用

  1. 搜索引擎:把你的搜索词变成向量,快速找到“地理位置”相近的网页。
  2. 推荐系统:如果你喜欢《流浪地球》,系统会推荐向量接近的《三体》《星际穿越》。
  3. 聊天机器人:通过向量匹配,理解“我不开心”和“我很难过”是同一个意思。

甚至能玩“词语加减法”

  • 国王 - 男 + 女 ≈ 女王
  • 巴黎 - 法国 + 中国 ≈ 北京 就像用数字公式解开语义谜题!

七、结语:让机器真正“理解”人类

Embedding 的魔法,本质是让机器通过数据统计,“感受”到了语言的规律。虽然它还不完美,但正是这些“数字灵魂”,让AI能推荐你喜欢的电影、回答你的问题、甚至写出诗歌。未来,随着模型越来越聪明,或许机器真能像人类一样,理解语言的细腻与温度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 的数字化之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、Embedding:给每个词发一串“数字身份证”
  • 二、原始数据的高维性:为什么需要压缩?
  • 三、向量空间:词语的“数字地球仪”
  • 四、如何判断词语的“亲密度”?三种算法大比拼
  • 五、Embedding的魔法会失灵吗?影响精度的关键因素
  • 六、Embedding的魔法应用
  • 七、结语:让机器真正“理解”人类
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档