前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【LLM】最简单理解嵌入(Embedding)概念及其应用

【LLM】最简单理解嵌入(Embedding)概念及其应用

原创
作者头像
Freedom123
发布2024-05-02 20:55:29
6610
发布2024-05-02 20:55:29
举报
文章被收录于专栏:AIGC

toc


嵌入是我们遇到的许多技术中看不见但很重要的一部分。从互联网搜索引擎,到推荐系统和广告个性化,再到图像、视频以及语音和声音识别技术的高级分析,嵌入无处不在。在本文中,我们将解释嵌入是如何工作的,以及它们如何促进和丰富我们的日常技术体验。正如我上面提到的,向量嵌入是一种流行的技术,它以一种可以被算法(尤其是深度学习模型)轻松处理的格式(通常作为数值向量)表示信息,这些“信息”可以是文本、图片、视频和音频。

例如,将单词“dog”转换为数字向量表示可能如下所示:

决定嵌入质量和有效性的一个关键因素是嵌入维度。通常,术语“词嵌入的维度”是指用于定义单词向量表示的维度总数。这个数字通常是在单词嵌入的发展过程中建立的,它表示单词的向量表示中包含多少个不同的特征。对于文本嵌入,这些向量的构造方式可以捕获文本的语义含义。这确保了传达相似含义的单词或句子在嵌入空间(通常称为向量空间)中彼此靠近。

假设我们有一个只有两个维度的空间 - x, y,其中 x 代表性别,y 代表活动。

假设现在,通过问“谁在走路?”这个问题,嵌入将搜索在y维度中包含“走路”句子的向量。

我们可以观察到,“走路”这句话与一个女人、一个男人、一个男孩和一个女孩有关。这意味着他们都在走路。因此,我们得到了答案:一个女人,一个男人,一个男孩和一个女孩在走路。 一个非常简化的例子,只有两个维度的含义。实际上,这样的维度越多,我们的嵌入就越能更好地猜测保存的句子作为单词或短语的含义。

我正在参与2024腾讯技术创作特训营最新征文,快来和我瓜分大奖!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档