Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一口气讲清楚:向量库、训练集、多模态

一口气讲清楚:向量库、训练集、多模态

作者头像
老_张
发布于 2025-04-18 09:22:41
发布于 2025-04-18 09:22:41
3350
举报

这是“一口气讲清楚”AI系列第三篇文章。

前面两篇文章,分别介绍了AGI、RAG、AIGC、LLM、MCP、EMB这六个在AI大模型领域的核心术语。想要真正了解AI大模型及各种工具的特点和原理,离不开这六个专业术语。

但如果想要进一步深入理解大模型的实现原理和当前阶段的大模型特性,就需要进一步了解它的训练过程,那这个时候就离不开这三个专业术语:向量库、训练集、多模态。

这篇文章,我会尽量用通俗易懂的语言,讲清楚这三个术语的含义,它的作用和背后的技术原理,帮助大家更好地理解AI。

一、向量库:Vector Database

向量库(Vector Database)是一种专门用于存储、管理和检索向量数据的数据库系统

人工智能领域,向量的定义通常指通过模型(如BERT、ResNet)将文本、图像、音频等非结构化数据转换为高维数值表示(例如由数百或数千个数值组成的序列)。这种转换称为嵌入(即前面提到的EMB),旨在捕捉数据的语义或特征信息。

你可以理解为,向量化的过程类似于大数据领域的数据清洗,核心有两点:统一数据格式、统一存储

例如:一段文本内容“可爱的猫咪”经过嵌入处理后,可能变成类似“[0.2, -1.3, 0.8, ..., 0.5]”的向量。而向量库的核心功能就是通过数学方法快速找到与用户输入的提示词(也称之为查询向量)相似的存储于向量库中的向量。

这里的快速检索相似向量的方法,类似于传统数据库中的索引功能

1、向量库的核心特性

  • 高效相似性搜索:支持近似最近邻搜索(ANN),通过索引优化(如HNSW、IVF)实现毫秒级响应。
  • 高维数据处理:可管理数百至数千维的向量,适用于图像特征、文本语义等复杂数据的存储。
  • 实时性与可扩展性:支持动态插入、更新数据,并通过分布式架构横向扩展,满足大数据场景需求。
  • 多模态支持:统一存储文本、图像、视频等不同模态的向量,实现跨模态检索(如用文字搜索图片)。
  • 与传统数据库互补:在支持CRUD操作的基础上,强化了基于语义或特征的搜索能力,而非精确匹配。

2、向量库的核心作用

  • 加速AI模型应用:大模型(如DeepSeek)生成的向量需要高效检索支持,例如在问答系统中快速匹配相关知识片段。
  • 处理非结构化数据:将图像、文本等非结构化数据转化为向量,使其可被计算机分析和应用。
  • 语义理解与上下文关联:通过向量相似性捕捉语义关系,例如判断“苹果”在“水果”和“手机品牌”中的不同含义。
  • 降低计算成本:通过预计算和索引优化,减少模型实时推理的压力。

3、向量库的使用场景

假设你要在电商平台搜索男士运动鞋,上传了一张自己鞋子的照片进行搜索,下面是AI搜索并返回结果的过程:

  • 向量化:平台用ResNet模型将图片转换为一个512维的向量。
  • 检索存储向量:向量库通过余弦相似度计算,快速找到商品库中特征最接近的鞋子向量。
  • 返回结果:展示相似商品,如“Nike Air Force 1”。

4、向量库的主流工具选型

  • 开源工具:FAISS(Meta开发,适合中小规模)、Milvus(分布式架构,支持亿级数据)。
  • 云服务工具:腾讯云VectorDB(高可用、低延迟)、Pinecone(全托管,适合快速部署)。

工具选型的关键在于,支持的数据规模大小、数据检索时延(RT)、向量库的运维管理成本

二、训练集:Training Set

训练集(Training Set)是机器学习中用于训练模型的数据集合,包含输入样本及对应的输出标签(特指监督学习)

核心作用是让模型通过学习集合中的输入特征与目标变量之间的关联规律,不断调整模型本身的参数,进而做出预测(大模型是一个概率预测机器,通过解析用户输入内容,进行向量化,然后在向量库进行相似性检索,最终输出用户可能需要的答案)。

一句话概括:让模型通过大量数据训练,掌握数据关联逻辑,然后做出决策

1、训练集的核心特点

  • 代表性:必须涵盖模型可能遇到的所有场景(目前我们熟知的大模型大多是通用大模型,即全能型选手)。
  • 标记准确性:监督学习的训练集标签必须正确(比如将输入样本“猫”标注为“狗”,模型就会学习错误规律,导致预测失效)。
  • 充足性:样本数量需要足够多(大模型并不像人类具有联想能力,它只会死记硬背,无法幻想)。
  • 相关性与均匀性:训练集数据必须与训练任务目标直接相关(人脸识别不能包含动物图片),且数据分布需要保持均衡(金融交易训练集中,买入卖出样本比例需要接近真实情况,避免产生偏差,这也是量化交易的训练核心)。
  • 复杂性:训练集需要包含边界值和脏数据(比如智能驾驶训练过程,要包含极端天气和复杂路况,不能只在无人的高速大直道训练)。

2、训练集的核心作用

  • 参数学习的基础:模型通过训练集调整权重参数。
  • 模式发现与规律提炼:模型从数据中提取关键特征。
  • 泛化能力的基石:高质量训练集使模型在面对新数据时保持高准确率。
  • 过拟合与欠拟合的平衡:充足且多样的数据可以减少过拟合风险,如果数据量不足或质量差会导致欠拟合(模型没有学习到数据关联逻辑)。

3、训练集的典型应用场景

我们所熟知的智能驾驶、图片分类、短视频推荐、文生内容(包含文生文、图、视频)等领域的大模型都经过了大量高质量数据的长期训练,才能具备现在的能力。

4、构建数据集的注意事项

  • 数据划分比例:常见比例为8:2(80%训练20%测试),复杂的模型可以步拆分为6:2:2(60%训练20%验证20%测试)。
  • 数据增强技术:通过旋转、裁剪、噪声添加等方式扩展数据集,这点比较适用于数据不足的场景。
  • 避免数据泄漏:训练集与测试集需要严格隔离,否则测试数据混入训练过程,则会导致模型评估结果偏离。
  • 持续迭代更新:模型部署后,需要定期用新数据更新训练集以适应环境变化(比如病毒库、垃圾邮件、专业论文)。

一句话总结训练集核心:训练集的数据质量直接决定大模型的输出准确性,高质量数据的重要性可见一斑。这也是前两年各大图书馆的电子数据和专业实验室的数据被各个AI公司高价购买的原因。

三、多模态:Multimodal

多模态(Multimodal)指的是系统能同时处理和理解不同来源或类型的数据(文本、图像、音频、视频、传感器数据)的能力

多模态技术的核心目标,是通过跨模态的关联与融合,模拟人类通过多种感官(视觉、听觉、触觉等)感知世界的方式,从而实现对复杂信息的全面理解与交互。

比如人与人沟通时,会通过语言、眼神、肢体动作和表情甚至借助其他工具来尽可能让对方理解自己的想法。而多模态的目的就是希望让工具/机器具备类似的能力,综合多种输入形式作出更准确的决策

1、多模态技术的主要特点

  • 跨模态理解:识别不同模态之间的关联和互补性(如图文互译:将文本“一只猫在草地上”生成图片,或反过来)。
  • 多层次数据融合:在不同特征层面进行数据融合(如自动驾驶系统融合摄像头图像、雷达信号和GPS定位数据,提升环境感知的准确性,最终实现自动加速减速和避开障碍物)。
  • 端到端学习:直接从原始多模态数据中学习,无需人工设计特征提取步骤(如智能会议场景,AI可以同时进行画面(根据人脸识别发言人)和声音识别并生成会议纪要)。
  • 增强鲁棒性与适应性:多模态系统在部分模态数据缺失时仍能有效运作(如智能驾驶领域,即使大雾天气也可以通过激光摄像头来进行路线规划和障碍识别,而非纯靠视觉)。
  • 拟人的信息处理方式:通过整合多种感官输入,多模态AI能更自然地与用户交互(如智能家居领域)。

2、多模态技术的核心作用

  • 提升信息理解的全面性与准确性:单一模态的信息可能不完整或存在歧义(如医疗诊断场景,结合CT影响和患者病史以及门诊录音,可以提高诊断准确性)。
  • 推动通用人工智能(AGI)发展:多模态是实现AGI的必经之路。
  • 优化用户体验与交互效率:支持多种输入方(语音、文字、手势)降低使用门槛。
  • 创造新型应用场景:多模态技术催生了虚拟人、AIGC(生成式AI)、全屋智能等创新应用。

3、通俗易懂的实例说明

假设你通过手机拍摄衣橱中的衣服并提问:“明天去郊游,如何搭配”?拥有多模态能力的AI助手会这样思考并回答你:

  • 视觉分析:识别衣物类型(如T恤、牛仔裤)、颜色和材质。
  • 文本理解:解析“郊游”场景需求(需舒适、防晒、耐脏)。
  • 环境数据融合:结合天气预报(晴天、阴天、下雨)建议防晒帽。
  • 跨模态生成:输出图文搭配建议(如“白色T恤+卡其裤+帆布鞋”)并推荐购买链接。

4、多模态技术的应用场景

  • 医疗健康:结合CT影像、患者病历和语音问诊记录生成诊断报告。
  • 内容创作:输入文本生成配套图片、视频和音乐(如AI生成广告素材)。
  • 智能驾驶:融合摄像头图像、雷达信号和GPS定位,实现导航与障碍物避让。
  • 智能家居:通过语音指令控制灯光(听觉)、手势调节温度(视觉)、传感器检测室内环境。

关于AI大模型的专业术语,暂时先介绍到这里。在后续的文章中,我会用通俗易懂的语言为大家介绍Manus的技术架构、AI Agent的发展和工程迭代历史,敬请期待。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 老张的求知思考世界 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一口气讲清楚:AGI、RAG、AIGC
看了很多关于AI大模型的文章,发现其中高频出现了一些专业名词,比如AGI、RAG、AIGC等。看着很高大上,但这些名词到底是什么意思,又预示着什么,普通人很难通俗易懂的理解。
老_张
2025/04/11
5550
一口气讲清楚:AGI、RAG、AIGC
一口气讲清楚:LLM、MCP、EMB
在很多介绍AI的文章中,会频繁出现一些名词,比如LLM、MCP、EMB。这些专业术语是什么意思,有什么作用,背后的技术原理又是什么,对普通人来说有点难以理解。
老_张
2025/04/16
7330
一口气讲清楚:LLM、MCP、EMB
一口气讲清楚:FC、MCP、A2A
前面几篇文章中,我介绍了AI大模型领域常见的几种专业术语,分别是:AGI、RAG、AIGC、LLM、MCP、EMB、向量库、训练集、多模态。了解基础概念和专业术语之后,有助于我们在工作和生活中深入学习和应用AI。
老_张
2025/05/12
4350
一口气讲清楚:FC、MCP、A2A
向量数据库——AGI时代的“数据枢纽”
最近腾讯云上线《中国数据库前世今生》纪录片,讲述了数据库技术从诞生到现在繁华的壮观历程,至今,国产数据库市场呈现出一派群雄并起、百家争鸣的壮观景象。在这片混沌而又充满生机的市场中,真正的实力与创新能力将成为决定未来格局的关键。
中杯可乐多加冰
2024/09/17
4680
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
最近,扩散模型在图像生成方面取得了巨大的成功。然而,当涉及到布局生成时,由于图像通常包含多个物体的复杂场景,如何对全局布局图和每个详细对象进行强大的控制仍然是一个具有挑战性的任务。
公众号机器学习与AI生成创作
2023/08/22
4.5K1
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
深度解密大模型的“军火商”,向量数据库的八大技术方向!
2023年,科技圈最火的无疑是大模型。然而,大模型的真正商用落地还需要一定时间,但大模型的“上游”却已经感受到了火热的氛围。
数据猿
2023/09/15
9150
深度解密大模型的“军火商”,向量数据库的八大技术方向!
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
大模型作为产业变革的核心引擎。通过RAG、Agent与多模态技术正在重塑AI与现实的交互边界。三者协同演进,不仅攻克了数据时效性、专业适配等核心挑战,更推动行业从效率革新迈向业务重构。本文将解析技术演进脉络、实战经验与未来图景,为读者提供前沿趋势的全局视角与产业升级的实践指引。
腾讯云开发者
2025/04/26
6870
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
【机器学习】机器学习与大型预训练模型的前沿探索:跨模态理解与生成的新纪元
二、多模态数据处理 多模态数据处理是跨模态理解与生成技术的基础。在这一过程中,需要对来自不同模态的数据进行预处理、特征提取和表示学习等操作。例如,对于文本数据,可以通过分词、词嵌入等技术提取出关键信息;对于图像数据,可以通过卷积神经网络等技术提取出图像特征。这些预处理和特征提取操作能够将原始数据转化为机器可理解的形式,为后续的处理和生成提供基础。
E绵绵
2024/05/24
5620
【机器学习】机器学习与大型预训练模型的前沿探索:跨模态理解与生成的新纪元
【机器学习】多模态AI——融合多种数据源的智能系统
随着人工智能的快速发展,单一模态(如文本、图像或语音)已经不能满足复杂任务的需求。多模态AI(Multimodal AI)通过结合多种数据源(如文本、图像、音频等)来提升模型的智能和表现,适用于多样化的应用场景,如自动驾驶、医疗诊断、跨语言翻译等。
2的n次方
2024/10/15
1.4K0
【机器学习】多模态AI——融合多种数据源的智能系统
解锁DeepSeek多模态:从原理到实战全解析(3/18)
摘要:本文深入探讨了DeepSeek在多模态领域的前沿技术与应用实践,旨在为研究人员和开发者提供一个全面的进阶指南。文章首先介绍了图文跨模态对齐技术的原理,展示了如何通过先进的模型架构和算法实现文本与图像之间的高效对齐,从而为多模态理解奠定基础。接着,文章提出了一个视频理解与生成的统一框架,该框架能够同时处理视频内容的理解和生成任务,显著提升了模型在复杂多模态场景下的表现能力。最后,文章通过一个实际案例,详细介绍了如何搭建多模态检索系统,包括数据预处理、特征提取与融合,以及检索算法的优化。通过这些内容,本文不仅展示了DeepSeek在多模态领域的强大能力,还为读者提供了丰富的实践指导,帮助他们在实际项目中更好地应用这些技术。
正在走向自律
2025/02/15
1.3K2
解锁DeepSeek多模态:从原理到实战全解析(3/18)
多模态大模型技术原理与实战(3)
ChatGPT引爆了以AIGC(人工智能生成内容)为代表的第四范式 AI的市场,并成为 AI市场的热点。
顾翔
2024/09/10
5560
多模态大模型技术原理与实战(3)
.NET 原生驾驭 AI 新基建实战系列(三):Chroma ── 轻松构建智能应用的向量数据库
在人工智能AI和机器学习ML迅猛发展的今天,数据的存储和检索需求发生了巨大变化。传统的数据库擅长处理结构化数据,但在面对高维向量数据时往往力不从心。向量数据库作为一种新兴技术,专为AI应用设计,能够高效地存储和查询高维向量数据,成为现代智能应用的核心组件之一。
AI.NET 极客圈
2025/04/15
3150
.NET 原生驾驭 AI 新基建实战系列(三):Chroma ── 轻松构建智能应用的向量数据库
单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG
今天向大家介绍一项来自香港大学黄超教授实验室的最新科研成果 VideoRAG。这项创新性的研究突破了超长视频理解任务中的时长限制,仅凭单张 RTX 3090 GPU (24GB) 就能高效理解数百小时的超长视频内容。
机器之心
2025/02/15
1670
单卡3090帮你一口气看完《黑悟空》,港大百度打造超长视频理解引擎VideoRAG
跨越视觉与文本的界限,MVLMs 在分割与检索中的应用研究 !
医学视觉语言模型(MVLMs)由于能够提供自然语言接口来解释复杂医疗数据而引起了广泛关注。它们的应用领域非常广泛,有可能通过更高效地分析大型数据集来提高个体患者的诊断准确性和决策。
AIGC 先锋科技
2024/12/24
2210
跨越视觉与文本的界限,MVLMs 在分割与检索中的应用研究 !
OpsPilot技术赋能:语义空间构建与多模态检索的运维新范式
直达原文:OpsPilot功能上新:Embedding重构语义空间,混合检索驱动知识发现(内附体验环境)
嘉为蓝鲸
2025/04/21
1760
OpsPilot技术赋能:语义空间构建与多模态检索的运维新范式
【AI大模型】AI大模型热门关键词解析与核心概念入门
大数据小禅
2024/05/25
4380
【AI大模型】AI大模型热门关键词解析与核心概念入门
全面盘点多模态融合算法及应用场景
多模态融合(Multimodal Fusion)是指结合来自不同模态(如视觉、听觉、文本等)的数据,以提升信息处理和理解能力的技术方法。多模态数据通常具有不同的物理性质和信息特征,通过融合这些多模态信息,可以获得更全面和准确的理解。这种融合过程可以发生在数据层、特征层和决策层:
TechLead
2024/05/29
11.3K1
全面盘点多模态融合算法及应用场景
大模型中的Token,到底是个啥子?
在自然语言处理(NLP)和人工智能领域,Token是大模型(如GPT、BERT、Transformer等)处理文本数据的基础单元。与区块链中的Token(代币)不同,大模型中的Token是数据表征的最小单位,是模型理解、生成和处理语言的核心机制。以下是其核心概念与技术细节的深度解析:
是山河呀
2025/04/06
1.2K0
多模态+大模型会带来哪些“化学反应”?
导语:没人怀疑,2024 年,AI 依然将是科技界的主角。上个月,OpenAI 推出了可以生成 60 秒高清视频的视频生成模型 Sora,掀起了对多模态模型的进一轮讨论。多模态大模型技术的最新进展如何?这一波新技术,对于行业和消费者的体验会带来哪些变化?面对一波波快速、热闹的突破和变化,技术人员该如何适应多模态 + 大模型时代?
深度学习与Python
2024/03/18
1340
多模态+大模型会带来哪些“化学反应”?
【RAG】001.1-RAG相关核心概念
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索与生成模型的混合架构,旨在提升生成的准确性和可信度。其核心概念可归纳为以下六个方面:
訾博ZiBo
2025/03/26
4200
推荐阅读
相关推荐
一口气讲清楚:AGI、RAG、AIGC
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档