
分类维度 | 代表类别 | 常见算法/模型举例 |
|---|---|---|
学习方式 | 监督学习 | 线性回归、逻辑回归、决策树、支持向量机、神经网络、K近邻等 |
无监督学习 | K均值聚类、层次聚类、主成分分析、基于密度的聚类、自编码器等 | |
强化学习 | Q学习、深度Q网络、近端策略优化、深度确定性策略梯度等 | |
技术类型 | 传统算法 | 决策树、随机森林、支持向量机、K近邻、朴素贝叶斯等 |
深度学习 | 前馈/卷积/循环神经网络、长短期记忆网络、BERT、GPT 等 | |
进化算法 | 遗传算法、粒子群优化、蚁群优化、差分进化等 | |
应用任务 | 分类算法 | 支持向量机、决策树、K近邻、逻辑回归、朴素贝叶斯、神经网络等 |
回归算法 | 线性回归、岭回归、决策树回归、随机森林回归、神经网络回归 | |
聚类算法 | K均值聚类、基于密度的聚类、层次聚类等 | |
推荐算法 | 协同过滤、矩阵分解、深度推荐模型等 |
监督学习:通过带标签的数据进行训练,目标是学到输入到输出的映射关系。
无监督学习:数据没有标签,目标是发现数据中的结构、模式、分组等。
半监督学习:少量有标签数据 + 大量无标签数据共同进行训练,提高学习效率。
传统算法:基于统计学和传统数学模型,适合小到中型数据集。
深度学习:以多层神经网络为基础,通过大量数据和算力学习复杂模式,适用于图像、文本等复杂任务。
进化算法:模拟自然进化机制来进行优化和搜索。
分类算法:用于判断类别。
回归算法:用于预测连续值。
聚类算法:用于无监督分组。
推荐算法:个性化推荐系统。

用于解决回归问题,预测一个连续的数值结果。
通过找到一条“直线”(或在多维空间中的超平面),来最好地拟合输入数据与输出值之间的关系,从而根据输入的特征预测一个具体的数值。
常见应用场景

主要用于解决二分类问题(即把数据分成两类)。
逻辑回归通过一个特殊的函数(逻辑函数),将线性回归的输出映射到一个概率值(0到1之间),然后根据这个概率决定样本属于哪一类。
常见应用场景

模型结构类似一棵树,通过一系列“如果…那么…”的判断规则进行预测。
通过不断对数据特征进行提问/判断(比如:年龄 > 30?收入 > 5000?),将数据一步步划分,最终形成一棵树状结构。树的内部节点是判断条件,叶子节点是预测结果。
常见应用场景:

擅长处理小样本、高维度的数据分类任务。
SVM 的目标是找到一个最优的“分界线”(或超平面),把不同类别的数据分开,并且让这个分界线尽可能“合理”。
在特征空间中找到一个最优的超平面,使得不同类别的数据能够被尽可能正确地分开,同时让这个分界线到最近的数据点(称为支持向量)的距离最大化,从而提高分类的泛化能力。
常见应用场景

用于将数据分成K 个不同的组(簇/类),目标是让同一组内的数据尽量相似,不同组间的数据尽量不同。
事先指定要分成 K 个簇(K 是人为指定的),
算法先随机选 K 个点作为“中心点”(叫聚类中心或质心),
然后把每个数据点分配给离它最近的那个中心点,形成 K 个簇,
接着重新计算每个簇的中心位置(均值),
不断重复“分配数据→更新中心”这个过程,直到中心点基本不变或达到最大迭代次数。
常见应用场景
通过逐步合并或拆分数据点的方式,构建出一个树状结构(称为树状图),从而展现数据之间的层次关系。
凝聚式(自底向上):开始时每个数据点是一个单独的簇,然后不断合并最相似的两个簇,直到满足停止条件(比如只剩几个簇)。
分裂式(自顶向下):开始时所有数据都在一个簇里,然后逐步分裂成更小的簇,但这种方式较少使用。
最常用的是凝聚式层次聚类,它会生成一个树状图,你可以根据需要从树上切割出任意数量的簇,不需要提前指定簇的数量。
常见应用场景

一种常用的无监督降维技术,属于数据预处理和特征提取方法,常用于高维数据的简化与可视化。
PCA 的目标是通过线性变换,将原始的高维数据转换为一组新的、数量更少但信息量尽可能保留的变量(称为主成分),这些主成分彼此之间互不相关(正交),并且按照方差从大到小排序。
简单来说,PCA 就是找出数据中变化最大的方向,并沿着这些方向重新表示数据,从而达到降维的目的。
假设有一堆数据点分布在高维空间中,PCA 会试图找到一个新坐标系,使得:
我们通常只保留前几个方差最大的主成分,而忽略那些方差很小的成分(通常代表噪声或无关信息),从而实现降维。
常见应用场景
根据数据点分布密集程度自动划分簇并识别噪声的聚类方法。
通过“密度连通”、“核心点”、“边界点”和“噪声点”的概念,将处于高密度区域且相互密度可达的数据点聚集为一个簇,而低密度区域中的点被视为噪声,从而发现任意形状的簇结构。
常见应用场景
主要用于数据的压缩(编码)与重建(解码)。目标是将输入数据压缩成一个低维表示(编码),然后再从这个低维表示中尽可能准确地重建出原始输入数据(解码)。
通过让网络学习如何高效地压缩并重建输入数据,迫使它自动提取出数据中最重要、最有代表性的特征。
常见应用场景:
用于学习在各种状态(State)下采取不同动作(Action)的长期价值(即Q值),从而帮助智能体学会做出最优决策,以获得最多的累计奖励。
让智能体通过不断尝试,在每个状态中选择一个动作并观察结果,逐渐学会在什么状态下做什么动作能获得最好的长期回报。
Q学习就是让智能体通过“试错 + 记录 + 更新”的方式,学会在各种情况下做出最有利的选择。
常见应用场景

传统Q学习中的Q值表换成了一个深度神经网络,用来处理状态空间非常大或者状态是复杂数据(比如图像)时的强化学习问题。
用神经网络来近似表示 Q 值函数,从而替代传统的 Q 表,使智能体能够在状态空间巨大甚至连续的情况下,依然能够学习到每个状态下应该采取的最佳动作。
常见应用场景
用于训练智能体在环境中学习执行最优动作。目前最流行、最实用的强化学习算法之一,因其简单、稳定、效果好而被广泛应用。
PPO 属于“策略优化方法”,与传统的 Q 学习不同,它直接优化智能体的策略(即决定在每个状态下采取什么动作的规则),而不是先学习一个价值函数。
通过限制策略更新的幅度,保证每次更新不会太大,从而让训练过程更加稳定和可靠。
常见应用场景
一种能在连续动作空间中进行高效策略学习的深度强化学习算法。
通过“Actor-Critic结构”、“确定性策略”、“经验回放”和“目标网络”,将策略网络(Actor)用于直接输出确定性的连续动作,价值网络(Critic)评估该动作的价值,从而实现稳定高效的策略优化。
常见应用场景

随机森林就像是一个由很多棵决策树组成的“森林”,每棵树独立做出判断,最后通过投票(分类)或平均(回归)得出最终结果。
通过构建多棵决策树,并引入随机性(包括数据随机和特征随机),让每棵树都略有不同,再通过集体决策减少过拟合,提高泛化能力。
常见应用场景
KNN 是通过查找某个样本的最相似的 K 个邻居,然后根据这些邻居的信息来进行预测。
通过计算新样本与已有数据之间的距离,找出距离最近的 K 个邻居,再根据这些邻居的类别或数值进行投票或平均,从而预测新样本的结果。
常见应用场景
通过计算不同类别的概率,来判断新样本属于哪个类别。
假设所有特征之间相互独立,在已知类别的情况下,通过计算各个特征出现的概率,来推测样本最可能属于哪个类别。
常见应用场景

神经网络就是通过模仿生物神经系统,构建出能从数据中学习的数学模型。
通过多层神经元构成的网络结构,利用“权重”和“激活函数”对输入数据进行层层处理,通过“训练”不断调整参数,使得网络输出逐渐逼近期望结果,从而实现对数据的自动特征提取与模式识别。
常见应用场景
RNN 是一种“有记忆的神经网络”,会记住之前处理过的内容,从而在处理当前数据时考虑上下文信息。
通过循环结构让网络在处理序列时保留历史信息,使当前输出不仅依赖于当前输入,还依赖于之前的状态,从而捕捉序列中的时间依赖关系。
常见应用场景
一种擅长自动提取空间特征、特别适合图像等网格数据处理的深度学习模型。
通过“局部感知”、“权值共享”、“卷积操作”和“层次化特征提取”,用卷积核滑动提取局部区域特征,共享参数减少计算量,并逐层组合形成高级语义表示,从而高效识别数据中的模式与结构。
常见应用场景
BERT是一种双向理解的预训练语言模型,擅长理解句子中词语的上下文含义。
通过“双向编码器”和“Transformer架构”,在预训练阶段使用“掩码语言模型(MLM)”和“下一句预测(NSP)”两个任务,让模型同时理解词语的左右上下文以及句子之间的关系,从而学习到深层次的语言表示。
常见应用场景
GPT是一种以生成方式工作的预训练语言模型,擅长根据已有文本生成连贯的后续内容。
通过“自回归生成”和“Transformer解码器”结构,在预训练阶段使用“掩码语言建模(预测下一个词)”任务,让模型学会根据上文预测下文,从而掌握语言的语法、逻辑与语义,实现强大的文本生成能力。
常见应用场景

遗传算法是一种通过“进化”方式寻找最优解的智能优化算法。
通过“种群”、“选择”、“交叉”和“变异”等操作,模拟生物进化过程,在每一代中保留较优个体,逐步逼近问题的最优解,实现全局或局部最优搜索。
常见应用场景
通过模拟群体协作寻找最优解的智能优化算法。
通过“粒子”、“个体最优”、“全局最优”和“速度更新”机制,使每个粒子在搜索空间中根据自身历史最佳位置和群体历史最佳位置动态调整飞行方向与速度,从而协同寻优。
常见应用场景
通过模拟蚂蚁群体信息素交流寻找最优路径的智能算法。
通过“蚂蚁”、“信息素”、“路径选择”和“正反馈”机制,使每只蚂蚁根据当前信息素浓度和启发式信息选择路径,路径上信息素浓度随蚂蚁经过次数和路径质量动态更新,从而引导群体逐步收敛到优质解。
常见应用场景
利用个体间差异引导搜索方向的高效优化算法。
通过“种群”、“变异”、“交叉”和“选择”操作,利用当前种群中个体间的差分向量生成新个体,并与原个体进行竞争,保留更优个体,从而在搜索空间中逐步逼近最优解。
常见应用场景

带正则化约束的线性回归方法,用于防止过拟合和应对共线性。
通过在损失函数中加入“L2正则化”(即回归系数平方和的惩罚项),约束系数大小,防止过拟合,提高模型稳定性,尤其在自变量间相关性较强时仍能获得可靠解。
常见应用场景
利用用户历史行为数据进行个性化推荐的算法。
通过“用户行为”、“相似性”和“群体偏好”,找出与目标用户兴趣相似的其他用户(用户协同)或与目标物品相似的其他物品(物品协同),进而基于这些相似对象的行为进行推荐。
常见应用场景

通过拆解矩阵为低维因子来发现隐藏模式并用于预测的技术。
通过“矩阵拆解”、“低维表示”和“潜在特征”,将原始高维稀疏矩阵分解为两个或多个低维矩阵的乘积,从而提取出用户和物品的隐藏特征,用于预测未知数据或填补缺失值。
常见应用场景

利用深度神经网络进行特征学习和用户兴趣预测的先进推荐技术。
通过“深度神经网络”、“自动特征学习”、“端到端训练”和“高阶特征交互”,从原始数据中挖掘深层次的用户与物品表征,捕捉复杂的用户行为模式,从而提升推荐的准确性与个性化程度。
常见应用场景
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。