机器学习基础入门系列（一）--什么是机器学习？

禁默

发布于 2025-12-21 10:04:05

6830

引言

如果你曾经在淘宝上收到“猜你喜欢”的商品推荐，或者在微信里看到智能识别图片内容的功能，你可能已经在不知不觉中与机器学习打过交道。机器学习（Machine Learning，简称 ML）作为人工智能的重要分支，正悄然改变着我们的生活方式和社会结构。但对于初学者来说，“机器学习”往往是一个既熟悉又陌生的词。它究竟是什么？和人工智能、深度学习有什么关系？它是如何运作的？本文将为你揭开机器学习的神秘面纱。

一、机器学习的定义

1. 通俗理解

机器学习就是让计算机能够“从数据中学习”，并利用所学知识做出预测或决策，而不需要人类写死所有的规则。

👉 举个例子：

如果让程序识别一张图片是不是猫，传统方法可能需要工程师写规则：有胡须、耳朵尖尖、四条腿……
而机器学习方法则是：给计算机大量“猫”和“不是猫”的图片，让它自己去学习规律。

2. 学术定义

机器学习之父 Tom Mitchell 在 1997 年给出过经典定义：

如果一个程序在任务 T 上，随着经验 E 的积累，其在性能度量 P 上的表现不断提升，那么我们称这个程序具有从经验中学习的能力。

简单拆解：

任务 T：模型要做的事情（比如预测房价、识别图片）。
经验 E：数据（比如历史房价数据、标注的猫狗图片）。
性能度量 P：衡量好坏的指标（比如预测误差率）。

二、机器学习 vs 人工智能 vs 深度学习

很多初学者会把这三个概念混淆。它们的关系可以用一个“套娃图”表示：

人工智能（AI）：目标是让机器具备“智能”，范围最广，包括规则系统、专家系统、机器学习等。
机器学习（ML）：AI 的一个实现方式，强调“从数据中学习”。
深度学习（DL）：机器学习的一个分支，基于人工神经网络，特别擅长处理图像、语音、文本等复杂数据。

👉 关系可以概括为：人工智能 ⊇ 机器学习 ⊇ 深度学习

三、为什么需要机器学习？

传统的编程方式是 “人写规则 → 计算机执行”。但在许多复杂任务中，规则根本写不出来：

想写一个“识别猫的程序”，你能写清楚猫的耳朵、眼睛、毛发的所有规则吗？
想做一个垃圾邮件分类器，你能写出上百条规则应对所有可能的垃圾邮件吗？

机器学习的优势在于：

能够自动发现数据规律。
能够随着数据增加而不断自我优化。
能够解决复杂问题，而无需人类写死规则。

四、机器学习的基本流程

一个完整的机器学习项目，通常包括以下五个步骤：

数据收集 获取与任务相关的数据（图片、文本、表格等）。
数据预处理与特征工程 清洗数据、处理缺失值、编码特征，使其适合模型使用。
选择并训练模型 比如线性回归、决策树、神经网络等。
模型评估与优化 使用验证集或测试集检验模型表现，调优参数。
模型部署与应用 将模型应用到真实场景，如推荐系统、预测服务。

👉 这五个步骤构成了一个“机器学习流水线”，也是我们学习过程中反复要练习的核心框架。

五、机器学习在现实中的应用案例

机器学习已经广泛应用于各行各业：

推荐系统：
- 淘宝、京东的商品推荐
- 抖音、YouTube 的视频推荐
自然语言处理（NLP）：
- 智能客服、翻译软件
- 情感分析（判断评论是正面还是负面）
计算机视觉：
- 人脸识别、医疗影像诊断
- 自动驾驶中的物体检测
金融科技：
- 信用评分、反欺诈检测
- 股票预测与量化交易
智能制造：
- 质量检测
- 设备故障预测

六、一个最简单的机器学习示例

我们用 Python 的 scikit-learn 写一个“预测房价”的小例子，展示机器学习的基本流程：

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# 1. 加载数据集
data = load_boston()
X, y = data.data, data.target

# 2. 划分数据集（训练集:测试集 = 8:2）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. 选择并训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 4. 预测
y_pred = model.predict(X_test)

print("预测结果示例:", y_pred[:5])

👉 在这个例子里：

任务 T：预测房价
经验 E：历史房价数据
性能度量 P：模型的预测误差

这就是机器学习最基本的应用。

七、总结

机器学习的核心思想是：让机器从数据中学习规律，而不是人工写规则。 它是人工智能的重要分支，与深度学习有着层次关系。通过“数据收集 → 特征工程 → 模型训练 → 模型评估 → 模型应用”的流程，机器学习已经在推荐系统、金融、医疗、交通等领域产生了深远影响。作为入门的第一步，理解“什么是机器学习”能帮助你建立清晰的概念框架。在接下来的系列文章中，我们会继续深入，逐步介绍机器学习的分类方法、数据与特征处理、模型训练和评估。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2025-09-30，如有侵权请联系 cloudcommunity@tencent.com 删除

模型