开源圈子里这两天发生了这么几件事,希里安也给大家报道一下
Google 对 Android 的维护分为两条路径:公开的 AOSP 分支面向全球开发者开放,包含纯净的开源代码,不涉及任何 Google 专有服务。任何厂商或个人均可基于此分支开发系统。而内部闭源分支仅供签署了 GMS(Google Mobile Services) 协议的厂商使用。Android 目前运行于 Linux 内核上,后者是 GPL 许可证开源的。GPL 是一个强传染性的许可证,要求所有衍生工作都必须按照 GPL 许可证同样开源,从而贯彻无限开源、扩大社区的精神。
上次文章讲了一些AI的基础概念,再来回忆一下:
AI的本质:通过数据、算法和计算,模拟人类智能
基础原理:数据驱动 + 模型优化 + 计算支持
语言模型原理:Transformer为核心,预训练+微调为流程,注意力机制为关键
这次我们就来介绍下AI学习相关的概念,主要是机器学习、深度学习、强化学习,当我们具备了这些基础的概念和知识,后期就可以利用AI工具更好的创造自己的东西了。
AI学习的本质是通过数学模型(比如神经网络)和大量数据,不断优化自身的预测或决策能力,广泛应用于语音识别、图像处理、自动驾驶等领域。
目的就是通过算法和数据让机器具备类似人类的学习能力。它不是简单地执行程序员写好的固定指令,而是让机器自己从经验中“学到”规律,进而解决复杂问题。AI学习的终极目标是让机器能够像人一样感知、推理甚至创造。
为什么要了解以上这些,你有没有想过以下场景:
这些神奇的事件背后,都离不开:机器学习、深度学习和强化学习。它们是人工智能AI的核心,今天我们就来聊聊这些是啥、怎么用、有啥区别,顺便看看还有哪些“隐藏知识”值得关注
虽然咱不是专业的算法工程师,但是了解基础知识,总比什么也不知道的好些,是不是这么个理?
机器学习(英语:machine learning)是人工智能的一个分支。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法(要防止错误累积)。很多推论问题属于非程序化決策,所以部分的机器学习研究是开发容易处理的近似算法。 --维基百科
机器学习通常分为几个主要类型:
监督学习:AI通过大量标记好的数据(比如输入和对应的正确输出)进行训练。有标注数据(labelled data),训练目标是学习输入到输出的映射关系。例如,给AI看猫和狗的图片并告诉它哪些是猫哪些是狗,让它学会识别。
监督学习就像一个有老师指导的学生。AI会拿到一堆“带答案”的数据(称为训练集),通过学习输入和输出之间的关系,预测新数据的输出。
常见的算法:
应用场景:
无监督学习:AI在没有明确标签的情况下,从数据中找出模式或结构。比如,把一堆杂乱的数据分组,自动发现相似性。
无监督学习是没有“老师”的自学。AI只拿到一堆数据,没有标签,任务是自己发现数据的内在结构或模式。
常见算法:
应用场景:
半监督学习:介于监督和无监督学习之间,使用少量标注数据+大量未标注数据来训练模型。
强化学习:AI通过试错和奖励机制学习,就像训练宠物一样——做得好有奖励,做不好就调整。比如,AI玩游戏时不断尝试,找到得分最高的策略。
强化学习像训练宠物,AI通过试错和奖励机制学习最佳策略。没有明确告诉它“正确答案”,而是让它在环境中探索。
详细内容会在文章后面一节中讲解
深度学习(英语:deep learning)是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。深度学习中的形容词“深度”是指在网络中使用多层。 --维基百科
深度学习是机器学习的一个子集,使用深度神经网络(Deep Neural Networks, DNN) 模拟人脑神经元的工作方式,从大量数据中提取特征并进行推理。
这里用表格来看下
特性 | 机器学习 | 深度学习 |
|---|---|---|
特征 | 需要手工提取特征(如 SVM, 决策树) | 自动提取特征(如 CNN, RNN) |
数据需求 | 可用于小规模数据 | 需要大量数据 |
计算资源 | 适用于低算力设备 | 需要 GPU/TPU |
表现 | 适用于规则明确的任务 | 在图像、语音、自然语言处理等领域表现卓越 |
人工神经网络(Artificial Neural Network, ANN)
想象你有个机器人小弟,想教它干活。ANN就是它的“小脑瓜”,模仿人脑神经元,能学会简单任务。你给它输入信息(比如“房子多大”),它通过层层思考,最后输出答案(比如“值多少钱”)。它是最基础的神经网络,像个“万能小助手”
卷积神经网络(Convolutional Neural Network, CNN)
特别擅长看图片。想象一个会自动发现图片中重要特征(边缘、形状、纹理)的系统。
识别照片中是猫还是狗。先看毛发纹理,再看耳朵形状,最后综合判断
适用领域: 计算机视觉(CV) 关键模块:
循环神经网络(Recurrent Neural Network, RNN) 适用领域:自然语言处理(NLP)
有"记忆力"的网络,能处理有前后关系的数据
预测句子的下一个词,需要记住前面说了什么,有个朋友特别会聊天,你说“我今天很…”,他马上接“累吧?”因为他记住了你前面说了啥
关键模块:
生成对抗网络(Generative Adversarial Networks, GAN) 有两个阵营:一个造假,一个查假,最后假的东西能以假乱真
生成逼真的数据(如 AI 画作、人脸合成)
刷抖音看到的AI换脸视频,就是GAN实现的
结构:
强化学习是一种让智能体通过与环境交互学习的范式,目标是找到一个策略(Policy),使智能体在长期内获得最大化的累积奖励。它的灵感来源于行为心理学中的“试错学习”(Trial-and-Error Learning)和“奖励机制”。
强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为,这个方法具有普适性 --维基百科
环境(Environment):智能体学习的世界(如棋盘、游戏、现实世界)。 智能体(Agent):学习者,学习和做决策的实体(如机器人、自动驾驶系统) 状态(State, s):描述当前环境的信息(如围棋棋局) 动作(Action, a):智能体可执行的操作(如走棋) 奖励(Reward, r):动作的即时反馈(如胜利+1分) 策略(Policy, π):智能体选择动作的规则 价值函数(Value Function, V):衡量状态的长期收益
强化学习的算法就像教一个“新手”学会玩游戏的不同方法。每个算法都有自己的套路,有的简单直接,有的复杂聪明。这里用王者荣耀的例子(比如训练“鲁班七号”学会打得好)来理解以下算法
Q-Learning Q学习就像给鲁班七号一个“记分表”,记录每种情况下每种动作能拿多少分。鲁班试着玩游戏,边玩边更新这个表,最后学会挑得分最高的动作
DQN是Q学习的“升级版”,不用记分表了,改用一个“超级大脑”(神经网络)来猜每个动作的得分。鲁班不用记每个情况,而是靠大脑预测“现在干啥最好”
策略优化方法
Actor-Critic(演员-评论家) Actor-Critic是个“双人组合”算法:
典型应用
以上就是这三种学习的基础概念,大概有所了解了,具体有哪些区别呢,总结一下
关联:
适用场景:
计算资源:
对比项 | 机器学习(ML) | 深度学习(DL) | 强化学习(RL) |
|---|---|---|---|
核心 | 数据驱动的模型学习 | 神经网络建模复杂数据 | 通过奖励信号学习策略 |
是否使用神经网络 | 可选 | 必须 | 可选(DQN, PPO) |
数据需求 | 适中 | 大量 | 依赖环境交互 |
应用领域 | 预测、分类 | 计算机视觉、NLP | 机器人、游戏、控制系统 |
学完以上内容,以下这张图片是ChatGPT直接生成绘制的区别图,大家看看对不对呢?欢迎大家交流

人工智能(AI)的学习范式不断发展,除了经典的机器学习(ML)、深度学习(DL) 和 强化学习(RL) 之外,还有许多新的学习方法,如 自监督学习(SSL)、元学习(Meta-Learning)、联邦学习(FL) 等。这些东西一篇文章无法讲完,后面希里安也会把基础概念慢慢分享给大家,咱们做不了专业算法工程师,但可以了解相关基础的知识,这样可以结合自己的行业经验,能够利用AI更好的体现自己的价值发挥更好的作用。