Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ChatGPT 使用到的机器学习技术

ChatGPT 使用到的机器学习技术

作者头像
ThoughtWorks
发布于 2023-11-22 08:59:49
发布于 2023-11-22 08:59:49
3150
举报
文章被收录于专栏:ThoughtWorksThoughtWorks

机器学习技术的发展

要聊ChatGPT用到的机器学习技术,我们不得不回顾一下机器学习技术的发展。因为,ChatGPT用到的技术不是完全从零的发明,它也是站在巨人的肩膀上发展起来的。

机器学习技术的分类

实际上机器学习技术可以追溯到上个世纪三四十年代,一开始就与统计学分不开。早在1936年,著名的统计学家Fisher发明了线性判别分析方法(LDA)。LDA利用方差分析的思想,试图将高维数据分开。这后来演化为一类基础的机器学习技术要解决的问题,即分类问题。

在计算机出现之后,大量的基于计算机的机器学习算法出现,比如决策树、SVM、随机森林、朴素贝叶斯、逻辑回归等。它们也都可以用于解决分类问题。

分类问题是指我们事先知道要分为哪几类,这些类通常是人为定义的。比如人分为男性和女性,编程语言分为C/C++/Java等。

还有一类问题是我们无法预先知道要分为几类的,比如给定一系列的新闻,按照主题进行分组,而我们可能无法事先人为确定有几个主题。此时可以利用机器学习算法自动去发现新闻中有几个类,然后再把不同的新闻放到不同的分类。这种问题是聚类问题。

有时,这个分类可能是连续的,比如,我们要用一个机器学习模型去预测某个人的身高,此时可以认为结果是在某一个范围内连续变化的值。这类问题,我们把它叫做回归问题。与分类的问题的区别仅仅在于我们希望输出一个连续的值。

除此之外,一些典型的机器学习问题还包括:降维、强化学习(通过智能体与环境的交互来学习最佳行动策略)等。

除了根据问题不同进行分类,还可以从机器学习技术使用数据的方式进行分类。从这个角度可以将机器学习技术分为有监督学习、无监督学习、半监督学习等。有监督学习要求我们为模型准备好标签值。无监督学习则无需我们准备标签值,只需数据即可开始训练。半监督学习是指需要一部分有标签值的数据。

从解决的问题上来看,ChatGPT可以认为是一个分类模型,它根据输入的文本预测下一个要输出的词是什么,而词的范围是确定的,即模型的输出是一个确定的分类。

从ChatGPT使用数据的方式来看,可以认为是使用了大量的无监督数据,加上少量的有监督的数据。所以,可以认为ChatGPT是一个半监督的机器学习技术。

传统的机器学习算法与基于人工神经网络的机器学习算法

上面提到的决策树、SVM、随机森林、朴素贝叶斯、逻辑回归等算法,多是基于可验证的可理解的统计学知识设计的算法。它们的局限性主要在于效果比较有限,即便使用海量数据也无法继续提升,这要归因于这些模型都是相对简单的模型。由于这些算法都是很早就被开发出来了,并且一直很稳定,没有什么更新,我们一般称这些算法为传统的机器学习算法。

另一类机器学习算法是基于人工神经网络的机器学习算法。这一类算法试图模拟人类的神经网络结构。其起源也很早,要追溯到1943年,W. S. McCulloch和W. Pitts提出的M-P模型。该模型根据生物神经元的结构和工作机理构造了一个简化的数学模型,如下图。

其中,xi代表神经元的第i个输入,权值wi为输入xi对神经元不同突触强度的表征,θ代表神经元的兴奋阀值,y表示神经元的输出,其值的正和负,分别代表神经元的兴奋和抑制。

该模型的数学公式可以表示为:𝑦=∑𝑤𝑖*𝑥𝑖−𝜃 ,如果所有输入之和大于阀值θ则y值为正,神经元激活,否则神经元抑制。该模型作为人工神经网络研究的最简模型,一直沿用至今。

虽然这个模型看起来很简单,但是由于其可扩展可堆叠的特性,实际上可以用于构造一个非常复杂的网络。至于如何扩展和堆叠,其实就是人工神经网络数十年的发展要解决的问题。

这个模型如何优化呢?这里的优化其实就是修改wi的值,依靠一种名为反向传播的优化方式可以优化它。其计算过程,相当于对wi求偏导数,然后和学习率相乘再加回到原来的wi值上。

人工神经网络模型的算法思想非常简单,其效果只有在网络规模达到一定程度之后才会体现出来。但是一旦网络形成规模之后,对算力和数据的要求就非常高了。这也是为什么在21世纪之前这样的算法无法获得发展的原因。

从2000年开始,互联网进入了爆发式发展的阶段,大量的数据被累积起来,并且计算机算力也经历了数十个摩尔周期得到了长足的发展。于是基于人工神经网络的机器学习算法得到爆发式的发展。

各个研究领域都纷纷开始尝试利用人工神经网络来提升机器学习模型效果。

卷积神经网络(一种基于M-P模型的变种结构)在计算机视觉领域表现突出,逐渐演变为计算机视觉领域的基础结构。循环神经网络和长短期记忆网络(另一种基于M-P模型的变种结构)在自然语言处理领域表现突出,逐渐演变为自然语言处理领域的基础结构。

这两类网络结构曾经风靡一时,即便到现在也有很多问题是基于这两类结构的网络算法去解决的。它们在很大程度上促进了人工神经网络的机器学习算法的发展。

但是,研究人员从未停止对于网络结构的探索。在2017年的时候,Google的研究团队提出了一个名为Transformer的网络结构,强调了注意力机制在网络结构中的表示和应用。Transformer模型结构简单而一致,却表现出了非常好的效果。

ChatGPT的故事可以认为从这里开始了。在Transformer模型结构发布之后,后续有大量的研究基于Transformer开展起来,都取得了很好的效果,这里面就包括各类GPT模型。

最初的Transformer模型主要是应用在自然语言处理领域。近两年的研究发现,这一结构也可以被用到计算机视觉认为上,当前流行的Vision Transformer模型就是它在计算机视觉领域的应用成果。从这个趋势来看,Transformer有着要统一所有模型结构的势头。

ChatGPT技术概览

有了前面的了解,终于轮到ChatGPT出场了。

ChatGPT用到了哪些技术呢?可以简要列举如下:

  • 基础模型结构:基于注意力机制的Transformer模型
  • 超大规模的模型堆叠:GPT3堆叠了96层网络,参数数量高达1750亿
  • 超大的训练数据:采用了45TB的原始数据进行训练
  • 超大的计算资源:基于微软专门设计的包含数千块GPU的超级计算机完成训练
  • 大规模并行训练:将模型分布到多个实例,多块GPU上并行计算完成训练
  • 基于人类反馈数据进行调优:采用了大量的基于人类反馈的数据进行优化,使得对话更加自然、流畅而具有逻辑性

由于OpenAI并未公布太多的ChatGPT的训练细节,所以,上述有一些模糊的估计数据。

值得注意的是,ChatGPT用到的核心技术其实并非原创,其核心模型结构Transformer来自于Google的研究成果。

总结

自ChatGPT发布以来,很多人认为这是一个人类走向通用人工智能的突破,也有一些人认为它其实没什么本质的改进。有很多人对自己的职业发展产生了很深的焦虑感,也有很多人感觉触碰到了科幻世界中的未来,还有很多人觉得又是一个可以好好捞一把的机会。

也许每个人都有必要去了解一下机器学习技术的原理,这样才能形成对它的理性的认知。

参考

  • wikipedia词条罗纳德·艾尔默·费希尔在 Wikipedia 的词条。
  • 人工智能与神经网络发展研究。
  • OpenAI开发的ChatGPT资料(Training language models to follow instructions with human feedback)
  • OpenAI开放的GPT-3资料(Language Models are Few-Shot Learners)
  • OpenAI开放的GPT-2资料(Language Models are Unsupervised Multitask Learners)
  • OpenAI开放的GPT资料(Improving Language Understanding by Generative Pre-Training)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ThoughtWorks洞见 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从0到1带你了解ChatGPT原理
2022年底,ChatGPT(Generative Pre-trained Transformer)横空出世,迅速火遍大江南北,与过往传统的聊天机器人不同,ChatGPT拥有更为出色的自然语言理解与生成能力,能够为用户提供更为高效、准确、愉悦的交互体验,刷新了人们对于人工智能(Artificial Intelligence,简称AI)的认识,引起了全社会广泛的讨论。那么,ChatGPT为何能做到如此智能呢?本文将以最通俗、最浅显的的语言从0到1带你了解ChatGPT背后的工作原理。
MIchaelWang
2023/11/16
2.6K3
从0到1带你了解ChatGPT原理
机器学习算法入门
问题导读 1.什么是程序? 2.什么是算法? 3.什么是机器学习算法? 4.机器学习的主要任务是什么? 5.机器学习+数据库=? 6.什么是自然语言处理? 什么是程序(Program) 计算机程序,是指为了得到某种结果而可以由计算机(等具有信息处理能力的装置)执行的代码化指令序列(或者可以被自动转换成代码化指令序列的符号化指令序列或者符号化语句序列)。 通俗讲,计算机给人干活,但它不是人,甚至不如狗懂人的需要(《小羊肖恩》里的狗是多么聪明可爱又忠诚于主人)。那怎么让它干活呢,那就需要程序员用某种编程
用户1410343
2018/03/27
7310
机器学习算法入门
选机器学习,还是深度学习?看完不纠结
大哥你好,我是来学「人工智能」的。但是,啥是「深度学习」?啥是「机器学习」?「深度学习」和「机器学习」有啥关系?我究竟该学「深度学习」还是「机器学习」?
商业新知
2019/03/28
1.6K0
选机器学习,还是深度学习?看完不纠结
无基础人员转行做机器学习可以吗?
无基础人员转行做机器学习可以吗?机器学习需要一定数学基础,没有相关的了解需要重新学习。转行机器学习不适用所有人,可不可以转行需要具体结合自身的情况。入门机器学习有一定的门槛要慎重决定。
张哥编程
2024/12/19
1560
深入理解生成式AI技术原理:初识生成式AI
如果将人工智能按照用途进行简单分类的话,人工智能可以划分为决策式AI以及生成式AI两类。所谓决策式AI就是通过学习训练数据的中的条件概率分布情况来进行判断决策,判断样本属于指定目标的概率,比如人脸识别就是典型的决策式AI,终端设备根据摄像头获取到的人脸图像来进行特征信息匹配,和后台系统中的人脸特征库进行对比来判断当前人脸信息是否在系统人脸特征库中或者是否有权限执行操作。而以ChatGPT为代表的生成式AI通过对大量数据的联合概率进行学习,对已有的数据和知识进行归纳总结,同时结合深度学习技术,自动生成新的内容,而新生成的内容可以是文字、图片甚至是视频等多模态内容。本文主要简要介绍深度学习以及大模型基础内容,后续文章中将会继续深入分析这两方面的技术原理。
慕枫技术笔记
2023/08/10
1.7K0
深入理解生成式AI技术原理:初识生成式AI
「AI学习笔记」机器学习与深度学习的区别:从技术到产品的深度解析(四)
随着人工智能(AI)的快速发展,机器学习(ML)和深度学习(DL)已经成为我们日常生活中不可忽视的技术力量。无论是推荐系统、语音助手,还是自动驾驶汽车,它们背后都离不开ML和DL的应用。作为AI产品经理(PM),了解这两者的区别,以及它们如何影响产品的设计与开发,显得尤为重要。在这篇文章中,我们将深入剖析
前端达人
2025/02/18
2410
「AI学习笔记」机器学习与深度学习的区别:从技术到产品的深度解析(四)
人工智能凭借什么过关斩将?| 机器学习算法大解析
本篇是人工智能专辑文章的第二篇,为大家归类总结人工智能的三类工作方式、九大算法及五大应用系统。
AI 电堂
2020/09/18
5920
人工智能的发展历程和当前状态,全面认识大语言模型的发展之路
截至 2023 年 11 月,人类创造的人工智能工具已经取得了长足的进步,在自然语言处理、机器翻译、问答系统等领域取得了显著成果。当前走到了大语言模型阶段。
LIYI
2023/12/04
3.1K0
人工智能的发展历程和当前状态,全面认识大语言模型的发展之路
AI中的核心概念解读:深度学习、机器学习、神经网络与自然语言处理
人工智能(AI)是一个涵盖广泛领域的技术词汇,近年来受到了越来越多的关注和应用。然而,对于刚接触AI的初学者或非专业人士来说,理解其中的核心概念,特别是深度学习、机器学习、神经网络与自然语言处理之间的区别,可能显得有些复杂。本文将帮助读者梳理这些重要概念,厘清它们之间的关系和区别。
用户11293412
2024/10/09
9700
机器学习中需要知道的一些重要主题
机器学习现在是一个热门话题,每个人都在尝试获取有关该主题的任何信息。有了关于机器学习的大量信息,人们可能会不知所措。在这篇文章中,我列出了你需要了解的一些机器学习中最重要的主题,以及一些可以帮助你进一步阅读你感兴趣的主题的资源。
磐创AI
2019/09/27
8010
机器学习中需要知道的一些重要主题
机器学习概述
请注意,本文编写于 982 天前,最后修改于 982 天前,其中某些信息可能已经过时。
曼亚灿
2023/05/17
3390
机器学习概述
Machine-Learning 机器学习
机器学习是人工智能的一个重要分支,旨在通过算法使计算机能够从数据中自动学习并做出预测。它结合了统计学、概率论、近似理论和复杂算法等多学科知识,利用计算机作为工具来模拟人类的学习方式。
用户11315985
2024/10/16
1890
Machine-Learning 机器学习
【机器学习】AI大模型的探索—分析ChatGPT及其工作原理
1.1 GPT(Generative Pre-trained Transformer)模型简介
哈__
2024/06/01
3140
【天幕系列 03】深度学习领域的最新前沿:2024年的关键突破与趋势
深度学习的基本原理和算法主要涉及神经网络和反向传播算法。以下是深度学习的基本原理和算法:
夏之以寒
2024/03/04
3.5K0
AI的背景知识及机器学习
约6千字,主要内容为机器学习的几大分类及其基本内涵,后续我会补充关于AI的应用场景、相关技术领域(如计算机视觉、自然语言处理等)的总结。由于目前正在学习,比较严谨的部分我都用摘抄的形式并注明了来源。
竹清
2018/08/31
2.1K0
AI的背景知识及机器学习
3 千字浅谈:AI 之巅,ChatGPT 之背后
AI 发展经历多个里程碑,最早可以追溯到 1950 年代,早期人们开始探索 AI 即人工智能的概念,后来就开发了一些早期的处理语言,比如 ELIZA;
掘金安东尼
2023/04/22
5470
3 千字浅谈:AI 之巅,ChatGPT 之背后
人工智能、机器学习、深度学习:技术革命的深度解析
在当今数字化时代,人工智能(AI)、机器学习(ML)和深度学习(DL)已经成为推动技术进步和创新的关键力量。这些技术不仅改变了我们与机器的互动方式,还在医疗、金融、交通、教育等多个领域产生了深远影响。本文将深入探讨这三个技术领域,从它们的定义、历史、关键概念、应用案例到未来的发展趋势。
正在走向自律
2024/12/18
1.1K0
人工智能、机器学习、深度学习:技术革命的深度解析
你真的知道什么是机器学习吗?
随着人工智能(AI)技术对各行各业有越来越深入的影响,我们也更多地在新闻或报告中听到“机器学习”、“深度学习”、“增强学习”、“神经网络”等词汇,对于非专业人士来说略为玄幻。这篇文章为读者梳理了包括这些在内的12个关键词,希望帮助读者更清晰地理解,这项人工智能技术的内涵和潜能。 1、 机器学习 汤姆·米歇尔教授任职于卡内基梅陇大学计算机学院-机器学习系,根据他在《机器学习》一书中的定义,机器学习是“研究如何打造可以根据经验自动改善的计算机程序”。机器学习在本质上来说是跨学科的,使用了计算机科学、统计学和人工
企鹅号小编
2018/01/24
1K0
你真的知道什么是机器学习吗?
人工神经网络是什么
深度学习(Deep Learning)这一概念是由 Geoffrey Hinton(深度学习之父)于 2006 年提出,但它的起源时间要早得多,可追溯至 20 世纪四五十年代,也就是人类刚刚发明出电子计算机时就已经提出来了,但当时并非叫做深度学习,而是人工神经网络(artificial neural network, ANN),简称神经网络(NN),它是一种算法模型,其算法的构思灵感来源于生物神经网络。
zhangjiqun
2024/12/14
1630
人工神经网络是什么
抖音推荐、人脸解锁、游戏AI咋来的?聊聊机器学习三兄弟
这次我们就来介绍下AI学习相关的概念,主要是机器学习、深度学习、强化学习,当我们具备了这些基础的概念和知识,后期就可以利用AI工具更好的创造自己的东西了。
希里安
2025/03/31
1950
抖音推荐、人脸解锁、游戏AI咋来的?聊聊机器学习三兄弟
推荐阅读
相关推荐
从0到1带你了解ChatGPT原理
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档