Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >总结!中国人工智能大模型技术白皮书!

总结!中国人工智能大模型技术白皮书!

作者头像
算法进阶
发布于 2024-05-02 10:58:20
发布于 2024-05-02 10:58:20
1.5K00
代码可运行
举报
文章被收录于专栏:算法进阶算法进阶
运行总次数:0
代码可运行

近期,中国人工智能协会发布了一份名为《中国人工智能大模型技术白皮书》的报告,该报告全面梳理了大模型技术的演进历程,深入探讨了关键技术要素,并详细剖析了当前面临的挑战以及未来展望。

为了让大家更好地了解这份报告的核心内容,本文我为大家简要总结了一下,并文末附上原文以供深入阅读。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
目录
第 1 章 大模型技术概述 ...................................5
1.1 大模型技术的发展历程 ......................5
1.2 大模型技术的生态发展 ......................9
1.3 大模型技术的风险与挑战 ................112 章 语言大模型技术 .................................13
2.1 Transformer 架构.................................13
2.2 语言大模型架构 ................................17
2.2.1 掩码语言建模 .............................17
2.2.2 自回归语言建模 .........................18
2.2.3 序列到序列建模 .........................18
2.3 语言大模型关键技术 ........................19
2.3.1 语言大模型的预训练 .................19
2.3.2 语言大模型的适配微调 .............21
2.3.3 语言大模型的提示学习 .............24
2.3.4 语言大模型的知识增强 .............26
2.4.5 语言大模型的工具学习 .............273 章 多模态大模型技术 .............................29
3.1 多模态大模型的技术体系 ................29
3.1.1 面向理解任务的多模态大模型 .29
3.1.2 面向生成任务的多模态大模型 .31
3.1.3 兼顾理解和生成任务的多模态大模型............................33
3.1.4 知识增强的多模态大模型 .........35
3.2 多模态大模型的关键技术 ................36
3.2.1 多模态大模型的网络结构设计 .363
3.2.2 多模态大模型的自监督学习优化 ....................................37
3.2.3 多模态大模型的下游任务微调适配 ................................394 章 大模型技术生态 .................................41
4.1 典型大模型平台 ................................41
4.2 典型开源大模型 ................................44
4.2.1 典型开源语言大模型 .................44
4.2.2 典型开源多模态大模型 .............53
4.3 典型开源框架与工具 ........................57
4.4 大模型的训练数据 .............................60
4.4.1 大模型的训练数据处理流程和特点 ................................60
4.4.2 大模型常用的公开数据集 .........635 章 大模型的开发训练与推理部署 .........66
5.1 大模型开发与训练 ............................66
5.2 大模型推理部署 ................................68
5.2.1 大模型压缩 .................................69
5.2.2 大模型推理与服务部署 .............70
5.3 软硬件适配与协同优化 ....................71
5.3.1 大模型的软硬件适配 .................72
5.3.2 大模型的软硬件协同优化 .........726 章 大模型应用 ..74
6.1 信息检索 .....74
6.2 新闻媒体 .....75
6.3 智慧城市 .....76
6.4 生物科技 .....76
6.5 智慧办公 .....77
6.6 影视制作 .....78
6.7 智能教育 .....784
6.8 智慧金融 .....79
6.9 智慧医疗 .....79
6.10 智慧工厂 ...79
6.11 生活服务....80
6.12 智能机器人 ......................................80
6.13 其他应用 ...807 章 大模型的安全性 .................................82
7.1 大模型安全风险引发全球广泛关注 82
7.2 大模型安全治理的政策法规和标准规范 ...............................83
7.3 大模型安全风险的具体表现 ............85
7.3.1 大模型自身的安全风险 .............85
7.3.2 大模型在应用中衍生的安全风险 ....................................86
7.4 大模型安全研究关键技术 ................88
7.4.1 大模型的安全对齐技术 .............88
7.4.2 大模型安全性评测技术 .............918 章 总结与思考 94
8.1 协同多方合作,共同推动大模型发展 ...................................95
8.2 建立大模型合规标准和评测平台 ....96
8.3 应对大模型带来的安全性挑战 ........97
8.4 开展大模型广泛适配,推动大模型技术栈自主可控...........98

大模型发展历程

自Geoffrey Hinton在2006年提出逐层无监督预训练方法,用以攻克深层网络训练难题起,深度学习已在多个领域展现出显著的优势与突破。其发展之路从早期的标注数据监督学习,逐步扩展至预训练模型的广泛应用,最终迈向了大模型的新时代。2022年底,OpenAI推出的ChatGPT凭借其卓越性能,赢得了全球范围内的瞩目,充分彰显了大模型在处理多元化场景、多样化用途以及跨学科任务时的强大实力。因此,大模型被普遍视为未来人工智能领域不可或缺的核心基础设施。

在这场技术革命的风潮中,语言大模型以其卓越的通用求解能力,成为引领潮流的领军者。它大规模预训练,吸收了丰富的语言知识与世界知识,赋予自身面向多任务的卓越才能。其发展脉络清晰可见,从统计语言模型到神经语言模型,再到预训练语言模型,直至现今的语言大模型(探索阶段),每一步都见证了技术的创新与突破。

  • 统计语言模型虽然基于马尔可夫假设,但受困于数据稀疏问题,其能力受到一定限制;
  • 神经语言模型的出现,犹如破晓的曙光,它利用神经网络建模语义共现关系,成功地捕获了复杂语义依赖,让语言的魅力在模型中得以绽放;
  • 预训练语言模型更是采用“预训练+微调”的范式,通过自监督学习,使模型能够适配各种下游任务,展现了其强大的通用性和灵活性。
  • 而大模型则基于缩放定律,简单来说,就是随着模型参数和预训练数据规模的不断增加,模型的能力与任务效果能持续提升,甚至展现出了一些小规模模型所不具备的独特“涌现能力”。

大模型应用

随着大模型时代的悄然来临,领军者如ChatGPT正在经济、法律、社会等多元化领域扮演着举足轻重的角色。OpenAI通过GPT-1、GPT-2以及GPT-3等一系列语言模型的推出,充分展现了其在不同规模参数下的卓越能力。与此同时,谷歌也不甘示弱,推出了规模庞大的PaLM模型,其5400亿参数的强大实力同样令人瞩目。当模型参数规模攀升至千亿量级时,语言大模型所展现出的多样化能力更是惊艳四座。GPT-3仅凭简洁的提示词或有限的样例,便能够游刃有余地完成各类复杂任务,其智能与灵活性令人赞叹不已。

自Transformer架构亮相以来,OpenAI推出了一系列领先的语言大模型技术,如GPT-1、GPT-2、GPT-3等,它们在自然语言任务中展现了卓越性能。

CodeX的创新在于它对GPT-3的精细调整,有效地强化了代码和复杂推理的功能;InstructGPT与ChatGPT则展现了强化学习的卓越应用,凭借人类反馈,显著提升了遵循指令和解读人类偏好的能力。GPT-4更是迈向了一个新的高峰,不仅能够处理更为广阔的上下文环境,更兼具了多模态的理解力,它的逻辑推理和复杂任务处理能力也得到了极大的改进,无疑为多模态领域打开了无限的可能性。

大模型技术生态日益繁荣,多个服务平台供个人用户和商业应用使用。OpenAI API便于用户访问不同GPT模型以完成各类任务。Anthropic的Claude系列模型注重实用性、诚实性和安全性。百度文心一言则是一个基于知识增强的大模型,提供开放服务和插件机制。讯飞星火认知大模型具备开放式知识问答、多轮对话、逻辑和数学能力,以及理解和处理代码和多模态信息的能力。

大模型的开源生态极为丰富多彩,涵盖了众多开源框架与开源大模型。例如,PyTorch和飞桨等开源框架为大规模分布式训练提供了强大的支持,而OneFlow则以其动静态图的灵活转换功能脱颖而出。此外,DeepSpeed则通过优化内存访问,助力训练更大规模的模型。在开源大模型方面,LLaMA、Falcon和GLM等模型降低了研究门槛,推动了应用的繁荣发展。特别值得一提的是,Baichuan系列模型不仅支持中英双语,更采用高质量训练数据,展现出卓越的性能,同时还开源了多种量化版本。而CPM系列在中文NLP任务上的出色表现,也赢得了广泛的赞誉。

大模型技术的应用领域宽广无边,它为各行各业注入了前所未有的新活力。无论是日常的办公活动、新闻传媒、影视制作,还是市场营销、娱乐业、军事决策,乃至教育领域、金融行业和医疗健康等领域,大模型技术都能大幅度地降低生产成本,显著提升作品质量,助力产品营销,增强决策能力。在教育领域,大模型使得教育方式更加个性化和智能化;在金融行业,它极大地提高了服务质量;在医疗领域,大模型技术为医疗机构的诊疗全过程注入了强大的动力。

更重要的是,大模型技术被看作是未来人工智能应用中的核心基础设施,它有能力引领上下游产业的革新,形成协同发展的生态系统,对经济、社会和安全等领域的智能化升级起到至关重要的支撑作用。通过大模型技术的应用,我们可以期待一个更加智能、高效和美好的未来。

大模型的风险和挑战

尽管如此,大模型技术在推进中仍面临一系列风险与挑战。其可靠性尚未获得全面保障,合成内容在事实性与时效性上仍有待提升。大模型的可解释性相对较弱,其工作原理尚难以深入剖析。此外,应用大模型的部署成本高昂,涉及大量的训练和推理计算,功耗高,应用成本高,且端侧推理存在延迟等问题。大数据匮乏的情境下,大模型的迁移能力受到限制,其鲁棒性和泛化性面临严峻挑战。更为严重的是,大模型还存在被滥用于制造虚假信息、恶意引导行为等衍生技术风险,以及安全与隐私问题,这些问题都需要我们高度关注和积极应对。

总结

大模型技术,以其无限广阔的应用前景和巨大潜力,正逐渐崭露头角,成为技术发展的璀璨明珠。然而,随之而来的挑战亦不容忽视。为了推动这一技术的发展,我们必须致力于攻克可靠性、可解释性的难题,同时,提升数据质量与数量也显得尤为迫切。在应用部署方面,降低成本并增强迁移能力至关重要,而强化安全与隐私保护更是重中之重。此外,探索更为贴合实际、具备落地价值的应用场景,同样是我们需要不断努力的方向。这些挑战与机遇并存,将共同决定大模型技术未来的广泛应用与发展命运。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法进阶 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
人工智能论文解读(三)
下面带领大家了解一下人工智能大模型方面的论文,为给大家普及大模型知识,特意读了几篇论文,从论文中提取出来分享给大家。
摆烂小白敲代码
2025/01/26
940
长文梳理!近年来GPT系列模型的发展历史:从GPT-1到GPT-4o(前世、今生)
随着ChatGPT的发布,大语言模型的关注度和数量都在不断上升,它引领了人类进入了大模型时代,并且随着一轮一轮的迭代,最新模型已经进化到了GPT-4o。在众多大语言模型中,GPT系列因其代表性而备受关注,其发展历程和技术革新值得深入探讨。那么今天带大家回顾一下近年来GPT系列模型的发展。【参考中国人民大学《大语言模型》】
ShuYini
2024/06/19
3.2K0
长文梳理!近年来GPT系列模型的发展历史:从GPT-1到GPT-4o(前世、今生)
【人工智能】推理大模型与预训练大模型:架构差异与认知范式的技术解构
在大模型领域中预训练大模型与推理优化大模型代表着两种截然不同的认知范式。本文将从预训练大模型和推理大模型的发展之路开始,从表征学习、计算图优化、任务泛化三个维度展开技术剖析,说明二者在模型动力学层面的本质差异。
云帆沧海
2025/04/23
1440
ChatGPT与DeepSeek:AI语言模型的巅峰对决
在当今人工智能飞速发展的时代,ChatGPT 和 DeepSeek 作为两款备受瞩目的 AI 语言模型,各自展现出了独特的魅力与实力。ChatGPT 凭借 OpenAI 的强大技术支撑和广泛的应用场景,自问世以来便成为了 AI 领域的焦点,引领着语言模型发展的潮流。而 DeepSeek 作为新兴的国产 AI 语言模型,以其创新的技术路线和对本土市场的深刻理解,迅速在全球范围内崭露头角,吸引了大量用户和开发者的关注。
用户11396661
2025/03/02
6230
ChatGPT:人工智能语言模型的革命性进步
本文深入探讨了ChatGPT作为人工智能语言模型的革命性进步。从GPT-1到GPT-3.5的历史演进,每一代模型都在模型规模和性能方面有了巨大的提升。特别关注ChatGPT,我们详细介绍了它是如何从GPT-3.5演变而来的,并探讨了它在语言生成方面相较于之前版本的改进和创新。本文还解释了ChatGPT的工作原理,包括预训练和微调阶段,以及模型在推理时生成响应的过程。讨论了ChatGPT的优势,如其出色的语言生成能力和适应性,同时也指出了可能面临的局限性。此外,还探讨了ChatGPT在各个领域的实际应用,以及它对传统业务流程改变和问题解决方面的潜力。最后,展望了ChatGPT与人类交互的未来,强调了技术发展与伦理考量的重要性。
猫头虎
2024/04/08
2270
ChatGPT:人工智能语言模型的革命性进步
大语言模型与ChatGPT:深入探索与应用
随着人工智能技术的飞速发展,大语言模型(Large Language Models, LLMs)成为了一个备受关注的研究领域。这些模型通过处理海量的数据来理解和生成自然语言文本,展现出令人惊叹的表现力。ChatGPT是其中的佼佼者,它基于GPT-3和GPT-4模型,能够与人类进行自然流畅的对话,为用户提供丰富的信息和帮助。
用户11286421
2024/10/16
1460
预训练模型与强推理模型:人工智能时代的认知革命
人工智能技术的演进史,本质上是人类对智能本质的探索史。在深度学习浪潮席卷全球的十年间,两条技术路线逐渐显现出清晰的轮廓:以海量数据为燃料的预训练模型,与以逻辑推理为根基的强推理模型。前者通过自监督学习构建出强大的模式识别能力,后者则致力于将人类思维中的因果链和形式化规则编码为可计算的算法。二者的协同与博弈,不仅重塑了人工智能的技术版图,更在医疗诊断、科学发现、工业决策等领域催生出颠覆性应用。当GPT-4展示出惊人的上下文理解,能力AlphaGeometry在几何证明中超越人类金牌选手时,正我们见证着这两种技术范式从分立走向融合的历史性时刻。
用户7353950
2025/02/25
1990
预训练模型与强推理模型:人工智能时代的认知革命
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
实际上关于开源or闭源,一直以来都是颇有争议的话题,人们争执于数据的隐私性和共享性,到底哪一方能获得的收益更大。而对于开源与闭源哪个更好实际上也就是说是隐私更好还是公开更好。
Skrrapper
2024/06/18
3020
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
生成式人工智能(AIGC)研究综述: 从Google Gemini到OpenAI Q*
本综述探讨了生成人工智能(AIGC)领域的发展趋势,重点关注了Mixture of Experts(MoE)、多模态学习和人工智能通用性(AGI)在生成AI中的应用。文章分析了Google Gemini和OpenAI Q*等最新技术对AI研究的影响,并讨论了这些技术在医疗、金融和教育等领域的应用潜力。同时,文章指出了当前AI研究面临的挑战,如学术偏见、预印稿的普及对同行评审过程的影响等。
算法进阶
2023/12/27
13.9K1
生成式人工智能(AIGC)研究综述: 从Google Gemini到OpenAI Q*
《从0到神谕:GPT系列的进化狂想曲——用AI之眼见证人类语言的终极形态》
GPT(Generative Pre-trained Transformer)是由OpenAI开发的一系列大型语言模型,它的核心目标是让计算机理解和生成自然语言(如中文、英文等)。GPT就像一个“超级学习者”,通过阅读海量文本(比如互联网上的书籍、文章、对话等)来“学习”语言的规则和模式,最终能够完成写故事、写代码、回答问题甚至创作诗歌等任务。
Lethehong
2025/04/04
1020
《从0到神谕:GPT系列的进化狂想曲——用AI之眼见证人类语言的终极形态》
人工智能大模型的发展历程与未来展望
引言 随着人工智能技术的飞速发展,大模型已经成为推动这一领域进步的关键力量。它们不仅改变了我们对于机器学习的理解,还深刻地影响着我们的日常生活。本文旨在回顾AI大模型的发展历史,分析其对社会的影响,并探讨未来的可能性。 早期探索与基础 计算机科学自20世纪中叶以来一直是人类科技探索的核心领域。1956年的达特茅斯会议标志着人工智能作为一门学科正式成立,该会议汇集了包括约翰·麦卡锡、马文·明斯基在内的多位先驱者。他们提出了许多至今仍然影响深远的思想,比如符号主义和连接主义。 早期的人工智能研究主要集中在专家系统和规则基础上,直到1958年弗兰克·罗森布拉特发明了感知器(Perceptron),这是第一个能够通过学习调整权重来分类数据的算法模型。尽管后来发现感知器存在一些限制,但它为后续的神经网络研究奠定了基础。 深度学习的兴起 进入21世纪初,随着计算硬件性能的提升,特别是图形处理器(GPU)的应用,研究人员开始尝试构建更深层的神经网络。2006年,杰弗里·辛顿(Geoffrey Hinton)提出了一种新的训练深层神经网络的方法——逐层预训练,这标志着深度学习时代的到来。 2012年,ImageNet大规模视觉识别挑战赛(ILSVRC)上,由亚历山大·克里泽夫斯基(Alex Krizhevsky)等人开发的AlexNet模型一举夺魁,展示了深度卷积神经网络在图像识别上的强大能力。自此以后,VGG、ResNet等一系列先进的网络架构相继问世,推动了深度学习技术在各个领域的广泛应用。
用户7353950
2024/11/23
4460
人工智能大模型的发展历程与未来展望
梳理:人工智能模型的下一步路在哪里?
近年来,AI 模型的规模呈指数级增长。从 GPT-3 的 1750 亿参数到 GPT-4 的更大规模,模型的能力随着参数量的增加而显著提升。然而,模型规模的扩大也带来了计算资源消耗、训练成本高企以及环境负担等问题。未来的 AI 模型可能会在规模与效率之间寻找平衡,探索更高效的架构和训练方法。
算力之光
2025/02/21
1180
梳理:人工智能模型的下一步路在哪里?
生成式人工智能:发展演进及产业机遇
当OpenAI 在 2022 年 11 月 30 日发布 ChatGPT 的时候,没有人会意识到,新一代人工智能浪潮将在接下来的 6 个月给人类社会带来一场眩晕式的变革。自2010年代初深度学习问世以来,人工智能进入到第三次高潮。而2017年Transformer算法将深度学习推向了大模型时代。OpenAI基于Transformer的Decoder部分建立起来了GPT家族。
小腾资讯君
2023/08/25
8911
生成式人工智能:发展演进及产业机遇
AI进化革命:从工具到伙伴的边界突破
人工智能(Artificial Intelligence, AI)正以前所未有的速度改变着我们的生活方式、工作方式以及社会结构。从智能手机到自动驾驶汽车,从医疗诊断到金融投资,AI的应用已经渗透到我们生活的方方面面。与此同时,AI的发展也带来了诸多挑战和争议,包括隐私保护、就业问题、算法偏见等。本文将全面探讨人工智能的技术突破、行业应用、面临的挑战以及未来发展趋势。
换一颗红豆
2025/02/23
1920
AI进化革命:从工具到伙伴的边界突破
大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
2025年初,中国推出了具有开创性且高性价比的「大型语言模型」(Large Language Model — LLM)DeepSeek-R1,引发了AI的巨大变革。本文回顾了LLM的发展历程,起点是2017年革命性的Transformer架构,该架构通过「自注意力机制」(Self-Attention)彻底重塑了自然语言处理。到2018年,BERT和GPT等模型崭露头角,显著提升了上下文理解和文本生成能力。2020年,拥有1750亿参数的GPT-3展示了卓越的「少样本」和「零样本」学习能力。然而,「幻觉」问题 — —即生成内容与事实不符,甚至出现「一本正经地胡说八道」的现象 — — 成为了一个关键挑战。2022年,OpenAI通过开发「对话式」的ChatGPT应对这一问题,采用了「监督微调」(SFT)和「基于人类反馈的强化学习」(RLHF)。到2023年,像GPT-4这样的「多模态模型」整合了文本、图像和音频处理能力,使LLM能够以更接近人类的「听」、「说」、「看」能力。近期推出的OpenAI-o1和DeepSeek-R1「推理模型」(Reasoning Model)在复杂问题解决方面取得突破,赋予LLM更接近人类「系统2思维」的深度推理能力,标志着人工智能在模拟人类思维模式上迈出了重要一步。此外,DeepSeek-R1模型以其「超成本效益」和「开源」设计挑战了AI领域的传统规范,推动了先进LLL的普及,并促进了各行业的创新。
致Great
2025/02/17
7820
大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
LLM概述与应用展望
首先,LLM 全称是 Large Language Model,即大语言模型,其参数量较大,一般的70 亿以上参数的模型占用约 28G 存储,直观来说就是有一堆28G浮点数(训练得到)作为权重参数的函数可拷入 U 盘就能带走大模型本体。实现方式简单来说就是设计一个极大的非线性函数进行拟合计算,它们会接收你提供的一些文本作为输入,并猜测下一个出现概率最大的词(更准确地说,下一个token)是什么。
LeonAlgo
2025/02/26
1580
LLM概述与应用展望
GPT-4o:人工智能技术的新巅峰
近期,OpenAI 推出了最新的语言模型——GPT-4o,引发了广泛的关注和讨论。本文将从版本对比、技术能力和个人感受三个方面,对这一新技术进行全面评价。
人不走空
2024/05/31
2750
常见大语言模型解析:技术细节、应用与挑战
文章链接:https://cloud.tencent.com/developer/article/2467252
小说男主
2024/11/21
1580
常见大语言模型解析:技术细节、应用与挑战
AI语言模型的技术之争:DeepSeek与ChatGPT的架构与训练揭秘
DeepSeek是由中国初创公司DeepSeek所开发的一款大型语言模型。该公司成立于2023年,并通过开源的方式快速吸引了开发者和研究者的关注。DeepSeek的首个版本——DeepSeek-R1,自发布以来便在业内引发了广泛讨论。其最大特点之一是能够在逻辑推理、数学推理以及实时问题解决方面展现出独特的优势。
云边有个稻草人
2025/02/13
6580
大模型时代的“Linux”生态,开启人工智能新十年
演讲 | 林咏华  智源人工智能研究院副院长     整理 | 何苗 出品 | CSDN(ID:CSDNnews) 2018 年以来,超大规模预训练模型的出现推动了 AI 科研范式从面向特定应用场景、训练专有模型,转变为大模型+微调+模型服务的AI工业化开发模式。直至对话大模型 ChatGPT 引发全球广泛关注,人们终于欢呼 AI 2.0 时代来了。当我们立足由大模型推动的AIGC元年,AI 正在迎来新的一轮全球应用和研发热。 随着两波AI崛起浪潮接连在寒冬中袭来,人们终于看到了大模型+AIGC 将人工智
AI科技大本营
2023/04/06
6570
大模型时代的“Linux”生态,开启人工智能新十年
推荐阅读
相关推荐
人工智能论文解读(三)
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验