Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >年度总结:AI大模型技术年度大盘点

年度总结:AI大模型技术年度大盘点

原创
作者头像
languageX
修改于 2024-12-30 16:20:13
修改于 2024-12-30 16:20:13
1.7K0
举报
文章被收录于专栏:大语言模型大语言模型

2024年又过去了,去年的总结在这里我独到的技术见解:LLM的演进与发展,是时候对2024年get的新技术进行一次的沉淀和总结了。

本文从以下几个方面进行梳理总结:

  1. openai连续12场直播内容
  2. 国内外AI大模型技术进展
  3. LLM底座技术
  4. LLM的逻辑推理技术
  5. 多模态大模型技术
  6. 检索引擎技术
  7. 总结

openai的12场直播介绍

回顾下,OpenAI创始人之一Andrej Karpathy 在2023年提到了LLM的未来方向:思维方式(系统1/2)、LLM对工具使用(Agent)、多模态、 GPTs 应用商店,以及LLM OS。

今年OpenAI在12月5日至12月21日连续12天直播秀,每天推出新的产品或功能。

从第一天的满血版o1模型发布,再到期待许久的Sora Turbo正式发布,最终又以新一代推理模型o3收官。

直播内容视频链接:https://www.youtube.com/watch?v=iBfQTnA2n2s

抽取了下每日的重点主题,可以和去年的方向进行对比:

慢思考方式---o1 和 o3 的发布最核心技术就是有了慢思考能力

多模态---sora, 增强chatGPT语音模型,从4o到o3都增强了多模态能力

Agent---canvas功能,projects功能,Search开放,集成到苹果系统等发布都是Agent或者为了后面Agent能力打基础。

LLM OS---能力已经集成到苹果系统,期望获取用户的应用访问权限;并且已推出chatGPT桌面版本,虽然和去年的OS概念不完全匹配,但是我觉得也不远了。。。

descript
descript

openai在AI领域依旧是中心的中心,所以,其实通过这12场直播,就已经总结了AI行业的最前沿进展,以及下阶段(至少明年)AI的一个技术发展方向了。

国内外AI技术发展

通过epoch.ai的数据统计,OpenAI、Google和Meta AI等公司依旧占据着领导地位,我们国内的Qwen和DeepSeek等企业也正迅速崛起,展现出强劲的发展势头。

descript
descript
descript
descript

我们看看独角兽公司们~

descript
descript

再看看国内的AI的软件和硬件产品,你就说卷不卷~

descript
descript

随着AI时代的到来,不断涌出了很多独角兽公司,在资本与技术双轮驱动下,独角兽公司专注于AI在各领域的深度应用,正在以惊人的速度重塑行业格局。

descript
descript

国内各公司的发展重点策略也在寻找差异化。

其中之一是最核心的技术,自研大模型:

descript
descript

第二就是云计算领域:

descript
descript

第三就是AI赋能原生APP,比如阿里规划未来所有产品接入大模型,全面升级。

descript
descript

当然,在这些产品的背后,需要高成本的数据和算力支撑。

descript
descript

最后,我目前所在的团队朗新AI研究院聚焦的一大方向:AI+能源。朗新集团是领先的能源科技企业,长期深耕电力能源领域。

而目前各大型公司也在关注着AI大模型的能源消耗,通过投资、合作等方式探索绿色AI。

descript
descript

本文重点做技术总结,所以下面把方向聚焦一下,就以我们最常用的对话功能来聊点大模型技术。

大语言模型技术

我们打开各个大厂的对话平台,deepseek,kimi,通义,文心一言,混元等等,可以看到产品形态上从2023年最初的单独一个对话框,到现在的扩展功能:上传图片/文件,联网搜素,深度思考。

descript
descript

上图左侧,我也列举出了每个功能后面的技术能力模块。

大模型底座能力

底座能力的测评呢,不同厂商提供的性能指标不完全一样,所以不同榜单排名可能也不一致,闭源当然是openai霸榜。从目前开源模型排名可以看出,国外meta的Llama,国内的deepseek和qwen是领先水平。

descript
descript
来源:deepseek-V3
来源:deepseek-V3

所以我们就重点看下llama,qwen和deepseek的开源模型的重要技术点。(主要也是他们开源,并且输出技术报告)。抛开商业,生态,开源才是最贵的等方面的考虑,从技术上说他们原因开源以及共享技术细节就是伟大啊~

Llama3.1

Meta公司,2024年7月23开源了Llama 3.1系列,包括8B、70B以及450B三个不同参数规模的模型版本,并公布了技术报告。

descript
descript

92页技术报告:https://arxiv.org/abs/2407.21783

上图PPT中从数据,训练和工程三方面非常简单提炼技术点,比如多模态能力我就没放入。具体的知识点是非常多的,都放入本文篇幅太长。

descript
descript

原始技术报告是非常详细的介绍了技术细节,感兴趣建议看原始报告。但是Llama的450B模型开源,也很少有团队能部署的起来,成本实在太高,而且Llama对中文的支持并不好。

Qwen2.5

阿里千问,2024年9月19开源了Qwen2.5系列,包括0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B不同参数规模的模型版本以及qwen2.5_Math,qwen2.5_coder,12月19公布技术报告。

descript
descript

Qwen2.5技术报告:https://arxiv.org/pdf/2412.15115

qwen就不用过多介绍了,各个规模尺寸都有,小公司也能基于业务选择合适规模的模型进行微调训练。除了语言模型的开源,在多模态模型上qwenVL模型表现也非常优秀,后面会介绍。

qwen2.5技术报告同样从数据,训练和强化学习上给出了一些技术细节。

预训练数据:数据质量评估与筛选占据关键地位,利用Qwen2-Instruct模型作为筛选工具,从多个维度对训练样本进行全面分析评估并打分; 代码和数学数据整合策略; 专属领域模型来进行合成数据提升,专有奖励模型来过滤; 数据分布和混合。

后训练数据:构建百万SFT数据, 扩大范围专门攻克难题:长序列生成方面、数学问题求解、编码、指令遵循、结构化数据理解、逻辑推理等。

两阶段强化学习:离线强化学习(Offline RL)DPO+在线强化学习(Online RL)GRPO。

感兴趣建议看原始报告。

Deepseek3

最近被公众号刷爆的deepseek,12月26开源了deekseep-V3,670B参数规模的MoE混合专家模型,其中激活参数37B,并公布技术报告。

descript
descript

deepseek主打一个“降本增效”。为什么说他“实惠”(只...用了550W美元),因为训练670B的模型和Llama训7B的模型一样的成本;Llama3训练405B模型使用了3080万GPU小时,而deepseek"只"用了280W个GPU小时。所以从时间和经济上,Deepseek完全达到降本增效。如何做到的呢?主要是从算法,框架,工程,硬件上协同优化。

请看:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

大模型推理能力

其实推理能力也应该属于是底座能力,但是我还是想分章节来聊。因为从体验上,我认为目前在推理能力上国内的产品还在发展阶段,并没有特别好的推理效果,所以很多模型其实没有将慢思考融入到底座能力;而且是有方案仅在infer阶段让模型进行推理能力。

说到推理能力,当然要说到o1,感觉现在说o1模型就是逻辑推理能力,模型慢思考能力的替代词。

而o1的技术核心其实在23年ChatGPT问世时就说过:强化学习。o1 模型的性能会随着强化学习学习时间(训练时计算量)和推理时间(测试时计算量)的增加而显著提高。在强化学习和推理中增加了CoT反思和推理过程。

descript
descript

o1技术报告:https://openai.com/index/learning-to-reason-with-llms/

在o1推出后不久,2个月内国内也有很多的复现框架和技术文章。

descript
descript

如上图是我找到的一些高校,企业发布的类o1思路框架或者能力,其他企业比如kimi,豆包,腾讯没有正式发布(或者我没找到),但是肯定已经在跟进。。。

多模态技术

除了LLM(自然语音大模型),MMLM(多模态大模型)技术也是一个很重要的发展方向,最开始提到的openai直播,其中很多都是多模态技术,比如Sora,增强chatGPT, 4o, o1, o3等都具备多模态能力。

在对话过程中,我们需要有语音,图片,文件的输入都需要多模态技术的支撑。

descript
descript

国内的多模态技术也在势头很猛,通义除了大语言模型在开源占领先水平,多模态模型qwen2_VL-72B发布后也是刷新各大榜单。

Qwen2_VL

descript
descript

qwen2_VL也提供了多个尺寸模型:2B, 7B ,72B(指对应的语言模型大小),视觉编码都是ViT 675M。

descript
descript
descript
descript

qwen2的主要特点:(1)支持多语言;(2)支持任意分辨率和长宽比图片;(3)支持图片+video+文本多模态的输入,支持长视频理解

重要的技术细节以及能力示例可以详见论文:https://arxiv.org/pdf/2409.12191

VITA1.5

descript
descript

VITA1.5是腾讯团队出品,它最大的特点是两大创新:

创新1:无唤醒交互,引入状态token,教会模型自动识别输入音频的类型;

创新2:音频打断交互,采用了双工方案,部署两个VITA模型,一个负责生成对当前查询的响应,另一个持续监控新的输入,提高了交互的自然度和效率;

最大缺点是,没怎么在榜单上看到它的身影....

但是从openai的直播以及目前AI产品体验看,音频是很重要的输入形式,在多模态模型中增加音频模态是很大趋势。

VITA的技术框架和技术点在上图也表达了,不再过多介绍~

descript
descript

随着大语言模型底座的发展,多模态技术也在迅猛发展,模态形式不断增广。除了音频、图片、视频这些传统模态之外,数据序列和大模型的结合也成为研究的热点。

检索技术

大模型存在的一些缺点:幻觉,不实时,没有本地数据知识。RAG和webSearch就是来解决这些问题的。

内部检索

本地上传知识库,就是对私有知识的增强检索生成,需要使用RAG技术。相当于构建了一个本地搜索引擎。

之前已经总结过:RAG:我不只是一个检索器!

外部检索

外部检索,通常是调用搜索引擎接口获取和用户问题相关信息。当然这里不是简单的收集信息,丢给大模型生成答案。其中技术点也特别多,整套检索流程可单独作为一个Agent,请打开你的浏览器,各个搜索引擎都在AI化了。

AI+搜索引擎天生就该是一对!

总结

现在你已经具备了大语言模型技术,多模态技术,内部知识库检索技术,web搜索引擎深度检索技术,以及如何让模型深度思考具备推理能力的技术。再回头看看ChatGPT:

descript
descript

所以,大模型问答在产品体验上要取得竞争力,就必须将前沿技术进行融合处理,比如开启web搜索以及上传本地知识库进行问答时,需要结合知识检索,多模态理解,大模型强大推理能力来进行回复。

有了以上一系列大模型算法技术,再结合前端,后端技术,工程和模型部署能力,再具有基础建设平台以及算力资源,团队就能为公司搭建一套自己的智能对话平台了...

比如我上传图片:

descript
descript
descript
descript

最后我们结合openai的12场直播以及目前大模型技术上的发展,预测明年大模型技术趋势仍然是多模态,强化学习逻辑推理,内部知识库治理和检索生成,实时信息检索生成,智能体应用。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。
机器之心
2025/02/25
2330
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
每周AI论文速递(250127-250131)
基准测试是追踪大语言模型(LLM)能力快速进展的重要工具。然而,这些基准测试在难度上并未跟上节奏:如今的 LLMs 在 MMLU 等流行基准测试上的准确率已超过 90%,这限制了对先进 LLM 能力的有根据测量。作为回应,我们介绍了“人类的最终考试”(HLE),这是一个多模式基准测试,在人类知识前沿设计,旨在成为同类中最后的封闭式学术基准测试,涵盖广泛的主题。 HLE 包含 3,000 个问题,跨越数十个学科,包括数学、人文学科和自然科学。HLE 由全球主题专家开发,包含适合自动化评分的多项选择题和简答题。每个问题都有一个已知的明确且易于验证的解决方案,但无法通过快速互联网检索获得答案。 先进的 LLMs 在 HLE 上表现出低准确性和校准度,突显了当前 LLM 能力与专家人类前沿之间的显著差距,在封闭式学术问题上的表现存在巨大差异。为了基于对模型能力的清晰理解来指导研究和政策制定,我们公开发布了 HLE,地址为https://lastexam.ai。
叶子的技术碎碎念
2025/04/08
600
每周AI论文速递(250127-250131)
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.5K0
深入了解Deepseek模型的最佳三篇论文
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是如何通过推理能力来增强 LLM。Sebastian Raschka 表示:「我希望这能提供有价值的见解,并帮助你了解围绕这一主题的快速演变的文献和话题炒作。」
机器之心
2025/02/10
1810
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
【AGI-Eval行业动态 NO.1】大模型行业太卷了,两周多了20+的模型
在白宫新闻发布会上,特朗普和 OpenAI CEO Sam Altman、软银 CEO 孙正义等人联合宣布了一个名为「星际之门」(Stargate Project)的人工智能项目。将开展 5000亿美元(6764亿新元)人工智能(AI)基础设施项目。
AGI-Eval评测社区
2025/02/20
1100
【AGI-Eval行业动态 NO.1】大模型行业太卷了,两周多了20+的模型
图解DeepSeek R1训练流程
这篇论文介绍了一种新的第一代推理模型——DeepSeek-R1系列,旨在通过强化学习(Reinforcement Learning, RL)提升大型语言模型(Large Language Models, LLMs)的推理能力。具体来说,论文试图解决以下几个问题:
致Great
2025/02/08
3310
图解DeepSeek R1训练流程
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
3380
DeepSeek-R1:强化学习驱动的LLM推理能力提升
2024年人工智能年终总结报告|Artificial Analysis
临近年末,在人们都开始着手于年终总结的时候,Artificial Analysis也给出了关于2024年AI变革式发展的回顾。令人欣喜的是,我国的Qwen2.5 Instruct 72B与DeepSeek V2.5还有可灵AI等也名列其中。
新智元
2025/02/15
1690
2024年人工智能年终总结报告|Artificial Analysis
AI届的拼多多登临iOS榜,DeepSeek到底是什么来头?
DeepSeek的App目前已经登陆iOS免费榜前十,并超过了Google Gemini和微软的Copilot等同类竞品,可谓异军突起。
AntDream
2025/02/04
2640
AI届的拼多多登临iOS榜,DeepSeek到底是什么来头?
遇见DeepSeek之(1):初识
作者简介:刘世民,腾讯云TVP,公众号“世民谈云计算”作者,云计算技术专家,曾就职于华为、IBM、海航等公司,专注于云计算。曾在海航集团易航科技担任云服务事业群总经理一职,负责IDC、云平台、系统运维、信息安全以及用户服务等业务。维护有“世民谈云计算”技术博客和微信公众号。《OpenShift云原生架构原理与实践》作者之一、《Ceph Cookbook中文版》、《精通OpenStack》、《机器学习即服务:将Python机器学习创意快速转变为云端Web应用程序》译者之一
TVP官方团队
2025/02/05
2K0
遇见DeepSeek之(1):初识
AI日报 - 2025年04月16日
▎🤖 模型井喷 | OpenAI (o3/o4-mini, GPT-4.1), Meta (Llama 4 Scout/Maverick), Z.ai (GLM-4家族), Cohere (Embed 4), Google (DolphinGemma) 等发布新模型,多模态、长文本、高效推理成焦点。
訾博ZiBo
2025/04/15
2550
AI日报 - 2025年04月16日
AI日报 - 2024年05月12日
訾博ZiBo
2025/05/11
960
AI日报 - 2024年05月12日
DeepSeek R1 最新全面综述,近两个月的深度思考!
https://github.com/datawhalechina/hugging-llm/tree/main/resources
Datawhale
2025/02/20
9970
DeepSeek R1 最新全面综述,近两个月的深度思考!
揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案
DeepSeek-V3-Base 在强化学习(RL)调优之前就已经展现出「顿悟时刻」?RL 调整中不断增加的输出长度可能是由于 GRPO 中的 BIAS 造成的?
机器之心
2025/03/24
1020
揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案
每周AI论文速递(250210-250214)
我们研究了一种新型的语言模型架构,该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块,在测试时可以展开到任意深度。这与主流的推理模型不同,后者是通过生成更多 Token 来扩展计算能力的。与基于思维链的方法不同,我们不需要任何专门训练的数据,并能够使用小上下文窗口,还可以捕捉那些无法轻易用语言表示的推理类型。我们将一个概念验证模型调整到了 35 亿个参数和 800 亿个 Token 规模。结果表明,该模型在推理基准测试上可以提升性能,有时甚至显著增强,相当于增加了 50 亿个参数的计算负载。
叶子的技术碎碎念
2025/04/08
980
每周AI论文速递(250210-250214)
OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图
推上多位网友表示,OpenAI o1和o3模型背后究竟是何原理——这一未解之谜,被中国研究者「发现」了!
新智元
2025/02/15
520
OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图
小米7B大模型太能打了,高考数学139分!
长期跟踪关注统计学、机器学习算法、深度学习、人工智能、大模型技术与行业发展动态,日更精选技术文章。回复机器学习有惊喜资料。
Ai学习的老章
2025/06/17
730
小米7B大模型太能打了,高考数学139分!
Nature推荐:五大AI模型如何攻克不同科研场景?(内含Deepseek)
AI工具爆炸,模型遍地开花。今年的科研圈,要说最显眼的变化,绝对少不了“AI工具大跃进”。但问题来了!哪个模型,才是科研人该认真选择的外挂?
用户11203141
2025/03/12
2610
Nature推荐:五大AI模型如何攻克不同科研场景?(内含Deepseek)
【人工智能】你知道什么是DeepSeek吗?你有去了解过DeepSeek吗?新手要入门DeepSeek的必经之路——初识DeepSeek
2025年伊始,DeepSeek 在全球AI业界引发广泛关注,它以2048张H800 GPU,仅用两个月就训练出了一个媲美全球顶尖水平的模型,打破了大模型军备竞赛的既定逻辑。
蒙奇D索隆
2025/02/11
3790
【人工智能】你知道什么是DeepSeek吗?你有去了解过DeepSeek吗?新手要入门DeepSeek的必经之路——初识DeepSeek
大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
2025年初,中国推出了具有开创性且高性价比的「大型语言模型」(Large Language Model — LLM)DeepSeek-R1,引发了AI的巨大变革。本文回顾了LLM的发展历程,起点是2017年革命性的Transformer架构,该架构通过「自注意力机制」(Self-Attention)彻底重塑了自然语言处理。到2018年,BERT和GPT等模型崭露头角,显著提升了上下文理解和文本生成能力。2020年,拥有1750亿参数的GPT-3展示了卓越的「少样本」和「零样本」学习能力。然而,「幻觉」问题 — —即生成内容与事实不符,甚至出现「一本正经地胡说八道」的现象 — — 成为了一个关键挑战。2022年,OpenAI通过开发「对话式」的ChatGPT应对这一问题,采用了「监督微调」(SFT)和「基于人类反馈的强化学习」(RLHF)。到2023年,像GPT-4这样的「多模态模型」整合了文本、图像和音频处理能力,使LLM能够以更接近人类的「听」、「说」、「看」能力。近期推出的OpenAI-o1和DeepSeek-R1「推理模型」(Reasoning Model)在复杂问题解决方面取得突破,赋予LLM更接近人类「系统2思维」的深度推理能力,标志着人工智能在模拟人类思维模式上迈出了重要一步。此外,DeepSeek-R1模型以其「超成本效益」和「开源」设计挑战了AI领域的传统规范,推动了先进LLL的普及,并促进了各行业的创新。
致Great
2025/02/17
1.1K0
大语言模型简史:从Transformer(2017)到DeepSeek-R1(2025)的进化之路
推荐阅读
相关推荐
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档