部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >年度总结:AI大模型技术年度大盘点

年度总结:AI大模型技术年度大盘点

原创
作者头像
languageX
修改2024-12-31 00:20:13
修改2024-12-31 00:20:13
1.4K0
举报
文章被收录于专栏:大语言模型大语言模型

2024年又过去了,去年的总结在这里我独到的技术见解:LLM的演进与发展,是时候对2024年get的新技术进行一次的沉淀和总结了。

本文从以下几个方面进行梳理总结:

  1. openai连续12场直播内容
  2. 国内外AI大模型技术进展
  3. LLM底座技术
  4. LLM的逻辑推理技术
  5. 多模态大模型技术
  6. 检索引擎技术
  7. 总结

openai的12场直播介绍

回顾下,OpenAI创始人之一Andrej Karpathy 在2023年提到了LLM的未来方向:思维方式(系统1/2)、LLM对工具使用(Agent)、多模态、 GPTs 应用商店,以及LLM OS。

今年OpenAI在12月5日至12月21日连续12天直播秀,每天推出新的产品或功能。

从第一天的满血版o1模型发布,再到期待许久的Sora Turbo正式发布,最终又以新一代推理模型o3收官。

直播内容视频链接:https://www.youtube.com/watch?v=iBfQTnA2n2s

抽取了下每日的重点主题,可以和去年的方向进行对比:

慢思考方式---o1 和 o3 的发布最核心技术就是有了慢思考能力

多模态---sora, 增强chatGPT语音模型,从4o到o3都增强了多模态能力

Agent---canvas功能,projects功能,Search开放,集成到苹果系统等发布都是Agent或者为了后面Agent能力打基础。

LLM OS---能力已经集成到苹果系统,期望获取用户的应用访问权限;并且已推出chatGPT桌面版本,虽然和去年的OS概念不完全匹配,但是我觉得也不远了。。。

descript
descript

openai在AI领域依旧是中心的中心,所以,其实通过这12场直播,就已经总结了AI行业的最前沿进展,以及下阶段(至少明年)AI的一个技术发展方向了。

国内外AI技术发展

通过epoch.ai的数据统计,OpenAI、Google和Meta AI等公司依旧占据着领导地位,我们国内的Qwen和DeepSeek等企业也正迅速崛起,展现出强劲的发展势头。

descript
descript
descript
descript

我们看看独角兽公司们~

descript
descript

再看看国内的AI的软件和硬件产品,你就说卷不卷~

descript
descript

随着AI时代的到来,不断涌出了很多独角兽公司,在资本与技术双轮驱动下,独角兽公司专注于AI在各领域的深度应用,正在以惊人的速度重塑行业格局。

descript
descript

国内各公司的发展重点策略也在寻找差异化。

其中之一是最核心的技术,自研大模型:

descript
descript

第二就是云计算领域:

descript
descript

第三就是AI赋能原生APP,比如阿里规划未来所有产品接入大模型,全面升级。

descript
descript

当然,在这些产品的背后,需要高成本的数据和算力支撑。

descript
descript

最后,我目前所在的团队朗新AI研究院聚焦的一大方向:AI+能源。朗新集团是领先的能源科技企业,长期深耕电力能源领域。

而目前各大型公司也在关注着AI大模型的能源消耗,通过投资、合作等方式探索绿色AI。

descript
descript

本文重点做技术总结,所以下面把方向聚焦一下,就以我们最常用的对话功能来聊点大模型技术。

大语言模型技术

我们打开各个大厂的对话平台,deepseek,kimi,通义,文心一言,混元等等,可以看到产品形态上从2023年最初的单独一个对话框,到现在的扩展功能:上传图片/文件,联网搜素,深度思考。

descript
descript

上图左侧,我也列举出了每个功能后面的技术能力模块。

大模型底座能力

底座能力的测评呢,不同厂商提供的性能指标不完全一样,所以不同榜单排名可能也不一致,闭源当然是openai霸榜。从目前开源模型排名可以看出,国外meta的Llama,国内的deepseek和qwen是领先水平。

descript
descript
来源:deepseek-V3
来源:deepseek-V3

所以我们就重点看下llama,qwen和deepseek的开源模型的重要技术点。(主要也是他们开源,并且输出技术报告)。抛开商业,生态,开源才是最贵的等方面的考虑,从技术上说他们原因开源以及共享技术细节就是伟大啊~

Llama3.1

Meta公司,2024年7月23开源了Llama 3.1系列,包括8B、70B以及450B三个不同参数规模的模型版本,并公布了技术报告。

descript
descript

92页技术报告:https://arxiv.org/abs/2407.21783

上图PPT中从数据,训练和工程三方面非常简单提炼技术点,比如多模态能力我就没放入。具体的知识点是非常多的,都放入本文篇幅太长。

descript
descript

原始技术报告是非常详细的介绍了技术细节,感兴趣建议看原始报告。但是Llama的450B模型开源,也很少有团队能部署的起来,成本实在太高,而且Llama对中文的支持并不好。

Qwen2.5

阿里千问,2024年9月19开源了Qwen2.5系列,包括0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B不同参数规模的模型版本以及qwen2.5_Math,qwen2.5_coder,12月19公布技术报告。

descript
descript

Qwen2.5技术报告:https://arxiv.org/pdf/2412.15115

qwen就不用过多介绍了,各个规模尺寸都有,小公司也能基于业务选择合适规模的模型进行微调训练。除了语言模型的开源,在多模态模型上qwenVL模型表现也非常优秀,后面会介绍。

qwen2.5技术报告同样从数据,训练和强化学习上给出了一些技术细节。

预训练数据:数据质量评估与筛选占据关键地位,利用Qwen2-Instruct模型作为筛选工具,从多个维度对训练样本进行全面分析评估并打分; 代码和数学数据整合策略; 专属领域模型来进行合成数据提升,专有奖励模型来过滤; 数据分布和混合。

后训练数据:构建百万SFT数据, 扩大范围专门攻克难题:长序列生成方面、数学问题求解、编码、指令遵循、结构化数据理解、逻辑推理等。

两阶段强化学习:离线强化学习(Offline RL)DPO+在线强化学习(Online RL)GRPO。

感兴趣建议看原始报告。

Deepseek3

最近被公众号刷爆的deepseek,12月26开源了deekseep-V3,670B参数规模的MoE混合专家模型,其中激活参数37B,并公布技术报告。

descript
descript

deepseek主打一个“降本增效”。为什么说他“实惠”(只...用了550W美元),因为训练670B的模型和Llama训7B的模型一样的成本;Llama3训练405B模型使用了3080万GPU小时,而deepseek"只"用了280W个GPU小时。所以从时间和经济上,Deepseek完全达到降本增效。如何做到的呢?主要是从算法,框架,工程,硬件上协同优化。

请看:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

大模型推理能力

其实推理能力也应该属于是底座能力,但是我还是想分章节来聊。因为从体验上,我认为目前在推理能力上国内的产品还在发展阶段,并没有特别好的推理效果,所以很多模型其实没有将慢思考融入到底座能力;而且是有方案仅在infer阶段让模型进行推理能力。

说到推理能力,当然要说到o1,感觉现在说o1模型就是逻辑推理能力,模型慢思考能力的替代词。

而o1的技术核心其实在23年ChatGPT问世时就说过:强化学习。o1 模型的性能会随着强化学习学习时间(训练时计算量)和推理时间(测试时计算量)的增加而显著提高。在强化学习和推理中增加了CoT反思和推理过程。

descript
descript

o1技术报告:https://openai.com/index/learning-to-reason-with-llms/

在o1推出后不久,2个月内国内也有很多的复现框架和技术文章。

descript
descript

如上图是我找到的一些高校,企业发布的类o1思路框架或者能力,其他企业比如kimi,豆包,腾讯没有正式发布(或者我没找到),但是肯定已经在跟进。。。

多模态技术

除了LLM(自然语音大模型),MMLM(多模态大模型)技术也是一个很重要的发展方向,最开始提到的openai直播,其中很多都是多模态技术,比如Sora,增强chatGPT, 4o, o1, o3等都具备多模态能力。

在对话过程中,我们需要有语音,图片,文件的输入都需要多模态技术的支撑。

descript
descript

国内的多模态技术也在势头很猛,通义除了大语言模型在开源占领先水平,多模态模型qwen2_VL-72B发布后也是刷新各大榜单。

Qwen2_VL

descript
descript

qwen2_VL也提供了多个尺寸模型:2B, 7B ,72B(指对应的语言模型大小),视觉编码都是ViT 675M。

descript
descript
descript
descript

qwen2的主要特点:(1)支持多语言;(2)支持任意分辨率和长宽比图片;(3)支持图片+video+文本多模态的输入,支持长视频理解。

重要的技术细节以及能力示例可以详见论文:https://arxiv.org/pdf/2409.12191

VITA1.5

descript
descript

VITA1.5是腾讯团队出品,它最大的特点是两大创新:

创新1:无唤醒交互,引入状态token,教会模型自动识别输入音频的类型;

创新2:音频打断交互,采用了双工方案,部署两个VITA模型,一个负责生成对当前查询的响应,另一个持续监控新的输入,提高了交互的自然度和效率;

最大缺点是,没怎么在榜单上看到它的身影....

但是从openai的直播以及目前AI产品体验看,音频是很重要的输入形式,在多模态模型中增加音频模态是很大趋势。

VITA的技术框架和技术点在上图也表达了,不再过多介绍~

descript
descript

随着大语言模型底座的发展,多模态技术也在迅猛发展,模态形式不断增广。除了音频、图片、视频这些传统模态之外,数据序列和大模型的结合也成为研究的热点。

检索技术

大模型存在的一些缺点:幻觉,不实时,没有本地数据知识。RAG和webSearch就是来解决这些问题的。

内部检索

本地上传知识库,就是对私有知识的增强检索生成,需要使用RAG技术。相当于构建了一个本地搜索引擎。

之前已经总结过:RAG:我不只是一个检索器!

外部检索

外部检索,通常是调用搜索引擎接口获取和用户问题相关信息。当然这里不是简单的收集信息,丢给大模型生成答案。其中技术点也特别多,整套检索流程可单独作为一个Agent,请打开你的浏览器,各个搜索引擎都在AI化了。

AI+搜索引擎天生就该是一对!

总结

现在你已经具备了大语言模型技术,多模态技术,内部知识库检索技术,web搜索引擎深度检索技术,以及如何让模型深度思考具备推理能力的技术。再回头看看ChatGPT:

descript
descript

所以,大模型问答在产品体验上要取得竞争力,就必须将前沿技术进行融合处理,比如开启web搜索以及上传本地知识库进行问答时,需要结合知识检索,多模态理解,大模型强大推理能力来进行回复。

有了以上一系列大模型算法技术,再结合前端,后端技术,工程和模型部署能力,再具有基础建设平台以及算力资源,团队就能为公司搭建一套自己的智能对话平台了...

比如我上传图片:

descript
descript
descript
descript

最后我们结合openai的12场直播以及目前大模型技术上的发展,预测明年大模型技术趋势仍然是多模态,强化学习逻辑推理,内部知识库治理和检索生成,实时信息检索生成,智能体应用。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • openai的12场直播介绍
  • 国内外AI技术发展
  • 大语言模型技术
  • 大模型底座能力
    • Llama3.1
    • Qwen2.5
    • Deepseek3
  • 大模型推理能力
  • 多模态技术
    • Qwen2_VL
    • VITA1.5
  • 检索技术
    • 内部检索
    • 外部检索
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档