Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >43页PPT|天津大学《深度解读DeepSeek:原理与效应》

43页PPT|天津大学《深度解读DeepSeek:原理与效应》

作者头像
luckpunk
发布于 2025-02-28 00:40:49
发布于 2025-02-28 00:40:49
4750
举报

这篇文章是对天津大学自然语言处理实验室的深度解读报告《深度解读DeepSeek:原理与效应》的总结。以下是文章的主要内容:

  • 大语言模型发展路线图
    • 历史回顾:从1950年代的早期AI研究到2024年的生成式AI发展,涵盖了图灵测试、达特茅斯会议、Eliza、专家系统、统计方法和神经网络的兴起。
    • 关键技术:注意力机制(Attention)、Transformer架构、扩展法则(Scaling Laws)和人类价值对齐(RLHF)。
  • DeepSeek技术原理
    • 版本迭代:DeepSeek从v1到v3/r1的技术演进,重点介绍了v2和v3的技术创新。
    • 技术创新:采用稀疏Mixture-of-Experts(MoE)模型,进行了多项技术创新,包括MLA、FP8训练、Moe All-to-All通信瓶颈解决、MTP等。
  • DeepSeek效应
    • 性能与成本:DeepSeek在性能和成本之间取得了良好的平衡,展示了其性价比优势。
    • 计算资源:DeepSeek-v3在训练过程中使用了较少的GPU小时数,显示出其在计算资源利用上的高效性。
  • 未来展望
    • 模型架构:DeepSeek的模型架构和技术创新为未来的大语言模型提供了新的方向。
    • 应用前景:DeepSeek在多个领域的应用潜力,特别是在推理模型和商业落地方面的可能性。
  • 大语言模型的生命周期与范式
    • 数据处理:包括预训练、后训练和应用部署等阶段。
    • 模型优化:涉及自监督学习、微调和强化等技术。
  • 成本分析
    • 研发成本:DeepSeek的研发成本相对较低,显示出其在经济性上的优势。
    • 数据与推理成本:DeepSeek在数据获取和推理阶段的成本也具有竞争力。

通过这些内容,文章详细介绍了DeepSeek的技术原理、发展历程及其在未来的应用前景。


image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
PPT汇总:DeepSeek核心技术前世今生
因为本文是小白方式,尽可能讲解思路为主,所以技术上涉及到的公式部分不会细讲哦。公式部分如有时间会单开文章细细讲解。
腾讯云开发者
2025/03/06
5760
PPT汇总:DeepSeek核心技术前世今生
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.4K0
深入了解Deepseek模型的最佳三篇论文
刚刚,DeepSeek开源MoE训练、推理EP通信库DeepEP,真太Open了!
上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。
机器之心
2025/02/25
1970
刚刚,DeepSeek开源MoE训练、推理EP通信库DeepEP,真太Open了!
DeepSeek 模型:架构创新与实际应用详解
DeepSeek 模型是近年来在自然语言处理(NLP)领域备受瞩目的开源大规模语言模型系列。其最新版本 DeepSeek-V3 采用了混合专家(Mixture-of-Experts,MoE)架构,拥有 6710 亿个参数,每个词元(token)激活 370 亿个参数。该模型在多项基准测试中表现出色,性能媲美 GPT-4 和 Claude 等领先的闭源模型。以下将详细介绍 DeepSeek 模型的架构、用途,并通过具体案例和源代码展示其应用。
编程小妖女
2025/01/16
5.7K0
DeepSeek 模型:架构创新与实际应用详解
0 帧起步,腾讯云 TI 平台 5 分钟 私有化 DeepSeek
新年本应该祝福满屏的朋友圈,忽然间被 Deepseek 刷屏,这款被《黑神话:悟空》的制作人冯骥的评述:“DeepSeek可能是国运级别的科技成果。至今已在160多个国家的应用商店屠榜。
不惑
2025/02/05
8070
0 帧起步,腾讯云 TI 平台 5 分钟 私有化 DeepSeek
DeepSeek:大模型跃迁AGI,探索智能新航道(17/18)
文章摘要:文章详细介绍了DeepSeek在AI领域的发展历程、技术创新、开源策略以及其在迈向通用人工智能(AGI)过程中的成就与挑战。DeepSeek凭借其独特的技术路径,如混合专家(MoE)架构、多头潜在注意力(MLA)等,在大模型领域迅速崛起,展现出强大的性能和广泛的应用潜力。其开源策略推动了全球AI技术的普及和发展,同时也在智能开发、科学计算、企业决策等多个领域实现了深度应用。尽管面临诸多挑战,DeepSeek仍展现出巨大的发展潜力,为AGI的实现奠定了坚实基础。
正在走向自律
2025/03/23
2230
DeepSeek:大模型跃迁AGI,探索智能新航道(17/18)
万字长文详解DeepSeek核心技术
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/18
2K0
万字长文详解DeepSeek核心技术
雷军千万年薪挖角的AI天才少女什么来头?Deepseek技术优势解析
近日,雷军以千万级别的年薪成功挖角了95后的AI天才少女罗福莉。罗福莉是一位在人工智能领域特别是自然语言处理(NLP)方面有着卓越成就的年轻科学家。
用户7353950
2025/01/01
9860
雷军千万年薪挖角的AI天才少女什么来头?Deepseek技术优势解析
对DeepSeek事件的复盘和展望
作者简介:腾讯云TVP、北京交通大学计算机学院教授、计算机科学系主任、交通大数据与人工智能教育部重点实验室副主任。主要研究方向为多模态计算、网络数据挖掘、可信与对齐、AI Agent等。曾获中科院院长特别奖、ACM中国新星奖,作为负责人先后承担相关方向的国家自然科学基金重点项目、(首批)新一代人工智能重大项目课题、北京市杰出青年基金和国家级青年人才计划,第一/二作者论文7次获得中国计算机学会推荐国际会议的主会论文奖项,以第二完成人获得中国电子学会自然科学一等奖和北京市科学技术奖。
TVP官方团队
2025/02/03
1.2K0
对DeepSeek事件的复盘和展望
DeepSeek 开源周第二弹:DeepEP —— 首个 MoE 模型训练和推理的 EP 通信库
2025 年 2 月 25 日,DeepSeek 在开源周的第二天,正式发布了首个专为混合专家模型(MoE)训练和推理设计的专家并行(EP)通信库 —— DeepEP。DeepEP 在 GitHub 上开源仅 20 分钟,便获得了超过 1k 个 Star。截止本文发布时间,DeepEP 的 Github Star 数已经达到 2.4k,并且还在持续飙升。
Se7en258
2025/05/21
1240
DeepSeek 开源周第二弹:DeepEP —— 首个 MoE 模型训练和推理的 EP 通信库
DeepSeek-V3:多Token预测技术与模型性能优化的深度解析
随着人工智能技术的飞速发展,大语言模型(LLM)已经成为自然语言处理(NLP)领域的重要研究方向。DeepSeek-V3作为一款高性能、低成本的开源大语言模型,在性能和效率方面取得了显著的突破。其核心创新之一是多Token预测(MTP)技术,这一技术不仅提升了模型的训练效率和推理速度,还显著增强了模型对上下文的理解能力。本文将详细解析DeepSeek-V3的多Token预测技术及其对模型性能的影响,并与传统单Token预测方法进行对比。
用户7353950
2025/02/18
6330
DeepSeek-V3:多Token预测技术与模型性能优化的深度解析
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/27
8730
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
2025年4月6日,HuggingFace 正式发布了 Transformers v4.51.0,本次更新堪称 AI 界的“超级大礼包”!不仅新增了 Meta 的 Llama 4、微软的 Phi4-Multimodal、深度求索的 DeepSeek-V3 以及 Qwen3 四大重量级模型,还优化了多项功能,修复了诸多 Bug,让 AI 开发者们直呼“真香”!
福大大架构师每日一题
2025/04/07
6650
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
程序员危机:AI时代,谁会被淘汰?DeepSeek让你稳坐钓鱼台!
仅仅一个多月的时间,国内诸多领域的头部力量纷纷迅速接入DeepSeek。国民级应用如微信、阿里、百度,手机终端厂商荣耀、小米、OPPO、vivo,汽车终端领域的比亚迪、一汽、上汽,还有政企单位、居民服务部门以及各大高校,均积极投身其中。
肥晨
2025/03/07
1260
程序员危机:AI时代,谁会被淘汰?DeepSeek让你稳坐钓鱼台!
【DeepSeek】DeepSeek概述 | 本地部署deepseek
DeepSeek是由中国的深度求索公司开发的一系列人工智能模型,以其高效的性能和低成本的训练而受到关注。以下是其主要介绍:
枫叶丹
2025/02/08
1.5K1
【DeepSeek】DeepSeek概述 | 本地部署deepseek
探索DeepSeek:从核心技术到应用场景的全面解读
本文将全面了解DeepSeek的前世今生,文从DeepSeek模型论文和理论数学公式推理为依据,部分设计到复杂数学计算将以通俗易懂的案例解答理解,因此本文适用于刚刚入门DeepSeek探索的新手和想要了解DeepSeek但数学能力又不是很强的朋友,门槛较低。为做到写作全面本文篇幅可能较长,因此本文付出笔者诸多心血,希望大家诸多支持,随时欢迎讨论观点看法和落地运用。本文将从技术创新的角度,我们将深入探讨DeepSeek主流模型的核心优势,并与其他主流大模型进行对比;接着,我们将回顾DeepSeek的成长历程,揭秘它的核心逻辑和成功的关键;随后,我们将聚焦于DeepSeek在大模型蒸馏和实践中的应用;并分享一些实际场景的部署指南和使用技巧;最后,展望DeepSeek在未来AI领域的潜力与发展。
fanstuck
2025/02/18
5.2K6
探索DeepSeek:从核心技术到应用场景的全面解读
Deepseek R10528模型:深度解析与API Key获取教程
1. 执行摘要:DeepSeek R1-0528 – 开源AI的范式之变,不止于“微小”
网名重要么
2025/05/30
3460
60页PPT全解:DeepSeek系列论文技术要点整理
经过断断续续的整理,终于把DeepSeek系列论文的核心知识点汇总PPT完成差不多可以和大家分享了。虽然现在发布实在太晚,已经有铺天盖地的对deepseek技术解读文章和分享,但我依然希望将自己对DeepSeek V1到DeepSeek R1的理解与总结呈现给大家。
languageX
2025/03/15
2.5K0
60页PPT全解:DeepSeek系列论文技术要点整理
Deepseek V3/R1 技术内核 及 RAG 技术前沿进展
我知道大家和我一样,都是以一种特别积极的心态沉浸在这个 DeepSeek 的学习世界中。实际上,DeepSeek 在我们春节期间送给我们的这份“大礼包”,对我个人来说,就像是一下子把我抛回到了两年前的那个夜晚——2022 年 11 月 30 号,ChatGPT 诞生的那个夜晚。那时候,我充满了兴奋,感觉到了这个世界的不同,也感受到了大家对知识的渴望。所以,我非常急迫地想和大家分享我在这段时间里的心路历程和总结,一起探索这一切。
深度学习与Python
2025/02/27
2170
Deepseek V3/R1 技术内核 及 RAG 技术前沿进展
深度解析deepseek
DeepSeek(深度求索)是由中国杭州深度求索人工智能基础技术研究有限公司开发的多模态AI模型体系,其母公司为知名量化投资机构幻方量化。自2023年成立以来,DeepSeek以高性能、低成本、全开源为核心竞争力,成为全球AI领域的重要参与者。其技术定位聚焦于:
是山河呀
2025/04/05
7730
相关推荐
PPT汇总:DeepSeek核心技术前世今生
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档