Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >雷军千万年薪挖角的AI天才少女什么来头?Deepseek技术优势解析

雷军千万年薪挖角的AI天才少女什么来头?Deepseek技术优势解析

作者头像
用户7353950
发布于 2025-01-01 04:45:45
发布于 2025-01-01 04:45:45
1K0
举报
文章被收录于专栏:IT技术订阅IT技术订阅

近日,雷军以千万级别的年薪成功挖角了95后的AI天才少女罗福莉。罗福莉是一位在人工智能领域特别是自然语言处理(NLP)方面有着卓越成就的年轻科学家。

罗福莉硕士毕业于北京大学计算语言学研究所,在研二时就在国际顶级会议ACL上发表了8篇论文(其中2篇为第一作者),成为当时学术界的焦点人物,并因此登上知乎热搜。

职业经历

加入阿里达摩院机器智能实验室,主导开发多语言预训练模型VECO,并参与AliceMind开源项目。

之后加入幻方量化从事深度学习相关策略建模和算法研究。

最后加入DeepSeek担任深度学习研究员,参与了MoE大模型DeepSeek-V2的研发工作。

技术成就

1. 顶级会议论文发表 罗福莉在国际顶级会议ACL(Association for Computational Linguistics)上发表了多篇重要论文,特别是在2019年一次性发表了8篇论文,其中2篇为第一作者,这些成果奠定了她在自然语言处理(NLP)领域的学术地位。 2. 词义消歧方法和文本风格转换框架 她提出的词义消歧方法和文本风格转换框架等研究成果推动了NLP领域的发展,并引起了广泛关注。

3. VECO多语言预训练模型 在阿里达摩院期间,罗福莉主导开发了跨语言预训练模型VECO。该模型是AliceMind开源项目的一部分,成功应用于阿里巴巴内部多个核心业务中,日均调用次数达到50亿次,活跃场景超过200个,展示了其在实际应用中的强大效能。 4.DeepSeek-V2大模型 2022年加入DeepSeek后,罗福莉担任深度学习研究员,参与研发MoE(Mixture of Experts)架构的大模型DeepSeek-V2。这款模型不仅在性能上取得突破,还在成本效益上实现了重大优化,提供了仅1元/百万输入Tokens的服务价格,远低于GPT-4的成本,极大地提升了大模型的普及性和应用广度,受到业界的高度评价。

2024年底,罗福莉应小米创始人雷军之邀,加盟小米AI实验室,担任领导职务,负责组建和领导大模型团队。她的加盟被视为小米在AI大模型领域的重要战略布局,预计将带来协同效应,提升小米设备的智能化水平,实现多设备的协同工作,助力“小米生态链”战略的全面推进。

DeepSeek-V3

参数规模:6710亿参数,激活参数为370亿。 训练数据:在14.8万亿token上进行了预训练,确保了模型对多种语言和领域的广泛理解。

架构特点: 使用专家混合(MoE, Mixture of Experts)架构,该架构允许模型根据不同任务动态选择最合适的“专家”网络来处理特定类型的输入。 引入多头潜在注意力(MLA, Multi-head Latent Attention),以提升长文本理解和生成的能力。 通过Device-Limited Routing等技术优化了分布式训练中的通讯效率。

性能表现: 在知识、长文本、代码、数学等多个评测指标上超越了其他开源模型如Qwen2.5-72B和Llama-3.1-405B,并且与GPT-4o和Claude-3.5-Sonnet等顶尖闭源模型相媲美。

应用场景: 适用于对话系统、文本生成、编程辅助、数学问题解答等多种自然语言处理任务。

开放性: 提供了原生FP8权重及BF16转换脚本,方便社区进行适配和应用;同时支持SGLang、LMDeploy、TensorRT-LLM和MindIE等推理框架。

DeepSeek性能对比

DeepSeek系列大模型在性能上展现了其独特的竞争力,尤其是在性价比方面。

DeepSeek-V3的训练成本显著低于GPT-4o和Claude-3.5-Sonnet,同时它提供的API调用价格也远低于竞争对手,这使得DeepSeek-V3对于中小企业和个人开发者来说更具吸引力。

根据HumanEval评测集上的表现,DeepSeek-V3得分为90.2%,几乎追平了GPT-4o的91.0%分数,在代码生成任务中表现出色。

在某些基准测试(如mmlu-pro、gpqa-diamond)中,DeepSeek-V3的表现超过了GPT-4o,显示出其在特定领域的强大能力。

局限性 尽管DeepSeek-V3支持最长13万Token的上下文长度,但相比于GPT-4o和Claude-3.5-Sonnet的200万Token,这个数字显得较小,可能影响到处理需要大量上下文信息的任务时的表现。

DeepSeek-V3在首字响应时间和每秒生成Token的数量上略逊于GPT-4o,不过考虑到其成本效益,这些差距是可以接受的。 凭借其高性价比和开源特性,DeepSeek-V3在多个领域展现出广阔的应用前景。无论是自然语言处理、文本生成还是智能客服等领域,DeepSeek-V3都有潜力成为开发者的首选工具。此外,对于那些希望降低AI使用成本而不牺牲太多性能的企业而言,DeepSeek-V3提供了一个非常有吸引力的选择。

DeepSeek的独特优势

训练成本低:DeepSeek-V3的训练成本仅为558万美元,远低于同级别模型如GPT-4o和Claude-3.5-Sonnet的数十亿美元级别的训练成本。这得益于DeepSeek对模型架构进行了全方位创新,例如MLA(多头潜在注意力机制)和MoE(Mixture of Experts)架构的应用。

推理成本低廉:DeepSeek提供的API调用价格极低,每百万Token仅需0.48美元,相比其他模型动辄十几美元的价格,极大地降低了使用门槛。 MLA架构:DeepSeek引入了一种新的多头潜在注意力机制(MLA),显著减少了显存占用,降至传统MHA架构的5%-13%,从而提高了计算效率并降低了硬件要求。

MoE架构:通过将模型分解为多个“专家”模块,每个专家专注于特定类型的输入数据处理,实现了高效的任务分配和资源利用。这种结构不仅增强了模型的灵活性和适应性,还允许随着任务复杂度增加而简单扩展性能,无需大规模调整整个架构。 完全开源:DeepSeek选择了一条不同于大多数竞争对手的道路,坚持开源路线。这意味着开发者可以自由访问、修改和分发DeepSeek的代码和技术成果,促进了社区协作和技术共享。

商业授权宽松:除了开源之外,DeepSeek还提供了免费商用授权政策,支持包括商业目的在内的任何合法用途,这对于中小企业和个人开发者来说是一个巨大的吸引力。 性能表现优异:在文本生成、语义理解、情感分析等多个子任务上的准确率均高于前代产品和其他竞争者,尤其在中文语境下的表现尤为突出。

代码生成能力:根据HumanEval评测集的数据,DeepSeek-V3在代码生成任务中的得分达到了90.2%,几乎追平了GPT-4o的表现。

特定任务超越:在某些基准测试中,如mmlu-pro、gpqa-diamond等,DeepSeek-V3的表现超过了GPT-4o,显示出了其在特定领域的强大能力。

DeepSeek核心技术

DeepSeek的MLA(Multi-head Latent Attention)与MoE(Mixture of Experts)架构是其核心技术亮点,这两项创新显著提升了模型的性能和效率。

MLA和MoE架构共同构成了DeepSeek系列模型的技术基石,它们不仅解决了传统Transformer模型中存在的计算效率问题,还在模型性能和资源利用率方面带来了质的飞跃。

小米在AI大模型的布局

随着各大手机厂商纷纷加大在AI领域的投入,小米也开始加快其在AI大模型上的布局。雷军对小米在大模型领域发力较晚感到担忧,因此亲自下场招揽顶尖人才,期望能在AI领域取得突破。

罗福莉不仅因为其过硬的技术实力被吸引到小米,而且她身上“天才AI少女”、“95后AI萝莉”的标签也非常符合小米的品牌形象。此外,小米拥有全球最大的IoT设备连接数(超过8.61亿),这为大模型技术提供了丰富的应用场景。

小米计划建设万卡级GPU集群,已拥有的GPU资源达到6500张以上,这些硬件设施将极大助力罗福莉及其团队的研究和发展。

罗福莉的加入无疑增强了小米AI实验室的实力,特别是在大模型研发方面。她的到来可能会加速小米在AI技术上的进步,尤其是在轻量化模型和本地部署方面的工作。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IT技术订阅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
生成式AI新星:DeepSeek-V3 与 GPT-4o 的对比分析
DeepSeek-V3 是 DeepSeek 公司推出的最新一代自研 MoE(Mixture of Experts)模型,拥有 671B 参数,激活 37B,并在 14.8T token 上进行了预训练。GPT-4o 是 OpenAI 推出的顶尖闭源模型,以其强大的通用性和多模态能力著称。以下将从多个维度对 DeepSeek-V3 和 GPT-4o 进行详细对比。
码事漫谈
2025/01/06
2.9K0
生成式AI新星:DeepSeek-V3 与 GPT-4o 的对比分析
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/27
1.1K0
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
DeepSeek R1&V3 原版论文摘要
论文还开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama的多个蒸馏模型,为研究社区提供了宝贵的资源。
用户11468258
2025/02/05
5550
DeepSeek R1&V3 原版论文摘要
DeepSeek V3被吹三天了,今天试了一下自称是“ChatGPT” model ?
根据官方技术论文,DeepSeek-V3的训练成本为 557.6万美元,远低于 GPT-4o 等闭源模型的 1亿美元,但依旧实现了与其性能相当的效果:
猫头虎
2024/12/31
22.9K1
DeepSeek V3被吹三天了,今天试了一下自称是“ChatGPT” model ?
DeepSeek V3把训练大模型的成本给干下来了
一夜之间,DeepSeek突然之间炸场,各个大佬都在纷纷转发,而且发布即开源,直接用50多页的论文公布了其训练细节
算法一只狗
2024/12/29
5.1K0
DeepSeek V3把训练大模型的成本给干下来了
人人都看得懂的DeepSeek入门科普
当大家都在好奇下一代AI会怎样改变我们的工作与生活时,中国公司 DeepSeek 正以惊人的速度和态度闯进大众视野。它究竟是什么,能做什么,又为何能在AI热潮里高调崭露头角?本文带你了解 DeepSeek 及其最新推出的两款大模型,顺便一起讨论它如何搅动整个 AI 行业的水面。
AI粉嫩特工队
2025/05/15
2450
人人都看得懂的DeepSeek入门科普
颠覆时代!DeepSeek登场后,英伟达股价一夜蒸发17%!算力封锁还有意义吗?
从前大家都认为,要训练一个大模型往往需要大规模的算力集群才能够搞出一个ChatGPT出来。
算法一只狗
2025/01/28
1660
颠覆时代!DeepSeek登场后,英伟达股价一夜蒸发17%!算力封锁还有意义吗?
超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen
中国人工智能初创公司 DeepSeek 于2024年12月26日发布了一种新的超大模型:DeepSeek-V3。
大脸猫不吃鱼
2025/02/05
2000
超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen
万字长文详解DeepSeek核心技术
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/18
2.3K0
万字长文详解DeepSeek核心技术
DeepSeek-R2 倒计时?或将由华为芯片驱动
最近都在传 DeepSeek R2 要在五一发布,本文基于近期信息的综合整理,涵盖其技术特点、发布计划及市场影响等方面。
Ai学习的老章
2025/06/08
1.3K0
DeepSeek-R2 倒计时?或将由华为芯片驱动
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
2025年4月6日,HuggingFace 正式发布了 Transformers v4.51.0,本次更新堪称 AI 界的“超级大礼包”!不仅新增了 Meta 的 Llama 4、微软的 Phi4-Multimodal、深度求索的 DeepSeek-V3 以及 Qwen3 四大重量级模型,还优化了多项功能,修复了诸多 Bug,让 AI 开发者们直呼“真香”!
福大大架构师每日一题
2025/04/07
7790
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
DeepSeek 模型:架构创新与实际应用详解
DeepSeek 模型是近年来在自然语言处理(NLP)领域备受瞩目的开源大规模语言模型系列。其最新版本 DeepSeek-V3 采用了混合专家(Mixture-of-Experts,MoE)架构,拥有 6710 亿个参数,每个词元(token)激活 370 亿个参数。该模型在多项基准测试中表现出色,性能媲美 GPT-4 和 Claude 等领先的闭源模型。以下将详细介绍 DeepSeek 模型的架构、用途,并通过具体案例和源代码展示其应用。
编程小妖女
2025/01/16
5.8K0
DeepSeek 模型:架构创新与实际应用详解
【愚公系列】《高效使用DeepSeek》003-DeepSeek文档处理和其他顶级 AI模型的区别
DeepSeek的核心竞争力在于垂直领域深度优化+高效架构设计,尤其适合技术文档解析、专业报告生成等场景;而GPT-4、Gemini在开放域创意生成、多模态交互上更具优势。未来,随着开源生态的完善,DeepSeek或将在企业级市场进一步扩大优势,而大厂模型需在成本与专业化之间寻求平衡。
愚公搬代码
2025/03/17
1810
刷爆朋友圈!GitLab停止中国区用户访问,60天迁移干净!"AI界拼多多"-DeepSeek-V3模型开源!
最近,全球排名第二的开源代码托管服务平台GitLab宣布了一个重要决定:将不再为中国大陆、中国澳门和中国香港地区的用户提供GitLab.com的账户服务。如果您尝试访问GitLab的官方网站,将会看到一个提示界面,建议用户转向国内授权的版本——极狐GitLab.cn。
码农突围
2024/12/30
6620
刷爆朋友圈!GitLab停止中国区用户访问,60天迁移干净!"AI界拼多多"-DeepSeek-V3模型开源!
MoE(Mixture-of-Experts)大模型架构的优势是什么?
在其MOE架构中,引入了路由专家 (Routed Experts) 和共享专家 (Shared Experts) 。主要是用来激活那些参数需要被更新。
算法一只狗
2025/01/01
6290
MoE(Mixture-of-Experts)大模型架构的优势是什么?
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.5K0
深入了解Deepseek模型的最佳三篇论文
DeepSeek与GPT技术架构深度解析
在人工智能技术飞速发展的今天,大规模预训练语言模型(LLM)已成为推动行业进步的核心引擎。OpenAI的GPT系列与中国的DeepSeek(深度求索)分别代表了两种截然不同的技术路径:前者以密集Transformer架构和闭源生态构建通用智能的标杆,后者则通过混合专家(MoE)架构与开源战略开辟高性价比的垂直赛道。本文将从架构设计、训练优化、性能表现、应用适配等多个维度,系统剖析两者的技术差异与创新逻辑。
用户7353950
2025/02/05
1.5K0
DeepSeek与GPT技术架构深度解析
DeepSeek:大模型跃迁AGI,探索智能新航道(17/18)
文章摘要:文章详细介绍了DeepSeek在AI领域的发展历程、技术创新、开源策略以及其在迈向通用人工智能(AGI)过程中的成就与挑战。DeepSeek凭借其独特的技术路径,如混合专家(MoE)架构、多头潜在注意力(MLA)等,在大模型领域迅速崛起,展现出强大的性能和广泛的应用潜力。其开源策略推动了全球AI技术的普及和发展,同时也在智能开发、科学计算、企业决策等多个领域实现了深度应用。尽管面临诸多挑战,DeepSeek仍展现出巨大的发展潜力,为AGI的实现奠定了坚实基础。
正在走向自律
2025/03/23
2620
DeepSeek:大模型跃迁AGI,探索智能新航道(17/18)
小升级,大爆发!DeepSeek-R1-0528悄然上线却引发全球开发者狂热
2025年,人工智能领域的竞争如火如荼,中国AI初创公司DeepSeek凭借其高效、低成本的大语言模型(LLM)持续引发全球关注。继今年1月发布广受好评的DeepSeek-R1模型后,DeepSeek于5月28日晚悄然推出了小版本升级——DeepSeek-R1-0528。这次更新虽未大张旗鼓,却在代码能力、长文写作和响应速度上带来显著提升,进一步巩固了DeepSeek在全球AI竞赛中的地位。本文将深入探讨DeepSeek-R1-0528的技术亮点、与之前DeepSeek模型的对比、与国外最新模型的对比,以及其对行业的影响。
用户11658894
2025/06/03
4450
当中科院还在摸索时,DeepSeek用AI大模型颠覆了整个科技圈!为啥中科院干不出一个DeepSeek?
家人们!今天要带你们吃一个科技圈核弹级大瓜——当国家队中科院还在实验室里苦修“内功”时,一家成立不到3年的杭州小公司,竟用1/20的成本造出了碾压GPT-4的AI大模型!更劲爆的是,这家公司的创始人,竟然是个每天穿着拖鞋写代码的80后程序员!
AI研思录
2025/02/20
1190
当中科院还在摸索时,DeepSeek用AI大模型颠覆了整个科技圈!为啥中科院干不出一个DeepSeek?
推荐阅读
相关推荐
生成式AI新星:DeepSeek-V3 与 GPT-4o 的对比分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档