近日,雷军以千万级别的年薪成功挖角了95后的AI天才少女罗福莉。罗福莉是一位在人工智能领域特别是自然语言处理(NLP)方面有着卓越成就的年轻科学家。
罗福莉硕士毕业于北京大学计算语言学研究所,在研二时就在国际顶级会议ACL上发表了8篇论文(其中2篇为第一作者),成为当时学术界的焦点人物,并因此登上知乎热搜。
职业经历
加入阿里达摩院机器智能实验室,主导开发多语言预训练模型VECO,并参与AliceMind开源项目。
之后加入幻方量化从事深度学习相关策略建模和算法研究。
最后加入DeepSeek担任深度学习研究员,参与了MoE大模型DeepSeek-V2的研发工作。
技术成就
1. 顶级会议论文发表 罗福莉在国际顶级会议ACL(Association for Computational Linguistics)上发表了多篇重要论文,特别是在2019年一次性发表了8篇论文,其中2篇为第一作者,这些成果奠定了她在自然语言处理(NLP)领域的学术地位。 2. 词义消歧方法和文本风格转换框架 她提出的词义消歧方法和文本风格转换框架等研究成果推动了NLP领域的发展,并引起了广泛关注。
3. VECO多语言预训练模型 在阿里达摩院期间,罗福莉主导开发了跨语言预训练模型VECO。该模型是AliceMind开源项目的一部分,成功应用于阿里巴巴内部多个核心业务中,日均调用次数达到50亿次,活跃场景超过200个,展示了其在实际应用中的强大效能。 4.DeepSeek-V2大模型 2022年加入DeepSeek后,罗福莉担任深度学习研究员,参与研发MoE(Mixture of Experts)架构的大模型DeepSeek-V2。这款模型不仅在性能上取得突破,还在成本效益上实现了重大优化,提供了仅1元/百万输入Tokens的服务价格,远低于GPT-4的成本,极大地提升了大模型的普及性和应用广度,受到业界的高度评价。
2024年底,罗福莉应小米创始人雷军之邀,加盟小米AI实验室,担任领导职务,负责组建和领导大模型团队。她的加盟被视为小米在AI大模型领域的重要战略布局,预计将带来协同效应,提升小米设备的智能化水平,实现多设备的协同工作,助力“小米生态链”战略的全面推进。
DeepSeek-V3
参数规模:6710亿参数,激活参数为370亿。 训练数据:在14.8万亿token上进行了预训练,确保了模型对多种语言和领域的广泛理解。
架构特点: 使用专家混合(MoE, Mixture of Experts)架构,该架构允许模型根据不同任务动态选择最合适的“专家”网络来处理特定类型的输入。 引入多头潜在注意力(MLA, Multi-head Latent Attention),以提升长文本理解和生成的能力。 通过Device-Limited Routing等技术优化了分布式训练中的通讯效率。
性能表现: 在知识、长文本、代码、数学等多个评测指标上超越了其他开源模型如Qwen2.5-72B和Llama-3.1-405B,并且与GPT-4o和Claude-3.5-Sonnet等顶尖闭源模型相媲美。
应用场景: 适用于对话系统、文本生成、编程辅助、数学问题解答等多种自然语言处理任务。
开放性: 提供了原生FP8权重及BF16转换脚本,方便社区进行适配和应用;同时支持SGLang、LMDeploy、TensorRT-LLM和MindIE等推理框架。
DeepSeek性能对比
DeepSeek系列大模型在性能上展现了其独特的竞争力,尤其是在性价比方面。
DeepSeek-V3的训练成本显著低于GPT-4o和Claude-3.5-Sonnet,同时它提供的API调用价格也远低于竞争对手,这使得DeepSeek-V3对于中小企业和个人开发者来说更具吸引力。
根据HumanEval评测集上的表现,DeepSeek-V3得分为90.2%,几乎追平了GPT-4o的91.0%分数,在代码生成任务中表现出色。
在某些基准测试(如mmlu-pro、gpqa-diamond)中,DeepSeek-V3的表现超过了GPT-4o,显示出其在特定领域的强大能力。
局限性 尽管DeepSeek-V3支持最长13万Token的上下文长度,但相比于GPT-4o和Claude-3.5-Sonnet的200万Token,这个数字显得较小,可能影响到处理需要大量上下文信息的任务时的表现。
DeepSeek-V3在首字响应时间和每秒生成Token的数量上略逊于GPT-4o,不过考虑到其成本效益,这些差距是可以接受的。 凭借其高性价比和开源特性,DeepSeek-V3在多个领域展现出广阔的应用前景。无论是自然语言处理、文本生成还是智能客服等领域,DeepSeek-V3都有潜力成为开发者的首选工具。此外,对于那些希望降低AI使用成本而不牺牲太多性能的企业而言,DeepSeek-V3提供了一个非常有吸引力的选择。
DeepSeek的独特优势
训练成本低:DeepSeek-V3的训练成本仅为558万美元,远低于同级别模型如GPT-4o和Claude-3.5-Sonnet的数十亿美元级别的训练成本。这得益于DeepSeek对模型架构进行了全方位创新,例如MLA(多头潜在注意力机制)和MoE(Mixture of Experts)架构的应用。
推理成本低廉:DeepSeek提供的API调用价格极低,每百万Token仅需0.48美元,相比其他模型动辄十几美元的价格,极大地降低了使用门槛。 MLA架构:DeepSeek引入了一种新的多头潜在注意力机制(MLA),显著减少了显存占用,降至传统MHA架构的5%-13%,从而提高了计算效率并降低了硬件要求。
MoE架构:通过将模型分解为多个“专家”模块,每个专家专注于特定类型的输入数据处理,实现了高效的任务分配和资源利用。这种结构不仅增强了模型的灵活性和适应性,还允许随着任务复杂度增加而简单扩展性能,无需大规模调整整个架构。 完全开源:DeepSeek选择了一条不同于大多数竞争对手的道路,坚持开源路线。这意味着开发者可以自由访问、修改和分发DeepSeek的代码和技术成果,促进了社区协作和技术共享。
商业授权宽松:除了开源之外,DeepSeek还提供了免费商用授权政策,支持包括商业目的在内的任何合法用途,这对于中小企业和个人开发者来说是一个巨大的吸引力。 性能表现优异:在文本生成、语义理解、情感分析等多个子任务上的准确率均高于前代产品和其他竞争者,尤其在中文语境下的表现尤为突出。
代码生成能力:根据HumanEval评测集的数据,DeepSeek-V3在代码生成任务中的得分达到了90.2%,几乎追平了GPT-4o的表现。
特定任务超越:在某些基准测试中,如mmlu-pro、gpqa-diamond等,DeepSeek-V3的表现超过了GPT-4o,显示出了其在特定领域的强大能力。
DeepSeek核心技术
DeepSeek的MLA(Multi-head Latent Attention)与MoE(Mixture of Experts)架构是其核心技术亮点,这两项创新显著提升了模型的性能和效率。
MLA和MoE架构共同构成了DeepSeek系列模型的技术基石,它们不仅解决了传统Transformer模型中存在的计算效率问题,还在模型性能和资源利用率方面带来了质的飞跃。
小米在AI大模型的布局
随着各大手机厂商纷纷加大在AI领域的投入,小米也开始加快其在AI大模型上的布局。雷军对小米在大模型领域发力较晚感到担忧,因此亲自下场招揽顶尖人才,期望能在AI领域取得突破。
罗福莉不仅因为其过硬的技术实力被吸引到小米,而且她身上“天才AI少女”、“95后AI萝莉”的标签也非常符合小米的品牌形象。此外,小米拥有全球最大的IoT设备连接数(超过8.61亿),这为大模型技术提供了丰富的应用场景。
小米计划建设万卡级GPU集群,已拥有的GPU资源达到6500张以上,这些硬件设施将极大助力罗福莉及其团队的研究和发展。
罗福莉的加入无疑增强了小米AI实验室的实力,特别是在大模型研发方面。她的到来可能会加速小米在AI技术上的进步,尤其是在轻量化模型和本地部署方面的工作。