2025 年 2 月,全球科技界因一家中国公司的动作陷入躁动:成立仅两年的 AI 初创企业 深度求索(DeepSeek),却因一场技术革命与地缘博弈的叠加,站上了风暴中心。 从 2023 年成立到 2025 年席卷全球,DeepSeek 以 开源+低成本 的组合拳,不仅让硅谷巨头股价暴跌,更引发了一场关于“AI技术路径是否该被重写”的全球大讨论。本文将以时间为主线来深入了解 DeepSeek 的背景、发展历程,探寻它从发酵到爆火的原因,并对其面临的质疑进行分析。
DeepSeek 成立于 2023 年 5 月,由中国对冲基金 High-Flyer 创立并资助 。High-Flyer 的前身是由三位浙江大学的工程师在 2015 年设立,早在 2007 - 2008 年金融危机期间,他们还在学生时代就开始涉足股票交易,后来公司利用机器学习进行股票交易。2019 年,High-Flyer 成立了专门研究人工智能算法及其基础应用的 High-Flyer AI。到 2021 年,High-Flyer 的所有策略都在使用人工智能,这也为 DeepSeek 的成立和发展奠定了坚实的技术与资金基础。
2023 年 5 月中国AI初创公司深度求索(DeepSeek)成立,核心成员来自清华、北大及国际顶尖实验室,专注于通用大模型研发。团队早期未大规模曝光,但凭借在 NLP 领域的积累,迅速推出首个千亿参数模型 DeepSeek-v1,通过私有化部署服务金融、医疗等企业客户。
2023 年 11 月 DeepSeek 发布轻量级模型DeepSeek-Mini(70亿参数),以 Apache 2.0 协议开源,吸引开发者社区关注。其训练效率(单卡成本仅为行业平均的1/3)和长文本处理能力(支持16k上下文)成为技术圈讨论焦点。
2024 年 1 月完成首轮融资,红杉中国、高瓴资本领投,估值超10亿美元。
2024年 2 月发布 DeepSeek-MoE-16B 模型,采用混合专家架构(Mixture of Experts),以16B参数量实现接近GPT-4的推理能力,训练成本降低60%。论文登上 arXiv 后,Hugging Face下载量单周破 10 万次,被开发者称为“平民版GPT-4”。
2024 年 3 月与某国有银行合作落地智能客服系统,处理复杂金融问答的准确率达92%,较原有系统效率提升3倍。公众号“AI前线”报道后,B 端订单量月增 300%。
2024 年 4 月推出个人AI助手“DeepSeek Chat”,定价仅为ChatGPT Plus的1/5,支持多模态输入。用户实测其在中文古诗词生成、代码调试等场景表现优异,社交媒体话题#DeepSeek真香#阅读量破亿。
2024 年 5 月科技博主“AI狂人”发布视频《DeepSeek为什么让硅谷紧张?》,解析其技术路径和国产化替代潜力,播放量超 2000 万。同期,工信部发布《AI大模型创新发展白皮书》,点名 DeepSeek 为“自主可控标杆案例”。
2024 年 6 月首次举办线下大会,宣布推出 DeepSeek-2.0 架构,支持百万 token 上下文窗口,并开源多模态模型 DeepSeek-Vision。GitHub 星标数单日新增 2.4万,创中文项目纪录。
2024 年 7 月与某顶流明星合作推出虚拟偶像“DeepSeek-星瞳”,直播首秀吸引 500 万观众,但引发“AI替代人类创作者”伦理争议。同期,外媒《The Information》爆料其正筹备美股 IPO,估值或超200亿美元。
2024 年 8 月与东南亚和中东地区的多家科技公司达成合作,提供智能客服和语音助手服务。DeepSeek-R1 模型在东南亚电商平台的应用显著提升了用户转化率。 2024 年 10 月向开源社区贡献了多项技术成果,包括优化的自然语言处理算法和高效的分布式训练框架。开发者社区规模突破50万,成为全球最活跃的AI开源社区之一。
2025 年 1 月推出 DeepSeek-R2 模型,支持文本、语音、图像和视频的多模态处理,能耗降低25%,响应速度提升40%。该模型在医疗影像诊断和智能家居控制领域表现突出。
2024 年 12 月 26 日,DeepSeek 发布开源大模型 DeepSeek-V3,训练成本仅 557万美元,不到 OpenAI GPT-4 的1/20。这一数字的震撼性在于:它证明 “高算力投入=高性能模型”的行业法则已被颠覆。
在美国对华芯片禁令背景下,DeepSeek 团队用受限的英伟达 H800 GPU,通过 小数据集蒸馏算法 和 分布式训练优化,将训练周期压缩至 2 个月。硅谷工程师感叹:“他们用软件创新弥补了硬件短板,这才是真正的‘中国式突破’。”
在国内市场,AI 技术的应用尚处于快速普及阶段,众多中小企业和开发者对成本较为敏感。DeepSeek - V2 以超低的价格(每百万输出令牌仅需 2 元人民币)进入市场,成为中国 AI 模型价格战的导火索。这一价格策略使得原本因高昂成本而对 AI 技术望而却步的企业和开发者,能够以较低的门槛将 AI 技术融入自身业务或开发中。在国际市场,同样存在着对高性价比 AI 模型的需求。DeepSeek 的低价策略吸引了众多海外企业和开发者,就连亚马逊 AWS、微软 Azure 等全球云服务巨头也纷纷接入 DeepSeek 模型,进一步推动了其在全球市场的广泛应用。
360 董事长周鸿祎在 2025 年 2 月 3 日公开炮轰:“OpenAI名为开放,实则封闭;DeepSeek才是践行开源精神的真 ‘Open AI’。
低成本开源策略带来双重效应:
近期,国内云服务提供商阿里云、百度智能云、腾讯云等相继发文,纷纷宣布接入 DeepSeek 大模型。
华为云于 2 月 1 日宣布联合硅基流动首发并上线基于昇腾云服务的 DeepSeek R1/V3 推理服务。
腾讯云在 2 月 3 日宣布,DeepSeek - R1 大模型一键部署至腾讯云「HAI」上,开发者仅需 3 分钟就能接入调用。
阿里云也在 2 月 3 日宣布,阿里云 PAI Model Gallery 支持云上一键部署 DeepSeek - V3、DeepSeek - R1 。
海外的亚马逊 AWS、微软 Azure、英伟达 (Nvidia) 等全球多家科技巨头也陆续宣布接入 DeepSeek 模型。国内外巨头纷纷接入,这一系列动作不仅标志着 DeepSeek 大模型在商业化和应用落地方面迈出了重要一步,也侧面反映了 DeepSeek 技术实力获得认可,通过与巨头合作,DeepSeek 品牌知名度进一步提升,加速其爆火。
虽然 DeepSeek 在技术上取得了显著成果,如在模型训练成本控制和性能提升方面表现突出,但仍有部分、专家对其技术细节提出质疑。例如,DeepSeek 宣称采用了独特的训练算法来实现高效低成本的训练,但对于算法的具体细节披露较少,这引发了一些同行对其技术可重复性和创新性的疑问。一些人认为,在没有充分公开技术细节的情况下,难以判断其技术是否真的具有突破性,还是只是在现有技术基础上的优化。
荷兰隐私监管机构荷兰数据保护局于 2025 年 1 月 31 日表示,将对 DeepSeek 的数据收集行为展开调查,并敦促荷兰用户谨慎使用该公司的软件。荷兰数据保护局负责人阿莱德・沃尔夫森在声明中称,DeepSeek 的隐私政策以及其处理个人信息的方式引发严重担忧 。此前,意大利在 1 月 30 日屏蔽了 DeepSeek 的应用程序,爱尔兰和法国也都向 DeepSeek 索要其数据处理方式的相关信息。
美国封禁 DeepSeek 或许源于多方面因素。从技术层面来看,DeepSeek 的迅猛发展威胁到美国在 AI 领域的领先地位,其模型性能与成本优势使其在国际市场极具竞争力,冲击美国 AI 产业的全球市场份额。在数据安全方面,美国对数据安全极为敏感,在未充分了解 DeepSeek 数据处理方式时,可能以数据安全为由封禁。此外,地缘政治因素也促使美国通过封禁手段限制中国 AI 技术发展和国际影响力提升。
德克萨斯州州长 Greg Abbott 宣布在政府设备上禁止使用 DeepSeek 模型,成为首个采取此类措施的州,理由是防止 AI 和社交媒体应用渗透关键基础设施。美国国防部、国会、海军、NASA 也已相继禁用该模型。
1 月底,美国分别因安全、隐私及伦理问题禁止访问或使用 DeepSeek,担忧其可能收集敏感数据并被滥用。
在立法层面,美国国会正推动《2025 年美国人工智能能力与中国脱钩法案》,拟禁止从非本土进口 AI 模型,并对违规者处以高额罚款,甚至面临驱逐出境的风险。
企业方面,已有数百家公司(尤其是政府相关企业)屏蔽 DeepSeek。网络安全公司 Armis 披露约 70% 客户已请求限制访问,Netskope 52% 客户全面封锁。主要担忧 AI 模型可能导致数据泄露。
在 DeepSeek 技术成果引发广泛关注的同时,其较低的训练成本也成为业界焦点。虽然目前没有确切公开报道表明有哪些公司完整复现了 DeepSeek 的论文,但从 DeepSeek-V3 模型的相关数据和技术细节来看,其训练成本得到了一定程度的证实。 根据 DeepSeek-V3 论文介绍,其训练模型仅使用了 2048 张英伟达 H800 GPU,就达到了竞争对手用 16000 张英伟达 H100 GPU(H800 为 H100对华出口禁售的降配版,性能约为其一半)的模型训练效果 ,而研发投入仅 558 万美元,训练成本不到市场同类产品 GPT-4o 的二十分之一。DeepSeek 开发团队还采用了 模型压缩、专家并行训练、fp8混合精度训练等一系列创新技术降低成本。其中,fp8技术是一大亮点,它充分利用了 fp8 带来的计算和传输优势,同时为缓解 fp8 训练出现不稳定的情况,团队仅在模型一部分使用fp8,并在使用时对激活和权重做了细致的设计,在尽可能保证训练精度的情况下利用到fp8带来的计算和成本优势。这些技术的应用使得 DeepSeek 在较低成本下实现了高性能的模型训练。 DeepSeek 这种低成本的训练模式对英伟达股票产生了巨大影响。
2025 年 1 月 27 日美股交易日,因为 DeepSeek “只用不到十分之一的算力训练出了可媲美硅谷巨头的AI模型”,再度引发了市场对“算力过剩”的泡沫恐慌 。算力相关的半导体股在这次美股暴跌中遭受重创,英伟达跌近17%,博通跌超17%,台积电跌超13%,阿斯麦跌超5% 。短短一个交易日英伟达股价暴跌16.86%,市值蒸发近6000亿美元,创下美股单日最大跌幅纪录。 投资者担忧DeepSeek引领的“低成本AI大模型算力范式”会推动科技巨头们在短中期内大幅削减AI GPU订单。摩根士丹利在最新发布的报告中称,将 2025 年英伟达 GB200 出货量从此前的3万 - 3.5万大幅下调至2万 - 2.5万件,最差的情况出货量可能低于2万,可能导致 GB200供应链的市场影响达 300 亿至 350 亿美元。DeepSeek 的出现让市场开始重新审视AI模型训练对算力的需求,以及英伟达在AI芯片市场的地位和未来发展预期,这也是导致英伟达股票大跌的主要原因。 虽然英伟达声明称 DeepSeek 的进步反而证明了市场需要更多 AI 芯片,AI 推理仍然需要大量英伟达 GPU 和高性能网络,且其新一代产品需求旺盛,但 DeepSeek 带来的低成本算力浪潮已切实给业界带来冲击,未来其对英伟达及整个 AI 芯片市场的影响仍有待进一步观察。
这场始于杭州的 AI 革命,或许正在书写一个更具包容性的智能时代。而 DeepSeek 的未来,将不仅是商业故事,更是一场关于技术伦理与人类命运的宏大实验。DeepSeek 的崛起不仅是中国 AI 产业的里程碑,更是全球AI格局重塑的重要力量。其以技术普惠为核心,通过开源生态和全球化布局,正在重新定义AI的未来。随着技术的不断突破和应用场景的扩展,DeepSeek 有望在全球AI行业中占据更重要的地位,成为推动人类智能革命的关键参与者。