首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

太震撼!DeepSeek用226台H800服务器,日赚409万!

大周末的,DeepSeek悄么声放了个大招。

他们知乎官号发了一篇雄文,披露了【如何对DeepSeek V3/R1的推理系统进行优化】,文章有2大核心内容

一、如何通过优化架构,让模型推理获得更大的吞吐和更低的延迟

简单概括就是三板斧

大规模跨节点专家并行

计算-通信重叠优化

多级负载均衡策略

前两步可以提升吞吐、降低延迟,而第三步用于优化GPU的占用率。

DeepSeek在线推理系统架构图

二、测算一下:在这种优化架构下,按照目前DeepSeek官方的收费策略,一天能赚多少钱

DeepSeek在文中给出了这样一个典型“优化推理”系统的投入产出比,也就是说,成本多少钱,能赚多少钱。

这些数据是基于正在运营的线上系统实测得来的,可参考性极高。

看第一张图,最近24小时内(2月27日12点-2月28日12点),DeepSeek V3 和 R1 推理服务占用GPU节点总和

峰值占用为278个节点,平均占用 226.75个节点(每节点为 8个H800GPU)。

如果按每GPU租金2美金/小时来计算,总成本为2×226.75×8×24=$87,072/天。

而在对应的时间内,产生的Tokens数量和收入是多少呢?

总输入:608B(其中56.3%命中硬盘中的KV Cache);总输出:168B

平均每台H800服务器的吞吐量为:73.7k tokens/s (输入)、14.8k tokens/s(输出)。

不得不说,DeepSeek优化完的推理系统性能真是高啊!

各家一体机厂商可以自己比一比,只有几K甚至几百tokens的单机还好意思拿出来么?

接下就是收入估算,在这24小时里,理论总收入是$562027(折合人民币约409万),成本利润率高达545%!

(当然DeepSeek官方也说了,实际收入没有这么多,因为web版目前免费、API夜间还打折,还有V3比R1便宜)

但是,这个收益已经足够震撼!

只能说,DeepSeek真太牛了。

有圈内人士说,DeepSeek这个发布,为实际项目带来了极大的参考价值!

就是别瞎来!

因为,接下来对算力黄牛来说,挑战来了——

这个数字几乎是算力生意ROI的天花板,大家再画饼的时候,不要要超过这个数哦,否则这饼就不圆了。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O0T-o4qdEEMpFmerXeeiDaog0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券