首页
学习
活动
专区
圈层
工具
发布
首页标签DeepSeek

#DeepSeek

DeepSeek V4模型原理

aaronwjzhao

这个Attention有三块功能构成:1.KV Compressor负责把N个token的KV压缩成1个,在DeepSeek V4系列模型里,N=4。2.Lig...

900

DeepSeek-V4 实战——我用国产大模型重写了3个项目

烟雨平生

我的三个项目,原来用 GPT-5.5,每月 token 消耗 500 万,成本约 4400 元。切到 DeepSeek-V4 后,同样的用量,成本降到 450 ...

2500

Claude Code 接入 DeepSeek V4 实战:400 万 Tokens 从 26 降到 2

码哥字节

然后 2026 年 4 月 24 日,DeepSeek 发布了 V4,并在三天后(今天,4 月 27 日)宣布 V4-Pro 限时降价 75%。我把 Claud...

35210

把 API 从 GPT 切到 DeepSeek V4,费用降了 4.3 倍,省了钱,也踩了这些坑

码哥字节

上个月有个朋友把他们产品的 LLM 调用账单发给我看,每天 300 万 output token,GPT-5.4 收 ,一个月光是费用就快14,000。

8910

打脸外界!梁文锋留住 97% 员工,DeepSeek 没凉

王新栋

DeepSeek 这家公司,从头到尾都在走 “反共识” 的路。别人抢资深大牛,他招清北应届毕业生,看重热情和创造力,不看资历;别人快速迭代、疯狂发版,他憋了 1...

5910

DeepSeek V4炸场背后:硅谷在“造墙”,中国在“修路”

Alter聊科技

时间回到一年多前,DeepSeek-R1的横空出世,为狂奔的大模型创业赛踩了一脚刹车,进入决赛圈的大模型“六小虎”首当其冲。和硅谷最大的区别,DeepSeek没...

5510

vLLM 最新版来了,修复 DeepSeek-V4 跑不稳、跑不快的问题

Ai学习的老章

劳动节假期还没过完,vLLM 团队就给我加了道菜——0.20.1 紧急 patch 出炉了,主线就一句话:把 DSV4 跑不稳、跑不快的问题集中处理一遍

27030

DeepSeek 新论文,多模态的正确打开方式

Ai学习的老章

下图是它的整体架构和训练流程,基于 DeepSeek-V4-Flash(284B 总参 / 13B 激活的 MoE)和自研的 DeepSeek-ViT:

5610

DeepSeek-V4 本地部署,SGLang 把活做绝了

Ai学习的老章

今天换个角度,从架构和推理引擎的视角聊聊:DeepSeek-V4 这次发布为啥这么难伺候,以及 SGLang Day-0 是怎么把活给做下来的

20920

DeepSeek-V4-Flash 本地部署,2 x H20(96GB版本),性能简测

Ai学习的老章

5、日志显示 Using DeepSeek's fp8_ds_mla KV cacheformat。这是 DeepSeek 的“独门绝技”,通过低秩压缩技术(M...

29920

分享免费体验gpt-image-2、deepseek v4的途径

子晓聊技术

最近gpt-image-2生图、 deepseek v4模型比较火, 有同学想尝试一把。问我有没有推荐的途径

12710

划时代发布!DeepSeek-V4 预览版重磅登场,百万上下文从此普惠

Al1ex

2026年4月24日,DeepSeek正式推出了全新一代模型DeepSeek-V4预览版,这是继上一代V3系列之后时隔15个月的重磅更新。新模型不仅全面开源权重...

17610

DeepSeek 新视觉模型论文:以视觉原语思考让 AI 学会"指图说话"

勇哥AI笔记

? Figure 2 (a) 模型架构图:DeepSeek-ViT 提取视觉特征 → 3×3 压缩 → 与语言指令拼接 → DeepSeek-V4-Flash(...

17810

GLM-5.1上线一个多月了,现在讨论变少了,我反而想聊聊它

Luo rr

3月底GLM-5.1刚出来那会儿,群里到处是评测帖,评论区两级分化。有人吹“国产之光”,有人骂“不好用,不如多花点钱上Claude”。

34740

用DeepSeek写论文、豆包出试卷、元宝写报告,导出Word就崩?教师|毕业生|职场,47个场景一次搞定

FormatAI

用DeepSeek写论文、用豆包出试卷、用元宝写报告,生成的时候看着整整齐齐,一复制到Word里,全崩了。公式变乱码,表格边框消失,代码块的缩进全没。

10121

dotnet 对接 DeepSeek 模型工具调用时 400 错误

林德熙

为了解决这个问题,我采用了 walterlv 封装的 DeepSeekChatClient 实现,它完全兼容 Microsoft.Extensions.AI 的...

32610

在MacBook Air上部署OpenClaw并接入DeepSeek:AI Agent操作系统的初体验

一根头发丝的宽度

和普通 AI 聊天机器人不同,OpenClaw 的目标是构建一个 可以自动执行任务的 AI Agent 平台。

22610

DeepSeek携手华为昇腾,推理成本暴降99%!

芯智讯

过去多年来,在人工智能(AI)算力市场上,英伟达的GPU凭借其强大的性能和CUDA生态优势,几乎所有大模型都奔跑在英伟达的芯片上。这也使得英伟达的GPU占据了超...

24810

DeepSeek-V4 vs GPT-5.5,24小时内的AI路线之争

mixlab

OpenAI 卖的是「智能密度」,DeepSeek 卖的是「民主化获取」。两种截然不同的 AI 未来想象,正在改写行业规则。

17310
领券