首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >我特别喜欢的三个DeepSeek版本

我特别喜欢的三个DeepSeek版本

作者头像
Ai学习的老章
发布于 2025-06-16 04:05:43
发布于 2025-06-16 04:05:43
2540
举报
图片
图片

大家好,我是 Ai 学习的老章

最近工作特别忙,写个短文

推荐三个我高频使用的 DeepSeek 模型

DeepSeek-R1-0528-Qwen3-8B

这是最新的 DeepSeek-R1-0528 思维链蒸馏提取后对 Qwen3-8B-Base 后训练而来:DeepSeek-R1-0528 蒸馏 Qwen3:8B 大模型,双 4090 本地部署,深得我心

这个模型我最喜欢的几个点:

  • 成本极低,模型文件 16GB,默认参数下,两张 4090 显卡顺畅运行
  • 性能很强,无论是各种 Bench 上的解释结果,还是我个人使用体验,打参数和模型文件都 4 倍与其的 Qwen32-B 都没问题
  • 速度极快,2 张 4090 启动时,90Tonken/s

目前 DeepSeek-R1-0528-Qwen3-8B 我主要用于知识库意图识别、问题改写、问题分类

缺点:无法关闭思考,我用 vllm 启动,用在 Dify 中,直接关闭还是提示词中加 no_think 都不行

DeepSeek-R1-0528

R1 的小版本升级,但是很明显,性能和推理能力都加强很多:DeepSeek R1 最新版本模型,排名第三

这个模型应该是 0 成本可以用到的最牛逼的模型了吧

网页版我倒是用的很少,主要是调 API,主要用在 Obsidian 上查资料,译,写文章

图片
图片

和在 Cursor 上写代码

图片
图片

缺点:很慢,Cursor 上写代码也不支持 Agent 模式

DeepSeek-V3-Fast

前段时间发现的一个小众版本DeepSeek-V3-Fast,它是DeepSeek V3 0324 的高 TPS 极速版

API 申清:

https://www.sophnet.com/#?code=IXFCAK

最大优点就是推理速度,快如闪电⚡️

图片
图片

目前我主要把它用在 Obsidian 做总结,还有沉浸式插件中当译 (真的快如闪电)

图片
图片

缺点是能力不及 R1,不稳定

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepSeek-V3-0324突然开源:不给任何介绍,依然碾压所有人
DeepSeek-V3新版本突然发布,而且一发布就直接开源。DeepSeek真的无愧为开源界的“源神”。
算法一只狗
2025/07/03
3560
本地部署大模型性能测试,DeepSeek-R1-0528-Qwen-8B 依然是我的不二之选
看一下我高频使用的,在2*4090显卡上部署的 DeepSeek-R1-0528-Qwen-8B 性能如何
Ai学习的老章
2025/06/25
4670
本地部署大模型性能测试,DeepSeek-R1-0528-Qwen-8B 依然是我的不二之选
20GB 内存,本地运行 DeepSeek-R1-0528
Reddit 看到一个帖子,探讨如何极限情况下运行 DeepSeek-R1-0528
Ai学习的老章
2025/06/26
4220
20GB 内存,本地运行 DeepSeek-R1-0528
小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型
上月底,小米开源了一个大模型:MiMo-7B,它从零开始训练并专为推理任务设计的模型系列。通过优化的预训练和后训练策略,MiMo-7B 展现出了超越许多更大模型的推理潜力。
Ai学习的老章
2025/06/04
1810
小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型
DeepSeek R1 模型小版本升级,DeepSeek-R1-0528都更新了哪些新特性?
DeepSeek 团队今日发布 DeepSeek‑R1‑0528 —— 基于 DeepSeek V3 Base(2024‑12) 的小版本升级。 无论是官网、App、小程序还是 API,打开 “深度思考” 即可直接体验。
猫头虎
2025/05/31
7210
DeepSeek R1 模型小版本升级,DeepSeek-R1-0528都更新了哪些新特性?
一个超强的代码Agent大模型,开源了,本地部署
Mistral AI 是一家位于法国的人工智能初创公司,成立于 2023 年 4 月。由曾在 Google DeepMind 工作的 Arthur Mensch,以及曾在 Meta AI 工作的 Guillaume Lample 和 Timothée Lacroix 共同创立。
Ai学习的老章
2025/06/04
2250
一个超强的代码Agent大模型,开源了,本地部署
开源大模型, 重量级选手+1
MiniMax-M1 采用了创新的混合专家模型(MoE)架构结合闪电注意力机制(Lightning Attention),优势有三:
Ai学习的老章
2025/06/17
2690
大模型玩游戏,Deepseek-R1-0528 太强了
https://x.com/haoailab/status/1929997363407708646
Ai学习的老章
2025/06/08
1600
大模型玩游戏,Deepseek-R1-0528 太强了
DeepSeek-R1 更新,效果重回第一梯队
目前我比较推荐的还是 DeepSeek 来进行 AI 问答,特别是它更新了R1 之后,其模型能力重回第一梯度。
算法一只狗
2025/06/30
3670
DeepSeek-R2 倒计时?或将由华为芯片驱动
最近都在传 DeepSeek R2 要在五一发布,本文基于近期信息的综合整理,涵盖其技术特点、发布计划及市场影响等方面。
Ai学习的老章
2025/06/08
3.1K0
DeepSeek-R2 倒计时?或将由华为芯片驱动
小升级,大爆发!DeepSeek-R1-0528悄然上线却引发全球开发者狂热
2025年,人工智能领域的竞争如火如荼,中国AI初创公司DeepSeek凭借其高效、低成本的大语言模型(LLM)持续引发全球关注。继今年1月发布广受好评的DeepSeek-R1模型后,DeepSeek于5月28日晚悄然推出了小版本升级——DeepSeek-R1-0528。这次更新虽未大张旗鼓,却在代码能力、长文写作和响应速度上带来显著提升,进一步巩固了DeepSeek在全球AI竞赛中的地位。本文将深入探讨DeepSeek-R1-0528的技术亮点、与之前DeepSeek模型的对比、与国外最新模型的对比,以及其对行业的影响。
用户11658894
2025/06/03
5820
清华大学开源赤兔大模型推理引擎,DeepSeek 推理成本减半,吐字效率翻倍
最近 DeepSeek 火爆全网,相信不少同学都看过所谓的清华大学 DeepSeek 提示词教程(笑)。清华大学是真干实事,近日开源最新的大模型推理引擎赤兔(chitu),是一个专注于效率、灵活性和可用性的高性能大语言模型推理框架。
AgenticAI
2025/03/18
2400
清华大学开源赤兔大模型推理引擎,DeepSeek 推理成本减半,吐字效率翻倍
支持100 万 token 上下文的大模型——MiniMax- M1
再看一遍 Minimax-M1,本来拿着它与 DeepSeek-R1 对比使用的时候截了很多图,结果在桌面上不小心清掉了。。。
Ai学习的老章
2025/07/08
1780
支持100 万 token 上下文的大模型——MiniMax- M1
大模型玩游戏,Deepseek-R1-0528太强了
DeepSeek-R1-0528 在玩俄罗斯方块时的出色表现,几乎与闭源模型如 OpenAI 的 o3 达到了相同的水准。
Ai学习的老章
2025/06/06
1160
DeepSeek R1推理
DeepSeek R1和DeepSeek V3的模型结构一致,参数量也一致,R1是基于V3做强化学习得来的。R1主要的创新点都用在训练过程,推理过程和V3是一样的。
aaronwjzhao
2025/02/06
2.7K1
手把手教你将本地部署的DeepSeek R1集成到Dify
今天,手把手教大家在本地部署DeepSeek R1,并将其集成到Dify中,实打实提升你的工作效率!
AIGC新知
2025/02/03
7.2K0
手把手教你将本地部署的DeepSeek R1集成到Dify
如何微调推理大模型?以Qwen3/DeepSeek-R1为例
刚好最近在做一个推理训练任务,现在有现成的训练集,推理模型这么强的情况下,怎么把之前传统对话大模型+指令微调训练模式 转变成推理大模型+指令微调任务?
致Great
2025/05/14
8680
如何微调推理大模型?以Qwen3/DeepSeek-R1为例
0528版本发布,DeepSeek-R1 迎来重大升级:数学、编程、逻辑能力大幅跃升,更强推理,更少“幻觉”!
亲爱的读者朋友们,国产大模型佼佼者 DeepSeek-R1 近日完成了重要版本升级——DeepSeek-R1-0528 正式发布!
AI浩
2025/06/08
5340
0528版本发布,DeepSeek-R1 迎来重大升级:数学、编程、逻辑能力大幅跃升,更强推理,更少“幻觉”!
单卡复现 DeepSeek R1 Zero教程来了!
项目代码可见:unlock-deepseek/Datawhale-R1(https://github.com/datawhalechina/unlock-deepseek),欢迎关注和 star!
Datawhale
2025/02/19
6410
单卡复现 DeepSeek R1 Zero教程来了!
【HuggingFace项目】:Open-R1 - DeepSeek-R1 大模型开源复现计划
Open-R1 是由 HuggingFace 发布的一个完全开放的项目,旨在通过三个主要步骤复现 DeepSeek-R1 的完整训练流程。这个项目的目标是让更多人能够理解和使用 DeepSeek-R1 的技术方案,从而推动大模型技术的发展和应用。
致Great
2025/01/27
6260
【HuggingFace项目】:Open-R1 - DeepSeek-R1 大模型开源复现计划
推荐阅读
相关推荐
DeepSeek-V3-0324突然开源:不给任何介绍,依然碾压所有人
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档