首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepSeek-V3.1模型在下一盘很大的棋

DeepSeek-V3.1模型在下一盘很大的棋

作者头像
AIGC新知
发布2025-09-04 11:38:42
发布2025-09-04 11:38:42
15100
代码可运行
举报
文章被收录于专栏:AIGC新知AIGC新知
运行总次数:0
代码可运行

今天下午,Deepseek官方正式官宣了DeepSeek-V3.1模型的技术细节。

首先,它是一个混合推理模型,它既能保持思考,也能面对简单任务时保持非思考模式,比如面对1+1=?这种问题就能智能作出选择。

所以它有两种模式:非思考模式下你可以看成是对话模型,比如原来的Deepseek V3模型,思考模式下你就当他是Deepseek-R1模型,

这两种模型的上下文成都都是128k,只不过输出长度稍微有差异,需要注意。

官方APP和网页端已经全部进行了升级,通过“深度思考”按钮,就能实现思考模式与非思考模式的自由切换。

在思考效率上,比前代模型更快更强,面对复杂问题更加智能,面对简单问题不会作出那种弱智的判断。

还有一个,是在智能体任务里面表现更加优秀。

这里着重介绍的是,最新的V3.1模型支持了对 Anthropic API 格式,也就是说,在claude code里面就可以调用V3.1模型额。

接下来手把手带你配置。

Claude Code使用DeepSeek-V3.1模型

首先安装 Claude Code。

代码语言:javascript
代码运行次数:0
运行
复制
npm install -g @anthropic-ai/claude-code

然后在终端配置环境变量。

代码语言:javascript
代码运行次数:0
运行
复制
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN=${DEEPSEEK_API_KEY}
export ANTHROPIC_MODEL=deepseek-chat
export ANTHROPIC_SMALL_FAST_MODEL=deepseek-chat

配置好之后,就可以执行claude命令,开始使用了。

代码语言:javascript
代码运行次数:0
运行
复制
claude

然后我跑了两个case,整体体验下来,V3.1模型很快,生成效果非常不错,模型做了很大程度上的优化。

第一个是让他帮我做一个3D打地鼠的游戏,比较简单。

第二个是让他帮我做动漫跑酷类游戏,这种稍微难一点,比如说场景,人物技能,姿势等等。

场景类的,我修bug修了一会,目前渲染不出来。

智能体支持工具调用,能力增强

V3.1模型目前在智能体任务方面表现更强。

根据官方描述,主要是在编程智能体执行不同任务方面,比如说代码修复、终端复杂任务中,能力明显提高。

这块可以在腾讯的codebuddy里面进行体验。

在搜索任务方面,这么说吧,最难的多步骤推理任务和多学科的专家级难题它都能拔得头筹,V3.1模型的能力毋庸置疑的强。

最后再说说定价吧,这是大家最关心的,可以看看这个表

在9月6日 00:00之前,执行如下的价格:

之后就开始涨价了,但是也不贵,基本折中在思考模型的价格之下,取了对话模型和思考模型的折中价格。

另外,他们也把V3.1的Base模型和后训练模型开源了,模型的价格进一步被打下来了,性能也越来越好。

Base 模型:

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

魔搭:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Base

后训练模型:

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1

魔搭:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1

写在最后

透露一个信息,评论区的这句话才是最关键的点。

DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度。

这表明其实它是为国产化芯片设计的一个模型,与V3模型存在明显差异,主要是在分词器及 chat template方面。

期待更多惊喜。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC新知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Claude Code使用DeepSeek-V3.1模型
  • 智能体支持工具调用,能力增强
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档