今天下午,Deepseek官方正式官宣了DeepSeek-V3.1模型的技术细节。
首先,它是一个混合推理模型,它既能保持思考,也能面对简单任务时保持非思考模式,比如面对1+1=?这种问题就能智能作出选择。
所以它有两种模式:非思考模式下你可以看成是对话模型,比如原来的Deepseek V3模型,思考模式下你就当他是Deepseek-R1模型,
这两种模型的上下文成都都是128k,只不过输出长度稍微有差异,需要注意。
官方APP和网页端已经全部进行了升级,通过“深度思考”按钮,就能实现思考模式与非思考模式的自由切换。
在思考效率上,比前代模型更快更强,面对复杂问题更加智能,面对简单问题不会作出那种弱智的判断。
还有一个,是在智能体任务里面表现更加优秀。
这里着重介绍的是,最新的V3.1模型支持了对 Anthropic API 格式,也就是说,在claude code里面就可以调用V3.1模型额。
接下来手把手带你配置。
首先安装 Claude Code。
npm install -g @anthropic-ai/claude-code
然后在终端配置环境变量。
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN=${DEEPSEEK_API_KEY}
export ANTHROPIC_MODEL=deepseek-chat
export ANTHROPIC_SMALL_FAST_MODEL=deepseek-chat
配置好之后,就可以执行claude命令,开始使用了。
claude
然后我跑了两个case,整体体验下来,V3.1模型很快,生成效果非常不错,模型做了很大程度上的优化。
第一个是让他帮我做一个3D打地鼠的游戏,比较简单。
第二个是让他帮我做动漫跑酷类游戏,这种稍微难一点,比如说场景,人物技能,姿势等等。
场景类的,我修bug修了一会,目前渲染不出来。
V3.1模型目前在智能体任务方面表现更强。
根据官方描述,主要是在编程智能体执行不同任务方面,比如说代码修复、终端复杂任务中,能力明显提高。
这块可以在腾讯的codebuddy里面进行体验。
在搜索任务方面,这么说吧,最难的多步骤推理任务和多学科的专家级难题它都能拔得头筹,V3.1模型的能力毋庸置疑的强。
最后再说说定价吧,这是大家最关心的,可以看看这个表
在9月6日 00:00之前,执行如下的价格:
之后就开始涨价了,但是也不贵,基本折中在思考模型的价格之下,取了对话模型和思考模型的折中价格。
另外,他们也把V3.1的Base模型和后训练模型开源了,模型的价格进一步被打下来了,性能也越来越好。
Base 模型:
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
魔搭:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Base
后训练模型:
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1
魔搭:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1
透露一个信息,评论区的这句话才是最关键的点。
DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度。
这表明其实它是为国产化芯片设计的一个模型,与V3模型存在明显差异,主要是在分词器及 chat template方面。
期待更多惊喜。