首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DeepSeek-R1 更新,效果重回第一梯队

DeepSeek-R1 更新,效果重回第一梯队

原创
作者头像
算法一只狗
发布2025-06-30 21:02:38
发布2025-06-30 21:02:38
5530
举报
文章被收录于专栏:算法一只狗算法一只狗

目前我比较推荐的还是 DeepSeek 来进行 AI 问答,特别是它更新了R1 之后,其模型能力重回第一梯度。

新版本的R1模型卡住了第一梯度的身位,只比o4和o3效果差一点。

新的 Deepseek R1-0528 的性能几乎则直接和o4-mini、o3(High)差不多。

从网友的总结来看,这次的DeepSeek R1-0528 更新亮点:

  • 能够和 Google 模型一样进行深入推理
  • ✍️ 改进写作任务——更自然、格式更佳
  • 独特推理风格——不仅快,而且更周全
  • ⏱️ 长时间思考——每项任务可持续 30–60 分钟

这次的长思考能力应该是R1更新最为显著的地方。从之前的R1论文来看,其训练是基于V3模型做强化学习而来的。而在3月份的时候,V3就已经更新过一个新的版本,它是通过旧版本R1推理模型合成的数据进行训练而来,也就是在更强的模型上进行模型蒸馏来得到新版本的V3模型。所以这次的R1应该也是从3月的V3版本进一步训练而来,确实有点左脚踩右脚的意思~

常规测试

Q1:吃瓜文档快速整理并生成文档。

有时候微信经常收到需要吃瓜的pdf文档,但是文章过长,而且又没有总结要点,那这时候可以直接用大模型生成一个网页,让我们吃瓜吃得更爽

解析pdf,并把它转换成一个可视化网页作品。

最后生成的网页,其效果有比较好的排版:

这里可以对比一下同样一个文档,qwen3生成的网页和DeepSeek-R1生成的网页质量进行比较。新版本的R1在网页排版,样式上都有明显的提升。

Q2:将DeepSeek-R1-0528反过来写

它是把每一个字符进行拆分,然后再合并结果,答案是对的。

Q3:今年2024年9月9日(星期一)开始到10月13日的放假调休安排,具体是“上6休3上3休2上5休1上2休7再上5休1” 请计算一下,除了我原本的周末假期之外,最后我因为放假多休息了几天?

测试一下难倒广大中国网友的调休怎么调的问题。之前关于调休就上过热搜

由于上一年之前国庆节和中秋是连着来,所以网友盘算着怎么调休才算最优解,这里的“上6休3上3休2上5休1上2休7再上5休1”其实就是指从中秋开始休假的缩写。

说人话就是,从中秋开始,先上6天班,再休假3天,再上3天班,再休假2天,然后上5天班,接着休1天,再上2天班,最后国庆休7天,再上5天班,最后只休1天。说实话,就算我自己打字也觉得这个假期太复杂了,简直像是念咒语一样

那时候中国网友就为了这个调休到底最后休了多少天而计算起来

从之前的测试来看,很多大模型对于这个问题都给出了错误答案,比如Qwen3它最后给出得答案是多放了7天

而o4-mini对这个任务也给出了错误的答案:7天

既然这么难,恰好可以丢给大模型进行问答,看看新版本的R1回答得怎么样

从R1的答案来看,直接给出了正确的答案,我愿称其为开源大模型之光,同时由于这个问题比较难。它足足思考了接近4分钟左右。

代码能力

从网友的测试来看,R1-0528是一个唯一的能持续正确做对「9.9 - 9.11是多少」的模型。

与Claude4对比:不管是光线照射在墙上形成的漫反射,还是球在撞击后的运动方向,R1胜:

添加图片注释,不超过 140 字(可选)

写在最后

DeepSeek-R1-0528 的这次“小版本升级”看似低调,实则在模型推理深度、长时间思考和多任务表现上都有显著提升。相比起之前版本偏重速度和简单生成的短板,R1-0528 充分展示了社区开源模型也能在推理能力和稳定性上与 Google、OpenAI 等一线大厂模型齐肩。

  • 性能对比:在 LiveCodeBench 这类高难度综合编码测试中,R1-0528 不仅牢牢占据第一梯队,还以几乎与 o4-mini、o3(High)持平的成绩,证明了其在复杂逻辑和长上下文处理上的实力。
  • 推理深度:得益于基于 V3 强化学习的再次蒸馏训练,R1-0528 在多轮链式推理、知识追溯以及细节校验方面表现更周全,尤其适合需要“深思熟虑”的场景。
  • 长思考能力:新版本最大亮点在于可持续 30–60 分钟的长时间“长思考”,对于分析篇幅较长的文档或复杂的业务流程时,能够显著降低断链和信息丢失的风险。
  • 多模态与排版:在文档解析和网页排版任务中,R1-0528 对内容结构的把握更精准,生成的可视化效果也更符合阅读习惯,有助于提升人机协作效率。

总体而言,DeepSeek-R1-0528 是一次值得关注的更新,它既保持了开源模型的灵活可定制性,又将推理深度和稳定性推升至新高度。无论是开发者在技术验证阶段,还是产品方在落地应用场景中,都可以将 R1-0528 作为一款性价比极高的首选大模型。未来,我们也期待 R1 团队继续深耕算法优化,与社区一起推动开源 AI 的生态繁荣。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 常规测试
  • 代码能力
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档