目前我比较推荐的还是 DeepSeek 来进行 AI 问答,特别是它更新了R1 之后,其模型能力重回第一梯度。
新版本的R1模型卡住了第一梯度的身位,只比o4和o3效果差一点。

新的 Deepseek R1-0528 的性能几乎则直接和o4-mini、o3(High)差不多。

从网友的总结来看,这次的DeepSeek R1-0528 更新亮点:

这次的长思考能力应该是R1更新最为显著的地方。从之前的R1论文来看,其训练是基于V3模型做强化学习而来的。而在3月份的时候,V3就已经更新过一个新的版本,它是通过旧版本R1推理模型合成的数据进行训练而来,也就是在更强的模型上进行模型蒸馏来得到新版本的V3模型。所以这次的R1应该也是从3月的V3版本进一步训练而来,确实有点左脚踩右脚的意思~
Q1:吃瓜文档快速整理并生成文档。
有时候微信经常收到需要吃瓜的pdf文档,但是文章过长,而且又没有总结要点,那这时候可以直接用大模型生成一个网页,让我们吃瓜吃得更爽
解析pdf,并把它转换成一个可视化网页作品。

最后生成的网页,其效果有比较好的排版:

这里可以对比一下同样一个文档,qwen3生成的网页和DeepSeek-R1生成的网页质量进行比较。新版本的R1在网页排版,样式上都有明显的提升。

Q2:将DeepSeek-R1-0528反过来写
它是把每一个字符进行拆分,然后再合并结果,答案是对的。

Q3:今年2024年9月9日(星期一)开始到10月13日的放假调休安排,具体是“上6休3上3休2上5休1上2休7再上5休1” 请计算一下,除了我原本的周末假期之外,最后我因为放假多休息了几天?
测试一下难倒广大中国网友的调休怎么调的问题。之前关于调休就上过热搜

由于上一年之前国庆节和中秋是连着来,所以网友盘算着怎么调休才算最优解,这里的“上6休3上3休2上5休1上2休7再上5休1”其实就是指从中秋开始休假的缩写。

说人话就是,从中秋开始,先上6天班,再休假3天,再上3天班,再休假2天,然后上5天班,接着休1天,再上2天班,最后国庆休7天,再上5天班,最后只休1天。说实话,就算我自己打字也觉得这个假期太复杂了,简直像是念咒语一样

那时候中国网友就为了这个调休到底最后休了多少天而计算起来

从之前的测试来看,很多大模型对于这个问题都给出了错误答案,比如Qwen3它最后给出得答案是多放了7天

而o4-mini对这个任务也给出了错误的答案:7天

既然这么难,恰好可以丢给大模型进行问答,看看新版本的R1回答得怎么样

从R1的答案来看,直接给出了正确的答案,我愿称其为开源大模型之光,同时由于这个问题比较难。它足足思考了接近4分钟左右。

从网友的测试来看,R1-0528是一个唯一的能持续正确做对「9.9 - 9.11是多少」的模型。

与Claude4对比:不管是光线照射在墙上形成的漫反射,还是球在撞击后的运动方向,R1胜:


添加图片注释,不超过 140 字(可选)
DeepSeek-R1-0528 的这次“小版本升级”看似低调,实则在模型推理深度、长时间思考和多任务表现上都有显著提升。相比起之前版本偏重速度和简单生成的短板,R1-0528 充分展示了社区开源模型也能在推理能力和稳定性上与 Google、OpenAI 等一线大厂模型齐肩。
总体而言,DeepSeek-R1-0528 是一次值得关注的更新,它既保持了开源模型的灵活可定制性,又将推理深度和稳定性推升至新高度。无论是开发者在技术验证阶段,还是产品方在落地应用场景中,都可以将 R1-0528 作为一款性价比极高的首选大模型。未来,我们也期待 R1 团队继续深耕算法优化,与社区一起推动开源 AI 的生态繁荣。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。