发布

deepseek

追踪deepseek
专栏成员
17
文章
5527
阅读量
13
订阅数
DeepSeek 风暴下看看它的论文
R1 论文读下来,原来被 OpenAI 从 q* 开始到 o 系列,搞得神秘兮兮的所谓 System 2 慢思维的强化训练过程,一下子就变得清晰简单多了。
立委
2025-02-03
3.5K0
置顶
【外一篇:推理范式演进中的概念】
- 训练时间(Training Time):参数空间Θ的优化过程,目标函数为误差最小化 minL(θ;D_train) - 推断时间(Inference Time):固定参数θ时对新样本x_test的条件分布预测p(y|x_test;θ)
立委
2025-03-07
00
思维链是大模型的符号神助攻
在人工智能发展的历史长河中,符号逻辑和神经网络一直如两条平行线,难以交汇。然而,2024年春节,DeepSeek发布的推理大模型R1揭示了一个令人惊叹的技术突破——思维链(Chain of Thought, CoT)的自主生成,其展现出的语言序列仿佛在模拟人类的符号逻辑。这一强化学习的进展或将重新定义符号逻辑与神经网络的融合路径。
立委
2025-03-05
560
The Three-Stage Scaling Laws Large Language Models
Mr. Huang's background features three S-curves, illustrating the scaling relay race across three stages of large language models, demonstrating a persistent spirit akin to the Chinese fable of the legendary Old Man Who Moved Mountains.
立委
2025-03-03
880
大模型三阶段的 scaling laws 接力赛
黄教主背后是三个S曲线,illustrate 的是大模型三个阶段的“做大做强”的 scaling 接力赛,颇显挖山不止的愚公移山精神。
立委
2025-03-03
890
左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练
在大模型后训练中,像deepseek R1那样交替使用监督微调(SFT)和强化学习(RL),而非单一依赖 RL 或蒸馏,背后的核心逻辑如下。
立委
2025-02-28
790
o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
A: DeepSeek R1 采用了四阶段的训练流程,包括两个强化学习(RL)阶段和两个监督微调(SFT)阶段 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这一多阶段策略旨在先通过少量数据稳定模型输出格式,然后大规模提升推理能力,接着扩展通用能力,最后对齐人类偏好,逐步打造出既擅长推理又安全实用的模型 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。具体来说:
立委
2025-02-28
2130
RPA 赛道与大模型Co-pilots早期创业者的困局
- 传统 RPA:依赖工程师编写脚本或流程图(如 UiPath 的拖拽式设计器),需精准定义每一步操作逻辑,如同教机器人跳格子,容错率低。 - LLM Agent:直接理解人类意图("把邮件里的发票信息录入系统"),自主拆解任务链条,动态调整执行路径。 - 典型案例:ChatGPT 插件系统已能调用 API 完成订机票、查数据等操作,而传统 RPA 实现同等功能需低代码脚本。
立委
2025-02-27
690
符号主义被打入冷宫太久了,难道神经是AI的终结者吗?
虽然没人可以预测未来,虽然抛弃两条路线的一条感觉政治不正确,但的确不能排除这种单极主义的可能性。
立委
2025-02-24
590
True Story Behind DeepSeek: Learning to Think Slowly Without Human Supervision
InfoQ: "DeepSeek adheres to a pure reinforcement learning approach, but the industry often refers to RL as 'alchemy' - how did they make this process controllable and accessible? What's innovative about their reasoning paradigm?"
立委
2025-02-16
540
Does the New Reasoning Paradigm (Query+CoT+Answer) Support a New Scaling Law?
— Reflections on LLM Scaling Laws and DeepSeek's R1
立委
2025-02-14
450
Technical Deep Dive: Understanding DeepSeek R1's Reasoning Mechanism
A detailed analysis of how DeepSeek R1's inference mechanism works in production, and how it differs from training-time reinforcement learning.
立委
2025-02-14
660
DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?
老友张俊林《从Deepseek R1看Scaling Law的未来》一文,引起老友热议。
立委
2025-02-14
1400
DeepSeek 笔记:R1 部署阶段的推理机制
- 生成多条路径:模型在单次推理时,可能隐式生成多条潜在的推理路径(CoT+Answers),但仅选择其中一条输出。 - 技术实现:通过调整解码策略(如束搜索宽度 `beam_width`),模型在生成过程中维护多个候选序列(即多条路径),最终选择综合评分最高的路径。 - 用户感知:用户仅看到最终输出,但模型内部进行了多路径探索与筛选。 - 效率权衡:若设置 `beam_width=1`(贪心搜索),则退化为单路径生成,响应速度最快;增大 `beam_width` 可提升输出质量,但增加计算延迟。
立委
2025-02-14
1280
从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?
主持人: 大家好,欢迎来到今天的访谈。最近,大模型的“幻觉”问题引发了热议,尤其是DeepSeek-R1,它的幻觉率似乎比自己的基座大模型DeepSeek-V3高不少。今天我们请到了资深AI研究员立委博士,来跟大家聊聊这个话题。立委,您好!
立委
2025-02-10
2090
推理强化模型中思维链的本质
DeepSeek R1 的出圈是近来最大热度的焦点。它不仅在数学、代码等强推理能力上追平了 OpenAI 头部推理模型 o 系列,而且在语言文字的创造力和模仿力方面产生让人惊艳的效果。尤其是在中文(国学)的能力方面,大家都体会到了奇迹般的能力跃升。
立委
2025-02-08
5500
推理强化学习是端到端的监督,推理过程的非监督
DeepSeek R1 的数学和代码数据究竟是有监督还是无监督?是人造数据还是再生数据?
立委
2025-02-03
1560
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档