首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

DeepSeek-R1复现方案梳理

致Great

由huggingface组建,目前刚上线2周,发布了最新进展open-r1/update-1,在MATH-500任务上接近deepseek的指标,可以在open...

1700

【Deepseek】DeepSeek-R1训练方式分析

云帆沧海

本博客参考Deepseek开源论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Re...

3900

DeepSeek R1架构和训练过程图解

IT小马哥

在 SFT 第 2 阶段之后,我们获得了 DeepSeek V3 推理、一致说话,甚至很好地处理了一般任务!但要真正使其成为顶级的人工智能助手,研究人员必须与人...

8100

如何优化测试时计算?解决「元强化学习」问题

机器之心

优化大模型的测试时计算是提升模型部署效率和节省计算资源的关键一环。前段时间,黄仁勋在 CES 2025 的演讲中把测试时 Scaling 形容为大模型发展的三条...

6210

无需引导采样,清华大学提出视觉模型训练新范式

机器之心

本文有两位共同一作。陈华玉、清华大学计算机系四年级博士生。主要研究方向为强化学习与生成式模型。曾在 ICML/NeurIPS/ICLR 国际会议上发表多篇学术论...

7200

【AIGC】冷启动数据与多阶段训练在 DeepSeek 中的作用

CSDN-Z

此阶段的核心是 推理导向的强化学习(Reasoning-Oriented RL),即通过大规模的强化学习训练,进一步提升模型的推理能力。在这一阶段,模型通过执行...

24210

从扭秧歌到单脚跳,HugWBC让人形机器人运动天赋觉醒了

机器之心

本项目由上海交通大学APEX实验室具身智能组和上海人工智能实验室具身智能中心共同完成。上海交通大学的张伟楠教授主要研究强化学习、智能体技术和具身智能。庞江淼博士...

5010

图解DeepSeek R1训练流程

致Great

这篇论文介绍了一种新的第一代推理模型——DeepSeek-R1系列,旨在通过强化学习(Reinforcement Learning, RL)提升大型语言模型(L...

14710

推理强化模型中思维链的本质

立委

这个观点为理解CoT提供了一个新的视角,把表面上的思维链“自言自语”诠释为信息论意义上的"熵减(entropy reduction)途径"。这对无须过程监督的结...

509100

对 DeepSeek R1 的分析及其对生成式 Ai 的影响 !

AIGC 先锋科技

项目目标是利用纯强化学习(RL)来提升推理能力,无需监督数据,专注于自我进化。以他们的V3模型(671亿参数)为基础,采用可扩展的组相对策略优化(GRPO)作为...

19110

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

新智元

有趣的是,训练采用的可验证奖励强化学习框架在更大规模(例如405B)上对数学性能的提升更为显著,这与DeepSeek-R1报告中的发现类似,即相比70B和8B参...

10310

不到24小时,开源版Deep Research疯狂来袭!一月少花1400

机器之心

昨日,AI 社区最大的新闻当属 OpenAI 发布的全新智能体 Deep Research 了!

10110

o1开启LLM新范式,Ai2科学家解析背后秘籍:推理和强化学习是关键

新智元

o1自发布以来一直广受争议,但促使Lambert思考更久的是:我们应该根据模型的实际表现来评判它们,特别是在大规模强化学习(RL)和验证结果这两方面,尤其是在发...

17400

DeepSeek重创美国芯片产业,英伟达一夜蒸发6000亿!巨头破防,美股历史性崩盘

新智元

在强化学习的试错过程中,「试验」阶段就是模型在生成(合成)数据,然后根据「错误」(或奖励)来学习。反过来说,当你生成合成数据并对其进行任何形式的排序或筛选时,你...

6500

28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理

新智元

从这个角度来看,可以进一步理解为何需要自适应策略和元强化学习:对于那些来自强化学习背景的人来说,解决POMDP等同于进行元强化学习。

8710

全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻

新智元

这种冷启动的潜在优势在于:模型在开始强化学习时已具备long CoT思维模式和自我反思能力,从而可能在强化学习阶段实现更快更好的学习效果。

8700

接班OpenAI|DeepSeek大揭秘!且看本文分析为何它能震动全球AI圈?

万能数据的小草

《深度解析DeepSeek - R1新模型:AI推理能力的新突破》 一、背景介绍 最近AI领域又有了新的大事件。就像一阵强风席卷了平静的湖面,DeepSeek

36410

DeepSeek,AI界的拼多多,别的模型喝 82 年拉菲,它喝蜜雪冰城

程序员鱼皮

现在AI界都玩到强化学习了,某些基金经理还在搞"巴甫洛夫式炒股"——听见利好就流口水,看见利空就夹尾巴。

8410

大语言模型的模型蒸馏:概念、方法与应用

编程扫地僧

在人工智能领域,大语言模型(LLM)的出现带来了革命性的变革,例如 GPT 系列、BERT、T5 等模型展示了卓越的自然语言处理(NLP)能力。然而,这些模型往...

1.7K40
领券