架构师李哲
PPO最强,DPO一般?一文带你了解常见三种强化学习方法,文末有大模型微调神器!
原创
关注作者
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
架构师李哲
社区首页
>
专栏
>
PPO最强,DPO一般?一文带你了解常见三种强化学习方法,文末有大模型微调神器!
PPO最强,DPO一般?一文带你了解常见三种强化学习方法,文末有大模型微调神器!
架构师李哲
关注
修改于 2025-12-01 13:46:20
修改于 2025-12-01 13:46:20
15
0
举报
概述
很多人第一次接触各家大模型时,都会觉得它们的回答能带来意想不到的惊喜,但有时,AI回答又怪怪的、啰嗦、甚至有点危险。这背后,其实就是一个核心问题:对齐(Alignment)。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
aigc
第四期热点征文-大模型技术
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
aigc
第四期热点征文-大模型技术
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐