DeepSeek 在发布完 V3 模型之后,R1-Lite 的满血版 R1-Preview 已经进入榜单测试。他们正和 LiveCodeBench 测试 DeepSeek-R1-Preview,并公布了榜单排名。从版单上来看,DeepSeek-R1-Preview 和 O1 的 Med 模型不相伯仲,而 O1 High 模型则明显领先,尤其是在解决 Hard 和 Medium 问题上。最重要的是,DeepSeek-R1-Preview 比 DeepSeek-V3 要强大很多,期待尽快发布,我要接入 cline 写代码了。
LiveCodeBench 是一个全面且无污染的代码大模型 (LLMs) 评估基准,能够随着时间推移不断收集新的问题。尤其是,LiveCodeBench 不仅关注代码生成,还涵盖更广泛的代码相关能力,例如自我修复、代码执行以及测试输出预测。目前,LiveCodeBench 包含 2023 年 5 月至 2024 年 2 月间发布的 300 多个高质量编程问题。我们基于 LiveCodeBench 的场景对 29 个大模型进行了评估,并展示了一些在以往基准中未揭示的新实证发现。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有