早上浏览朋友圈的时候注意到HuugingFace的CEO Celm官宣了一个新的LLM排行榜OpenLLM Leaderboard2,阿里的Qwen2-72b-Instruct版本成为这个新排行榜上的第一名。此前,在 OpenLLM Leaderboard1 上阿里的 Qwen2-72b-Instruct 开源之后就一直是第一。可以说,Qwen2目前算是真正的开源大模型国产之光了。
他表示,为了提供全新的开源大模型排行榜,这次使用了300块H100对目前全球100多个主流开源大模型,并在BBH、MUSR、MMLU-PRO、GPQA等基准测试集上进行了全新评估。据数据显示,全新排行榜的前10名竞争非常激烈,很多都是当过之前排行榜第一名的高手。其中,阿里开源的4款大模型傲视群雄,充分说明中国对全球开源大模型的重要贡献以及领导地位。
Clem更是直接表示:“Qwen2是王者,中国在全球开源大模型领域处于领导地位。”
Qwen2开源之后我个人也在围绕 Qwen2 做一些周边的工作并有一些直观的感受。例如Qwen2-57B-A14B-Instruct这一个 Qwen2 中的 MoE 模型在私有数据集中就表现很好,在4k或者8k长度下做微调的时候初始Loss已经很低了,在0-1之间,效果很好。不过在外推到32K并做SFT的时候Loss会升高到8左右,原因是Qwen2的模型是在4k或者8k的数据上训练然后直接外推的,但经过一段时间的训练Loss也能下降得很好。
我这里盘点一下本次Qwen2开源的一些关键亮点吧。
我个人更关心Qwen2-57B-A14B-Instruct这个模型,这也是Qwen2的MoE架构模型。观察它的代码可以发现它和Mixtral架构类似,不过在SeleAttention部分的q, k, v映射矩阵加入了Bias。另外在MoE部分引入了Shared Experts以及Shared Experts Gate。从训练Infra角度来说,我们仍旧可以沿用Mixtral MoE的训练架构和并行设置,只需要做几个轻微的改动就可以对齐精度,迁移是非常方便的。
我在HuggingFace的Qwen-2开源地址上测试了几个我实际用到的文创,代码以及CUDA相关的问题,感觉效果非常不错,这里贴一下截图。也给大家附上地址体验:https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct Space
在诗词方面,Qwen2的指令跟随能力确实很强。因为我之前测试过好几个其它的大模型,它们对五言和七言的格式并不理解,而Qwen2输出的格式一直是正确的。
我又问了一个问题,我这里并没有提示这个代码是哪个框架的代码,Qwen2直接猜出了这行代码是PyTorch框架下的并且给了我正确的方法。
我这里又问了一个 github 工具类的问题,它的回答也是非常正确全面。
我这里是要求Qwen2解析一下下面的Triton写的矩阵开方的kernel(prompt为:帮我详细解析一下这个Triton代码,最好是能逐行解析一下 代码,用中文回复。接上代码 ):
... 后面还有很多代码详解我就不贴了,这些解释对于辅助理解代码是很棒的。
基于这些贴上来的我的实际需求的回答来看,Qwen2指令跟随能力很强,回答的质量也比较高,作为个人助手或者在垂直领域继续微调的基座都是非常棒的。
从个人对Qwen2的榜单,评测以及训练适配等角度来看,Qwen2目前应该是个人以及做大模型应用的AI公司首选的开源大模型之一。同时也很高兴看到国产的开源大模型被全世界认可,无论是这次开源的Qwen2还是前段时间开源的DeepSeek2,我们都能感受到国产大模型的高速发展。
本文分享自 GiantPandaCV 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!