前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >通义千问2.0开源模型到底怎么样?

通义千问2.0开源模型到底怎么样?

原创
作者头像
算法一只狗
发布2024-11-16 11:29:01
40
发布2024-11-16 11:29:01
举报
文章被收录于专栏:算法一只狗

好事发生

这里推荐一篇实用的文章:https://cloud.tencent.com/developer/article/2465556?shareByChannel=link

《使用Python实现深度学习模型:智能食品包装设计》

这篇文章介绍了如何使用Python构建一个用于智能食品包装设计的深度学习模型。主要内容包括数据准备、模型构建、训练、评估和预测应用。作者展示了如何通过卷积神经网络(CNN)进行包装图像分类,利用数据增强提升模型的泛化能力,并最终实现对新图像的预测。此技术可提升包装设计的效率和质量,为消费者提供更个性化和智能化的体验。这种智能化设计有望在未来的食品包装中得到更广泛的应用。

在文本大模型这一块,国内的AI发展其实已经追上了国外的开源大模型。比如阿里在上半年发布的Qwen系列模型,其在2月份开源过Qwen1.5-110B大模型,并在Open LLM Leaderboard榜单(在 6 个关键基准上评估模型,用于在大量不同的评估任务上测试生成语言模型)中,拿下了开源第一名的成绩,总分达“75.42”的好成绩

而其在最新的Qwen2模型中,比开源的Llama-3-70B和Qwen1.5-110B还要强。

在小模型的评测下(参数量少于等于10B),Qwen2-7B模型也比开源的Llama3-7B、GLM4-9B模型更好:

在代码方面,成功将CodeQwen1.5的成功经验融入Qwen2的研发中,实现了在多种编程语言上的显著效果提升。而在数学方面,大规模且高质量的数据帮助Qwen2-72B-Instruct实现了数学解题能力的飞升。

所以说目前国内的文本大模型在整体上已经可以追上国外的一流模型,而在局部领域上更是超越了META的LLAMA3。

在针对数学推理能力上,Qwen2.5-Math可能在某些方面能够达到o1大模型的效果。这个模型是特定针对数学能力进行推理。但是Qwen2.5-Math模型看起来并不打算蹭o1大模型的热度,林俊旸表示,它像猕猴桃而非草莓,意味着有显著不同,且无基于过程的深度推理能力。

到底Qwen2.5-Math效果怎么样,可以直接拿数学题目给他进行测试。从我测试的效果来看,这个模型的做题思路来看是对的,但是在数字比较大小的时候还是会出错

这里那了2024年高考数学题目给它解答:

先来看看正确的答案是:7/15

由于它支持图片输入,因此直接用图片进行问答:

一开始整个解答过程没有什么错误:它先定义了a,b,c三个作为前三次抽到的号码,然后可以得到 m=(a+b)/2 和 n=(a+b+c)/3 ,然后由于题目要求m和n两个数的差值不超过0.5,因此可以得到 |(a+b)/2−(a+b+c)/3|<=0.5 ,接下来化简就可以得到 |a+b−2c|<=3 ,这时候只需要穷举法,讨论每个c的取值,就可以得到每一种情况的概率。

Qwen2.5-Math一直到这里还是得出的正确的步骤。但是后面的步骤有点看不懂了。

它在穷举法的时候,在c=1的时候,明明已经得到 −1<=a+b<=5 的等式了,但是在举例(a,b)的值时候,把(2,4),(2,5)这些明明就不满足等式要求的也计算上,导致最后在c=1的时候,得出来有10个满足的值。在c=2、3、4、5、6的时候同样有这些错误。当然最后得到的答案也是错误的

这里有合理怀疑,Qwen2.5-Math模型在遇到长文本生成的时候,由于失去了过多的步骤推理,导致莫名其妙的就会失去模型比较大小的能力。我为什么会得出这个结论呢?是因为在单独问它c=1时候的步骤有没有错误的时候,它是能够纠正出来的

那我们再来看看o1大模型对这个题目的解答:o1模型和千问模型一样,在前面两个步骤上都答对了,且能得出 |a+b−2c|<=3 这个答案了,但是和千问一样,在穷举法的时候也计算错误了,在计算三个值满足条件的时候,得到的答案是54,与正确答案差了2个值。

但是由于o1大模型得出的步骤和答案离正确答案更加接近,因此从评分上看效果要比Qwen2.5-Math要好一点。但是从这个题目也能看出,两个模型效果都差不多,都在前置步骤上解答对了,但是在穷举的时候比较数字大小出错。

本人还是很看好Qwen模型系列的,而且它还没有加入COT这种推理逻辑大杀器,推理能力上就能够和o1大模型差不多了,期望Qwen3的出现能够超越国外的大模型。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档