Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >通义千问2.0开源模型到底怎么样?

通义千问2.0开源模型到底怎么样?

原创
作者头像
算法一只狗
发布于 2024-11-16 03:29:01
发布于 2024-11-16 03:29:01
2990
举报
文章被收录于专栏:算法一只狗算法一只狗

好事发生

这里推荐一篇实用的文章:https://cloud.tencent.com/developer/article/2465556?shareByChannel=link

《使用Python实现深度学习模型:智能食品包装设计》

这篇文章介绍了如何使用Python构建一个用于智能食品包装设计的深度学习模型。主要内容包括数据准备、模型构建、训练、评估和预测应用。作者展示了如何通过卷积神经网络(CNN)进行包装图像分类,利用数据增强提升模型的泛化能力,并最终实现对新图像的预测。此技术可提升包装设计的效率和质量,为消费者提供更个性化和智能化的体验。这种智能化设计有望在未来的食品包装中得到更广泛的应用。

在文本大模型这一块,国内的AI发展其实已经追上了国外的开源大模型。比如阿里在上半年发布的Qwen系列模型,其在2月份开源过Qwen1.5-110B大模型,并在Open LLM Leaderboard榜单(在 6 个关键基准上评估模型,用于在大量不同的评估任务上测试生成语言模型)中,拿下了开源第一名的成绩,总分达“75.42”的好成绩

而其在最新的Qwen2模型中,比开源的Llama-3-70B和Qwen1.5-110B还要强。

在小模型的评测下(参数量少于等于10B),Qwen2-7B模型也比开源的Llama3-7B、GLM4-9B模型更好:

在代码方面,成功将CodeQwen1.5的成功经验融入Qwen2的研发中,实现了在多种编程语言上的显著效果提升。而在数学方面,大规模且高质量的数据帮助Qwen2-72B-Instruct实现了数学解题能力的飞升。

所以说目前国内的文本大模型在整体上已经可以追上国外的一流模型,而在局部领域上更是超越了META的LLAMA3。

在针对数学推理能力上,Qwen2.5-Math可能在某些方面能够达到o1大模型的效果。这个模型是特定针对数学能力进行推理。但是Qwen2.5-Math模型看起来并不打算蹭o1大模型的热度,林俊旸表示,它像猕猴桃而非草莓,意味着有显著不同,且无基于过程的深度推理能力。

到底Qwen2.5-Math效果怎么样,可以直接拿数学题目给他进行测试。从我测试的效果来看,这个模型的做题思路来看是对的,但是在数字比较大小的时候还是会出错

这里那了2024年高考数学题目给它解答:

先来看看正确的答案是:7/15

由于它支持图片输入,因此直接用图片进行问答:

一开始整个解答过程没有什么错误:它先定义了a,b,c三个作为前三次抽到的号码,然后可以得到 m=(a+b)/2 和 n=(a+b+c)/3 ,然后由于题目要求m和n两个数的差值不超过0.5,因此可以得到 |(a+b)/2−(a+b+c)/3|<=0.5 ,接下来化简就可以得到 |a+b−2c|<=3 ,这时候只需要穷举法,讨论每个c的取值,就可以得到每一种情况的概率。

Qwen2.5-Math一直到这里还是得出的正确的步骤。但是后面的步骤有点看不懂了。

它在穷举法的时候,在c=1的时候,明明已经得到 −1<=a+b<=5 的等式了,但是在举例(a,b)的值时候,把(2,4),(2,5)这些明明就不满足等式要求的也计算上,导致最后在c=1的时候,得出来有10个满足的值。在c=2、3、4、5、6的时候同样有这些错误。当然最后得到的答案也是错误的

这里有合理怀疑,Qwen2.5-Math模型在遇到长文本生成的时候,由于失去了过多的步骤推理,导致莫名其妙的就会失去模型比较大小的能力。我为什么会得出这个结论呢?是因为在单独问它c=1时候的步骤有没有错误的时候,它是能够纠正出来的

那我们再来看看o1大模型对这个题目的解答:o1模型和千问模型一样,在前面两个步骤上都答对了,且能得出 |a+b−2c|<=3 这个答案了,但是和千问一样,在穷举法的时候也计算错误了,在计算三个值满足条件的时候,得到的答案是54,与正确答案差了2个值。

但是由于o1大模型得出的步骤和答案离正确答案更加接近,因此从评分上看效果要比Qwen2.5-Math要好一点。但是从这个题目也能看出,两个模型效果都差不多,都在前置步骤上解答对了,但是在穷举的时候比较数字大小出错。

本人还是很看好Qwen模型系列的,而且它还没有加入COT这种推理逻辑大杀器,推理能力上就能够和o1大模型差不多了,期望Qwen3的出现能够超越国外的大模型。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
实测Qwen2.5-Math效果
Qwen2.5全家桶发布,特别是在中间还整了一个Qwen2.5-Math模型,特定针对数学能力进行推理。这不免让人想起前段时间OpenAI才发布的o1大模型。
算法一只狗
2024/09/22
5160
实测Qwen2.5-Math效果
国内热门推理大模型指南
自从OpenAI o1大模型出现之后,把大模型数学推理能力和代码编程能力推向了一个新的高度。国内各大厂商也看到了这个新的蓝海,纷纷推出了自家的推理大模型。因此这篇文章主要介绍三个最近比较热门的推理大模型。
算法一只狗
2024/12/24
3900
国内热门推理大模型指南
实测一手KIMI推出的数学推理模型k0-math
这篇文章详细介绍了如何在 Linux Ubuntu 系统中使用 Docker 部署 Paint Board,并结合 cpolar 内网穿透工具实现远程访问。以下是推荐理由:
算法一只狗
2024/11/29
3490
实测一手KIMI推出的数学推理模型k0-math
实测一手Qwen版本o1推理模型QWQ
推荐文章:https://cloud.tencent.com/developer/article/2470928?shareByChannel=link
算法一只狗
2024/12/07
3900
实测一手Qwen版本o1推理模型QWQ
Qwen为什么没有像 DeepSeek 一样出圈?
其实之前我曾经介绍过Qwen系列模型,它的效果也是堪比GPT-4o模型。在DeepSeek还没有这么火爆之前,我一直认为Qwen模型其实算是开源之光。
算法一只狗
2025/01/30
6310
Qwen为什么没有像 DeepSeek 一样出圈?
OpenAI的o1大模型满血版终于发布,其效果如何?
推荐文章:https://cloud.tencent.com/developer/article/2470928?shareByChannel=link
算法一只狗
2024/12/06
2750
OpenAI的o1大模型满血版终于发布,其效果如何?
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。
机器之心
2025/02/06
2020
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
Qwen2.5-Math推理效果 VS OpenAI o1模型
最新发布Qwen2.5系列中,还有编程专用Qwen2.5-Coder和数学专用Qwen2.5-Math。所有开源模型为稠密、decoder-only,提供多种规模版本。
算法一只狗
2024/09/29
3440
Qwen2.5-Math推理效果 VS OpenAI o1模型
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
随着OpenAI o1证明了测试时扩展(TTS)可以通过在推理时分配额外算力,大幅增强LLM的推理能力。测试时计算,也成为了当前提升大模型性能的最新范式。
新智元
2025/02/15
1720
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
o1推理大模型到底有多强?
针对o1推理大模型。最新收益的肯定是数学领域的。毕竟刚刚开始发布的时候,o1大模型本身就是针对数学领域有明显的提升。
算法一只狗
2024/12/27
1230
o1推理大模型到底有多强?
遇见DeepSeek之(1):初识
作者简介:刘世民,腾讯云TVP,公众号“世民谈云计算”作者,云计算技术专家,曾就职于华为、IBM、海航等公司,专注于云计算。曾在海航集团易航科技担任云服务事业群总经理一职,负责IDC、云平台、系统运维、信息安全以及用户服务等业务。维护有“世民谈云计算”技术博客和微信公众号。《OpenShift云原生架构原理与实践》作者之一、《Ceph Cookbook中文版》、《精通OpenStack》、《机器学习即服务:将Python机器学习创意快速转变为云端Web应用程序》译者之一
TVP官方团队
2025/02/05
2.1K0
遇见DeepSeek之(1):初识
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
上周末,摩根大通 CEO 杰米・戴蒙(Jamie Dimon)表示,由于人工智能技术,未来几代人每周可以只工作三天半,活到一百岁。
机器之心
2025/02/14
1630
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
实测一手LLaVA-o1推理大模型
推荐文章:https://cloud.tencent.com/developer/article/2470928?shareByChannel=link
算法一只狗
2024/12/02
2650
实测一手LLaVA-o1推理大模型
让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞
OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力,就输出越多智能,一直到超越人类水平。
机器之心
2025/02/03
1070
让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞
闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香
国内的开发者们或许没有想到,有朝一日,他们开发的 AI 大模型会像出海的网文、短剧一样,让世界各地的网友坐等更新。甚至,来自韩国的网友已经开始反思:为什么我们就没有这样的模型?
机器之心
2024/05/14
3220
闭源赶超GPT-4 Turbo、开源击败Llama-3-70B,歪果仁:这中国大模型真香
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
4260
DeepSeek-R1:强化学习驱动的LLM推理能力提升
DeepSeek 模型:究竟该如何抉择?
以上方式在云端产品上实现 DeepSeek 的私有化部署,除此之外,也可以部署安装在本地机器上,如个人PC电脑、内网电脑等环境。
参谋带个长
2025/02/21
8670
Qwen2-VL多模态大模型开源了~性能实现代际飞越
前段时间,又被Qwen2-VL开源给刷屏了 。不管是在国内还是国外,阿里的Qwen系列模型都属于开源模型的第一梯队。
算法一只狗
2024/09/14
1.1K0
Qwen2-VL多模态大模型开源了~性能实现代际飞越
7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
不仅如此,SLM在美国数学奥林匹克(AIME)上,拿下了53.3%的亮眼成绩,直逼全美20%顶尖高中生!
新智元
2025/02/15
1340
7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
OpenAI o1不太行?国产模型 PK OpenAI o1,高难度数学和算法竞赛能力究竟谁更胜一筹?
在当今人工智能迅猛发展的浪潮中,大模型的竞争愈发激烈,尤其是推理模型领域,成为众多研究与评测的焦点。OpenAI 发布的 o1 系列模型曾掀起大模型革新的热潮,深度学习模型在解决复杂问题上的能力日益提升,特别是在数学、物理等科学领域的应用中取得了显著成就。而国产模型也在不断崛起,试图在这一领域占据重要地位。各类新型评测社区的出现,为模型的综合能力的评估提供了参考,推动着模型的不断优化与创新。
AGI-Eval评测社区
2025/03/21
1340
OpenAI o1不太行?国产模型 PK OpenAI o1,高难度数学和算法竞赛能力究竟谁更胜一筹?
推荐阅读
相关推荐
实测Qwen2.5-Math效果
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档