Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【AGI-Eval趣味测试 】用 7 道超绕算术陷阱题,测测你和 AI 谁更会算

【AGI-Eval趣味测试 】用 7 道超绕算术陷阱题,测测你和 AI 谁更会算

原创
作者头像
AGI-Eval评测社区
发布于 2025-04-14 07:32:29
发布于 2025-04-14 07:32:29
950
举报

在大模型飞速发展的今天,你以为 AI 是数学天才?那可不一定!最近刷到很多有趣的测试题,今天,我们就来用 7 道超绕的算术陷阱题考考 AI,据说这些题目连 AI 在初次 “审题” 时都得小心翼翼,稍不留意就会掉入思维的 “陷阱”,来个大翻车。 快来试试,测测你和 AI 谁更会“算”!👇

此次主要测试了7道题,测试目标为AI在数学陷阱题目上的表现。测试对象为推理系头部模型deepseek-r1、gpt-4o,对话系头部模型d豆包1.5 pro、Qwen-2.5。

prompt 1:我有六个鸡蛋,煮了两个,煎了两个,吃了两个,还剩几个?

模型1:gpt-4o

没有意识到题目中的“陷阱”,将煮鸡蛋、煎鸡蛋算作已经消失的鸡蛋,认为还剩0个鸡蛋,没有人类的思维模式。

模型2:deepseek-r1

录屏2025-03-20 14.08.18.mov

25.75MB

​意识到了题目中的“陷阱”,认为煮鸡蛋和煎鸡蛋数量都未减少,只有吃的鸡蛋算是消耗,认为还剩余4个鸡蛋。并在思考过程中考虑了吃的鸡蛋为煎鸡蛋或者煮鸡蛋的情况。

模型3:豆包1.5 pro

录屏2025-03-20 14.34.12.mov

8.29MB

认为煮的两个、煎的两个和吃的两个可能是同一组鸡蛋,实际上只消耗了 2 个鸡蛋,还剩下 4 个鸡蛋。

模型4: Qwen-2.5

录屏2025-03-20 14.27.19.mov

2.90MB

该模型学会区分了生鸡蛋与熟鸡蛋,认为“吃”是指已经煮熟或煎熟的鸡蛋,而不是直接吃生鸡蛋,故认为还剩下2个生鸡蛋,但并未考虑还剩下两个熟鸡蛋。​

在该测试中,deepseek-r1和豆包1.5 pro都认为还剩四个鸡蛋,表现不错。Qwen-2.5认为还剩2个生鸡蛋,考虑了“人吃熟鸡蛋”这一常识,但并未说出还剩几个鸡蛋。gpt-4o的表现让人失望,认为还剩0个鸡蛋。

deepseek-r1=豆包1.5 pro>Qwen-2.5>gpt-4o

prompt 2:“strawberry”中有几个r?

模型1:gpt-4o

录屏2025-03-20 14.39.36.mov

450.94KB

​迅速得出“strawberry”中有三个字母r

模型2:deepseek-r1

录屏2025-03-20 14.41.18.mov

6.28MB

在思考过程中,逐一分析每个字母是不是“R”,最终得出有3个的正确结论。

模型3:豆包1.5pro

录屏2025-03-20 14.43.01.mov

4.41MB

​经过短暂思考后,得出有3个的正确结论。

模型4: Qwen-2.5

录屏2025-03-20 14.44.58.mov

1.39MB

经过短暂思考后,得出有3个的正确结论。

因为工作原理的原因,大模型擅长【理解含义】而不是【统计数量】,如果在大模型训练阶段并未针对【逐个字母数数】这个能力有专门的训练的话,会出现数错的情况,“strawberry中有几个字母r?”曾是测试模型能力的经典问题,在最新的模型中,这个问题被解决。

deepseek-r1=豆包1.5 pro=Qwen-2.5=gpt-4o

prompt 3:树上有30只鸟,我开枪打中一只,枪里没有子弹,此时树上还有多少只鸟

模型1:gpt-4o

录屏2025-03-20 14.50.27.mov

1.82MB

认为开枪后的声音会惊醒多所有的鸟,树上将没有任何鸟。

模型2:deepseek-r1

录屏2025-03-20 14.51.08.mov

26.74MB

​认为这道题目属于脑筋急转弯,也意识到了题目中的“矛盾”所在:枪里没有子弹和打中一只鸟相互矛盾,考虑到“鸟儿是否会飞走”取决于扣动扳机时是否有声音,最终认为鸟儿对声音敏感,扣动扳机的声音也会惊醒鸟,树上将有0只鸟。

模型3:豆包1.5 pro

录屏2025-03-20 14.52.46.mov

5.83MB

并未意识到了题目中的“矛盾”所在。分多种情况进行讨论,但讨论的可能情况让人啼笑皆非:

情况一:枪声会吓跑其他鸟,此时树上很可能一只鸟也不剩。

情况二:被打中的鸟被树枝卡住挂在树上,且其他鸟因某种特殊原因(如天生胆小吓晕在树上、被绑住等)无法飞走,那么树上还有 30 只鸟(1 只死鸟和 29 只活鸟)。

情况三:如果有一只鸟去通风报信,留下其他鸟来 “纪念” 被打中的鸟,且这些鸟都没飞走,此时树上还剩 30 只鸟。​

模型4:Qwen-2.5

录屏2025-03-20 14.56.34.mov

1.35MB

意识到了这是一个脑筋急转弯问题,树上将一只鸟也不剩。

在该测试中,deepseek-r1、Qwen-2.5、gpt-4o都意识到是个脑筋急转弯问题,树上一只鸟也不剩。豆包1.5 pro虽然分多种情况进行讨论,但“被打中的鸟被树枝卡住挂在树上,鸟天生胆小吓晕在树上、鸟被绑住、一只鸟去通风报信,留下其他鸟来 “纪念” 被打中的鸟”这种情况几乎不可能发生,把简单的问题复杂化。

deepseek-r1=Qwen-2.5=gpt-4o>豆包1.5 pro

prompt 4:在纸上画一个正方形,将正方形对折三次,最后得到的形状是什么?

模型1:gpt-4o:

录屏2025-03-20 15.07.30.mov

4.19MB

​将“在纸上画正方形”理解成为“在纸上画支架”,考虑多种折叠的方式,认为最后得到的形状为长方形或随机形状,未考虑折叠成为三角形。

模型2:deepseek-r1

录屏2025-03-20 15.09.51.mov

27.21MB

考虑了多种对折方式,最终思考中断,没有得出确定的结论。

模型3:豆包1.5 pro

录屏2025-03-20 15.12.12.mov

7.20MB

考虑到了多种对折方式,得出为长方形或三角形的结论,并将不同长宽比的长方形做了分类,认为最终形状取决于折叠方式。

模型4:Qwen-2.5

录屏2025-03-20 15.13.39.mov

7.24MB

​考虑到了多种对折方式,得出为长方形或三角形的结论,认为如果没有特殊情况,更有可能是长方形。

在该测试中,豆包1.5 pro、Qwen-2.5都认为可能是长方形,也可能是三角形。gpt-4o虽然也分情况讨论,但忽略了三角形的结果。deepseek-r1思考中断。

豆包1.5 pro=Qwen-2.5>gpt-4o>deepseek-r1

prompt 5:小鲸鱼对妈妈说,妈妈,我长到你这么大,你就28岁了,妈妈对小鲸鱼说,我像你这么大时,你才只有1岁,请问妈妈今年多少岁?

模型1:gpt-4o

录屏2025-03-20 15.31.08.mov

11.03MB

列出错误的方程后,最终思考终止,没有生成最终答案。

模型2:deepseek-r1:

录屏2025-03-20 15.32.30.mov

12.67MB

​通过设定变量、建立方程、求解方程、验证结果得出了鲸鱼妈妈19岁的正确答案。

模型3:豆包1.5pro

录屏2025-03-20 15.40.43.mov

6.78MB

并没有用解方程的形式,通过更加清楚简单的数学运算,得出了鲸鱼妈妈19岁。

模型4:Qwen-2.5

录屏2025-03-20 15.17.31.mov

6.85MB

​通过设定变量、建立方程、求解方程、验证结果得出了鲸鱼妈妈19岁、小鲸鱼10岁的正确答案。

豆包1.5 pro、Qwen-2.5、deepseek-r1都计算正确,gpt-4o没有生成最后的答案。

豆包1.5 pro=Qwen-2.5=deepseek-r1>gpt-4o

prompt 6:15的阶乘结尾有几个0

模型1:gpt-4o:

录屏2025-03-20 15.33.51.mov

2.51MB

​经过短暂推导,得出结尾有3个0,回答正确。

模型2:deepseek-r1:

录屏2025-03-20 15.34.25.mov

20.70MB

​经过推导,得出结尾有3个0,回答正确

模型3:豆包1.5pro

录屏2025-03-20 15.38.33.mov

6.97MB

经过推导,得出结尾有3个0,回答正确

模型4:Qwen-2.5

录屏2025-03-20 15.26.30.mov

4.13MB

经过短暂思考,得出有3个0的正确答案。

所测试模型全部得出正确答案。

豆包1.5 pro=Qwen-2.5=deepseek-r1=gpt-4o

prompt 7:放一次炮后,每隔一分钟放一次炮,10分钟共放几次炮?

模型1:gpt-4o:

录屏2025-03-20 15.36.38.mov

1.29MB

​得出共放11次炮的正确结论。

模型2:deepseek-r1:

录屏2025-03-20 15.37.12.mov

19.27MB

​​意识到了第一次放炮是在0分的时刻,得出得出共放11次炮的正确结论。

模型3:豆包1.5pro

录屏2025-03-20 15.39.37.mov

4.33MB

得出共放11次炮的正确结论。

模型4:Qwen-2.5

录屏2025-03-20 15.29.59.mov

2.13MB

​得出共放11次炮的正确结论。

所测试模型全部得出正确答案。

豆包1.5 pro=Qwen-2.5=deepseek-r1>gpt-4o

以上是我们本期测评的全部内容,欢迎关注我们,下期为你带来更多大模型最新资讯!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI自动化测试框架:Browser Use项目实战总结,测试工程师必看!
Browser Use 是一个基于 Python 开发的开源库,它将先进的 AI 技术与浏览器自动化功能深度融合。通过集成Playwright等浏览器自动化工具,Browser Use允许开发者使用任何支持LangChain的大型语言模型(如GPT-4、Claude等)来自动化浏览网页、提取信息、模拟用户操作等。
测试开发技术
2025/06/08
4150
AI自动化测试框架:Browser Use项目实战总结,测试工程师必看!
每周AI论文速递(250526-250530)
本文介绍 Mutarjim,一个专为阿拉伯语-英语双向翻译设计的紧凑型高性能语言模型。尽管当前大规模大语言模型在机器翻译等自然语言处理任务中展现出显著优势,我们发现小型模型同样具备竞争力。基于这一发现,我们在专为阿拉伯语和英语优化的 Kuwain-1.5B 语言模型基础上开发了 Mutarjim。该模型通过采用优化的两阶段训练流程和精选的高质量训练语料,在保持较小规模的同时,其性能表现超越了多个主流基准测试中的大型模型。实验数据表明,Mutarjim 的性能可与体积大 20 倍的模型相媲美,同时大幅降低了计算资源和训练成本。此外,我们提出了 Tarjama-25 新基准测试集,该数据集包含 5,000 组经过专家校验的平行句对,覆盖广泛领域,有效解决了现有阿拉伯语-英语评测数据存在的领域局限、语句过短和英语源偏置等问题,为相关研究提供了更全面均衡的评估体系。值得注意的是,Mutarjim 在 Tarjama-25 的英阿翻译任务中取得了当前最优性能,甚至超越了 GPT-4o mini 等规模显著更大的专有模型。我们将公开 Tarjama-25 数据集,以促进阿拉伯语-英语翻译系统的后续研究和评估工作。
叶子的技术碎碎念
2025/06/08
600
每周AI论文速递(250526-250530)
🤩 mLLMCelltype | 多种大语言模型助力细胞类型注释!~
最近发现了一个AI辅助的注释工具,非常不错,原作者也是向我毛遂自荐,用了一下确实不错。👍
生信漫卷
2025/04/21
2311
🤩 mLLMCelltype | 多种大语言模型助力细胞类型注释!~
大模型玩游戏,Deepseek-R1-0528 太强了
https://x.com/haoailab/status/1929997363407708646
Ai学习的老章
2025/06/08
1020
大模型玩游戏,Deepseek-R1-0528 太强了
使用DeepSeek必备的10个技巧
今天,我们直接讲干货。用10个问题带大家了解:DeepSeek是什么,怎么用,如何与DS高质量对话,以及一些隐藏技巧。
崔认知
2025/02/06
2K0
使用DeepSeek必备的10个技巧
AGI-Eval 评测社区× GAIR Lab 发布最严苛AI基准:七大学科奥赛题难倒GPT-4o
自从年初 DeepSeek R1 版本开源后,国内外都又开始卷起推理系模型,不论是腾讯的 T1 还是字节在豆包上线“深度思考”推理模式的模型,高难度学科竞赛、代码竞赛的评测成为各大模型公司的关注目标。现在模型能力越来越强,一般难度的题目,模型之间都很难得出差异性,无法区分模型能力。
AGI-Eval评测社区
2025/04/03
340
AGI-Eval 评测社区× GAIR Lab 发布最严苛AI基准:七大学科奥赛题难倒GPT-4o
【AGI-Eval学习干货 NO.2】DeepSeek小白必看指南,隐藏1000个提示词参考(建议收藏)
这个热搜#博主卖 DeepSeek 相关课程 1 天收入 50000#,我看到之后感觉得做一期干货内容,DeepSeek 的玩法现在都在摸索阶段,和大家一起学习探索。
AGI-Eval评测社区
2025/03/14
1680
【AGI-Eval学习干货 NO.2】DeepSeek小白必看指南,隐藏1000个提示词参考(建议收藏)
AI实力榜大洗牌!OpenAI谷歌强势领跑,Anthropic节节败退
最近,Poe发布了最新的使用报告,报告显示,OpenAI和谷歌的地位越来越稳,势头很猛。
新智元
2025/05/17
840
AI实力榜大洗牌!OpenAI谷歌强势领跑,Anthropic节节败退
【AGI-Eval行业动态 NO.10】一文看懂,字节开源多语言的​​Multi-SWE-bench 的背后深意
字节跳动研发团队最新发布的Multi-SWE-bench基准测试,以7种主流编程语言、1632个人工验证的GitHub Issue实例,这项发表于2024年的研究不仅揭示了LLM在多语言环境下的真实能力边界,更通过开源社区建设打开了强化学习在软件工程领域的新想象空间。
AGI-Eval评测社区
2025/04/15
1640
【AGI-Eval行业动态 NO.10】一文看懂,字节开源多语言的​​Multi-SWE-bench 的背后深意
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
3300
DeepSeek-R1:强化学习驱动的LLM推理能力提升
物理测试暴击AI圈,DeepSeek R1稳超o1、Claude,我们已进入RL黄金时代
DeepSeek R1 真是太厉害了! 最近,「神秘的东方力量」DeepSeek 正在「硬控」硅谷。 📷 我让 R1 详细解释勾股定理。这一切都是 AI 在
机器之心
2025/02/03
5780
物理测试暴击AI圈,DeepSeek R1稳超o1、Claude,我们已进入RL黄金时代
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。
机器之心
2025/02/25
2290
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
DeepSeek霸榜一周:奥特曼终于承认在开源问题上处于“历史错误的一边”;迅雷斥资5亿收购“直男社区”虎扑 | Q资讯
DeepSeek-R1 霸榜一周:性能、价格与开源三重冲击;网传梁文锋回应冯骥国运论;阿里巴巴发布 AI 模型,声称超越 DeepSeek;马斯克掀起“硬核裁员”风暴:百万雇员面临“自愿离职”抉择;谷歌为 Pixel、Android 部门员工提供“自愿离职”机会;迅雷将以 5 亿元收购“直男社区”虎扑,曾最高估值达 77 亿元;Linux 基金会发布指南应对 OFAC 制裁挑战;谷歌开源 PebbleOS 操作系统......
深度学习与Python
2025/02/03
1790
DeepSeek霸榜一周:奥特曼终于承认在开源问题上处于“历史错误的一边”;迅雷斥资5亿收购“直男社区”虎扑 | Q资讯
【AGI-Eval评测报告 NO.6】o3 / o4-mini 文本权威评测:o3 强势登顶
① o3 毫无悬念的登顶,在交互能力、推理能力、指令遵循和初等数学四个方面全面领先;
AGI-Eval评测社区
2025/05/08
1300
【AGI-Eval评测报告 NO.6】o3 / o4-mini 文本权威评测:o3 强势登顶
【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队
最近 DeepSeek 的知名度突破圈层,大家都在进行操作尝试,不同媒介和平台都在关注,但是具体 DeepSeek 的模型能力的水位线在何处,与其他头部厂商以及 OpenAI 的能力差异如何,这个信息还没有公开权威的披露,此次 AGI-Eval 评测社区通过自建私有数据集及公开数据集做了多个维度的模型评测分析,输出一版全面、公正、权威 DeepSeek 最新模型的能力评测报告。
AGI-Eval评测社区
2025/03/17
2670
【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/27
9460
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
美东时间 3 月 20 日,OpenAI 发布了三款全新语音模型,分别是自动语音识别模型(ASR) GPT - 4o Transcribe 和 GPT - 4o Mini Transcribe,以及语音合成模型(TTS) GPT - 4o Mini TTS。
AGI-Eval评测社区
2025/04/08
2600
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
【AGI-Eval行业动态 NO.1】大模型行业太卷了,两周多了20+的模型
在白宫新闻发布会上,特朗普和 OpenAI CEO Sam Altman、软银 CEO 孙正义等人联合宣布了一个名为「星际之门」(Stargate Project)的人工智能项目。将开展 5000亿美元(6764亿新元)人工智能(AI)基础设施项目。
AGI-Eval评测社区
2025/02/20
1080
【AGI-Eval行业动态 NO.1】大模型行业太卷了,两周多了20+的模型
手把手带你3步本地私有化部署DeepSeekR1,亲测成功
DeepSeek 是国内顶尖 AI 团队「深度求索」开发的多模态大模型,具备数学推理、代码生成等深度能力,堪称"AI界的六边形战士"。
烟雨平生
2025/02/10
7.5K0
手把手带你3步本地私有化部署DeepSeekR1,亲测成功
对DeepSeek事件的复盘和展望
作者简介:腾讯云TVP、北京交通大学计算机学院教授、计算机科学系主任、交通大数据与人工智能教育部重点实验室副主任。主要研究方向为多模态计算、网络数据挖掘、可信与对齐、AI Agent等。曾获中科院院长特别奖、ACM中国新星奖,作为负责人先后承担相关方向的国家自然科学基金重点项目、(首批)新一代人工智能重大项目课题、北京市杰出青年基金和国家级青年人才计划,第一/二作者论文7次获得中国计算机学会推荐国际会议的主会论文奖项,以第二完成人获得中国电子学会自然科学一等奖和北京市科学技术奖。
TVP官方团队
2025/02/03
1.2K0
对DeepSeek事件的复盘和展望
推荐阅读
AI自动化测试框架:Browser Use项目实战总结,测试工程师必看!
4150
每周AI论文速递(250526-250530)
600
🤩 mLLMCelltype | 多种大语言模型助力细胞类型注释!~
2311
大模型玩游戏,Deepseek-R1-0528 太强了
1020
使用DeepSeek必备的10个技巧
2K0
AGI-Eval 评测社区× GAIR Lab 发布最严苛AI基准:七大学科奥赛题难倒GPT-4o
340
【AGI-Eval学习干货 NO.2】DeepSeek小白必看指南,隐藏1000个提示词参考(建议收藏)
1680
AI实力榜大洗牌!OpenAI谷歌强势领跑,Anthropic节节败退
840
【AGI-Eval行业动态 NO.10】一文看懂,字节开源多语言的​​Multi-SWE-bench 的背后深意
1640
DeepSeek-R1:强化学习驱动的LLM推理能力提升
3300
物理测试暴击AI圈,DeepSeek R1稳超o1、Claude,我们已进入RL黄金时代
5780
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
2290
DeepSeek霸榜一周:奥特曼终于承认在开源问题上处于“历史错误的一边”;迅雷斥资5亿收购“直男社区”虎扑 | Q资讯
1790
【AGI-Eval评测报告 NO.6】o3 / o4-mini 文本权威评测:o3 强势登顶
1300
【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队
2670
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
9460
【AGI-Eval行业动态】OpenAI 语音模型三连发,AI 语音进入“声优”时代
2600
【AGI-Eval行业动态 NO.1】大模型行业太卷了,两周多了20+的模型
1080
手把手带你3步本地私有化部署DeepSeekR1,亲测成功
7.5K0
对DeepSeek事件的复盘和展望
1.2K0
相关推荐
AI自动化测试框架:Browser Use项目实战总结,测试工程师必看!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档