Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Claude 3 能辅导你的数学作业了?

Claude 3 能辅导你的数学作业了?

作者头像
王树义
发布于 2024-03-13 05:44:23
发布于 2024-03-13 05:44:23
1720
举报
文章被收录于专栏:玉树芝兰玉树芝兰

详细讲解,耐心答疑。一个不知疲倦,更不会嫌你「问题太傻」的优秀助教。

能力

Claude 3 推出之后,风头正劲。其中的「超大杯」Opus 号称可以在各项指标上碾压 GPT-4。这不,最近有一篇关于 Claude 3 在各个科学领域应用的文章我的朋友圈里刷屏了。文章提到了 Claude 3 在材料学、物理学和数学等领域研究的应用,让人感到非常振奋。仿佛有了这款新的大语言模型,科研工作都可以交给它来完成。这篇文章引起了广泛关注,但也有不少人持怀疑态度。由于我对材料学了解不多,我也把文章分享到朋友圈,想听听大家的意见。

结果朋友们众说纷纭。有人认为有用,也有人认为没用。与其纠结于这些争论,不如我们亲自动手试一试。

高数

我决定让 Claude 3 帮我解答一些微积分题目,看看它在高等数学方面的表现如何,能否给出正确答案。我从 可汗学院找了一些微积分的练习题。

第一题是求一个定积分,涉及求导和根号等操作。

这题目让我感到很熟悉,毕竟大学学过,但现在让我解题确实有难度,需要重新复习。与其自己花时间做题,不如直接把题目交给 Claude 3。

Claude 3 给出了完整的解题步骤,从已知条件出发,先求导数,再计算定积分,最后得出答案为 3。

我半信半疑,把题目输入可汗学院,没想到 Claude 3 的答案居然正确。

我怀疑这是不是碰巧蒙对了,于是又尝试了第二道题。

这次我直接把题目截图发给 Claude 3,它很快给出了详细的解题步骤,最终得出答案为 -9。

我把答案提交到可汗学院,结果依然正确。

两道题下来,已经很难说 Claude 3 是在乱猜了。至少对于可汗学院上的这些定积分练习题,它能够通过 OCR 识别题目,列出清晰的解题步骤,讲明原理,并给出准确答案。

数独

除了高数题,我还让 Claude 3 尝试解答数独题。起因是去年我带学生参加了华为杯研究生数学建模大赛,最后获得了数模之星提名奖(一等奖 200 名中的前 12)。

大赛颁奖典礼,场馆里有个有趣的环节叫做「数学文化互动」。

大家聚在一起解各种数学题,从微积分到数独,应有尽有。

我对数独不太在行,当时就想到把题目拍照发给 ChatGPT 求解。

它虽然尝试分析,但最终没能解出来,我也没拿到奖品。

今年 3 月 10 日,我再次尝试,把同样的题目发给了网页版 ChatGPT。

它还是尝试分析题目,但我看到它开始编程时就知道不妙。

ChatGPT 的英文 OCR 能力虽然不错,对中文还有欠缺。但它编程来进行 OCR ,能力就立即下降一大截。因为这些 Python 包比起 ChatGPT 的 OCR 能力,差得太远了。果不其然,最后 ChatGPT 只识别出了 8、7、4 三个数字,根本没法解题。

于是它就开始执拗地继续尝试识别,识别出来的结果是这样的:

以及这样的:

总之,对于解题来说,ChatGPT 的这些努力毫无助益。

于是我把同样的题目发给了 Claude 3。令人惊喜的是,它直接给出了最终答案,没有任何迟疑。

然而,我仔细一看就发现答案有问题。比如答案中的左上角填入了数字 5,可其实 5 已经出现在了第一行第二列,所以这显然不对。后来我又测试了几道数独题,Claude 3 的表现都不尽如人意,没有一题答对。

探析

为了找出问题所在,我让 Claude 3 展示 OCR 识别结果。

这一下,我立即找到了原因。

我发 Claude 3 虽然能准确识别每行数字,但对于空格的位置经常出错。比如第 3 行的正确填法是「x 3 x」。

但 Claude 3 却识别成「3 x x」。

数独题中,哪怕只有一个空格位置错了,也会导致整个答案出错。不能准确把握输入,相当于考试的时候审题出错,后续结果也就可想而知了。看来 OCR 中的空白位置识别失误,是 Claude 3 无法准确解答数独问题的短板。

我把实验的结果做成了视频。

很快就有观众留言,反馈了自己测试的结果。

这证明了我的判断还是准确的。

小结

通过这些实验,我们可以得出以下结论:Claude 3 在识别数学公式方面表现出色,能够准确识别数字和符号,理解公式含义,并给出正确解答。然而,它在数独题的空格位置识别上还存在问题,导致答案频频出错。

虽然 Claude 3 在理科题目的自动求解上还称不上完美,但在辅助自学方面,它的潜力不容小觑。想想看,以前我们做题时,还需要专门购买题目精讲手册,来详细讲解答案,帮助我们解除疑惑。现在有了 Claude 3,它能够根据你拍照输入的题目,提供详尽的解题步骤。遇到疑惑的地方,你还可以随时提问,却不用担心问题「太傻」,有损自己睿智的人设。这对于自学和课业辅导来说,是一个非常好的工具。

我目前只测试了定积分和数独题。至于 Claude 3 在其他理科题上的表现如何,还有待进一步探索。我相信,只要给它足够的准确知识作为上下文,Claude 3 在文科题目上也能有所斩获。欢迎大家都来尝试一下,更希望你能把测试结果分享到评论区,让我们共同探索人工智能在教育领域的应用前景。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 玉树芝兰 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Claude 3成功破解未公开算法?智商测试101分超越人类/碾压GPT-4!网友惊呼:实测比跑分还强
而另一个网友发现,Claude 3 Opus仅用了2个提示就从头重新发明了这种量子算法。
新智元
2024/03/13
1430
Claude 3成功破解未公开算法?智商测试101分超越人类/碾压GPT-4!网友惊呼:实测比跑分还强
万字一手实测Prover-V2-671B数学证明模型
上一篇比较简单的文章,其实已经介绍了昨天DeepSeek-Prover-V2-671B的相关介绍,本来已经是节假日了,想着不写了。
AIGC新知
2025/05/01
920
万字一手实测Prover-V2-671B数学证明模型
ChatGPT大战司法考试,无需微调一类试题达到人类水平!医学化学公务员试题都能答
杨净 明敏 发自 凹非寺 量子位 | 公众号 QbitAI ChatGPT的下一个新身份——做题家! 这不,它已经在人类各个考试中开“卷”了。 律师、医生、注会什么的,它都开始纷纷展露身手。 比如,全球考生都头疼的司法考试,现在ChatGPT在两项试题达到了合格率,其中一项还跟人类水平持平。(还是在没有任何微调的基础上) “成绩”一出,瞬间引发巨大关注,网友:Amazing~ 还有人表示,要是让它来参加SAT或AP考试,应该会很有趣。 咳咳,要是公务员考试呢? 咱们结尾见分晓! 两项法考试题合格 具
量子位
2023/02/28
3050
ChatGPT大战司法考试,无需微调一类试题达到人类水平!医学化学公务员试题都能答
轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错
最新研究用32道测试题,总计320分,涵盖4大主题:向量计算、几何分析、积分计算、优化问题,评估了AI模型在高等数学的表现。
新智元
2025/03/11
780
轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错
开源!mathAI 手写拍照自动能解高数题,还不快试试?
怎么算呢?趁着高数知识还没忘完,赶紧拿起纸演算起来。大部分人是这么做的。但是如果现在跟你说,可以用 AI 来做,你信吗?
红色石头
2022/01/12
1.7K0
开源!mathAI 手写拍照自动能解高数题,还不快试试?
AI学高数达到MIT本科水平,学了微积分线性代数概率论等6门课,不光能做题还能出题
万万想不到啊,2022年才刚开始,突然有人宣布他们的模型掌握了高数,达到MIT本科水平。
量子位
2022/01/14
4970
AI学高数达到MIT本科水平,学了微积分线性代数概率论等6门课,不光能做题还能出题
AI席卷校园:百万条对话揭秘,Claude是代码救星还是作弊工具?
随着AI越来越深入地融入教育环境,需要思考一系列关于学习、评估和技能培养的重要问题。
新智元
2025/04/13
700
AI席卷校园:百万条对话揭秘,Claude是代码救星还是作弊工具?
千亿级、数学专用,MathGPT大模型开始公测了
8 月 24 日,机器之心获悉,在好未来 20 周年直播活动中,CTO 田密宣布好未来自研的数学领域千亿级大模型 MathGPT 开启内测。即日起,用户可通过官网(www.mathgpt.com)申请注册账号免费试用体验。
机器之心
2023/09/08
5090
千亿级、数学专用,MathGPT大模型开始公测了
机器学习5大数学知识(附详细课程资源)
机器学习理论是一个涵盖统计、概率、计算机科学和算法方面的领域,该理论的初衷是以迭代方式从数据中学习,找到可用于构建智能应用程序的隐藏洞察。
统计学家
2019/08/01
1.3K0
MathGPT来了!专攻数学大模型,解题讲题两手抓
允中 发自 凹非寺 量子位 | 公众号 QbitAI 大模型领域又来新玩家。 据了解,学而思正在进行自研数学大模型的研发,命名为MathGPT。 面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心。 目前已经取得阶段性成果,并将于年内推出基于该自研大模型的产品级应用。 据悉,学而思已将MathGPT作为公司核心项目,由CTO田密负责。 今年春节前,该项目已经启动相应的团队建设、数据、算力准备和技术研发。 此外,学而思已经启动在美国硅谷的团队建设,将成立一支海外算法和工程团队,在全球范围内招募优
量子位
2023/05/12
3060
MathGPT来了!专攻数学大模型,解题讲题两手抓
ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6
这简直就是,今年GPT-4刚刚发布时,Greg Brockman所展示的多模态能力。
新智元
2023/10/04
4180
ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6
考研数学崩了?再看他们是如何靠数学挣钱的!(内附原题及隐藏福利)
刚刚结束的研究生考试中,今年的数学卷让每一个考生恨得咬牙切齿,大家不仅在心里无数次亲切的问候了出题老师,还默默的点了一首《凉凉》送给自己 这幅哀鸿遍野的场景,不仅迅速使“考研数学”登上了微博热搜榜,还
大数据文摘
2018/05/24
6210
o3拿下25%高分震惊数学教授,2025 IMO金牌或被AI收入囊中!
在这之中最引人瞩目的,便是在今年11月Epoch AI发布的数学基准Frontier Math上,准确率破纪录地达到了25.2%。
新智元
2025/02/15
1010
o3拿下25%高分震惊数学教授,2025 IMO金牌或被AI收入囊中!
OpenAI新发现:GPT-3做小学数学题能得55分,验证胜过微调!
现在小学数学题有多难?小学生拍图上传作题App找不到现成答案,稍微变换下题设语句,就要买会员换人工答题。
AI科技评论
2021/11/05
1.1K0
OpenAI新发现:GPT-3做小学数学题能得55分,验证胜过微调!
PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门
作者 | 王玥 编辑 | 陈彩娴 近日,一项新研究发布于PNAS,再次刷新了神经网络的能力。这次神经网络被用来解决了高等数学题,而且还是麻省理工数学课程难度的数学题! 在这项新研究中,研究团队证明了 OpenAI 的 Codex 模型可以进行程序合成从而解决大规模的数学问题,并通过小样本学习自动解决数据集中 81%的数学课程问题,并且 Codex 在这些任务的表现上达到了人类水平。 原文链接:https://www.pnas.org/doi/10.1073/pnas.2123433119 这项研究的出现,
AI科技评论
2022/08/26
3230
PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门
逆天!手写高数题,拍照自动求解
怎么算呢?趁着高数知识还没忘完,赶紧拿起纸演算起来。大部分人是这么做的。但是如果现在跟你说,可以用 AI 来做,你信吗?
量化投资与机器学习微信公众号
2019/05/21
1.7K0
逆天!手写高数题,拍照自动求解
免费、支持中文、无需注册、直接可用的「ChatGPT最强竞品」——Claude发布!
而就在最近,Claude突然开放了申请,也更新支持了中文,听说API还是不限量不要钱的那种哦~
AiCharm
2023/05/15
7350
免费、支持中文、无需注册、直接可用的「ChatGPT最强竞品」——Claude发布!
OpenAI用GPT-3与小学生比数学,水平达90%!60亿小模型性能翻倍,追平1750亿大模型
---- 新智元报道   来源:OpenAI 编辑:好困 小咸鱼 【新智元导读】近日,OpenAI训练了一个系统可以解决小学数学问题。一个9-12岁的小孩子在测试中得分为60分,而OpenAI的新方法在同样的问题上可以拿到55分,已经达到了人类小学生90%左右的水平! 还记得上小学时,被「口算天天练」里面的应用题绕晕的阴影吗? 来,试一道! 「小明每半小时喝一瓶水。一个普通的数独难题要花他45分钟。一个极难的数独需要4倍的时间。做一道极难的数独那段时间他喝了多少瓶水?」 不算难吧。 但这回,OpenA
新智元
2023/05/22
4160
OpenAI用GPT-3与小学生比数学,水平达90%!60亿小模型性能翻倍,追平1750亿大模型
学而思研发面向全球数学爱好者大模型MathGPT
---- 新智元报道   编辑:好困 【新智元导读】近日,学而思官宣称,正在自研的数学大模型「MathGPT」,目前已取得阶段性成果。 近日,在各家大厂打得如火如荼的「ChatGPT大战」中,学而思也加入其中。 不过,学而思另辟蹊径选择的是自研数学大模型「MathGPT」,以数学领域的解题和讲题算法为核心,并且已经取得了阶段性成果。 对此学而思表示,基于该自研大模型的产品级应用预计会在年内推出,将面向全球数学爱好者和科研机构。 作为公司的核心项目,学而思早在今年春节之前就启动了相应的团队建设、数据、
新智元
2023/05/09
2590
学而思研发面向全球数学爱好者大模型MathGPT
清北爸爸辅导数学崩溃瞬间,这个国产大模型有解!AI启发问答关键情绪稳定
让清北毕业的爸爸都崩溃的这个难题,恐怕没有这么简单。毕竟,自己会做一道题和能把孩子教会,是完全不同的两件事。
新智元
2024/06/17
1300
清北爸爸辅导数学崩溃瞬间,这个国产大模型有解!AI启发问答关键情绪稳定
推荐阅读
Claude 3成功破解未公开算法?智商测试101分超越人类/碾压GPT-4!网友惊呼:实测比跑分还强
1430
万字一手实测Prover-V2-671B数学证明模型
920
ChatGPT大战司法考试,无需微调一类试题达到人类水平!医学化学公务员试题都能答
3050
轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错
780
开源!mathAI 手写拍照自动能解高数题,还不快试试?
1.7K0
AI学高数达到MIT本科水平,学了微积分线性代数概率论等6门课,不光能做题还能出题
4970
AI席卷校园:百万条对话揭秘,Claude是代码救星还是作弊工具?
700
千亿级、数学专用,MathGPT大模型开始公测了
5090
机器学习5大数学知识(附详细课程资源)
1.3K0
MathGPT来了!专攻数学大模型,解题讲题两手抓
3060
ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6
4180
考研数学崩了?再看他们是如何靠数学挣钱的!(内附原题及隐藏福利)
6210
o3拿下25%高分震惊数学教授,2025 IMO金牌或被AI收入囊中!
1010
OpenAI新发现:GPT-3做小学数学题能得55分,验证胜过微调!
1.1K0
PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门
3230
逆天!手写高数题,拍照自动求解
1.7K0
免费、支持中文、无需注册、直接可用的「ChatGPT最强竞品」——Claude发布!
7350
OpenAI用GPT-3与小学生比数学,水平达90%!60亿小模型性能翻倍,追平1750亿大模型
4160
学而思研发面向全球数学爱好者大模型MathGPT
2590
清北爸爸辅导数学崩溃瞬间,这个国产大模型有解!AI启发问答关键情绪稳定
1300
相关推荐
Claude 3成功破解未公开算法?智商测试101分超越人类/碾压GPT-4!网友惊呼:实测比跑分还强
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档