前文回顾:
在(一)语言理解能力测试中,我们主要测试了两个大语言模型对复杂语义的理解、对文章情绪的识别、对文章进行摘要总结、对文章进行要素提取,测试结果表明:在语言理解能力上:除了有些问题他拒绝回答之外,讯飞星火的表现明显要好于文心一言,可以说很接近ChatGPT3.5的水平。
在(二)任务完成能力中,我们测试了模型对表格的处理能力,完成了藏头诗,拟定了跑步计划,总体发现,两个模型在这方面的能力上表现一般。
在(三)常识问题中,回答不够满意,不知到具体的原因,在逻辑推理上,文心一言和讯飞星火都要比ChatGPT差不少。最后,面对错误的问题,测试关公战秦琼和林妹妹倒拔垂杨柳,AI本着你胡说八道,我就更胡说八道的理念,基本上的就是错上加错。
今天我们来测试两个模型在逻辑数学上的能力。
1.测试内容设计
逻辑数学和代码部分比较相关,都是考察模型的推理能力。这部分对模型的要求较高,一般认为代码的训练和“思维链” (Chain of Thought) 技术会对逻辑推理有明显帮助。目前看来这似乎是大模型特有的优势,基本上百亿参数以下的模型在这一部分表现都欠佳。
在这项测试中,我们准备了五项内容的考量,分别是:
1. 简单逻辑推理:简短的逻辑问题
2. 文字逻辑:给大段文字中蕴含的逻辑问题
3. 数学(初等数学计算,但较多推理,类似小学初中的应用题,考察逻辑推理)
2.简单逻辑推理
用例1:
1、2、4、8、16......试按此规律写出第11个数?
文心一言:
讯飞星火;
ChatGPT
这类题对AI来说难吗?怎么都错了呢?
2.文字逻辑
用例1:
同学们站成一排,从左边数华华是第 5人,从右边数第 4 人是华华,这排共有多少人?
文心一言:
讯飞星火;
ChatGPT
文心一言和讯飞星火都错了,ChatGPT对了。
用例2:
有A、B、C、D、E五个自然数,其中A>B,E>C>D,D>B,E>A。请从小到大排列这些数
文心一言:
讯飞星火:
最后一步就错了。
ChatGPT:
这个结论也是错的。
3.简单数学
这里我选择几个常用的小学数学题和奥数题,测试AI的数学能力
用例1:(小学5年级真实考题)
小明到爷爷办的养牛场去玩,小明问:“爷爷,这里有多少头奶牛呢?”,爷爷说:“这群奶牛,4头4头的数,多3头;6头6头的数,多5头;15头15头的数,多14头,而且这群奶牛的数量在150~200头之间。”你计算一下,这群奶牛有多少头?
文心一言:
文心一言的解题思路都错了,不得分
讯飞星火;
求最小公倍数的思路是对的,一个得40%的步骤分。
ChatGPT
洋洋洒洒的写了那么多,但是最多给10%的分。
用例2:比例问题
你有1000kg蘑菇,含水量是99%。现在晒几天,晒到含水量为98%,那需要晒掉多少水?
文心一言:
nice!100分。
讯飞星火:
回去认知读题,0分。
ChatGPT:
求出蘑菇干的重量,可以酌情给分,20%。
用例3:经典的鸡兔问题
鸡兔同笼,共35只头,94只脚,问鸡兔各多少?
文心一言:
用的是小学的解法,100分。
讯飞星火:
标准的方程解法,100分。
ChatGPT
方程解法,100分。
面对最常用的测试,3个都通过。
用例3:一个简单的数论题
一个自然数,他的最大约数和次大约数的和是111,这个自然数是?
文心一言:
讯飞星火:
ChatGPT:
都错,都错,全部都错!答案应该是74.
用例4:简答的几何题
因为目前不都不支持图形输入,因此只能出个简单的:
你能帮我证明勾股定理吗?
文心一言:
给出了一个思路,大家能看懂吗?
讯飞星火:
哈哈,像极了当初做题一脸噩梦的我们。
ChatGPT:
因为没有图,但是按照描述,应该是用的一个正方形证明的方法。
4.总结
数学和推理一直不是大语言模型所擅长的,因此今天测试了几道逻辑推理和几个简单的小学数学题,答得一般。
领取专属 10元无门槛券
私享最新 技术干货