前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >追平GPT3.5!5道推理题测试国产大模型与GPT差距

追平GPT3.5!5道推理题测试国产大模型与GPT差距

原创
作者头像
成江东
修改2023-07-18 17:56:47
1.6K0
修改2023-07-18 17:56:47
举报
文章被收录于专栏:强人工智能之路

目前国产大模型可谓百花齐放,有些大模型甚至自称达到或者超过GPT3.5的水平,那实际情况究竟如何,我用5道推理题测试了GPT4、GPT3.5、 百度文心一言、讯飞星火大模型的表现,以下是测试过程。

问题一

有100斤土豆,含水量是99%,经过暴晒后含水量变成98%,请问此时土豆有多少斤?

GPT4: 正确

图片
图片

GPT3.5: 第1次回答不正确

图片
图片

第4次回答正确

注:点击"Regenerate response"按纽可以重新生成回答。

图片
图片

百度文心一言:正确

图片
图片

讯飞星火:正确

图片
图片

360智脑:3次回答仍然错误

问题二

个猎人向南走了一英里,再向东走了一英里,然后向北走了一英里,最终回到了出发点。他看到一只熊并开枪打死了它。这只熊是什么颜色?

GPT4: 正确

图片
图片

GPT3.5: 错误

图片
图片

百度文心一言:第2次回答正确,不过没有解释原理,同时回答有一个错别字“再”

图片
图片

讯飞星火:错误

图片
图片

360智脑:3次回答仍然错误

问题三

1.他怀孕的时候才3岁。

2.她怀孕的时候已经40岁了。

3.火车起飞时间是25点32分。

4. 离地面5米高的树枝上有一个水果,小明够不着,他搬来1个50CM高的凳子,站在凳子上摘到了水果。

上面4句话有问题吗?

GPT4: 第2次回答正确率100%(6/6)

图片
图片

GPT3.5: 正确率67%(4/6)

图片
图片

百度文心一言:正确率50%(3/6)

图片
图片

讯飞星火:正确率50%(3/6)

图片
图片

360智脑:正确率16%

问题四

有七个排成一列的数,它们的平均数是 30,前三个数的平均数是28,后五个数的平均数是33。求第三个数。

GPT4: 正确

图片
图片

GPT3.5: 第2次回答正确

图片
图片

百度文心一言:多次尝试仍然错误

图片
图片

讯飞星火:正确

图片
图片

360智脑:3次回答仍然错误

问题五

5,5,5,1这4个数字,在中间添加四则运算符号(+-*/)和括号,在所有的可能方案中,找出一个方案,让计算结果等于24.

GPT4: 正确

图片
图片

GPT3.5:尝试3次仍然失败

图片
图片

文心一言:正确

图片
图片

讯飞星火:重试3次仍然失败

图片
图片

360智脑:拒绝回答

得分评估

模型

题1

题2

题3

题4

题5

总分

GPT4

10

10

9.5

10

10

49.5

GPT3.5

8

0

6.7

9.5

0

24.2

文心一言

10

8

5

0

10

33

讯飞星火

10

0

5

10

0

20

360智脑

0

0

1.6

0

0

1.6

总结

  1. 针对5道推理题测试比较,国产大模型推理能力已经和GPT3.5差不多,甚至文心一言还略有超过。
  2. GPT4仍然是一骑绝尘,最好的文心一言也只达到GPT4 60%左右水平。
  3. 一个月前我测试过这些问题,GPT和国产大模型都没有今天回答的好,说明它们还在迭代进化。
  4. 陆奇说世界上只有2个国产能做出大模型:美国、中国,我相信中国会做出对标GPT4的大模型。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题一
  • 问题二
  • 问题三
  • 问题四
  • 问题五
  • 得分评估
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档