前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何用初中知识把大部分LLM干掉!

如何用初中知识把大部分LLM干掉!

作者头像
流川疯
发布2024-01-04 08:38:04
1460
发布2024-01-04 08:38:04
举报
文章大纲
  • Generative AI 与 LLM 真的能替代人类走向未来嘛?
  • 经典名著解读:《西游记》原著你有没有好好看过?
  • 初中数学题:上点强度,先不看答案你多久可以做对?
  • 以高考为例的LLM实测水平 :大概最好的学生可以上民办本科,大家可以放心了!
  • 参考文献与学习路径

Generative AI 与 LLM 真的能替代人类走向未来嘛?

在这里插入图片描述
在这里插入图片描述

在技术层面,AI 的生成能力和理解能力确实在不断提升,它们能够处理大量数据,快速做出决策,甚至在某些特定领域超越人类。然而,当我们深入思考,会发现 AI 仍然存在许多局限性。

首先,AI 缺乏人类的创新力和情感理解。尽管 Generative AI 可以生成全新的内容,但这些内容往往是基于已有的数据和模式,难以突破既定的框架。

其次,AI 的决策过程缺乏透明性。与人类不同,AI 无法解释其决策背后的逻辑和原因。这在许多领域引发了伦理问题,例如在法律和医疗领域,决策的正确性关乎人的生命和权益,需要可解释性和透明性。

再者,AI 的快速发展也引发了关于就业和社会公正的问题。随着 AI 和自动化技术的普及,一些重复性和高度程序化的工作可能会被取代。这可能导致一部分人失去工作,加剧社会不平等。因此,在追求技术进步的同时,我们也需要关注如何通过教育、政策等手段来帮助这部分人重新就业,并确保社会的公平和和谐。

下面我们举两个大家都能看明白的例子,看看训练成本上千万的LLM 们能否回答正确!

经典名著解读:《西游记》原著你有没有好好看过?

问题:西游记最令你印象深刻且富有教育意义的是哪一回?给出原文和启示

这个问题隐藏了一个错别字,文心的回答可以说令人惊艳!加入了自己的理解,把白骨精,人参果等章节杂糅了起来,修改了原著内容。

在这里插入图片描述
在这里插入图片描述

给予回答错误的反馈,过段时间后,保留错别字再问,涌现如下结果:

在这里插入图片描述
在这里插入图片描述

再问一遍,给出基本满意回答:

在这里插入图片描述
在这里插入图片描述

阿里千问基本给出满意回答:

在这里插入图片描述
在这里插入图片描述

清华ChatGLM基本给出满意回答:

在这里插入图片描述
在这里插入图片描述

至此我们发现文科问题,可能由于训练的语料多,基本能回答6-7成以上,到了理工科问题,尤其是数学问题,怎么样呢? 我们拭目以待!


初中数学题:上点强度,先不看答案你多久可以做对?

问题:用数字2,5,6,7,9不重复使用,组成一个三位数和一个两位数,这两个数取什么和什么,乘积最大?

直接用百度文心解题插件,回答非常符合人类直觉,这个百度教育其实收录有这个题目,没有能回答正确,说明压根没学!

在这里插入图片描述
在这里插入图片描述

在各种排行榜领先的百川大模型,没有能回答正确

在这里插入图片描述
在这里插入图片描述

神奇的阿里千问来了,回答正确,但是问原理,开始胡说,前后矛盾,可见是投了猿辅导,有语料训练过,但是解数学题的能力还是没有训练好。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

ChatGLM3-6B,这个水平有待提高!

在这里插入图片描述
在这里插入图片描述

bing Copilot 按理说是背后有GPT4的男人,结果这个逻辑确实混乱不是一星半点,看来还是中文语料少。

在这里插入图片描述
在这里插入图片描述

综上,我们来看看到底如何求教,其实这个数学题没那么简单!

为了防止LLM 们迅速理解升级,我就只放这个答案的图片了,聪明的观众朋友们看懂了吗?

在这里插入图片描述
在这里插入图片描述

以高考为例的LLM实测水平 :大概最好的学生可以上民办本科,大家可以放心了!

我很好奇目前的LLM 到底对中文理解的能力达到了什么层次呢,GAOKAO-Bench 给了我们答案

  • https://github.com/OpenLMLab/GAOKAO-Bench

只做选择题,满分750 的话,最高分大约考到了 2本线的样子,这可是训练成本百万美刀,光一天电费也要几万美刀的GPT 啊!

在这里插入图片描述
在这里插入图片描述

看到这里大家似乎可以放心了,

Generative AI 和 LLM 也许某些方面确实具有巨大的潜力,但它们并不能完全替代人类。

人类的智慧、情感和创新力是无可替代的,而且在处理复杂的带有技巧性的问题时, 如果数据从来没有出现在训练样本中,依然会大概率出现:“胡说八道”的情况。

这种 不可控 也许是未来LLM 需要首要解决的问题!


参考文献与学习路径

LLM 中文评价指标与部分排名:

  • https://github.com/hkust-nlp/ceval
  • https://github.com/haonan-li/CMMLU
  • https://opencompass.org.cn/
  • https://flageval.baai.ac.cn/#/home
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章大纲
  • Generative AI 与 LLM 真的能替代人类走向未来嘛?
  • 经典名著解读:《西游记》原著你有没有好好看过?
  • 初中数学题:上点强度,先不看答案你多久可以做对?
  • 以高考为例的LLM实测水平 :大概最好的学生可以上民办本科,大家可以放心了!
  • 参考文献与学习路径
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档