如何用初中知识把大部分LLM干掉！

流川疯

发布于 2024-01-04 08:38:04

1460

发布于 2024-01-04 08:38:04

文章被收录于专栏：流川疯编写程序的艺术流川疯编写程序的艺术

文章大纲

Generative AI 与 LLM 真的能替代人类走向未来嘛？
经典名著解读：《西游记》原著你有没有好好看过？
初中数学题：上点强度，先不看答案你多久可以做对？
以高考为例的LLM实测水平：大概最好的学生可以上民办本科，大家可以放心了!
参考文献与学习路径

Generative AI 与 LLM 真的能替代人类走向未来嘛？

在技术层面，AI 的生成能力和理解能力确实在不断提升，它们能够处理大量数据，快速做出决策，甚至在某些特定领域超越人类。然而，当我们深入思考，会发现 AI 仍然存在许多局限性。

首先，AI 缺乏人类的创新力和情感理解。尽管 Generative AI 可以生成全新的内容，但这些内容往往是基于已有的数据和模式，难以突破既定的框架。

其次，AI 的决策过程缺乏透明性。与人类不同，AI 无法解释其决策背后的逻辑和原因。这在许多领域引发了伦理问题，例如在法律和医疗领域，决策的正确性关乎人的生命和权益，需要可解释性和透明性。

再者，AI 的快速发展也引发了关于就业和社会公正的问题。随着 AI 和自动化技术的普及，一些重复性和高度程序化的工作可能会被取代。这可能导致一部分人失去工作，加剧社会不平等。因此，在追求技术进步的同时，我们也需要关注如何通过教育、政策等手段来帮助这部分人重新就业，并确保社会的公平和和谐。

下面我们举两个大家都能看明白的例子，看看训练成本上千万的LLM 们能否回答正确！

经典名著解读：《西游记》原著你有没有好好看过？

问题：西游记最令你印象深刻且富有教育意义的是哪一回？给出原文和启示

这个问题隐藏了一个错别字，文心的回答可以说令人惊艳！加入了自己的理解，把白骨精，人参果等章节杂糅了起来，修改了原著内容。

给予回答错误的反馈，过段时间后，保留错别字再问，涌现如下结果：

再问一遍，给出基本满意回答：

阿里千问基本给出满意回答：

清华ChatGLM基本给出满意回答：

至此我们发现文科问题，可能由于训练的语料多，基本能回答6-7成以上，到了理工科问题，尤其是数学问题，怎么样呢？我们拭目以待！

初中数学题：上点强度，先不看答案你多久可以做对？

问题：用数字2，5，6，7，9不重复使用，组成一个三位数和一个两位数，这两个数取什么和什么，乘积最大？

直接用百度文心解题插件，回答非常符合人类直觉，这个百度教育其实收录有这个题目，没有能回答正确，说明压根没学！

在各种排行榜领先的百川大模型，没有能回答正确

神奇的阿里千问来了，回答正确，但是问原理，开始胡说，前后矛盾，可见是投了猿辅导，有语料训练过，但是解数学题的能力还是没有训练好。

ChatGLM3-6B，这个水平有待提高！

bing Copilot 按理说是背后有GPT4的男人，结果这个逻辑确实混乱不是一星半点，看来还是中文语料少。

综上，我们来看看到底如何求教，其实这个数学题没那么简单！

为了防止LLM 们迅速理解升级，我就只放这个答案的图片了，聪明的观众朋友们看懂了吗？

以高考为例的LLM实测水平：大概最好的学生可以上民办本科，大家可以放心了!

我很好奇目前的LLM 到底对中文理解的能力达到了什么层次呢，GAOKAO-Bench 给了我们答案

https://github.com/OpenLMLab/GAOKAO-Bench

只做选择题，满分750 的话，最高分大约考到了 2本线的样子，这可是训练成本百万美刀，光一天电费也要几万美刀的GPT 啊！

看到这里大家似乎可以放心了，

Generative AI 和 LLM 也许某些方面确实具有巨大的潜力，但它们并不能完全替代人类。

人类的智慧、情感和创新力是无可替代的，而且在处理复杂的带有技巧性的问题时，如果数据从来没有出现在训练样本中，依然会大概率出现：“胡说八道”的情况。

这种 不可控 也许是未来LLM 需要首要解决的问题！

参考文献与学习路径

LLM 中文评价指标与部分排名：

https://github.com/hkust-nlp/ceval
https://github.com/haonan-li/CMMLU
https://opencompass.org.cn/
https://flageval.baai.ac.cn/#/home

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2024-01-03，如有侵权请联系 cloudcommunity@tencent.com 删除

教育

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度