在技术层面,AI 的生成能力和理解能力确实在不断提升,它们能够处理大量数据,快速做出决策,甚至在某些特定领域超越人类。然而,当我们深入思考,会发现 AI 仍然存在许多局限性。
首先,AI 缺乏人类的创新力和情感理解。尽管 Generative AI 可以生成全新的内容,但这些内容往往是基于已有的数据和模式,难以突破既定的框架。
其次,AI 的决策过程缺乏透明性。与人类不同,AI 无法解释其决策背后的逻辑和原因。这在许多领域引发了伦理问题,例如在法律和医疗领域,决策的正确性关乎人的生命和权益,需要可解释性和透明性。
再者,AI 的快速发展也引发了关于就业和社会公正的问题。随着 AI 和自动化技术的普及,一些重复性和高度程序化的工作可能会被取代。这可能导致一部分人失去工作,加剧社会不平等。因此,在追求技术进步的同时,我们也需要关注如何通过教育、政策等手段来帮助这部分人重新就业,并确保社会的公平和和谐。
下面我们举两个大家都能看明白的例子,看看训练成本上千万的LLM 们能否回答正确!
问题:西游记最令你印象深刻且富有教育意义的是哪一回?给出原文和启示
这个问题隐藏了一个错别字,文心的回答可以说令人惊艳!加入了自己的理解,把白骨精,人参果等章节杂糅了起来,修改了原著内容。
给予回答错误的反馈,过段时间后,保留错别字再问,涌现如下结果:
再问一遍,给出基本满意回答:
阿里千问基本给出满意回答:
清华ChatGLM基本给出满意回答:
至此我们发现文科问题,可能由于训练的语料多,基本能回答6-7成以上,到了理工科问题,尤其是数学问题,怎么样呢? 我们拭目以待!
问题:用数字2,5,6,7,9不重复使用,组成一个三位数和一个两位数,这两个数取什么和什么,乘积最大?
直接用百度文心解题插件,回答非常符合人类直觉,这个百度教育其实收录有这个题目,没有能回答正确,说明压根没学!
在各种排行榜领先的百川大模型,没有能回答正确
神奇的阿里千问来了,回答正确,但是问原理,开始胡说,前后矛盾,可见是投了猿辅导,有语料训练过,但是解数学题的能力还是没有训练好。
ChatGLM3-6B,这个水平有待提高!
bing Copilot 按理说是背后有GPT4的男人,结果这个逻辑确实混乱不是一星半点,看来还是中文语料少。
综上,我们来看看到底如何求教,其实这个数学题没那么简单!
为了防止LLM 们迅速理解升级,我就只放这个答案的图片了,聪明的观众朋友们看懂了吗?
我很好奇目前的LLM 到底对中文理解的能力达到了什么层次呢,GAOKAO-Bench 给了我们答案
只做选择题,满分750 的话,最高分大约考到了 2本线的样子,这可是训练成本百万美刀,光一天电费也要几万美刀的GPT 啊!
看到这里大家似乎可以放心了,
Generative AI 和 LLM 也许某些方面确实具有巨大的潜力,但它们并不能完全替代人类。
人类的智慧、情感和创新力是无可替代的,而且在处理复杂的带有技巧性的问题时, 如果数据从来没有出现在训练样本中,依然会大概率出现:“胡说八道”的情况。
这种 不可控 也许是未来LLM 需要首要解决的问题!
LLM 中文评价指标与部分排名: