原创内容
No.699
认真聊AI | 概念和知识
最近打工有点忙外加搞了个私活小项目暂停了一段更新,二老板虽然迟到但不会失约,让我们继续之前的认真聊AI系列内容~
图片由海艺AI绘制
上一期我们大致聊过一些人工智能的起源、定义和流派的内容。聊人工内容总是离不开聊哲学,在上一篇的内容中,其实就已经有大量探讨的内容涉及到哲学层面了,比如说概念有三个功能:指物功能、指心功能和指名功能。
对人工智能来说,知识是最重要的部分,知识由概念组成,概念是构成人类知识世界的基本单元。之前也写过一些关于这方面的小文章,不过并不成体系,在这个专门探讨人工智能的专栏中,我们从概念表示和知识表示开始做一个体系化的整理。
奈何这部分的内容比较偏哲学的领域,读起来确实比较难以理解,我会尽力尝试尽可能用不那么术语的说法来描述这些概念,不过这些内容本身对于后续人工智能相关内容的理解影响也不是很大,看不下去的朋友们可以安心跳过这些难懂的东西。
对人工智能来说,最终要呈现之物是知识,所以我们就需要先界定清楚什么是知识。知识又是由概念组成的,所以我们在聊知识这个话题的时候就必须要先聊聊概念这个话题。
我们常常用概念来对某一个东西下定义,但是和所有恼人的哲学问题一样,如何给概念下定义就是一件很困难的事情。
曾经人们一直认为,概念可以准确定义,而缺少准确定义的概念仅仅是因为我们的研究还不够深入而已。直到1953年维特根斯坦发表了《哲学研究》,这样的观念才被改变,人们开始认识到不是所有的概念都可以被精确定义。
所谓概念的精确定义,就是说能够给出一个命题,用这个命题去套用一个现实中的对象可以得出属于或者不属于两个结论。一个经典的概念由三部分组成,即概念名、概念的内涵表示、概念的外延表示。
比如偶数这个概念,我们用可以看作这么三个部分:概念名就是偶数,“只能被2整除的自然数”就是概念的内容,{2,4,6,8,……}就是概念的外延。正如上面说的,如果生活中的有些概念容易被藐视,那自然就有些东西不容易被描述。偶数可以被很清晰的描述出来,但是“猫”就没有那么容易用这样的结构描述出来了。
现代认知科学的研究者们认为生活中的各种实用概念,不一定存在经典的命题表示,但是这并不影响这些概念的正确使用。比如我并不能给出一个“猫”的概念出来,但是这并不影响我在生活中区分猫和狗。
基于此,一些新的理论流派出现了,比如原型理论、样例理论和知识理论。
原型理论认为一个概念可以由一个原型来表示。一个原型既可以是一个实际的或者虚拟的对象样例,也可以是一个假设下的图示性表征。然而找到一个样例好像也不是什么容易的事情,比如好人、美女、秃子这些概念,刘亦菲可以是美女的原型,但是美女这个概念的原型也可以是范冰冰。
那么问题来了,这些边界不清晰的概念我们到底是如何掌握的呢?20世纪70年代的儿童发育学家发现,儿童在学习的过程中,只需要认识同一个概念中的几个样例就可以对所属的概念进行辨识了。基于此,样例理论诞生了。
样例理论认为,概念不可能由一个对象样例或者原型来代表,但是可以用多个已知样例来表示。
讲这些哲学理论看似枯燥,但其实正式这些枯燥的哲学理论给了机器学习的发展很多启示。比如样例理论如何机器能够和人脑一样运转,我们给机器一些已知的样例,机器是不是就能够和人类一样分辨概念了。
知识是人们在长期的生活及社会实践中、在科学研究及实验中积累起来的对客观现实世界的认识和经验。人们把实践中获得的信息关联在一起,就形成了知识。
信息关联在一起的方式有很多,比如“如果打雷了,则会下雨”,反应的是“打雷”和“下雨”两个信息之间的关系。在人工智能领域,这种关联就被成为规则。再比如“草是绿色的”,反应了“草”和“绿色”之间的关系,这种关系,在人工智能领域,被成为“事实”。
知识和概念相比,不确定性更多了一些,“如果打雷了,则会下雨”,但是也有可能打雷了但是不下雨啊。这就要提到知识的两个特性了:相对正确性和不确定性。
在人工智能领域,尤其是构建专家系统时,都非常强调将知识限定在所求解的问题范围内,这就和知识的相对正确性有很大的关联。比如1+1=2,在十进制下才是正确的,二进制下就是错误的,如果一开始没有限定好问题的范围,最终求解的答案可能千奇百怪。这个道理放在大语言模型写提示词的逻辑里也是一样的。
现实世界非常复杂,引起不确定的因素非常多。信息可能是不精确的、模糊的,经验也有可能是不确定的,还有可能是因为不够了解而引起的经验误差。比如“水星上没有生命”,有没有一种可能,水星上其实有生命,只是我们每找到?
复杂的哲学概念到这里就结束了,下一节内容,我们将继续聊聊人工智能领域到底是如何表示知识的。
二号姬
半路出家自学成才的文科数据人,看过了大厂的风景也做过了小厂的CDO~目前是闲职,写写稿带带学生,欢迎勾搭~