“每当我开除一个语言学家,语音识别系统就更准了!”
'Every time I fire a linguist, the performance of the speech recognizer goes up.'
说这句话的人,是现代语音识别和自然语言处理研究的先驱Frederick Jelinek,他还是美国工程院院士。
如今,我们处在这样一个智能时代——机器能完成大部分人类能完成的任务,比如下棋、扫地、作诗、翻译,甚至是跟单身狗对话……
然而,在与语言相关的人工智能开发方面,语言学的影响力却并不大,甚至是销声匿迹。这是为何?
如今,我们还处在一个大数据时代,大数据不仅为我们提供了前所未有的生活方式,甚至正在改变我们理解这个世界的方式。不谈数据,仿佛可信度就不高。
事实是否如此绝对?
在这个人工智能盛行的大数据时代,有这么一群学者,他们仍坚持做精细的语法研究,不用概率,追求准确性;不为相关,追求因果;不求语料数量,而坚持探索人类语言的最独特之处。
今天,小编要通过与人工智能的对比来介绍一下生成语法的研究体系。为何生成语法如今在人工智能中得不到应用,以及生成语法研究在大数据人工智能时代是否会经历范式更迭?
(以下内容改写自程工 & 邢富坤. 2018. 生成语法的目标与体系——与人工智能途径的对比.《现代外语》第3期: 293-305)
生成语法与人工智能
生成语法(Transformational Generative Grammar)与人工智能(Artificial Intelligence)均诞生于上世纪五十年代,是当代语言研究中有重大影响的两个范式。
生成语法的发展主要经历了三个阶段:
1. 规则模型(Rule system): 二十世纪五十年代至七十年代
2. 原则与参数模型(Principles and Parameters Model): 二十世纪八十年代至九十年代初
3. 最简论(Minimalism): 自二十世纪九十年代以来
在起初相当长的一段时间内,人工智能试图依托生成语法的形式化规则系统,主要是短语结构规则(phrase structure rule),在计算机上实现自然语言处理,但成效有限。从80年代开始,人工智能开始转向以大规模语料库为基础的概率统计路径。
据谷歌研究部主任Peter Norvig的最新材料,在应用领域里,搜索引擎、语音识别和机器翻译100%是概率性的,只有答问有少部分是规则和概率混合性的;
技术上,词义消歧、同指消解、词类标注和结构解析,多数优秀的软件是基于统计的,规则与统计混用的只占少数。
财富上,采用香农(概率)理论的人每年创造几万亿美元的收益,而采用Chomsky(规则)理论的人则区区不足十亿美元。
为何生成语法与人工智能研究从起初的合作走向如今的分道扬镳?在信息技术迅猛发展的今天,人工智能途径会不会取代生成语法?下面我们将从几个方面来进行探讨。
理论目标及模型
我们先来看下面这组著名的例子:
Colorless green ideas sleep furiously.
*Furiously sleep ideas green colorless.
虽然两句话都没有意义,但我们却可以轻松地判断,第一个句子是合乎语法的,而第二句话是不合语法的。
再比如下面这组汉语句子:
他跑步跑得很累。
*他跑步得很累。
去掉后面的“跑”似乎对句子意义影响不大,但却产生了不合法的句子。
从上述例子可以看出,句子是否合乎语法与其意义没有直接联系,也就是说,语法是独立于其他部门的一个模块,它不由意义决定,而是有其独立的来源,这一观点以“句法自治”而著称。
因此,生成语法的研究主要围绕“语法性”进行,其核心目标是建立一套明晰的语法体系,以生成语言中所有符合语法的句子,排除所有不合法的句子。
基于此目标,生成语法的体系必然是庞大的,因为不仅要生成已有的句子,还要生成潜在合法的句子。除此之外,它还必然是有限的,因为语法性仅与句法直接相关。
由于对语法性的关注,决定了生成语法的理论模型只能是确定性的,而不能是概率性的。“符合语法”这个概念与“接近统计近似值的等级高”这一概念无论如何无法等同。
而对于人工智能来说,其目标就语言研究而言,主要是在机器上实现对语言的理解,比如,机器翻译,语音识别,自动问答,从输入文本生成摘要等。
从这些目标我们可以看出,单靠语法是不足以实现的。也就是说,语言理解需要多个部门的作用,其中语义甚至比句法更能决定理解水平。
人工智能所应用的语料库技术正是通过对大量真实文本的分析,获取了理解语言所需的各种知识。由于语言理解总是不确定的,可能的解读往往不止一种,因此,人工智能选择概率模型几乎是必然的。
小结:
生成语法的理论目标及模型:语法性,确定性
人工智能的理论目标及模型:语言理解,概率性
语料来源
为了了解生成语法所关注的语言特性,我们先来看一组句子。
This is the house.
This is the house that Jack built.
This is the malt that lay in the house that Jack built.
This is the dog that worried the cat that killed the rat that ate the malt that lay in the house that Jack built.
………
上述过程演示了语言一个非常重要的特性,即无限性(infinity):语言的基础是一个有限的、但却可以递归使用的生成程序,可以无上限地产出结构性的表达式。
为了研究人类语言的这一特性,生成语法的研究目标便不能局限于研究已有句子,而且还必须包括那些合格的潜在句子,如上面的无限长的句子。
合格的潜在句子还包含另一种:从未出现但却可能被说出的句子。这体现了语言的另一重要特性:创造性(creativity),即说话人只须根据有限的经验就能说出并且理解无限数的新句子,说明语言知识得到了某种先天性因素的帮助。
由于生成语法坚持对人类语言特性的研究,因此其语料通常来自于人脑,而不把语料库当作一种理论上的必须。
对于生成语法而言,语料库的另一缺陷是不包含不合法的句子。正是这些几乎从不出现、有些古怪的语言现象反而最有意思,因为它们直接指向基本原则。
比如语法研究中常常运用“星句分析”法:对句子进行移位、插入、删除等变换,以此寻找哪些结构、或者哪些操作可能使符合语法的句子变得不合语法。
也许他打了你。
他也许打了你。
*他打了也许你。
这样的分析方法可以使我们发现,VP(谓语)与它的Complement(宾语)之间的关系更紧密,中间不允许插入其他成分,从而指向语言的基本原则。
总之,生成语法强调对语料的深度分析,强调对事实覆盖面的逐渐扩大,不刻意追求语料的数量。
人工智能所依赖的语料库根据大型的真实文本,通常覆盖面极广,规模巨大,可以获取丰富的知识,但却放弃了对语言重要特征的描写,如创造性和无限性。
小结:
生成语法的语料来源:内省法
人工智能的语料来源:语料库
结构分析
说起句子结构,我们再来看一个经典的句子——
Instinctively eagles that fly swim.
在这句话中,不难判断instinctively修饰线性距离上更远的swim,而非fly。根据短语结构规则,副词instinctively与VP(谓语)处在相同的层级上,而“fly”内嵌于主语的一个关系从句之中,在结构上反而距副词更远。
因此,生成语法认为,语法过程是建立在层级结构基础之上的。层级结构反映的是人类心智对语言计算的本质要求。线性关系则是非本质的,甚至可能不是句法内在的特性,而是由发音、感知器官的要求形成的。
此外,由于生成语法对非终端符号,如VP、NP的使用,使其在计算机上的操作变的较为困难。
人工智能基本上是建立在线性序列基础之上的。它将语料库当作由基本语言单元(例如字或者词等)构成的线性符号串看待,语言模型对基本语言单元的邻接关系进行统计和概率度量。
尽管在人工智能的发展路径中,也引入了树库与一些研究非线性结构的模型,但总体来说,线性序列仍占据着较为重要的地位。而生成语法则认为,线性顺序是外化过程的一部分,不属于句法核心范围。
小结:
生成语法的结构分析:侧重层级结构
人工智能的结构分析:侧重线性序列
此外,当代基于大数据的方法倡导以关联取代因果,这在其他领域有成功的可能,但从目前掌握的情况,从数据中获取关联,成功的案例发生在无结构的要素之间,例如检索中关键词和流行病的关联。然而,语言成分之间的关联是依存于层级结构的,与无内部结构的其他数据类型有质的区别。因此,不进行深度的结构分析,仅仅依据数据本身,是难以真正认识语言单位之间的关联关系的。
词库与句法
无论从传统语言分析还是自然语言处理,词都是极为重要的概念和研究对象。与词相关的概念还有词库,即词的库藏。从生成能力的角度,语言(L)、语法 (G)和词库(Lex)系可用下面的等式描述——
L=G*Lex
也就是说,对任一语言 L,加强语法信息并减少词库信息,或反之加强词库信息并减少语法信息,生成能力是等值的。在加强语法还是加强词库方面,生成语法和 AI 做出了几乎截然相反的抉择。
生成语法在进入最简论模型之后,逐步反思以强化词库信息来减少语法负担的方法,典型的代表是分布式形态学(Distributed Morphology,以下简称DM)。DM取消了词的正式理论地位,认为词和短语均由句法生成,词的本质即是短语。
如此以来,词库变得非常简单,成为语素(morpheme)的一份列表。任何包含层级结构的表达式,如词、成语、固定搭配以及程式表达,都被移出了词库。也就是说,生成语法选择的是大语法、小词库的研究路径。
而对于人工智能来说,计算机具有极强的记忆能力,但句法计算能力(即正确组合成分的能力)偏弱,所以一般都会选择把词库做大。
在语料库中,某种语言中的大部分词都会出现,并且有一部分高频词具有较多样例,能够为统计提供较好支持。因此,为了便于计算机处理,频率通常被认为是鉴别词的标准。
比如,《信息处理用现代汉语分词词表》(孙茂松等主编)里收录了“猪肉、猪头、木梳、左耳、母猪、东门、白云、笛声、改为、 一个、第一”等词。王洪君(2001)解释,虽然与“第”搭配的结构能产性极强,甚或 是可无限类推建造的,但产成物的使用频率却差别极大。因此可以只取频率高者(如“第一”)入库,其他的通过其他方式解决。
这一方法对于机器而言无疑是有效的,但也存在一定弊端。大词库、小句法的做法难以解决词的鉴别问题,且无法对词的内部结构进行有效的分析。
小结:
生成语法:小词库、大语法
人工智能:大词库、小语法
总结
生成语法与人工智能在理论目标、模型、语料来源、结构分析和词法与词库方面均存在差异,由于他们理论目标的不同,形成互不适应的局面是在所难免的。
两个理论虽然有尖锐对立,但却有各自的优长。生成语法的长处是在分析和解释语言的内在机制方面,而人工智能则使机器处理语言达到了极高的水平,在工程实现和实际应用方面具有生成语法远不能比拟的优势。
鉴于生成语法和人工智能这两种研究各有不可替代的价值,在不同领域,以不同方式,或者深化了对语言本体机理的认识,或者促进了语言信息技术的应用,所以我们更愿意相信,它们同时健康地发展不仅是可能的,而且也是必要的。
领取专属 10元无门槛券
私享最新 技术干货