信息时代语言学研究的基础

-读《数学与语言》有感

刘海涛


人是一种语言的动物, 这是他与其它动物相比最大的不同之处。语言作为人类知识和信息的载体,为人类的发展和进步起到了无可比拟的作用。我们可以毫不夸张地说,没有语言就不会有人类今天。正是语言的这种与人类的密切相关性和重要性, 有史以来人类从未放弃过对语言本身的研究和探讨. 综观人类对语言的研究可以发现,我们对于语言的认识和研究的深度是与社会的发展密切相关的, 是与人类对整个世界的认识息息相关的.

众多的事实表明我们目前处于一个信息和知识趋于"爆炸"的时代, 大量信息的出现使得我们不得不寻找能够快速处理它们的技术和方法。由于对人而言, 信息的主要载体可能就是语言,所以我们的研究重点也就成了寻求高效适宜的语言处理技术和装置.计算机的出现加快了定性信息和数据的处理. 在语言信息处理方面, 由于人类语言的模糊性、离散性及其它特性, 而极大地限制了计算机在此领域中的应用。如果我们希望计算机能够进一步扩展与延伸人类的大脑, 我们就必须研究让计算机懂得人类的语言、能够处理人类的语言. 于是研究语言不仅仅考虑人类,而也应该顾及到机器, 就成了信息时代语言研究的一大特点.这一点已被越来越多的语言学家和计算机专家所认同.

遗憾的是语言作为人类所特有的现象具有许多特殊和繁复之处,其中最重要就是语言的不规则性和模糊性.计算机作为一种定性的机器要处理语言材料则必需首先懂得语言的结构及其他特征,这就要求人们能把语言的结构和其他所需的材料精确地改写成计算机可以理解的程序和数据结构。数学是计算机科学,特别是软件理论和实践的重要基础。有鉴于此,研究语言学的数学化,或者说,从数学的观点去探索、研究自索绪尔以来现代语言学观点和理论应该是当代语言学家的一项重要任务。

近日读到冯志伟教授所著《数学与语言》(以下简称“数语”)一书,收获颇多,觉得有必要向语言学界引介。此书由湖南教育出版社于1991年出版,全书265页。由于本书是作为《数学·我们·数学》丛书之一出版的,加之印量只有1400册,所以在语言学界很少有人读到此书。一个偶然的机会,笔者发现了此书。通读全书之后,我认为虽然本书是以“数学”丛书之一的面貌问世的,但实质是一位严肃的语言学家从数学的角度出发对索绪尔所建立的现代语言学理论的反思和发展,其目的在于建立一种信息时代的语言观。

作者冯志伟教授研究现代语言学和计算语言学多年,著述颇丰。“数语”从索绪尔关于语言符号具有的两个重要特性(符号的任意性和能指的线条性)出发,进一步指出由于索绪尔所处时代的局限,他是无法提出哪些只有在信息时代语言符号才能显现出的特性的。与任何事物一样,语言学也是不断发展的,信息时代的语言研究决不可能仅仅停留在索绪尔理论的框框里,而应该结合计算机处理语言的特点进一步发展索绪尔的理论,只有这样才能是语言学这门古老的学科焕发青春,成为真正意义上的“领先学科”。

本着发展索绪尔理论的思想,“数语”作者结合计算语言学和现代数学等学科的新成果、新理论,重新审视语言这一极为复杂的符号系统,提出语言符号除了索绪尔提出的两大特征外,还具有以下几大特点:①语言符号的随机性:语言符号的出现和分布规律不是完全确定的,具有随机性,这一特性使得语言与统计数学发生了联系。②语言符号的冗余性:语言符号之间彼此制约,使得我们可以根据前后符号的关系来判断有关语言符号的性能,这样语言符号就显示出冗余性,这一特性使得语言与信息论发生了联系。③语言符号的离散性:语言符号是由一些离散的单元组成的,具有离散性,这一特点使得语言与集合论发生了联系。④语言符号的递归性:语言符号可以反复地使用有限的规则构成无限的句子,具有递归性,这一特点使得语言与公理化方法发生了联系。⑤语言符号的层次性:语言的句子并不是由各个单词依前后的线性顺序排列而成的简单的线性序列,而是一个层次的立体性结构,具有层次性。每一个句子的线性序列的表层之下,都隐藏着一个层次分明的树型图。这一特点使得语言和图论发生了联系。⑥语言符号的非单元性:语言符号并不是一个无结构的单元性符号,而是一个有结构的、由多个复杂特征的非单元性符号,具有非单元性,这

作者围绕语言符号的这“七大”特点展开有理有据的分析、讨论,这些内容既有别人的一些研究成果,更多的则是作者多年来潜心研究的结果。

限于篇幅,本文不可能对作者提出的观点一一进行评介,下面就书中所提出的语言的公理化和语言的随机性谈一些自己的看法。

控制论的创立者维纳在其《人有人的用处》一书中指出:“人对语言的兴趣似乎是一种天生的对编码和译码的兴趣,它看来在人的任何兴趣中最近乎人所独有的。言语是人的最大兴趣,也是人的最突出的成就”。维纳的这一段话,再次说明了语言对于人类的重要性和人类对于语言研究的浓厚兴趣。维纳将语言与编码、译码相提并论,说明了对语言用数理方法进行分析、处理的可能性。

德国著名语言学家洪堡特认为语言是“用递归手段生成的系统,生成的法则是固定不变的,而生成的范围以及使用的具体办法则是完全没有一定的”,简言之,语言是“有限手段的无限应用”。正是在此基础上,乔姆斯基提出了著名的生成语法。如果洪堡特和乔姆斯基对于语言的理解是正确的,那么对于语言的描述就是尽可能抽取出一个符合内在规律的规则系统,选定了一种语言中其特有的规则系统元素,就等于确定了这一种人类语言。通过规则来描述语言使得语言具有了一定的可计算性和可操作性,从而导致了数理语言学和计算语言学的产生。而数理语言学和计算语言学又可以通过数学方法去“仿真”人类的某些智力行为,这对于推动人类心智的研究有极大的意义。由此可以看处数学方法和理论对于语言研究的重要性。有鉴于此,“数语”作者专劈一章“语言的符号的递归性于公理化方法”较为详尽地研究了语言的这一重要特性,也可以说语言的公理化特质是现代数理语言学和计算语言学得以发展的基础。

递归的定义与归纳证明具有相似的逻辑结构,它们均是由预先给定的有限数目的命题出发,反复运用一套特定的规则,推导出无限数目的外加命题。这种逻辑结构与数学中的公理方法极其相似,假定的起始命题为公理,外加命题叫定理,定理可由公理以及前面已推出的定理反复运用推理规则进一推导出来。公理的集合、推理规则的集合以及用来写这些集合的字母表,构成了一个公理系统。由此看来,递归定义很象一个公理系统,其中基底类似于公理,递归步骤类似于推理规则,这样的递归定义所刻画出的集合的元,除了那些有基底给出的元之外,就相当于公理系统的定理。“数语”作者认为:“上下文自由文法与数学中的半图厄系统存在等价关系,而半图厄系统是一种特殊的扩展公理系统”。

既然如此,如何使用有限的手段来描述无限的语言,便成为理解与生成人类语言最基本的理论和实际问题。换言之,如何选定数目有限的规则,来生成无限的语言,是语言研究的一个基本问题。通过公理化的方法来研究人类语言,可以更精密地揭示人类处理语言的机制。公理化的语言描述也使得机器“仿真”人类的语言理解行为成为可能。就目前而言,得益于用公理化来分析语言的领域要算是计算语言学了,数理语言学是其理论基础。

我们认为自然语言的这种可使用公理来描述的特点,体现了自然语言的可计算性。为使计算机可以懂得如何处理自然语言,必须赋予它足够的语言规则。所谓语言规则就是把语言由概念组合成判断和推理的规律和方法。语言规则可分为三大类:人类语言共有的规则,某种语言所特有的规则和某词所特有的规则。人类语言共有的规则可称作公理规则,它是由特定语言理论或从先验中归纳、概括出的描写、制约语言表达和语言结构的抽象原则的总和。公理规则是语言理论的指导思想,它制约着其他两类规则的研究和概括,又影响着算法的建立和优化。

当然,作者也指出公理化方法的不足,主要是由于任何公理系统都是一个封闭的自足的系统,一般而言它的适用范围只是在一个句子内。毫无疑问的是自然语言的公理化描述,极大地有利于语言的形式化描述,而形式化又是语言自动处理的必要一步。理论上讲,公理化的句子生成技术和理论,也可进一步扩展到比句子更高的层次,如篇章。事实上,近年来已有学者提出基于篇章的自然语言生成理论和方法。这更说明递归和公理化特性是语言的基本特质之一。

语言的随机性和模糊性,是阻碍定性的计算机处理人类语言的最大障碍。关于语言的这两大特性,索绪尔也没有谈到。“数语”作者根据自己多年来从事自然语言计算机处理的经验,对此问题作了深入的分析。更为可贵的是,采用数理方法的描述使得在计算机上处理语言的模糊性和随机性成为可能。

从信息论和控制论的角度看,语言是人类之间、人机之间传递信息的工具。理论语言学研究的重点为人类语言的一般特性,而计算语言学研究的是人机之间采用自然语言的交流问题。计算语言学也可看作是研究通过计算机等机器去实现人类语言处理机制的仿真科学。 定性与不定性之间的矛盾使得计算机在处理人的语言时遇到了难以跨越的障碍。

我们说语言在各个层次充满了模糊和不确定,指的正是语言语义方面的问题,因为语言的句法方面是不难通过形式化的方法来描述的,乔姆斯基的生成语法理论和特思尼耶尔的依存语法理论都是这一方面的杰出代表。就语言符号的理解和分析而言,内容是一种隐含的、模糊的东西,它只有通过形式才能被感知。不幸正在于此,一种形式可能表示多种内容,这就是计算机在处理自然语言时遇到的最大难题--歧义问题。

歧义问题是自然语言处理系统面临的最大难题,在自然语言的各个层次都存在着这个问题,由于层次的不同歧义可以分为词汇歧义和结构歧义,词汇歧义属于词汇语义学的研究范畴,而结构歧义属于语法或句法语义学的课题。按照语言自动处理的观点看,所谓歧义就是一个字词串经过文法分析器后产生多个合格输出的现象,或者说歧义指的是同一句子可能有几个符合句法解释的现象。歧义作为影响语言正确理解的最大障碍,理所当然便成为计算语言学中语义研究的重点。对于语义的研究导致了计算语义学的产生,它的目的在于研究自然语言语义形式化的理论和方法,狭义说计算语义学是将语义分析看作为一种演算过程,它通过逻辑的方法处理语义问题,广义上讲,计算语义学研究利用计算机来处理和仿真人类语义处理机制的方法和理论,特别是歧义问题的处理和消解。本文作者在分析了逻辑和自然语言的关系、计划语言学及众多其它相关学科已有的研究成果之后,认为计算语义学的广义概念可能更适宜于大规模、真实文本处理的应用。

对于有歧义的语句,理解的任务就是从多种结构中选出最适宜的和最可能的结构,注意我们在这里使用了“适宜”和“可能”这两个非绝对的词,目的在于说明在语言理解领域没有什么绝对的正确,而只有相对的“可能”。这些词汇的应用说明了语言的模糊性是多么的根深蒂固。

如果承认计算语义学研究是人类语义处理机制的仿真,那么分析人类对于语义的处理方式和消解过程可能是有益的。人类处理歧义问题的关键在于人的大脑中存有大量的知识,这些知识包括句法的、语义的和其他各类常识,利用这些知识人们可以很容易地理解对计算机来说有歧义的语句。与人一样为了较完美地解决这个难题,计算机必然需要大量的各种知识。由于计算机与人有着极大的不同,知识需显式表示出来,然而许多知识是模糊的、难于量化的,换言之,寻求适宜的、有效的知识表示方法是利用现有计算资源实现自然语言处理系统的唯一途径。理论上,我们不难把某些有关外部世界的知识授于计算机,难就难在世上的知识是无穷尽的,而我们还不十分清楚为了消除歧义,系统究竟需要什么样的知识。“数语”一书所提出的语言符号的几大特质将有利于我们对于利于语言来进行知识表示和处理的研究。

语义的不可分解性和隐含性、歧义问题的复杂性、语言理解的无限性、语义的关联性、大规模真实文本处理的迫切性等,所有这些因素交织在一起,使得我们必须寻求新的语义处理方法和机制。

“歧义”是自然语言的特点之一,也是自然语言与其它人造符号体系的根本不同之处。但人人都有这样的经验,孤立地看有多个意义的词一旦被放到一个句子中,它的意义就很清楚了。有时为了正确地确定某个词的意义,人们甚至应将考虑的语境范围扩大到几个句子和段落。这说明在一篇文章中的某一个词(句子)和文章中的其它词(句子)有一种内在的联系,换言之是一个词与句中其他元素的关系确定了它本身的意义,词在一定类型的上下文中只体现自己的某一种意义,它可以与具有一定意义的、数量不等的词构成伙伴关系,因此一个多义词有几种意义就可能有几种类型的上下文,有几种特点不同的组合联系。一个词具有的语境关系的总和便是我们所理解的著名哲学家维特根斯坦语言哲学中“意义即用法”的涵义。一个词的意义等于它的语境关系的总和,所谓“语境关系”就是一个词项在各种语境中遇到的全部正常关系。这一理解基本上是针对词汇语义而言的,它是我们建立非分解原则语义处理机制的语言哲学理据。

语言是用于人类交往的工具,在交往的过程中一般涉及接收者与发送者。接收者在交际过程中选择的词汇理解组合是在正常情况下最有可能的语境话语。在这里"选择"和"可能"道出了语言理解的真谛。也就是说,在语义处理的过程中没有绝对的概念,人们理解一个句子的意义,只不过是因为它比其他意义更可能而已。而作出这种选择的主要根据就是语境或词在此时此地的用法。按照我们的理解"词义"是蕴涵于它的语境之中的,词义是不能脱离它的语境关系来研究与讨论的。

自然语言处理本质上是一种人类语言处理能力的仿真。人类在处理语言的过程中更多地利用了类比和学习机制,我们根据维特根斯坦语言哲学“用法论”提出的“某一语言单位的意义即它的全部语境关系”的看法,是进一步建立类比语义处理机制的基础。语境关系是一个词在各种语境中所遇到的全部关系,具体来说这些关系有句法关系和语义关系,如词的搭配关系、同现关系、支配关系等。我们认为语义是隐含于它的所有语境关系中的。在语言理解和生成过程中,人们所利用的就是自己过去曾处理过的语例,并没有利用什么抽象的分析方法,他使用的只是一种基于类比机制的方法来处理语义的。有时我们可根据语境能判断出一个新词的意义,这说明利用语境关系确能推断出一个词的(可能)意义。表示知识和意义最好的工具就是自然语言,这是毫无疑问的。语言处理与别的计算机应用相比,有一个有利的条件,那就是存在大量的文献可供计算机作为语言处理的基础。

类比语义理论是目前计算语言学界基于经验的自然语言处理方法的基础,基于经验的语言处理方法(目前最有代表性的为语料库语言学)正是人们为了解决语言中的模糊性和随机性而诞生的,它的理论基础是统计数学。“数语”作者在书中所提出的语言的随机性和模糊性,再次成为信息时代语言研究的基础。他所提出的许多数学方法极其有利于语言的计算机处理。

统观全书,我们认为“数语”立论新颖、论述严谨,在语言符号的基本特性方面,进一步发展了自索绪尔以来现代语言学中的某些认识和看法,建立了一个以精密为特点的信息时代语言学研究的理论框架。这些理论和语言符号新特点的提出,对于普通语言学、计算语言学及语言学的其它分支都有积极的意义。

作为一本学术著作,美中不足的是书末没有主题和人名索引,这使得查阅不太方便。我们认为鉴于此书探索、研究、发展了现代语言学中的一些基本问题,对于语言学褚分支都有较大的意义,值得每一位语言学工作者研读。建议出版社能够尽快重印此书,只有这样才能使书中所提出的重要思想让世人所知,并进一步发扬光大。

 

参考文献

冯志伟:数理语言学,知识出版社,1985.

冯志伟:数学与语言,湖南教育出版社,1991.

冯志伟:自然语言的计算机处理,上海外语教育出版社,1996.

洪堡特:论人类语言结构的差异及其对人类精神发展的影响,商务印书馆,1997.

刘海涛: 维特根斯坦语言哲学对计算语义学的影响. 载《计算语言学研究与应用》,

北京语言学院出版社,1993.

刘海涛:基于类比的计算语义处理机制. 载《语言工程》,清华大学出版社,1997.

乔姆斯基语言哲学文选,商务印书馆,1992.

维纳,N: 人有人的用处,商务印书馆,1978.

伍铁平: 语言学是一门领先的科学. 北京语言学院出版社, 1994.


Back