计算语言学不仅仅是计算

读冯志伟《计算语言学探索》

 

刘海涛

 


 

 

前不久,收到国外同行寄来的由美国现代语言学会编撰的《MLA International Bibliography 1991-2002》文献检索光盘,MLA 文献目录是国际上最重要的语言及语言学研究检索出版物。MLA 常年跟踪的学术刊物和系列出版物达3000多种,它也收录许多相关专业的专著、研究报告、会议文集、研究书目等多种格式的资料。虽然,我们不能完全按照MLA的收录情况来衡量一位语言学研究者的学术成就,但是正如SCI一般被用来衡量自然科学的学术成就一样,MLA毫无疑问是一种较有效的用来观察语言及语言学研究人员研究成果的工具。

拿到光盘之后,我兴致勃勃地开始输入我熟悉的几个中国语言学家的名字,检索结果都没有查到,令人遗憾。我们当然可以将其归结为外国人不了解国内的研究状况,但是造成这种局面的主要原因还在于我们自己。长久以来,我们国内的许多语言学研究者不习惯于跟踪和阅读国外文献,研究方式也异于国际惯例,这样产生的所谓研究成果,当然也难于和别人交流、共享。国内语言学界的这种状况,使得我们本来就不多的具有“原创”色彩的成果,也难以为世人所知。

令人高兴的是我在MLA中检索到冯志伟先生题为《Complex Features in the Description of the Chinese Language》的文章,由此想起我们的科研和出版机构应该多支持像冯先生这样既具有深厚学术功底、又了解国内外相关学科发展的学者,为他们创造条件,使他们能够潜心学术,为国家多培养一些人才,多留下一些真正意义的学术成果。多年来,我一直跟踪冯先生在计算语言学、术语学、应用语言学及语言学其他分支的研究。深深感到,冯先生是国内为数不多的具有原创思想的(计算)语言学家之一。我想如果某个出版社能够将冯先生那些具有原创思想的文章,从各种杂志、书籍中抽取出来,编辑成册,这无疑是一件很有意义的事情。最近,黑龙江教育出版社出版了冯先生的《计算语言学探索》,实现了我多年的心愿。感谢黑龙江教育出版社为我们作了一件好事。

这本近400页的《计算语言学探索》(2001)共六章,分二十节收录了冯志伟先生在“字词统计”、“语言模型”、“科技术语”、“歧义结构”、“机器翻译”、“语言理论”等方面的探索和思考,与冯先生其他著作不同的是,本书收录的基本都是他对于某一领域的创造性研究和思考,而非介绍别人的研究和学科的一般理论。

在前言中,作者回顾了自1957年以来,他研究数理语言学及计算语言学的曲折历程,其中的许多艰辛是今天的年轻人难以想象的。我们知道与其他应用性学科相比,语言学永远都是一个付出多、而物质收获少的行当。许多能够在语言学研究做出一些成绩的学者,对于语言学研究都有着浓厚的兴趣和深厚的感情,立志于此的年轻一代,应该作好过苦日子的准备,只有这样,才能耐得住寂寞,做出一些成绩。

第一章“字词统计研究”,在题为“‘例不十,法不立’原则和统计方法”的第一节中,作者从语言的随机性出发,借助于统计方法和语料库语言学的一般原则,对于我国前辈语言学家提出的‘例不十,法不立’原则进行了有理有据的质疑。我们不难理解,前辈语言学家在他们那个时代提出这一原则的理由和根据,但是随着社会的发展,语言学和其他学科一样,研究手段有了很大的进步。为此,固守住老套套只会阻碍学科的发展。这篇文章给我们的最大启示,不在于它的内容,而在于一种学术研究的精神,这就是要敢于对于前人的学术成果和学界已经认可的金科玉律问为什么,敢于对于权威的金科玉律提出质疑,只有这样,学术才有可能得到进一步的发展。语言文字的熵是自然语言信息和知识处理中极为关心的一个问题,作者在本章的后两节中,介绍了他研究汉字熵和极限熵的成果。他采用逐渐扩大汉字容量的办法,计算出汉字的熵为9.65比特。汉字熵的测定,在当时的技术条件下,是一个相当困难的工作,但是冯先生用巧妙的方法,在世界上首次测定出汉字的熵值。与拼音文字相比,汉字的熵要高的多。从信息论的角度看,如此大的熵对于通讯技术和汉字的信息处理都极为不利,进而为国家的信息化也带来困难。毫无疑问,这是一个学者从理论的角度对于国家信息化的贡献。为了缓解由于汉字熵值大而带来的问题,作者建议要搞好汉字的规范化、标准化,严格限制常用汉字的数量,使汉语的书面形式适应现代科学技术发展的需要,从而推进我国知识工程研究。

第二章“语言模型研究”包含两节“生成语法的公理化方法”和“中文信息的MMT模型”。我们说这一章的内容是作者对于计算语言学的重大贡献,并不过分。在“公理化”一节中,作者通过了严格的数学推理证明了乔姆斯基生成语法是一个基于公理的半图厄系统。正是这种基于公理的特质,使得乔姆斯基的理论较好的实现了德国语言学家洪堡特提出的语言是“有限手段的无限应用”这一原则。通过作者的数学推理和证明,读者可以更深入地理解乔氏的理论,可以认识到乔氏的形式文法不过是数学中的公理系统理论在语言分析中的应用而已。众所周知,乔氏理论的生成能力奇强,换言之,乔氏不但实现了洪堡特提出的著名原则,而且大大超额完成了任务。我们曾经在一篇关于基于公理化的的国际语学研究中,探讨了计划语言作为另外一种证明洪堡特原则的手段(刘海涛,1997a)。通过分析,我们不难看到,人类在计划语言的实践中,不但证明了洪堡特的名言,而且没有出现表现过度的情形。为什么严格的数学和形式化方法,反而会这样呢?

MMT模型是至今为止中国学者在计算语言学方面最重要的成就之一。我们知道,自从[19]80年代以来,国际上出现的许多新的计算语言学理论和方法均采用了“复杂特征”来描述自然语言,这其中有今天鼎鼎大名的“词汇功能语法”(1983)、“功能合一语法”(1983)、“广义短语结构语法”(1985)和“中心词驱动的短语结构语法”(1985)。事实上,冯志伟先生比这些外国学者提出“复杂特征”的时间都要早一些。遗憾的是我们的研究人员没有国外学者的研究条件和环境,为此没有形成完整的理论体系和学术圈子,因而也没有国外学者的影响大。该书作者不但从理论的角度提出了MMT模型,而且在此理论的指导下,研制了几个涉及多种语言的机器翻译系统,证明了MMT理论的有效性。MMT的英文全称是“Multiple-branched and Multiple-labeled Tree model”。如果说,其第二个M所表示的“复杂特征”具有国际性的话,其第一个M则宣告了MMT与乔氏短语结构文法的决裂,虽然作者在书中强调了第一个M和乔氏仍然具有的亲情。但是我个人认为MMT具有更好的普适性,它不但适应于基于短语结构的语法理论,也适合于基于依从概念的语法形式化描述。

第三章“科技术语与译名研究”收录了作者在术语方面的研究心得,其中较重要的是第二节“从语言学的角度看科技术语之间的关系”和第三节“术语形成的经济律”,有关术语更详细的内容可参考作者的《现代术语学引论》,此书是国内第一本术语学专著。为什么一位计算语言学家会热衷于术语研究呢?我们知道就目前人们的知识水平和技术条件所限,计算语言学的实际应用一般都集中在科技信息类的文本之上,术语是构成科技文本的基本单元,是国际交流中的一种重要组成元素。术语研究是语言规划领域的一个重要分支,是研究人类知识表示的一门学问。从这些角度而言,一位深悉计算语言学难点的学者,从事术语学的研究是不难理解的。作者对于术语学,特别是汉语术语构成规律的研究,对于普通术语学有着重要的意义。作者对于术语形成经济律的研究,更是超出了普通意义的术语研究,而可以进一步扩展到更具有一般性的“语言编码的经济律”,它是一个支配着语言编码的普遍规律。

第四章“歧义结构研究”,虽然只包含了短短的两节内容:“论歧义结构的潜在性”和“自然语言处理中的歧义消解方法”,但对于歧义现象有独到的研究。自然语言处理几十年的历史,其本质就是研究者与歧义现象的斗争历史。作者在仔细分析各类歧义的基础上,创造性地在世界上首次提出了“潜在歧义论”(PA 理论)。虽然这种理论是作者研究汉语科技术语时的副产品,但是由于歧义问题对于计算语言学实在是太重要了,所以作者将这种理论推而广之,引入到自然语言处理领域之中。实践证明,PA不仅仅存在于科技术语,也存在于日常语言中,不仅可见于汉语中,也存在于英语等其他语言中。PA 是存在于自然语言中的一个普遍现象,通过PA,我们可以更深入地理解自然语言的歧义问题,进而发现更有效的歧义消解方法与策略。在第二节中,作者依据他与歧义斗争的经验,提出了一些具体的歧义消解方法,这对于自然语言处理系统的研究者具有切实的指导意义。

第五章“机器翻译研究”所占的篇幅最大。这是由于作者的主要研究领域就是机器翻译,同时机器翻译也是众多计算语言学应用中最为复杂的应用之一。第一节“机器翻译-从梦想到现实”讲述了机器翻译的历史和现状,从内容而言,这一节没有什么新的东西,熟悉机译历史的读者可忽略不读。作者在一本讲述自己研究心得的专著中,加入这一节内容,可能是为了方便不太熟悉这一领域的读者和宣告机译的困难性。在第二、三、四、六节,通过作者自己开发的德汉、法汉、英日等系统,介绍了机器翻译的具体步骤和方法,细心的读者从中一定会受益匪浅,读完这几节的读者也不难感觉到要让机器来完成翻译的巨大困难。以翻译为职业的朋友绝对可以高枕无忧,不用再担心机器会取代你的位置。对于自然语言处理的研究者而言,第六节给出的详细的消歧规则,是非常有用的。一般的读者,也会发现歧义消解为什么如此困难。如果作者能够将他80年代初期在法国所做的“--法/英/日/俄/德多语言自动翻译试验”的文章也加入本章(此文曾收录入COLING’82论文集),就更好了

第五节“从属关系语法的某些形式特征”是作者对于从属关系语法形式化理论的一大贡献。从属关系语法由于其注重语言单位间关系的特质,深受广大自然语言处理研究者的欢迎(刘海涛,1997b)。 作者留学法国期间,研读了从属关系语法的奠基性著作(Tesniere, 1959),并将这种理论介绍到了国内(冯志伟,1983)。作为国内为数不多研读过Tesniere原著的计算语言学家,加之作者又在自己的多个自然语言处理系统中采用了从属关系语法作为其语法理论,我们理应从这一节等待更多。迎接我们的是作者提出的从属树应该满足的五个条件。虽然这五个条件较之广为流传的J.罗宾逊四条公理要更适合自然语言处理应用,但是我们需要从作者那儿了解更多其他的东西。这是因为从属关系语法虽然起源于法国,但成长于德国。许多重要的文献都是德文,作者通晓德、法、英等多种语言,又在法、德等国留学、教学多年,理应为我等喜欢从属关系语法,但由于语言障碍和文献获得困难之国人,多提供些信息和资料。希望在下次再版时,增加一些内容。因为本节的题目为从属关系的形式化,在此我愿补充一些相关内容的文献链接,有兴趣的读者可参考(Bröker 1999,  Fraser 1993, Heringer 1993/1980, Kruijff 2001)。

第六节“受限汉语研究与信息技术”是作者从另一个角度探索自然语言处理问题的心得,鉴于计算机处理一般语言运用的困难,目前人们不得已只能采用限制领域和受限语言的办法来研究、开发自然语言处理系统。受限语言的本质是一种人为将自然语言从句法或词汇方面进行简化的语言,计划语言的历史和研究可以为受限语言提供宝贵的资料。有关这一方面的内容,读者可参考(刘海涛1997a, Liu 1999a/b, Schubert 2001)。作者认为,如果我国的计算语言学研究首先来解决受限汉语的问题,即可加快我国计算语言学探索研究成果的实用化和商品化进程。由此可以看出,在没有更有效的语言处理方法之前,句法结构简单、词汇量小的语言总是受计算语言学家的欢迎的。刘海涛(2001)一文较为详细地从多种角度比较了通过人工手段和自然进化的简化语言,希望能够成为这一节的补充读物。

第六章“语言理论研究”中的第一节谈到了“我国自然语言处理的世界化”,这个问题本不该成为问题,因为任何可称之为“学问”的东西,原本就应该是世界化的。作者将这个问题单独拿出来论述,可见这一不是问题的问题在我国已经成为真正的问题了。从作者在本节列举的现象来看,许多的东西不仅仅是计算语言学界的问题,它们也不同程度地存在于语言学的其它分支。世界化的前提是了解世界,进而采用一些符合学术规范的途径走向世界。这一节的内容对于年轻的学者尤为重要,在一个开放的世界里,特别是一种像(计算)语言学这样的学科里,闭门造车绝对意味着落后和没有出路。一个普通的人有权选择在井底安家,但一个现代的学者决没有这样的权利去做井底之蛙。本章第二节的副标题“信息时代的语言观”更能代表本节的内容,在这一节里,作者根据信息时代语言研究的需要,进一步发展了现代语言学奠基人索绪尔在其《普通语言学教程》中提出的语言符号的任意性和能指性,认为语言符号除了这两种特性外,还有如下7个特性:层次性,非单元性,离散性,递归性,随机性,冗余性和模糊性。作者提出的语言符号的这7种新特性不但丰富了人们对于语言符号的认识,也是自然语言处理对普通语言学基本理论的挑战,同时也代表着信息时代的人类对于语言的新认识,换言之,它就是信息时代的语言观。第三节“语言文字规范化对于语言信息处理的作用”认为语言文字的规范化和标准化对于自然语言处理的所有领域都有作用。究其原因,不外乎规范的语言现象比较符合计算机刻板、规则的本性。由于语言规范化问题是一个涉及整个国家与民族的大问题,我们不知道,为了社会的发展,人们是否能够再接受一次文化的洗礼。理论上,我们应该如此。感谢作者从学术的角度为社会发展,国家昌盛提出的建议。

书末附有的作者的主要著作和研究工作目录,计有专著17部,中文论文150余篇,英德、法文近20篇,译文20余篇。研制机器翻译系统5个,术语数据库3个,参与编制国家标准6个。编写各种自然语言处理程序模块近50个。面对这些平常人难以理解和完成的工作,我们在敬佩之余,还应该做些什么呢?

从这本书里,我们学到的不仅仅是一些有关(计算)语言学的知识,而是一种精神,一种人类原本应该具有的对于未知的探索精神,一种理想主义的精神,一种爱国主义的精神。我向每一位对计算语言学和自然语言处理感兴趣的读者推荐此书,向每一位立志从事语言学研究的人推荐此书,向每一位爱上语言学这一个挣不了大钱、却又令人魂牵梦绕的学科的朋友们推荐此书。相信你们所有的人都不会空手而归的。

 

候敏教授阅读了本书评初稿,并提出许多宝贵的意见,在此表示感谢。

 

参考文献

 

Bröker, N. (1999). Eine Dependenzgrammatik zur Kopplung heterogener Wissensquellen. Tübingen: Max Niemeyer Verlag.

Fraser, N. (1993). Dependency Parsing. PhD, University College London.

Heringer, H. J. (1993). Fromalized Models. In Joachim Jacobs, Arnim von Stechow, Wolfgang Sternefeld, and Theo Venneman, Syntax - An International Handbook of Contemporary Research, volume 1 (316-328). Berlin - New York: Walter de Gruyter.

Heringer, H. J., Strecker, B., & Wimmer, R. (1980). Syntax: Fragen-Lösungen-Alternativen. München: Wilhelm Fink Verlag.

Geert­Jan M. Kruijff (2001) A Categorial-Modal Architecture of Informativity: Dependency Grammar Logic & Information Structure. Faculty of Mathematics & Physics, Charles University, Prague, Czech Republic. Ph. D. dissertation.

Liu Haitao (1999a) "Aplikata interlingvistiko/Applied interlinguistics", In "GrKG/ Humankybernetik", 40(1). p.31-41.

Liu Haitao (1999b) "La kalkulado de la lingvo - vide el interlingvistiko"(Calculation of Language -- views from interlinguistics), in  "GrKG/Humankybernetik",  40(4). 160-170.

Liu Haitao 2001 "Pidgins, Creoles and planned languages. - Linguistic development under special conditions." . Klaus Schubert (red.) (2001): Planned Languages: From Concept to Reality. Brussel:Hogeschool voor Wetenschap en Kunst, p. 121-177.

Schubert, Klaus (2001) Gestaltete Sprache. Plansprachen und die regulierten Sprachen der internationalen Fachkommunication. In Klaus Schubert (red.) (2001): Planned Languages: From Concept to Reality. Brussel:Hogeschool voor Wetenschap en Kunst, p. 223-257.

Tesnière. L. (1959). Éléments de syntaxe structurale. Paris: Editions Klincksieck.

 

冯志伟 (1982):《汉--////德多语言自动翻译试验》,《语言研究》1982年第2期总第3.

冯志伟(1983):《特思尼耶尔的从属关系语法》,《国外语言学》1983.1.

冯志伟(1997):现代术语学引论,语文出版社.

刘海涛(1997a):《基于公理化方法的语际语言学探索》,《外国语》, 1997(6).

刘海涛(1997b)《依存语法和机器翻译》,《语言文字应用》, 1997(3).


© Liu Haitao 2002

Back