乔姆斯基根据形式语法的原理,提出了短语结构语法来作为自然语言形式描述的一种手段,这种语法在自然语言处理中得到了广泛的使用。国内外的许多机器翻译系统都采用乔姆斯基的短语结构语法作为系统设计的基本理论依据,根据乔姆斯基的短语结构语法,表示句子结构的树形图中的每一个结点只有一个相应的标记,结点与标记之间的这种关系是一种单值标记函数的关系。这种单值标记函数表示的语言特征是十分有限的,因而在机器翻译的语言分析和生成中,会产生大量的歧义结构,形成大量的不合语法的句子,它的分析能力有限,生成能力过强,这是短语结构语法的一个致命的缺点。当时冯志伟在法国研制开发机器翻译系统的实践中,就敏锐地认识到短语结构语法的这种致命缺点,经过在计算机上编写程序进行潜心的钻研和反复的试验,他提出了多叉多标记树模型(简称MMT模型),在这个模型中,他采用多值标记函数来代替短语结构语法的单值标记函数,使得树形图中的一个结点,不再仅仅对应于一个标记,而是对应于若干个标记,这样便大大地提高了树形图的标记能力,使得树形图的各个结点上,都能记录足够多的语法语义信息,把句子中所蕴含的丰富多采的信息充分地表示出来,这种多值标记函数的理论,从根本上克服了乔姆斯基的短语结构语法在描述自然语言时的严重缺点,提高了其有限的分析能力,限制了其过强的生成能力。冯志伟的MMT模型是对乔姆斯基短语结构语法的一个带有实质意义的重要改进,提出后立即引起了国际语言学界的重视,在1982年于布拉格召开的国际计算语言学会议(COLING'82)
上,在1983年于北京召开的国际中文信息处理会议(ICCIP'83)上,在1984年于香港召开的东南亚电脑会议(SEARCC'84)上,都讨论了MMT模型。就在冯志伟提出MMT模型的同时,国外一些计算语言学家也看到了短语结构语法的局限性,分别提出了各种手段来改进它。例如,1983年卡普兰(R.
M. Kaplan)和布列斯南(J. Bresnan)提出的“词汇功能语法”、1983年马丁.凯依(Martin Kay)提出的“功能合一语法”、1985年盖兹达(G.
Gazdar)等提出的“广义短语结构语法”、1985 年珀拉德(C. Pollard)提出的“中心语驱动的短语结构语法”等,都采用了“复杂特征”来描述自然语言,他们所说的所谓“复杂特征”实际上也就是冯志伟提出的“多值标记”,名异而实同。所以,冯志伟提出的MMT模型,是世界计算语言学者对乔姆斯基的短语结构语法进行改进的一个重要方面和不可分割的组成部分,MMT模型是80年代较早提出的一个旨在改进短语结构语法的形式化模型,当时我国学者在这方面的研究在国际上是处于前沿地位的。1984年荷兰阿姆斯特丹北荷兰出版社出版的多卷专著《计算机科学基础研究》第9卷《自然语言处理的计算机模型》一书(
由意大利米兰大学主编 )中,曾详细介绍了冯志伟的MMT模型,并评论说:“冯氏关于独立分析-独立生成的主张,关于尽可能地从源语言分析中获取多方面信息的主张,是当前自然语言处理研究中的一个重要进展”。
冯志伟还结合汉语的特点需要,研究了采用MMT模型来作汉语自动分析的各种问题。他指出,在汉语的自动分析中,采用“多值标记”的必要性更加明显。这是因为汉语的句子不能只用词类或词组类型等简单特征来描述,汉语句子各个成分的词类、词组类型、句法功能、语义关系、逻辑关系之间,存在着极为错综复杂的关系,如果只采用简单特征,就无法区分各种歧义现象,达不到汉语自动处理的目的。具体地说,这是由于:1.
汉语句子中的词组类型(或词类)与句法功能之间不存在简单的一一对应关系;2. 汉语句子中词组类型(或词类)和句法功能相同的成分,它们与句子中其它成分的语义关系还可能不同,句法功能和语义关系之间也不是简单地一一对应的;3.
汉语中单词所固有的语法特征和语义特征,对于判别词组结构的性质,往往有很大的参考价值,除了词组类型这样的简单特征之外,再加上单词固有的语法特征和语义特征,采用多值标记来描述,就可以判断词组结构的性质。
冯志伟还提出了用于多值标记的汉语“特征/值”系统,特征可分为静态特征和动态特征两大类。其中,静态特征有:词类特征、单词的固有语义特征和它的值、词的固有语法特征和它的值,动态特征有:词组类型特征和它的值、句法功能特征、语义关系特征、逻辑关系特征。在自动句法语义分析中,静态特征是计算机进行运算的基础,计算机依赖于这些预先在词典中给出的静态特征,通过有穷步运算,逐渐计算出各种动态特征,从而逐步弄清楚汉语句子中各个语言成分之间的关系,达到句法语义分析的目的。
冯志伟利用MMT模型,于1981年完成了汉-法/英/日/俄/德多语言机器翻译试验,建立了FAJRA系统;于1985年进行了德-汉机器翻译试验和法-汉机器翻译试验,建立了GCAT德-汉机器翻译系统和FCAT法-汉机器翻译系统。
|