机器翻译的新景观
-评《自然语言机器翻译新论》
《自然语言机器翻译新论》(以下简称“新论”),冯志伟著,语文出版社,1995年出版,42.6万字。
本书是作者继《数理语言学》(知识出版社,1985)和《自动翻译》(知识出版社,1987,与杨平合著)后,在计算语言学和机器翻译领域的又一力作。与前两本书一样,本书的写作风格仍然是深入浅出、通俗易懂。但在内容上,“新论”突出了一个“新”字,全书的重点是近年来国内外机器翻译及计算语言学研究、应用中出现的新情况、新理论、新方法。
计算语言学作为语言学的一个特殊分支,其重点在于研究使用计算机来研究人类语言时遇到的种种问题,特别是人机语言交流问题之解决,自然语言处理可以说是将计算语言学理论实用化的学科。虽然一般认为计算语言学和自然语言处理是一回事,但我们认为二者实际上是有各自的侧重点的,计算语言学注重的理论研究对自然语言处理系统的研制,具有指导意义,机器翻译是自然语言处理诸多应用中最为复杂的应用之一。作出这样的区分,有利于我们对于本书的评价和阅读,虽然作者在书名中使用了“机器翻译”这一术语,但“新论”所讲的大部分内容是有关计算语言学一般理论和方法的,也就是说对于自然语言处理应用研究的其它领域,本书仍有重要的参考价值。
为便于读者对“新论”有一个基本的了解,我们依序简介(评)其内容如下。“新论”的前三章里,作者简述了近年来国外机器翻译研究和实用的基本情况,在介绍时作者对这些系统的理论基础作了尽可能详尽的说明,而不是泛泛地只谈一些表面的东西。对我国的机器翻译研究,作者也进行了符合实际的概述,从语言研究和程序技术,这两方面总结了我国学者在机器翻译理论和实践方面取得的成就,如:①中介成分分析法。②句素分析法。③逻辑语义分析法。④多标记多叉树形图分析法。⑤序列转换法。⑥核心成分分析法。⑦完全语法树分析法等。作者在总结、分析了近二十年来,国内外机器翻译研究的历史和经验后,认为70年代以来的机器翻译具有如下的新特点:①独立分析与独立生成。②语言和程序分开。③语言研究更加深入。④数学研究更加精细。⑤程序技术更加成熟。事实上,“新论”正是按照这些机器翻译研究的新特点,而展开对新理论、新技术的讨论和介绍的。
说到底,不论是机器翻译还是计算语言学的其它应用,对于自然语言本身的理解和描述是至关重要的。“新论”第四章“机器翻译与现代语言学理论”的主题便在于探讨近年来在理论语言学领域出现的新理论和计算语言学的关系,由于现代语言学理论,特别是在乔姆斯基的生成语法理论之后出现的语言理论都注重了对自然语言的形式化描述。为此这些理论的出现对机器翻译,乃至其它计算语言学应用,会产生巨大的影响,也就不足为奇了。“新论”为使读者对这些新的语言学理论有所了解,比较详尽地介绍了短语结构语法、广义短语结构语法、词汇功能语法、中心语驱动的短语语法等理论,在介绍这些新理论时,作者也简要讨论了它们对于自然语言处理系统研究的适用性问题。
逻辑是机器翻译过程的主要推理基础,从某种意义上讲,机器翻译过程的实质就是一个逻辑推理的过程。为此作者专辟了一章“机器翻译与逻辑”讨论了逻辑和机器翻译的关系,在“数理逻辑方法在机器翻译中的应用”一节中介绍了范畴语法、语言的集合论模型、孟德鸠语法等数理逻辑方法,这些方法虽然在作者的“数理语言学”一书中已有阐述,但“新论”的讨论更为深入。在“逻辑语法”一节引介了定子句语法、外位语法、修饰成分结构语法、约束逻辑语法等建立于逻辑之上的语法模型和理论。
在任何自然语言处理系统中,语言的自动分析都占有重要的地位,虽然不同的系统在分析的阶段划分上有所差异,但语言的分析大体上可分为形态分析、句法分析和语义分析,考虑到这三种分析的难度不同,“新论”用适宜的篇幅讨论了这几种分析技术,对于目前常用的句法分析技术,如,短语结构语法、转换语法、模式匹配技术、扩充转移网络等技术,作者从机器翻译的角度作了分析,并详细介绍了扩充转移网络(ATN)技术的一般原理。近年来,计算语言学理论的研究重点之一就是语义的形式化分析和描述技术,与句法分析相比,语义分析仍然极不成熟,针对这种研究现状,作者用较大的篇幅介绍了有关语义分析的技术和方法,目前在计算语言学界应用最为广泛,并且也已证明是行之有效的语义处理理论是菲尔摩的“格语法”,由于“格语法”中格的数量和格关系的种类与所描述的语言是相关的,作者介绍了我国学者针对汉语的“格语法”研究和有关汉语格的分类体系。作者也简单介绍了有关日语格分类体系的情况。“格语法”注重的是各句法成分之间的语义关系问题,对于单词语义的表示,目前一般有两种方法,其一是所谓的“义素”分析法,它是建立于意义是可分解的理论之上的语义表示体系。另外一种方法是建立于“类属”词典之上 EUROTRA、日本高松忍、日本科学技术厅机器翻译及石绵敏夫的语义分类体系。就目前的研究状况来看,自然语言分析一般是以句子为单位的,不论是句法、还是语义分析都只考虑句内关系。人类处理语言的经验说明有时一个词或一句话的正确理解和分析,必须在更大的范围内才能得到。换言之,只有句内分析是不够的,有时也需要句间或句段间的分析,这种分析也称上下文分析技术。“新论”介绍了日本长尾真在上下文分析技术领域的成果,并用汉语例子作了较详尽的应用说明。
语言的自动生成技术是自然语言处理应用中的又一关键技术,作者根据著名语言学家洪堡特和乔姆斯基的有关理论,结合数学中的公理化方法,提出了在机器翻译中采用公理化的方法来描述自然语言的生成过程之理论。这一观点作者早在八十年代初就已提出,在“新论”中作者根据公理化的原则给出了句子生成过程的严格的形式化描述。这一基于公理化的语言生成理论和技术,对于计算语言学的诸多领域都有极大的指导意义。
机器翻译过程涉及到许多语言数据的变换和处理,如何适宜地描述和表达这些语言数据,是语言信息自动处理中的一个重要课题。计算语言学的发展趋势之一就是采用复杂特征来描述和表达语言数据。“新论”作者早在八十年代初,便提出了有关的理论和方法,在这一领域的研究我国曾处于国际的领先水平。作者根据自己的“汉语句子的多叉多标记树形图分析法”(简称 MMT)的理论,建立过多个机器翻译系统,这些系统含有多种语言的分析与生成。实践证明,MMT 模型是行之有效的一种采用“复杂特征”来描述自然语言的理论。本书介绍了 MMT 的理论基础和内容细节。为便于读者比较理解,作者也较详细地介绍了M.Kay 的“功能合一语法”。从 MMT 曾在国际领先的事实,我们可以看出在同一领域内进行国际学术交流的重要性和必要性,国家应该化大力气支持那些极有理论和实际价值的研究成果,只有这样我们才能使好的东西变的更好、变的更加广为人知,进而在国际上取得我们应该占有的学术地位。
“新论”的第八、九两章,详细介绍了法国格勒诺布尔大学基于树形图转换的规则描述语言体系 ARIANE,该系统包括形态分析器 ATEF、结构分析生成器 ROBRA、词汇转换器 TRANSF、形态生成器 SYRGMOR。作者根据自己使用该系统建构机器翻译系统的经验,讲述了该系统的使用方法,着重说明了如何用它们来对自然语言的复杂特征进行描述和运算。对于读者来说,通过这两章不但能理解 ARIANE 的基本工作原理和使用方法,更重要的是我们可以了解到一个完善的机器翻译研究、开发系统应该包括哪些内容,这对于我国的机器翻译研究的进一步发展有重要的意义和参考价值。这一部分的描述对于翻译过程的形式化理解也具有一定的意义。
理论研究的目的是为了更好地指导实践工作,机器翻译之所以吸引了愈来愈多的研究者,是因为在它的后面潜在着巨大的经济效益。尽管不论是国内、还是国外,在机器翻译的理论方面仍有许多难题有待于解决。但如何有效地利用现有的成果,使机器翻译早日从实验室走向市场,在目前的情况下,也是人们面临的一个重大问题。“新论”作者在书中的最后一章提出了机器翻译的工程化方法来缓解理论与实践之间的这种矛盾,提出在工程化过程中,应注意以下问题:①采用部分优化技术。②处理好探索性研究与工程性研究的关系。③处理好全局性研究和局部性研究的关系。④加强机器翻译的情报研究。⑤开展产生式汉语语法的研究,促进语言学和计算机科学的结合。⑥促进知识更新,改善知识结构。在这一章里,作者也简要讲述了有关机器翻译困难性的问题及其进一步的研究方向,电子词典,语料库和机器翻译译文质量的评价问题。
通观全书,我们认为本书内容丰富、观点新颖。所谓内容丰富是因为本书基本包括了近年来国内外机器翻译界的主要研究成果和观点。观点的新颖性体现于作者在讲述国外的新理论、新方法时,一般都以汉语举例;除此之外,作者也在书中介绍了自己近年来的不少研究成果,有些内容是第一次公开发表的。作者的语言学研究背景和功底使得本书有关语言理论方面的论述更为贴切、客观和全面,计算语言学理论在很大的程度上是一种语言学的理论,为此本书在这一方面也有自身的优越之处。作者多年来从事计算语言学的研究工作,亲自实现过几个机器翻译系统,这些经验使得本书不仅仅具有理论上的价值,而且也可作为自然语言处理研究领域的实践参考书。
机器翻译和计算语言学是多学科交叉、融合的产物,本书在写作中考虑到了跨学科读者的需要,文体通俗易懂,所有这一切使得本书对于从事语言学、计算机科学、数学、逻辑学、人工智能、计算语言学等领域的研究者都有重要的参考价值。
陈力为院士在其主编的全国第三届计算语言学联合学术会议论文集《计算语言学进展与应用》的前言中说:“国内基础理论的研究仍显薄弱,同国外同行相比我们还有较大的差距,这种状况应当引起我们的注意”。没有理论的实践是盲目的,对于机器翻译这样的高新技术更是如此。“新论”的适时出版,在某种程度上将有助于我国在计算语言学理论方面的研究。