Inderjeet Mani (2001): Automatic Summarization

当我正准备动手开始打算向国内的同行介绍Mani博士的这本新书时，我拿到了最新一期的《情报科学》，其中有南京大学杨建林的文章“中文自动文献系统研究”。参照此文对于国内有关研究成果的介绍，我们认为国内关于自动文摘的研究与国际先进水平相比，还是有较大的差距的。为此本书对于国内有关自动文摘的研究者可能具有超越文本的意义和作用。

自动文摘的研究已有40多年的历史了，但是由于人类在语言学研究方面的不足和计算机硬件技术的限制，其进展一直不大。进入90年代后期，随着互联网铺天盖地的普及和计算机技术的发展，以及许多（计算）语言学新理论的出现，自动摘要又重新成为一个研究的热点。翻看各种有关计算语言学和自然语言处理的文集，可以发现已经出现了不少有关自动摘要的高水平文章和研究成果，遗憾的是我们还没有一本关于这一领域的教科书，为了吸引并培养更多的人参与到这一极有意义的研究领域，我们急需这样一本呈前继后的著作。本书正是在这样的背景下诞生的。作者Mani博士，研究相关领域多年，具有丰富的实践经验和较高的理论水平，多年来一直活动在自动文摘领域，这保证了本书内容的新颖性和权威性。

作者首先在第一章中介绍了有关（自动）摘要的许多概念，用通俗易懂的文笔介绍了摘要的用处。笔者认为自动摘要的目标就是“从信息源中提取内容，采用压缩的形式和与用户（或应用）需求相关的方式，将最重要的内容呈现给用户”。这一定义比较完整的解释了摘要的实质：内容提取、压缩、用户的需求等。作者认为自动摘要研究领域不同于下列领域，但又和他们有一定的关系：文本压缩、文献检索、索引、信息提取、文本挖掘、问答系统等。本章内容对于理解后续章节具有非常重要的参考价值，如果您读了这一章后没有一点感觉，则可以将它扔到一边。遗憾的是，我可以明确地告诉你，您错过了一本对你本人和你的研究小组真正有用的必读资料。在结束本章的时候，作者提出自动文摘是一门多种学科高度交叉的应用，涉及的领域有：自然语言处理，信息检索，图书馆学，统计学，认知心理学和人工智能。由此可以看出，准备投身于此的人，应该先扩展自己的知识领域，否则很难取得像样的成果。在章末，作者列出了本章引入的主要概念及其简释，这对于读者加深这些概念的理解是非常有好处的。事实上，在每一章的末尾，都有类似的概念列表。这无疑也是本书的一大特点。

自动文摘作为自然语言处理的一个研究分支，其主要任务也是利用计算机来解决人类的某一类问题。具体而言，自动文摘就是为了帮助人类更迅速地收集信息而产生的。我们历来认为，自然语言处理的本质就是通过计算机仿真人类的语言处理能力，对于自动文摘，就是仿真人类的文摘能力。为此，对于人类文摘的机理进行深入的研究是构造自动文摘系统的必要步骤。本书第二章从摘要的步骤、策略、修订、结构等方面，较详细地介绍了人类文摘的机制和过程。

Extraction（提取）是摘要的两种主要手段之一。Exatraction 就是通过从源文本中提取句子的方法，生成文摘。作者在第三章中，分析、介绍了Extraction的主要方法，如经典的Edmundson法。同时对于目前热门的基于语料库的句子提取方法和理论，也进行了详细的描述。

显然，Extraction 虽然实现起来比较简单。但是如何将提取出来的零散句子组成连贯的摘要是一个无法回避的问题。题为“Revision”的第四章正是为了解决“提取”法所造成的不连贯文本而作的。本章介绍了表层连贯平滑、完全的修订以及文本压缩等三种主要的方法。

人类在撰写一篇摘要时，原文的语篇信息非常重要。如何在自动摘要的过程中，利用语篇信息对于研究者而言是很有用的知识。作者从文摘的需要出发，介绍了文本粘合、语篇连贯等领域的基本知识和一些具有操作性的理论和方法。如，Marcu 根据RST（Rhetorical Structure Theory）构造的文本摘要系统就是一种极具潜力的自动摘要系统。

Abstraction 是另一种主要的摘要方法。也是人类摘要的主要方法，这一点我们不难从任何学术文章的“摘要”一般均使用该英文术语而看出。简言之，“Abstract 就是一种至少含有输入文本中所没有的句子的摘要”。由此可以看出，为了构建一个abstract，人或机器需要理解原文本。因为基于abstraction 方法的智能程度要较 extraction 高，所以也更为困难。第六章重点讨论了以下几种常用的abstraction 方法：样板法、Term 重写法、事件关系法、概念分级法。对于摘要的综合与生成，也给予必要的讨论。

多文献摘要和多媒体摘要是自动摘要领域新的发展方向。本书第七、八两章，介绍了这两种极富挑战性的应用和技术。第九章重点讨论了自动摘要系统的评价问题。

在本书的结尾部分，作者给出了自动摘要领域需要进一步研究的一些课题：人工摘要的机理；Abstraction 的深入研究；结合多种方法于一体的混合法；多文本（源）摘要；多媒体摘要；评价；相关的支持技术；标注语料库等。

书末附有13页的参考文献，这些文献对于国内的研究者具有非常重要的参考价值。

纵观全书，我们认为本书基本上论述了自动文摘研究所涉及到的方方面面。对于各种理论和方法的介绍简洁、表述清楚，对于主要的方法，一般都伴有实例。对于国内学者而言，本书所介绍的重多新技术、新方法，都是非常适用、有用的。为此，推荐对自动文摘以及信息提取等领域感兴趣的所有研究者都能读一读此书。