首次测定汉字熵值

 

汉字的”(entropy)是汉字所含信息量大小的数学度量。近几十年来,国外学者已陆续测出一些拼音文字字母中的熵,而汉字数量太大,各个汉字的出现概率各不相同,因此,要计算包含在一个汉字中的熵是比较困难的。

早在60年代,冯志伟就读过Shannon的《Mathematical Theory of Communication》,知道了熵的基本知识。

70年代冯志伟被分配到云南昆明教中学,担任物理教员,云南冶金第三矿的工人用手工统计《毛泽东选集》1-4卷中汉字的出现频度,试图找出学习毛泽东著作应该首先掌握的常用汉字。他们的行动启发了冯志伟,使他萌动了手工统计汉字频度并进一步计算汉字熵的想法。在科学历史上, Markov1913年曾经手工统计过普希金长诗《欧根·奥涅金》中俄语元音和辅音字母的频度,Shannon1948年曾经手工统计过英语字母的频度,冯志伟也想模仿这两位学术大师的办法用手工来统计汉字的频度。于是,在70年代那个文革的动乱时期,冯志伟开始测试汉字的熵(即汉字中所包含的信息量)。为了计算汉字的熵,首先需要统计汉字在文本中的出现频度,由于70年代还没有机器可读的汉语语料库,哪怕小规模的汉语语料库也没有,冯志伟只得根据书面文本进行手工查频,用了将近10年的时间,对数百万字的现代汉语文本(占70%)和古代汉语文本(占30%)进行手工查频,从小到大地逐步扩大统计的规模,建立了6个不同容量的汉字频度表,最后根据这些不同的汉字频度表,逐步地扩大汉字的容量,终于在70年代末期首次计算出了在不考虑上下文影响的前提下汉字的熵是9.65比特,由于这个熵值是根据手工查频的结果计算出来的,冯志伟对于这个结果的准确程度没有十足的把握,所以,他认为这只是他对于汉字熵的极不成熟的猜测。1978年冯志伟考上了中国科技大学研究生院机器翻译专业,接着又被选送到法国格勒诺布尔大学应用数学研究所留学,研制多语言机器翻译系统,1981年从法国回国之后,他又投入了英汉、德汉、法汉等机器翻译系统的研制工作,始终没有时间来继续研究汉字熵。1983年,冯志伟在研究机器翻译的同时,开始考虑汉字熵的计算是否有极限的问题,提出了汉字容量极限定律,他使用数学方法,证明了当统计样本中汉字的容量不大时,包含在一个汉字中的熵随着汉字容量的增加而增加,当统计样本中的汉字容量达到12366字时,包含在一个汉字中的熵就不再增加了,这意味着,在测定汉字的熵的时候,统计样本中汉字的容量是有极限的。这个极限值就是12366字,超出这个极限值,测出的汉字的熵再也不会增加了,在这12366个汉字中,有4000多个是常用字,4000多个是次常用字,4000多个是罕用字。他认为,这12366个汉字可以代表古代和现代文献中汉字的基本面貌。由此得出结论:从汉语书面语总体来考虑,在全部汉语书面语中(包括现代汉语和古代汉语),包含在一个汉字中的熵是9.65比特。当然,这只是冯志伟的一个不成熟猜测。1984年,冯志伟在《文字改革》发表了一篇短文,通俗地介绍了他的研究结果。80年代末期,北京航空学院计算机系刘源教授根据计算机汉字频度的统计结果,计算出在现代和古代汉语文献中汉字的熵为9.71比特。刘源用计算机统计得出的结果与冯志伟用手工查频得出的结果差别不是很大。而且,刘源的想法与冯志伟很接近,因为刘源也统计了古代汉语文本。

1995年,冯志伟又进一步测定了在充分考虑汉字上下文的影响时包含在一个汉字中的熵,这个熵叫做极限熵。他测得,汉字的极限熵平均为4.0462比特。他的方法是通过英汉文本字符容量的对比来间接地推算极限熵,避免了复杂的测试和计算。当然,这也只是冯志伟使用间接方法对于汉字极限熵的一个不成熟的推测。他在研究中还发现,汉语翻译为英语时与英语翻译为汉语时,英汉文本字符容量之比是不一样的,汉译英时,英汉文本的字符容量之比为3.8,英译汉时,英汉文本的字符容量之比为2.7。熵的测定是数理语言学的一项基础研究,尽管冯志伟的认为他的研究只是他对于汉字熵的一种猜测,但是,由于汉字字符量多,测定汉字的熵和极限熵在他当时的条件下都是非常困难的工作,他的研究仍然得到了国内外学者的好评。美国宾夕法尼亚大学梅维恒( V. H. Mair )教授曾著文《评冯志伟教授的两本书》(《现代汉字和计算机》、《中文信息处理与汉语研究》),文中曾写到:“众所周知,词的概念对于有效地进行自然语言处理是十分重要的。可惜的是,汉字连书对于明确地划清词的界限是极为不利的,因而汉字给信息处理专家和计算机技术人员造成了巨大的障碍。在阅读这两本书的时候,我认识了现代标准汉语(MSM)中的一个新词--‘。这个新词是用来翻译英文‘entropy’‘information content’的(后者也可以译为信息量)。冯志伟计算出:一个汉字的熵为9.65比特,而与其他语言相比,法语一个字母的熵为3.98比特,意大利语一个字母的熵为4.00比特,西班牙语一个字母的熵为4.01比特,英语一个字母的熵为4.03比特,德语一个字母的熵为4.12比特,俄语一个字母的熵为4.35比特,汉字的熵大得惊人。有些赞扬汉字的人宣称,汉字的熵这样大,似乎对于信息处理大有好处。然而,冯志伟却提出了与此完全不同而又令人信服的观点。梅维恒教授又在文章中高兴地评论说:如果一个人能够用科技术语和数学方程式来论述他的对于现代标准汉语的观点,那么,这样的论述当然应该是非常雄辩而有说服力的。不过,我却乐于通过直觉和观察的方法来研究,根据我的经验,我曾经断言,汉字的平均笔画数应该是十二划,二十年来对于汉字的这种低效率的性质和特性的直观感觉和细心观察,我的研究现在由冯志伟在他的书中已经证实,简化汉字标准集的平均笔画数与我在过去宣布的结论几乎完全相同,而如果考虑到被简化的繁体字,这个平均笔画数只是比十二划稍微高一些。这样的不谋而合真使我高兴万分。”冯志伟对于梅维衡教授的书评表示感谢,但是,他并没有赞同梅维衡教授在这个书评中提出的关于“减少汉字数量”的建议。冯志伟认为,汉字熵大的问题,不能以减少汉字数量为代价来解决。

如今我们的研究条件比过去好得多了,我们有了机器可读的汉语语料库,完全用不着进行手工查频,频度的统计可以在计算机上进行,只要非常简单的程序就可以轻而易举地从语料库中统计出汉字的频度并进一步计算出汉字的熵。但是,冯志伟当年在艰苦条件手工查频测定汉字熵的精神还是难能可贵的。

Shannon“信道编码定理”指出,在一种非扩展的无记忆信源中,码字的平均长度不能小于信源的熵。由于汉字的熵为9.65比特,大于8比特,因此,汉字不能使用单字节(8比特)编码,而要使用双字节(16比特)编码,在信息处理上,汉字处于不利地位。这是冯志伟根据Shannon的定理的出的科学结论。这个结论提醒我们:由于汉字在信息处理上处于不利地位,因此,我们必须加倍努力,以清醒的和科学的态度对待汉字,把中文信息处理搞好,使汉字适应信息时代的要求。

冯志伟关于汉字熵的测定工作,曾经受到一些人的强烈攻击,他们强词夺理地说冯志伟“污蔑汉字”。冯志伟的回答是:他对于汉字熵的研究完全是根据信息论的奠基人Shannon的“信道编码定理”进行的,他始终佩服Shannon,相信Shannon,因此,他不能否定Shannon。也许随着现代科学的进步,Shannon的信道编码定理已经被某些本领特别大的学者推翻了。如果是这样,冯志伟可以收回根据Shannon的定理推出的结论。但是,如果 Shannon的定理没有被推翻,冯志伟觉得他的看法没有什么的错误,理由是:Shannon比冯志伟高明,冯志伟没有能力推翻Shannon的定理。直到现在,冯志伟还没有见到Shannon的定理被人推翻的任何报道,因此,他坚信他的结论没有错误。他认为,坚持真理应当是一个科学工作者应该具备的最起码的道德。另外,今后随着科学技术的进步,也许可以通过现代技术的其他办法来克服汉字熵大在信息处理上的不利因素,从而绕过Shannon的信道编码定理而另辟新径,他对于现代技术的发展寄以巨大的希望。

冯志伟由于汉字熵的研究经常遭到一些人的攻击和纠缠。冯志伟多次表示,他要大声地向攻击他的人说,“冯志伟绝不否定汉字!”。请攻击和纠缠他的人不要再无的放失了,这是枉费心机!

   冯志伟不主张语言文字有优劣之分,他认为,任何语言文字,只要能够为使用者方便地用来进行交际,就是好的语言文字,没有优劣的差别。冯志伟懂得英语、法语、德语、俄语、日语等多种外国语,他能使用这些语言对话和写作,从来也没有发现它们之间谁优谁劣。因此,冯志伟既反对“汉字优越论”,也反对“汉字落后论”。他认为,虽然文字没有优劣之分,但是,不同文字体系的效率是有差别的,汉字有优点,也有缺点,汉字熵大影响了汉字在信息处理中的效率,这是我们应当清醒地认识的问题,认识到这个问题,就有可能解决它,从而设法提高汉字在信息处理中的效率。我们不能因为汉字的优点而主张“汉字优越论”,也不能因为它的缺点而主张“汉字落后论”。汉字和圣书字、钉头字、玛雅文字一样,都是世界上最古老的文字,现在,其他的文字已经不再使用,而汉字一直在使用,这就足以证明汉字是有生命力的,尽管汉字的熵大,在信息处理上处于不利地位,但是,随着科学技术的发展,我们有信心克服汉字熵大这个不利因素,使汉字在信息时代葆其美妙之青春。