您现在的位置: 主页 > 草根播报

中 文 信 息 学(甲)

时间:2017-03-01 05:13点击: 来源:中国空空导弹研究院 作者:华兴初

内容提要:
文章以犀利的目光、独特的视角、科学辩证的方法与全新的观点提出了汉字(泛指简繁、古今所有中外汉字)信息处理领域一系列理论问题,认为:①英文的计算机信息处理之所以不存在这样或那样的问题,是因为英文字母与计算机键盘字母配合得天衣无缝;中文做不到,关键不是技术问题,而是因为中文信息处理缺乏正确的理论指导。②中文信息处理30多年的高速发展以后出现的低速徘徊局面是中文信息学理论缺失所导致的结果。③汉字信息处理既是一门边缘科学,又是一项系统工程,更是一门大众化的应用科学。④中文信息处理从整体上讲,其核心指导思想应该是四个“化”——民族化、大众化、规范化、国际化。缺乏灵魂的理论往往是片面、初级的,甚至存在错误。⑤中文全库、中文信息的输入、输出、规范化是中文信息处理技术的四大标志性工程。⑥编码是整个信息链的核心环节,只有编码才是决定中文能否赶上、达到、超过英文的根本性一环。7在四个“化”思想指导下发明的汉字表征码可以帮助中文成为又一个国际化的文字与语言,并能再一次引领我国经济社会的高速发展,实现中文信息处理的第二次革命与创造中华文化新的辉煌。
关键词:
中文信息学  边缘科学  信息链  系统工程  民族化  大众化  规范化  国际化 
汉字表征码

在全球IT革命浪潮的冲击与推动下,中国的中文信息处理技术经过了四、五十年的努力与发展,取得了举世瞩目的成就,有目共睹,既鼓舞了国人,更震惊了世界。曾经被人认为与计算机无缘的中文方块字的计算机处理曾被誉为二十世纪的一大奇迹。中国人民在这一场伟大的革命中充分展现了崇高的民族责任心、刻苦勤劳的优良品质与聪明才智,他们的功绩,值得在历史上记下浓重的一笔。
不可否认,汉字的计算机信息处理从开始至今不过短短的半个世纪,在历史长河中刚刚
起步就取得这样的成就已很了不起。但是,换一个角度,即从社会发展和科学进步的角度考虑问题,我们也不难发现,中文的计算机信息处理技术只解决了有无的问题,中文信息处理技术水平低,盲目性大,今后还有更重要的问题有待解决,还有更“艰难”的路要走,最近十几年中文信息处理出现的低速徘徊甚至技术倒退,就是因为遇到了不可克服的“瓶颈”而导致的结果。中文信息处理究竟存在哪些问题呢?
⒈现有中文信息处理技术的知认性、技术性强,基础知认要求脱离大众,起点难度较高,在普通老百姓中无法普遍推广、计算机应用难以从娃娃抓起、不认识汉字的外国人甚至许多中国人感到无可适从。[1]
⒉文字“等级”森严、字体“歧视”突出,简繁矛盾始终无法解决。甚至可笑地把大量的中文字在中文信息处理中被可怜地当作符号来对待,没有应有的地位,还有更多的字连影子都找不到,好像中文信息处理技术只是百分之几的少数常用字和少数人的专利!
⒊“音盛形衰”现象严重,形码缺乏理论指导,受现有理论的限制,甚至受到压制,生存空间狭窄,结果是阻碍了编码对中文信息特征的展现,导致了中文信息处理不像中文,存在着不可容忍的问题:提笔忘词、文字还原率低、与中文教学的高效减负宗旨相悖……。
⒋目前的中文信息处理技术根本不考虑最基本的中文排序功能,非但没有对解决“中文难”产生看得见的影响,反而有增加学生负担之嫌。
⒌中文信息处理技术领域存在着严重的功能错乱,怪事迭出:字典有字不好查,查不到,甚至只能查认识的字。而且如此重大的问题长期不予重视;有中文信息学会,却没有中文信息学,皮之不存,毛将焉附?中文信息学理论的不完善与缺失,酿成了中文信息处理技术十多年的徘徊甚至倒退,奇怪的是我们对此不以为然;缺乏创新求发展的理念与欲望,中文信息处理的总体发展有无规划?见不到任何对技术创新和理论创新进行倡导、鼓励、支持与保护的政策与措施,当然更见不到对理论和技术创新视而不见听而不闻甚至压制的问责机制;缺少对中文信息处理技术是大众化应用科学这一特殊性的认识,走专家路线,忽视民间智慧,不经科学全面的论证,把国家有限的资源盲目地集中在于事无关的技术环节上兜圈子、钻牛角尖、走弯路,不仅浪费了国家大量的人力、物力、财力,还无形中助长、鼓励了高科技“一根筋”的生存与蔓延;在中文信息技术初创阶段,技术发展快、变化大,在不成熟的历史条件下制定的各种标准、规范、条例,难免存在缺点甚至错误,并具有时间性和局限性([1][2][3][4]……等)是必然的,但被作为亘古不变的万年历来使用,势必压制创新,影响事业的发展。特别是对形码的盲目加载(overload),造成了形码技术的倒退;有的主流输入技术过多地依赖屏幕,滥用(overused)智能技术,把本来是非常神圣、严肃的中文信息处理搞得字不字、词不词、语不语、句不句,简直是对中华文化的糟踏[1][5];多种输入方法,各据一方,表面上“百花齐放”,实际上是“无法无天”,完全阻断了中文信息技术的规范化、国际化之路[1];中文信息处理的现状正在对中文西化论和信息处理技术的不公平竞争起着推波助澜的作用……。中文信息处理存在的各种弊病,如不制止、纠正,任其下去,定将给中文信息处理造成极坏的影响,甚至丧葬中文信息处理的前途。
 ⒍对中文信息处理技术的四大标志性工程:中文信息输入、中文信息输出、中文全库、中文信息处理的全面规范化没有足够的认识,酿成了目前中文信息处理技术发展方向不明,前途不清,概念混乱,产品虚浮等不正常局面。
 ⒎……
在成绩与问题面前,不同的人反应不一,看法各异:悲观主义者认为中文不是英文,根本无法与英文相比,有问题是必然的,以上问题是解决不了的,做到这步已经到头了,助长了中文走汉语拼音之路的中文西化论的气势;乐观主义者认为,中文信息处理的技术问题已经解决,盲目地沉醉于被已有的成就激发起来的自豪与喜悦之中,认为现有的成就足够使用相当长的时期,甚至天真地寄希望于依赖智能技术来解决那些不是智能技术能够解决的问题[1];大多数人则不置可否,听天由命,谁也说不清中文信息处理今后的路子怎么走,最终会变成什么样子;……。这些情况充分体现了现在中文信息界认识上的模糊与思想上的混乱。凡此种种,我们先不具体地对这些现象和问题一一解析,也不对各种想法一一评说谁对孰非。但是,我们发现,不管何种想法,都紧紧地与千百年来形成的“中文难”的阴影纠结在一起。为什么我们不能打破以往“头疼医头脚疼医脚”的陈旧思维模式,从解开“中文难”这一死结入手,“提纲挈领”,闯出一条一揽子解决中文信息处理问题的路来呢?
我们只要稍微探究一下“中文难”难在哪里?比一比英文为什么没有这样那样的问题?事情即可一目了然。我们发现,英文本身就是编码,见字(词)就查字典,见字(词)就敲键盘进行信息处理。中文字要能做到这样,中文的信息处理的各种问题不也就可以统统解决了吗!这种说法,咋听起来,似乎使人摸不着边际,大概不会有人真的能相信这种天方夜谭式的“假设”——要是情况真是这样,那就正好说明了中文信息处理问题不一定是技术问题,而是人们长期受“中文难”阴霾的影响太深,使人根本就不去(不是不敢去,而是不去)往赶上、达到、超过英文这方面去考虑!反过来,我们倒可以更大胆地推测,假如以前有人这么想了,中文信息处理的这样那样的问题今天也许不存在了!今天,我们不妨从四大标志性工程入手,看一看中文信息处理能不能抓住主要矛盾,一揽子地解决问题?
首先,我们来认识一下为什么把中文信息的输入、输出、全面规范化、中文全库定位为中文信息处理技术的四大标志性工程。这是因为这四项工作的基本完成,将标志着中文达到了与英文可以相提并论的条件,即:任何一个汉字都有自己的地位(如:在字典、在字库中的位置、它的内部码)、见字就能敲键盘进行中文信息处理;信息处理成为大众化技术;信息处理的技术规范、唯一性和可操作性俱佳;其它性能赶上、达到甚至超过英文。走到这一步,中文信息处理技术就具有了国际化的水准。
然后,我们有必要看一看这四项工程究竟难在哪里?
1.建中文全库难在什么地方?字难收全、输入输出技术既不完善也不规范,有字进不了电脑或进了电脑又输不出中文(显示、打印或其他控制讯号)。在电脑功能不能充分发挥的情况下,国家要集中多大的人力物力财力,耗费多少时间才能把中文全库建成!
2.中文信息输入为什么难?不规范、达不到四个化的要求。
3.中文信息输出技术难在哪里?输入技术没有根本解决,有字进不了电脑、输出技术并未彻底解决,几万中文字已难以应付,如有多达几十万的“新”发现和新发明的汉字又将怎么解决?中文信息的输出并未达到像英文那样随心所欲、自由进、出电脑的地步。
⒋规范化又难在何处?字库未定,无法规范、部件不明,如何规范、编码问题远离四个“化”,只能空谈规范、已有的标准、规范、条例大多满足不了技术发展和方便应用的需要,已“规而不范”。规范化问题简直像一团乱麻,从何做起,只能去钻牛角尖。
从以上四大工程的问题可以看出:四者之间是相互关联、相互制约、相互促进、相互依存的关系,不找到突破口,将是一个解不开的死结。如果我们能够找到它们共同的突破口,一切问题也就迎刃而解了。这个突破口不是别的,就是达到四个“化”要求的汉字编码,这就是下面我们要详细介绍的汉字表征码。为了叙述方便,我们先不谈设计出这种编码的可能性与方法(放在下面详细介绍),而是先来说明这种编码是如何理顺四大工程纠结在一起的复杂关系的:
⒈汉字表征码的根本优势就是完全达到四个“化”的要求,一方面自身的规范化不存在问题,另一方面,只要汉字不变,计算机的26个英文键盘不变,表征码就不会变(不排除改进提高),所有汉字的输入问题迎刃而解,输入技术的规范化难题也就不攻自破。
⒉有了汉字表征码,依懒汉字排序的一切标准、规范、条例的修订、改进与完善就可顺理成章地完成。这是因为规范化的一切准备工作与技术问题,语言文字学家早就解决了,只要人们的观念转变了,规范化问题也就水到渠成。
⒊利用可以四个“化”的汉字表征码的概念,还可以帮助解决汉字信息输出难题,达到能输出任何汉字、实现输入输出一比三(输入时简繁混合,也不需简繁转换;输出可简、可繁、可按输入时的字体原貌三种状态。输出技术的提高与更新问题不在本文讨论)。
⒋汉字的输入输出问题解决以后,剩下的是通过各种渠道、利用各种手段,借助网络、计算机大量搜集汉字。这方面,国内外的汉语言文字学家以及与此相关的专家们就可大显身手,利用他们的学识与智慧,都来为建立一个世界通用的、完整的汉字全库贡献出力。如此光辉的前景应该指日可待!
以上,通过对四个标志性工程的分析,进一步向大家“灌输”了只要把能够达到四个化的要求的汉字表征码设计出来,中文就能赶上、达到和超过英文的理念。如果读者始终不渝地用这一理念去解除头脑中根深蒂固的“中文难”的思想桎梏,顺利地正确理解以下提出的一系列理论问题就不会有困难。

中文信息处理技术所以怪事不断,是因为至今还没有提倡,更没有建立起一整套科学辩证的理论,来正确地引导和科学地指导信息处理领域里的各种技术问题和它们的相互关系问题的处理与解决,中文信息学的创立成了当今中文信息处理领域的首要课题,对尽早结束中文信息界的概念与思想混乱、对加速实现增强中华文化软实力具有绝对的意义。
中文信息学从它涉及的范畴看,是一门语言文字学和计算机科学为主体,涉及统计学、概率论、人机工程学、标准化……等多学科的边缘科学,横跨社会科学和自然科学两大门类;然而从其研究方法上讲,又是一项由文字、文字信息、编码、编程、计算机内部信息交换和计算机信息输出信息链上各个环节组成的系统工程;而它的潜在的最广大的用户群又决定了它必须是一门大众化的应用科学。这样的定位可以帮助人们撩开中文信息处理高不可攀的神秘面纱,从而拉近用户与中文信息处理技术的距离,消除畏难情绪;又可以帮助人们正确地把握中文信息处理从研究到应用过程中出现的各种问题,从走弯路、钻牛角尖中解脱出来;还可帮助中文信息处理技术的发展走出误区,早日实现中文走向世界的宏图大愿。
作为建立一门新的学科,中文信息学的核心指导思想是什么呢?是四个“化”,即民族化、大众化、规范化、国际化。这是从中文信息处理几十年的经验教训[1]中提取出来的精华,是中文信息学理论的灵魂。民族化,大众化是中文信息处理的根本、是基础,离开了这两个“化”,中文信息处理只能停留在现有这个水平上,不仅规范化不可能,而且永远也实现不了国际化;规范化是手段,没有规范化,中文信息处理只能鱼龙混杂、乱作一团,表面上“百花齐放”,实际上“无法无天”,使中文信息处理技术在国内无法普及,国际化尤其无望,反而纵容不规范技术的滋生蔓延给中华优秀文化带来负面影响;国际化是目标,中文信息处理达到国际化水平了,中文就能成为又一个国际化的文字与语言。从上文列出的问题至少可以得出两点结论:中文信息处理技术现在无法达到四个“化”的要求;现在中文信息处理技术领域的问题实质上不是技术问题,而是思想没有从中文难的阴霾中解脱出来。确切地说,现在的那些问题,只要思维方式改变,凭现有的技术水准是很容易在近期内彻底解决的。明确地说,思维方式的改变可以使中文信息处理现代化、国际化的进程加快10---20年。
为了帮助理解,请大家从系统工程的角度来看一看中文信息处理问题。中文信息处理应包括:信息中文学——从信息学的角度研究中文、部件论、编码论、输入技术、中文内部码与中文排序、中文输出技术等内容。本文先不对它们逐个进行论述,我们只需简单地分析一下信息链上各个环节的功能,就不难发现只有编码这个环节才对中文信息处理的四个“化”起决定作用,其它各个环节至多只能作为解决问题优劣的辅助手段。最好的证明就是中文信息处理起步三十多年因为抓住了编码这个环节才出现了当初中文信息处理事业实现了“〇”的突破,取得了高速度的发展与辉煌。这在中文信息处理初期是必经之路,因为当时人们对编码有强烈的紧迫感,因而成效显著。这期间,出现了王永民先生五笔字型等具有一定民族化信息特点的成果,创下了古老的中华文明与现代科技直接对接的世界奇迹。很可惜,由于五笔字型没有正确地分析、利用部件(在信息处理中称字根不确切)信息,存在着提取的中文信息零散、技术处理难度过高不适于普及等缺点,更主要的是在“中文难”阴霾笼罩下的人们已经失去了对具有四个“化”要求的编码的欲望,在强大的、国内占有先天优势的拼音方案的包围下,逐渐失去初时的光辉。形码在拼音码的汪洋大海中,形只影单,缺少政策的鼓励与理论的支持,生存空间狭窄,形成了现在的所谓“音盛形衰”的局面。这在某种程度上可以说是一种技术倒退。现在是到了为能够实现中文信息四个“化”的形码的发展大声疾呼的时候了。(对形码、音码的正确认识是观念改变的难题之一!
当然,仅有口头上的呼吁是不够的,重要的问题是切实地探讨形码怎样才能既降低“技术”难度,又达到四个“化”的要求呢?我们表征从码的角度(其他形码不甚了解,恕不妄言)来看一下信息链是用什么方式来表达中文字的信息的?中文信息可以通过文字本身的音、形、义、笔形、笔数、笔顺以及它们的部件的信息(外形等)来表现,其中只有音和形两类对编码具有实用价值。这样,我们首先就把这二者以外的信息排除在外,避免了盲目性和走弯路;同时,可以发现,中文的声音信息只有极少数的人群能听懂、理解、辨别、采集和利用,而在这极少数的人群中只有更少数的人能说普通话和掌握汉语拼音。利用中文的声音信息编码尽管在国内具有相当高的实用价值,但以大众化和国际化的标准来衡量,音码尚不具普遍意义;进一步分析还可看到,汉字的外形中,只有笔形和部件外形具有表达汉字外形特征的能力和容易被公众接受的优势,从而又把笔数、笔顺等信息作为冗余排除在外;在对各种形码的分析对比中,我们进一步发现,利用笔形编出的码信息零散,结果往往把中文的外形信息拆分得支离破碎(例如:四角号码、五笔字形……等),甚至荡然无存,很难甚至无法表述汉字的正确外形特征。因此,只有直接地利用汉字部件的外形对中文进行编码,才是最简单、最直观、最易被人接受、最具实用价值也最科学合理的方法。由于这种码是按汉字的外形特征信息编出来的,所以称为汉字表征码。于是,我们可以这样来定义:表征码是一以中文部件外形特征共同完成中文整体外形进行描述的编码,因此,正的中文(字)“自己”的编码(部件与笔划认识念改难题之二!)
根据上述分析,我们可以进行如下设计(参见P.9部件类型、表征符、典型部件表。欢迎读者同时考查设计的合理性),即是:
1、从中文提取信息并模仿英文进行排队。如上所述,以上信息取自部件,因此,我们把排队的结果称为“部件序列”。如“胡”字的部件序列就是“十口月”。部件序列在实质上是对英文形式上的模仿。
2、把部件序列变成“表征码”,方法是把每个部件用自己的类型符号──“表征符”取而代之。因为这样的表征码可以用作汉字的排序、查、检,所以称为“表征排序码”,简称“排序码”。“胡”字的排序码就是“Φ口匚”。按排序码排序,中文就能见字就查字典。
3、把排序码变成“键盘码”,方法是把排序码中每个表征符换成相应的键盘英文字母(参阅文末部件表)。“胡”字的键盘码就是poe。键盘码既可用作排序,如做中文的计算机内部码。键盘码又可使中文能像英文一样见字就敲键盘进行中文信息处理。
表征码的编码方法只用三言两语就说完了,而且初步可以看出:①不管古今、中外、简繁,只要是汉字一律适用;②不需要用户认识中文,只要有九岁以上智力、具有形状辨别能力的中外人士都可学会、掌握;③方法简单,几乎不需要规则。从以后的实际编码还可以看到,表征码的性能非常优异,可以与英文媲美。为简化起见,我们把汉字编码过程统一用“汉字|部件序列/排序码/键盘码”格式表示。那么就有:胡|十口月/Φ口匚/poe。从以上编码过程可以看出,我们还需要解决以下3个具体问题:①部件按什么规则排列先后;②表征符是什么样的,怎么代表部件;③表征符如何与英文字母对应。(详见下文)

汉字的部件是汉字在几千年形成、发展过程中逐步发展变化形成和由后人按社会、文化、科学技术的发展需要总结、概括而成的固定笔划群,这一概念的提出与语言文字学界字根的概念并不尽然相同,因为二者研究的目的不同,观察问题的角度也不完全相同,但基本点是一致的,那就是这些固定笔划群不管是一笔或十几划都被理解成汉字的基本构字单元。我们的祖先完全没有也不可能想到千百年后的今天会出现IT技术对古老中文的冲击,更不会想到我们这一代人需要在对中华文化继承、弘扬、发展的基础上如此重视对汉字部件的深入研究与解读。因此,如何正确、全面认识部件成了发展的需要与后人的责任,对部件的认识标准由后人根据现实、需要和可能而制定,这种标准只有科学性和合理性,没有唯一性和绝对性。相反地,随着社会和技术的发展往往会出现阶段性和局限性。上世纪末制定的部件规范GF3001就是典型的一例。如今,根据中文信息处理技术发展的现状和需要,我们完全有必要从信息学的角度来更高、更广义、更全面、更科学、更合理地认识部件:①部件的自然形态记录和反映中文的形状信息;②所有的中文字都可用中文的基本部件组成;③基本部件的划分应能反映中文的最基本的形态;④反映中文最基本形态的部件叫中文基本部件;⑤中文基本部件是中文不可分割的最小构字单元;⑥因此,中文的基本部件是以形态确定的;⑦中文部件的形态是从全体中文的固定笔划群中总结出来的、符合中华民族对字体形状的认知习惯的自然形态。(以上原则适合所有汉字)。
汉字究竟有多少基本部件,无人知道,这首先是因为无人知道汉字的数量;再是基本部件的划分并无标准。但这不影响我们对部件的研究进程,因为部件数量和部件形态并非无限,而且随着字数的增加,出现新部件的可能性相对很小。据此,我们首先确定部件类型应接近26,再根据部件的实际情况,认为28类比较客观实用,这是因为:①28个类型比较切合绝大多数汉字部件的自然形态,类型之间具有明显的外形特征差异。②符合部件“天性”的分类方法易于接受、掌握,特别是对认知能力差的小学生和中文基础差的中外人士尤为重要。小学生和初学汉字的人不会因认知能力而形成障碍,产生负担,反而可以从三、四年级就开始用表征码查字典,从而减轻学生负担,增加学习兴趣,提高语文教学质量。③将部件分成差别明显的28类,可以把“计算机应用要从娃娃抓起”提早到从幼儿园开始。小朋友在做游戏时一边跳舞一边像唱英文字母歌那样颂唱表征符顺序口诀,从小就在感官上接受28类表征符的熏陶,何愁小学毕业不会使用计算机打字!④不要求中文基础的分类方法是中文和中文信息处理大众化和实现国际化的必要条件。⑤到小学4、5年级再把28类合并到26类中去已无认知上的困难和中文基础知识的障碍,从而不会增加学生负担。⑥这种步进式的部件分、合方法,有助于建立一种从幼儿园就开始的学汉字、查检汉字、汉字的计算机信息处理三位一体的新颖汉语教学模式,可以起到既减轻学生负担,又增加学生兴趣,还提高教学质量的效果。
那么这28个部件类型又是哪些呢?下面,我们把28个类型的部件按类型名称顺序(四句顺口溜)将类型特征、表征符及典型部件列成下表:
名称与符号 类型特征 (计算机打得出的)典型部件举例
木   木 像木字 本、末、未、禾、东、朱、乐、来
了   亅 左边有小钩 孑、寸、才、手、牙、豸、丁、乎
戈   有右斜钩 戈、弋、戋、曳、、氏、戊、戉
提   带直提的部件 讠、饣、钅、
毛   乚 右折钩类 七、匕、、巳、毛、巴、屯、乇
厂   厂 类似厂 广、卢、产、严、尸、虍、厃、户
衣   K 上撇下捺 水、永、良、艮、辰、衤、礻、乑
人   人 左撇右捺 人、入、八、久、火、乆、癶、
叉   乂 撇捺交,横撇交 乂、又、夂、夊、攵、夕、、耂
大   大 横撇交带捺 夫、丈、、、天、央、夹、夨
之   Z 下有横捺 之、疋、乏、辶、廴、
幺   小折角类 乡、厶、、纟、糸、系、  、专
点   以点为特征 冫氵丷爫灬、小、心、少、必
几   几 左撇右折钩 儿、无、兂、旡、兆、凡、尤、九
筐   匚 三面环抱 凵、山、月、臣、冂、内、冉、巨
折   勹 有直折角 弓、力、乃、刃、勿、勹、习、刁
草   卄 像草 卄、廿、甘、世、丗、卅、井、廾
卡   H 大致对称 北、卡、卯、臼、壬、北、丱、女
腿   ф 中有直腿 千、干、丰、车、韦、屮、串、丯
口   口 四面封口 口、凹、凸、〇、回、囗、
日   日 口中连笔划 曰、囙、白、目、田、由、曲、四
羊   丫 上下左有羊角 丬、、首、具、典、兴、只、酋
靠   B 异形边旁类 卜、丩、忄、耳、亻、彳、隹、身
盖   宀 盖、帽类 亠、、乛、言、主、玄、亦、方
正   I 二横之间 二、工、王、亚、互、亘、豆、丕
上   丄 在一之上 土、士、生、丑、且、旦、里、丞
下   丅 在一之下 丆、石、西、雨、两、丙、开、不
齐   F 收齐其余杂形部件 乍、斤、彡、一、欠、、丿、乀
   表中可以看出,表征符的名称取自典型部件,表征符的形式是典型部件的概括与简化。
根据以上分类,我们把GB13000.1的20902组中、日、韩汉字列成基本部件表(见文末附表),从而使我们可以根据形状轻而易举地从600多个部件中把所需部件找出来。
实际上,部件的形状不可能与英文的26个字母完全确切地一一对应,因此,在进行上述部件分类时,我们做了如下特别处理(以下叙述请仔细对照GF3001─1997之基础部件表和文末所附基本部件表):
⒈衤、礻、夕……等类型不明显的部件,按类似形状挂靠到相应类型(“衣”类和“叉”
类)中去;
⒉隹、镸、欠、……等由两个基本部件固定地结合在一起、类型又不明显的部件,
就按相关形状挂靠到“靠”类、“幺”类、“齐”类;
⒊有些部件虽然具有明显的典型外形特征,过去并未引起语言文字学家的注意。现在,我们把它们列入了各自相应的部件类型;(特别注意文末部件表的“戈”、“筐”、“羊”、“盖”、“上”……等类中的许多具有典型外形特征的部件,它们在GF3001中并不被认为是部件);
⒋有些零散的常用部件,如:短一、短∣、丷、丿及口、日、田、  等常可以与别
的笔划或部件结合成新的典型部件,为了避免信息过于分散,我们把它们归入新合成的部件类型(如:“上”类、“下”类、“羊”类、“靠”类、“齐”类……等之中的一些部件)。
⒌有些中文字的边旁,形状特征不明显,如果硬性地划分成某些类型,有可能会画
虎不成反类犬,我们索性把它们集中在一起,单独称作“靠”类,取靠边之意;
⒍有些形状非常分散的部件,跟哪种形状都沾不上边,我们把它们集中在一起单独成立一个“齐”类,取收齐之意。在技术上,我们没有必要为这些“散兵游勇”各自取一个类型名称,从分类方法上讲,一个明摆着的事实是:英文字母总共26个,即使我们分类分得再细,最终还要归并到26个键上,与其如此,倒不如把它们统统打入“另册”,与“”一起组成一个“齐”类来得简便合理。(以上说明请与GF3001中的部件仔细对照,以助理解)
计算机的26个英文字母键对于信息处理已经足够,完全没有必要画蛇添足,改变现有键盘布局或增加符号键。这就产生了把28个部件类型分配到26个字母键上的问题。其实,我们在设计表征码的时候就已经考虑了二者之间的对应(而不是分配)问题。方法如下:
1、把“  ”类并入“乚”类。这是因为“  ”类很大程度上是“乚”类的变态。例如宛字中的“”和“剜”中的“  ”因为在字中所处的部位不同而从书法的、艺术的角度所作的笔形变化。还有许多类似的字例,如屯和“顿、邨”中的“  ”;电和   中的“  ”;“比”的两个部件;“  ”中的“  ”和“巳”……。它们实际都是“一回事”。这样的合并,对小学四、五年级学生来说,毫无负担可言,还可增长学问,可以说,当初是“分得有理”,现在是“合得有利”。它们合并后共用一个“乚”键。
2、把“乂”类中的撇捺交叉部件(乂、又、攵、夕等)并入“人”类(撇捺不交叉),因它们在形态上虽有差别,但都以一撇和一捺为主体,具有明显的共性,它们合并起来,很容易被认可。合并后共用一个“V”键。
3、把“乂”类中的横撇交叉的部件(请参看部件表)并入“大”类,这两部分部件在外形上都以横撇交叉为基础,有明显的共同性。它们合并后,共用一个“A”键。
经以上合并后的28个部件类型,用L、V、A三个字母键对应“提”、“毛”、“人”、“叉”、“大”五类部件,剩下23个类型与23个英文字母同样在音、形、义三方面相符甚至对应一致。下面按音、形、义三类把它们的对照关系分列于下(请同时参阅文末基本部件表):
拟音:木/M,  (  /D,  丫/Y);
拟形:亅/J,    、乚/乚,  厂/r,  K/K,  人/V,  大/A,  Z/Z,    /W,   
匸/E,  ㄅ/N,  H/H,  φ/P,  口/O,  日/Q,  丫/Y,  B/B,  I/I,  T/T,  F/F;
拟义:  /Dot, 几/X(未知数), 卄/Grass,  宀/Cover, 丄/Up,   /Spear(古代武器)。
(部件类型、表征符与26个字母之间的音、形、义对应是观念改变的难题之三!)
最后,我们再来介绍一下部件序列的排序方法:①左右排列的部件按“先左后右”顺序排列;②上下排列的部件按“先上后下”的顺序排列;③非纯粹上下、左右排列的部件按谁在左上方出现的部件在先原则排序,称为“左上居先”。实际上,先左后右、先上后下是左上居先原则在具体情况下的另一种表达方式(请对照下节编码实例)。很明显,这样的排序规则没有难度可言,应该是“全球通用”的吧。

现在,我们已经有能力对古今、中外汉字进行实际的编码了。我们选择了如下5个字为例(有难有易、有简有繁、有认识也有不认识,以说明表征码不以用户的中文基础为前提),兹演练如下:
温│氵日皿冫日丄/dqu;       毝│毛彡F/lf;       樮│木西火木丅人/mtv;  
宝│宀王丶I/cid;      寶│宀王午凵IФ匚丫/cipey;
下面,我们再选一段完整的文字——8300个规范汉字(征求意见稿)说明中关于简繁汉字的论述为例,进行实际编码,以观察表征码的编码效果(括号内的是繁体字。因为本文有些部件或符号无法打出,请读者根据文末另附的扫描件自行更改)。
汉    字: 字  表  的   制 定、正  视 (視)  使   用 汉(漢)字的不 同   国
部件序列: 宀子    白勹丶   刂 宀  、正 礻冂儿(礻目儿)亻丈口  冂   氵又(氵廿  )      不  冂    口王丶
排 序 码: 宀亅 丄K 日勹   ФB  宀Z   I  K匚几  K日几  B大口  匚Ф   人   卄大       丅  匚丅  口I 
键 盘 码:  cj  uk  rnd  pb  cz  i  kex   kqx   bao  ep  dv  dga      t   et  oid
(國)家 地 区 (區)  简  (簡)  繁  汉字并(並)存并用的客   观  (觀)
口戈   宀豕 土也 区(匚口口口)门日(門日)母攵糸      廾(並)    子      宀夂口 又冂儿 艹口口隹目儿
口  丄 宀丅 丄乚 匚  匚口口口  F匚日    FH日   FH人       丫卄  丫     F亅      宀人口 人匚几 卄口口B日几
 osu  ct ul  e eooo   feq   fhq   fhvw     yg  y    fj     cvo  vex   goobqx
实   (實)   际    (際)   兼   顾    (顧)   汉字使用的现   状 (狀) 及 国际化的各
宀  大 (宀毌貝) 阝二小 (阝  二小)       厂    人(戶隹丆貝)              王冂儿 丬犬 (爿犬) 廴丿          夂口
宀  大 (宀H丫)  BI    (B人I  )  丫H  厂乚丅人  厂B丅丫                I匚几  丫大 B大   ZF          人口
 cda  chy   bid   bvid   yh   rltv    rbty              iex   ya  ba   zf       vo
种  (種) 需  求   尽  (盡) 量   避     免  扩 (擴)  大不同国家或地区之 间 (間)汉
禾中 (禾重) 雨而 一氺丶 厂乀 (灬皿)旦里 辶尸口立十   儿 扌广(扌广廿  )大 不        戈       之  门日 (門日)
木Ф  木丄 丅丅  FK    厂F   丄 丄 丄丄 Z厂口宀   口儿 亅厂 亅厂卄丫 大 丅          丄     Z   匚日 H日
mp  mu t t  fkd  rfd  udu  uu  zrocp   ox  jr   jrgy  a  t       su    z  eq  hq
字使用的差 异 (異),以 利 于 (於)  相 互之间的 沟  (溝)   通   与  (與)  交  流
工 巳廾(田共)   人 禾刂 于(方人  ) 木目 互        氵勹厶(氵  冉) 辶冂     一 (     ) 六乂 氵   
       丫I  乚卄 日丫  乚人 木B 亅 宀人   木日  I          勹     丄匚  Z  匚    勹F 丫勹   宀人   宀几
        yi  lg  qy   lv  mb j  cvd  mq  i      dnw  due  zwep  nf  yn    cv  dcx
以上编码,并未经过任何技术处理。全文不同字形54个,加繁体字20个。按有效字形74字统计,平均码长2.46。按54个简体字版统计,平均码长2.39。按54个繁体字版统计,平均码长2.57。74个不同字型只有两个重码字(正/互)。
我们又对8300个规范汉字(征求意见稿)及其繁体字、异体字、部分同义字共约12000字编码(限4位)进行统计,52%字无重码,36%字重码2—5字,10%重码6—10字,超过一个提示行的字<2%(共230多个字。重码字多的都是部件数只有1、2的字)。
统计结果表明,表征码性能优异,而且完全证明了:
1、现在中文信息处理所存在的问题,关键不是技术问题,重要的是观念问题;
2、中文信息处理技术在中文信息学原理指导下可以达到四个“化”的要求;
3、中文完全可以见字就查字典,见字就敲键盘输入,性能比英文更好;
4、表征码可以帮助建立一个学汉字、汉字查检、中文信息处理三位一体的汉语教学新模式,实现计算机应用从娃娃抓起;
5、中文可以同英文媲美,成为又一个国际化的语言与文字;
6、表征码可以推动IT行业和中华文化实现新辉煌。
写到这里,有人也许会提出如下质疑,现一一回答如下:
质疑一:中文信息处理比英文多一个转换,怎么能说中文比英文更容易?我们的回答是①如果先有中文键盘,这个转换将颠倒过来,而且这种转换只是初学时才需要;②这种中英文符号间的转换,跟钢琴的转调完全是一个道理,只有生疏熟练之别,并无难易之分。
质疑二:中文信息处理有重码,英文没有。这个问题看似有理,实则不然。①英文单词大多数在8个字母以上,中文信息处理码长最多4位。如用作计算机内码,最多取6位就能在几十万字范围内消灭重码(仅指表征码);②掌握汉语基本知识的人可以利用智能技术在常用字范围内达到平均码长甚小于2(含输入键,指表征码)。
质疑三:看了600多字的部件表,别说小孩和外国人,就连中国人也会感到心烦头疼,怎么能说赶上、超过英文呢?这个问题实际上是一种误解:①汉字部件是客观存在,总结成部件表不仅可以帮助中文信息处理在编码方法上突破实现四个“化”的难题,而且大家不妨把文末所附部件表与GF3001部件表作一比较,有规律的部件表比杂乱无章的部件表只能降低学习部件乃至学习汉语的难度;②对部件表的认识有一个方法问题,即重点是认识、理解28个类型。每个类型有哪些部件则是个与汉语学习同步积累的过程,是水到渠成的事。为什么要死记硬背?③对部件表的利用也有一个方法问题,即部件表的功用不是用来根据类型找部件,而是见到了生疏的部件时用来查对或检验自己对部件类型的判断是否正确;④先教会了部件表再教学生汉语的方法不是好方法,学会了部件表再学汉语同样不是学习汉语的好方法;⑤表中部件是一般人几辈子也用不完的;⑥表征码按部件类型设计的部件表是一个创新,把对部件的认识提高到了一个新的高度,把对部件的认识难度降低到了最低。
质疑四:表征码能做汉字的计算机内部码吗?回答是肯定的。而且基本可以确定,只需6位就能完成。理由何在?①6位码的理论容量可达3亿以上,在这种情况下,全部汉字总共有多少?已经不重要了;②GB13000.1的20902组汉字中取前4或5个部件相同的字(最可能在6位码中重码)编成的内部码无一重码,其它情况就更不可能重码;③即使字库增大至50万,出现重码的可能性大大小于千万分之一。况且,万一这种情况出现,我们只需稍微调整一下编码方法就能轻而易举地解决。表征码的6位汉字内部码使汉字对自己在区位码中的位置茫然无知变为见字就知,这对整个中文信息处理事业甚至对中文的研究产生的影响将无法估量。而汉字内部码(基本上是表征排序码)与4位表征码之间的呼应一致,将使中文信息处理的大众化、规范化的“达标”乃至整个中文信息处理变得更加容易,堪与英文媲美。
 
参考文献
[1] 中国中文信息学会汉字编码委员会  汉字键盘输入技术发展与成果  [M]  北京  2009
[2] 信息技术  通用多八位编码字符集(UCS)GB13000.1─93  [S]  北京  标准出版社  1992
[3] 信息处理  信息交换用八位代码结构和编码规则GB11383─89  [S]  北京  标准出版社  1992
[4] 信息处理用GB1300.1字符集汉字部件规范GF3001─1997  [S]  北京  标准出版社  1997
[5] 信息处理用现代汉语分词规范GB/T13715─92  [S]  北京  标准出版社  1992
 
 
作者简介:华兴初男,1939年生,江苏无锡人,浙江大学无线电导引专业毕业,导弹研究院从事微波天线与馈线系统设计研究工作,主要发明:超安全弹子锁(ZL88204002.2,俗称十字锁)、汉字表征码(ZL201110056454.7)。
                     2012年1月22日14:49:56除夕    修改于洛阳
 
 
                   中国空空导弹研究院     华兴初
                      0379-63383992
                      Email;scccac@sina.com

责任编辑:编辑


发表我的评论
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
验证码: 点击我更换图片
  • | 关于我们 | 服务条款 | 法律声明 | 刊登广告 | 联系我们 | 申请记者 |
  • 中国鳳展新闻网(http://www.cnfznews.com) © 2018 版权所有 All Rights Reserved.
  • 中国鳳展新闻报业集团有限公司主办
    新闻投稿或提供线索邮箱:lm2621@163.com
    本站热线电话:18643073610 监督电话:18643073610

    Power by 中国鳳展新闻网