您现在的位置: 主页 > 草根播报

中文信息处理与汉字表征码技术 2

时间:2017-03-01 06:00点击: 来源:中国空空导弹研究院 高工 作者:华兴初

IT革命至今已迈过五十个年头,对我国经济社会的发展做出了巨大贡献。
然而在近一、二年以来,中文的计算机信息处理却进入了走弯路、钻牛角尖的
死胡同。不仅是当年的雄风不再,甚至出现了技术上的倒退。表面上看似技术
越来越“先进”,背后却隐藏着被人们忽视的处理技术越来越复杂化专业化,离
人民大众和世界却越来越远的弊病,不仅中文信息的全面规范化不可能,国际
化更是没有希望。正是因为这些原因,中文信息处理已不可能继续对我国GDP
产生明显的拉动作用,逐步淡出了人们关注的视线。现有中文信息处理技术对
以下问题一筹莫展,甚至,令专家、权威不敢面对,束手无策:
         1、中文信息处理技术音盛形衰,不能展现民族特色,提笔忘字,汉字还原率
极低,错别字成灾,特别是初学汉语的娃娃和外国人学了中文信息处理技术后,
还产生了中文会读不会写,或不知如何写等问题,极不利于中文的基础教学与
发展;学界连表一个“中文走向世界”的态都不敢;
   2、忽视汉字的排序功能,各行各业的中文信息的查、检方法难、速度慢、字典有
字查不到已成了“习惯”;电子字典的优秀功能无法发挥,开发困难,还在无形
中挫伤了学生幼小心灵的学习兴趣,诱发畏难情绪,无助“中文难学”问题的解
决;中文基础教学长期立足于汉语拼音一驾马车,基础教学部门绞尽脑汁,无
法突破,毫无进展。
3、中文信息处理技术落后,门槛高,电脑应用无法普及,难于从娃娃抓起,外
国人更是无可适从,致使中文信息处理技术与产品的国内市场只局限于那些掌
握汉语拼音的地方、单位与部门,开拓国内市场很有限,不仅走向世界之路更
加渺茫,而且陷入了英特网与美国网络霸权的深淵不能自拔。
4、中文输入方法低级杂乱,无法规范统一,我国语言文字工作的信息化进程和
中文信息处理领域一切工作的全面规范化实际上没做到,也做不到;
5、汉字信息压缩技术尚未彻底解决中文信息的自由输出/入问题,大量中文信
息(包括字、部件)进不了电脑、出不了电脑已司空见惯,更没有能力全面支
持中文信息处理工作的正常开展,制约着中文信息处理的技术走向现代化、国
际化的进程;
6、中文无法建立完整的字库。主要原因是受中文信息处理技术限制,难以获得
有效的技术支持。尤其是国家花巨资收集的字符集不能作为公用信息资源让全社
会共享,反被某些企业垄断,不合法、也不合理地从根本上阻断了中文信息技术
向全社会、全方位的发展;
7、中文信息处理技术拿不出创新的亮点再一次拉动国民经济的快速增长,国家
973计划提出的“着重从信息获取、处理、传输、存储、再现、安全、利用”诸
方面无明显突破,特别是中文信息的获取、处理和再现基本看不到进展;
8、无人敢提中文赶、超英文。长期以来,中文西化论像驱之不散的幽灵一样成
了阻碍中文成为又一个国际化的文字与语言的巨大思想障碍。中文西化论在现
代化浪潮中,不时地借机向古老、优秀的中华民族文化的精髓——中文发起挑
衅,扼杀、葬送了中文的现代化、国际化的前程。
9、中文信息处理主流技术受中文西化论的拖拽、误导,走上了哗众取宠,滥用
智能之路,把严肃神圣的中文糟踏得字不字、词不词、语不语、句不句,既教
坏了学生,又扰乱了中文基础教学的正常秩与规律,有损国家的形象与民族的尊
严,影响之深、之广,就像癌症一样很难医治。
10、中文信息电子产品自主知识产权的芯片大多由外国掌控,中国是世界最大
的产品、用户市场,但绝大多数利润落入了国企手中,中国已经变成了美国最大
的取款机——名副其实的“科技殖民地”。
中文信息处理技术领域的学术与市场乱象对于IT行业的理论和技术的创新
与发展极为不利,如不及早扭转,将会断送中华民族文化的前途与命运。我国
的IT技术民族化之路已被人为地压制了20多年!今天,我们有没有必要继续
耽误得起更多个20年宝贵时间,再不引上正道,真要对不起国家、对不起人
民、对不起子孙了。
以上问题可以简单地归咎于错误的理论指导所引起的恶果。至今,人们仍
然对现有的错误的所谓“共识”乐此不疲。我们不是不原谅IT革命初期存在的
理论缺失甚至错误,而是说在如今已经存在的大量经验与教训面前不应该用以
冀推挽,彰喜掩忧,叶公好龙,甚至文过饰非,讳疾忌医,趋炎附势的办法去
打压科技进步与创新了。
可以说,中文信息处理技术存在问题之多、之大及人们对待这些问题态度
的麻木程度之深、之广,我从事技术工作几十年来见所未见、闻所未闻。
中文信息处理的理论缺失主要表现在如下几个方面:
一  中文信息处理在一开始初步解决了古老中文与现代技术的对接以后,不仅
没有及时对成绩与问题进行综合、归纳与改进,反而在取得巨大成绩以后不能
正确对待甚至压制技术的创新,从而使我国中文信息处理进入了低速徘徊及技
术倒退的阶段。没有提出、也提不出更高的目际来鼓励、刺激IT行业向前进一
步发展。这个目标就是借助现代技术彻底解决中文难,使中文赶上、超过英文,
成为世界上又一个国际化的文字与语言,更不用说要在反对网络霸权与建设网
络强国方面有所作为。
二  在理论上,对中文信息处理的键盘输入技术的定位太高,忽视了中文信息
处理技术的使用对象应该是全球大众,而不仅仅是少数专业人员。从这个意义
上讲,键盘输入技术应定位为一门把语言文字学基础和计算机技术基础相结合
的边缘科学与民族化、大众化的应用科学,这种与语言文字学和计算机科学既
紧密结合又相区别的提法把技术和应用联系在了一起,为中文走向世界奠定了
理论基础。
三  在千百年来中文难阴霾的影响下,被中文信息处理存在的各种问题搅得一
头雾水的国人,手足无措,不去想、也不敢去想要解决这些问题,反而采取了
默认的态度,在错综复杂的困难面前轻易地“举手投降”了,甚至认为这些问
题将“长期存在下去”,并作为信息处理界的“共识”一厢情愿地强行灌输、散
布、推广。不去对所面临的问题进行认真、科学、辩证的归纳、分析,自然也
就看不出以上所有问题的本质——实际上可以概括为四个“化”的问题,即民
族化、大众化、规范化、国际化问题,从而形成了几十年来中文信息处理只停
留在解决中文“能否”进行计算机处理这一简单的纯技术层面上,使轰轰烈烈
的万码奔腾式的大规模编码运动囿于编码智力游戏的范畴,谁也不想去(甚至
有人拒绝)承担继承、弘扬、发展民族文化的责任与使中文赶上、超过英文,
成为又一个国际化语言与文字的历史使命。这是中文信息界的悲哀!
四  在对什么是中文信息这一根本性问题的认识上,没有从历史的、发展的、
科学的、辩证的角度解读中文(所有汉字)部件,把部件和笔画在中文信息处
理中的地位完全搞了个颠倒!
五  虽然认识到了中文信息处理技术是一项综合性很强的系统工程,却又不用
解决系统工程的办法去分析、解决存在的问题,而是用传统的头痛医头,脚痛
医脚的旧思维模式对待问题,也就难以从纠结在一起的问题堆中理出头绪,找
出解决问题的方法,只能放任自流,瞎子摸鱼,抑或盲目引导,过渡加载,既
搞乱了思想,当然也解决不了根本问题。表征码从系统工程的角度出发、分析,
创立了只有编码才是整个系统中决定中文信息处理实现四个“化”的环节;而
且只有利用中文的部件才能编出四个“化”的码来;部件能可被用来决定四个
“化”的信息只有部件的外形特征;部件的外形特征最简单、最现实也是最科
学的办法是参照26个键盘字母从音、形、义三方面进行分类……等一系列理论
问题和方法问题。正是这几个环节环环相扣奠定了保证中文信息处理民族化、
大众化、规范化和国际化的基石。
汉字表征码的发明从理论上和技术上以科学、辩证的方法,提纲挈领,一
举解决以上所有问题。也许有人要问,汉字表征码把现有中文信息处理问题集
中到只要解决四个“化”的编码这个问题上来有无实际依据呢?当然有。请看,
英文的信息处理为何无人质疑,那是因为计算机键盘是按英文设计的,英文字
母本身与键盘之间配合得天衣无缝。再看,表征码的信息源——部件,按中文
的外形特征分类,并与键盘的26个字母之间虽不完全贴合,但达到了在音、形、
义三方面的基本一致,键盘可以完全不作改动,使中文信息处理的键盘输入与
英文打字之间的差别缩小到象弹钢琴变个调那么容易。试想,如果计算机键盘
最初是按26个中文部件外形特征类型设计的,中英文在键盘上的对应关系就将
颠倒过来。根据这个简单的道理,我们也就没有必要担心中文信息处理会出现
这样或那样的问题了。
“表征码有重码字,怎么能说中文赶上超过英文呢?”提问者忽略了这样
一个现实:翻开英文词典,可以看到,英文单词一半以上超过8个字母,而汉
字表征码码长按惯例限定不超过4,而且独体字(一个件就是一个字)和只有2、
3个部件的简单汉字的数量可能超过总字数的一半。照此推算,我们只需取码长
6就可能使几十万汉字避免重码(当然这样要求并无绝对的必要)。据对一万二
千简、繁、异体字统计推算,如用6位码(4位码的理论容量为47万,它不可
能为数十万汉字编出理想的码来,因为根据方块字的特点,绝大多数码将轮空,
用不上,将会造成严重的重码。6位码的理论容量超过3亿,因此,码长6位足
以满足汉字表征码的使用需要)。凭现有表征码技术,即使那些前面有4、5个
部件相同因而最容易发生重码的字也不会出现重码。若今后扩大字库,产生重
码的概率很低,把握起来也不难。
表征码几乎不需要规则,基本不需经过什么技术处理,就能见字敲键盘,
进行中文信息处理。据以8300个通用“规范”汉字及其繁体字、异体字约1.2
万,码长限4,统计结果为:52%汉字没有重码,36%汉字的重码字数为2—5个,
10%汉字的重码字数为6-10个,只有不到2%汉字的重码字数在10个以上(总字
数约230个),这样的性能对于绝大多数用户和汉语基础较差的娃娃与外国人使
用起来,足夠满足几輩子。
科技创新的本质是把重大的、复杂的、长期解决不了的、看上去不可能解
决的问题简单化,而且越简单越好。汉字表征码中文输入方法,完全做到了这
一点,可以成为全世界从娃娃开始所有人都能掌握的常规技术。
汉字表征码从理论上抓住了编码这个关键性环节,一举突破了千百年来公
认的中文难题(不含政策性和人为问题),研究方法别具一格,是习惯于用头痛
医头脚痛医脚的办法“治病”的“医生”做不到也想不明白的。
表征码的性能,可以用一、二、三、四、五、六“六字诀”来概括:
“一”,就是用汉字表征码一码定乾坤从根本上解决中文走向世界的前途
与命运问题。汉字表征码有充分的理由向世界宣告:中文永远不可能西化!
“二”,就是表征码具备①中文排序和②中文信息处理两大功能,而且两者
都赶上超过英文。不兼具排序功能的编码或排序能力低下的编码担负不了中文
走向世界的重任。
“三”,就是将①部件形状、②部件外形特征符号(表征符)、③键盘字母
三者在音、形、义三方面直接对应,使汉字信息处理做到三个一步到位:①见
字直接翻字典(假定将来《中华大典》超过100卷,查任何一个汉字的时间只
用“秒”计);②见字直接敲键盘进行中文信息处理,速度比英文快;③见字就
能正确确定任一个汉字在任何一个规范化字表或字符集中的位置。
“四”,就是表征码为中文信息处理四大标志性工程的顺利完成提供了技术
基础与实现的可能性。四大标志性工程是:①中文全库的建成;②中文输入方
法全面达到四个“化”;③中文信息的全面规范化;④中文信息的无障碍输出/
入电脑(可像英文那样随心所欲,不受字体、字库和新字的影响)。四大标志性
工程完成之日就是中文现代化、国际化到来之时。有了汉字表征码,实现这个
目标只须5――10年。
“五”,就是中文信息处理技术中五个环节的五个核心的理论是保证中文
信息处理赶超英文的基础。这五个核心是:①中文信息处理技术的核心是四个
“化”;②四个“化”的核心是民族化;③民族化的核心是编码;④编码的核心
是汉字的部件;⑤部件的核心是它们的外形特征。这五个环节环环相扣,保证
了汉字表征码成为名副其实的民族化、大从化、规范化、国际化的编码——真
正属于汉字自已的编码。过去,几千种编码方法达不到四个“化”已从反面证
明:彼路不通!
            “六”,就是汉字表征码能保证中文信息处理技术涵盖六个所有:①涵盖古、
今、中、外、繁、简所有汉字;②所有视力、智力正常的人都能学会、掌握;
③涵盖所有汉字信息的应用和管理领域;④至少经得起东汉说文解字以来汉字
发展的所有时空的检验(含将来中文字库的无限扩展与创新);⑤具有所有汉字
编码的优点;⑥尚未发现以往所有汉字编码存在的缺点或引发的弊病。
汉字表征码不仅仅是中文信息输入方法的一个创新,而且是IT革命从低级
到高级的一次根本性跨越,是民族文化与西洋文化的两种认知概念的巧妙融合,
表征码的计算机汉字输入法把中西方文化的认识差异在现代技术的结合点——
电脑键盘上一“键”勾销,中文赶超英文,中文进入世界就会从理想变成现实
中文信息处理技术的全面突破,表明了我国IT革命以来中文信息处理方面
所做过的事很大部分称不上真正意义上的规范化,可以大胆预言,我国的通用
语言文字法也必然将中文信息处理的民族化、大众化、规范化、国际化,中文
赶超英文和反对中文西化论明确地、理直气壮地写进相应的条文……。中文信
息处理技术的全面突破其意义不仅在于中文信息处理本身,而且在教学上可以
彻底解决中文基础教育的难题,建立起一个“以字为本、以部件为核心、以汉
语拼音为工具的汉字学习、汉字查检、汉字信息处理三为一体的规范、优质、
高效、减负的新颖教学体系”;在经济上可以把中文信息处理技术与产品从现在
的只有国内的有限范围扩大到全世界各个角落,其对国民经济的拉动作用将是
以往的几倍!从政治上,中文将再开创一个向现代化、国际化大踏步迈进的辉
煌历程,中文最终将与英文一样成为又一个国际化的文字与语言。对提高我国
的文化软实力,提升我国国际地位具有绝对的意义。
 
汉字表征码、编码方法与键盘(专利号201110056454.7)
发明人:华兴初  中国空空导弹研究院  高工
E-mail:scccac@sina.com             
手机:18513326280(北京)
2013年10月13日
2017年2月26日星期日最后修改
责任编辑:编辑


发表我的评论
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
验证码: 点击我更换图片
  • | 关于我们 | 服务条款 | 法律声明 | 刊登广告 | 联系我们 | 申请记者 |
  • 中国鳳展新闻网(http://www.cnfznews.com) © 2018 版权所有 All Rights Reserved.
  • 中国鳳展新闻报业集团有限公司主办
    新闻投稿或提供线索邮箱:lm2621@163.com
    本站热线电话:18643073610 监督电话:18643073610

    Power by 中国鳳展新闻网