“认知码”是“认知码计算机
汉字输入系统”的简称。它是上世纪九十年代中国大陆的一项简体汉字的研究成果。在输入简体汉字方面比五笔编码、表形要容易。但是可惜的是,认知码的使用范围很小,如中国大陆的手机、电脑键盘等都未有此输入方法。小霸王电脑学习机,步步高1998年的有声电脑学习机语音2号等设置了此输入法。
输入法原理
在中国大陆,只要懂得汉语拼音就能比较迅速的掌握该输入法。该输入法是用拆分原理来输入简体汉字。
如“韩”,可以拆成“十”“早”“韦”,在认知码内是S,Z,W,选择“认知码”输入法,输入这三个字母,就会出现这个字了。
认知码还支持词组输入,同时已经开始应用,比如,2011年出的一种新的很流行的宁码输入法,就是在认识码的基础上改进而成,保留了认知码的易学性,将字根和认识码相结合,同时解决了认知码的重码多问题。
认知码的失落
1992年8月1日至3日,为落实国家教委批准的“八五”重点攻关项目----“全国中小学教学汉字编码规范与计算机汉字输入系统”的研讨会在北京召开。组织这次会议的是国家教委基础教育司及直属的全国中小学计算机教育研究中心。
来自全国中小学语文和计算机教学第一线的教师代表,多年从事中文信息处理技术研究的专家、学者及计算机厂家代表70余人出席了会议。在这次会议上,主持人宣读了国家教委关于对该项目立项报告的批示以及攻关领导小组, 项目顾问组和课题组组成单位及其成员的名单。出席会议的诸位领导在讲话中对研制这个项目的必要性和重要性都给予了充分的肯定,从多方面阐述了研制本项目的重大意义和深远影响,一致表示全力支持项目的开展。
这种强有力的政府行为有着雄厚的资金、人力和充分的时间作后盾,这是像肖水清这样身无分文、全凭自身对事业的无私奉献,以燃烧自己来照亮科研前进道路的民办科研企业家是无法比拟的。
与会专家和代表认为,汉字进入计算机是举世瞩目的重大课题,虽然在八十年代经过海内外炎黄子孙的共同努力,解决了汉字键盘输入技术的有无问题,我们还未看到有任何一种汉字输入方法是充分按照与中小学基础教育紧密结合的社会需求并且是在中小学做过认真的试验后研制出来的。因此,国家教委把研制“全国中小学生教学用汉字编码规范与计算机汉字输入系统”列为“八五”国家重点攻关项目,是非常及时,非常必要的。该项目的研制成功必将有利于中小学语文和计算机的规范化教学,显著提高教学质量,加速跨世纪人才的培养;有利于我国语言文字的规范化和汉字编码输入技术的规范化,并从根本上解决我国计算机的普及应用问题,因此,是造福子孙后代的“强国之大业,不朽之盛事。”
这次研讨会对项目的攻关目标进行了深入探讨,要求在攻关过程中做好“三个结合”、做到“三个兼容”。即做好语言文字规范化研究与汉字编码规范化研究相结合,中小学语文、计算机教学与计算机应用相结合,汉字编码研究与输入系统研究研制相结合。做到音码、形码互补兼容,教学中的识字、查字、编码和打字相互兼容,快速与易学、专用与普及相互兼容。
会议还强调指出,规范制订原则中应强调紧密结合中小学语文教学特点和中小学的年龄与认知特点,要有利于语言文字及其教学的规范化和有利于计算机的中文信息处理。在研制汉字编码输入系统中,既要考虑我国中小学现有计算机机型配置,又要考虑国内主流机型的发展趋势;既要注意编码输入系统的研制,又要注意非编码输入系统的研制,使规范化、智能化、系统化融于一体。
这次研讨会对这个“八五”重点科研攻关项目的组织形式,及攻关步骤,财务费用也进行了规划。大家认识到,完成这样一个多学科、高技术、复杂而大型的系统工程,是任何单一专业、单个部门或靠个体力量所难以完成的。因此,要求技术路线上应在充分调查,认真研究语言文字规律和规范、中小学语文和计算机教学特点以及当前众多编码方案特点的基础上,充分依据已有的语言文字规范、广泛吸取现有成果和成熟经验,集思广益,博采众长,群策群力。要求在研制方法上,应采取统一规划,分步实施,边研、边试、边用,渐进获取,逐步完善的方法。在组织形式上,要求坚持在领导小组和项目顾问组的协调和指导下,由课题组组织中小学语文和计算机教育专家,中文信息处理专家和计算机软、硬件设计人员共同努力、协作攻关,并做到研制、生产、使用三结合。
会议还要求国家主管部门在人力、物力、财力方面给予大力支持,采取国家拨款和社会集资相结合方式来筹集资金。与会专家和代表强烈呼吁国家有关部门和社会有识之士,大力支持这项造福子孙、功德无量的重大项目。
最后与会代表认为,在中小学计算机教学中,应主要使用汉语拼音方案作为计算机汉字输入方法,而对形码的选择应持特别慎重态度,目的在于避免对语言文字的“污染”,并坚决反对用商业竞争或行政命令手段在中小学中强制推行不规范的汉字输入编码方案的做法。
会议圆满成功,与会领导和代表满怀希望回到各自岗位,课题组的同志也披星戴月地奋斗了两年,终于拿出了成果,提出了一个《认知码汉字输入方法》,在1995年推向全国中小学校。可是,由于认知码自身存在很多欠缺,在推行之中遇到很大争议和阻力。不少学术刊物纷纷载文讨论认知码,在这种“百家争鸣”的环境中,由于认知码自身的致命缺陷,使这种后来研制出的官方编码被批评家批驳得体无完肤,一蹶不振。
1995年10月18日,权威的《计算机世界》报刊登了周宪撰写的一篇文章,题目大胆直白,赫然醒目,《“认知码”不宜推广》。此文以大量翔实的定量定性分析,直指认知码的致命缺陷。
文章说认知码不宜推广的第一个理论根据是重码率高。他说,我国包括王码在内的绝大多数汉字编码,都采用了26键的标准模式,而认知码却采用了24个字母键盘和9个数字键盘。按理说,采用33键,码长又为4,理所当然重码应该少于码长为4的26键方案。但是,实际上认知码的重码远远超过了所有类似编码。在3755个常用的汉字范围内,五笔字型的重码为67对,表型码为72对,见字识码(新版)为49对,郑易里码为89对,新版杜氏全息码为206对,旧板杜氏全息码为270对。但是认知码竟然达到342对之多。(以上数据误差率为10%)。
文章对认知码不宜推广的第二个理论根据是易学性差。文章说,从易学性来看、认知码同自然码、栗新民四笔声形码、见字识码、杜氏全息码一样,都采用了以声母表示字根的方法。这对于学过汉语拼音的人来说,是比较容易的。但是,自然码、栗新民四笔声形码、见字识码采用的字根基本上都是新华字典的部首,杜氏全息码采用了100个部首,均要比认知码的300类、400多个字根易记得多。
文章对认知码不宜推广的第三个理论根据是字根选择缺乏正确的规范。认知码采用了许多通常不认为是字根的由多部件构成的汉字作为其“基本部件”。还有一些人为地赋予读音的字根,如“典”、“向”、“商”等。由于其中部分字根的出现频率很低,使用者很难搞清楚某一由几个部件复合而成的大部件,到底要拆分还是不要拆分字根。比如,在认知码的基本字根表中有“朱”,然而认知码的研制者在认知码的码本中却将“朱、珠、姝……”中的“朱”一律拆分为“ノ”与“未”。可见连研制者自己也记不清“朱”是字根了。300多对400多个字根太多,也无法用键贴,增加了初学者的困难。由于认知码对字根的选择缺乏正确的规范,它将部首中的“鼠”“黑”“骨”拆散,却又认为“俞”“今”“爱”“安”等是基本部件。人们难以搞清它依据什么“规”律来区分字根与非字根,也不知道它是依据古往今来的哪一部辞典或哪一种语言经典作为其“范”本。
文章对认知码不宜推广的第四点理论根据是简码的使用不科学。认知码采用了依靠计算机的提示,通过简码来回避重码的方法。譬如说:“皆”和“毖”,按认知码的规则,都应编为BBB1。认知码则规定“皆”是BBB,而“毖”是BBB1。包括五笔字型在内的许多编码都采用了这种方法。事实说明,这种方法对于缩短码长,减少重码是行之有效的。但是,包括五笔字型在内的许多编码在采用简码的同时,仍旧保留了具有简码的汉字的规范编码。就拿“皆”字来说,不但用BBB可以输入它,用BBB1也应能输入它。但是,认知码在发表的码表中,对“皆”却只有BBB一种编码。
一个编码即使极易学,如果速度上不去,最终只会造成“易学一阵子,慢了一辈子”的结果。何况认知码在声母表示字根的形码中根本算不上易学的编码。
另外,我们在研制一个形码的字根表时,一定要兼顾其在音形码中的使用。如果将大量汉字中的表音部分列为字根,并用其声母来表示,那么在音形码中,这个字根往往是与音形码的声母重复而成为一种区别重码能力极差的冗余码。而认知码这类表音的字根特别多。
实践是检验真理的唯一标准。在推行任何编码前,必须将其与其它码进行严格的对比性定量测试。不但要测试其重码率,还要测试其前期,中期、后期速率。
用户反映无法选择汉字编码,其主要原因就是缺少客观地反映各个编码的重码率和前期速率、中期速率、后期速率的数据。
汉字编码要走向市场,要产品化,必须要象其他产品那样实事求是地说明自己的各项性能指标,并让用户进行检验。
汉字编码也只有通过实践,通过“百花齐放,百家争鸣”,才能让广大用户识别和采用最规范、易学、高速的编码。
周宪的文章发表半年之后,1996年4月1日,黄晓林在《计算机世界》报发表了《也谈认知码的一些争议的问题》这篇文章。
文章说,过去几年里,中小学里教的汉字输入法很多,原因是国家教委尚未有推荐方案,所以各个学校教汉字输入法是各自为政,你教五笔字型,我教自然码,他教肖码等等。1995年国家教委推荐中小学使用认知码,从减少学生负担意义上说,这种做法本身具有积极意义。但这个国家教委首次推出的认知码,也许由于研究比较仓促,本身具有很多不尽人意之处,引入中小学校后引起了很大争议,这也是难免的。
文章对《认知码输入方法》前言中称认知码是严格遵循中小学教学规范制作出来的,而在此以前,没有一个编码是严格遵循中小学教学规范编制的言语极为反感。举例说明道:具有辉煌历史的五笔字型因为不适合语言学规范,没有得到国家教委的推荐,应该是中小学生之幸,令人惊奇的是,五笔字型的基础----“横竖撇点折”,被原封不动地搬到了认知码中,定义成认知码的基本汉字笔画,这就给认知码留下了不规范的源泉。老师在给中小学生上课时,就讲汉字的笔画是“点横竖撇捺提折钩”八种类型,认知码只有五种,这有什么资格称“严格遵循中小学语文教学规范”呢?如果某学生学习了认知码,根据认知码的规则,把“竹”字的左右两部分写得一模一样,并以认知码理由反驳教师的指正,你作为该学生的教师,将会有何感想。也许有人认为,只引入一两个不规范的东西没有多大影响。但是,连基础都不规范,那么建立在不规范的基础上的东西还有多少规范可言呢?
黄晓林对认知码的重码率和易学性也进行了毫不留情的批驳。文章说,认知码使用说明书本身就是一大本厚厚的书,作者看了也不仅大吃一惊,一种输入法要配上厚厚的一本说明书才能学会,他不知道这个码的易学性“易学”在什么地方。认知码还没有代码表,也是因为其部件太多,有些部件是人为的拆分造成的,所以无法归纳成代码表,由此可知其记忆量之大,这还算易记么。再就是认知码变通很多,每有一处变通,难度就会增加一分,规则的复杂性也随着增加,这样多的规则,又有什么“规则非常简单”可言呢。
文章最后说,开发认知码是件工作量很大、很辛苦的工作,但是有苦劳并不等于有功劳。人们都说六十年代美国对越南之战,是“在错误的地方打了一场错误的战争”,如果能够避免这场战争,无论对越南还是对美国来说都是一件幸事。我们认知码的开发者有没有走进这个误区,还是让后人评说吧!言下之意非常明白,用
越南战争的举例,例证开发认知码是“打了一场错误的战争”。