郑码输入法
汉字输入法
现在较为流行的汉字输入法中还有一种叫做“郑码”的输入法,微软的Windows 95中文版中就装有“郑码”输入法。它是一种形码,与常见的形码有许多相似之处:比如它也是从汉字的结构入手;也要将汉字分解成若干部件;也要按某种规律安排键位;也要建立某种汉字的拆分规则等等。
程序简介
郑码的思想最早来自《英华大词典》的主编郑易里教授。他在编写英文词典的同时,对汉字的结构也做过大量的研究,在20世纪60年代就曾论述过汉字由单元构成的理论,到20世纪80年代,郑老的女儿郑珑接续了他的工作,完成了“郑码”输入法的研究。1993年该方法通过了中国科协主持评审会的评审,并先后获得了北京国际发明金奖和日内瓦国际发明金奖,先后获得了中国、美国和英国的专利。专家评审后认为:郑码在汉字编码字符集范围、词库容量、字词平均码长、动态字重码率及符合语言文字规范等方面都取得了突出的成绩。
发明者认为“郑码”把汉字字典检索与计算机汉字输入统一了起来,使它们具有统一的编码和统一的排序,这与郑易里教授多年对字典的研究有关,也比较符合汉字的教学规律;郑码的编码方法对各种字符集有较强的适应性,它不但可以用来处理国标汉字字符集,也能用于处理港、台通用的字符集,还可以用于中、日、韩的汉字编码,1994年初郑码完成了电脑大汉字库6万个汉字输入技术的编码。
随着郑码的普及,它拥有了较多的用户,尤其在处理大字符集方面它具有较强的适应性,它的输入速度也比较快,是一种较好的形码输入方法。
郑码》规范、易学、快速、通用,用同一编码规则不但可以输入2万汉字,还可以输入68000个和10万个汉字。《郑码》曾荣获北京国际发明金奖和最优秀发明大奖;荣获第22届日内瓦发明金奖。国家主管部门通过评比向国内外用户广泛推荐《郑码》。中国的中文之星等系统平台选用《郑码》,美国Microsoft公司的Windows95/98/NT/2000/XP/Vista/7中文系统选用《郑码》,美国IBM公司的OS/2和JAVAOS等许多中文产品也都选用《郑码》。然而,在最新的Win8系统中已经没有郑码输入法了。
程序特点
郑码输入法中有许多思想与五笔字型思想非常相似,很难说谁借鉴了谁,总之都是发明者对中国文字做了大量研究的结果。在郑码中对于汉字的笔画也规定为“按一定走向连续完成的一笔”,也分为五种,分别是:横、竖、撇、点、折(也分别包括横提、向左的竖钩、捺等形近的变体);对于汉字的形成认为是分为笔画、独体字与合体字三个层次;也认为字根是汉字形体的基础单元;郑码中的字根也分为成字字根和非成字字根两大类;也认为汉字合体字的字型中可以分为左右型、上下型和包围包孕型(这与五笔字型中的非类略有区别,实际上五笔字型中的杂合型字大部分是这里的包围包孕型);也按笔画分类分区排列键位;一个汉字(或词组)最多也是键入四键;也有像五笔字型中的一级简码那样的高频字;也有二级简码。
为了适应不同用户的需求,郑码输入法又分为《普及型》和《标准型》两种。这两种方法所用的基本字根的分类排列规律是一致的,编码规则也没有多大的差别。《普及型》的编码规则较简单,较易学,适合一般办公人员或年龄偏大的用户使用,但重码略多;《标准型》的编码在基本字根的代码方面有不同,除第一主根外每个基本字根都被扩充了一个位码,减小了重码字,并适用超过2万字的中、日、韩国际标准汉字大字符集
键盘布局
郑码是按英文母的顺序安排这170个基本字根的,是标准输入法,将英文字母键盘分成了26个跟区。研制者将26个英文字母按顺序分成了横起笔类、竖起笔类、撇起笔类、点起笔类和折起笔类等五个区。每个区中所含字母(根区)个数不等,所以郑码的键盘图不像五笔字型的键盘那样具有明显的分区键位。横起笔类中含A到H共八个字母键位;竖起笔类中含I到L共四个字母键位;撇起笔类中含M到R共六个字母键位;点起笔类中含S到W共五个字母键位;折起笔类中含X、Y、Z三个字母键位。分类分区的依据就是起笔的“笔形”,然后再按第二笔和第三笔的笔形排列每个区内的基本字根与英文字母的对应顺序。具体做法是:先按使用功能将基本字根分为主根和副根,再按起笔笔形将主根和副根分为上述的五个大类(横起笔、竖起笔等)。主根的键位确定之后,副根按自身的笔形从属相应的主根。
而主根又被分为第一主根和第二主根两类,第一主根是组字能力最强的基根,共26个,如基根(第一主根)“一、土、王”的代码就是A、B、C等等,他们的代码就是一代表根区的英文字母作为代码;并不是每个根区都有第二主根的,在郑码的标准方案中,为每个第二主根又规定了一个位码D,这样第二主根就有两个字母作为代码,(叫做2码根,而相对来说第一主根就叫做1码根)。避免了诸多基根共用一个根区代码而造成重码率高的现象,例如基根(第二主根)“二”的代码就是BD,基根“三”的代码就是CD等。第一主根和第二主根共同提供了本区字根的笔形特征。
副根中大多数都是大家熟悉的规范的部首。在标准型中也为每个副根规定了一个位吗,这样副根也是2码根。例如副根“丁”的代码是AI,“气”的代码是MY,“穴”的代码是WO等。
副根的第一个代码是区码,第二个代码(位码)的确定共有四种情况,分别按如下规则执行:
按副根构形中含有的主根成分确定,例如前述的“穴”中含有O区主根“八”的成分,因此他的位码为O,这是副根位码确定的主要方式。
按副根构形中还有的笔画成分确定,如前述的“丁”中含有一笔竖钩,因此位码定为代表一笔竖的区码I。
按副根构形中含有的其他副根成分确定,如“示”的构形中含有K区副根“小”的成分因此位码定为K,整个菜码为BK。
几个特殊副根的位码需要强行记忆,如“山LL”、“匕RR”和“已YY”。
基根采用了双符代码后可以及大地减少重码,而且基根代码的排序非常有规律,使郑码具备了字典的查字码功能,为识字教学与计算机输入的结合创造了条件。
取码方法
单字首根(即第一个基根)的代码要按照实际码数取,不能有所省略。就是说,首根是1码根就取1码;首根是2码根就取2码(区码和位码都要取)。
为保证单字编码不超过4个字母,首根之后的其余基根代码要根据不同情况决定取舍。一般是先舍位码,只取区码的1码。
例如:樱--木F贝LO贝LO女ZM--FLLZ
醒--酉FD曰K生MC--FDKM
但是,对于四基根和多基根字,还要将中间一些基根的代码全部舍弃,只取前两码和最末2个基根各1码。就是说,取两头舍中间。
例如:缩--纟Z宀WD(亻)一A白NK--ZWAN
糖--米UF(广)肀XB口J--UFXJ
词语取码方式
为使词语的代码不超过 4 个字母,编码时要根据词语中单字数的多少决定基根代码的取舍。
给词语编码时,只需取用基根的区码。
二字词
取每个字的首根和次根的区码各1码, 表述为:2 - 2
举例:数量 ---- 米/U 女/Z 曰/K 一/A ---- UZKA
第一主根作为单字参与构词,在需取 2 码时要在其代码后加“A”(与作为单字用的规则一致)。高频字参与构词时,要在其代码后加“V”。
举例:土地 ---- 土/B 地/B ---- BABV
三字词
取第一字首根的1码,取第二字首根和次根各1码;取第三字首根1码组成,表述为:1 - 2 - 1。
举例:科技馆 ---- 禾/M 扌/D 十/E 饣/O ---- MDEO
四字词和多字词
取前四字的首根各1码组成,表述为:1 - 1 - 1 - 1
举例:
轻描淡写 ---- 车/H 扌/D 氵/V 冖/W ---- HDVW
出污泥而不染--- 凵/Z 氵/V 氵/V 而/G (不 氵) --- ZVVG
简码的取码方式,对一些常用字或词,按一定的规则,取其常规码中的 1-3 个字符作为简略编码,称为简码。简码对专职操作员提高输入速度大有好处,非专职操作员不必特别去记忆。
一级简码:对应于 26 个高频字。
二级简码用该字首根和次根各 1 码组成。
举例:
把 -- DY 找 -- DH 管 -- MW
需 -- FG 取 -- CX
个别常用词也有二级简码,就是取每字第一个基根的区码。
举例:
中国--JJ 国家--JW 一定--AW 我们--MN 政府--AT 开展--AX
北京--TS 上海--IV 天津--AV 合作--ON 各种--RM 采取--PC
三级简码
二基根字:取第一个基根的区码和第二个基根的区位码,如:处 -- RID。
三基根和多基根字:依次取第一、第二和第三个基根的区码,如:散 -- EQM。
程序历史
“计算机全汉字处理系统集成”荣获全国科技信息优秀成果奖
1.《郑码》专利名为《字根编码输入法及其设备》,是中国著名文字学家、享誉海内外的《英华大词典》主编郑易里教授经半个世纪对汉字的研究,后期和郑珑高级工程师共同创造的重大科技成果。1989年以其独到的科学性、新颖性、创造性和实用性获得中、美、英国专利。中国专利号89108851.2。 2.1990年7月,《郑码》通过国家主管单位——《全国汉字输入方案评测工作组》严格评测,所有测试项目皆为优级。认为《郑码》做到了易学和快速输入结合,,从各方面均给予了国际领先的最高评价。
3.1990年11月,经我国著名中文信息专家、文字学家、标准化专家、计算机软件专家的国家级鉴定,肯定了评测结论,指出:《郑码》规律性强,把机器检索和人工检索有机地结合在一起,在理论上和实践上为汉字键盘输入字形编码作出了奠基性的贡献,并给予《郑码》汉字输入系统在国内外编码方案中具有领先水平的最高评价。
4.1991年5月,国家语委专家就《郑码》编码系统的文字规律进行审查,认为《郑码》汉字输入系统在基本字根选用,字根笔画分类、笔形分区、取码笔顺等主要方面率先做到已符合国家语言文字规范,具备了广泛应用和推广条件。
5.1991年10月,应用《郑码》汉字输入系统完成世界最大汉字库——6万汉字编码,同时完成ISO-10646C.J.K20902国际标准汉字编码。
6.1992年4月,国家技术监督局召开新闻发布会,向国内外宣布中国国家标准科技攻关任务——中国电脑大汉字库建成,6万汉字已全部进入计算机,并同时完成国际标准ISO-10646统一中、日韩的20902个汉字字符集。这是世界上最大的汉字数据库,选用我国著名文字学家郑易里教授研究多年的重大发明——《郑码》作为检索系统,并实现了计算机检索,它的投入使用对国内外中文信息处理事业的发展产生了重大影响。
7.1992年9月,北京111中学学生用《郑码》参加“’92海峡两岸电脑汉字输入表演赛”荣获两项冠军、两项亚军,并创单项离散文本历届比赛最高成绩。
8.1992年10月,《郑码》荣获北京国际发明金奖和最优秀国际发明大奖。在十几个参展国家的1300项发明中,荣获金奖的有70项,而获得最优秀国际发明大奖的仅3项。
9.1993年2月,中国科学技术协会为总结90年鉴定会后《郑码》不断取得的显著进展,聘请了国内最权威的信息界专家对《郑码》进行评审。评委们也给予国际领先的最高评价。认为《郑码》符合国家语言文字规范,和汉字语文识字教学背景一致,易学、快速,适合各种字符集,不但应在全国范围内加强推广应用,而且第一次提出宜于在国际上推广应用。
10.1993年8月,用《郑码》的中学生获全国中学生计算机输入比赛《浪潮杯》冠军。
11.1993年9月,《郑码》发明人郑珑高级工程师以大陆杰出科技人士身份应邀访问台湾做学术报告,受到台湾中文信息界专家学者热烈欢迎和赞扬。
12.1993年12月,《郑码》选手在新加坡汉字输入大赛上荣获王鼎昌总统亲自颁发的、唯一的最佳选手金奖。
13.1994年4月,在国际上规模最大、档次最高的日内瓦国际发明展上,《郑码》编码系统继北大方正激光照排系统之后,成为我国第二个获得电子信息方面的金奖项目。评委们评价为:《郑码》汉字输入系统的发明对中国和亚洲地区文化信息事业的发展做出了重大贡献!
14.1994年5月中国长城计算机集团、中科院联想集团、北大方正新天地公司联合签约,应用推广《郑码》。
15.1994年8月,世界最大的软件公司——美国微软公司经四次派不同专家到中易公司考察后,初步确定选用《郑码》装入新开发的Windows3.2和Windows95中。
16.1995年2月,韩国最大的电子集团——三星集团在大陆和台湾广泛选码后,最终优选《郑码》作为公司中文信息产品使用的输入法。经对韩国姑娘培训、试用后获得很大成功并给予《郑码》高度评价,并出版韩文版《郑码》教材。从此《郑码》在韩国名声大振,学用人员与日俱增。
17.1995年3月“中央和国家机关司局长领导干部计算机普及培训班”经中组部培训局审核决定选用《郑码》作为对中央司局长输入法教学。
18.1995年8月,国家主管部门根据国家技术监督局和电子部的委托,为对国内外用户推荐规范化的输入法,对全国汉字输入法进行规范化评选。《郑码》名列推荐前茅。
19.1995年10月,美国微软公司正式优选《郑码》装入Windows95中文版中,支持20902国际标准汉字。
20.日本EPSON公司、新加坡、香港等公司都已选用《郑码》,并出版繁体字版和日文版《郑码》教材。
21.1996年10月,以《郑码》为核心的《计算机全汉字信息处理系统集成》项目荣获国家科委、国防科工委、中国科学院、中国科协、中国自然科学基金会五单位联合颁发的《全国科技信息优秀成果一等奖》。此为我国科技信息界最高荣誉。
22.到1997年,《郑码》已成为中国大陆装机率(80%)最高的汉字输入系统。
计算机全汉字处理系统集成”在香港荣获首届世界华人发明博览会大奖
23.1997年末,IBM公司正式签署《郑码》汉字输入系统专利使用权合同,在中文软件中全面使用《郑码》。 24.1998年末,以《郑码》为核心的《计算机全汉字信息处理系统集成》项目荣获“世界华人发明”大奖。香港特区首长董建华亲自颁奖。
25.1998年末,以《郑码》为核心的《计算机全汉字信息处理系统集成》项目荣获北京市科技进步一等奖。
26.1998年12月,《郑码汉字输入系统经国家语委、国家质量技术监督局、中文信息学会、电子工业部等权威专家审核,其文字编码规律已完全符合新颁布的国家语言文字规范。这是唯一通过此审定的编码系统。
27.1999年,以《郑码》为核心的《计算机全汉字信息处理系统集成》荣获我国最高奖项《国家科技进步奖》。
28.2000年3月,以《郑码》为核心的《计算机全汉字信息处理系统集成》被中国软件行业协会评为1999年度中国优秀软件,并向国内外推荐。
29.2001年,Windows所有中文版从1995年全部预装《郑码》。2000年以后,在所有英文版的多文种处理中也预装《郑码》,在WindowsXP中又预装支持GB18030-2000全部《郑码》。
30.2002年,美国IBM公司全面预装《郑码》汉字输入系统。
31.2004年,以《郑码》系统为核心的中易大型古籍全文数字化工程系统,承担国家图书馆古籍《地方志》全文化工程中发挥关键作用。
基本原理
郑码输入法
汉字是方块图形文字,每字由一至数个单元构成。例如“师傅”的“傅”字由单元“亻、専(音fù)”构成,其中的“専”又由单元“甫、寸”构成,可见“亻、甫、寸”是构成“傅”字的基础单元,构字单元的排列顺序,用图形可表示为(见图1.1)。如果把“亻”换成“氵”,在上面加“⺮”头便构成“簿”字;换成“艹”头又成为“薄”字。以“薄”为例,构成“薄”字的基础单元是“艹、氵、甫、寸”,用图形表示为(见图1.2)。而基础单元由笔画构成,例如“寸”由笔画“一亅丶”构成。 用于汉字编码,将构字的基础单元叫做“字根”或叫做“部件”,构字的最小单元是笔画。也就是说,“薄”字由“艹、氵、甫、寸”4个字根构成;“札”字由字根“木”和笔画“(折)”构成。对这些字根我们并不陌生,因为许多字根就是我们熟悉的部首。
郑码》给一部分字根安排了代码,这部分字根叫做“基本字根”。将基本字根和笔画的代码按一定规则代入即得到汉字的编码。例如:有基本字根“氵V、甫F、寸D、艹E、⺮M、亻N、木F、又X”和笔画“乚(折)Z”,得到汉字的编码:“薄EVFD、簿MVFD、札FZ、权FX、树FXD、符MND”。这就是《郑码》编码的基本原理。
用键盘输入编码,通过机内码转换可在显示屏看见输入的汉字,同时可用打印机或激光发排机将汉字输入,印在纸张或胶片上,这样便完成了汉字输入和输出的全过程。
编码规则
第一条:要按照《郑码》的基本字根总表上所列出的基根(包括形近根),把汉字分解成基本字根才能编码。如果没有合适的基根,就要进一步分解成笔画。例如:补--衤卜恳--艮心滤--氵虍心书--乛丨丶
第二条:汉字分解后,基根和笔画排列的顺序叫做“根序”。根序的确定有三种情况:l.左右字、上下字以及由单笔画组成的字,根序与规范的书写顺序一致(见上例中的“补、恳、滤、书”四个字的分解)
2.具有相接、交叉和相嵌结构的字,第一笔先写的基根或笔画排列在前。例如:([ ]方括号内是例字)相接结构的字:夭--丿大[沃笑];
疋--乛止[蛋疏];
交叉结构的字:束--木口[整辣];
夷--大弓[姨];
屯--七凵[纯钝吨];
相嵌结构的字:亘--二曰[桓恒];
佥--人二(横三点)[检验]
渊--氵(撇-竖)米;
肃--肀(撇-竖)八[萧箫]
复合结构的字:决--冫乛大[缺炔](又有相接又有相交);
3.对于包围字和包孕字,要将第一笔先写的基根排在第一位。
因为是以基根为单位排列根序。例如:
困—囗木 闻—门耳 函—乛氺凵 式—弋工
载—车 库—广车 匦—匚车九 赵—走乂
但是,为了检索的快捷和归纳的划一,对于有“辶、廴”的字,确定根序时,要将“辶、廴”排列在第一位。
例如:“达—辶大”、“延—廴丿止”。
总之,给单字或词语编码,就是按照编码规则依次取基根的代码组成字词的编码。根序搞错编码也随之而错。因此,正确认识单字的根序十分重要。
第三条:单字和词语的编码不能超过4个字母,因此要根据单字或词语中基根数的多少决定基根代码的取舍,这种取舍代码的方法叫取码方法(详见以下说明)。
国家鉴定
Windows里的应用
1993年2月12日,中国科学技术协会在北京主持召开了《字根通用码汉字键盘输入系统》(又称《郑码》)专家评审会。出席会议的有:国家科委、国家教委、国家语委、国家技术监督局中国中文信息学会等单位的代表。评审委员会由语言文字中文信息处理、计算机技术和标准化等方面的专家组成。
这次提交大会评审的《郑码》,是经过多年理论探讨、精心设计、不断优化后的汉字键盘输入系统,评审委员会对《郑码》自1990年鉴定会以来在理论、技术及应用方面所取得的提高和进展进行了技术评审,听取了技术报告、评测报告、重大比赛成绩报告和用户报告观看了操作演示,审查了有关技术资料和各种奖励文件,进行了认真的讨论。
评审委员会认为《郑码》具有以下特点:
1、该系统理论体系严谨完整。在深入研究汉字字形结构规则的基础上,着重研究了独体字、部首和字根三者之间的区别与联系,确定字根为字形编码的核心,部首为基本字根的的主体,从而发挥了部首信息的主导作用。循此体系建立的“笔画--字根--单字--词语”的检索序列,在理论上和实践上为汉字键盘输入字形编码作出了奠基性的贡献。
2、该系统在基本字根选用、字根笔画分类、笔形分区、取码笔顺及根顺等主要方面符合国家语言文字规范,与汉语语文识字教学背景一致。
3、该系统字根代码序列规律性强,编码规则简明,易于学习和记忆。基本字根有独立的代码,字词重码率低,适合配置大容量词库。平均击键次数少,宜于高速输入汉字。
4、该系统对各种汉字字符集的适应性强,简体字与繁体字的编码规则一致。处理GB2312与ISO10646GJK字符集以及扩大到6万汉字大字符集的郑码编码规则一致。并率先完成国际标准ISO10646GJK字符集20902个汉字和大型汉字字形数据库6万汉字的编码及计算机输入系统,宜于在国际范围内推广应用。
5、该系统编码具有以字的首根作为汉字分集的标志,能做到计算机输入和人工检索统一编码,统一排序,有利于语文教学、字典检索与计算机输入汉字相互结合。
6、包含《郑码》全部功能的ZMBIOS实现了与MS-DOS兼容、中西文兼容,支持VGA等图形卡,输入字词和标点符号不需切换。软件具有多种提示、字词联想、拼音查询、人工造词等功能,用户界面友好。外接式《郑码》输入系统,可挂接在流行的各类汉字操作系统下,用可以方便地充分利用原有软硬件资源。(注:1993年计算机用的是DOS系统)
评审委员会一致认为《字根通用码汉字键盘输入系统》(又称:郑码),在汉字编码字符集范围、词库容量、字词平均码长、动态字词重码率及符合语言文字规范等方面,在形码汉字键盘输入系统中居国内外领先水平。
评审委员会建议有关单位重视这一成果,在中、小学中试点,在全国范围内加强推广应用。
(注:1993年的《郑码》评审委员会由中文信息界的15位著名专家组成,主任委员由当时中国中文信息学会理事长、中国中国科学院工程院院士陈力为教授担任;副主任委员由当时国家语言文字工作委员会副主任傅永和教授担任。在本手册中,评审委员会专家签名篇从略。)
参考资料
郑码输入法下载.太平洋电脑网下载中心.
最新修订时间:2024-08-22 14:32
目录
概述
程序简介
参考资料