郑码_中文字形编码系统 - 威林百科weilinceramic.com

郑码

中文字形编码系统

郑码又称字根通用码，是我国著名文字学家、享誉海内外的《英华大词典》主编郑易里教授经半个世纪对汉字字形结构的研究，后期和女儿郑珑高级工程师共同创造的重大科技成果。已获中、美、英国专利授权，并通过国家级的鉴定。郑码具有规范、易学、快速、通用的优点。

简介

《郑码》规范、易学、快速、通用，用同一编码规则不但可以输入2万汉字，还可以输入68000个和10万个汉字。《郑码》曾荣获北京国际发明金奖和最优秀发明大奖；荣获第22届日内瓦发明金奖。国家主管部门通过评比向国内外用户广泛推荐《郑码》。中国的中文之星等系统平台选用《郑码》，美国Microsoft公司的Windows95/98/NT/2000/XP/Vista/7中文系统选用《郑码》，美国IBM公司的OS/2和JAVAOS等许多中文产品也都选用《郑码》。Windows 8之后因为版权问题，微软终止了在系统中内置郑码输入法。

单字输入

《郑码》以单字输入为基础，词语输入为主导，用2-4个英文字母便能输2字词、多字词和30个字以内的短语；在这种字词交融输入之下，输入一个汉字的平均码长是1.8-1.9键之间。他备有两个词库，分别收录25000和50000条词语。

输入法

《郑码》是一种形码输入法，使用郑码可以方便快速的打出国标扩充字库(GBK字库)里的2万多个汉字和GB18030的7万多汉字，极大满足了人们在日常生活、工作中使用汉字的需求。

在常规情况下，《郑码》输入法可以方便、快速的打出GBK字库里的20902个汉字。比普通《五笔字型》能打出的6763个汉字要多打出14139个汉字，在超集字库下，郑码可以打出GB18030里面的7万多个汉字（支持到CJK-D字集），正因为这个原因Windows系统自win95到win7系统没有选用其它输入法，而是预装了《郑码》输入法。

编码原理

《郑码》编码的基本原理《标准型》

郑码的帮助文件中这样说：“为了不同用户的需求，《郑码输入法》分为《普及型》和《标准型》两种。《标准型》重码率低，适合高速盲打输入。它不但适用于当前通用字符集的 6763 个汉字的输入，而且用同样的编码规则，Windows 2000 中，还能方便地输入大字符集的 20902 个汉字。《普及型》的编码规则简单易学，但不能用来输入大字符集汉字。《普及型》可以作为《标准型》的学习阶梯，因为二者字根的代码有共性，因此用熟练后能自然过渡到《标准型》。”

主要方式

一 .高频字取码方式

这W月Q我M发Z现C了Y对X一A度T所P说S要F成H为U个O没V多R中J用L地B在G世E上I的D是K他N

二. 一基根字的取码方式.就是那些只有一个基根的字.它们如果是第一主根，就打出该主根代码，然后在其后加上A即是.举例：言是S上的第一主根，其的代码即是SA.马**X***XA,依此类推.

它们如果是第二主根或者是副根，直接打出.

尤*****GR,其****EC,业******KU,广*****TG,氏****RH,欠******RO

女*****ZM,子*****YA,已*****YYA,申*****KIC,比******RR

七*****HD,龙*****GM,大******GD.十*****ED,寸*****DS

但是，由于许多基根不是常用的，当它们的代码与某些词组重码时，系统将默认词组.你要打出基根时候，有时不得不加上一个或者多个A,这是郑码的帮助文件中未提及的.好在这种情况发生时，你要的基根并不是很需要按+,系统也是要提醒你输入A的.

例子：码=石G+马X********GXVV

杜=木F+土B=FBVV. 上=卜ID+一A=IDA,下=一A+卜ID=AID

推=扌D+隹NI=DNI 拓=扌A+石G=GAVV,雹=雨FV+包RY=FVRY

取=耳CE+又XS=CEXS 么=丿M+厶ZS=MZS 要=西FJ+女ZM=FJZM

四. 三基根字的取码方式.三基根字的取码方式又分为两种情况.

1如果首基根是一个代码，就取次基根的首码[不管它有几个码]和末基根的全码.

腾=月Q+UB+马X=QUX,渊=氵V+リND+米UF=VNUF

2如果首基根是二个代码.那么次基根和末基根只取首码[不管它们有几个码].

靠=⺧MB+口J+非KC=MBJK,羟=⺶UC+スXS+工BI=UCXB

五.四基根字的取码方式.

1如果首码是一个码，就取首码和次基根的首码，加上次末基根和末基根的各一个首码.藏=艹E+戈HM+爿ZI+臣H=EHZH,懿=士B+冖WW[一口丬冫]欠RO+心WZ=BWRW

2如果首码是二码，由于首基根的代码不能省，就只能省略次基根的代码.相对于上一种情况，首基根的另外一个位置由次基根让出.也就是说：首基根的代码加上次末基根和末基根的各一个区码。例子：

戆=立SU+[日十夊工]+贝LO+心WZ=SULW

总之首基根是不能省的，是一取一，是二取二.

六简码的取码方式.

一级简码：就是刚才说的26个高频字。

二级简码用该字首根和次根各 1 码组成。举例：把 -- DY 找 -- DH 管 -- MW .需 -- FG 取 -- CX

个别常用词也有二级简码，就是取每字第一个基根的区码。举例：

中国--JJ 国家--JW 一定--AW 我们--MN 政府--AT 开展--AX

北京--TS 上海--IV 天津--AV 合作--ON 各种--RM 采取--PC.

二基根字：取第一个基根的区码和第二个基根的区位码，如：处 -- RID。

三基根和多基根字：依次取第一、第二和第三个基根的区码，如：散 -- EQM。

七词组输入取四码

1．二字词组 2+2

例子：我们MVNT 中华JVNR (我字是一个高频，故其后加V)

言语 SASB(言在第一个故其后加A)

大家GDWG 词组SYZL 腾飞QUYT

神话WKSM 童话SKSM 神仙WKNL

2．三字词组 1+2+1

例：大家庭GWGT 神经原WZXG

3．四字词组/俗语/成语 1+1+1+1

例：祖国统一WJZA 中华民族JNYS 无奇不有AGGG

一丝不苟AZGE 无拘无束ADAF 风土人情QBOU

字库里成语不多哩：

4．五字以上 1+1+1+1

取前面四字首码

例：中华人民共和国JNOY

中央电视台JLKW

基根位码

每一根区里都有几个基根，它们的区码都相同，在它们单独成字或与其它基根组合成字时，会产生许多重码字。为解决这一问题，《郑码》规定：第一主根的代码用区码的1个字母表示，第二主根和副根的代码都要用“区码+位码”2个字母表示，即在区码后面扩充一个位码，这种安排使得每个基根都有了独立的代码，从而解决了重码问题。就象每个人有姓有名才不会有太多的重名一样。

编码规则

第一条：要按照《郑码》的基本字根总表上所列出的基根（包括形近根），把汉字分解成基本字根才能编码。如果没有合适的基根，就要进一步分解成笔画。例如：

补--衤卜恳--艮心滤--氵虍心书--乛丨丶

第二条：汉字分解后，基根和笔画排列的顺序叫做“根序”。根序的确定有三种情况：

l.左右字、上下字以及由单笔画组成的字，根序与规范的书写顺序一致（见上例中的“补、恳、滤、书”四个字的分解）

2．具有相接、交叉和相嵌结构的字，第一笔先写的基根或笔画排列在前。例如：（[]方括号内是例字）相接结构的字：夭--丿大[沃笑]；

疋--乛止[蛋疏]；

交叉结构的字：束--木口[整辣]；

夷--大弓[姨]；

屯--七凵[纯钝吨]；

相嵌结构的字：亘--二曰[桓恒]；

佥--人二（横三点）[检验]

渊--氵（撇-竖）米；

肃--肀（撇-竖）八[萧箫]

复合结构的字：决--冫乛大[缺炔]（又有相接又有相交）；

3．对于包围字和包孕字，要将第一笔先写的基根排在第一位。

因为是以基根为单位排列根序。例如：

困—囗木闻—门耳函—乛氺凵式—弋工

载—车库—广车匦—匚车九赵—走乂

但是，为了检索的快捷和归纳的划一，对于有“辶、廴”的字，确定根序时，要将“辶、廴”排列在第一位。

例如：“达—辶大”、“延—廴丿止”。

总之，给单字或词语编码，就是按照编码规则依次取基根的代码组成字词的编码。根序搞错编码也随之而错。因此，正确认识单字的根序十分重要。

第三条：单字和词语的编码不能超过4个字母，因此要根据单字或词语中基根数的多少决定基根代码的取舍，这种取舍代码的方法叫取码方法（详见以下说明）。

取码方法

术语：“1码根”是指第一主根，因它的代码只用区码1个字母。“2码根”是指第二主根和副根，因为它们的代码要用区位码的2个字母。“取1码”的意思是只取该基根的区码。

一、单字编码的取码原则

1．单字首根（即第一个基根）的代码要按照实际码数取，不能有所省略。就是说，首根是1码根就取1码；首根是2码根就取2码（区码和位码都要取）。

2．为保证单字编码不超过4个字母，首根之后的其余基根代码要根据不同情况决定取舍。一般是先舍位码，只取区码的1码。

例如：樱--木F贝LO贝LO女ZM--FLLZ

醒--酉FD曰K生MC--FDKM

但是，对于四基根和多基根字，还要将中间一些基根的代码全部舍弃，只取前两码和最末2个基根各1码。就是说，取两头舍中间。

例如：缩--纟Z宀WD(亻)一A白NK--ZWAN

糖--米UF(广)肀XB口J--UFXJ

参考资料

郑码傍微软遇上负心汉.万方数据.

中华文化的瑰宝——《郑码》汉字输入系统.郑码网.

最新修订时间：2024-07-23 18:29

条目作者

小编

资深百科编辑

概述

简介

单字输入

参考资料