以往25个码元的汉字形码,其单字取码方法都是:先把单字拆分成部件,后按“前三末一”取码,即按照字的书写笔画顺序取前三个部件码,第四个部件码取在字的最后位置。
因前三码要依次取掉顺序书写的各个笔画,使部件(字根)集要包括汉字被拆开后的各个部分,这就使得部件(字根)多,形状多,难记。
和码把汉字分为简单字与复杂字,只有1-3个字根的字划为简单字,有4个或更多字根的字为复杂字。
简单字最多只有三个字根,只要依书写顺序取三个字根码。
复杂字的取码方法是,先把复杂字按字义与字结构分为三块, 后“以字块为单位,依书写顺序,核心字根优先”的原则,提取三个主码。最后在剩余部分取一个最大值码作为辅码,主码加辅码组成单字的全码。
和码的分块取码方法,是在字的几个(书写顺序的)不连续点,提取字根(或核心形义字根)。 这种方法使得字根集不需要包括组成汉字的所有部件,因此和码字根表中笔画与字根少。和码的编码能包含了汉字主要的字义与字形信息。
复杂字分三块取三个主要码
字例 | 分三块 | 图片 | 三个主要码 |
---|---|---|---|
蕉 | 艹住灬 | ![]() |
33 42 54 |
敬 | 艹句攵 | ![]() |
33 44 45 |
障 | 阝立早 | ![]() |
32 55 25 |
栽 | 土木戈 | ![]() |
32 34 34 |
随 | 阝有辶 | ![]() |
32 32 53 |
复杂字中的衍生字根取核心字根码
字例 | 分三块 | 衍生字根 | 图片 | 三个主要码 |
---|---|---|---|---|
碧 | 王白石 | 白 | ![]() |
15 25 35 |
稼 | 禾宀豕 | 禾宀豕 | ![]() |
34 23 45 |
造 | 壬口辶 | 壬 | ![]() |
32 24 53 |
阀 | 门亻戈 | 门 | ![]() |
23 42 34 |
望 | 亡月王 | 亡 | ![]() |
13 23 15 |
25个码元的字根形码方案,其单字取码方法,迄今为止只有两种,即“前三末一”与复杂字“分块取码”,和码采用了后者。
大家都知道汉字的笔画数有多有少,相差很大,英文字的字母个数也有多有少,汉字编码的个数,是否也应该随单字的笔画数的多少而变化呢?
以下从三点逐步来分析这个问题:
如果采用单笔画,并且书写顺序编码,那么编码的长度就与字笔画数一致,但是这种编码方案,用于汉字输入与汉字排序检索,其效率很低,几乎没有使用价值。 排除法可知,好的汉字字形编码只能采用字根码。
采用字根对汉字编码,是否应该按照字的书写顺序,有多少个字根码,就取多少个字根码呢?编码的实践说明:
1、用字根对汉字编码,GB2312的6763个字的大部分字(约80%),在4个码以内就取完了所有笔画。
2、4个码后,增加单字码长,对提高编码对汉字分辨率作用不大,特别是对提高常用3800(或5200)个汉字的分辨率没有作用。
3、固定单字编码长度,给汉字输入带来方便,也方便软件处理。
因此字根编码方案的着重点,是利用四个字根码,充分地提取汉字的字形字义信息,提高编码对汉字的分辨率。
和码把单字的四个码中的前三个码作为三个主码(主要码),第四码为与辅码(辅助码)。理由是:
1、绝大多数汉字,特别是常用汉字在输入的过程中,只用到前三码。
GB2312的6763个汉字中,和码:
有25个常用字只用到第一码;
有25 + 618 = 643个单字,只用到前二码;
有25 + 618 + 4301 = 4944个汉字只用到前三个码。
也就是说,在输入这些单字时,前三码用到了,第四码没有用到,是富余的。
词组的编码一般只用到单字的第一第二码,由此可知汉字输入过程中,第四码的重要性远不及前三码。
2、从码个数、码位个数与常用汉字的个数来分析:
1个码有25个码位;
2个码有25×25 + 25 = 650个码位;
3个码有25×25×25 + 25×25 + 25 = 16275个码位。
3个码的码位个数比国标GB2312中汉字个数6763多很多,比常用3800(或5200)个字多得更多。
由此可知,对于码元数为25的汉字编码方案,每个单字两个码是不够的,三个码在码位的数目上是有很多富余的。因此编码方案应尽可能地用3个码编出国标GB2312的6763个汉字,也应使前三码最大限度地包含汉字的字义、字形、与书写顺序信息。
3、第四码是起辅助作为的,用于分辨3个主码后仍存在的重码字(多为非常用字),包含单字主码取完后,剩余部分的字根信息。
在第三节中,分析了25个码元的编码方案的输入速度,以及在理想的编码情况下极限速度。同时也说明了和码的输入速度,已接近汉字输入的极限速度。
编码输入法速度快慢的比较,其实很简单,就是看输入标准汉字集(单字输入,不使用词组)的击键次数,如击键数少,那么所用的输入法速度就快(高效)。
比较输入法击键次数的多少,只要比较输入法一二三级简码的个数。简码数多,那么输入汉字集的击键次数就少,输入速度就快。 因此,简码个数是决定输入法快慢的指标。
下表是对于国家标准GB2312-80汉字集的6763个汉字,和码与五笔字型、以及拼音输入法,编码分辨率的比较:
名 称 | 一个码 | 二个码 | 三个码 |
---|---|---|---|
码位总数 | 25 | 650 | 162750 |
和码 | 25 | 618 | 4598 |
五笔字型 | 25 | 616 | 4372 |
拼音 | 23 | 105 | 302 |
在大键盘上:
输入一个键,和码与五笔字型都能将25个字放在输入位置;
输入两个键,和码能将618个字选到待输入位置,五笔是616个字,和码比五笔多输入(618-616)2个字。
输入三个键,和码能将4598个字选到待输入位置,五笔是4372个字,和码比五笔多输入(4598-4372)226个字。
因此和码比五笔字型的输入速度要更快一些。
《和码》与《五笔字型》在输入速度上个差别不大,但《和码》字根表的易学易记性,以及电脑大键盘,数字小键盘与手机上的统一通用性,却是《五笔字型》所不具有的。
拼音只有413个音,一码字只有23个(和码25个),二码字105个(和码618个),三码字302个(和码4598个,是拼音的15倍),即使输入最长的6个字母(shuang),也只能分辨出413个结果,其它的字都是重码,需要进一步做选择。因此拼音对汉字的分辨能力(或分检速度)与形码相比,差得很远。
通过八个方面的分析:
1、汉字集与字形要素的限定性;
2、编码符号的限定性与通用性;
3、码元数与输入速度的极限;
4、笔画与字根的分区与易记性;
5、衍生字根的概念;
6、单字取码方法的限定性;
7、一个单字取多少个码;
8、输入法速度的比较。
可以看出和码方案在每个要素上都采用了最好的办法,并且是最终的办法,因此和码是最好最终的汉字形码。
各位读者,在这里我重复一遍,看完了以上的证明,如果你对“《和码》是最好最终的汉字形码”这个结论,还存有疑问,欢迎你提出进行讨论。 如果你对这个结论,或上面任何一点,能提出有理据的否定意见,我就立即将这篇文章从网上删除,并立即停止对《和码》的宣传。
和码字形技术是汉字字形内在规律的科学揭示,不是真正意义上的发明创造。和码字形技术好,是汉字字形的内在规律好,功劳与荣誉都属于创造汉字的祖先。
注1:《和码》取名于电脑“和”手机统一通用,简体字”和”繁体字统一编码,电脑字母大键盘“和”数字小键盘统一通用。
注2:2003年9月23日,开始对和码汉字字形技术的兴趣研究。