六、单字取码方法的限定性

6.1 连续取码:前三末一

以往25个码元的汉字形码,其单字取码方法都是:先把单字拆分成部件,后按“前三末一”取码,即按照字的书写笔画顺序取前三个部件码,第四个部件码取在字的最后位置。

因前三码要依次取掉顺序书写的各个笔画,使部件(字根)集要包括汉字被拆开后的各个部分,这就使得部件(字根)多,形状多,难记。

6.2 非连续取码:分块取码

和码把汉字分为简单字与复杂字,只有1-3个字根的字划为简单字,有4个或更多字根的字为复杂字。

简单字最多只有三个字根,只要依书写顺序取三个字根码。

复杂字的取码方法是,先把复杂字按字义与字结构分为三块, “以字块为单位,依书写顺序,核心字根优先”的原则,提取三个主码。最后在剩余部分取一个最大值码作为辅码,主码加辅码组成单字的全码。

和码的分块取码方法,是在字的几个(书写顺序的)不连续点,提取字根(或核心形义字根)。 这种方法使得字根集不需要包括组成汉字的所有部件,因此和码字根表中笔画与字根少。和码的编码能包含了汉字主要的字义与字形信息。

复杂字分三块取三个主要码

字例 分三块 图片 三个主要码
艹住灬 HanZi 33 42 54
艹句攵 HanZi 33 44 45
阝立早 HanZi 32 55 25
土木戈 HanZi 32 34 34
阝有辶 HanZi 32 32 53

复杂字中的衍生字根取核心字根码

字例 分三块 衍生字根 图片 三个主要码
王白石 HanZi 15 25 35
禾宀豕 禾宀豕 HanZi 34 23 45
壬口辶 HanZi 32 24 53
门亻戈 HanZi 23 42 34
亡月王 HanZi 13 23 15

25个码元的字根形码方案,其单字取码方法,迄今为止只有两种,即“前三末一”与复杂字“分块取码”,和码采用了后者。


七、一个单字取多少个码

大家都知道汉字的笔画数有多有少,相差很大,英文字的字母个数也有多有少,汉字编码的个数,是否也应该随单字的笔画数的多少而变化呢?

以下从三点逐步来分析这个问题:

7.1 笔画码还是用字根码

如果采用单笔画,并且书写顺序编码,那么编码的长度就与字笔画数一致,但是这种编码方案,用于汉字输入与汉字排序检索,其效率很低,几乎没有使用价值。 排除法可知,好的汉字字形编码只能采用字根码。

7.2 字根编码,多少个码最好?

采用字根对汉字编码,是否应该按照字的书写顺序,有多少个字根码,就取多少个字根码呢?编码的实践说明:

1、用字根对汉字编码,GB2312的6763个字的大部分字(约80%),在4个码以内就取完了所有笔画。

2、4个码后,增加单字码长,对提高编码对汉字分辨率作用不大,特别是对提高常用3800(或5200)个汉字的分辨率没有作用。

3、固定单字编码长度,给汉字输入带来方便,也方便软件处理。

因此字根编码方案的着重点,是利用四个字根码,充分地提取汉字的字形字义信息,提高编码对汉字的分辨率。

7.3 三个主要码加一个辅码方案的理由

和码把单字的四个码中的前三个码作为三个主码(主要码),第四码为与辅码(辅助码)。理由是:

1、绝大多数汉字,特别是常用汉字在输入的过程中,只用到前三码。

GB2312的6763个汉字中,和码:

有25个常用字只用到第一码;
有25 + 618 = 643个单字,只用到前二码;
有25 + 618 + 4301 = 4944个汉字只用到前三个码。

也就是说,在输入这些单字时,前三码用到了,第四码没有用到,是富余的。

词组的编码一般只用到单字的第一第二码,由此可知汉字输入过程中,第四码的重要性远不及前三码。

2、从码个数、码位个数与常用汉字的个数来分析:

1个码有25个码位;
2个码有25×25 + 25 = 650个码位;
3个码有25×25×25 + 25×25 + 25 = 16275个码位。

3个码的码位个数比国标GB2312中汉字个数6763多很多,比常用3800(或5200)个字多得更多。

由此可知,对于码元数为25的汉字编码方案,每个单字两个码是不够的,三个码在码位的数目上是有很多富余的。因此编码方案应尽可能地用3个码编出国标GB2312的6763个汉字,也应使前三码最大限度地包含汉字的字义、字形、与书写顺序信息。

3、第四码是起辅助作为的,用于分辨3个主码后仍存在的重码字(多为非常用字),包含单字主码取完后,剩余部分的字根信息。


八、输入法速度的比较

在第三节中,分析了25个码元的编码方案的输入速度,以及在理想的编码情况下极限速度。同时也说明了和码的输入速度,已接近汉字输入的极限速度。

编码输入法速度快慢的比较,其实很简单,就是看输入标准汉字集(单字输入,不使用词组)的击键次数,如击键数少,那么所用的输入法速度就快(高效)。

比较输入法击键次数的多少,只要比较输入法一二三级简码的个数。简码数多,那么输入汉字集的击键次数就少,输入速度就快。 因此,简码个数是决定输入法快慢的指标。

下表是对于国家标准GB2312-80汉字集的6763个汉字,和码与五笔字型、以及拼音输入法,编码分辨率的比较:

名 称 一个码 二个码 三个码
码位总数25650162750
和码256184598
五笔字型256164372
拼音23105302

在大键盘上:

输入一个键,和码与五笔字型都能将25个字放在输入位置;

输入两个键,和码能将618个字选到待输入位置,五笔是616个字,和码比五笔多输入(618-616)2个字。

输入三个键,和码能将4598个字选到待输入位置,五笔是4372个字,和码比五笔多输入(4598-4372)226个字。

因此和码比五笔字型的输入速度要更快一些。

《和码》与《五笔字型》在输入速度上个差别不大,但《和码》字根表的易学易记性,以及电脑大键盘,数字小键盘与手机上的统一通用性,却是《五笔字型》所不具有的。

拼音只有413个音,一码字只有23个(和码25个),二码字105个(和码618个),三码字302个(和码4598个,是拼音的15倍),即使输入最长的6个字母(shuang),也只能分辨出413个结果,其它的字都是重码,需要进一步做选择。因此拼音对汉字的分辨能力(或分检速度)与形码相比,差得很远。


结 束 语

通过八个方面的分析:

1、汉字集与字形要素的限定性;
2、编码符号的限定性与通用性;
3、码元数与输入速度的极限;
4、笔画与字根的分区与易记性;
5、衍生字根的概念;
6、单字取码方法的限定性;
7、一个单字取多少个码;
8、输入法速度的比较。

可以看出和码方案在每个要素上都采用了最好的办法,并且是最终的办法,因此和码是最好最终的汉字形码。

各位读者,在这里我重复一遍,看完了以上的证明,如果你对“《和码》是最好最终的汉字形码”这个结论,还存有疑问,欢迎你提出进行讨论。 如果你对这个结论,或上面任何一点,能提出有理据的否定意见,我就立即将这篇文章从网上删除,并立即停止对《和码》的宣传。

和码字形技术是汉字字形内在规律的科学揭示,不是真正意义上的发明创造。和码字形技术好,是汉字字形的内在规律好,功劳与荣誉都属于创造汉字的祖先。

注1:《和码》取名于电脑“和”手机统一通用,简体字”和”繁体字统一编码,电脑字母大键盘“和”数字小键盘统一通用。

注2:2003年9月23日,开始对和码汉字字形技术的兴趣研究。