五笔输入体验漫谈
五笔输入体验漫谈
说起五笔输入法,似乎这是一种很有“古老气息”的东西。不同于目前最主流最广泛大众的拼音输入法――音码的一种,五笔是一种形码,目前的使用群体也主要集中在年龄较大的一部分人以及少数爱好者中。笔者在大学里偶然接触到五笔,对它产生了浓厚的兴趣,一个月后,五笔输入法成为了我的汉字输入第一选择,距今已有数年。我衷心地喜爱它,本着交流分享的态度,也想写点什么来让更多人了解与传承它。
世界计算机的历史并不如很多人想像的那么久远,个人计算机进入中国的时间并不长。早期的计算机很庞大,目的更多是针对军事、科研,而随着材料与技术的发展,计算机的微型化让家用台式电脑甚至个人便携式电脑的出现成为可能,计算机由此成为大众工作、生活、娱乐、与地球村相连的必备工具。得益于工业革命及一系列历史因素,电脑的理论与机器诞生都来源于西方,基础软件架构是由拉丁字母组成的。传入中国后,本土化需要解决两个问题:输入与输出。输出很好理解,将图形化界面里面向用户的字符部分由英文译为汉字即可。但输入是个难题。
拉丁字母只有26个,或者说表音文字的字母个数都比较少,这是被人类能舒适地发出的音素种类所限制的。但表形文字(例如早期汉字)的个数往往很夸张,仅仅是最精简的常用汉字(汉字严格来说属于意音语素文字)就有3500个,而收录汉字最多的字典收录超过100000个汉字。即使我们本着“将就能用”的原则,只摆1000个按钮在“中文键盘”上,那也是看起来很滑稽很荒唐,使用效率极低的场面。
怎样在计算机上输入汉字,由此分出两种思路:一、将汉字“音素化”,也像英语一样通过表音的路径来实现。拉丁字母是想输入什么就按什么,汉字则以音素化的形式作为中介,形成一种多路检索树。最典型的代表便是拼音输入法,我们学生常用的现代汉语字典也使用的这种逻辑,按读音来分类查找,同一个音节下有很多字。关于汉语拼音的诞生,其工作始于建国初期。有兴趣的朋友可以了解了解。而且将汉字彻底音素化的声音由来已久,早至清政府刚被西方的坚船利炮打醒,晚至新中国成立,始终有一部分人认为汉字是落后的语言,不弃用不行,这里面不乏一些有名的学者文人。如今回看,这种论调实在是困局尚未解开时的局限之思。二、将汉字“拆开”。笔者认为这个思路在逻辑与形式上兼具优雅和美感:拉丁字母单个字母并没有显著意义,只有通过排列组合形成单词才具有实际含义,而表形文字本身就由一些现实物体的图画衍变而来,单个自身就具有一定的含义,更不用说结合了表音的声旁后形成的意音文字,单字含义更是丰富而生动。所以从语义的角度来看,意音文字的字与表音文字的词处于同一层级。英语单词可拆成26个字母,汉字单字也一定可以拆成与字母同一层级的东西——这就是“字根”。
五笔输入法的发明者,王永民先生,于1978~1983年间,研究并提出了“汉字字根周期表”,设计出25键4码高效汉字输入的策略,并于之后长期的研究中陆续提出了不同版本的码元排布。有所了解的朋友可能知道字根如何排布与汉字的拆分思想直接挂钩,是一项需要兼容科学与美感的底层设计。目前主流的排布有“86版”,“98版”和“新世纪版”。至于哪个版本“更好”,或初学者应选择哪一个,我们后文再讨论交流。笔者使用98版,配图以98版举例。

可能有的朋友会说,学习五笔需要背字根排布的口诀,门槛较高,什么“王旁青头兼五一,土士二干十寸雨……”,笔者从自身学习经历出发告诉大家,不用背口诀,或者说,不应将口诀作为首选手段。前文已说过,五笔的设计兼具科学和美感,从深层次理解为何要这样排布,比死记硬背高效得太多。事实上,五笔字根落在键盘的25个键上,按字根第一笔的类型可划分为“横区”(图1金黄色)“竖区”(图1深绿色)“撇区”(图1蓝色)“捺区”(图1淡绿色)“折区”(图1橙色)五个区域。25个键,分成5个大区,每个大区5个键,那么按照该字根的第二笔是什么类型,我们又可以把它定位到5个键中的一个上,各区都以键盘中央为起点,顺序仍然是“横竖撇捺折”,这是很符合直觉与科学性的。详见图2。(注:点就是捺,这是常识。)这是第一个大原则,每个字根的第一第二笔是什么类型,它就被分配到哪个键(当然,这个原则不是死的,会有一些非常合理的例外)。

大家对照图1印证一下,可以发现大多数字根符合该规律(如“十”“上”“八”“门”“也”)。但也有很多不符合,这时就要看我们的第二个大原则:按照“横竖撇捺折”五个基础笔画的重复次数,将字根放在大区内相应顺序的键上,比如“三”是三个横,就在横区第三键上;“舞”的字根“四个竖”就在竖区第四键上;“灬”是四个点,就在点区第四键上;“巛”是三个折,就在折区第三键上。
这时有朋友就要问了,照前两个原则,“水”应该在竖区第五键啊,怎么跑点区去了?“讠”应该在点区第五键上,怎么在第一键上?这时就需要最符合直觉的第三个原则了:具有相似字形与相近字义的字根尽量排布在同一个键上。“水”与“氵”,“言”与“讠”,“耳”与“阝”意义紧密相连,“王”与“五”,“卜”与“上”的上半部分极为相似,因此它们放在同一个键上。
一路看下来,也许会产生这样的疑问:这些所谓的原则单看着挺有道理,但似乎都不是很“硬”啊,就不能再规范些,少点儿例外么?笔者是这样认为的,字根排布本就是需要各种平衡与妥协的产物,怎样排布更合理也不是单靠一两条规则就能完美解决实际使用问题的。从设计角度讲,汉字的拆分既不能拆得太“大块儿”(这样需要的字根太多,分类效果不够好),也不能拆得太“碎”(这样键盘利用率低,重码率高);字根在某一个键上分布既不能太密集(重码率高),又不能太稀疏(该键利用率低)。举几个例子,几乎没有什么字根的第一二画是“横+捺”“竖+撇”“竖+捺”,因此横区第四键“勉为其难”地接受了“木丁西”三个本该在第二键的字根,竖区第三键收留了“口”,竖区第四键接管了全包围大框框“囗”及其亲戚“田四皿”这些。这种“闲键”帮“忙键”分担一些字根的做法无疑能够大大提升排布的合理性,避免了你把某几个键摁碎了另几个还像新的……
了解了这几个大体的设计思路,字根的位置就已经不是入门难题了,重要的是尝试,在尝试的过程中,一些字根的特殊位置自然就在脑海里固化了。
接下来我们说下五笔的编码规则:
1. “键首字”,只需连点四次该键即可打出(如“王gggg日jjjj月eeee火oooo幺xxxx”);
2. 本身就是字的字根,该字根所在键+第一划+第二划+最后一划(如“夫gggy车lgnh八wty广oygt皮bnty”);
3. 基础笔划“横竖撇捺折”,按两次该笔划+两个L(如“丨hhll丿ttll丶yyll乙nnll”);
4. 至少有4个字根的普通字,第一个字根+第二个字根+第三个字根+最后一个字根(如“黛:亻七丶灬 wayo”“输:车人一刂 lwgj”);
5. 只能拆成2~3个字根的普通字(这也是最常用的字),第一个字根+第二个字根(+第三个字根)+末笔识别码。那么新的问题来了,什么是末笔识别码呢?末笔识别码:最后一划的类型定区+该字的结构定键(结构顺序是左右、上下、其他)。其实你可以这样理解,只有两三个字根的字重码率太高,可能好几个常用字都这么按(例如“地坡圾邯”按字根来看都是“fb”),那不是每回都要选一下?这哪儿行,于是我们补上一个“末笔识别码”,码元仍然不超过4个,但尽可能把它们区分开来。“地”的末笔是折,它是左右结构,所以它的末笔识别码是折区第一键,“地”编码为“fbn”;“坡”的末笔是捺,它是左右结构,所以它的末笔识别码是捺区第一键,“坡”编码为“fby”;同理,“圾”也是“fby”,末笔识别码都没能将它们区分开,那就选下吧;“邯”末笔是竖,它是左右结构,末笔识别码是竖区第一键,编码为“fbh”。如此就将四个重码降为了两个。另举两例,“笔”:⺮毛,末笔为折,上下结构,识别码是折区第二键,编码为“teb”;“国”:囗王丶,末笔为捺,其他结构,识别码是捺区第三键,编码为“lgyi”。
入门只需要前面这几条,入门后可以看看后面的衍生规则。
6. 常用二字词语,第一个字前两码+第二个字前两码(如“五笔:ggte”“输入:lwty”);
7. 常用三字词语,第一字第一码+第二字第一码+第三字前两码(如“输入法:ltif”“想当然:siqd”);
8. 常用四字词语,各个字第一码(如“新年快乐:utnt”“万事如意:ggvu”);
9. 常用多字词语,第一字第一码+第二字第一码+第三字第一码+末字第一码(如“中华人民共和国:kwwl”)
如果说规则是十分钟就能理解的,字根是当成任务也能背下来的,五笔输入真正需要在实践中进行感受的是“拆字”。一个字要怎么拆,为什么这样拆,拆得合不合理,拆得优不优美,是使用过程中能自然体会到的。总的来说,先左后右,先上后下,先外后内。
笔者在此分享一个自己遇到的有趣的例子:“垂”字怎么拆?依照笔者最朴素的直觉和优美观,我把它拆成“丿一艹士 tgaf”,从上到下,刚好4码,合理。但在苹果设备上使用清歌五笔输入法时,我发现它的“垂”字编码是“tfad”,显然是按照“丿士龷”来拆的,最后那个“d”是个末笔识别码。我当时刚入门不久,以为是软件弄错了,还专门给app开发者发邮件反馈,开发者回复说使用的是“98至善词库”。应该说从“有大用大”、一个字尽量少拆码元的思想来考虑,至善词库的选择有其道理,但笔者仍认为符合直觉与美感才是五笔真正的灵魂,“tgaf”更契合人们的书写惯性。
至此介绍了这么多,不知读者们是否对五笔有了一点兴趣,或许愿意尝试一下,走出原有的舒适圈,不管是出于猎奇还是决心。那么刚入门应该选择学习哪种版本呢?86,98还是新世纪?这个问题在五笔圈子内其实已经讨论很多年了。笔者无意踩一捧一,要分它们个高下,仅仅只谈谈我当时选择98的缘由。
86版是王永民先生最初正式提的一版,也是推广最为成功,受众最为广大的一版,可以说,目前大部分的五笔用户仍然使用86版的码元排布(这是五笔逐渐式微,学习者越来越少的情况所决定的),市面上可以选用的输入法软件对86版的支持也最全面。如果一个五笔输入法没说它是哪个版,那它一定是86版。
98版是经过十年研究改进而成的版本,字根的分布和拆字的手法变得更加科学与完善,市面上的输入法软件对98版的支持较之86版有所欠缺,但仍然能找到不错的选择,后文笔者会进行归纳。
新世纪版则是对码元的又一次较大的改动,但人们对这次改动褒贬不一,就笔者所了解的观点,人们认为新世纪的字根排布更加有条理,更加有迹可循,但过于追求“规范化”,为了所谓的“规范”,破坏了一些拆字的直觉,并且在效率上较之前两版没有提升。同时由于版权的原因,市面上支持新世纪版的输入法软件少之又少。
笔者之所以选择98版,一方面是想要直取更科学更完善的成果,另一方面98版目前没有版权限制,在各个平台的输入法选择上自由度更大。当然,如果各位朋友有不同意见,欢迎友好交流。
简要地总结一下各个平台能获取的98版五笔输入法选择,为可能存在的想要尝试一下的小伙伴指条捷径,也欢迎各位补充:
1. Android平台:rime输入法(在该平台又叫“同文输入法”)、百度输入法;
2. iPhone平台:iOS15已自带98版五笔输入法、清歌输入法、百度输入法;
3. Windows平台:rime输入法(在该平台又叫“小狼毫输入法”)、小小输入法、百度输入法、系统自带微软86版替换98版词库。
4. Mac平台:macOS Big Sur已自带98版五笔输入法、rime输入法(在该平台又叫“鼠须管输入法”)、清歌输入法;
5. Linux平台:rime输入法(在该平台又叫“中州韵输入法”)、小小输入法。
98五笔有着一个由爱好者们组成的组织在对各平台的软件和资源进行维护,我因他们的工作和热爱受益良多,写这篇文章的初衷也是因为热爱,想为五笔的推广贡献一点微小的力量。欢迎爱好者们和想要入门的朋友访问“98五笔资源库”!
98五笔资源库:https://wubi98.gitee.io
98五笔资源库网盘:http://98wb.ys168.com
汉字输入的方案十分丰富,每一个都是发明者及爱好者们智慧的结晶。不管你青睐的是全拼、五笔、双拼、笔画,还是仓颉、二笔、注音、郑码,都希望你能在汉字输入中体会到乐趣,感受到汉语的独特魅力,地球信息时代唯一仍被大规模使用的象形文字的魅力。