汉字编码输入法综述

本贴最后更新于 410 天前,其中的信息可能已经斗转星移

本章打算分基础工作、理论研究和实用系统三个方面来对汉字编码输入技术的历史和现状进行综合评述,最后指出现有技术中存在的问题并预测今后技术的发展趋势。

2.1 基础工作

1974 年 8 月,我国开始了第一个大型汉字信息处理工程项目“748 工程”,其主要成果之一是《汉字频度表》,首先为汉字信息处理提供了重要的基础数据。1980 年前后,陈明远、盛谏等人分别公布汉语音节、声母、韵母、声调和字母频度统计。经过对《汉字频度表》和其它字表的统计分析,国家标准总局颁布了汉字信息处理领域的第一个国家标准《信息交换用汉字编码字符集·基本集》(GB2312-80)。这是一个在中国的汉字信息处理历史上划时代的、具有深远影响的标准。

1981 年,武汉大学、复旦大学等公布了在《新华字典》字集范围内的字根频度统计结果。1984 年,国家文字改革委员会与武汉大学公布了《辞海》字集范围内汉字笔画、部件、结构的动态统计分析结果。1985 年,国家文字改革委员会与山西大学公布了人命姓氏用字的抽样统计分析结果。1986 年,北京航空学院、新华社利用计算机技术分别公布了基于大型语料库的新的汉字使用频度统计和流通频度统计 ^[1]^。1985 年后,北京师范大学、上海交通大学、北京语言学院等分别使用各具特色的自动分词技术公布了基于大型语料库的现代汉语词语使用频度统计 ^[4]^。北京大学计算机语言研究所还建立了以汉语语法为中心的“现代汉语语法信息词典”^ [5]^。内容全面、翔实、使用方便的汉语语料库、字词属性库对推动汉字编码键盘输入技术的发展起到了重大作用。

九十年代后公布的与汉字键盘输入系统有关的国家标准有 GB13000.1《信息技术多八位编码字符(UCS)》、GB18030 《信息技术 信息交换用汉字编码字符集 基本集的扩充》、GB18031 《信息技术 数字键盘汉字输入通用要求》、GB15834 《标点符号用法》和即将公布的有 GB/T18220-2000《信息技术 通用键盘汉字输入通用要求》。语委颁布的规范有 GF3001 《信息处理 GB13000.1 字符汉字部件规范》、GF3002 《GB13000.1 字符集汉字笔顺规范》、GF3003 《信息处理用汉语拼音方案表示规范通用键盘》。

2.2 理论研究

2.2.1 汉字熵、最短码长和极限速度

早在 50 年代,钱文浩先生就开始从信息论的角度研究汉字,并计算汉字的熵值。这项工作一直延续了三十年。陈文熙、王世宁、李公宜、刘源等将汉字熵值的研究从字熵推进到词熵,从零阶熵推进到高阶熵。中文的熵值研究对包括键盘输入技术在内的中文信息处理具有重要的理论价值,并对汉字编码具有指导作用。

李公宜等按照信息论原理,计算出汉字的零阶熵为 9.66 比特 ^[6]^。他们根据不同语言的句子具有等价的语义信息这一基本前提,推出汉字的极限熵 H~∞~在 5.2 比特到 5.5 比特之间。他们同时还从中文信息熵得出了在码元数不大于 36 时以句子为编码对象前提下汉字编码的最短平均码长为 1.25。虽然码元数大于 36 后,在理论上可以进一步缩短平均码长,但是由于手指移动速度会受到影响,反而会使输入速度下降,因而继续增加码元是不可取的。

冯志伟根据他自己建立的“汉字容量局限定理”,在汉字的字种数为 12370 的范围内,计算出汉字的零阶熵为 9.65 比特 ^[7]^。他还利用英汉双语语料库,间接推算出汉字的极限熵 H~∞~处于 3.0212 比特到 5.0713 比特之间,其平均值为 4.0462。

王晓龙等直接用概率论的方法,在 180 万字的样本数据内,计算了 N 元字词编码的最短码长。当 N 等于 26 时,字输入最短码长为 2.081087,词输入最短码长为 1.731010。当 N 等于 36 时,词输入最短码长为 1.588347^[8]^。他同时还指出,当 N 增大时,最短码长和汉字(词)熵的差距随之增加,编码效率逐步降低。

2.2.2 输入模型

陈一凡等的《汉字键盘输入技术与理论基础》一书对输入模型做了相当深入的研究 ^[1]^。他们分析了汉字键盘输入流程,提出了“理想的汉字特征信息键盘输入的数学模型”和“实际的汉字特征信息键盘输入的数学模型” 。他们的数学模型以集合论为工具,说明了汉字、汉字特征信息、键元、汉字内码之间的映射关系及重码的处理办法。

张侃等按照人的视听感觉、认知和动作对整个汉字键盘输入过程进行分界和说明,得到了一个汉字键盘输入的认知模型 ^[9]^。该模型的三个不同层次的加工过程和容量限制分别为评测汉字输入方法的三个主要素质提供理论依据:即长期记忆量与易学性,短期记忆量与心理负荷和易学性,认知、动作加工与易用性和输入速度。

何克杭分析了人类识别汉字的认知模型,并将认知心理学的理论方法系统地应用于汉字编码的形码方案设计,以解决快速性和易学性的矛盾 ^[10]^。

2.2.3 输入法评测

面对 80 年代初“编码潮”涌现出的数百种方案和上百种上机运行的汉字键盘输入系统,对它们的内在素质和使用效果的优劣评估被提到了议事日程。上海交通大学、北京信息工程学院、中国标准化与信息分类编码研究所、中国科学院心理研究所等单位不断探索评估理论和设计评测软件。评估对象由 80 年代初的编码方案发展为八十年代末的包含“编码层次”和“软件层次”的整个输入系统;评测内容由表象测定深入到与认知心理结合的内在素质测定;评测手段由定性到定量;评测方法由主观因素起作用逐渐过渡到计算机客观评测;九十年代则将评测内容和指标写进了国家标准。

从 1980 年起,中国开始进行过几次民间组织的评测工作。由上海交通大学牵头起草了一个评测试行草案。1983 年 4 月,台湾中文电脑研析室主持了对汉字输入方法的调查评估,参加测试的方案有 7 个。1984 年夏,中国中文信息研究会汉字编码委员会、上海交通大学、中国福利会少年宫组织了有 5 个方案参加的计算机定量测试工作,为评测的理论和实践打下了初步基础。1985 年在国务院振兴办公室、国家科委和国家标准局的领导下,挂靠在国家标准局信息分类编码研究所的全国汉字输入方案评测办公室组织各方面有关专家,在对评测试行规则草案进行了全面修改和补充又先后经过三次专家评审,于 1985 年 12 月形成了汉字键盘输入方法评测规则草案 ^[11]^。

1986 年 3 月至 5 月,由国务院电子振兴办公室、国家科委和国家标准化总局、中国中文信息学会联合组织的首届全国性评测历时 38 天,报名方案 51 个。经静态参数测试和资格审查,确定 34 个方案进入动态测试。其中,有形码 20 个、音码 3 个、音形码 8 个、形音码 1 个、形字音词码 1 个、整字键盘方案 1 个。按照测试规定和成绩评选出了 11 个 A 类方案和 19 个 B 类方案。此次评测工作有力地推动了汉字编码输入技术的发展。

1987 年在大连举办了中华杯中文电脑公开赛,探索将汉字编码输入作为计算机系统的一个子系统来进行评测,同时电子工业部向上海交通大学和北京信息工程学院下达了“汉字键盘输入评测技术”研究课题,推动了评测工作向“客观、公证、科学”的方向发展。

进入九十年代后,汉字能否输入计算机的问题已得到解决。但随着计算机的普及,汉字编码输入者中专业打字员的比例越来越少,并且中小学生也都普遍的开始学习汉字编码输入。汉字编码的规范性问题、与语文教学的关系问题、易学性问题等日益尖锐地显现了出来。王力德 ^[12]^ 就普及型汉字编码的易学性目标体系和效率目标体系进行了有益的探索。文献[13]-[21]围绕认知码和五笔字型的规范性问题进行了激烈的讨论。华绍和等指出适应中小学教学用的汉字编码应具备的特点有:编码应符合国家语言文字有关标准和规范;编码实现应使用通用设备,键位设置应符合有关规定;编码以计算机输入为基础,与识字、写字、查字相结合;编码应把汉字全息输入与非全息输入有机结合起来;为基础教育服务,与语文教学紧密结合 ^[22]^。

2.3 实用系统

2.3.1 实用系统分类

最常见的分类法是按编码时使用的特征信息元(或称字元)将汉字编码输入法分为音码、形码、音形码和形音码。音码又可以细分为全拼码、双拼码、简拼码。形码又可以细分为部件码和笔画码。部件码需要将汉字拆分为部件或字根,再将它们通过音托、位托、形托等方式映射到键盘字符。音形码以音为主以形为辅。形音码以形为主以音为辅。

另外,按处理对象大小来分,汉字编码输入法有单字型、字词型和语句型;按适用的输入者来分,汉字编码输入法可以分为普及型与专业型;按编码时使用的码元字符来分,汉字编码输入法可以分为字母码和数字码;按软件的适应性来分,汉字编码输入法可以分为通用输入法平台(又称码表输入法)和专用输入法(或称定制输入法);按使用的键盘来分,汉字编码输入法可以分为通用键盘输入法和数字键盘输入法。

最后,还可以按照汉字编码输入的发展历程将其分代。目前,分代方法并没有形成共识。汉字编码输入法究竟分为几代?每一代的特征是什么?这些问题都有不同的看法。吴越将汉字编码输入法分为三代 ^[23]^。其断代标志为:第一代,以单音节的字为单位输入;第二代,以词语(包括单音节和多音节)为单位输入;第三代,除了有固定词库可以用通用词输入外,还可以根据用户的需要自造词语,并具有人工智能,可以自动选择区分重码(同音)词。单波也将汉字编码分为三代,但是各代的特征与吴越所描述的大不一样 ^[24]^。

本文在叙述时,按历史发展进程把汉字编码输入法分为三代,各代的特征与单波和吴越描述的都不一样,在具体论述时会加以说明。

2.3.2 第一代汉字编码输入法

电子工业部第六所于 1983 年正式公布了我国第一个中文磁盘操作系统 CC-DOS,这在我国中文信息处理历史上具有划时代的意义。CC-DOS 是在 PC-DOS 的基础上扩充、修改而成。在广泛使用的 CC-DOS 2.1 版中,有简拼、首尾码、快速码和区位码输入法,已经涵盖了包括音码、形码、音形码和数字码这些主要类型的输入法,对我国计算机应用的普及起到了开路先锋的作用。

当时使用得最广泛的输入法是简拼和首尾码。简拼是纯音码,使用的是介于全拼和双拼之间的一种拼音方法,对三个及三个字母以上的韵母进行了压缩。首尾码是一种纯形码,包含 97 个部件,分为 52 类;部件到键盘字母的映射没有太多的规律可循,记忆量很大;编码时只取字首和字尾各一个部件,对于未列出的变形部件需要输入者自己去猜测其应归属的键位。这两种方法都不支持联想,也不支持词组,都有很多重码。因此,在输入时选择、翻页操作很频繁,眼睛需要不断地扫描提示行以便在众多的重码中找寻所需的字,输得又累又慢,更不可能实现盲打。

快速码是通过压缩拼音加码方法实现的,可以在一定的程度上离散重码。由于快速码的加码方法没有规律可循,因此没有得到真正的应用。区位码需要完全要靠死记 6763 个汉字和符号的数字编码来输入,因此除了用于输入当时还没有其它办法输入的标点符号外,基本上没有人实际使用。

另一个早期的汉字编码输入法是电报码。电报码为 4 位等长码方案,使用的码字从 0000 到 9999,可以代表一万个字符(包括汉字、字母、符号)。电报码没有重码,但编码的规律性不强,十分难记。因此,它完全是为了邮电部门那些已经熟悉电报码的人的需要而移植进计算机的,对一般的汉字输入者没有什么意义。

1986 年,联想集团在推出联想汉卡的同时推出了联想式汉字环境,首先使用了联想方法来加快汉字的输入。那时还没有词组输入方法,联想技术让人耳目一新。汉字输入过程由原来的编码-> 翻页-> 选择-> 编码...变成了编码-> 选择-> 选择...,因此稍后的很多输入法都采用了这种技术。不过,按照现代汉字编码输入技术的标准来看,联想技术仍然存在两个致命的弱点。一个弱点是,如果后续要输入的字与前面已输入的字不能构成词组的话,则联想就会失败。另一个弱点是,联想选择时人机交互过于频繁,虽然平均码长缩短了,但是实际的输入速度反而会下降。

总之,第一代汉字编码输入法的特点是:在 DOS 环境下,以单字为单位进行输入,在屏幕底部提供专门的提示行显示数量众多的重码字,翻页、选择操作频繁;用数字键选择重码字,用 ALT+ 数字键可重复选择出现在提示行中的重码字;连极为常用的标点符号的输入都需要使用区位码,很不方便;联想技术的采用使输入效率有所改善,但其作用是相当有限的;各种输入法间的切换(包括切换到英文)都是通过复合功能键 ALT+Fn(F1-F12)来进行的;支持全角和半角方式,但不支持中文标点方式;不支持词组输入,更不支持自定义词组。

2.3.3 第二代汉字编码输入法

1986 年,四通公司与日本三井物业合作,推出了四通 MS-2400 中文电子打字机,宣告了中国专业电子打字时代的到来。随着四通打字机的广泛使用,首先捆绑在四通打字机上的五笔字型输入法流传开来,后来捆绑到四通打字机上的由刘卫民发明的双音输入法也在当时得到比较广泛的使用。

五笔字型是最典型的纯形码部件类方案。在五笔字型中,一般将部件称为字根。五笔字型采用了 130 个基本字根。基本字根按起笔分为五类,对应通用键盘上的五个区。每类又细分为五组,每组对应一个键盘字母。在一个汉字中,字根间的关系被归纳为“单、散、连、交”四种。在汉字拆分时,遵循“取大优先,兼顾直观,能连不交,能散不连”的原则。五笔字型将汉字被分为键名汉字、成字字根汉字和键外汉字三种,分别服从不同的编码规则。另外,字的编码还有一、二、三级简码,其形成方法是取相应全码的前一、二、三个字母。五笔字型将词组也分为二字词、三字词和多字词三种。二字词按顺序取各字的前两个字根来编码。三字词按顺序取头两个字的第一个字根和末字的前二个字根来编码。多字词按顺序取第一、二、三、末字的第一个字根来编码。

五笔字型以非常复杂的编码规则换来了在 GB2312-80 字符集内较低的重码率。当采用强制简码时,还可进一步将低重码率。词组编码被放进全码字的剩余编码空间中,实现了字词混合编码。只要收录的词组量不大,发生重码的可能性是比较小的。一般的五笔字型不具备自造词的功能。五笔字型拥有的这些特点,正好适应了职业打字的需要,成为它在职业打字时代非常流行的重要原因之一。

虽然五笔字型在市场上取得了巨大的成功,但它存在的问题也是不容忽视的。首先,五笔字型是非常难学的,而且容易遗忘。它除了有非常复杂的编码规则而外,还有很多例外需要记忆。五笔字型打字员在打字时对一些常见字出现“卡壳”的现象是很普遍的事情。这时就需要临时换用拼音输入法。其次,五笔字型的扩展性差。当字符集从 GB2312-80 到 GBK 和 GB18030 过渡时,当词组量增大时,五笔字型在码长为 4 的码位上会出现大量的重码,使其丧失重码率低的优势。五笔字型采用的是 4 码无重码自动上屏的策略,4 码重码增多就迫使打字员的视线更多地离开稿件来观察提示行以确认自己的输入,从而降低录入速度。最后,五笔字型最致命的弱点是规范性差。张孝存等就此提出了言辞激烈的批评:“五笔字型违反语言文字规范。它对汉字的拆分具有相当大的随意性,对国民基础文化素质具有不可忽视的负面影响。它对规范的汉字教育的冲击同其应用范围的扩大成正比 ^[20]^。”

双音输入法是一种比较巧妙的纯音码 ^ [23][25]^。双音输入法最大的特点就是“以词定字、反向联想”,以缓解纯音码方式下单字重码过多的问题。因为二字词的数量很多,所以一般情况下总可以找到某个二字词,它的第一个字就是你想要输入的字。如果该二字词处于提示行的第一候选位置,则可以省略选择键;否则需要用数字键进行选择。如果整个二字词都是你需要的,你可以加一个空格键输入第二个字。也就是说,如果采用双拼的话,利用“以词定字”技术可以使得常用字输入时的平均击键数为 2.5,而且基本上避免了传统拼音 + 联想方式下过多地扫视提示行和翻页、选择的毛病。在双音输入法中,对于三字词和四字词,取各字的声母作为编码来输入,必要时加空格结束。对于不认识的字,可以打入“\\”调用“手写模拟”。虽然可以自定义词组,但它不支持在线造词。造词时需要用外部文本编辑器按照它定义的格式输入编码和对应的词组。

双音输入法是拼音汉字输入历史上的一大进步,在当时受到了许多非职业打字员的欢迎。但是,它也存在一些比较严重的不足,以至于现在几乎没有人再使用它了。首先,虽然在输入效率上它较传统的拼音有很大的提升,但是它与后来的语句级拼音输入法如智能 ABC 相比,还有相当的差距。另外,“以词定字”时很多字可以采用多个词来确定,而有的字难以找到词来确定,用户常常感到不知所措。虽然双音输入法中提供了很多其它的方法来解决单字的录入问题。例如,邓、郭、姚等姓氏用字的输入就有 6 条辅助规则。要记住这些方法并判断何时采用何种方法可不是一件容易的事情。由于只能离线造词,所以词组的自定义也很不方便。

自然码是最具代表性的音形码 ^[26]^。吴越在 1993 年对自然码作出了极高的评价 ^[23]^。自然码在拼音部分采用了在 CCDOS 简拼的基础上修改而来的双拼,以方便 CCDOS 用户向自然码过渡。

为了解决拼音输入中普遍存在的同音字问题,自然码采用了与双音输入法完全不同的策略。它通过在双拼后附加形码,大大减少了单字的重码。其形码部分采用“近义部首分类”法,最多可有两码,用部首读音的声母作代码,取码时坚持“义部优先”的原则,以便减少记忆量和增加形码对重码字的离散能力。采用附加的形码来区分同音字还可以避免双音输入法中一个字可以利用多个词组来确定的不确定性。对于不认识的字,可以单纯使用形码部分输入,但需要以“/”键开头进行引导。

自然码的简码字也很有特色,除了传统上用“声母 + 空格”输入的高频简码字而外,还有用“声母 +;”输入的次级简码字和用“声母 +’”输入的附加简码字。自然码还设置了用“声母 + 声母 +’”输入的简码二字词,以加快高频二字词的录入。输入一般的二字词时,词组作为一个整体上屏,比双音输入法的“以词定字”每输入一个二字词就少用了一个空格键。三字词用各字的声母 +“’”输入,单独享有编码空间。

自然码还设计了“中文标点状态”,使得常用标点符号的输入和半角字母、数字的输入可以不加切换的进行。自然码的外挂技术使得它可以不加改变地挂接于所有常见的中文 DOS 系统上。考虑到南方人普通话不准的现实,自然码还提供了南方音选项。自然码还对中文数字、日期、时间、制表符等提供了编码式的快速输入手段;对字词的叠加操作也相当方便,可以用于输入“想想”、“思考思考”、“试一试”等。

智能相关处理是自然码宣传得很多的一项技术。它实际上是一种扩展的联想技术,即把联想用到了词组与词组之间。例如,输入“知名”以后再输入“rfui”(标准拼音为“renshi”)后会把“人士”作为默认选择,而输入“不久”以后再输入“rfui”则会把“人事”作为默认选择。

在线造词是自然码自誉的另一特色。在汉字输入过程中,如果敲完某个词的拼音以后发现这个词不存在,立即敲空格键,系统便进入“自动加词状态”;这时,连续输入的字、词都作为新词的内容,在送到屏幕上的同时便被纪录到自造词库中;当再敲空格键或回车键时,系统结束自造词操作。如果想造词的编码正好与其他词的编码重复,这时就要按 Shift+Tab 复合键进行强制造词,此后的操作与前面相同。对于已自定义的词,还可以将其删除。删除的方法是,在输入词的编码且词还未上屏时,按 Ctrl+ 回车复合键;此时,如果无重码则那个唯一的词被删除掉,如果有重码则还需要选择想删除的是哪个词。需要说明的是,系统自带的词是不能删除的。在进行了增、删词组的操作后,在关机或重新启动计算机之前,必须先将自造词库保存到磁盘中,否则关机后所作的修改就无效了。

总之,第二代汉字编码输入法都是在 CCDOS 2.1 的原始输入法的基础上发展起来的,以提高汉字的输入速度为主要目标,增加了词组的输入,单字输入时的重码也减少了,出现了中文标点状态,多数都能自定义词组。第二代汉字编码输入法非常多,除了上面介绍的而外,在大陆影响较大的还有陈爱文先生的表形码、郑易里先生的郑码、钱玉趾先生设计的未来码、肖水清先生的肖码 ^[27]^、萧启宏先生的启宏全息码 ^[28]^ 等,在港台影响较大的还有朱邦复先生的仓颉输入法、王赞杰先生的大易输入法、廖明德先生的行列输入法、陈华伟先生的华象中文输入法、刘重次先生的呒虾米中文输入法、戚桐欣先生的中易系统、黄金富先生的唯物输入法等,另外还有美籍华人饶达先生的饶氏笔形输入法和美国王安电脑公司开发的王安三角编码法等。

2.3.4 第三代汉字编码输入法

到了九十年代末,随着微机价格的进一步降低、存储处理能力的进一步增强、Windows 图形操作系统的流行和国际互联网的兴起,用户界面变得非常友好,微机大面积地进入中国的普通百姓家庭,进入了中小学教育中,真正实现了微机在中国的大普及。

微机的大普及使得打字成为每个人的基本技能,就像会写汉字一样;需要别人打字就像需要别人代笔一样,实际上是文盲的标志。这样便造就了一个庞大的非职业打字员用户群体。打字员作为一个职业正在快速消失。一般用户在打字时的操作方式是“想打”,与职业打字员的“盲打”方式完全不同。“盲打”要求操作者尽量少看屏幕,输入法提供的反馈信息只有在操作员不能“盲打”时才偶尔派上用场;而“想打”时操作者始终是看着屏幕的,输入法所提供反馈的方式和反馈信息量的大小都会对操作者的输入活动产生巨大影响。Windows 图形操作系统为人机界面的丰富化提供了前提条件,可以满足反馈信息多样化的需求。

现代微机强大的存储处理能力为新型的存储密集型和处理密集型输入法的诞生提供了物质基础。输入法程序不再局限于 DOS 时代 64KB 的驻留内存中。千兆级的运算速度使得复杂的智能算法得以投入运行。硬盘容量不仅从兆级扩大到千兆级,访问硬盘的速度也比 DOS 时代大大提高。将巨型的词库存储在硬盘上并进行快速搜索已不成问题。

计算机教育日益广泛地在中小学开展后,学生们从小就开始学习打字了。汉字编码与语言文字教育的关系问题被尖锐地提了出来。起码的要求是,汉字编码不能与语言文字知识相冲突。理想的情况是,把汉字编码输入与语言文字知识的学习结合起来,起到相互促进的作用。

在上述背景下,第三代汉字编码输入法应运而生,其指导思想是:规范、易学、易用并且尽量保持输入速度。这一时期,智能化拼音输入法的研究高潮迭起,也出现了以笔画或笔对为输入单位的纯形码,还出现了以声母和笔画(或笔对)为基础的音形码 ^[29]-[48]^。

(1) 智能化拼音输入法

智能化拼音输入法按其实现原理可以分为四种:基于理解的、基于语用统计的、基于模板匹配的和基于上下文关联的。

智能 ABC 是目前 Windows 操作系统上使用得最为广泛的准语句级拼音输入法,因为它是以词组和短语为单位而不是以全句为单位进行转换的。智能 ABC 最大的特色是能够非常方便地自定义词组和调整重码字词的顺序。用户只需按自己的想法进行输入,输入时可以不进行手工分词,系统会从前到后逐个进行自动分词。在没有词组时,系统自动按单字方式显示重码字供用户选择;一旦用户选定并组成新词后,系统就可以记住它。在系统分词不正确或系统提供的词不是用户需要的词时,用户也可以加以修改,系统也能记住用户所作的修改。通过较长时间的使用后,如果用户没有发生变化,系统逐步适应该用户的使用习惯,使用户的输入过程变得自如起来。

智能 ABC 也有很多值得改进的地方。首先,在输入时可以随意使用全拼、简拼、混拼,输入者可以在任何时候进行音字转换,过多的方式让用户不知哪种是最好的。看似非常灵活,但却实际上是把优化输入的任务交给了用户。但大多数用户不是这方面的专家,不可能很好地完成这项任务,从而导致用户走很多弯路或形成不好的、低效的输入习惯。其次,音字转换的准确率不高,句内修改很频繁,导致输入速度不理想,即使使用双拼也没有自然码的效率高。

微软拼音是真正意义上的语句级音字转换智能输入法,是微软自然语言处理技术多年科研成果的结晶。微软拼音采用拼音作为汉字的录入方式,用户不需要经过专门的学习和培训,就可以方便使用并熟练掌握这种汉字输入技术。微软拼音采用基于语句的整句转换方式,用户连续输入整句话的拼音,不必人工分词、挑选候选词语,这样既保证了用户的思维流畅,又大大提高了输入的效率。 微软拼音提供的人机界面非常具有特色。组字窗口可以嵌入正在输入的文本的插入光标处,减少用户在输入时视线的移动频率,使得输入法的易用性得到了很大提高。逐键变换并提示转换结果,使得用户不必自己做何时进行转换的决策。用户可以输入的编码长度没有限制,当超过系统的长度上限或遇到句号时系统会自动进行转换,以便用户能继续不间断地输入。由于考虑的上下文较广,微软拼音能够达到很高的转换准确率。微软拼音在默认情况下拒绝用户输入简拼和混拼,可以引导用户养成良好的输入习惯。

微软拼音也存在一些问题。首先,在编码输入出错或转换不正确时进行句内编辑的操作很繁琐和低效。其次,逐键变换时往往会把已经转换正确的内容又修改错了,用户不得不随时监视输入内容的正确性,当已转换的内容较多时是非常劳心的。另外,微软拼音没有提供方法加速单字的录入,也没提供方法来输入不认识的字,是不完备的输入法。

(2) 基于笔画(或笔对)和/或声母的输入法

采用笔画、声母这两个最简单的汉字特征信息来进行编码,可以极大地提高输入法的易学性 ^[12]^。但是,汉字的笔画一般归为五种。笔画种类太少,势必增加编码的长度,从而影响输入速度。于是,如何缩短码长、提高录入效率成了这类输入法成功与否的关键问题。

福建双笔码软件开发有限公司研制的双笔码是一种基于笔画的纯形码。为了克服笔画种类过少的问题,双笔码引入了一种新的笔画类型“叉”,从而将笔画种类扩大为六种,取码时按顺序每取两笔构成一个笔对,共可形成 36 种不同的笔对,并在键盘上相应的键位区内选择键位输入。另外,双笔码还规定病字旁、“口”、提手旁和“日”应作为一个整体取码。根据汉字不同构造的组合形状,双笔码把汉字划为三类基本字型即左右型、上下型和综合型。不论哪种类型的汉字,均按四码进行编码。双笔码词组的输入方法为:二字词输入每个字的头两码;三字词输入前两个字的头一码和末字打头两码,四字及四字以上词输入一、二、三、末字的头一码。
双笔码的优点是:与传统的部件类输入法相比,记忆量减少了许多;采用笔对和 36 键编码后平均码长也相当短;如果不按笔对而按单笔画输入,就可以非常容易地向数字键盘移植双笔码。但是双笔码的缺点也非常明显:作为基于笔画的输入法,它的取码和编码规则复杂,例外也不少,学习难度仍然很大;采用了上排数字键进行编码,击打不方便,且与常用数字的输入相冲突,影响了实际输入速度。

陈劲松先生发明的二笔输入法是目前使用得比较广泛的输入法之一。它是一种基于声母和笔画的输入法,也可以单纯基于笔画进行输入。二笔输入法的 30 个编码字符在通用键盘上分布于六个区,即五个双笔画区和一个单笔画区。区内再根据双笔画的第二笔或根据单笔画,按横、竖、撇、点、折的顺序定位。但 10 个设定偏旁部首的键位需要记忆。二笔输入法将汉字按字形结构分为独体字和合体字。输入汉字时,第一码取汉字拼音首字母,从第二码起取笔画,最多取四码,不足四码应全取,不能取双笔画时就取单笔画。独体字不必拆分;第一码取拼音首字母,第二码起按笔顺取笔画的代码,最多取四码。合体字拆分成两半,按汉字笔顺规则,先写的部分定为前半,后写部分为后半;第一码取取拼音首字母,第二码取前半的第一、二笔,第三码取后半的第一、二笔,第四码取后半的第三、四笔。二笔输入法词组的编码规则为:二字词取每个字的前二码,三字词取第一字的前二码和最后两个字的第一码,四字及四字以上词取前三字和最后一字的第一码。

二笔输入法的优点是:编码规则比双笔码更加简单,使用的编码字符也仅有 30 个;通过使用声母和笔画两种汉字特征信息编码,区分同码字词的能力得到了增强,取得了较高的输入效率;对于不认识的字还可以按全形方式输入;如果不按笔对而按单笔画输入,也可以非常容易地向数字键盘移植。但是二笔输入法也还存在问题:由于使用了笔对和设定部首,并需区分独体字和合体字进行不同的编码,因而学习难度和使用难度仍然较大。

2.3.5 数字键盘编码输入法

迄今为止,全国手机拥有量已超过 3 亿,手机短信息的产值超过 50 亿人民币。手机拥有量已经超过 PC 机用户,用手机输入汉字的人群远远超过用通用大键盘输入汉字的人群。

目前,美国特捷公司的 T9 拼音和 T9 笔画输入法、加拿大字源公司的字能笔画输入法和 Motorola 公司的 iTap 输入法垄断了中国大陆和港台的手机输入法市场。但是,国外的手机数字键盘输入法很不尽人意。以笔画输入为例,iTap 用 9 个笔画,字能用 8 个笔画,T9 用 5 个笔画。相同的一个笔画,不同的手机可以放在不同的位置上,输入速度也不理想。

为了打破外国手机输入法垄断中国手机市场和手机输入法不规范的尴尬局面。由中国中文信息学会等主办,由黄金码出版社(香港)有限公司等单位承办,于 2004 年 11 月 21 日,在人民大会堂举行了为期三天的中国首届手机中文输入大赛暨汉字数字码输入技术应用高峰论坛。在 32 支参赛队伍中,有 23 支参加模拟手机汉字数字码输入比赛,9 支参加手机中文输入比赛。除了已参赛的数字编码方案外,比较引人注意的还有王永民先生的五笔数码 ^[49]^、郑岩松先生的左右数码 ^[50]^ 等。以下仅对当前使用得最为广泛的 T9 拼音、T9 笔画和首届手机中文输入大赛中获得冠军的黄金码、大众数字码进行介绍。

T9 拼音本质上采用的是一种全拼单字加联想的早期通用键盘输入技术。其最重要的创新是可以根据手机键盘上按键的组合情况判断是否能组合成合法的普通话音节,从而避免了传统上通过多次按键来输入一个拼音字母的弊端。但是,当按键组合适合多个合法的普通话音节,而且默认选择的普通话音节又不是用户所需要的时,用户还是得进行手动选择。另外,全拼的拼式过长、需要按 1 键进入选择状态和联想造成的过度人机交互都使得 T9 拼音的输入效率很低,而且全拼对普通话不好的人难度很大。

T9 笔画采用目前多数输入法对笔画的归类方法将汉字笔画归为横、竖、撇、点、折五类,分别用 1、2、3、4、5 表示。录汉字时,按笔顺进行输入,逐键提示,每屏数个,高频优先,最长可输入 12 个笔画,并支持联想。由于分别使用五个键表示五种笔画,因此不需要像 T9 拼音一样对组合情况进行智能判断,内部处理逻辑很简单。T9 笔画充分利用了丰富的笔画信息和不等长码的短码位,并可以直接键选重码字,所以它的实际输入效率比 T9 拼音还高。

大众数字码 ^[51]^ 用 10 个数字对字词进行编码。除了用 1、2、3、4、5 分别表示横、竖、撇、点、折五种笔画外,还用 6、7、8、9、0 分别表示交、插、八、小、口五类部件。单字按笔顺取第一、二、三、四、末五个代码、不足时按实际码长,词组的码长为 6 位。大众数字码使用了相当多的笔画组合作为部件,但由于归类清晰,记忆起来比很多同类的输入法要容易些,加上精心的编码规则降低了重码率,使得它在比赛中脱颖而出。不过,应当看到它使用的部件相当多,编码规则也并不简单,学习难度还是相当大的。

黄金码用 9 个数字对字词进行编码。除了用 1、2、3、4、5 分别表示横、竖、撇、点、折五种笔画外,还用 6、7、8、9 分别表示“口”、“十”、“八”、“亠”四类部件。编码时分字首和字尾,也区分独体字与合体字的不同。在提示行不为空时,0、*和#用做选择键。黄金码最大的特色是,在输入时若用于编码的数字与已输入的编码一起不能构成另外的字词编码时,该数字键就可以用于选择同码字词,这样就大大地增加了输入法的键选能力,缩短了动态平均码长;结合高频先见的不等长码的使用,在输入时基本上不用翻页,进一步提高了输入效率。不过,字首与字尾的区分没有标准可循,常常因人而异;动态地使用剩余编码键选择重码字词也造成选择键位置变化太大,加重了人机交互的负担。

2.3.6 通用输入法平台

发明和设计汉字编码的人很多,而真正能够编写汉字输入法软件的人是很少的,因此一个功能强大的通用汉字输入法平台会对汉字编码的研究、试验和制作产生巨大的促进作用。通用输入法平台来源于对各种输入法的共性的抽象,反过来又对输入法的制作有不可忽视的限制。
早在 DOS 时代就有人从事通用输入法平台的研究了 ^[52]^。但是,输入法平台的广泛使用还是在 Windows 操作系统普及以后的事。微软公司和北京中易电子公司合作开发的码表输入法生成器(Imegen.exe)是 WINDOWS 操作系统上最早的也是使用得最广泛的输入法平台。杜志民先生开发的极点中文通用输入平台是目前影响最大的输入法生成器,与 Windows 内置的输入法生成器相比输入功能上有了长足的进步,但是它没有考虑与应用程序的接口问题。在功能上与极点中文通用输入平台类似软件还有龙文输入平台和青月亮平台。

虽然通用输入法平台取得了不小的进展,已能适应制作常规的基于字词的输入法的需要了,但是对于语句级输入法和许多有特殊要求的字词型输入法还是必须专门编程才能取得最好的效果。毕竟,搞输入法的人是极少数,而仅仅使用输入法的人是绝大多数,因此包括编码层次和软件层次在内的汉字输入法的总体性能才是最为重要的。

通用输入法平台是在软件层面使用输入法的制作自动化。但是,一个输入法的制作在编码层面也有大量的工作要做,如何利用计算机来辅助汉字编码也引起了一些研究者的兴趣,这方面的研究情况请参阅文献[53]-[58]。

2.4 面临的形势与存在的问题

虽然在汉字编码输入方面已经取得了不少进展,汉字能否输入计算机的问题已经解决,但是汉字编码输入理论一直是一个薄弱环节,迄今为止仅有的一本理论性较强的汉字键盘输入专著 ^[1]^ 并没有引起输入法实践者足够的重视。由于没有科学而系统的输入法理论指导,在汉字编码输入法研制时往往片面地强调某一方面、某一个指标,从而出现了很多误区,再加上商业运作上的夸大其词,就产生了诸如低重码率神话、速度神话、大词库神话、编码决定论、程序决定论、形码优越论、音码优越论之类的奇特论调 ^[65][66]^。

同时,在实用性方面,人们对汉字编码输入的现状仍然十分不满意,新的汉字编码输入法还在不断地涌现,以期克服现有输入法存在的诸多问题。不同时代有着不同的背景,从而决定了解决问题的不同方法。汉字编码输入技术问题的解决思路主要取决于人、机、文、码四个方面。

在人方面,计算机的普及造就了巨大的用户群体,而且非职业打字员用户占绝大多数,其中还包括了大量的中小学生,中国已进入了非专业打字时代 ^[67]^。非职业打字员一般都没有经过专业的打字培训,知识背景也大不相同。因此,如何使输入法易学易用和保持一定的速度是问题的关键。最好是,输入法在入门时基本上不用学习,熟悉后又有提升速度的手段,甚至达到或超过传统职业打字员的速度。但是当前的输入法往往是易学易用的输不快,如智能 ABC;而输得快的难学难用,如五笔字型。非职业打字员的另一特征是根据腹稿录入,即边思考边看着屏幕打字。因此,如何利用好用户看屏输入这一点来进行反馈设计是极为重要的,它直接影响着输入法的质量。但是,目前的输入法对反馈设计没有引起足够的重视,有的过于强调盲打而丧失了易学易用性,有的又过于依赖人机交互而丧失了易用性和输入速度。另外,因为现在大多数用户都独自拥有计算机,所以输入法一般为某个用户专用,可以针对特定用户建立个性化的字词编码库,以提高用户的输入效率。但是,现在的输入法往往只有一个通用编码库,随着编码字词条目的增加就会出现大量的重码,无用词的比例也增大,进而影响输入法的性能。最后,在中小学进行打字教育时,汉字编码的规范化问题和汉字编码与语文教育的结合问题变得十分重要。在这一点上,目前很多流行的输入法都是不合格的。很多人批评五笔字型对汉字不合规范地乱拆分会导致语文教学和写字的混乱 ^[20][21]^,五笔字型也因此未能进入中小学教育。即使是教育部推荐的认知码也有许多人对其规范性提出异议 ^[15][16]^。

在机方面,计算机处理能力已相当强大,手机、PDA 等手持智能设备已广泛使用,数据库技术已非常成熟。当今微型计算机强大处理能力对于个人用户来说有很多富余,使得我们可以增大程序的时间和空间复杂度来提高输入法的性能。手持智能设备的流行要求输入法在通用键盘和数字键盘上的操作方式尽量统一,以减少用户的学习和使用负担。大型的数据库,如 SQL SERVER,在微机上的运行速度完全可以满足输入法检索字词的要求,所以我们可以采用数据库来存储海量字词及其属性,甚至扩展输入法的功能到学习、查询和辅助翻译等领域。目前,除了语句型输入法充分地利用了富余的计算机资源外,其他的字词型输入法在资源利用上还停留在第二代输入法的水平上;数字键盘输入法一般自成体系,与通用键盘输入法缺乏衔接;数据库技术没有在输入法里得到应有的应用。

在文方面,对于非职业打字员而言,输入文本以常用字构成的连续真实文本占绝大多数,而且对某个用户来说文本一般局限于特定的领域。因此,这类文本的冗余度比汉字文本整体的冗余度要高,可以动态地调整码长,给常用字词以短的编码,实时地、自动地创建新词组,从而充分地压缩冗余度,提高输入速度。对于离散文本和罕见字的处理,输入速度不是关键,关键是要有简单的手段实现输入。目前的输入法往往对输入文本的性质不加区别地对待,结果使得输入法的整体效率收到了影响。

在码方面,目前流行的各类编码都存在各自的问题。字词型输入模式僵化,缺乏创新。空格键作为简码字词的结束键减低了编码效率;看打方式的设计被错误地用到了想打方式上,强调盲打而忽视了反馈信息的作用;对码长的过度限制(通常为 4)导致重率上升,限制重码又使可使用的词组量受限,不限制重码又会增加人机交互而影响输入速度;未能充分地利用汉字丰富的笔画信息。语句型输入模式不太适合中文,其转换正确率不高,效率不高,编码识读性差,这与假名汉字转换已占统治地位的日文输入形成了鲜明的对比。

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...