汉字情报输入技术 : 在汉字信息处理和计算机检索中以计算机可读的方式输入汉字的有关方法和设备。在中国及一些使用汉字的国家和地区,汉字输入是计算机情报系统的重要组成部分。
汉字输入特点 汉字是图形文字,数量庞大,字形复杂,同音字多。与拼音文字相比,汉字的计算机输入有许多特殊问题需要解决。通常在同一系统中,需要同时处理汉字和西文,因而还需要考虑两种字符的兼容和区分,这样给汉字编码和输入带来许多困难。
汉字输入方式 70年代以来,人们广泛重视汉字输入技术的研究,已提出的汉字输入技术大致可分键盘输入、 汉字图形识别输入、 汉语语音识别输入几种类型。汉语语音识别技术目前尚处于实验性阶段,这是因为除去语音识别技术本身的困难之外,还由于汉语中同音字多的关系。汉字图形识别技术用于汉字输入的装置是光学字符识别装置 (OCR)。人们分别就印刷体、手写印刷体和手写体 3种类型的识别对象进行试验研究。从目前所得到的结果看,印刷体汉字识别无论在识别率及识别速度方面都取得了较好的结果,并已有产品推出,识别率达99%以上,速度是100字/秒左右,但识别字数目前在2000~3000字之内。手写汉字识别技术已用到一些文字处理设备上,但仅仅作为键盘输入的一种补充手段。迄今为止,键盘输入是计算机汉字输入的主要方法。
汉字输入键盘 可分成3种类型:
①整字键盘,又称"大键盘"。同中文打字机一样,把汉字分布在键盘的各个键位上,由于汉字数量多,导致键盘面积大,后来多改用"笔触式"来缩小面积,原理仍是一样。其优点是直观,但不足是找字不便、键输入速度慢、价格高昂、不易维修等。
②字根键盘,又称"中键盘"。利用汉字在形状上由数百个"部首"、"偏旁"等部件所构成的原理,在键面上布置了这些部件,使用时按一定规则把它们加以组织以输入汉字。 由于具有与大键盘一样的缺点, 且规则不易掌握,所以中键盘输入汉字的方法已逐渐淘汰。
③标准键盘,又称"小键盘"。与西文输入键盘兼容,用英、数字的组合代表全部汉字字符集,已成为计算机汉字输入的主流。
汉字输入编码 现已提出数百种不同的汉字输入编码方案,但本质上都是建立汉字字符集与一个小的符号集合之间的对应关系,而这一小的字符集应是标准键盘所能容纳得下的。按照建立对应关系所持依据的不同,主要的编码方法一般可划分成3种类型:
① 按形分解。笔形码(八笔字型、五笔字型等)、三角码、仓颉码及宏观码等,均属此类。
② 按音分解。汉语拼音,紧缩汉语拼音及双拼等即是。
③ 音形结合。"见字识码"为其代表。
实际上,使用者一般不拘于一种方法,所以大多数计算机汉字输入系统均配有多种输入方法,以供使用者自由选择和切换。以上各种计算机汉字输入技术,在情报工作中均可采用。除编码输入方法外,印刷体的识别技术是值得重视的,它尤其适用于印刷品情报资料向计算机转贮。
- 欢迎来到文学网!