汉字情报检索

    汉字情报检索 : 指以汉字表明的信息作为存取对象的情报检索,与中文情报检索含义相同,同时泛指含有汉字(如日语等)文字的情报检索。在计算机内部,无论中文或西文都以代码形式表现,汉字检索和西文检索,检索原理和机制并无区别,同一情报检索系统完全可用于兼顾英汉乃至多种文字的检索。汉字检索和西文检索,技术上的主要差别是汉字本身造成的,主要涉及汉字处理技术问题。从这一意义上说,汉字情报检索,是情报检索和汉字处理两者的结合,技术条件上除与西文情报检索完全相同以外,还必须具备汉字处理所需的输入输出设备和相应的软件。
  汉字的特性给情报检索带来一系列新问题。主要有:
  汉字编码  西文检索以拉丁字母和数字为存取对象,总数有限,用一个字节长度足以表示全部字符集,而且编码简单,实现标准化容易,输入输出设备均以一个字节为单位进行设计。汉字情报检索不仅要处理西文字符集,而且要处理数目庞大的汉字,至少需要两个字节表示一个特定汉字。大字符集的特点,给汉字编码、标准化带来了困难,而且大大增加了输入输出设备的复杂性。在计算机内部,处理对象不管汉字或西文都以代码表示,为了保证两者的兼容,在输入输出时必须严加区分,以便在输入时产生正确的汉字内码和西文内码,而在输出时将相应的内码转换成汉字或西文字符。汉字数量大,文字属性多,给汉字编码标准化带来困难。据不完全统计,中国已出现 400多种汉字编码方案,已装入汉字处理系统的输入方法也有十几种。汉字编码难于标准化,增加了设备和用户的负担,影响汉字处理的应用普及。
  汉字字符集和内码  中国1981年5 月颁布的《信息交换用汉字编码字符集基本集》 (GB2312-80),汉字数量不够用,许多单位自己造字,代码不统一,影响信息交换。西文和汉字的排序方法不同,西文一般按字母顺序排列,而汉字排序则有笔画、偏旁部首、拼音等不同要求。该字符集参照汉字使用频度分为二级,第一级按汉语拼音字母顺序排列,第二级按部首排列。现在汉字的内码基本是将交换码直接作为内码使用,或者加上标识位或标识字节后作为内码使用,汉字本身存在的缺陷在内码无法得到改善,而且增加了排序原则的不一致性,字的相对位置无法表示等问题,并且直接影响与单字节的西文并行处理。亟待增补汉字标准字符集,并且改进内码方案。
  汉语切分  情报检索需要以词语作为处理对象,西文以两个空格之间定义为一个单词,计算机自动抽词比较简单,而汉字词语之间不用空格区分,汉字自动切分比西文抽词困难和复杂得多。汉语词语的自动切分和关键词语的自动组成,是汉字情报检索必不可缺的技术要求。近年,许多专家、学者提出了多种方案设想,还有人作了实验,取得了可喜的实验性成果,但汉语词语自动切分的解决,离实用要求仍有相当距离。
  汉字检索  汉字情报检索大都停留在汉字数据库管理系统的水平上,不能处理可变长记录和重复字段,同时在汉语主题词语管理、汉语词语的位置查找、针对汉语词语结构的检索方法等方面,尚未研制成功专用的汉字情报检索软件。
  随着中国汉字处理技术的进步,80年代以来汉字情报检索开始逐步发展,已建立总数达40~50万篇中文文献数据库。许多单位在微型机上实现汉字情报检索。有的单位把引进的西文情报检索系统改造成为中西文兼容的汉字情报检索系统,例如机电部机械工业科技情报研究所在HP3000计算机上改造 MINISIS系统,中国科学技术情报研究所和联合国教科文组织联合发展 CDS/ISIS2.3版微机汉字情报检索系统等。北京文献服务处研制了取名为BDSIRS大型联机中西文兼容情报检索系统和 MBDSIRS 微机汉字情报检索系统。不少专业情报中心已建立创建数据库、汉字情报检索和计算机编排检索刊物等功能配套的综合性汉字情报处理系统。

为您推荐

洪有丰 (1892~1963)

洪有丰 (1892~1963) : 中国图书馆学家。字范五。1892年生于安徽省绩溪县,1963年1月27日卒于上海。1916 年毕业于金陵大学文学院。1919年赴美攻读图书馆学,1921年获纽约州立图书馆学院学士学位,学习期间兼在美..

《汉语主题词表》

《汉语主题词表》 : 一部大型的综合性中文叙词表,它包括了人类知识的所有门类,分 3卷 10个分册出版,共收叙词 11万条。该词表主要供电子计算机系统存储和检索文献用,亦可用来组织卡片式主题目录和书本式主题索..

哈佛-燕京学社引得编纂处

哈佛-燕京学社引得编纂处 : 中国编印古籍索引的机构,1930年 9月成立于北京,1941年12月~1945年秋曾一度中断工作,1950年停办。   1928年秋,在美国哈佛大学讲学的洪业(煨莲)深感查检中国古籍十分困难,萌发编纂古..

国际农业科学技术情报系统

《国务院关于加强国家档案工作的决定》

《国务院关于加强国家档案工作的决定》 : 中华人民共和国关于档案工作的一个重要法规性文件。国务院常委会议1956年3月27日讨论通过,同年4月16日正式公布。   《决定》是针对中华人民共和国成立初期档案..

国家档案馆

国家档案馆 : 亦称国家公共档案馆或公共档案馆。档案馆的类型之一。由国家各级政府设立并领导,负责接收和管理一定范围的具有社会和历史价值的各种档案,并提供社会利用的文化事业机构。   世界上第一个具..

国际情报中心

国际情报中心 : 多数国家组成的具有中心功能的国际情报机构。向参加国情报用户提供情报服务。工作模式是分散输入,集中加工,产品共享。即中心各参加国按照统一的文献著录规则和数据录入格式,分散加工,并向中..