自动标引

    自动标引 : 利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程。检索标志从机器词典中取出的叫赋词标引,从文本中抽出的叫抽词标引。抽词标引,又可分为全关键词标引和主关键词标引。从文本中抽取全部关键词作为检索标志的叫全关键词标引;只从文本中抽取表示主题的关键词作为检索标志的叫主关键词标引。自动标引与计算机情报检索、应用语言学和人工智能的研究密切相关。自动标引系统是情报检索系统的一个子系统。自动标引过程与人工标引过程相似,也要经过主题分析、查词表和将自然语言转换为情报检索语言的若干阶段。自动标引的特点是标引速度快,标引的前后一致性好,在随机存储介质容量允许、软件检索功能具备的情况下,可以实现文摘、甚至全文的无人工标引自动检索。目前自动标引系统抽出的表述文献主题的主关键词准确性较差,还不能完全代替人工标引。
  自从1957年美国 IBM公司的H.P.卢恩关于文献自动标引的论文发表后,各国曾进行大量的自动标引实验研究。在主要的国际联机检索系统中,已实现了全关键词自动标引和检索。主关键词自动标引也建立了多个实用系统。自1980年起,中国对汉语自动标引和分词进行了实验研究,科技文献自动分词初步达到了实用水平。并正在应用人工智能、语言学和决策论等方法研究解决自动标引中存在的问题。
  自动标引系统  一个自动标引系统通常包括文本输入、词典、抽词、知识库、综合与转换和输出等 6个子系统。
  ①文本输入子系统 对事实情报或文献文本进行自动标引前,必须使之变为机器可读形式,并按一定格式加以组织,这就是输入子系统的任务。通常,输入子系统处理的结果是将文本以数据库或文档中的记录形式存储在磁介质上。每个记录中包括供标引用的若干字段或子字段(如题目、文摘、文本段落等)。
  ②词典子系统 自动标引词典是存储在计算机系统内的一部或多部词表。因标引的目的要求不同,词表的结构和组织也有很大差别。在赋词标引系统中,词表通常是手工标引用的受控词表(如主题词表)。这种词表中的词之间具有整体-局部、 种-属、 同义和相关关系。在抽词标引系统中,全关键词标引词表是一种禁用词表(亦称非用词表),即词表中收入的词都不作为检索标志;而主关键词标引词表中的每个词具有若干信息,如词类,组配等。在标引过程中,通过查找机器词典确定关键词与非用词、词组构成与切分。
  ③抽词子系统  通过查找机器词典中存储的信息,对输入的文本逐字逐句进行扫描,抽出供综合与转换子系统处理的检索标志。对于拼音文字来说,词间有空格分隔,可按空格进行逐词扫描,作抽词处理。对于汉语这样的拼音文字来说,词间没有空格,不能进行逐词扫描。因此,汉语抽词子系统的首要任务,是将连续书写的汉字文本切分为有空格分隔的词。汉语自动切分,又称汉语自动分词,主要是通过扫描取文本的一部分同词典比较进行分词。分词的方法主要有:最长匹配法、最短匹配法、设立切分标志法、逆向扫描二字前进法和非用字后缀表法等。
  ④知识库子系统 是人工标引中选词知识形式化的规则集合。总结人工标引经验,人们发现,人工标引包括主题分析、选择表述主题的关键词和把关键词转换为规范主题词 3个阶段。这些经验通过主题句法、频率法、概率法、加权法、语法分析法和语义分析法等方法加以形式化,用语义网、框架等知识表达方式构造成知识库。
  ⑤综合与转换子系统 依据知识库提供的知识,对抽词子系统抽出的全部词语进行统计、分析和综合,选取表达主题的关键词,然后,按词典子系统的规范化规则,将选出的关键词转换为规范化词语。
  ⑥输出子系统 将选取的关键词存入到文本记录的有关字段,并将记录输出到要求的介质上。

为您推荐

《东北义和团档案史料》

《东北义和团档案史料》 : 中国档案汇编。东北文史丛书的一种。辽宁省档案馆、辽宁社会科学院历史研究所合编,辽宁人民出版社1981年出版。平装,53万字。该书辑录了辽宁、吉林、黑龙江三省档案馆所藏有关义..

奏本

奏本 : 中国明清时期奏疏文种名称之一。明初规定凡臣民言事于皇帝均用奏本。永乐年间增设题本后规定奏本只用于官员的私事,如官员到任、升转、加级、记录、宽免、降罚,或降革留任,或特荷赏赉谢恩,或代所属官员..

专门图书馆

专门图书馆 : 收集和组织专门领域( 某一领域或数领域 )的文献,主要为特定读者服务的图书馆。一般按其从属机构的类别分为机关图书馆(包括立法机关和政府机关等)、研究机构图书馆、公司企业图书馆、事业单位..

电子图书馆

专科目录学

专科目录学 : 研究特定学科文献目录工作的理论与方法的目录学分支学科。专科目录学与普通目录学相对应,通常指一系列学科,如科技文献目录学、社会科学文献目录学,或某一专门学科如历史文献目录学、文学文献..

专业情报中心

专业情报中心 : 从事专业情报工作并具有中心功能的情报机构。专业情报中心除从事搜集、加工、贮存、检索和向用户提供专业文献、数据或事实等情报服务外,还针对专业领域的需要开展情报研究工作。多数国际情..

专利情报检索系统

专利情报检索系统 : 根据不同的用户和使用范围可分为两类:①专供各专利局审查员建立和使用的检索系统;②提供商业性服务的公用检索系统。   实行审查制的专利局通常需要建立检索专利申请案新颖性和创造性..