自然语言书面理解系统

    自然语言书面理解系统 : 指人和计算机之间用自然语言书面对话的系统。从20世纪60年代初开始研究,早期使用关键词和模式匹配的方法,计算机只能应答有限的、固定格式的输入句,没有句法、语义分析和知识推理。70年代初取得突破。70年代中期到80年代初又继续有所进展。建成的系统较多,各自使用了不同的语法理论和计算机程序。其中有代表性的分述如下。
  J.维诺格拉德的语言观及其SHRDLU系统   维诺格拉德于1972年在美国麻省理工学院建成SHRDLU系统,把语言分析和知识推理综合在一起,在自然语言理解的研究中跨出了重要的一步。维诺格拉德认为,人听到或看到一个句子是运用了全部知识和智力来理解的,包括句法、语义、上下文、主题知识和推理。计算机要理解自然语言也必须具有这些知识并使之相互作用。句法需要解决的问题是"语言究竟是怎样组织起来表达意义的?"而不是"怎样分析一个孤立的句子结构?"句法必须跟语义、推理密切配合,语义根据对客观世界的认识作出推论以指示句法分析。语义学是句法学和逻辑推理之间的桥梁,语义学的目的是研究意义的表达形式。
  SHRDLU系统采用韩礼德的"系统语法",计算机根据句法特征识别输入句的态、式、语气等,按句型逐层分解到词为止;语义分析和知识推理同时配合,以排除歧义和误解。获取语义信息后查询知识库,执行指定的操作或作出应答。这个系统贮存 200条英语单词,能理解较复杂的英语句子。背景是 8块颜色、形状、大小各不相同的积木,一个放积木的盒子和一只机械手,因此一般称之为"积木世界"。计算机能根据人打字输入的指令或问题在屏幕上显示操作或应答。例如根据指令抓起红色长方形大积木,回答某块积木之上是否放着某种颜色的积木等。
  W.A.伍兹的扩充转移网络及其LUNAR系统   伍兹于1970年提出 扩充转移网络(简称ATN),1972年在美国BBN 公司建成LUNAR系统。ATN是一种句法分析方法,也是一种计算机处理程序。生成语法缺乏短语结构中的规则和结构之间的直接联系;根据转换规则可能生成的语句又过多,构成"组合爆炸",而把生成语句的过程颠倒为分析语句的过程困难也不少,因此计算机无法应用。ATN 建立了英语部分句型的有限状态转移线路网络,同时设置了某些操作技术,使上下文相关,并能重新组合结构成分包括复写、添加、删略、换位等。如此即可应用转换规则,充分发挥转换语法的效能。图1~3是简化了的扩充转移网络示意图。
  图1是句型网络。S是初始态,有两个走向:句首是名词短语就转入状态q1,如为助动词则转入状态q2。q1又有两个走向:连接动词到达q4,或连接助动词转入q3再连接动词到q4。q4是终结态(用斜线表示),句子可在此结束(不及物动词句),也可再连接NP到达终结态q5(及物动词句)。q5后还可能连接多个介词短语再回到q5。图2是名词短语网络。NP是初始态,也有两个走向:一条线路以限定词开始转入状态q6,q6可连接多个形容词之后再连接名词到达终结态q7,q7之后还可连接多个介词短语再回到q7。另一条线路是专名或代词,直接到达终结态q8。图3是介词短语网络。PP是初始态,由介词转入q9,连接名词短语到达终结态q10


  LUNAR系统贮存英语单词3500条,主题是查询阿波罗登月舱带回的月球泥石采样的化学成分,为地质学家检索信息服务。语句输入,由ATN分析,求出深层结构,凭以解释语义,并将语义信息编译成一种谓词演算查询语言,检索数据库求得答案输出。例如人问:"有多少种角砾岩含有橄榄石?"机答:"5种。"如再问是哪5种,即列举该5种样品的编号。LUNAR是第1个面向应用而又设计完善的系统。ATN已成为自然语言理解研究中广泛采用的著名方法,此后建成的不少系统,包括语音理解系统HWIM在内都以 ATN为基础。
  R.C.尚克的概念从属论及据此建成的诸系统  美国学者尚克于1973年提出概念从属论(简称CD),同时在美国斯坦福人工智能实验室建成MARGIE系统;1975年尚克和他的同事在耶鲁大学建成SAM系统,1978年建成PAM系统,1979年建成FRUMP系统,1980年建成IPP系统。
  CD的主要内容是:人脑中存在着某种概念基础,语言理解的过程就是把语句映射到概念基础中去的过程。概念基础具有完善的结构,能根据初始的输入预期可能的后续信息。要使计算机理解自然语言就必须研究概念结构及其映射规则。句法只起一个指引作用,无需详细分析。概念结构由概念及其从属关系构成。常用动词和形容词可抽象为少数"语义基元",表示行为和状态的基本概念。采用美国C.菲尔莫尔(1929~ )的"格语法",区分 5种格关系。 概念结构用图像标记法构成 CD表达式,而句中任何隐含的信息都必须在CD表达式中表现出来。例如:John eats the ice cream with a spoon(约翰用勺吃冰淇淋)的 CD表达式为:匔表示施动关系,INGEST表示"摄入"的语义基元。包括"吃 、喝 、吞、咽......"等词。表示受动关系,O是宾格。表示方向关系,D是方向格。表示工具关系,I是工具格。右端出现语义基元MOVE(移动),右下角出现名词 mouth(嘴),而句中并无这类词语,因为用勺不断把冰淇淋送入口中是本句固有的语义信息。这是CD跟其他析句方法的根本区别,在解释语句和演绎推理时获得显著成效。根据上述,将概念从属关系编入词典。语句输入,由句法指引找出主要动词和名词,查词典获得解释。例如输入Johnate the steak,查 eat条的注解为:代入句中名词(X代以John,Y代以steak)即可得到理解。


  MARGIE系统按照概念从属论建成,是一个推理和语句解释的模型,能根据输入句推论出若干事实,包括原因、结果等。例如:输入"约翰给了玛丽一些阿司匹林",计算机即输出:"约翰相信玛丽需要阿司匹林。玛丽病了。"语句解释即计算机能用其他词来解释输入句。例如输入:"约翰杀了玛丽,是掐死的。"输出则为"约翰扼死了玛丽。约翰掐住玛丽,玛丽死了,因为她不能呼吸"。
  此后尚克学派将概念从属论加以发展,用于篇章分析,提出"模本"、"计划"、"目的"和"主题"等概念,使计算机能理解简单的故事。一个模本概述一种日常活动中的标准事件序列,如"餐馆模本"包括顾客走进饭馆,坐在餐桌前,服务员送菜单,顾客点菜,吃饭,付款等。计划是完成目的的手段,如"去某处"是总目的,完成这一目的的各种方法如骑车、坐公共汽车、开小卧车等是子目的,应列入总目的项下。主题则是背景信息,可据以预期行为的目的,如"爱情主题"隐含彼此保护、避免对方遭受伤害的目的。
  SAM 系统根据模本建成,能解释故事情节,回答问题,进行推论,并作出英语、汉语、俄语、荷兰语和西班牙语的摘要。例如输入"约翰走进一家饭馆。他坐了下来。他生气了。他走了。"输出为:"约翰饿了。他决定到饭馆去。他走进一家馆子。服务员没理他。约翰生气了。他决定离开这家饭馆。他走了。"计算机推论约翰离开饭馆是由于没有得到服务。因为"餐馆模本"中有服务员送菜单一条,而输入句中无此内容,却有约翰生气的句子。
  PAM 系统由美国学者R.威林斯基建成,以目的和计划为理解故事的基础。也能解释故事情节,回答问题,作出推论和摘要。但无需模本中的事件序列,只提出目的和计划。如营救一个被巨龙拖走的人,只在"营救"这个总目的项下列举若干子目的,包括到达巨龙巢穴和杀死巨龙的各种方法,即可预期下一步的行为。同时能根据主题推论目的,例如输入"约翰爱玛丽。玛丽被巨龙拖走了。" PAM系统即可预期约翰要采取行动营救玛丽。句中虽无此内容,但据"爱情主题"可作出推论。
  尚克学派又进一步研究语言理解和记忆的关系,概括各种具体知识结构为一般经验,综合句法、语义、知识、推理为一体,再建成FRUMP和IPP两个快速阅读系统。贮存2000多条英语单词,对输入故事无需逐字分析,而是跳过某些词语提取主要信息。目前已能从报刊上摘录一些新闻故事。
  G.亨德雷克斯的LIFER分析法以及据此建成的系统 LIFER 分析法由美国学者 G.亨德雷克斯于 1977年在美国斯坦福研究所设计而成,提供了部分英语句型的句法 -语义框架,同时采用N.乔姆斯基的重写规则和伍兹的ATN 分析输入句。下图是3种句型的转移树,〈L.T.G〉是 LIFER top grammar 的缩写,表示初始符:其中〈ATTRIBUTE〉(属性),〈PERSON〉(人名)等非终结符属于语义成分。这种将某些语义成分嵌入句型的方法称为"语义语法"。用户可自行定义语义成分,构成语句以切合自己的用途,因而任何用户、任何主题均可应用。例如定义〈PERSON〉={John,Bill,Mary},〈A-TTRIBUTE〉={height,age, tall}, 即可理解输入句 What is the age of John?(约翰的年龄是多少?)Whatis Mary`s height?(玛丽的身高是多少?)How tallis Bill? (比尔多高?)


  根据 LIFER分析法已建成若干系统,包括医药咨询、作业安排、资源分布等主题。最庞大复杂的是斯坦福研究所的LADDER系统(1977),能联结美国各地许多计算机的数据库,用户无需知道数据贮存在何处及其贮存方式,直接用英语查询即可得到回答。斯坦福研究所的另一系统 HAWKEYE(1977)则属于图像识别和自然语言理解的综合模型,计算机能根据图像回答问题。例如指着地图问:"从这儿到那儿的距离是多少?"
  预计80年代自然语言书面理解的研究将在篇章模型和综合模型两方面发展,并建立一些应用系统。篇章模型如尚克学派正在进一步研究的故事理解,综合模型如斯坦福研究所的 HAWKEYE。此外,联邦德国汉堡大学于1981年建成一个"交通动态对话系统",由彩色电视输入动态情景,用德语问答,主题是询问街上的交通情况。关于汉语书面理解的研究,见汉语书面理解系统。
  参考书目
 范继淹、徐志敏:《自然语言理解的理论和方法》,载《国外语言学》,1980,第 5期。
 A. Barr and E. A. Feigenbaum, The Hɑndbook of Artificiɑl Intelliɡence, Pitman, London, 1981.

为您推荐

篆书

篆书 : 古汉字一种书体的名称。有大篆、小篆之分。大篆本名籀文,起于周末,后来行使于秦国。小篆又名秦篆,指秦始皇帝统一文字所用的书体,汉代沿用。后世称篆书,一般皆指小篆。   西周灭亡,平王东迁,秦处周之旧地,使..

籀文

籀文 : 古汉字一种书体的名称,又称大篆。起于西周晚年,春秋战国时期行于秦国。   许慎、《说文解字》以小篆为正字,共9353字。又收两类异体字,一类称古文,指古文经中与小篆不同的字,这是地区性的差别;一类称籀文,指..

中介成分体系

中介成分体系 : 根据外语-汉语机器翻译特点建立的一套特殊的句子成分体系。其中各个成分既不是原语成分,也不是译语成分,而是介于原语和译语之间的句子成分。中介成分是通过原语语法分析和语义分析并考虑到向译..

自然语言理解

转注

转注 : 见六书。 ..

周祖谟(1914~  )

周祖谟(1914~  ) :   中国语言学家。字燕孙,北京人。1932年入北京大学中国语言文学系,1936年毕业后考入中央研究院历史语言研究所任语言组助理员。1938年起在辅仁大学国文系任教,中华人民共和国建立后即任北..

《中华大字典》

《中华大字典》 : 中国字典中收字最多的一种。陆费逵、欧阳溥存等编。本书共收字 4.8万多,其中包括方言字和翻译的新字,较《康熙字典》多出1000多字。1909年开始编纂, 1914年编成,1915年中华书局出版。因为这..