自然语言语音理解系统 : 指人和计算机之间用自然语言口语语音对话的通信系统。这是令人向往的前景。因为人用口语语音传输信息最快,最方便;而双手又是自由的,可以同时进行其他操作。
自然语言语音理解系统,从20世纪60年代初开始研究,10多年间一直停留在用模式识别的方法辨认单词的语音识别上,即在计算机里贮存某些单词的声学模式,用来匹配输入的语音信号。由于语音识别无法使计算机辩认连续语流中的语音变化,以及人和人之间、同一个人先后发音之间的差别,也不能排除噪声干扰,因此效果不大。单人口呼(一个人发音)输入,计算机不过识别100多个单词;多人口呼(不止一个人发音)输入,只能识别10~20多个单词而已。
70年代初期认识到,必须综合应用语言学知识来研究计算机对连续语流的语音理解。1971年美国国防部高级研究计划中心(ARPA)为语音理解研究 (SUR)设立基金,要求在 5年之内取得突破。具体指标是:使计算机能理解特定范围内的正常口语句子(连续语音),单词不少于1000,错误不超过10%。在ARPA SUR计划下,到1976年先后建成了一些英语语音理解的实验系统,都能在有限的词汇、句法和特定的主题范围内理解英语口语句子。其中有代表性的是美国卡尔奈吉-梅隆大学的 HEARSAY和HARPY系统,BBN公司的HWIM系统。
HEARSAY有两个系统。70年代初期建成HEARSAYI,随后改进,1976年建成 HEARSAYⅡ,以文件检索为主题,单词1011个,只能接受单人口呼(一男)。 HARPY系统的主题也是文件检索,单词也是1011个,但能接受多人口呼(三男二女)。HWIM系统的主题是旅游指南,包括日程安排和费用,单词1097个,能接受多人口呼(三男)。
这些系统的设计互不相同,各自采用了特定的技术安排。但在总的方法上是一致的,即语音、词汇、句法、语义、语用的分析同时进行,互为补充,以确定输入句的内容。一般的处理程序是:分析输入语音信号的声学物理特征,根据音系规则归纳音位、音位变体、连续音变和语音省略以切分音节;根据构词规则作出可能的单词假设,称为"底端分析"。同时应用句法、语义、语用规则和主题知识,根据上下文预测输入句的内容,称为"顶端分析"。底端无需识别每一个语音信号,模糊不清的可以跳过;只要能提出句中某几个单词的假设,就能由顶端根据词的搭配、句法组合和主题知识前后左右加以推断,建立句中单词序列的一种或几种假设,再用底端的语音数据核实,择优选用。这种上下结合的分析方法是一个重要的突破,取得了明显的效果。 据HARPY的实验,底端凭语音数据切分单词的准确率只有42%,而语音、句法、语义综合分析的准确率高达97%。HEARSAYⅡ的实验结果相同:增加句法分析,单词识别的准确率提高25%;再增加语义分析,准确率又提高25%。
ARPA SUR 计划之后又陆续建立了一些类似的系统,都未超过上述系统的成效。目前面临的问题是:能理解的词汇、语句局限性过大,更不能区别语音近似的句子。HARPY 被认为是ARPA SUR计划中最成功的系统,也只能理解特定的有限态语句,句中不能替换任何单词。
70年代后期和80年代初期,语音理解向纵深方向探索,同时开始设计某些专用性系统。例如澳大利亚堪培拉高等教育学院信息科学学校正在研制的 FOPHO系统,输入澳大利亚英语口语语音,计算机经过识别、理解能转写为音标显示输出,为教学和科研服务。德意志联邦共和国不伦瑞克工业大学通信技术研究所则在研制一个输入德语口语语音、输出德语书面文字的系统,等等。
关于汉语语音理解的研究,见汉语语音理解系统。
A. Barr and E. A. Feigenbaum, The Hɑndbook of Artificiɑl Intelliɡence,Pitman,London,1981.
- 欢迎来到文学网!