语音理解(speech understanding) 利用知识表达和组织等人工智能技术进行语句自动识别和语意理解。同语音识别的主要不同点是对语法和语义知识的充分利用程度。
定义
语音理解起源于美国,1971年,美国远景研究计划局(ARPA)资助了一个庞大的研究项目,该项目要达到的目标叫做语音理解系统。由于人对语音有广泛的知识,可以对要说的话有一定的预见性,所以人对语音具有感知和分析能力。依靠人对语言和谈论的内容所具有的广泛知识,利用知识提高计算机理解语言的能力,就是语音理解研究的核心。
利用理解能力,可以使系统提高性能:①能排除噪声和嘈杂声;②能理解上下文的意思并能用它来纠正错误,澄清不确定的语义;③能够处理不合语法或不完整的语句。因此,研究语音理解的目的,可以说是与其研究系统仔细地去识别每一个单词,倒不如去研究系统能抓住说话的要旨更为有效。
一个语音理解系统除了包括原语音识别所要求的 部分之外,还须添入知识处理部分。知识处理包括知识的自动收集、知识库的形成,知识的推理与检验等。当然还希望能有自动地作知识修正的能力。因此语音理解可以认为是信号处理与知识处理结合的产物。语音知识包括音位知识、音变知识、韵律知识、词法知识、句法知识,语义知识以及语用知识。这些知识涉及实验语音学、汉语语法、自然语言理解、以及知识搜索等许多交叉学科。
完善的语音理解系统是人们梦寐以求的研究理想,但这并非短期内能够完全解决的研究课题。然而面向确定任务的语音理解系统,例如只涉及有限的词汇量,有一般比较通用的说话句型的语音理解系统,以及可供一定范围的工作人员使用的语音理解系统,是可以实现的。因此,它对某些自动化应用领域已有实用价值,例如飞机票预售系统、银行业务、旅馆业务的登记及询问系统等。
语音识别
语音识别(speech recognition) 利用计算机自动对语音信号的音素、音节或词进行识别的技术总称。语音识别是实现语音自动控制的基础。
语音识别起源于20世纪50年代的“口授打字机”梦想,科学家在掌握了元音的共振峰变迁问题和辅音的声学特性之后,相信从语音到文字的过程是可以用机器实现的,即可以把普通的读音转换成书写的文字。语音识别的理论研究已经有40多年,但是转入实际应用却是在数字技术、集成电路技术发展之后,现在已经取得了许多实用的成果。
语音识别一般要经过以下几个步骤:①语音预处理,,包括对语音的幅度标称化、频响校正、分帧、加窗和始末端点检测等内容。②语音声学参数分析,包括对语音共振峰频率、幅度等参数,以及对语音的线性预测参数、倒谱参数等的分析。③参数标称化,主要是时间轴上的标称化,常用的方法有动态时间规整(DTW),或动态规划方法(DP)。④模式匹配,可以采用距离准则或概率规则,也可以采用句法分类等。⑤识别判决,通过最后的判别函数给出识别的结果。
语音识别可按不同的识别内容进行分类:有音素识别、音节识别、词或词组识别;也可以按词汇量分类:有小词汇量(50个词以下)、中词量(50~500个词)、大词量(500个词以上)及超大词量(几十至几万个词)。按照发音特点分类:可以分为孤立音、连接音及连续音的识别。按照对发音人的要求分类:有认人识别,即只对特定的发话人识别,和不认人识别,即不分发话人是谁都能识别。显然,最困难的语音识别是大词量、连续音和不识人同时满足的语音识别。
语音识别虽然从原理上看实现并不困难,但在实验中遇到很多的难点。这些难点主要是:①发音的多变性,不同人发同一音,同一人在不同条件下发同一音,也会有不同的发音参数;②发音的模糊性,在实际的连续语流中语音声学变量与音位变量之间不存在一一对应的关系;③语流中变化多端的音变现象,这些现象人类听觉很容易辨认,但机器识别却遇到很大的难度。
根据不同难度,可以实现不同的语音识别系统。孤立发音、中小词量、认人的识别技术目前已经比较成熟,已有不少实用产品;连续发音、中小词量、认人识别也已接近实用;连续发音、大词量和不认人识别,还在实验室研究实验的阶段。
语音识别有广泛的应用领域,如语音打字,语音的计算机录入,语音的指挥自动化,语音的自动控制操作,说话人身份鉴别,甚至语音的自动翻译等。