共振峰是指在声音的
频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。
术语定义
(英文:formant或resonance peak)
声学语音学(acoustic linguistics)的术语。是显示在由声谱仪(sound spectro-graph)自动画出的频谱图(spectro-gram)上的、被加强的语音频带。一切元音都有一个基音,并有至少两个语音加强频带,亦即有两个共振峰;一般用F1、F2等表示。声道中的共鸣作用使一个音的加强区有别于另一个音的加强区,因此不同音素的共振峰标度就有所不同。共振峰在频谱图上显示为水平方向的黑带,而在线性频谱(spectrum)上则体现为特定频率的振幅峰。在语图仪所显示的共振峰黑带上,标尺最低的是第一共振峰(F1),顺次向上分别为第二(F2)、第三(F3)等共振峰。共振峰黑带的高低、浓淡和宽窄等参项显示出音延(duration)、音频(frequency)和音强(intensity)等因素的变化。而在频谱仪上,声波被分解成重复的连续性波形,其中有限数目的分音用不同长度的直线表示,这些直线代表不同频率的对应振幅,构成了类似光谱的频谱,称为“直线频谱”(line spec-trum)。最强振幅的直线频谱就是第一共振峰。声波的连续重复逐渐降低了振幅,使波形不完全一致;其次强振幅即是第二共振峰,其余依次类推,把各直线频谱至高点联结在一起的曲线叫作“包络线”(envelope)或“共鸣曲线”(resonance curve)或“连续频谱”(continuous spectrum)。“阻尼”(damping)作用使连续频谱更能准确地表现任何语音的实际状况。阻尼程度越大,共鸣曲线的扩展就越大,共振峰的幅差也就越大。
声音在经过共振腔时,受到腔体的滤波作用,使得
频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。
在语音声学中,共振峰决定着元音的
音质,而在计算机音乐中,它们是决定
音色和音质的重要参数。
声学语音学术语。指从声带波到唇边辐射波的过程中,由于声腔的不同特性,形成一个共振系统,造成这一群或那一群谐音被强烈传递,因而在不同的声音中所形成的不同的能量集中区,即频谱图上显示的被加强的频带(表现为水平方向的黑带)。它在线状频谱上表现为在一定频率处的一些振幅峰。一个音的加强区有别于另一个音的加强区是由于声道中不同的共鸣作用。一切元音都有一个基音,并且至少有两个声音加强的频带,也就是说有两个共振峰。早期人们认为一个加强区是由于喉部的共鸣,另一个是由于口腔的共鸣。尽管共鸣分布于个别声腔的说法被否定了,但一些语言学家仍然使用“口腔共振峰”和“喉部共振峰”这两个术语。
产生原理
共振峰的分布位置是建立在声音产生媒介的共鸣物理结构基础上的(Resonant Physical Structure)。
无论是人声还是乐器,它们的声音特性都源自两个因素,一个是
发声系统,如人的
声带或乐器的振动
簧片,另一个是共鸣系统。乐器不同的共鸣系统使其在一定
频域中的分音的振幅得以突出,这样,这些区域就产生了这个乐器所特有的共振峰值,这些共振峰值同共鸣体的大小、形状的材料密切相关。由于一件乐器的结构是稳定的,因此在一件乐器发出的所有
音调中,不论
基频如何,都会表现出相同的共振峰值,只不过其显著性有强有弱罢了。这就可以帮助我们解释为什么在很多的乐器中,同一乐器所发出的不同音调具有相同的
音质。
在语音声学中,人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响有自身的共振峰区(Formant Regions)。通过利用这些共鸣空间的形状和大小不同的变化(例如改变咽喉、嘴形),我们就能改变声音的共振峰。我们之所以能够区分不同的人声、元音,主要也是依靠它们的共振峰分布的位置。
存在问题
与基音提取类似,共振峰估计也是表面上看起来很容易,而实际上又受很多问题困扰。这些问题包括:
(1)虚假峰值。在正常情况下,频谱包络中的极大值完全是由共振峰引起的。但在线性预测分析方法出现之前的频谱包络估计器中,出现虚假峰值是相当普遍的现象。甚至在采用线性预测方法时,也并非没有虚假峰值。为了增加灵活性会给预测器增加个额外的极点,有时可利用这些极点代表虚假峰值。
(2)共振峰合并。相邻共振峰的频率可能会靠的太近而难以分辨。这时会产生共振峰合并现象,而探讨一种理想的能对共振峰合并进行识别的共振峰提取算法存在很多实际困难。
(3)高音调语音。传统的频谱包络估计方法是利用由谐波峰值提供的样点。高音调语音的谐波间隔比较宽,因而为频谱包络估值所提供的样点比较少,所以谱包络的估计就不够精确。即使采用线性预测进行频谱包络估计也会出现这个问题。在这样的语音中,线性预测包络峰值趋向于离开真实位置,而朝着最接近的谐波峰位移动。
参数解释
共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含在语音频谱的包络中。因此共振峰参数提取的关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。利用语音频谱傅里叶变换相应的低频部分进行逆变换,就可以得到语音频谱的包络曲线。依据频谱包络线各峰值能量的大小确定出第1~第4共振峰。
计算合成
而在计算机的数字合成环境下,共振峰主要是通过音频数字来计算的。共振峰区尽管不直接与
基本频率的音高有关联,但或多或少有间接的影响。如人声的发声,如果
基频低于共振峰区,在共振峰区以下,人声的发声就会很丰富饱满,假如基频高于共振峰区,声音就会变形,使人很难发出正确的元音,因为人的生理条件在发出过高的音时会变形,共振峰也会变化。
共振峰合成是一种特殊的但却非常重要的合成理论,有时被看作是加法合成技术理论的一种。很多作曲家,如A.Wayne Slawson曾经精确地使用共振峰理论作为一种作曲要素。
当然,还有许多其他实现
音色变化的合成技术,共振峰合成只是适度、精确地达到音色实现效果的其中一种。
信号提取
提取语音共振峰的方法比较多,常用的方法有倒谱法、LPC(
线性预测编码)谱估计法、LPC倒谱法等。
(1)基于线性预测(LPC)的共振峰求取方法。一种有效的频谱包络估计方法是从线性预测分析角度推导出声道滤波器,根据这个声道滤波器找出共振峰。虽然线性预测法也有一定的缺点,例如其频率灵敏度与人耳不相匹配,但对于许多应用来说,它仍然是一种行之有效的方法。线性预测共振峰通常有两种途径可供选择:一种途径是利用一种标准的寻找复根的程序计算预测误差滤波器的根,称为求根法;另一种途径是找出由预测器导出的频谱包络中的局部极大值,称为选峰法。
(2)倒谱法。声道响应的倒谱衰减很快,在[-25,25]之外的值相当小,因此可以构造一个相应的倒谱滤波器,将声道的倒谱分离,对分离出来的倒谱做相应的反变换,就可以得到声道函数的对数谱,对此做进一步处理即可求得所需的各个共振峰。
方法应用
基于线性预测(LPC)的应用技术现状
肺部气流冲击声带通过声道的响应,形成语音。不同的声道形状产生不同的声道响应,导致不同的语音。就声道的数学模型,主要有两种观点:
a.把声道看作由多个不同截面积的声管串联而成,即声管模型;
b.把声道看作谐振腔,共振峰就是该腔体的谐振频率,即共振峰模型。
因人耳听觉的柯替氏器官就是按频率感受而排列其位置的,因而,实践证明共振峰模型方法是非常有效的。共振峰是描述语音信号特征的重要参数,所以,准确有效的共振峰提取算法对语音信号的分析、台成、编码有重要意义。
线性预测编码(LPC)是进行语音信号分析、语音信号编码最有效的技术之一 其重要性在于提供了一组简洁的语音信号模型参数,比较精确地表征了语音信号的幅度谱,而分析它们所需的计算量相对而言并不大口 语音信号共振峰的LPC分析方法的一个主要特点在于能够由预测系数构成的多项式中精确地估计共振峰频率和带宽。在过去的研究中,已有许多利用LPC分析提取共振峰方法被提出 。
倒谱法的应用技术现状
倒谱法根据对数功率谱的逆
傅立叶变换,能够分离频谱包络和细微结构,很精确地得到基音频率和共振峰信息,但它的运算量比较大。当采用无噪语音时,用倒谱进行基音提取的效果是很理想的。然而当存在加性噪声时,在对数功率谱的低电平部分会被噪声填满,从而掩盖了基音谐波的周期性。这意味着倒谱的输入不再是纯净的周期性成分,而倒谱中的基音峰值将会展宽,并受到噪声的污染从而使倒谱检测方法的灵敏度也随之下降。在基音估计中还可以使用经过中心削波或三电平削波后的自相关方法,这种方法在信噪比低的情况下可以获得良好的性能。