基于自适应超高斯混合模型的语音增强算法

作者:赵改华;周彬;张雄伟 刊名:数据采集与处理 上传者:提云凯

【摘要】语音信号的频谱结构复杂性决定了其短时谱分布不能用单一的概率密度函数(Probability density function,PDF)准确描述。据此,提出了一种采用超高斯混合模型对语音信号幅度谱建模以实现语音增强的新方法。首先,采用超高斯混合模型对语音信号幅度谱的先验分布进行建模,相对于传统的单一模型,该模型能更好地描述语音信号的多类特性;然后,在增强过程中自适应更新混合分量的PDF及其权重,从而克服了传统模型难以跟踪语音信号分布动态变化的缺点。仿真结果表明与传统的短时谱估计算法相比,该算法的噪声抑制性能有较大的提升,增强语音的主观感知质量也有明显改善。

全文阅读

引言在语音通信过程中,语音信号不可避免地会受到噪声的干扰,影响通信质量和语音信号的后续处理,语音增强技术是从带噪语音中尽可能提取原始纯净语音的重要手段,在提高语音可懂度、改善语音通信质量等方面有重要的应用。在众多的增强技术中基于统计模型的短时谱估计法以其复杂度低和相对有效的特点,长期以来受到了广大研究者的广泛关注。基于统计模型的短时谱估计语音增强算法,主要是在不同的语音和噪声先验分布模型假设条件下,依据一定的准则,如:最小均方误差(Minimummeansquareerror,MMSE)、最大后验概率(Max-imumaprosteriori,MAP)、最大似然值(Maxi-mumlikelihood,ML),对语音信号的短时谱进行最优估计。经典的基于统计模型的短时谱估计法是由Ephraim和Malah提出的基于高斯模型的最小均方误差短时幅度谱(Short-timespectralam-plitude-minimummeansquareerror,STSA-MMSE)[1]估计算法。对语音信号统计模型的深入研究表明,超高斯模型更符合语音信号的实际分布[2],据此,研究者提出了许多改进算法,例如文献[3~6]提出的基于超高斯语音模型的短时谱估计算法,包括基于超高斯模型的复频谱MMSE估计算法、基于超高斯模型的幅度谱MAP估计算法、基于Gamma模型的DCT域MMSE估计算法和基于超高斯模型的对数谱MMSE估计算法,相对于基于高斯模型的增强算法增强效果有所提升。上述增强算法都假设语音信号幅度谱服从单一的分布函数,而事实上,由于语音信号产生的复杂性及其非平稳性,其分布很难用单一的函数准确描述[7]。因此,研究者提出了一些利用较为复杂的混合模型为语音信号建模的新方法,如文献[8]提出的基于高斯混合模型复频谱MMSE估计算法,文献[9]提出的基于瑞利混合模型的幅度谱MMSE估计算法,近年来,研究者提出了一些高斯混合模型的改进模型来进一步提高增强效果,例如:文献[10]提出的基于高斯尺度混合模型的对数谱估计算法,文献[11]提出的基于超高斯混合模型的幅度谱MMSE估计算法。相对于采用单一模型的增强算法,增强效果有较大提高。然而,这些混合模型对每帧语音信号建模时所用的混合分量及其权重都是固定的,而事实上,语音信号幅度谱的实际分布是动态变化的,每个混合分量与当前语音信号的相似度也是变化的,因此,固定的权重并不合理。同时,有些混合分量与当前语音信号相差较大的,将其引入混合模型不利于逼近当前语音信号的实际分布[12]。针对上述算法存在的问题,本文提出了一种基于超高斯混合模型的语音增强算法。首先,采用EM算法将语音信号分为多个分量;然后,在增强过程中选择与当前帧相似度较大的部分混合分量,并利用初始增强语音更新选中混合分量的概率密度函数(Probabilitydensityfunction,PDF);其次,估计对应每个选中混合分量的幅度谱最小均方误差估计式,并依据混合分量与当前帧的相似度更新对应的子类增强语音的权重;最终的增强语音由子类增强语音的加权和获得。1传统短时谱估计算法假设s(n)表示纯净语音信号,x(n)表示加性噪声信号,那么时域带噪语音信号可表示为y(n)=s(n)+x(n),对时域带噪语音信号进行分帧、加窗和STFT变换,得到带噪语音信号在频域内的表示为Y(k,l)=S(k,l)+X(k,l)(1)式中:l(l=0,1,2,…)表示帧序号;k(k=0,1,…)表示频带序号,用幅度和相位表示为Rlkexp(jk)=Alkexp(jk)+Dlkexp(jk)(

参考文献

引证文献

问答

我要提问