基于GMM-UBM说话人模型的连续自适应算法研究

作者:张正平;张丽娜;贺松 刊名:通信电源技术 上传者:胡晓梅

【摘要】实际应用中与文本无关的说话人识别研究,模型训练的说话人语音一般是有限的。此外,由于说话人自身生理因素的改变、外部采集环境的变化等都可能会导致说话人语音的声学特征发生改变。因此,代表说话人模型的特征分布也在不断变化,从而造成说话人识别系统识别率下降。文中在说话人自适应技术的基础上,提出了说话人模型的连续自适应算法,解决了因说话人自身声学特征的变化导致识别率下降的问题。

全文阅读

0引言伴随着科学技术的不断发展,各种各样的生物认证技术层出不穷。这些新技术的产生和使用,使得原先以密码等方式的认证方法得到了极大的改变,人们更趋向于使用生物认证技术来提高安全性。说话人的识别,又可称声纹识别,是由计算机利用语音波形中所包含的反映特定说话人生理和行为特征的语音特征参数来自动识别说话人身份的技术。说话人识别技术按任务可分为说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)两类,说话人辨认是把待测说话人的语音判定为属于多个参考说话人之中的某一个,是多者选一的问题。说话人确认则是根据待测说话人的语音,确定是否与其所声称的参考说话人相符。1通用背景-高斯混合模型GMM-UBMGMM可用于文本无关的声纹识别系统,通过若干个高斯概率密度函数的线性组合来逼近任意分布,从而模拟出各种形式的语音特征分布,以区分不同的说话人。高斯混合模型GMM可以很好地反应参数空间中训练数据的空间分布以及特征,现已广泛应用于文本无关的说话人确认系统中。其模型可用如下公式表示:p(x|λ)=∑Mi=1wipi(x)(1)式中,wi为混合权重,且满足∑Mi=1wi。该混合模型的概率密度函数是由M个高斯概率密度函数pi(x)加权求和得到的,每一个pi(x)由一个D×1维的均值矢量ui和一个D×D维的协方差矩阵∑i组成。则有:pi(x)=1(2π)D/2|∑i|1/2exp-12(x-ui)'(∑i)-1(x-ui{})(2)整个高斯混合模型由各混合分量的均值矢量、协方差矩阵以及混合权重来描述,用λ来表示该模型,有:λ={xi,ui,∑i}(i=1,2,…,M)。基于GMM-UBM的说话人确认系统主要分为三部分:UBM训练,说话人模型自适应,说话人确认测试。在系统中只用一个UBM代表说话人的统计平均发音特征。UBM模型训练需要大量说话人的话语,同时还要考虑说话人的男女比例,年龄比例等。UBM实际上是一个典型的规模较大的GMM,它尽可能准确地描述所有可能说话人的全部语音特征在整个特征空间的分布情况。2 MAP自适应算法2.1基于UBM的MAP自适应方法假设一个UBM的参数λΩ={(ωi,μi,∑i}(i=1,2,…,C),式中,C为GMM的混合阶数;说话人X的训练语音的特征向量序列为X={x1,x2,…,xT},首先计算该语音特征向量序列中的各个向量相对于每个UBM混元的概率得分。对于UBM中的任意混元i,特征向量xi对于它的后验分布概率为:p(i|xt,λΩ)=ωip(xt|μi,∑i)∑Cj=1ωjp(xt|μj,∑j)(3)其中p=(xt|μi,∑i)可由公式(4)求得:p(O|)=1(2π)d/2σ2exp-12∑Tt=1Ot-()σ[]2(4)本文采用只更新均值的方法。利用p(i|xt,λΩ)和xt来计算均值时所需的统计量:p(i|λΩ)=∑Tt=1p(i|xt,λΩ)(5)Ei(X)=1p(i|λΩ)∑Tt=1p(i|xt,λΩ)xt(6)最后,利用以上两个统计量来对UBM的均值进行更新,其对任意混元i的均值更新表达式如下:^μi=iEi(X)+(1-i)μi(7)自适应系数i控制着旧估计和新估计之间的均衡。对于每个混合成分和每个参数,自适应系数i的定义为:i=p(i|λΩ)p(i|λΩ)+γ(8)式中,γ是相关因子,是一个常数,一般选为16。2.2用MAP EM算法实现自适应EM算法(Expectation-maximization algorithm),即期望最大化算法。它常用于MLE

参考文献

引证文献

问答

我要提问