用于基因预测的自适应滤波器的仿真研究

作者:马宝山;朱义胜 刊名:系统仿真学报 上传者:王平

【摘要】根据蛋白质编码区周期3行为,设计了两种用于基因外显子预测的窄带自适应滤波器,对基因序列进行滤波处理,获得了外显子的预测曲线;在此基础上,分析了最小均方误差(LMS)算法和递推最小二乘(RLS)算法用于基因预测的异同,通过比较滤波器参数和仿真曲线,表明递推最小二乘算法用于基因外显子预测优于最小均方误差算法。

全文阅读

引言随着人类基因组计划的完成,获得了海量的基因组方面的数据,对这些庞大数据的处理变得越来越重要。在这个领域中,传统和现代的信号处理方法一直发挥着积极的作用。单支DNA序列由四种碱基(base)链接而成,例如,………ATCCCAAGTATAAGAAGTA………字母A,T,C,G分别表示4种不同的碱基。如果把碱基A的标量序列定义成一个二进制的数字序列,例如:xA(n)=1000011001011011001???,其中1表示A存在,0表示A不存在,其它碱基的标量序列也可以类似的定义。这样由字符组成的序列转换成了数字序列,如果算法可行,就可能用数字信号处理的方法来进行基因分析[1]。1用数字信号处理的方法预测基因对于真核细胞的DNA序列,大多数的外显子具有周期3行为,而内含子则没有该行为[5]。有许多理论可以解释这种行为,一般认为是由于在密码子转变成氨基酸过程中存在着编码偏好性。目前,DNA中的周期3行为已经广泛地用于发现新DNA序列中的外显子。文献[1]用优化程序增强了传统傅立叶变换识别基因外显子的性能,通过改进算法辨识出基因中蛋白质编码区。文献[2]通过IIR数字滤波器(组)对基因标量序列滤波,克服了背景噪声,获得了较好的编码区预测曲线。文献[6]将平均幅值差分函数(AMDF)和时域周期图法(TDP)用于外显子的预测,并通过仿真证明了这两种方法的有效性。文献[7]用不同的窗函数来研究短时傅立叶变换(STDFT)方法对基因外显子的预测效果,证明加窗函数能降低背景噪声。文献[8]提出了一种基于多维伪F统计量的基因表达动态K-均值聚类算法,文献[9]将LVQ神经网络方法用于蛋白质二硫键的预测,实验表明这两种方法是有效的。2LMS自适应滤波器目前许多基因预测算法都是基于已知的基因序列,例如同源比较算法是完全依赖于已知的序列,隐马尔科夫模型(HMM)等算法都需要对已知的基因信号进行学习或训练,由于训练所用的序列有限,所以对那些与学习过的基因结构不太相似的基因,这些算法的预测效果就不够理想了。而信号处理中的自适应滤波技术可以弥补这个缺点,它的特点是可以自动地调节算法中的参数,而在滤波器设计时,只需要数完全相同。设x(n)为滤波器输入信号,y(n)为输出信号,w(n)为滤波器权系数,d(n)为期望响应信号,则滤波器在n时刻的估计误差(n)=d(n)?wT(n)x(n)(1)均方误差J(n)=E{(n)2}=E{d(n)?wT(n)x(n)2}(2)上式定义为目标函数J(n),则J(n)对滤波器权向量w的梯度为?J(n)=?2E{x(n)[d(n)?xT(n)w(n)]}(3)上式中数学期望E{x(n)d(n)}和E{x(n)xT(n)}分别用它们的瞬时值x(n)d(n)和x(n)xT(n)来代替,得到目标函数梯度向量的估计值??J(n)=?2x(n)[d(n)?xT(n)w(n)](4)根据最陡下降法()(1)2w(n)=w(n?1)?1n?Jn?(5)其中(n)为更新步长,用目标函数梯度向量的估计值??J(n)代替真实值?J(n),可以得到w(n)=w(n?1)+(n)e(n)x(n)(6)式中先验估计误差e(n)=d(n)?wT(n?1)x(n)(7)故基本LMS算法可归纳为()(1)()()()()()(1)()()()ynwTnxnendnynwnwnnenxn???==????=?+(8)利用自适应LMS算法预测基因外显子,原理如图1所示。因为算法中需要一个理想的输出信号d(n),根据基因外显子的周期3行为,构造一个理想的周期3信号作为期望信号。用滤波

参考文献

引证文献

问答

我要提问