遗传算法-偏最小二乘法用于卵巢癌血清蛋白质组数据的特征挑选

作者:潘义;郑波;向杰;文志宁;刁元波;李梦龙 刊名:四川大学学报(自然科学版) 上传者:颜涌泉

【摘要】统计学t检验结合引入的变量筛选方法——遗传算法-偏最小二乘法(GAPLS)对卵巢癌SELDI-TOF MS数据进行特征筛选,从15154个原始变量中筛选得到4个特征质荷比值,采用支持向量机(SVM)模型的留一法交叉验证结果为95.26%.结果表明这4个质荷比值具有重要的生物学意义,它们或许可以作为卵巢癌的生物标记物,同时GAPLS可以作为一种有效的蛋白质组数据的特征筛选方法.

全文阅读

1引言蛋白质组学(Proteomics)以蛋白质组为研究对象,通过采用各种模式识别方法对正常个体及病理个体间的蛋白质组数据进行比较分析,可以找到某些“疾病特异性的蛋白质分子”,它们可成为新药物设计的分子靶点,或者也会为疾病的早期诊断提供分子标志.同时,对人体血清样本的蛋白质组研究能为我们提供新的高灵敏度的早期癌症临床诊断工具[1].因此,寻找新的特征蛋白质组来发展有效的早期癌症临床诊断工具,是当前蛋白质组学的研究热点.卵巢恶性肿瘤是女性生殖系统三大恶性肿瘤之一,各种年龄均可患病,但以20~50岁最多见.由于临床症状隐匿,缺乏有效的早期诊断方法,超过80%的患者就诊时已为晚期,很少能得到早期治疗,5年生存率始终徘徊在20~30%,死亡率居妇科恶性肿瘤之首.据2001年的一份统计资料表明,美国每年有23400个新发病例,并且预计当年有13900名妇女死于卵巢癌[2].因此早期诊断、早期治疗对卵巢癌的预后起关键作用.近年来,已有很多关于模式识别方法跟各种癌症蛋白的质谱相结合进行标记物挑选的从而进行早期诊断的文献报导,如卵巢癌[3,4],前列腺癌[5,6],膀胱癌[6,7]和乳腺癌[8]等.其中卵巢癌数据(OvarianDataset8-7-02)源自临床蛋白质组数据库网站(NCI-FDAClinicalProteomicsDatabank[http://home.ccr.cancer.gov/ncifdaproteomics/ppatterns.asp]),多篇文献对该数据进行了报道.Sorace等采用Wilcoxon检验法得到3591个质荷比值特征,再用逐步判别分析方法构建诊断模型.他们所筛选得到的特征值中包括2.79与245.5这两个质荷比值,虽然用这2个值就可以全部正确的把癌症组跟正常组分开,但是作者把它们归结为非生物学实验偏差引起的,这种偏差的存在向传统的数据挖掘方法提出了挑战[9];Alexe等提出了一个基于组合优化的逻辑数据分析方法来构建卵巢癌诊断模型.他们所构建的模型仅由7~9个质荷比值构成,灵敏度和特异性都可以达到100%,表明质荷比值低于500的区域有很高的预测准确性[10];还有一些研究者采用了遗传算法[11,12]、Kolmogorov-Smirnov和小波分析[13]、t检验[14]等方法对该数据进行了特征筛选,但是最后的分类预测结果都不是很理想.这些研究偏重于分类效果,但结果却较少达到人群筛试的水平[12],同时也较少侧重于疾病特异性蛋白质分子的挑选.从疾病网络性改变的角度讲,抓住其中关键性的蛋白质改变对于阐述疾病的发生、发展及治疗都具有至关重要的作用,也应该是蛋白质组学研究的基本出发点之一.遗传算法是一种较为理想的特征筛选工具[15,16],Leardi等[17,18]提出了把GA与PLS结合起来发展的一个变量选择方法(GAPLS方法)并将其用于波谱数据中波长的特征选择,获得了令人满意的结果.我们尝试将统计学方法跟GAPLS法相结合作为特征变量的挑选方法用于卵巢癌蛋白质组数据(OvarianDataset8-7-02)的特征筛选,从15154个质荷比值中筛选出4个特征,对得到的特征值矩阵采用非线性的支持向量机(SupportVec-torMachines,SVM)进行分类研究,得到了比较好的结果.2卵巢癌血清蛋白质组数据的特征筛选和SVM分类研究我们的研究是通过化学模式识别的方法对该SELDI数据进行数据挖掘,希望能找出新的卵巢癌标记物,并构建一个新的、高效的卵巢癌临床诊断模型.我们将91个正常样本和162个癌症样本合并在一

参考文献

引证文献

问答

我要提问