结合功能预测值与Variable Threshold检验法研究非同义SNP

作者:闫璐颖;华琳;闫岩 刊名:中国组织工程研究 上传者:吴冬原

【摘要】背景:目前,随着全基因组关联分析的开展,成千上万的SNP基因型测序已经使遗传流行病学的研究进入一个新的阶段。通常,识别疾病相关的遗传位点依赖于DNA序列的单个碱基改变,而其中的一些改变可能影响蛋白质的结构和功能。因此出现在编码区域并导致氨基酸替代或插入的非同义SNP由于改变了氨基酸序列,更倾向于影响与复杂疾病易感性相关的蛋白质功能。目的:结合非同义SNP的功能预测分数和Variable Threshold(VT)检验提高复杂疾病易感基因识别的准确率。方法:文中首先对非同义SNP,计算它们的SIFT分数值和Polyphen-2分数值。然后筛选了35个疾病基因,对这些基因采用加权的VT检验进行分析,并与传统的关联分析进行了比较。结果与结论:结果显示结合了SNP功能预测分数的VT检验,检验效能要高于传统的关联分析,提高了风险基因识别的准确率。

全文阅读

0引言随着人类基因组计划的实施,复杂疾病的基因定位的研究已成为备受关注的焦点。复杂疾病区别于单基因疾病不仅在于其受到多个基因控制,而且多个基因间又存在交互作用,因而在表型和基因型间并不只存在简单的一一对应关系,这就给研究者提出了新的挑战。目前很多研究都集中在挖掘新的遗传位点上,比如传统的统计遗传学方法多是研究疾病和单点基因的连锁和关联,如LOD计分法[1]、患病同胞对(ASP)法和患病家系成员(APM)法等[2-3]。一些对于多基因的定位方法如logistic回归分析,多因子降维等近年来也备受研究人员的关注[4]。而另一方面,稀有变异位点(最小等位基因频率MinorAlleleFrequency,MAF<5%)被证实可能与疾病的风险性关联更大。目前,有很多统计学方法可以探查稀有变异位点与疾病的关联程度,但统计效能并不很高,一方面是由于小的观察样本量,另一方面来自于测序误差。因此,提高统计效能是识别风险位点的关键因素。最近,有文献报道了统计效能较高的VariableThreshold(VT)检验方法[5],该方法的特点是可以结合位点的功能进行分析。此外,一些DNA序列的单个碱基改变可能影响蛋白质的结构和功能。因此出现在编码区域并导致氨基酸替代或插入的非同义SNP(non-synonymousSNP,nsSNP)由于改变了氨基酸序列,更倾向于影响与复杂疾病易感性相关的蛋白质功能。根据以往报道,目前有2种常用的预测有害突变的功能预测分数(Polyphen-2[6]和SIFT[7]),它们能够部分的反应出非同义SNP的功能。本文中,作者将这两种常见的位点功能预测值(Polyphen-2和SIFT)与VT检验方法相结合来研究非同义SNP。首先对非同义SNP,计算出它们的SIFT值和Polyphen-2值。然后筛选出部分易感基因,对它们采用加权的VT检验方法进行分析。分析的结果表明结合SNP功能预测与VT检验,识别出的风险基因的检验效能要高于传统的关联分析。1方法1.1数据群体数据:采用的数据是GeneticAnalysisWorkshop(GAW)提供的GAW17数据[8]。该数据包含了1000个人类基因组计划数据,11组不同地区的人群(http://www.1000genomes.org)。人群总样本数为697。此外,该套数据提供了200个复杂疾病表型性状的数据,在这里我们仅选择第一种疾病表型进行分析。该数据中含有209个病例和488个正常对照。SNP基因型数据:该套数据中包含了全基因组24487个SNP基因型数据,作者仅选择稀有变异(rarevariants)的SNP位点,即这些位点的最小等位基因频率MinorAlleleFrequency(MAF)均小于5%。另一方面,编码区SNP有同义(synonymous)和非同义(non-synonymous)两种,非同义突变会导致氨基酸的变化,从而影响蛋白质的功能,特别是发生在结构功能区域的SNP尤其重要,在遗传学上可能与附近的其它致病基因的表达或者SNP连锁。可见,非同义SNP比同义的SNP在功能研究中更加重要,因此本实验中仅选择非同义SNP进行分析。最后,筛选出2696个稀有变异的SNP位点(MAF<5%),同时它们又都是非同义SNP。基因数据:根据该套数据提供的3205个基因,通过文献筛选出与第一种疾病相关的35个基因,每个基因至少含有2个SNP,以这些基因为基础进行VT检验。1.2计算SIFT和Polyphen-2分数采用SIFT(http://sift.jcvi.org/index.html)和Po

参考文献

引证文献

问答

我要提问