单体型组装问题参数化建模及算法研究

作者:谢民主 刊名: 上传者:李娜

【摘要】 分析和识别单体型对复杂疾病致病基因的精确定位有重要作用。单体型组装问题是利用个体DNA测序片段数据推出该个体一对单体型的计算问题。根据不同的优化准则,单体型组装问题有MSR、MFR、MEC和MEC/GI等计算模型。单体型组装问题的绝大部分计算模型都被证明是NP-难的,缺乏实用的精确算法。 在实际DNA片段数据中,一个片段所覆盖的最大SNP位点数k_1通常小于10,覆盖一个SNP位点的最大片段数k_2通常不大于19。基于以上事实,本文对MSR和MFR进行参数化建模。在此基础上,为求解无空隙的MSR和MFR,本文设计了时间复杂度分别为O(nk_1k_2+mlogm+mk_1)和O(mk_2~2+mk_1k_2+mlogm+nk_2)的精确算法P_MSR和P_MFR,其中m为片段数,n为单体型的SNP位点数;为求解有空隙的MSR和MFR,本文设计了时间复杂度分别为O(2~knk_1k_2+mlogm+nk_2+mk_1)和O(2~kmk_1k_2+2~(3k)mk_2~2+mlogm+nk_2+mk_1)的精确算法PG_MSR和PG_MFR,其中k为片段中最大洞数。大量实验结果表明,在Bafna等的对应算法基础上,上述参数化算法的效率显著提高,适用于全基因组规模上的单体型组装。 针对长的mate-pair中洞的个数较多的情况,本文提出了求解MSR和MFR时间复杂度分别为O(nk_1k_22~(2h)+k_12~h+nk_2+mk_1)和O(nk_23~(k_2)+mlogm+nk_2+mk_1)的参数化精确算法PM_MSR和PM_MFR,其中h为覆盖同一SNP位点且在该位点取空值的片段的最大数。在实际的DNA测序数据中,k_2通常不大于19,而h不大于17,理论分析和实验结果均表明PM_MSR和PM_MFR算法所需的时间与片段中洞的个数的最大值k没有直接的关系,在片段数据中存在长mate-pair的情况下仍然能有效计算。 根据实际DNA测序片段数据的特点,本文对MEC和MEC/GI进行参数化建模,进而设计出求解这两个模型时间复杂度均为O(nk_22~(k_2)+mlogm+mk_1)的精确算法P_MEC和P_MEC/GI。实验结果表明,在片段数达到100,Wang等提出的分支限界算法已无法运行的情况下,P_MEC、P_MEC/GI和Wang等提出的遗传算法一样,仍然能快速运行。而作为精确算法,P_MEC和P_MEC/GI在单体型重构精度上比Wang等对应的遗传算法有明显优势。 为了提高单体型的重构精度,本文提出了一个基于加权片段数据和有误差基因型的单体型组装问题计算模型WMEC/GS,然后证明了即使片段中无空隙其也是NP-难的。进而根据片段数据的特点,提出了求解该模型的时间复杂度为O(nk_22~(k_2)+mlogm+mk_1)的参数化算法P_WMEC/GS。对MEC/GI、WMLF和WMEC/GS三模型的大量实验表明WMEC/GS模型具有最高的单体型重构精度。

全文阅读

亥公仁~ 之参二了扮之 只、 二声未 万尸 益z妇‘ ,了, 崔 如乡 笋 可鬓多 矛 了公 悠‘爷‘‘ 夕尧二 三性 少钟 气立 于护 、竺几、打 飞二务 。必.蕊尹 ~~~一 份,V冲 认巴1圣拓 ‘诊老二赶二书拿会 公产‘‘流甲、)又劫- 公右欲公‘吞户尸 云之之 公‘遥喊盈勺八嘴舀‘J 二夕亏芯,沙勺七二性司了 苏奋 ;丫二夕公 介 钻 、少 下与 /七一 务: 勺、妇 、是沪 一‘二‘, 亡_七 夕生 天主 算视应震技 术 、 一一寸了水荡钦 者科 ,份 兰全 戮二、。 j/二2. 分全 勺奋叫、甘 象彭学兰 苏昊 等 ~,.,曰,阶一、尹 瞬 石沪护味护 /丫、 汾卜 苏毛 户~~巴 声共; ,写, 夕‘ 忿 冻建二教授 王建新教授 汉不 言 学 大年 二C公八 下翔 ,,‘目户啼了,日 瓜 分类号TP393 学号043310030 VDC 博士学位论文 单体型组装问题参数化建模及算法研究 ResearchonParameterizedModelsandAlgorithmsfor theHaplotyPeAssemblyProblem 作者姓名:谢民主 学科专业:计算机应用技术 学院(系、所):信息科学与工程学院 指导教师:陈建二教授 副指导教师:王建新教授 论文答辩日期 答辩委员会主席 中南大学 二00八年五月 CentralSouthUniversity ResearchonParameterizedModelsandAlgorithmsfor theHap10tyPeAssemblyProblem ADissertationsubmittedfor theDegreeofDoetorofPhilosoPhy By MinzhuXIE SuPervisor:ProfessorJianerCHEN ProfessorJianxin认叭NG May2008 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:碍,氏屯日期:丝年二月二日 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》, 并通过网络向社会公众提供信息服务。 作者签“:蝉”~睦日期:‘年J、 分析和识别单体型对复杂疾病致病基因的精确定位有重要作 用。单体型组装问题是利用个体DNA测序片段数据推出该个体一对 单体型的计算问题。根据不同的优化准则,单体型组装问题有MSR、 MFR、MEC和MEC/GI等计算模型。单体型组装问题的绝大部分计 算模型都被证明是NP-难的,缺乏实用的精确算法。 在实际DNA片段数据中,一个片段所覆盖的最大SNP位点数 k_1通常小于10,覆盖一个SNP位点的最大片段数k_2通常不大于19。 基于以上事实,本文对MSR和MFR进行参数化建模。在此基础上, 为求解无空隙的MSR和MFR,本文设计了时间复杂度分别为 O(nk_1k_2+mlogm+mk_1)和O(mk_2~2+mk_1k_2+mlogm+nk_2

参考文献

引证文献

问答

我要提问