基于电子病历大数据分析的疾病预测建模研究

作者:卢伟洪; 刊名:计算机产品与流通 上传者:刘志清

【摘要】本文从医学信息学的角度入手,基于电子病历大数据分析,进行了疾病预测建模的分析,首先介绍了疾病预测建模的步骤,技术人员需要进行电子病历数据的集成和清洗、填补和降维,再通过明确电子病历样本数据的基线精度,选择合适的算法完成疾病模型的建立;然后结合临床医学数据,进行了糖尿病预测建模,建模的结果显示,通过本文建模方法构建的糖尿病预测模型与真实结果具备较高的一致性。

全文阅读

理论探讨 2018.01 计算机产品与流通 247 基于电子病历大数据分析的疾病预测建模研究 □ 卢伟洪 摘要:本文从医学信息学的角度入手,基于电子病历大数据分析,进行了疾病预测建模的分析,首先介绍了疾病预测建模的步骤,技术人员需要进行电子病历数据的集成和清洗、填补和降维,再通过明确电子病历样本数据的基线精度,选择合适的算法完成疾病模型的建立;然后结合临床医学数据,进行了糖尿病预测建模,建模的结果显示,通过本文建模方法构建的糖尿病预测模型与真实结果具备较高的一致性。 关键词:电子病历;大数据;疾病预测 信息时代的到来促进了医疗行业的信息化发展,大部分患者的诊疗记录都通过电子病历的方式进行存储。电子病历的出现不仅意味着病例记录的存储形式出现了变化,还实现了医疗信息资源的共享。电子病历信息数据包含众多有价值的信息,如疾病的易发年龄、疾病间的关系等内容。在此基础上,基于电子病历的大数据分析,可以进行疾病的预测,本文主要对疾病预测建模进行分析。 一、基于电子病历大数据分析的疾病预测建模研究 (一)电子病历数据的集成和清洗 电子病历数据有多种类型,再加上医院的信息化建设程度不一,在患者诊疗信息数据库的构建方面缺少统一的标准。所以在进行疾病预测建模之前,需要对电子病历的数据进行集成和清洗,为疾病预测建模提供完善的数据信息。 首先,电子病历数据的集成,电子病历数据包括结构化、半结构化以及非结构化这三种,分为基本信息、费用数据、生理生化数据以及用药数据等多个种类,这些数据会根据来源存储于相应的数据库。要想对电子病历进行大数据分析,首先要将分布于不同数据库的电子病历数据进行集成。 然后,电子病历数据的清洗,在实际的电子病历数据中,包括很多无价值的噪声数据,这些数据会对大数据分析的结果造成影响。因此,技术人员需要对集成的电子病历数据进行清洗,对电子病历中的错误、重复以及异常数据进行净化、降噪以及去冗余等处理。另外,技术人员还需要根据 MeSH 词表的内容对电子病历数据进行规范化处理,为疾病预测建模的数据识别奠定良好的基础。 (二)电子病历数据的填补和降维 在进行电子病历大数据分析时,缺失的数据会对分析的结果和分析的效率造成负面影响。因此,技术人员需要进行电子病历数据的填补,常用的数据填补方法有回归填补法、均值填补法以及多重填补法等。其中,应用最为广泛的是均值填补法,该方法主要是根据疾病的关联因素,将电子病历数据分为多个层次,分别求出平均值,使用平均值填补缺失的数据。 与此同时,技术人员还需要对电子病历数据进行降维处理,通过对电子病历数据维数的降低,选出具有代表性的数据进行分析。在电子病历大数据分析中,数据的降维可以降低电子病历数据的复杂性,对疾病预测建模的算法选择与结果分析提供便利。常用的降维方法有以下三种:(1)通过主成成分分析,提取出电子病历数据中特征根在1以上的因子;(2)通过拉普拉斯特征映射,提取出电子病历数据中特征向量;(3)通 过线性判别分析方法,提取出电子病历中具有相关性的因子。分别应用三种降维方式所得的样本数据进行建模,选出最佳模型用于疾病预测。 (三)疾病预测建模 在经过集成、清洗、填补以及降维处理之后,电子病历的数据满足大数据分析的要求,体现出可分析的状态。通常来说,在三种降维方法处理之后,电子病历数据分为四个数据样本,分别是没有降维处理的原始数据和三种处理方式所得的数据,然后明确原始数据的基线精度,通过机器学习工具进行数据样本的划分、相关参数与算法的选择,从而完成疾病预测建模,进行预测模型的可视化;最后,通过多种评价方式(Kappa 指标评价预

参考文献

引证文献

问答

我要提问