大型软件系统数据质量问题研究

作者:包阳;齐璇;李海龙 刊名:计算机工程与设计 上传者:宋晓铮

【摘要】针对当前大型软件系统因支撑数据的质量问题给整个系统带来的直接或潜在危害,深入分析了产生数据质量问题的根本原因、易发阶段、严重等级等相关要素,剖析了科学的数据质量管理制度和完备的数据质量管理体系,提出了数据采集、数据整合、数据清洗、数据挖掘等先进的数据质量控制工作原理。以基于分类模式的数据挖掘技术为例,介绍实现数据质量控制的典型方法,从而使得大型软件系统在研制和维护过程中可通过所研究的标准、体系和方法基本形成适用于各领域系统数据质量问题的高效预防措施和最佳解决方案。

全文阅读

0引言当前,给大型软件系统研制和维护过程经常带来困惑的一个因素就是海量数据的可靠性和准确性,特别是信息爆炸时代数据量的指数倍增加给在数据结构、数据表示和数据存储系统等使用和维护上都带来不同程度的约束和影响,而目前很多研究领域已经在处理海量数据、数据异构性和复杂查询等方面取得了很大成功,如数据量方面的并行处理、数据网格以及现在流行的云计算,在异构性方面的标准化、本体及语义网和最近出现的数据空间方法,在复杂查询方面的数据挖掘、多维空间数据库检索等,均已衍生出很多先进研究理论和显著科研成果,但是,在对制约和影响数据利用率的最大因素“数据质量”上进行的研究却还很有限,这势必会因低下的数据质量造成开发出来的系统往往与用户的预期大相径庭。1研究背景目前,随着广域网、局域网、专业设备通信网的不断普及和更新,软件系统所依赖的数据范围也随之延伸和拓展,特别是大型系统数据源多是由自动生成工具、专业采集设备以及数据基础设施产生和维护的,而且应用范围和数据量已在这十几年里呈指数性增长。但是,这种急剧增长势必会对运行环境、信息准确性、数据冗余性、计算算法合理性等相关指标提出更高要求,甚至会带来软件研制与测试阶段无法预见的附加影响,究其原因,主要有以下几个方面:(1)数据量的增加使数据管理和处理的复杂性增加。海量、远程和不断变化的数据对数据存储、提取和处理的要求发生了根本改变,而且因实际运行状态下大量递增数据所需的硬件条件、专业环境以及操作技能等主客观因素,很多是在软件研制期间和测试期间所不具备的,甚至存在着因量变导致质变的极大风险性。(2)数据量的增加使得数据异构性增加。除在数据结构、数据表示和数据存储系统方面的异构性,面对大量半结构化数据、非结构化数据、流数据、动态结构实体数据及多媒体数据,也存在着因局部内在质量因素破坏全局数据的变化和递增。9642011,Vol.32,No.3计算机工程与设计ComputerEngineeringandDesign(3)对“有价值”信息的期望值大大增加。这主要是针对具有辅助决策作用的系统平台考虑的,从以往的简单报表和复合查询发展到如今用多维复杂条件对大量语义数据进行综合分析和分类统计,以及对数据关联、相似规律及模糊趋势的抽象概括及基于知识的检索,都是对“有价值”信息的高度利用,但往往因其质量完备性、动态准确性和长期稳定性等问题困扰着价值信息的真正体现。(4)数据质量同数据过程环节增加成比例下降。这种现象特别存在于人为干预操作、分布式数据管理、接口繁杂、通信渠道广泛等应用背景,一旦其中某一环节没有严格按照要求执行,以及可能受到自身或者外界故障因素的干涉,必然会对软件的运行和维护带来不利影响,甚至会消耗大量的人力物力查找、分析和修改问题。2数据质量概念数据质量可以从应用角度与自身特性两个方面定义[7]:就数据应用角度讲,可从是否能满足指定应用的要求来衡量,也就是对应用而言数据是否是可信的和可解释的,即如果一批数据能从各个方面经过验证并满足所在应用的要求,那么这批数据对这些应用来说就是高质量的。就数据质量本身主要体现在两个方面:一是数据本身的数据质量,主要包括数据真实性、数据自洽性、数据完整性、数据逻辑一致性、数据精确性、数据时效性、数据可用性、数据可信性以及一些关于体现数据质量特征的属性;二是数据的过程质量,主要包括数据的使用质量、数据的存贮质量、数据的传输质量。影响数据质量的因素也主要归结为数据内在因素、应用环境、数据表述和数据存取4大类。而对于数据源,根据待处理的是单数据源还是多数据源以及质量问题出在模式层还是实例层,可分为单数据源模

参考文献

引证文献

问答

我要提问