基于云理论的统计信息质量评估方法研究

作者:苏为华;周金明; 刊名:统计研究 上传者:赵玉彬

【摘要】针对当前统计信息质量评估方法存在的问题,本文给出一种基于云理论的统计数据质量评估方法。首先,确定云模型的评价等级语言粒度,对其进行软划分,并根据统计数据质量的评价指标体系从八个维度刻画数据质量评估云模型,利用云模型加权算术平均集成技术构造评价综合云;然后,结合云模型相似性的测度方法,根据综合云与评价等级云模型的相似度判断统计数据质量评估综合云的隶属等级。最后,通过实例表明本文方法的可行性和有效性,该方法可以作为统计数据质量评估和监管的一个参考。

全文阅读

一、引言对于经济统计定量分析而言,统计数据质量十分重要。如何采用科学的研究方法对数据质量进行有效评估是进行数据质量评估与管理的重要环节之一[1]。现有的数据质量评估方法主要有统计分布检验方法[2]、调查误差评估方法[3]、核算数据重估方法[4]、计量模型分析方法[5]、逻辑关系检验方法和多维度评估方法[6]等等。经济学理论是传统计量模型的基础,在给定的研究问题中确定研究对象,并利用与之相关联的影响因素构建数学模型,从而利用所构建模型实现数据质量评估的统计判断方法。计量模型的特点在于需要同时考虑研究问题的指标和潜在的变量。众所周知,经济系统具有丰富的内在结构,它是多个因素之间相互影响、彼此制约的有机整体[7]。刘云霞和曾五一(2013)提出将Benford法则与数据挖掘和异常值检测技术相结合,构建检验数据质量的方法,对面板数据进行有效处理(汇总与合并),并反复利用Benford法拓展该方法,以解决检验中样本量小或面板数据的样本观测数量不一致等局限性问题[8]。卢二坡和黄炳艺(2010)在生产函数模型框架下,通过使用不同的劳动投入数据,考虑稳健MM估计的异常值诊断方法并对国内生产总值的数据质量进行评估[9]。刘洪和黄燕(2007)则针对时间序列数据进行组合模型形式建模,利用对异常值的误差进行统计上的显著性检验,对统计数据质量进行评估[10]。然而,一方面,统计数据质量的影响因素相对较多,且因素的内涵和外延往往并不明确,具有模糊性;另一方面,评价主体对各种因素的评价也是模糊的。因此。可以考虑构建模糊综合评价模型对统计数据质量进行评估[11]。在定性评价的过程中,各种评价环境不仅存在一定程度的模糊性,还具有大量的随机性信息。如何处理定性指标的模糊性和随机性问题亟待解决,否则在统计数据质量评估中会存在信息的丢失和扭曲,从而影响评价结果的合理性。本文提出一种基于云模型的统计数据质量评估方法。云模型可以刻画模糊评价语言信息,在论域范围内,专家的语言变量由黄金分割法转换后得到云模型,而云模型在处理不确定性和随机现象时效果较好[12]。本文结合云模型相似性测度方法,进行统计数据质量的评估,尽可能保证评估的公正性和客观性;本文方法采用云模型加权算术平均集成技术构造综合云模型,并与评价等级云模型进行比较,测算云模型间的相似度,相似度越高,表明综合云模型隶属于该评价等级云模型的可能性越高。二、统计数据质量评估的指标体系随着统计数据的使用以及研究与决策中所依赖的数据量的增长,提高数据质量越来越困难,而如何定义数据质量以及如何评估和监管数据质量是面临的巨大挑战之一。狭义的统计数据质量主要是指数据的准确性,数据能否反映经济社会的现实情况是关注的焦点;随着社会发展和国内外学者研究的深入,统计数据质量的内涵不断拓展,已发展为一个多维度的综合性概念,主要体现在满足用户需求的程度,或者说满足使用者潜在需求的程度[13]。对统计数据质量的评估,国际上依然没有统一的评估标准。统计数据质量评估指标体系是政府统计机构依据具体国情、研究对象和用户需求等制定的,也是政府统计机构对统计数据进行质量检测、监管的重要内容和依据,尽管数据质量的评估指标体系不尽相同,但是并不影响指标体系间的共性,即随着时间的推移,指标体系呈多角度、全面化的发展趋势[14][15]。构建科学的评价指标体系必须具有全面性、科学性、可操作性等特点,本文借鉴许涤龙[11]给出的统计数据质量评估指标体系,主要包括统计数据内容质量、描述质量以及信息约束三个方面。从统计数据的内容质量来看,包括准确性、及时性与适用性等指标。评价统计数据

参考文献

引证文献

问答

我要提问