区间数分级决策的特征选择方法研究

作者:宋鹏;梁吉业;钱宇华;李常洪; 刊名:中国管理科学 上传者:朱小明

【摘要】在多属性决策分析中,科学的特征选择方法有利于提取关键决策指标,进而求解决策方案并提升决策效率.本文面向区间数分级决策问题,以区间数优势关系为序化信息刻画的基本手段;基于粗糙集与信息熵理论,通过分析条件属性与决策属性序相关性的决策内涵,提出了一种新的特征评价函数——区间序补集条件熵.在此基础上,基于区间序补集条件熵的变化程度,给出了必要属性的形式化表示与属性重要度的度量准则,进而设计了区间数分级决策表的启发式特征选择算法.最后,通过两个案例研究,验证了特征选择方法的有效性.

全文阅读

1引言在管理科学与决策科学的发展进程中,多属性决策作为其重要组成部分,也取得了诸多重要的研究成果[1-6]。就多属性决策而言,其可分为选择、排序、分类/分级三大类研究问题[7-8]。然而,需要指出的是,尽管相关研究将分类/分级问题归入了同一类别,但本质上,分类与分级问题具有显著区别。在分类问题中,类别之间没有等级关系;而分级问题,其类别之间具有优劣关系,即有序的分类。实际上,分级决策(Sortingdecision)广泛的存在于决策实践中,如能源效率评价、风险评级、城市评价、企业效益评价、组织冲突分析等[9-13]。在分级决策中,决策者需要基于相关的评价指标集(或称特征集、属性集等),着眼于问题求解的决策目标,进而对备选方案开展决策分析研究。然而,在众多的评价指标中,往往存在不相关或冗余的属性。这些不相关或冗余的指标,不仅仅会增加决策成本,也将影响决策性能。当然,这也是多属性决策的共性问题。为了有效提升决策性能与决策效率,旨在挖掘符合决策目标的关键特征的特征选择方法受到了更多的关注[14-17]。就特征选择方法而言,其一般可分为两大类:封装式(Wrapper)、过滤式(Filter)。比较而言,前者在进行特征选择时需结合随后的学习算法来评价候选的特征子集;后者则基于特定的评价函数,通过考查特征之间、特征与决策目标之间的关联程度,从而求解关键特征子集。从决策分析的内涵目标来看,紧密围绕决策问题目标,进而获取重要的特征子集,更有利于决策者在决策全流程中的监督和控制,因此,本文重点探讨过滤式特征选择方法。就过滤式方法而言,特征评价函数的选择是核心环节。从现有研究进展来看,为了保证特征选择效果,人们从不同视角尝试不同的特征评价函数,如距离度量、依赖性度量和信息度量等[18]。在上述特征评价函数中,基于信息度量的特征评估准则,由于其无需假设数据分布已知,且能够考查特征间的非线性关系,因此,在特征选择方法的研究中备受关注[16,19-20]。需要进一步强调的是,由于粗糙集方法能够在保持分类能力不变的条件下有效开展属性约简并提取决策规则,因此,基于粗糙集与信息熵结合的特征选择方法的研究成果也不断涌现。Jensen和ShenQiang[21]着眼于保持决策语义不变的视角,提出了粗糙特征选择方法和模糊粗糙特征选择方法。针对经典粗糙集方法需要进行数据离散化的预处理步骤进而引致信息损失的问题,Parthalin和ShenQiang[22]基于相容粗糙集模型给出了一种可以处理连续性数值的特征选择算法。面向特征选择方法计算耗时的共性困难,QianYuhua等[23]基于正向近似概念,针对Shannon熵、补集条件熵、组合熵等不同的特征评价函数给出了一类通用的特征选择加速方法。面对实际决策环境中,数据样本呈现动态增加形式的现实问题,LiangJiye等[24]通过分析信息熵的增量机制提出了一种具有批增量处理能力的粗糙特征选择算法。Tseng和Huang[25]则将基于粗糙集的特征选择方法应用于客户关系管理研究中。可以看出,基于粗糙集与信息熵结合的特征选择方法为有效提升特征选择的决策性能与计算效率提供了一条可行的研究路径。需要进一步指出的是,在现实的决策分析中,由于决策问题的不确定性以及决策者的不同偏好,人们面对的数据形式也往往呈现模糊值、缺省值、区间值等复杂形式[26-31]。相应地,相关学者围绕不同的数据表示形式开展了系列的特征选择方法研究。HuQinghua等[32]面向具有名义型、数值型和模糊型混合数据的决策表,运用粗糙集模型和模糊粗糙集模型,给出了基于条件熵的特征选

参考文献

引证文献

问答

我要提问