一种基于改进分布估计算法的统计模型选择

作者:周本达;施明华;万甜甜;赵义超; 刊名:皖西学院学报 上传者:魏田力

【摘要】回归模型是数据处理中的经典分析方法,在许多领域都有重要应用.回归模型的模型选择的常用方法是专家选择和完全模型法,但两者都过于依赖主观经验,影响系统的运行效果.针对选择回归模型问题的特点,在分布估计算法基础上设计了相应的概率矩阵,以赤池信息准则(AIC)和贝叶斯信息准则(BIC)作为模型选择的度量标准,提出了解决统计模型选择问题的改进分布估计算法.该算法基于遗传算法变异思想构造变异算子,基于免疫机理设计选择策略.最后,通过实例,将新算法与传统的遗传算法,以及经典的模型选择方法进行仿真比较,得出新算法在AIC、BIC值等各种指标上效果提高.

全文阅读

多元统计分析中的回归分析方法是一种广泛的数据处理法,它主要根据已知数据建立拟合程度良好的回归模型。建模过程涉及2个核心问题,即如何从众多解释变量当中选取重要变量(变量选择)以及如何选择恰当的函数表达形式(变换选择),一般称为模型选择问题。其实质相当于以下优化问题:利用调查数据对变量进行取舍、函数形式确定,建立变量间的相互依赖形式,使某种度量标准(统计准则)最优[1]。基本方法有逐步回归(stepwiseregression)、专家选择、完全模型法(CompleteModeling)等,但它们过于依赖建模者的主观经验和建模过程。近年来,随着分布估计算法、遗传算法和粒子群算法等智能算法技术的发展,一些学者将智能算法用于求解此类问题,并取得不错的效果[1,2]。分布估计算法(EstimationofDistributionAlgorithm,EDA)采用一种新型的进化机制,以遗传算法(GA)的遗传机制为基础,将统计学习规则和GA的隐并行性进行了有机结合,从而可以充分利用种群的全局信息建立个体的概率分布模型,依据概率模型对整个解空间进行学习、抽样产生新解,实现种群进化[3-6]。EDA在没有破坏积木块结构的基础上,既继承了GA通用、并行和强鲁棒性特点,又克服了传统算法对初始化敏感的缺点,可以大幅提高求解质量和效率[5]。但基本的EDA不能直接利用进化过程中的局部信息,也没有考虑种群中个体的多样性,更没有设计比较好的机制对局部最优解进行控制[7]。另外,基本分布估计算法没有考虑种群中个体的多样性,尤其在迭代后期会影响算法寻优性能,免疫算法[8]模拟免疫系统,依据抗体浓度构建繁殖策略,可以有效地保持种群多样性[8]。但免疫算法中抗体浓度的计算方法很多(如基于信息熵、欧氏距离、二进制的海明距离等),各有优劣,目前采用较多的是信息熵方法,但信息熵方法对二进制编码抗体间的相似度和浓度无法度量,对于间断函数或变化幅度较大的函数定义相似度和浓度度量也不太精确[8],并且其运行速度也较缓慢。本文将以基本的分布估计算法为基础,拓展个体编码方式,设计反映统计模型中变量选择和变换选择的选择矩阵,定义选择矩阵对应的概率模型矩阵。同时,结合免疫机理定义种群中个体相似度和个体浓度,计算个体期望生存概率,据此设计免疫选择策略和自适应变异算子,改进概率模型的更新方法,提出一种求解模型选择问题的改进分布估计算法。1分布估计算法及其改进分布估计算法解决问题的一般过程是:首先建立解空间的个体分布概率模型,然后对当前种群进行适应度值计算评估,依据选取规则选择优势个体组成候选集,采取统计学习手段更新对应的概率模型,再依据抽样规则对概率模型进行抽样,产生下一代种群[5]。1.1模型选择问题设X={X1,X2,…,Xn}是观察变量,X是X的子集,则模型选择问题就是选择合适的函数变换f:XTi(X),使得Y^=^0+^1T(X1)+^2T(X2)+…+^pT(Xp)在统计准则下最优,其中^0,^1,^2,…,^p为最小二乘法给出的参数估计。1.2选择矩阵及其对应的概率矩阵设X={X1,X2,…,Xm}是供选择的观察变量,其函数变换集合为T,对应方幂集合为E;设code=[t1,t2,…,tm,e1,e2,…,em]为对应的个体编码。其中ti表示变量Xi是否被选择,以及若选上,所对应的函数形式;ei表示对应的方幂。基于BilkentUniversityDataSets[9]、UCIDataSets[10]数据库提供的算例,文章假设T={0,1,2,3},E={-6,-5,-4,-3,-2,-1,1,2,

参考文献

引证文献

问答

我要提问