对非凸问题的一种特殊的二次增量算法

作者:郭亚宁; 刊名:湖北民族学院学报(自然科学版) 上传者:车秀杰

【摘要】由于机器学习蕴含着大量的数据,本文提出了一种名为二次增量算法并针对涉及大规模变量的一些光滑(可能是非凸的)函数之和的极小化问题.所提出的联合了增量方法的新颖算法能使所有子系统在一个强凸逼近函数作用下迭代到它们的最有值,并且保证收敛到函数的稳定点.之后应用所提出的算法框架去解决一个特殊的问题.数值实验表示所提出的算法是有效的.

全文阅读

考虑下面的无约束优化问题,其中目标函数是一系列可微子函数(可能是非凸函数)的和:minx∈Xf(x)=Ni=1fi(x)(1)其中X是一个非空闭凸集,并且每一个fi:X→Rn是二次可微(可能非凸的)函数.当f(x)是非凸函数时,求解问题(1)的全局极小值是非常困难的.在这个大数据背景下的时代,正目睹着数据获取技术的快速发展.由于数据和变量的总量十分庞大,应用传统的经典优化算法(如牛顿法[1]、共轭梯度法[2])来解决形如问题(1)的数学模型是相当困难的.数据规模的增减势必会导致问题的复杂程度增大.当数据被存储在不同的计算机或者在同时获取并计算这些信息时的难度非常大.例如,数据变量很大,那么用传统的非线性牛顿法得到问题的二阶梯度信息可能会导致计算机发出高昂的代价(迭代时间长).Bertsekas在文献[3]中针对凸的问题(1)提出了一种邻近增量算法,并且结合了梯度,次梯度信息.即对任意的xt∈X,有xt+1=Pro(xt-αt"fi(xt))这种形式进行迭代,其中Pro(·)表示在X上的投影,αt表示迭代步长,算例显示文献[3]所提出的算法是有效的; Guruzbulaban在文献[4]中对问题(1)强的凸且二次可微的连续的情况进行了讨论,提出了增量牛顿算法并给出了全局收敛性结果.还进一步得出基于一个梯度增长条件下,对所有的变量步长和固定步长,该方法的收敛率是线性的.大量的数值计算可以显示,针对特殊的凸的机器学习问题,文献[3-4]所提出的方法是十分有效的,但对更一般的非凸问题并不一定有效.文献[5]对形如问题(1)的非凸问题进行了讨论并且提出了带有一阶信息的替代函数的特殊增量算法.该算法能保证在有限步迭代收敛到原问题的渐进稳定点.本文对形如(1)的非凸二次可微问题提出了一种新颖的带有二阶信息的替代函数的增量算法并能得到原函数的一个稳定解.其本质就是将问题(1)分解,用一个二次的替代函数代替原函数.算法的关键特征包括:(i)替代函数都是二次的强凸函数,对这个强凸函数求极小值能得到唯一的解;(ii)由增量算法的思想,在每一次迭代中只有f(x)中的一个子函数fi(x)被替代;(iii)采用非精确线搜索的方法得到步长,使得算法拥有更好的收敛速度.本文的基本结构如下:第一部分提出稳定点的定义和强凸函数的定义和性质并且介绍相关的引理,给出原函数的合理假设;在第二部分给出二次强凸逼近函数的基本形式,并在此部分给出此逼近函数满足的假设条件;第三部分给出带有二阶信息的替代函数的增量算法,并且证明本文方法可以收敛到原函数的一个稳定解;在第四部分给出经典的数值算例,应用所提出的算法进行数值计算,来证明该方法针对于大规模的二次的非凸可微问题是有效的;并在第五部分进行总结.1预备知识在这部分将介绍一些基本的概念和定义,而这些概念及定义将作为最后证明的重要理论依据.基于文献[6]和[7]的介绍,给出稳定点的定义.定义1[6]一个点x是问题(1)的稳定点,如果:(y-x)T"f(x)≥0,y∈X.(2)不等式(2)是对优化问题的局部最优的必要条件.对于非凸优化问题,由于其全局最优条件很难得到,则要求得到原问题的一个较好的稳定点即可,如果原问题(1)是凸的,那么此时稳定点就满足经典优化问题中全局最优点的定义,且不等式(2)中满足点x的条件也是全局最优点的充分条件.定义2[7]一个函数f(x)被称为是一个强凸函数,如果α>0,x,y∈X,λ∈(0,1)恒有:f [λx+(1-λ) y]≤λf(x)+(1-λ) f(y)-λ(1-λ)α||x-y||2(3)定义3[8]一

参考文献

引证文献

问答

我要提问