基于Q统计量的选择性集成学习研究

资源类型: 资源大小: 文档分类:工业技术 上传者:张丹

文档信息

【标题】基于Q统计量的选择性集成学习研究

【作者】 曹振田 

【关键词】差异度 选择性集成学习 Q统计量 

【出版日期】2010-04-01

【论文级别】硕士

【导师】张燕平

【摘要】 机器学习技术已经成功应用在社会生活的各个方面。如手写汉字识别,人脸识别,网络入侵检测等。由于机器学习在应用中取得巨大成就。因此许多研究者都开展了对机器学习的研究。其中集成学习是机器学习研究方面的一个重要研究方向。研究表明集成学习能明显提高机器学习系统的泛化能力。由于集成学习利用多个分类器进行学习,需要更大的计算量。然而,随着个体分类器的增多,个体分类器之间的差异度就越小,集成学习的精确度反而下降。南京大学周志华教授提出选择性集成学习的概念。就是从生成的个体分类器中选择一部分再集成。实验表明效果比原集成要好。 差异度是集成学习中的一个重要概念。一个好的集成学习算法,关键是能生成差异度大的个体分类器。至今,研究者已提出十种差异度度量方式。由于Q统计量在实验中效果不错,因此本文采用Q统计量度量两个分类器之间的差异度。提出一种采用Q统计量的选择性集成学习算法。 由于Weka平台是当今最流行的机器学习平台。它提供了多种机器学习算法,以及对实验结果的评估等工具。因此本文的实验全部基于Weka平台实现。同时为了使用Weka平台的强大功能,把算法集成到Weka平台。最后本文还对算法存在的问题进行说明和展望,便于今后进一步进行研究。概括的说,本文主要包含几个方面的内容: (1)概述选择性集成学习国内外研究的现状、背景和意义。包括选择性集成学习的起源、定义、主要技术,和集成学习中流行的差异度。同时也介绍了开源的机器学习平台Weka。 (2)从差异度的角度出发,提出一种新的选择性集成学习方法。该方法采用了流行的Q统计量。为了证明算法的有效性,采用决策树作为基分类器。采用UCI数据集做实验,实验表明该算法不仅能降低分类器的个数,而且也能提高集成学习的泛化能力。 (3)为了方便和高效的使用算法,最后把QSE算法集成到’Weka平台中。这样不仅有利于本算法的推广,也能与更多的机器学习的研究者进行交流和学习。

问答

我要提问