基于Web文本挖掘的SVM网页文本分类研究

资源类型: 资源大小: 文档分类:工业技术 上传者:曹激

文档信息

【标题】基于Web文本挖掘的SVM网页文本分类研究

【作者】 刘静 

【关键词】Web挖掘 文本挖掘 支持向量机 网页分类 

【出版日期】2006-12-01

【论文级别】硕士

【导师】赵枫

【摘要】 随着Internet的迅速发展,尤其是World Wide Web的全球普及,Web上信息资源已涵盖了社会生活的各个方面,网络信息过载(Information Overload)问题日益突出,这促使Web挖掘技术和Web信息检索技术迅速发展。 广泛使用的处理Web信息的手段是搜索引擎。目前使用较多的是基于关键字的搜索引擎,在实际应用中存在诸如返回文档数目过大,主题相关性不高等问题,总体查全率和查准率差强人意。对于搜索引擎存在的问题,人们想到了数据挖掘。数据挖掘是从大量数据中提取或“挖掘”知识,将传统的数据挖掘技术与Web结合起来,从Web文档和Web活动中抽取感兴趣的、潜在的、有用的信息。Web挖掘成为数据挖掘一个重要的研究领域。Web挖掘技术能够从Web上海量的数据中自动地,智能地抽取隐藏于这些数据中的知识,弥补了传统搜索引擎的不足并且有更广泛的应用。 处理海量数据的一个重要方法就是将它们分类。网页自动分类是Web文本挖掘领域的一个很重要的研究方向。通过自动分类不仅仅可以将网页按照类别信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录。文本分类把自然语言的文本按其内容划分到一个或多个预先定义好的类别中,是一个非常重要的信息组织和管理手段。 支持向量机(SVM)是由Vapnik及其领导的AT&T实验室研究小组提出的一种新的很有发展前途的机器学习算法。在模式识别、回归估计、概率密度函数估计等方面都有应用。在模式识别方面,对于手写数字识别、语音识别、人脸图像识别、文本分类等问题,SVM算法在精度上已经超过传统的学习算法或与之不相上下。SVM有许多突出的优点,使它适合Web文本信息处理。SVM作为可以广泛应用在网上信息自动分类的方法日益受到研究者的重视。该方法研究小样本情况下的机器学习规律,具有相对较高的性能指标。因为SVM具有较强的理论依据和较好的泛化性能,使得它成为继神经网络研究之后新的研究热点,并将推动机器学习理论和技术的重大发展。 本文阐述了Web挖掘的有关理论,给出Web文本挖掘的一般处理过程,并设计了一个基于Web的文本挖掘系统,包括文档采集模块、特征提取模块和挖掘模块。接着介绍统计学习理论,深入探讨了建立在该理论基础上的SVM算法。最后将SVM算法应用到Web文本挖掘之中,对Web文本进行分类。研究了一种用SVM进行主动学习的方法,该方法在保证分类性能的前提下,可有效的提高效率。结果表明SVM算法在Web文本挖掘方面具有很好的应用前景。

参考文献

问答

我要提问