基于机器学习的中文期刊论文自动分类研究

作者:叶鹏 刊名: 上传者:刘秋爽

【摘要】随着电子期刊的不断增加,电子期刊论文的数量在与日俱增,电子期刊论文的合理分类成为了一个亟待解决的问题。传统的人工分类在大数据环境下已经显得力不从心,在期刊论文分类方面人工分类也存在这个问题,将自动分类的方法应用于期刊论文分类方面能有效解决这个问题。 机器学习理念的出现让自动分类快速发展起来,本文将机器学习的思想运用到期刊论文的自动分类领域,选用中国知网的期刊论文数据作为实验样本,对样本进行预处理后分为训练样本和测试样本,采用机器学习中的监督学习“先学习,后测试”的理念,先对训练样本进行学习,然后利用学习到的分类器对测试样本进行分类,对比真实的类别和测试实验给出的类别,分析机器学习在期刊论文自动分类方面的可行性。 本文的自动分类实验选用的分类算法是支持向量机算法和BP神经网络算法,通过对这两个算法在正确率、训练量和实验时间方面进行比较实验,选择出相对更加适合本文研究对象的机器学习算法——支持向量机算法,同时通过对比实验选择出适合本文研究对象的支持向量机算法参数,为机器学习实验提供了最佳环境。 在良好的机器学习环境下,本文的实验样本来源于中国知网的电子期刊论文数据,包括论文的题名、关键词和摘要等主要信息,通过对比分析知道综合这三种特征来源更加能够提高期刊论文自动分类的实验效果,并且通过对比实验找到了一组相对合适的加权比重。 期刊论文的传统分类方法是中国图书馆分类法,简称中图法,但是中图法存在分类繁杂、类目较多的特点,这显然不是自动分类的体系,本文利用层次分类法的理念将中图法转化为一个三层的分类体系,分别进行分类实验,从第一层到第三层的实验正确率分别达到了95.05%、92.89%和89.02%,三层的综合正确率也接近80%,这是一个比较可观的实验结果,证明了机器学习在期刊论文的自动分类方面的可行性,为期刊论文的分类问题提出了新的思路。

全文阅读

基于机器学习的中文期刊论文自动分类研究 叶鹏情报学信息处理与信息检索苏新宁2013052820130528AutomaticCategorizationofChineseJournalPapersBasedon MachineLearning南京大学学位论文原创性声明及授权使用声明 南京大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工 作所取得的成果。尽我所知,除文中已经注明引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式说明并且表达了谢意。 研究生签名: R期:年亡月#円 南京大学学位论文使用授权声明 本学位论文作者同意学校保留并向国家有关部门或机构送交学位论文的复 印件和电子文档,可以采用影印、缩印或扫描等复制手段保存论文。本文电子文 档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查 阅和借阅,可以公布(包括刊登)论文的全部或者部分内容。论文的公布(包括 刊登)授权南京大学研究生院办理。 导师签名: 研究生签名: n期:>>/?年疒月乂H 随着电子期刊的不断增加,电子期刊论文的数量在与日俱增,电子期刊论文的合理分类成为了一个亟待解决的问题。传统的人工分类在大数据环境下已经显得力不从心,在期刊论文分类方面人工分类也存在这个问题,将自动分类的方法应用于期刊论文分类方面能有效解决这个问题。 机器学习理念的出现让自动分类快速发展起来,本文将机器学习的思想运用到期刊论文的自动分类领域,选用中国知网的期刊论文数据作为实验样本,对样本进行预处理后分为训练样本和测试样本,采用机器学习中的监督学习“先学习,后测试”的理念,先对训练样本进行学习,然后利用学习到的分类器对测试样本进行分类,对比真实的类别和测试实验给出的类别,分析机器学习在期刊论文自动分类方面的可行性。 本文的自动分类实验选用的分类算法是支持向量机算法和BP神经网络算法,通过对这两个算法在正确率、训练量和实验时间方面进行比较实验,选择出相对更加适合本文研究对象的机器学习算法支持向量机算法,同时通过对比实验选择出适合本文研究对象的支持向量机算法参数,为机器学习实验提供了最佳环境。 在良好的机器学习环境下,本文的实验样本来源于中国知网的电子期刊论文数据,包括论文的题名、关键词和摘要等主要信息,通过对比分析知道综合这三种特征来源更加能够提高期刊论文自动分类的实验效果,并且通过对比实验找到了一组相对合适的加权比重。 期刊论文的传统分类方法是中国图书馆分类法,简称中图法,但是中图法存在分类繁杂、类目较多的特点,这显然不是自动分类的体系,本文利用层次分类法的理念将中图法转化为一个三层的分类体系,分别进行分类实验,从第一层到第三层的实验正确率分别达到了95.05%、92.89%和89.02%,三层的综合正确率也接近80%,这是一个比较可观的实验结果,证明了机器学习在期刊论文的自动分类方面的可行性,为期刊论文的分类问题提出了新的思路。机器学习;;期刊论文;;文本自动分类;;支持向量机;;层次分类法Withtheincreasingnumbersofelectronicjournals,thenumberofarticlesinelectronicjournalsisincreasingrapidly,howtoclassifyelectronicjournalarticlesreasonablyhasbecomeanurgentproblem.Intheenviro

参考文献

引证文献

问答

我要提问