基于非负矩阵分解的个性化论文推荐系统研究

作者:丁少慧; 刊名:智库时代 上传者:王本道

【摘要】科研人员对未知领域的探索在世界上各个角落时时刻刻都在发生,论文的数量急剧增加。庞大的论文数量对研究人员查阅文献,了解科研前沿等工作造成巨大负担。为了缓解科研人员查找论文的工作难度,解决无法快速准确找到自己所需的科研文献这一痛点问题,我们提出了一种基于非负矩阵分解的个性化论文推荐系统,本文所提的论文推荐系统可以根据使用者查看的论文历史记录,结合论文-论文,读者-读者的相似性信息,智能地推荐使用者可能喜欢的论文。具体地,首先,我们收集184位科研人员的查阅记录,记录包括1324篇论文。构造科研人员与论文矩阵,使用非负矩阵分解算法,通过对现有数据进行挖掘与分析,建立了一种个性化论文推荐系统。实验结果表明,基于非负矩阵分解的论文推荐系统给用户所推荐的论文,有较高的推荐有效性,能够帮助用户快速有效地找到自己所需论文。

全文阅读

智者论道 智库时代 ·175· 基于非负矩阵分解的个性化论文推荐系统研究 丁少慧 (东北师范大学,吉林长春 130024) 摘要:科研人员对未知领域的探索在世界上各个角落时时刻刻都在发生,论文的数量急剧增加。庞大的论文数量对研究人员查阅文献,了解科研前沿等工作造成巨大负担。为了缓解科研人员查找论文的工作难度,解决无法快速准确找到自己所需的科研文献这一痛点问题,我们提出了一种基于非负矩阵分解的个性化论文推荐系统,本文所提的论文推荐系统可以根据使用者查看的论文历史记录,结合论文-论文,读者 - 读者的相似性信息,智能地推荐使用者可能喜欢的论文。具体地,首先,我们收集 184 位科研人员的查阅记录,记录包括 1324 篇论文。构造科研人员与论文矩阵,使用非负矩阵分解算法,通过对现有数据进行挖掘与分析,建立了一种个性化论文推荐系统。实验结果表明,基于非负矩阵分解的论文推荐系统给用户所推荐的论文,有较高的推荐有效性,能够帮助用户快速有效地找到自己所需论文。 关键词:数据挖掘;非负矩阵分解;推荐系统;论文推荐中图分类号:N533 文献标识码:A 文章编号:2096-4609(2019)22-0175-004 一、引言 随着国家对科研的投入,我国高校以及科研院所的科研人员数量逐年递增。科研活动需要查阅论文参考。随着互联网和信息技术的飞速发展和普及,包括中国知网、万方数据和 SpringerLink 等在内的学术论文查阅网站科研人员提供大量可查阅的论文。然而,学科分类科研方向纷繁冗杂,这使得我们无法快速有效地从海量的学术文献中搜索到自己所需要的文献。针对这个问题,个性化的论文推荐系统是解决这一问题行之有效的方法之一。通过对用户阅读文献行为数据的分析,建立个性化的论文推荐系统。这类系统可以为科研人员推荐他们感兴趣的文献。本文提出一种基于非负矩阵分解算法的个性化论文推荐系统。 二、相关工作 本文涉及多个方面的研究工作,本节将分别介绍相关的概念。1.1 节将给出矩阵分解的算法定义。1.2 节将介绍矩阵分解的算法分类。1.3 节将介绍非负矩阵分解的应 用。1.4 节将介绍个性化推荐系统。 (一)非负矩阵分解算法的定义 非 负 矩 阵 分 解 (Nonnegative Matrix Factor),简称 NMF,是由 Lee 和 Seung 于1999年在自然杂志上提出的一种矩阵分解方法 [1],它使分解后的所有分量均为非负值 ( 要求纯加性的描述 ),并且同时实现非线性的维数约减。纯加性的和维度稀疏的数据描述能使对数据的解释变得方便(一些活跃的数据分量使数据的组成变得更加的清晰明了 ) 和合理 ( 一些信息中不可能存在负的成分 )[2]。 非负矩阵分解,使得矩阵在进行分解操作后得到的分量不存在负值,也就是说,要求分解的分量全部是纯加法性的描述。并且使得矩阵的维数得到分线性的约减。这也体现了数据的本质:整体是由部分组成的 [1]。另外,这种分量的非负性的限制使得对数据的描述在某种程度上呈现了一定的稀疏性,这种稀疏性的表述已经被证明了是结余分布式完全描述和单一活跃分量描述之间的一种有效数据描述形式 [1]。 NMF的定义为:对于一个k维的随机向量 v,进行了 S 次的观测,计这些次观测为vi, 其 中 i=1,2,3……S, 取 V=[V。1,V。2V。 3……V。s], 其 中 V。=Vi,i=1,2,……S,非负矩阵分解要求发现非负的K×L的基矩 阵 W=Wo1,Wo2,Wo3……Wos] 和 LxS 的系数矩阵H=Ho1,Ho2,Ho3……Hos],使得V≈WxH,这

参考文献

引证文献

问答

我要提问