基于多权重因子的PageRank算法改进

作者:温韬;朱敏;周科;闫二辉 刊名:微计算机信息 上传者:邹磊磊

【摘要】现有PageRank算法的多种改进研究,对新网页歧视、语言差异歧视、主题漂移、忽视用户浏览兴趣等问题仍然没有给出较好的解决方案。本文提出改进算法TWPR(PageRank based on Three Weights)。该算法将时间特性分析、语言链接结构分析和用户行为相结合,旨在提升更新较快、链接行为优良、用户感兴趣度高的中文网页PR值。实验证明,改进算法可有效提高网页检索的命中率,改善搜索质量。

全文阅读

技术创新 《微计算机信息》2012 年第 28 卷第 9 期 120 元 / 年 邮局订阅号:82-946 《现场总线技术应用 200 例》 软件时空 基于多权重因子的 PageRank 算法改进 PageRankAlgorithmImprovementBasedOnVariousFactors (四川大学) 温韬朱敏周科闫二辉 WEN Tao ZHU Min ZHOU Ke YAN Er-hui 摘要: 现有 PageRank 算法的多种改进研究,对新网页歧视、语言差异歧视、主题漂移、忽视用户浏览兴趣等问题仍然没有给出较好的解决方案。 本文提出改进算法 TWPR(PageRankbasedonThreeWeights)。 该算法将时间特性分析、语言链接结构分析和用户行为相结合,旨在提升更新较快、链接行为优良、用户感兴趣度高的中文网页 PR 值。 实验证明,改进算法可有效提高网页检索的命中率,改善搜索质量。 关键字: PageRank; 搜索; 网页链接; 用户行为; PR 值中国分类号: TP393.0 文献标识码: A Abstract: PageRankalgorithmimprovementhasbeenanimportantsubjectofscholarlyresearch,buttheneedlediscriminationagainst new pages, language differences, discrimination, topic drift ,ignore user behavior and other issues has not been a better solution. This detailedputforwardthenewimprovealgorithmTWPR(PageRankbasedonthreeweights),aimstoenhancetherapidupdateofthe PR value of the chinese web which is updated quickly,link behacior excellent and high interest of user.Experiments show that the improvedalgorithmcanimprovewebpagehitrate,andimprovesearchquality. Key words: PageRank; search; web links; user behaviour; PR score 文章编号:1008-0570(2012)09-0422-03 1 引言 Google 将 Web 挖掘技术引入搜索引擎并提出 PageRank 算法,其搜索精度远高于以往的搜索引擎,在商业应用方面获得巨大成功。 另一方面,PageRank 算法固有的缺陷日益暴露,许多学者对PageRank 算法进行了改进, 例如: 针对主题特征无关性问题, Taher Haveliwala 提出一种主题敏感算法;针对忽视域的价值问题 Bharat 提出 HillTop 算法; 针对歧视新网页的问题焦金涛提出了 PRT 算法,该算法加入时间权值,量化标准是 spider 抓取页面时间和网页发布时间的天数差,PRT 得分与时间权值成反比; 张芳提出分析用户行为来关注用户兴趣度, 王德广等人则提出使用 Web 日志文件的 time-taken 字段来量化用户行为。以上改进虽都有效提高了搜索质量, 但焦金涛的改进虽考虑新网页歧视问

参考文献

引证文献

问答

我要提问