可动态自适应主题爬虫的研究

作者:肖新凤;余伟;李石君;陈亚辉;刘倍雄;刘永明; 刊名:计算机与数字工程 上传者:赵万华

【摘要】针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。论文提出了一种可动态自适应互联网信息的主题爬虫。其中,可动态选择种子URL的TopicHub算法,相比于传统的静态种子URL的主题爬虫,抓取效率提升了7%以上,查全率提升了5%以上。另外,针对于静态本体库所存在的主题信息涵盖不全、领域知识变化更新等问题,提出了一种可动态扩充领域语义信息的结合静态本体库和动态语义的主题算法简称为SDTP算法。相比于传统的基于静态本体库的算法查准率提升了13%,相比于基于向量空间模型VSM的算法提升了4%。

全文阅读

1引言通用搜索引擎逐渐暴露出其专业性不强、搜索结果过于宽泛的缺点。针对于通用搜索引擎的这些弊端和不足,相关学者专门提出了限定在某一特定主题的垂直搜索引擎的解决方案。垂直搜索引擎更专注于特定主题,搜索结果更为细致。是传统的通用搜索引擎的延伸以及互补方案,有效地解决了通用搜。而作为垂直搜索引擎中重要的技术——主题爬虫(topical crawler),主题爬虫是指采用了主题搜索算法的爬虫,在爬行的过程中,可以仅对主题相关的页面进行抓取[1]。业界中对主题爬虫算法的相关研究主要集中在以下四个方面:页面的主题判别;URL重要度排序;领域主题模型的表述;主题资源的覆盖率;传统的主题爬虫使用预先训练好的主题模型算法来判断所抓取得到的目标网页是否主题相关。然而,在实际的状况中,互联网中的各类信息也在始终不断发生着变化,相关领域可能会不断涌现出新的知识和名词,静态的主题模型对动态的网络信息往往无能为力。其次,用户在定义主题时本身就可能存在着领域概念涵盖不全,子领域信息不足等问题。传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。针对传统的主题爬虫所存在的不足,本文提出了一种可动态自适应互联网信息的主题爬虫。本文所涉及工作及贡献主要分为三个方面:1)本文提出了一种可动态选择种子URL的TopicHub算法。主题爬虫在每次抓取任务结束后,算法。主题爬虫在每次抓取任务结束后,基于本次抓取得到的主题页面集构建出站点的主题资源图,同时使用Tarjan算法和缩点的技巧减小图的规模,根据节点的主题特征和链接结构选择出站点THub页面集,最终将各个站点的THub页面集进行合并和排序,作为下次增量抓取的入口链接集。2)针对于静态本体库所存在的主题信息涵盖不全、领域知识变化更新等问题,本文提出了一种可动态扩充领域语义信息的SDTP算法。结合静态本体库与主题的动态语义来描述主题模型,并根据抓取的主题页面抽取出新的领域名词以扩充主题信息,最终利用相应的算法计算得出网页的主题相似度。3)基于本文提出的两个算法:TopicHub算法和SDTP算法实现一个可动态自适应的主题爬虫系统TDA-Crawler。该主题爬虫有效地解决了传统的主题爬虫在面对动态变化的互联网信息时存在的不足之处。2相关工作早在1999年,Soumen Chakrabartia等提出可以使用分类器作为主题爬虫中网页主题相关性的判断依据,并抽取出网络拓扑的重要节点,开启了使用机器学习的方法指导主题爬虫的先河[2]。Jung-hoo Cho等指出在主题爬虫中URL的抓取顺序对于等指出在主题爬虫中URL的抓取顺序对于最终的结果有着重要的影响[3]。在该算法中,将Best-first算法的思想应用到主题爬虫的爬行中,有效地解决了传统的广度优先抓取存在的不足。P.De Bra和Michael Hersovici等分别提出了FishSearch算法[4]和Shark Search算法[5]用于计算页面的主题相关度。与此同时,随着对主题爬虫算法相关研究的日趋成熟,许多学者越来越注意到使用静态的主题爬虫模型已无法满足领域知识的变化。Wu等尝试将遗传算法应用到主题爬虫的搜索策略中,根据种群的平均适应度,设置动态适应度函数和遗传算子,以此保证主题爬虫可具有一定的动态适应性[6]。针对于主题爬虫信息的不足,李东晖等提出了可根据网络信息主题自动扩充的无监督的主题网络爬虫[7]。傅向华、冯博琴等实现了一种主题爬虫的在线增量自学习,并以此不断地改善主题评估器[8]。Chang Su等提出了一种高效的

参考文献

引证文献

问答

我要提问