可动态自适应主题爬虫的研究

作者:肖新凤;余伟;李石君;陈亚辉;刘倍雄;刘永明; 刊名:计算机与数字工程 上传者:赵万华

【摘要】针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。论文提出了一种可动态自适应互联网信息的主题爬虫。其中,可动态选择种子URL的TopicHub算法,相比于传统的静态种子URL的主题爬虫,抓取效率提升了7%以上,查全率提升了5%以上。另外,针对于静态本体库所存在的主题信息涵盖不全、领域知识变化更新等问题,提出了一种可动态扩充领域语义信息的结合静态本体库和动态语义的主题算法简称为SDTP算法。相比于传统的基于静态本体库的算法查准率提升了13%,相比于基于向量空间模型VSM的算法提升了4%。

全文阅读

计算机与数字工程 收稿日期:2018年11月11日,修回日期:2018年12月12日 基金项目:国家自然科学基金项目(编号:61502350);2017广东高校省级重点平台和重大科研项目(编号: 2017GKTSCX042)资助。 作者简介:肖新凤,女,硕士研究生,讲师,研究方向:软件技术、大数据、数据挖掘。余伟,男,博士,讲师,研究方向:数据质量评估、数据抽取与数据融合。李石君,男,博士,教授,研究方向:大数据、互联网搜索与挖掘、数据挖掘、数据库技术、移动数据挖掘与时空一致性研究。陈亚辉,男,硕士研究生,工程师,研究方向:数据挖掘、数据库技术。刘倍雄,男,硕士研究生,高级工程师,讲师,研究方向:移动互联技术、数据库技术。刘永明,男,硕士研究生,讲师,研究方向:软件技术,数据库技术。 ∗ 总第355期 2019年第5期 计算机与数字工程 Computer&DigitalEngineering Vol.47No.5 1 引言 通用搜索引擎逐渐暴露出其专业性不强、搜索结果过于宽泛的缺点。针对于通用搜索引擎的这些弊端和不足,相关学者专门提出了限定在某一特定主题的垂直搜索引擎的解决方案。垂直搜索引 擎更专注于特定主题,搜索结果更为细致。是传统的通用搜索引擎的延伸以及互补方案,有效地解决了通用搜。而作为垂直搜索引擎中重要的技术 ——主题爬虫(topicalcrawler),主题爬虫是指采用 了主题搜索算法的爬虫,在爬行的过程中,可以仅对主题相关的页面进行抓取[1]。业界中对主题爬 可动态自适应主题爬虫的研究∗ 肖新凤1 余 伟2 李石君2 陈亚辉2 刘倍雄1 刘永明1 (1.广东环境保护工程职业学院 佛山 528216)(2.武汉大学 武汉 430079) 摘 要 针对传统的主题爬虫在面对动态变化的互联网时存在着主题知识涵盖不全、领域知识更新以及主题资源中心转移等问题。论文提出了一种可动态自适应互联网信息的主题爬虫。其中,可动态选择种子URL的TopicHub算法,相比于 传统的静态种子URL的主题爬虫,抓取效率提升了7%以上,查全率提升了5%以上。另外,针对于静态本体库所存在的主 题信息涵盖不全、领域知识变化更新等问题,提出了一种可动态扩充领域语义信息的结合静态本体库和动态语义的主题算法简称为SDTP算法。相比于传统的基于静态本体库的算法查准率提升了13%,相比于基于向量空间模型VSM的算法提升 了4%。 关键词 主题爬虫;动态自适应;URL图结构 中图分类号 TP391.3 DOI:10.3969/j.issn.1672-9722.2019.05.027 ResearchandImplementationofDynamicAdaptiveTopicalCrawler XIAOXinfeng1 YUWei2 LIShijun2 CHENYahui2 LIUBeixiong1 LIUYongming1 (1.GuangdongPolytechnicofEnvironmentalProtectionEngineering,Foshan 528216) (2.WuhanUniversity,Wuhan 430070) Abstract InthefaceofadynamicallychangingInternet,thetraditionaltopicalcrawlershaveproblemssuchasincomplete topicalknowledge,domainknowledgeupdating,topicalresourcecentertrans

参考文献

引证文献

问答

我要提问