一种基于形式概念分析的数字论文检索方法

【摘要】本发明涉及一种数字论文检索方法,特别涉及一种基于形式概念分析的数字论文检索方法,属于数据挖掘领域。本发明提出的论文检索方法,通过“排序隔选”的方式,缩减了构建和搜索概念格的规模和时间,然后将其他被缩减论文附属于被选论文,较大的消除了结果丢失的影响,同时通过概念格的粗糙近似检索机制,解决了论文检索时检索结果过于分散和庞大的问题,同时又能够保证检索结果的召回率和精确度。该方法针对大规模数据提出了一种可用的基于形式概念分析的检索模式。

全文阅读

(43)申请公布日 2013.12.11 (21)申请号 201310377050.7 (22)申请日 2013.08.27 G06F 17/3 0 (2006.01) (71)申请人 北京理工大学 地址 100081 北京市海淀区中关村南大街 5 号 (72)发明人 施重阳 牛振东 张春霞 赵向宇 (54) 发明名称 一种基于形式概念分析的数字论文检索方法 (57) 摘要 本发明涉及一种数字论文检索方法,特别涉及一种基于形式概念分析的数字论文检索方法,属于数据挖掘领域。本发明提出的论文检索方法,通过“排序隔选”的方式,缩减了构建和搜索概念格的规模和时间,然后将其他被缩减论文附属于被选论文,较大的消除了结果丢失的影响,同时通过概念格的粗糙近似检索机制,解决了论文检索时检索结果过于分散和庞大的问题,同时又能够保证检索结果的召回率和精确度。该方法针对大规模数据提出了一种可用的基于形式概念分析的检索模式。 (51)Int.Cl. 4 页 说明书 9 页 附图 1 页 (19)中华人民共和国国家知识产权局 (12)发明专利申请 权利要求书4页 说明书9页 附图1页 (10)申请公布号 CN 103440308 A CN 103440308 A *CN103440308A* 1/4 页 1. 一种基于形式概念分析的数字论文检索方法,其特征在于 :其具体操作步骤包括预处理阶段和检索阶段的操作 ; 所述预处理阶段的操作是 :对被检索的某一领域 的数字论文资源集 Z 进行预处理,具体为 : 步骤1 :针对领域 中的数字论文资源集Z中的全部关键词,依次计算每个关键词在领域 中的数字论文资源集 Z 中的 TF-IDF 值,并按照 TF-IDF 值由高到底的顺序对关键词进行排序 ;然后,将 TF-IDF 值最高的 n 个关键词确定为领域 中的数字论文资源集的形式背景中的属性,其中,40 ≤ n ≤ 50 ; 步骤2 :在步骤1操作的基础上,构建领域 中的数字论文资源集Z的形式背景表格,具体为 :首先建立一张二维表,用符号 F 表示 ;二维表 F 的每一行分别对应数字论文资源集 Z 中的一篇数字论文,二维表 F 的每一列分别对应步骤 1 得到的 n 个关键词中的一个关键词 ;然后查看每个关键词在领域 中的数字论文资源集Z的每篇论文中是否出现,如出现,则数字论文与关键词确定的表项值为 1 ;否则,数字论文与关键词确定的表项值为 0 ;每篇数字论文与所述 n 个关键词确定的表项值被称为该论文的形式背景 ;经过上述操作得到的二维表 F 被称为领域 中的数字论文资源集 Z 的形式背景表格 ; 步骤 3 :在步骤 2 操作的基础上,统计形式背景表格 F 中每篇数字论文对应的表项值为1 的个数,将其称为该论文所拥有的属性个数 ;然后在形式背景表格 F 中,对所有数字论文及其形式背景按照论文拥有的属性个数由低到高的顺序重新排序 ; 步骤 4 :在步骤 3 操作的基础上,在形式背景表格 F 中,对于拥有属性个数相同的数字论文,按照关键词在形式背景表格 F 中出现的顺序进行排序 ; 步骤5 :选定一个顺序间隔,用符号s表示,其中,3≤s≤20并且s为整数 ;然后,从步骤 4 得到的形式背景表格 F 中抽取第 1 篇论文以及其后依次间隔 s 的数字论文作为种子论文 ;将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格,用符号 Fs 表示 ; 步骤6 :在步骤5操作的基础上,在种子论文形式背景表格Fs 中为每一篇种子论文建立 2 个依附链表,一个称为前置链表,另一个称为后置链表

参考文献

引证文献

问答

我要提问