一种基于Spark的论文相似性快速检测方法

作者:卓可秋;童国平;虞为 刊名:图书情报工作 上传者:刘娟

【摘要】[目的/意义]从大规模已知文本集中检测出与待检测论文的相似文本并计算相似度大小,用于满足在线论文相似性检测秒级响应需求。[方法/过程]采用分治法策略,对已知文本句集进行基于正交基的软聚类预处理,并对软聚类后的每个簇建立倒排索引。接着在快数据处理平台Spark上执行相似性检测,采用字符结合词组形式计算出待检测论文与已知文本的相似度大小。[结果/结论]通过200万规模的已知文本集实验结果显示,综合4种类型的待检测论文,所提出的倒排索引结合软聚类算法准确率P为100.0%,召回率R为93.6%,调和平均值F为96.7%。调和平均值F比相似性检测算法LCS高10%左右,比Simhash算法高约23%。在检测速度上,对于一篇字数为5 000左右的待检测论文,检测时间约为6.5秒,比Simhash算法快近300倍,比LCS算法快约4 000倍,此外,实验结果还表明基于Spark的分布式并行相似性检测算法具有较好的可扩展性。

全文阅读

第 59 卷 第 1 1期 20 1 5 年 6 月 一 种 基于 Spark 的 论文相似性快速检测 方法 * ■ 卓可秋 丨 童 国 平 1 虞为 2 1 南 京 大 学信 息 管 理 学 院 南 京 2 1 00232 江 苏 省 数据 工 程与 知 识服务重 点 实 验 室 ( 南 京 大 学 ) 南 京 2 1 00Z3 摘要 : [ 目 的/意义 ] 从 大规模 已 知 文本 集 中 检测 出 与 待检测 论 文 的 相似 文本并计算相 似度 大 小 , 用 于 满 足在 线 论 文相 似性检测 秒 级响 应 需 求 。 [ 方法/过程 ] 采用 分 治 法策略 , 对 已 知 文本 句 集进行基于 正 交基的 软聚 类预 处理 , 并 对软聚类 后 的 每个簇建 立倒排 索 引 。 接着在快数据 处理平 台 Spark 上执行相似 性检测 , 采 用 字符 结合词 组形 式计算 出 待检测 论文与 已 知 文本 的 相 似度 大 小 。 [ 结果/结论 ] 通过 200 万规模 的 已 知 文本 集 实验结 果 显示 , 综合 4 种 类 型 的 待检测 论文 , 所提 出 的 例排索 引 结合软聚类 算 法准确 率 P 为 1 00 . 0% , 召 回 率 R 为93 . 6%, 调 和平 均 值 F 为 96 . 7 % 。 调 和平 均 值 F 比 相似 性检测 算 法 LCS 高 1 0% 左 右 , 比 Simhash 算 法 高 约 23 % . 。 在检测 速度上 , 对 于 一 篇 字数为 5000 左 右 的 待检测 论 文 , 检测 时 间 约 为 6 . 5 秒 , 比 Simhash 算 法 快近 300 倍 , 比 LCS 算 法快 约 4000 倍 。 此 外 , 实 验结 果还表 明 基于 Spark 的 分布 式 并行相似性检测 算 法具有较好 的 可扩展性 。 关键 词 : 论 文相 似 性检测 Spark 快数据 处理 正 交基软聚类 倒排 索 引分类号 : TP39 1 .1 D01 ; 1 0 . 1 3 266/j . issn .0252- 3 1 1 6 . 201 5 . 1 1 . 0 19 理平台 Spark :u 的分布式并行论文相 似性检测 的方法 。 该方法主要包括基于正交基软 聚类 的文本预处理 、 倒学术论文相似性检测属 于文本相似性检测 的 一 种c, 八 — — h,A +A 、 m0 人 +丄 , —排索引 建H 和 Spark 分布式并行快速相似性检测 3 个 具体应用 , 有着文本相 似性检测所具有 的 共性 , 又有 着^ / , 占 白 ,^ +31部分 。 实验表明 , 本文所提方法 比 现有 常用论文相似 自 身处理的对象为学术论文 的特性 。 文本 的相 似包括^ 词项相 似和语义相似两个层面 。 词项相似 即 为两个力本 的词项从字面上看完全相 同 或者部分相 同 , 即 使 展性 ’ 而 且 由 于 采 用 予 符结,词组 方 式进行 相 似文 同 的文字在翻顺序上有所变化 。 语义相似醒过 同 ,确 匹 配 ’ 因 此该方法 不仅能 够检测 出 正 序方 向 的 义词 、 近义词 、 _h健和T健等语义絲赫数本 麵翻似 ’ 还能检動 細关键翻组 的相似 。 主题来衡量 。 学术论文 的相似除 了 文本方 面外还包括图 片 和公式等非本文的相似 。 本文所讨论的学术论文 ( 下文简称 为 论 文 ) 相 似 主要侧 重 于 文 本方 面 的 词

参考文献

引证文献

问答

我要提问