数据挖掘隐私保护算法研究

作者:张毅;周佩;许斌 刊名:数码世界 上传者:叶剑平

【摘要】目前,随着各领域的信息量暴涨,致使数据挖掘方面既存在机遇又存在挑战,并且这种爆破式的增长导致用户数据挖掘与储存的安全隐私产生了极大的隐患。因此,对数据挖掘隐私保护成为了当前亟待解决的问题。本文主要对数据挖掘隐私保护的算法进行研究,通过扰动算法以及关联规则隐藏算法两种算法进行对数据挖掘隐私保护算法进行研究,以期使问题得到解决。

全文阅读

数据挖掘隐私保护算法研究 息管理 张毅 哈尔滨市信患化建设项目管理中心 周佩 黑龙江省财政信息中心 许斌 东北农业大学 摘要 :目前,随着各领域的信息量暴涨,致使数据挖掘方面既存在机遇又存在挑战,粗 这种爆破式的增长导致用户数据挖掘与储存 的安 全隐私产生了极 大的隐患。因此 ,对数据挖 掘隐私保 护成 为了当前亟待解决 的问题 。本文主要对 数据挖掘 隐私 保护的算 法进行研 究,通 过扰 动算 法以及 关联 规则隐藏算法 两种算法进行对 数据挖 掘 隐私保 护算法进 行研究,以期 使 问题得 到解决 。 关键 词 :数据挖掘 隐私保护 算 法研 究 关联规 则隐藏算法 随着网络科技 的快速发展,各种信息、资源能够达到共享 , 使人们接受各类信息更加快捷方便,与此同时,信息量的暴增以 及网络的透明化也使用户的数据 挖掘 隐私保护受到了威胁,用 户机密隐私信息遭到泄漏。数据挖掘的目的是 为了对数据信息 进行科学分析;另外,对需要保护的重要数据信息应该采取修改 或删除的方式来进行保密。本文主要对扰 动算法以及关联规 则 隐藏算法进行研究和介 绍,对数据挖掘隐私保护算法的趋势进 行分析。 1.数据挖掘隐私保护算法的研究 1.1扰 动算法 此算法主要包括随机扰动以及乘法扰动两个方面 。前者的 主要是通过加法的运算方法来对原始数据进行噪声的添加 ,并 且这种添加方式 为随机添加,除此之外,随机 扰动的算法还包 括 k-mean算法、数 据转换矩阵算 法以及多重随机算法等。而 后者则包含投影扰动和旋转扰动两种算法。 1.1.1随机扰动 此算法通常是指针对已知数据中加入一定程度的噪声,使单 个数据恢复成原始数据的可能性消失。比如若存在一个原始数 据 I-,在 t-中添加一定程度的噪声d,从而得出附带噪声的数据 S, 可表示为 s=r+d。可将 s整体化,并以相应的算法,针对 s实施 数据挖掘 ,并对 r进行的数据挖掘所产生的结果进行推断。总体 来讲,噪声的强度越高,隐私保护的安全性就越强,但与此同时 数据挖掘的难度 系数就越大,并且还会造成挖掘在准确性方面 变差,所 以需要对隐私保护的强度以及数据挖掘的准确程度的 平稳性进行维持。 除了对数据添加噪声之 外,还可以对矩阵中数 据进行随机 转化,称之为随机扰动算法。相关研究人员还研究出对信号进行 处理的扰动算法,就是将随机项添入原始数据所形成的矩阵中, 并通过另一矩阵与之进行相乘来进行干扰,然后将干扰后的数 据进行发布。在数据发布后,客户端需要对巳发布的数据进行挖 掘 ,并将挖掘的结果返回至服务器中,待服务器将此结果进行有 效的处理后,才能够将真实的结果进行返回。 1.1.2乘法扰动 乘法扰动算法主要包含投影扰动和旋转扰动两种算法。其 中,投影扰动主要是使数据在空间上由高维转向低维的一个映 射过程,最终获得全新的数据集。而旋转扰动的定义可按 G (X) = RX这个方程式进行表示,在这个方程式中,R代表正交矩阵, X代表源数据矩阵,G(X)则代表数据被扰动后产生的矩阵。相 关研究人员层得 出研究结果,旋转扰动能够将原始数据进行分 成若干个子数据,并且这些子数据相互独立,通过对不同随机 正交矩阵进行使用,然后对分割后的各子数据进行旋转扰动 ,能 够有效抵御通过独立分量进行分析所形成的攻击,效 果较 为良 好。 1.2关联规则隐藏算法 这种算 法一般具备一定 的条件,这些条件就是数据项 已给 定 ,并且相应的记录和数据项都在集合 T之中,通过这些条件 能够找到各数据项间存在的关联性,从而使数据项相应的置信 度以及支

参考文献

引证文献

问答

我要提问