基于访问相关性的空间数据副本控制策略

作者:潘少明;种衍文;李红;谭喜成; 刊名:华中科技大学学报(自然科学版) 上传者:叶建忠

【摘要】为解决地理信息系统面对用户大规模密集访问时由于缓存空间有限且热点数据较多,简单的根据数据的流行度选择副本难以适应用户突发性访问行为等动态需求的问题,提出一种综合考虑数据流行度及其相互关系的副本控制算法.首先,根据数据流行度确定热点数据集以减少热点数据规模和降低计算开销;然后计算热点数据之间的相互关系以得到其访问相关性;最后利用数据之间的访问相关性动态选择与当前正被访问数据相关性高的数据作为副本,从而为用户的下次访问提前准备数据,实现降低用户访问平均响应时间的目的.算法实验表明:相比于传统方法,所提出的综合副本控制算法可有效提高5.9%~29.9%的平均访问响应速度.

全文阅读

副本选择及其控制技术是地理信息系统(GIS)在用户密集访问过程中所面临性能问题的主要解决手段之一[1-2].针对副本选择,主要有根据流行度高低选择副本的策略以及通过预测数据访问概率选择数据副本的动态重组策略[3]等.针对用户访问行为的动态性和突发性特点[4],基于时间的流行度模型分类副本控制[5]和基于数据的Zipf-like分布的副本复制策略[6]等则通过挖掘数据的流行度分布,并据此对部分数据进行副本控制,但这些算法主要应用在视频播放领域.针对地理信息系统中地理空间数据访问存在的长期稳定性特点,开展副本选择和副本置换的方法主要有基本马尔可夫算法(basicMarkov)[7]、基本Zipf分布算法(basicZipf)[8]以及基于Zipf分布的马尔可夫算法(ZipfMarkov)[4]和DCST(distribu-tedhigh-speedcachingbasedonspatialandtem-porallocality)算法[9]等.基本马尔可夫算法和基于Zipf分布的马尔可夫算法通过设置当前访问的地理空间数据为初始状态、其邻居地理空间数据的访问概率为状态转移矩阵构造马尔可夫链模型,以预测用户的下一个访问状态并据此进行副本选择,主要用于单用户访问路径预测.基本Zipf分布算法和DCST算法则通过计算所有地理空间数据的流行度并选择流行度高的数据作为副本,实现对全部用户行为预测.相关研究表明[2]:用户对地理空间数据的访问既存在长期稳定性,也存在短期突发性的特点,同时由于地理空间数据量大而高速缓存空间有限,如何从海量的热点数据中选择最近须要立即被访问的地理空间数据进行副本选择和高速缓存是实现副本选择的关键所在.基于以上分析,本研究提出一种综合考虑数据流行度及其相互关系的副本控制算法,以在减少热点数据规模的同时,通过计算其相关性并根据当前访问数据获取最需要和最合适的地理空间数据进行高速缓存以跟踪用户访问行为的突发性变化.1基于访问相关性的副本控制算法1.1相关性模型当用户访问地理信息系统时,其访问行为蕴涵了地理空间数据相互之间的关系[10].由于用户访问行为的动态性,以及用户兴趣变化、地区热点转移等导致其相互关系也是动态的[11].在不同的考察时间间隔内,其相互关系表现出长期的稳定性和短期的突发性特点[9].为此,算法首先根据用户访问行为挖掘地理空间数据之间的相关性.设地理信息系统中热点空间数据个数为N,并定义D={d1,d2,…,dN}为所有热点数据的集合,其中diD(i[1,N])表示集合中的第i个热点数据.diD(i[1,N]),若某时刻di被用户访问之后,djD(i,j[1,N],ij)也被用户访问,则定义空间数据di到dj产生了一次关系;同时,若di和dj被访问的间隔为x,则定义这次关系的大小和距离分别为rx和x=x.显然,地理空间数据之间的被访问间隔越大则关系越小,即rx-1>rx.针对一个典型访问行为序列GGGGEAFBCDABCDDDCDDDABCDDDCDDD[12],数据A到B产生了3次关系,其对应关系的大小和距离分别为(r2,r1,r1)和(2,1,1).更进一步,若设最大访问间隔为n(即忽略访问间隔大于n的地理空间数据之间的相关性影响),则可得到一个访问相关性大小向量R=(r0,r1,…,rn)和访问相关性距离向量=(0,1,…,n),其中:rx-1>rx;x=x-1+1(x[1,n],r0=1,0=0).同样,设地理信息系统运行中在时间t内,按照先后顺序记录的所有用户访问地理空间数据的访问序列为At=(a1,a2,…,a

参考文献

引证文献

问答

我要提问