动态专家评估排序技术

资源类型:pdf 资源大小:83.00KB 文档分类:文化、科学、教育、体育 上传者:汪明先

文档信息

【作者】 陈次白  林磊 

【关键词】搜索引擎 网页排序 人工排序 

【出版日期】2005-04-18

【摘要】专家动态评估文档方法能提供一个质量较高的检索结果,专家的权重会随着其评估行为和用户反馈的变化而变化。

【刊名】情报杂志

全文阅读

1 前 言  随着Internet的迅猛发展和WWW技术的广泛应用 ,因特网上的信息数量呈爆炸式增长。如何从大量的信息中有效查找有用信息已成为人们关注的焦点。于是各种搜索引擎应运而生 ,虽然这些搜索引擎为提高搜索质量采用了各种不同的算法 ,但对用户的检索要求仍难以提供令人满意的结果 ,其返回的页面少则数十 ,多则成百上千。然而“据估计近 85 %的用户只浏览搜索引擎返回的第一页结果”。因此 ,是否能将用户最感兴趣的页面放在搜索结果的前面 ,已成为评价搜索引擎好坏的一个重要因素。目前 ,对全球有较大影响的算法主要有PageRank算法、HITS算法和SAL SA算法 ,国内研究集中在PageRank算法和HITS算法。PageRank算法的基本思想 :若一个页面被多个页面引用 ,则这个页面可能是重要页面 ;一个页面尽管没有被多个页面引用 ,但被一个重要页面引用 ,那么这个页面也可能是重要页面。PageRank算法是使Goggle成为全球最成功的搜索引擎的重要因素之一。HITS算法与前者不同点在于考虑了Web链接结构的一些特殊特征 ,它将重要页面分为authority页面和hub页面。authority页面就是普通意义上的权威页面 ;Hub网页是提供指向权威网页链接集合的页面 ,它本身可能并不重要 ,或者说没有几个网页指向它 ,但是Hub网页却提供了指向某个主题最为重要的站点的链接集合。一个好的Hub网页指向许多好的权威网页 ;好的权威网页是有许多好的Hub网页指向的WEB网页。这就是HITS算法用以提高检索质量的基本思想。这两种方法都能在一定程度上提高搜索引擎的检索质量 ,但同时也有局限性。它们都是着眼于文档的链接分析 ,而忽略了页面本身的内容 ,也不能客观动态地反应用户的观点。在实际的使用中我们也能感觉到简单的引证计算不能反应文档内容的重要性。本文采用的人工评估文档排序法 ,称为专家评估文档排序法。其基本思想是 :由专家和文档本身共同决定文档的重要性 ,由专家决定每个类目下文档的排序。这种方法可以消除上述自动排序的弊端。2 专家评估模型首先 ,成立各类目的评估小组。按照元搜索引擎的类目 ,从志愿用户中选取相应的用户并将其分成普通用户组、准专家组、专家组三组。其中准专家组是根据用户的点击数和搜索行为从普通用户中产生 ,准专家组的用户经过一些专业培训后可升为专家组成员。其次 ,将每个类目的网络文档也分为普通文档、候选文档、推荐文档三个等级。当普通文档的用户点击率或被搜索引擎搜录的次数超过设定的阈值 ,则升为候选文档。候选文档通过专家组的评估成为最终的推荐文档。  2 .1 动态专家评估方法 元搜索引擎 (MetaSearchEngine)是一种能够利用多个独立的搜索引擎进行查询的搜索引擎 ,它可以自动爬取得到各个成员搜索引擎的文件排序列表。在专家评估的搜索系统中 ,当用户将检索要求提交给元搜索引擎后 ,元搜索引擎可以将成员搜索引擎和专家评估排序结果自动结合处理 ,反馈给用户。在这个模型中 ,每个专家根据以往的评估行为赋予一个权重 ,这个权重随着专家评估的有效性变化而变化 ,权重乘以专家给每个文档的打分得到文档的权值 ,这样文档排序的依据是这些变化的数据而不是专家主观的决策 ,这种方法可以尽量减少专家决策的主观性。  2 .2 模型相关指标的确定 假定二维数组c =[cij]表示用户访问文档情况cij=1 用户ui访问文档dj0 其它其中cij能够避免用户重复登录造成的统计误差设Ia(ui)为用户点击数 ,Iv(dj)为文档点击数 ,有 :Ia(ui) =∑Ndj=1CijIv(dj) =∑Nui=1Cij其中Nd 为搜索引擎中文档总数 ,Nu 为使用元搜索引擎的用户数。假设元搜索引擎的成员搜索引擎数为Ns,记为si,i =1,2 ,… ,Ns,设If(di)表示文档被搜索引擎收录的频率 ,则 :If(di) =∑Nsj=1δjmij中 :mij=1 文档di被搜索引擎Nsj 指向0 其它δj为搜索引擎Nsj的权重If(di)可以衡量文档在元搜索引擎中链接数 ,当它超过阈值时 ,则认为这个文档是有价值文档。δj值 (搜索引擎Nsj 的权重 )确定方法如下 :根据c=[cij]和m=[mij]可以判断元搜索引擎中各成员搜索引擎的价值 ,设Y =C·MT,则δk =∑ Nui=1yik∑Nsj=1∑ Nui=1yij为成员搜索引擎Nk 的权重  2 .3 专家评估文档的步骤第一步 :根据评估组成员的Ia(ui)值的大小选出各类目的候选专家 ,其中Ia(ui)的值是随着时间及评估成员的行为动态变化的 ;候选专家根据测试的分数升为专家。第二步 :确定每个专家的权威值(authority)。这是由Ia 值、测试的分数、用户的反馈等因素共同决定 ,设第k个专家的权威值为 :wk =EIa(uk) +H ,其中E ,H为比例系数。第三步 :由Ia(ui)和Iv(dj)确定文档的价值Ic:Ic =αIf+βIv+γ,其中α、β、γ为比例系数。当Ic 大于阈值时确定其为候选文档 ,由专家评估。第四步 :每个专家对每个候选文档进行评估并打分 ,X =[χij]表示专家i给文档j打分。第五步 :计算出文档dj 的权数。V(dj) =∑Nek=1wk∑ Nei=1wiχkj,其中Ne为此类目下专家数第六步 :按文档权值高低列表 ,反馈给用户。其中wk 是一个动态变量 ,可以据此区分专家的好坏 ,若专家积极参与并评估正确时 ,wk 值高 ;反之 ,则wk 值低。本方法结合了人工排序和自动排序的优点 ,即 :a.自动排序有效率高、更新及时、成本低等优点 ,因此本方法仍是基于自动排序 ,当文档的点击率超过阈值后 ,由人工排序。若每个文档都由人工评估 ,则工作量太大 ,难以保证实效性 ,成本也太高。b .由于该法引入了专家评估 ,并且在结果中运用加权处理 ,所以其检准率肯定高于自动排序的检索 ,也能够避免自动排序中忽略文档本身内容的弊端 ;同时也考虑到人工评估的主观性 ,尽量量化评估结果 ,做到有理有据 ,更好地反映文档自身的价值。3 结 论Internet的迅猛发展使得人们在海量信息面前无所适从 ,拥有优秀的排序算法的搜索引擎成为帮助人们摆脱这一困境的工具。本文介绍的方法结合了人工排序和自动排序的优点 ,灵活易行 ,能大大提高检索质量 ,是一种切实有效的方法。动态专家评估排序技术@陈次白$南京理工大学经济管理学院信息管理系!南京210094 @林磊$南京理工大学经济管理学院信息管理系!南京210094搜索引擎;;网页排序;;人工排序专家动态评估文档方法能提供一个质量较高的检索结果,专家的权重会随着其评估行为和用户反馈的变化而变化。1 SeaWooKim.Chin-WanChung:RankingWebDocumentswithDynamicEvaluationbyExpertGroups.CAiSE 2003 2 张卫丰,徐宝文,周晓宇等.元搜索引擎结果生成技术研究.小型微型计算机系统,2003;(1) 3 肖建华,蒋 明,何 瑗,柏文阳.二次搜索系统的设计与实现.计算机应用研究,2003;(9) 4 郑建华,赵 政.Web页面排序算法研究.微处理机,2003;(5) 5 S .W .Kim,C .W .Chung.WebDocumentRank ingbyDifferentiatedExpertGroupEvaluation.HCIInternational,2001 6 BrinS .,PageL .Theanatomyofalarge-scalehypertextualwebsearchengine,inproceedingsoftheSeventhInternationalWorldWideWebCon ference,1998 7 GibsonD .,KleinbergJ.,RaghavanR .InferringWebcommunitiesfromlinktopology,inProceed ingsoftheACMConferenceonHypertextandHypermedia,1998 8 AridorY .,CarmelD .,LempelR .,SofferA .,MaarekY .KnowledgeAgentsontheWeb,inFourthInternationalWorkshoponcooperativeIn formationAgents,2000

1

问答

我要提问