基于混合度量方法的用户兴趣模型

作者:李辉;梅佩;易军凯 刊名:计算机工程与设计 上传者:谢义群

【摘要】为从用户浏览网页中发现用户兴趣,提高用户兴趣的准确性,更好地为用户提供个性化服务,提出一种基于混和度量方法的用户兴趣模型。使用信息增益和互信息两种度量方法进行特征降维,采用先分类后聚类的方法对浏览内容进行分析,从中发现用户兴趣。实验结果表明,该方法能够有效发现用户兴趣,先分类后聚类的效果评估值达到80%以上。

全文阅读

0 引 言随着网络中信息量的指数级增长以及网络内容的纷繁杂乱,网络用户花费了太多的时间从庞大的数据海洋中寻找自己所需求的信息,个性化服务就是在这种背景下应运而生[1]。而用户兴趣研究是提供个性化服务的必要组成部分。其中用户兴趣模型的准确性直接决定了个性化服务质量的好坏。本文针对特征选择的难点以及用户兴趣难以发现等问题,提出了基于混合度量方法的用户兴趣模型。对用户浏览的网页内容进行分词,并结合信息增益和互信息两种度量方法对特征进行降维;通过分类方法对用户兴趣进行粗粒度划分,得到若干个较大的类别,随后对每个大的类别使用聚类算法获取用户的兴趣;通过分析用户的浏览行为计算用户兴趣度,并使用IR(interesting)矩阵表示用户兴趣。1 相关工作目前,国内外学者和研究人员对用户兴趣建模问题都进行了广泛的研究并取得了一系列成果。He L等提出一个基于LDA的主题挖掘模型,该模型将用户的兴趣分为原始兴趣和转发兴趣两种,并且采用吉布斯取样推断出模型的参数,进而发现用户的原始兴趣和转发兴趣[2]。JayarathnaS等通过使用4种不同的主题模型生成细粒度的用户兴趣模型,并且对用户及其兴趣相符的整篇文章或文章片段的关注度进行可视化呈现[3]。Liu Z等针对微博用户发表的信息的嘈杂性和词语的多样性,提出一种将基于转化和基于频次相结合的关键词提取方法来挖掘用户的兴趣[4]。Ku-mar S等从网页历史中提取用户的兴趣,并通过计算关键字整体传播的次数来识别兴趣的重要性,根据兴趣的重要程度进行排名[5]。Liu D等提出了一种指纹方法来分析用户的兴趣特征,该指纹是通过Simhash算法得到的高维特征向量所生成的二进制位,而通过指纹序列以及两个相邻指纹间的距离可以检测到用户的兴趣特征[6]。Zhu Y等通过收集用户的交互行为信息并结合隐式反馈技术来建立用户兴趣模型。并通过明确的反馈信息和时间衰减对用户兴趣模型进行更新,提高模型的准确度[7]。LI C等提出了一个选举的方法来提取多维关键字,利用多维关键字体现用户的 兴趣,而随着参数的变化,多维关键字模型描述用户的兴趣优于传统的VSM[8]。Li S等提出了一个基于图的中文词语层次聚类算法。该算法在一个层次树状结构上建立用户兴趣,采用最大匹配映射方法匹配用户兴趣,并建立代表每个集群的主题层次用户兴趣模型[9]。Ma Y等提出了一种基于多源的个人信息融合和语义推理的用户兴趣建模方法,对多个来源的兴趣数据采用不同的融合策略,然后通过概念粒度推理调查用户的明确兴趣和隐性兴趣之间的语义关系,通过兴趣之间的语义关联获得比较完整的用户兴趣集[10]。Sathish S等介绍了一个提供用户兴趣建模方法和装置。这种方法是接收用户的输入,并从中获取一个或多个主题,这些主题来源于指定的预定层次结构中的标题和小标题。另外,该方法也包括检索到的一个或多个与用户相关联的文档,并从文档中提取相对应的语言标记[11]。2 用户兴趣的发现本文创建用户兴趣模型的过程主要是通过对用户浏览的web网页内容进行分析,从中获取用户兴趣并进行兴趣度的计算,然后将二者结合起来表征用户兴趣。整体的流程如图1所示。图1 用户兴趣模型的创建流程在完成从服务器端获取用户的浏览页面集后,首先要对用户浏览的页面集进行数据预处理得到规范化文本,然后对文本进行先分类再聚类,以此获取用户的兴趣类簇并计算用户的兴趣度,最后结合用户的兴趣和兴趣度表征用户兴趣,这样就构成了一个完整的用户兴趣模型。后续章节将对这一过程进行详细的阐述。2.1 网页内容的预处理本文通过在服务器端安装抓包工具来

参考文献

引证文献

问答

我要提问