基于用户生成内容的产品搜索模型

作者:王海雷;章彦星;赵海玉;张铭 刊名:中文信息学报 上传者:陈清祥

【摘要】以消费者行为分析和离散选择的相关理论为基础,通过对用户生成内容进行特征粒度的情感分析,同时从产品的客观数据和用户生成的主观内容中提取模型特征,使用有监督的学习训练MNL模型预测产品的消费者剩余作为搜索排序的依据,并实现了手机、笔记本电脑和数码相机类的产品搜索系统。双盲实验表明,该文提出的产品搜索模型搜索效果比基准算法有显著的提高。

全文阅读

1引言随着Internet的普及和web技术的蓬勃发展,大批B2C/C2C购物网站、专业评测网站、第三方评论网站、购物社区的兴起,构成了电子商务领域的信息链。越来越多的人倾向于在网络上自由表达观点,大量的用户生成内容能够帮助用户更全面地了解产品,做出理性的决策。正如搜索引擎是互联网的信息入口,产品搜索毫无疑问是电子商务的重要入口。Kumar等人2010年发表的文献[1]指出,在所有通过网络购物的用户中有20.1%的用户在购物之前使用了产品搜索,而产品搜索占互联网搜索总量的19.91%。产品搜索与传统IR领域的网页搜索相比具有新的特点[2],主要表现在:搜索的应用类型不同,搜索的内容来源不同,搜索的结果粒度不同,搜索的用户需求不同。如何综合利用各种类型的客观产品数据和主观用户生成内容,设计符合用户需求的搜索模型,是产品搜索面临的重要挑战。现有的产品搜索模型大多只考虑产品的客观数据,这些搜索模型与用户需求即消费者购买决策的考虑因素不甚相符。近年来,有一些研究将用户生成内容(如产品评价)应用于解决产品搜索问题。这类搜索模型大多基于用户评分、用户评论数等结构化数据,或者基于对用户评论文本进行语法结构和较粗粒度的语义情感分析选取的模型特征,往往缺乏能有效结合客观数据和用户生成内容的具有理论支持的搜索模型。本文内容组织如下:第1节是目前产品搜索的相关工作;第2节介绍本文提出的产品搜索模型的理论基础及MNL模型的原理;第3节详细阐述模型特征选择和参数训练的方法;第4节通过实验对训练产品搜索模型进行解释,双盲实验显示,本文提出的搜索模型比基准算法有显著的提高。2研究背景现有的产品搜索模型,通常与传统信息检索领域文档搜索模型类似,对生产厂家提供的产品介绍、性能参数等客观数据进行建模,基于元数据匹配与否[3]、文本相似度、文档结构[4]和链接等特征构建搜索模型,搜索模型及排序标准与用户选购产品的实际需求之间存在着不小的差异。近年来,有一些研究将用户生成内容应用于解决搜索问题。Scaffidi等人实现的RedOpal系统[5]使用词性标注和关联规则挖掘的算法从用户评论中识别产品特征;Zhang等人通过对数码相机和电视类产品的用户评论进行主客观分类,识别出其中表示比较意义的句子,对比较句进行情感分析构建以产品为结点的偏序集,然后使用图模型对产品进行排序[6];Li等人对酒店的用户评论进行分析,选择酒店的价格、地理位置、服务等客观数据,以及用户评分、用户评论的可读性和特征粒度的情感分析等特征,使用有监督的学习方法训练了随机系数模型作为酒店搜索排序模型,并实现了酒店搜索的原型系统[7-8]。文献[5]的产品搜索模型仅仅基于单一产品特征的情感分析结果,搜索效果较差;文献[6]对比较句进行分类并构建图模型,考虑到用户评论中比较句的数据来源比较稀疏,而且句子主客观分类的准确性不高,对搜索结果影响较大。文献[7-8]通过对英文用户评论进行情感分析获取的模型特征对搜索结果的影响甚微,而且没有考虑通常影响消费者选择商品的品牌等因素。考虑到用户生成内容在电子商务中的作用,以及现有产品搜索模型的缺点,本文以消费者行为分析和离散选择分析的相关理论为基础,设计了一个结合产品客观数据和用户生成内容的产品搜索模型。从产品客观数据中选取品牌、价格、上市时间、销售商家数等模型特征,结合从用户生成内容中提取的用户评分、评论数、评论的特征粒度的情感分析等,使用有监督学习方法训练MNL模型对产品进行搜索。3产品搜索模型3.1理论基础首先假设消费者在选择产品前,能够尽可能多地了解产品信息以做出理性抉择。因此,

参考文献

引证文献

问答

我要提问