语义分类方法在淘宝评论文本中应用研究

作者:高彦 刊名: 上传者:徐卫东

【摘要】电子商务近些年的迅猛发展,人们选择线上购物平台的越来越多,淘宝网作为最大的C2C电子商务平台拥有庞大的客户群,人们通过淘宝网可以在短时间内获得千里之外的商品而无需实地购买。这在一定程度上,影响了人们的购买行为,人们可以通过网络进行交流,缩短了人与人之间的距离,这使得人们在进行购买行为前习惯搜索该商品或者服务的相关评价信息,消费者在线评论文本的价值则被挖掘出来。此外商家也可以从评论中获取商品信息加以改进提升,那么用户评价的进一步提取有效信息就成了首要问题。在现阶段的研究中,不同学者对于情感分类进行了多方面多角度的研究,情感词汇以及否定词特征、特征级别的领域特征集合的情感挖掘等一系列观点和方法相继提出。但是针对于评论文本碎片化、短语句的特性,往往传统的文本分类技术不太适用于此。而对于评论文本的研究中包括关键词分类、情感倾向分类等等,提出了一系列的应用研究,提取文本当中的关键词或者表达情感的情感词汇,通过分析词语的褒贬程度从而确定文本的情感倾向。针对这些问题,本文提出了基于语义的评论文本分类方法。挖掘评论文本中的情感倾向词汇,通过情感词汇的语义关系进行概念间分类。利用语义分类方法,基于《知网》和《同义词林》的词汇间关系构建初始语料库,在语料库中,确定种子词汇的情感倾向性,再通过其他词汇与种子词汇间概念关系从而确定其他词汇的情感倾向,从而达到评论文本语义分类的目的。语义褒贬倾向的研究为文本分类、文本过滤等自然语言处理的研究提供了新的思路和手段,将语义分类应用到淘宝评论文本中去同样也会是一种趋势。通过语义分类的标准将评论文本进行重新分类。改变原有的手动选择“好评”、“中评”、“差评”改为自动识别“褒”“中”“贬”“未评价”的分类标准。本文提出淘宝评论文本语义分类的方法,将评论文本进行分词处理,标注词性,提取观点词;通过语义进行分类后的文本会发现更加直观、清晰,从而验证语义分类的可行性。

全文阅读

第1章绪论1.1研究背景与研究意义伴随着互联网的迅速普及和发展,电子商务走进了人们的生活当中,与此同时,电子商务网上购物成为了人们的便捷选择,淘宝网作为国内最大的C2C电子商务购物平台其拥有庞大的客户群,也正因为此出现了诸多问题,消费者在线评论文本的价值不可低估,其隐含的褒贬极性对卖家和买家都会产生很大影响。越来越多的消费者通过对商品的评论表达自己对该商品或者服务的评价和情感,同时,越来越多的消费者在进行购买行为前会通过阅读在线评论文本来决定购买是否[1]。在web2.0时代,正是由于网络的开放性、虚拟性与共享性,越来越的网民在网络上发布共享他们所获得的商品或者服务的体验,人们口口相传,如此就形成了口碑效应,通过口口相传的形式扩散从而形成一定的影响力[2]。而这种网络社区活动中,以在线评论为主要表现形式,他们可能很简单的对某一商品或服务的评价,或者会对该类商品或者服务的销售产生很大的影响,这就是常说的“电子口碑”。对信息用户来说,他们更愿意信任同等人群的这种评论,而不是商家声情并茂的营销手段。“数字丰富但知识缺乏”描述的就是现在的情况,从海量的非结构化信息中抽取或挖掘隐含的信息就是目前亟需要做的事,将评论信息进行分类划分,消费者可以在更短的时间全面了解商品情况,缩短了消费购买时间,消费者不再需要和在线客户进行交流沟通从中获得商品具体信息,在评论文本中就能筛选出自己所需的信息,一方面,消费者缩短了购买过程中所花费的时间,另一方面消费者的选择时间缩短了,意味着购买频率增加了,如此在同样的时间内,商家可以卖出更多的商品或者服务,同时也释放了淘宝客服的工作强度,因此无论对于买家还是卖家,便捷的购物方式都是其所希冀的。此外,不单单是消费者,商家的角度对消费者的评价信息也会非常关注,从这里可以轻而易举的获取该产品或服务的优缺点,这样才能真正促使该产品或服务的销售。那么用户评价的进一步提取有效信息就成了首要问题。众所周知,淘宝网的好、中、差评是选项板块,但其具体的评论文本是否与其匹配,不得而知。而在这些评论当中,往往消费者关注的更多的是能够表达人们情感倾向的观点词汇,譬如说好、差、讨厌等等,通常这些词汇能够表达出对于该商品或者服务的评价重点信息。当然在评价信息中会出现图片、符号等等各种情况,排除此类情况的干扰,单纯对评论文字文本进行分析研究,就是本文所要研究探讨的重点。改变目前的评选标准,自动抽取买家评论文本中的情感词汇,后台处理产生情感倾向分类,区分好、中、差评。将卖家店铺的信用升级制度化有形为无形,在潜移默化中实现信用等级的划分。在进行自动分类的同时,再将情感表达一致的词汇进行分类,确定统一表达语句,使得在线评论文本更直观的表现出情感定位情况。这样的情感分类系统其真正意义在于,将淘宝网信用等级评选制度更加规范、公平合理化。这样就不存在量化的评价选项,也就减少“好评返现”类的变相刺激活动。同时充分利用在线评论文本中隐藏的价值,进行更为直接有效的营销工作。评论文本中存在大量的用户情感信息,这些信息价值可观,挖掘其价值也势在必行,但是单纯的依靠人工进行判断处理,不能实现真正的参考分析价值;而进行语义分类,同时构建表情符号情感词典和网络用语情感词典。构建统一标准从而实现在线评论文本的准确分类[3]。1.2国内外研究现状及评述1.2.1国内研究综述从知网检索的角度看语义分类,发现语义分类应用在了各个领域当中,付亚丽等人[4]通过提取图像中的情感特征进行语义分类,利用颜色心理学中所提及的能够表达人们情感特征的颜色和纹理等从而抽取图像的感性特征进行情感分类;罗安等人[5

参考文献

引证文献

问答

我要提问