基于贝叶斯方法的邮件分类技术研究

作者:许建明;杨磊;黄同成 刊名:科学技术与工程 上传者:凌华志

【摘要】阐述了贝叶斯算法的基本原理及基于朴素贝叶斯算法的反垃圾邮件自动过滤技术。在深刻分析朴素贝叶斯算法不足的基础上,提出了旨在提高垃圾邮件过滤精确率的改进方案,给出了实验结果。

全文阅读

电子邮件已成为当今社会一个广泛使用的重要交流工具,但是邮件传输相关协议的先天不足等诸多因素,造成垃圾邮件泛滥。中国互联网协会反垃圾邮件中心于2007年3月26日刊登了国外一则调查报告:亚洲地区近70%的电子邮件为垃圾邮件,而中国是最大的发源地。用户收到了大量不需要的、欺诈性的,或令人讨厌的邮件,不得不浪费大量的时间去删除这些垃圾邮件。即使有一些相应的邮件过滤软件,也担心重要的邮件被误认为垃圾邮件。滤除垃圾邮件是具有相当难度的事情,垃圾邮件每天都在增加和变化。因此,必须采用一种新的技术来克服静态反垃圾邮件的弱点,这种技术应该对垃圾邮件发送者的各种伎俩了如指掌,还要能适应不同用户对于反垃圾邮件的个性化需求,这种技术就是贝叶斯过滤技术。贝叶斯邮件过滤方法是基于概率的技术,基于概率的自动过滤算法已逐渐成为主要研究趋势,贝叶斯加权统计分析算法可以根据用户认为的垃圾邮件和非垃圾邮件进行统计分析,具有学习渐进的功能,可以逐渐取得较好的效果,达到较高的判断准确率。因此,研究邮件自动过滤贝叶斯技术具有特别重要的意义。1贝叶斯邮件分类技术1.1贝叶斯分类原理贝叶斯分类原理最初源自于概率论中的贝叶斯定理。该定理表示对未来某件事情发生的概率可以通过计算它已经发生过的频率来估计,贝叶斯技术的吸引力在于它的简单性。预测完全取决于收集到的数据,获得的数据越多结果就越好。另一个优点在于Bayes模型能够自我纠正,也就是说数据变化了,结果也就跟着变化。贝叶斯理论被广泛应用于垃圾邮件的过滤算法。通过计算邮件文本属于某个类别的概率,将该文本归为概率最大的类别中去,以判定邮件类别,在计算时使用了贝叶斯定理的概率公式[1]。简单贝叶斯分类算法是建立在“贝叶斯假设”的基础之上:假定所有的特征之间互相独立。利用这种方法,邮件用户可以提供一定数量的垃圾邮件和非垃圾邮件作为邮件训练集,自动训练垃圾邮件过滤器,训练的结果被用于以后的垃圾邮件和非垃圾邮件分类算法中去。1.2朴素贝叶斯分类算法贝叶斯分类的原理是大多数事件都是相互依赖的,那么一个事件将来发生的概率可以从该事件从前发生的概率进行推断,应用同样的原理可以对邮件进行分类。分类器的工作一般分为训练和分类两个阶段[2]:在训练阶段分类器通过对大量邮件(包括垃圾邮件和非垃圾邮件)特征进行分析,统计不同特征对于邮件分类结果的影响;在分类阶段应用训练阶段的统计结果便可以对新到邮件的类别进行判断。例如,某一文本类型为c=(c1,…,cn),文本t=(t1,…,tn),其中c1,…,cn为各种文本类型。t1,…,tn表示文本特征项的值。根据贝叶斯概率公式,文本t属于类型cj的概率为P(cj|t)=P(t|cj)P(cj)P(t)(1)(1)中,P(cj)是从文本空间中随机抽取一个文本类别是cj的概率;P(t|cj)是文本t对于给定类cj的条件概率;P(t)是从文本空间中随机抽取一个文本t的概率。朴素贝叶斯在一般贝叶斯算法的基础上加入了“独立性假设”:假定对于给定的类,文本中所有属性之间是相互独立的。即当t属于类cj时,t中的属性(单词)tk的取值与tl的取值是相互独立的。由于这一假设的存在,对于公式中P(t|cj)的估计可以表示为P(t|cj)=ni=1P(ti|cj)(2)由于P(t)对于所有的类cj都是一样的,所以使式(1)中分子取最大值的类就是t的分类结果,将式(2)代入式(1)中,得到c(t)=argmaxcjc{P(cj)P(t|cj)}(3)使得式(3)最终得到的结果较大的类别c即为文本t最终的分类。2贝叶斯分类算法的改进邮件自动过滤方法研究主

参考文献

引证文献

问答

我要提问