用网格技术反垃圾邮件

资源类型:pdf 资源大小:245.00KB 文档分类:工业技术 上传者:安彬

相关文档

批量下载下列文档

文档信息

【作者】 陈广良  刘鹏  汪涛 

【出版日期】2005-03-28

【刊名】中国计算机用户

全文阅读

垃圾邮件对众多的网民来说并不陌生,但垃圾邮件的蔓延速度着实让人震惊。也许两年前当有人提起垃圾邮件的危害时,您也许会发出这样的疑问:“情况真的如此严重吗?我不过偶尔才收到一封垃圾邮件,点击一下鼠标就删除了”。而两年后的今天,您可能每天一开机什么也不做,光是清除邮箱中的垃圾邮件就得花费30分钟以上。垃圾邮件的泛滥已经成为互联网上的一个严重问题。一份来自国外著名反垃圾邮件公司BrightMail的统计显示,在2002年初,垃圾邮件只占整个邮件发送量中的16%,而今天这一比例已经大大超过60%。社会各界就危害愈演愈烈的国内“垃圾邮件”问题,要求采取“反垃圾邮件”行动的强烈呼声已经引起国家相关部门的高度重视。2004年1月30日,由公安部、教育部、信息产业部和国务院新闻办四家单位,联合向全国各省的下属单位发出了《关于开展垃圾电子邮件专项治理工作的通知》,牵头打响了“反垃圾邮件”第一炮。1成滥灾泛件邮圾垃目前,过滤垃圾邮件的方法有:立法、提高发垃圾邮件的成本、黑名单、身份确认、基于规则的过滤、基于贝叶斯推理的过滤等。阻止垃圾邮件的首要任务是找到它们的真正来源。由于SMTP协议的弱认证机制,使得邮件信头的部分内容很容易被伪造。对于水平不高的伪造,可以通过信头看出来。通常情况下,一封电子邮件从发件人的机器到收件人的机器,中间要经过若干台邮件服务器。邮件每经过一台服务器,服务器就会相应地在信头的顶端加入一行“Received”的信息,尽管信件中的“From”、“To”和信封中的“From”的地址都是由发件人输人的,但在邮件的信头,“Received”起始的信息是由邮件服务器加上去的,从这里可以看出邮件的真实来源。过滤是反垃圾邮件的一种重要方法,过滤可以分为基于IP地址的过滤、基于信头的过滤和基于内容的过滤三种。对于那些从本身服务器发出的垃圾邮件可以采取基于IP地址的过滤方法,这种方法也可以用于那些长期转2过滤垃圾邮件的方法发垃圾邮件的服务器。采用这种方法的优点是有效便捷,缺点是从该IP地址发出的正常邮件也被同时过滤掉。基于信头的过滤是根据信头中的某些域来进行过滤。基于内容的过滤指的是服务器通过对邮件内容的识别,判断它是垃圾邮件还是正常邮件,这种过滤方法的优点是避免了基于IP地址过滤造成的“不分良莠”的缺点,但是其缺点则是判别算法敏感、必须收到邮件内容,因此无法避免相应的资源浪费。各种自动过滤技术虽然各有所长,但迄今为止还没有一种真正有效的方法,这也是绝大多数用户的电脑里虽然安装有防病毒软件,却没有安装反垃圾邮件软件的原因。3建立反垃圾邮件网格图就垃圾邮件的自动过滤技术而言,能单纯用人工智能的方法来过滤垃邮件,因为人工智能目前还不是成技术。那么,垃圾邮件还有什么特征?最大的特征是:只要是垃圾邮件,都会将相同的内容发送给数十万、百万乃至上千万的接收者。为此,我们可以建立一个分布式计和分布式学习平台,以大规模用的协同计算来过滤垃圾邮件:首先,我们可以为每一封邮件计算出一个唯一的“指纹”,通过比对“指纹”可以统计同一封邮件的副本数,当副本数达到一定数量,我们就可以判定这封邮件是垃圾邮件;其次,由于互联网上多台计算机比一台计算机掌握的信息更多,因而可以采用分布式贝叶斯学习算法,在成百上千的客户端机器上实现协同学习过程,收集、分析并共享最新的信息。要建这样一个系统,网格技术是最好的选择,这是由于:◆垃圾邮件是发给整个互联网的,我们需要建立一个全局性的基础设施来收集垃圾邮件的信息;◆对每封邮件都需要进行指纹计算,因而需要有一个分布式的计算环境;◆系统的动态性很强,所有的服务器、客户端及电子邮件都在不断保持更新,我们需要一个能够适应变化的灵活平台。左图中显示了反垃圾邮件网格的系统结构,它包括反垃圾邮件客户端、过滤服务器和调度服务器。用户如果使用了我们的反垃圾邮件插件,每当收到一封新邮件时,就会自动生成一个数字签名,发给网格中的一台过滤服务器,该服务器根据全局虚拟数据库,判断该签名的重复出现次数,并返回给客户端。客户端根据这个次数,就可以知道该邮件的重复发送次数,发送次数越多,它是垃圾邮件的可能性越高。然后再结合分布式贝叶斯算法,就可以比较准确地识别出垃圾邮件,并将出现假阳性错误的可能性降到接近0。利用网格技术的分布式统计功能实现大范围内垃圾邮件的过滤,尚未见到有关文献的报道。它体现了真正的网格思想,每个加入系统的用户既是服务的对象,也是完成分布式统计功能的一个信息节点。随着系统规模的不断扩大,系统过滤垃圾邮件的准确性也会随之提高。用大规模统计方法来过滤垃圾邮件的做法比用人工智能的方法更成熟,它不容易出现误判假阳性的情况,实用性很强;分布式贝叶斯方法是传统贝叶斯方法与网格环境相结合的产物,它将单点学习过程分布化和协同化,缩短了学习的时间,共享了学习的经验。这两种手段的结合,是在现有主流反垃圾邮件方法的基础上的升华提高,具有实际应用价值。C C U用网格技术反垃圾邮件@陈广良$解放军理工大学网格研究中心 @刘鹏$解放军理工大学网格研究中心 @汪涛$解放军理工大学网格研究中心

1

问答

我要提问