中文题名: | 基于SVM的反垃圾邮件系统的研究与实现 |
姓名: | |
学号: | 1049721101320 |
保密级别: | 公开 |
论文语种: | chi |
学科代码: | 081203 |
学科名称: | 计算机应用技术 |
学生类型: | 硕士 |
学位: | 工程硕士 |
学校: | 武汉理工大学 |
院系: | |
专业: | |
研究方向: | 计算机网络技术 |
第一导师姓名: | |
第一导师院系: | |
第二导师姓名: | |
完成日期: | 2013-05-19 |
答辩日期: | 2013-05-19 |
中文关键词: | |
中文摘要: |
伴随网络信息技术的发展和应用,E-mail(电子邮件)已经成为现代社会人们通信、交流的重要方式之一,它也成为了政府机关工作和企业部门办公必不可少的重要工具。但是,由此产生的垃圾邮件像疫情一样传播,它污染了网络环境,耗费了大量传输、存储和计算资源,严重影响了网络的正常服务。同时,不合法邮件浪费了用户大量的处理时间,给用户的正常生活带来了影响和不便。如何有效地防治垃圾邮件袭扰已经成为人们亟需解决的问题,因此,反垃圾邮件工作具有十分重要的意义。 本文研究分析了大量国内外最新反垃圾邮件文献资料及其相关数据,分析了现有反垃圾邮件技术的特点、缺陷和存在的问题。邮件过滤技术是反垃圾邮件的重要方法,目前主要有基于IP地址层的反垃圾邮件技术、基于SMTP协议的反垃圾邮件技术、基于规则的反垃圾邮件技术和基于统计的反垃圾邮件技术。依照电子邮件传送过程对其进行研究,并将上述几种主要的反垃圾邮件技术运用于本文最终设计的反垃圾邮件系统中。 通过比较分析现有最新的反垃圾邮件技术,本文中的反垃圾邮件系统采用了基于内容的反垃圾邮件技术,该技术具有良好的过滤效果。在基于内容的反垃圾邮件技术中,SVM(支持向量机)算法的分类效果明显优于其他分类算法,因此本文研究并实现了一个基于SVM算法的垃圾邮件过滤器,本文着重讨论了SVM算法的理论研究,指出SVM在电子邮件过滤方面所存在的缺点,并针对SVM过滤器的缺陷,提出了改进措施,通过将它改造为基于加权支持向量机与K近邻算法相融合的邮件过滤系统来进一步提高系统的查准率,并解决了邮件过滤中存在的不足之处。 主要工作如下: (1)介绍了电子邮件的相关理论。阐述了E-mail的格式,其次介绍了E-mail传输原理的理论分析、相关协议及其标准,对常用的邮件预处理技术(包括邮件解码、中文分词、特征提取等)进行了研究与分析,并从上述方法中选择适用于反垃圾邮件系统的技术,为本文后续工作的展开做好了铺垫。 (2)讨论了支持向量机的思想、方法、应用及分类问题。本文提出一种基于SVM的改进分类方法,即加权SVM与K近邻算法相结合。该方法应用于反垃圾邮件系统,正常邮件的误判率将会得到明显的降低。 (3)实现了邮件预处理过程,即邮件解码实现、中文分词实现、特征提取的实现等。 (4)本文使用LIBSVM作为开发工具来实现了基于加权支持向量机与K近邻算法结合的反垃圾邮件系统,该过程包括邮件训练过程与测试过程,并通过大量的实验确定了参数值的最佳状态,从而提高了整个系统的查全率。
﹀
|
中图分类号: | TP393.098 |
馆藏号: | TP393.098/1320/2013 |
备注: | 403-西院分馆博硕论文库;203-余家头分馆博硕论文库 |