




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
泰山学院本科毕业论文(设计)开题报告 题 目贝叶斯分类算法在反垃圾邮件系统中的应用与改进 年 级08级 专 业信息与计算科学 姓 名胡俊杰 学 号2008060208 指导教师签字 学生签字 年 月 日题目来源指导教师推荐 自选 其它题目类别基础研究 应用研究 其它开题报告内容包括调研资料的准备,选题依据、目的、要求;进度安排;完成任务所需条件、主要参考文献与资料情况等,字数15002500字。(可根据内容适当调整版面)论文题目:贝叶斯算法在反垃圾邮件系统中的应用与改进调研资料的准备(查阅过的文献资料及调研情况,需要的仪器设备情况等):1Jon Postel,On the Junk Mail Problem,RFC 706,Nov 1975。2中国教育和科研网垃圾邮件处理小组,垃圾邮件的文化与历史,H/spam_old/culture/history_culture.htm。3中国互联网协会反垃圾邮件中心,2005第三次中国反垃圾邮件状况调查报告,2005。4中国互联网协会,中国互联网协会互联网公共电子邮件服务规范, 。5曹麒麟、张千里,垃圾邮件与反垃圾邮件技术,人民邮电出版社,2003。6赵英、黄九梅,计算机工程与应用,2003。7中国互联网络信息中心R。第22次中国互联网络发展状况统计报告,2008。8The Chinese Anti-Spam Alliance, 。9中国互联网协会,中国互联网协会互联网公共电子邮件服务规范, 。10http:/www.alvestrand.no/x400/standards.html。11江河,对抗垃圾邮件J,网管员世界,2005。12陈华辉、薛春阳,一种基于贝叶斯网的垃圾邮件过滤器J,微机发展,2004。13王新梅,基于内容挖掘的垃圾邮件过滤技术,2006。14边肇祺、张学工,模式识别(第2版),2000。15Andrew McCallum,Kamat Nigam.A Comparison of Event Model for Na?ve Bayes TextClassification./people/mccallum/multinomiat-aaai98w.ps,1998。16I.Adnroutsopoulos,G.Paliouras,E.Michelakis,Learning to FilterUnsolicited Commercial E-Mail.Thchnical report 2004,2,NCSR“Demokritos”,2004。17谢希仁 计算机网络(第5版) 电子工业出版社 2008.1选题依据:随着电子邮件的广泛应用,垃圾邮件的增长也越来越快,反垃圾邮件已经成为全世界共同关注的问题,电子邮件成为一种快捷、经济的现代通信技术手段,极大地方便了人们的通信与交流。然而,垃圾邮件的产生,影响了正常的电子邮件通信,占用了传输带宽,对系统安全造成了严重的威胁。因此,研究反垃圾邮件问题已经成为全球性的具有重大现实意义的课题。选题目的:根据中文垃圾邮件的特点,对垃圾邮件进行了比较系统的分析和研究,结合贝叶斯(Bayes)理论,构造基于贝叶斯分类的垃圾邮件过滤模型。论文要求:在特征提取方面,寻找一种互信息值的方法,在分类方法上,找到适合本文的分类方法,并找到一种更加适合于贝叶斯计算的表示方法。进度安排: (1) 2011年12月5日 参加毕业论文开题报告会确定论文题目. (2) 2011年12月2日2011年12月6 日 准备完成开题报告书 (3) 2011年12月7日2011年12月12日 完成开题报告书 (4) 2011年12月15日2012年4月30日 完成论文初稿 (5) 2012年5月1日2012年5月30日 修改论文初稿,并完成论文定稿完成任务所需条件: (1) 操作系统Windows Server 2003操作系统。(2) 开发平台Microsoft Visual Studio 2005开发工具,它提供了一个集成开发环境(Integrated Development Environment,IDE),用于构建和部署基于Microsoft.NET的软件。(3) 语言环境主要采用C#30语言。(4) 数据库平台SQL Server2000论文目录第一章绪论. 11.1引言 . 1 1.2垃圾邮件的定义及其危害. 1 1.2.1 垃圾邮件定义. 11.2.2 垃圾邮件危害 5 . 21.3国内外反垃圾邮件现状. 3 1.4研究目标与内容. 4 第二章电子邮件工作原理简介 . 5 2.1 电子邮件的概述. 52.2 电子邮件的格式. 62.3 邮件传送过程. 62.4 相关协议. 7第三章常用反垃圾邮件技术 . 133.1非技术手段反垃圾邮件 . 13 3.2客户端垃圾邮件过滤技术 . 133.3 服务器端垃圾邮件过滤技术. 14第四章垃圾邮件分类向量与特征向量 . 174.1垃圾邮件分类向量概述 . 17 4.2垃圾邮件分类向量与特征向量的定义 . 17 4.3分类方法. 19 4.3.1文本量的表示方法 . 14.3.2关键词的选择 . 204.3.3特征提取的方法 . 204.3.4分类方法介绍 . 234.4基于垃圾邮件特征向量判断垃圾邮件的算法的设计 . 24 4.4.1贝叶斯定理 28 . 244.4.2贝叶斯过滤系统的工作原理 . 244.4.3 算法的介绍. 25第五章基于标准邮件集构造垃圾邮件分类向量 . 265.1标准邮件集. 26 5.1.1标准邮件集的背景 . 265.1.2垃圾邮件和正常邮件的收集 . 265.1.3标准邮件集的概述 . 275.2基于标准邮件集的垃圾邮件分类向量 . 28 5.2.1分类的实现 . 285.2.2 提取分类向量的过程. 295.2.3先验概率的计算方法 . 325.2.4特征提取的实现 . 325.3基于贝叶斯原理的过滤系统的实现 . 33 5.4算法的实现. 34 第六章实验结果及分析.366.1基于贝叶斯算法的过滤系统实验环境 . 36 6.2基于贝叶斯算法的过滤系统总体结构图 . 376.3实验结果及性能分析 . 38 6.3.1系统实验结果的质量评价指标 . 386.3.2阈值的确定及对过滤精度的影响 . 396.3.3实验数据 . 40第七章总结与展望. 437.1论文总结43 7.2展望43 参考文献. 44致谢46主要参考文献:1Jon Postel,On the Junk Mail Problem,RFC 706,Nov 1975。2中国教育和科研网垃圾邮件处理小组,垃圾邮件的文化与历史,H/spam_old/culture/history_culture.htm。3中国互联网协会反垃圾邮件中心,2005第三次中国反垃圾邮件状况调查报告,2005。4中国互联网协会,中国互联网协会互联网公共电子邮件服务规范, 。5曹麒麟、张千里,垃圾邮件与反垃圾邮件技术,人民邮电出版社,2003。6赵英、黄九梅,计算机工程与应用,2003。7中国互联网络信息中心R。第22次中国互联网络发展状况统计报告,2008。8The Chinese Anti-Spam Alliance, 。9中国互联网协会,中国互联网协会互联网公共电子邮件服务规范, 。10http:/www.alvestrand.no/x400/standards.html。11Jonathan B.Postel, Simple Mail Transfer Protocol,RFC821,Aug 1982。12Myers J.Post Office Protocol-version 3。RFC1725,Dover Bench Consulting,Inc,1994,1。13Crocker D., Standard for the Format of ARPA Internet Text Messages, RFC 822, Department of Electrical Engineering, University of Delaware, August 1982。14Borenstein N,N Freed, MIME(Multipurpose Internet Mail Extensions)Part one: mechanisms for specifying and describing the format of internet message bodies. RFC1521,Bellcore, Innosof, 1993.9。15SMTP结构及原理,/html/2003-11-12/2003111295200.htm16P.Domingos and M.Pazzani,Beyond Independence:Conditions for theOptimality of the Simple Bayesian Classifier,In:Proc of the13th International Conference on Machine Learning,PP.105-112,Bari,Italy,1996。17潘文峰,基于内容的垃圾邮件过滤研究,中国科学院计算技术研究所,2004。18Netloafer,客户端反垃圾邮件技术,中国反垃圾邮件联盟。19Tanenbaum A S. ComputerM,清华大学出版社,2005。20房子敬,杜绝垃圾邮件,网络安全技术与应用,2004。21江河,对抗垃圾邮件J,网管员世界,2005。22陈华辉、薛春阳,一种基于贝叶斯网的垃圾邮件过滤器J,微机发展,2004。23王新梅,基于内容挖掘的垃圾邮件过滤技术,2006。24边肇祺、张学工,模式识别(第2版),2000。25Andrew McCallum,Kamat Nigam.A Comparison of Event Model for Na?ve Bayes TextClassification./people/mccallum/multinomiat-aaai98w.ps,1998。26I.Adnroutsopoulos,G.Paliouras,E.Michelakis,Learning to FilterUnsolicited Commercial E-Mail.Thchnical report 2004,2,NCSR“Demokritos”,2004。27邹建峰、李律松、李晓栓,ASP.NET,人民邮电出版社,2004,12。28Mellers B A,McGraw A P.How to improve Bayesianreasoning:A comment onGigerenzer and Hofrage(1995).Psychological Review,1999,106(2):417-42429Eddy D.M.Probabilistic reasoning in clinic medicine:Problemsand opportunities.In:Kahneman D,Slovic P,Tverskey A.ed.Judgementunder uncertainty:Heuristics and biases.Cambridge UniversityPress,1982.249-26730Kahneman D,Tversky A.Subjective probability:A judgementof representativeness.Cognitive Psychology,1972,3:430-45431Kahneman D,Slovic P,Tversky A.Judgement under uncertainty:Heuristics and biases.Cambridge,England:Cambridge UniversityPress,198232Cassecells W,Schoenberger A,Crayboys T.Interpretation byphysicians of clinicallaboratory results.New England Journalof Medicine,1978,299:999-100033Bar-Hillel M.The base rate fallacy in probabilityjudgements.Acta Psychology,1980,44:211-23334Gigerenzer G,Hell W,Blank H.Presentation and content:Theuse of base ratesas a continuous variable.Journal ofExperimental Psychology:Human Perceptionand Performance,1988,14:513-52535Gigerenzer G,Hoffrage U.How to improve Bayesian Reasoningwithout instruction:Frequency fomats.Psychological Rewiew,1995,102(4):684-70436Lewis C,Keren G.On the difficulties underlying Bayesianreasoning:A comment onGigerenzer and Hofrage.PsychologicalReview,1999,106(2):411-41637Fiedler C,Brinkmann B,Betsch T,Wild B.A sampling approachto biases in conditionalprobabilityjudgments:Beyond base rateneglect and statistical format.Journal ofExperimental Psychology:General,2000,129:399-418评委评语及其建议: 评委签字:院(系、部)盖章: 年 月 日泰 山 学 院本科毕业论文(设计)任务书 题 目 贝叶斯分类算法在反垃圾邮件系统中的应用与改进 院(系、部)数学与系统科学院 年 级08级 专 业信息与计算科学 姓 名胡俊杰 学 号2008060208 指导教师签字 学生签字 年 月 日你的毕业论文(设计)开题报告已通过,现将毕业论文(设计)工作任务下达给你,请按照要求认真完成。主要内容如下:题 目贝叶斯分类算法在反垃圾邮件系统中的应用于改进基本要求1、培养综合运用、巩固与扩展所学的基础理论和专业知识,培养学生独立分析、解决实际问题能力;2、培养正确的理论联系实际的工作作风,严肃认真的科学态度;3、培养进行社会调查研究;文献资料收集、阅读和整理、使用;提出论点、综合论证、总结写作等基本技能。应收集的资料及主要参考文献进度安排1. 调研、收集资料务必于 年 月 日前完成。2. 写作初稿务必于 年 月 日前完成。3. 修改、定稿、打印务必于 年 月 日前完成。本毕业论文(设计)完成期限任务书下达于 年 月 日。任务完成后, 年 月 日前按照规定格式打印交至院(系、部)里,由指导老师和评阅人分别评阅后提交毕业论文(设计)答辩委员会。成绩评定书 院(系、部)本科毕业设计(设计)答辩委员会于年 月 日审查了 专业 (姓名学号)毕业论文(设计)。题目: 该毕业论文(设计)指导教师所给成绩(百分制) ;评阅教师所给成绩(百分制) ;答辩小组所给成绩(百分制) ;院(系、部)答辩委员会根据3:3:4的原则,评定该同学毕业毕业论文(设计)百分制成绩为: ;折合五级计分制为 。 院(系、部)主任(签章) 年 月 日袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃螈聿蒄葿袁羁
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025国考巴彦淖尔市法制审核岗位行测预测卷及答案
- 商丘市辅警笔试真题2025
- 财税管理咨询方案报价
- 老牛活动策划方案
- 考点解析人教版八年级上册物理声现象《噪声的危害和控制》同步测评试题(详解)
- 考点解析-人教版八年级上册物理机械运动《运动的描述》专项攻克试题(详解版)
- 2025国考巴彦淖尔市社会工作岗位申论必刷题及答案
- 地基承载力检测与评估方案
- 考点解析人教版八年级上册物理声现象《声音的产生与传播》章节测试试卷(含答案详解)
- 考点解析-人教版八年级物理《运动和力》专项攻克试卷(含答案详解版)
- 牌坊加工合同协议书模板
- 银行绿色运营管理办法
- 2025年新修订《治安管理处罚法》
- 精神科老年人皮肤护理
- 统编版高中政治必修4《哲学与文化》第一单元 探索世界与把握规律 单元测试卷(含答案)
- 制造工厂组织架构图及部门职责
- 胸腔镜下肺癌根治术护理
- 物流园区卫生管理制度
- 《大学生劳动教育》课件-第八章 未来劳动的展望
- 2026版步步高大一轮高考数学复习讲义第七章 §7.7 向量法求空间角含答案
- 山东省化工和危险化学品企业“三基”“三纪”工作指南
评论
0/150
提交评论