基于半监督学习的钓鱼网站检测研究_第1页
基于半监督学习的钓鱼网站检测研究_第2页
基于半监督学习的钓鱼网站检测研究_第3页
基于半监督学习的钓鱼网站检测研究_第4页
基于半监督学习的钓鱼网站检测研究_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于半监督学习的钓鱼网站检测研究中期考核目录四、后续工作三、研究进度二、研究内容及方法一、研究背景和目的一、研究背景和目的“电子银行/移动支付系统安全态势监控示范工程”子课题(国家信息安全专项发改办高技[2013]1965号文件)Text1……反钓鱼网站检测研究网页挂马检测研究电子银行/移动支付业务系统外网安全监测二、研究内容及方法针对钓鱼网站检测样本标记

困难的问题进行研究。提出一种钓鱼网站检测算法,通过特征筛选,以及半监督学习算法得到最适合的钓鱼网站检测模型。特征筛选从URL、HTML

DOM元素以及ThirdPartySearchInformation(TPSI)三个方面进行网站特征提取,比较全面的刻画了钓鱼网站的特征;将半监督协同训练算法(Tri-training)运用于钓鱼网站检测中,极大的减少了钓鱼网站标记样本的数量,实现了减少人工标记成本的目的。学习算法1二、研究内容及方法基于多融合的钓鱼网站检测模型

系统框架Sa1:对钓鱼网页样本数据集进行预处理筛选;Sa2:提取URL特征向量

、HTMLDOM特征向量

以及TPSI特征向量

;Sa3:构造三类弱分类器

,并利用tri-training半监督协同训练算法对三类分类器进行分类强化训练;Sa4:得到钓鱼网页检测分类器模块。训练模块Sb1:系统将用户访问的网页URL信息发给Form表单检测模块;Sb2:系统在黑名单库中对传递的URL进行匹配;Sb3:对URL特征向量

、页面信息特征向量

以及搜索信息特征向量

三组特征向量结合搜索引擎进行提取;Sb4:通过钓鱼网页分类器对待检测的网页进行投票判断;Sb5:根据传递的判断结果。检测模块URLFeaturesHTMLContentFeaturesTPSIFeatures基于多融合的钓鱼网站检测模型

二、研究内容及方法21features二、研究内容及方法数据集:1)数据集来源钓鱼网站样本主要来源于PhishTank反钓鱼网站社区,筛选选取了最新的6400条可用的钓鱼网站数据进行研究。另一部分合法网站样本主要来源于Alexa和Yahoo!中排名靠前的主流合法网页。基于多融合的钓鱼网站检测模型

二、研究内容及方法2)标记样本和未标记样本比例划分SVM分类性能情况8%的标记样本数据作为标记样本集合L85%的样本作为未标记样本集合U7%的样本作为测试集合T基于多融合的钓鱼网站检测模型

二、研究内容及方法3)基础分类器的选择不同比例标记样本性能分别对SVM,J48和NaiveBayes三种监督学习的分类器进行了训练,得到不同标记样本的性能图如右图所示。基于多融合的钓鱼网站检测模型

二、研究内容及方法对比实验TSVMPD检测算法:受标记样本数量的影响较小;TPR和Precision较高;可以保障用户的正常使用。基于多融合的钓鱼网站检测模型

二、研究内容及方法针对钓鱼网站检特征随时间段

变化特征贡献变化及降维问题。拟提出一种钓鱼网站检测特征处理方案。(调研中)2三、研究进度开题情况中期完成情况1、针对钓鱼网站特征,收集能反映钓鱼网站的数据集;1、根据已有文献,从URL、页面信息和搜索信息三个方面爬取钓鱼网站相关数据(100%)2、提出一种钓鱼网站检测方法2、根据已有的钓鱼网站检测模型,基于多融合的钓鱼网站检测方法(100%)3、提出一种特征处理算法3、提出多融合钓鱼网站特征处理算法:完成情况:1)数据集的预处理(100%)2)数据的训练和算法验证阶段(待完成)专利:[1]一种多特征融合的钓鱼网页检测方法.(已投)[2]徐光侠,宋洋洋,刘宴兵,乔忠华,黄海辉,周密,杨奇毅.体域网中紧急数据优先传输调度方法.

专利号:201310230559.9(状态已授权,交费过程中)论文:[1]GuangxiaXu.YangyangSong.APhishingDetectionAlgorithmBasedonMulti-featureFusion.

theCommunicationsandInformationSecuritySymposium.(已投)项目:[1]电子银行/移动支付系统安全监控示范工程子课题(发改办高技[2015]289号)[2]基于智慧城市建设中社区安全的多元数据采集分析研究与应用(cstc2016shmszx40001)…三、研究进度学位论文写作计划摘要Abstract目录第一章绪论1.1研究背景及意义1.2国内外研究现状1.3论文研究内容1.4论文结构安排第二章钓鱼网站检测技术概述2.1网络钓鱼攻击技术2.2钓鱼网站检测2.3钓鱼网站属性提取方法2.4本章小结第三章基于多融合的钓鱼网站特征构建方法3.1引言3.2基于多融合的钓鱼网站特征构建模型及定义3.3算法原理及过程3.4实验环境及过程3.5实验结果分析3.6本章小结第四章基于多融合的钓鱼网站检测方法4.1引言4.2基于多融合的钓鱼网站检测模型及定义4.3算法原理及过程4.4实验环境与过程4.5实验结果分析4.6本章小结第五章结束语5.1主要工作与创新点5.2后续研究工作参考文献致谢

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论