




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
图像垃圾邮件的发展和防范何培舟,温向明,郑 伟( 北京邮电大学通信网络综合技术研究所 北京 100876)摘要 垃圾邮件一直困扰着人们,图像垃圾邮件是垃圾邮件的变种,其危害远远大于传统的文本类垃圾邮件。本文首先给出了图像垃圾邮件的定义,介绍了图像垃圾邮件的类型和特点,然后分析了图像垃圾邮件的演进过程,总结了图像垃圾邮件的构造方法,最后探讨了图像垃圾邮件的防范措施。关键词电子邮件;垃圾邮件;图像垃圾邮件;演进;过滤1引言电子邮件是互联网上最基本和最广泛的应用之一,由于低廉的价格、便捷的传输方式和众多的用户,迅速成为垃圾信息滋生的温床。关于什么是垃圾邮件,中国互联网协会反垃圾邮件中心给出如下定义:收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;收件人无法拒收的电子邮件;隐藏发件人身份、地址、标题等信息的电子邮件;含有虚假的信息源、发件人、路由等信息的电子邮件;含有病毒、恶意代码、色情、反动等不良信息或有害信息的邮件。随着垃圾邮件的泛滥,大量的垃圾邮件侵占了有限的存储、计算和网络资源,耗费了用户大量的处理时间,干扰了用户的正常工作、生活和学习。为了对付垃圾邮件,人们提出许多方法,例如黑白名单方法、基于规则的方法、基于概率统计的方法等。这些方法已能较好地控制文本类垃圾邮件的传播,近年来,垃圾邮件制造者为了躲避文本过滤器的过滤,将垃圾信息嵌入到图像,产生了大量图像垃圾邮件;将垃圾信息嵌入到PDF文件,产生了大量PDF垃圾邮件。这些新型的垃圾邮件消耗更多网络资源,其危害更大。本文将主要研究垃圾邮件的一个变种图像垃圾邮件。2图像垃圾邮件的定义和特点图像垃圾邮件是垃圾邮件的一种,又不同于一般的垃圾邮件,主要特点是邮件中包含图像。图像垃圾邮件自2005年下半年出现,2006年中期呈爆炸式增长,现在已经成为垃圾邮件的主要格式之一。2.1图像垃圾邮件的定义到目前为止,图像垃圾邮件还没有一个统一的定义。在一些文献当中13,图像垃圾邮件是指把垃圾信息嵌入到附件图像的电子邮件,但这种定义不够全面,仅说出了图像垃圾邮件的一方面特征。随着电子邮件客户端编辑功能的增强,垃圾信息不仅可以出现在附件中,也可以出现在正文中。为此,结合垃圾邮件定义,为图像垃圾邮件作了如下定义。定义1图像垃圾邮件是指包含有图像信息的垃圾邮件,图像包含在正文、附件或托管于其他网站,在正文中显示。定义2垃圾图像是指包含有垃圾信息的图像。关于上述定义有几点说明。 判定一封电子邮件是否为图像垃圾邮件,首先应判断其是否为垃圾邮件,然后再判断其是否包含垃圾图像,而不是直接判断其是否包含垃圾图像。 如果一封电子邮件被认定为垃圾邮件,那么不管这封邮件包含的图像是否为垃圾图像,都被认定为图像垃圾邮件。 如果一封电子邮件的地址被包含在白名单列表当中,那么不管这封邮件是否包含垃圾图像都被认定为合法邮件。2.2图像垃圾邮件的类型图像垃圾邮件形式多样,内容丰富,种类繁多。根据表现形式不同,图像垃圾邮件可以细分为混合型图像垃圾邮件和纯图像型图像垃圾邮件。混合型图像垃圾邮件包含文本和图像,文本和图像混合排版。而纯图像型图像垃圾邮件仅包含图像,图像就是邮件内容。根据邮件内容不同,图像垃圾邮件可以细分为以下几类。 广告类:邮件内容为产品促销、广告宣传、网上购物等。 色情类:邮件内容包含色情图片、情趣用品宣传等。 反动类:邮件内容包含反动言论。 URL类:邮件内容只包含简短的文字描述和URL网址。由于过滤器很难识别URL网址和HTML标记,已成为网络钓鱼常采用的手段。 网上赚钱:在邮件中告诉你如何赚钱。2.3图像垃圾邮件的特点图像垃圾邮件具有体积大、内容丰富、形式多样等特点,其危害远远大于文本类垃圾邮件。大部分文本类垃圾邮件小于5 Kbyte,而图像垃圾邮件一般都大于12 Kbyte,据Commtouch提供的统计数据显示4,35%的图像垃圾邮件占用了70%的网络带宽。由于利用了图像技术,图像垃圾邮件可以轻松避开传统文本过滤。对垃圾邮件制造者来说,图像垃圾邮件具有以下几个优势。 可以逃避邮件正文扫描的反垃圾邮件技术。 漂亮的图像内容丰富,能传递更为丰富和专业的信息。 丰富的图像技术可以随机化图像文本,逃避基于签名的过滤技术。3研究和发展3.1图像垃圾邮件的演进随着文本过滤技术的逐渐成熟,垃圾邮件过滤器的性能也越来越好,传统的文本类垃圾邮件很难逃脱过滤器的过滤。垃圾邮件制造者为了绕过垃圾邮件过滤器的扫描,把垃圾信息嵌入到图像当中,这样图像垃圾邮件就应运而生。图像垃圾邮件的出现,导致传统反垃圾邮件技术失效,而且图像垃圾邮件还随着反垃圾邮件技术的变化不断演进。根据垃圾图像的发展变化,可以把图像垃圾邮件的演进过程分为5个不同的阶段。 朴素的图像垃圾邮件。当图像垃圾邮件刚刚出现,垃圾邮件制造者只是简单地把垃圾信息嵌入到图像当中,而没有采用其他技术进行处理。因此,这个阶段的垃圾图像简单且缺少变化。采用惟一签名技术和OCR(optical character recognition,光学字符识别)技术可以识别此类垃圾图像。 繁杂的图像垃圾邮件。为了逃避惟一签名技术和OCR技术的鉴别,垃圾图像开始趋于多样化,垃圾邮件制造者利用模板和随机化处理技术构建了各式各样的垃圾图像,如内容模糊、旋转、移位,变换字体、颜色。 动态的图像垃圾邮件。这个阶段的垃圾图像采用动态GIF格式,从单帧图像发展到多帧图像,垃圾信息隐藏在多帧图像当中。动态垃圾图像增加了过滤器的识别难度,因为只分析单帧图像很难判定其是否为垃圾图像。 拼接的图像垃圾邮件。这个阶段的垃圾图像由多幅子图像构成,这些子图像是模板图像的随机切分,每个子图像只能传达部分信息,只有它们合在一起才能重现垃圾信息内容。因此,仅凭一部分子图像的识别结果很难做出正确判断。 难缠的图像垃圾邮件。由于无法想法垃圾图像会如何变化,所以把这个阶段的图像垃圾邮件命名为难缠的图像垃圾邮件。垃圾邮件制造者的目的是让用户接收到并识别垃圾邮件,因此,他们会千方百计地逃避过滤器的扫描。3.2图像垃圾邮件的构造方法垃圾图像的构造方法一般由两个步骤组成3。第一步是模板创建,利用模板创建方法把要给终端用户展示的内容创建在模板之中;第二步是随机化处理,进行随机化处理的目的是为了逃避基于签名的反垃圾邮件技术的扫描。(1) 模板创建模板是垃圾图像产生的基础,常见的模板创建方法主要有以下4个。 波形(图1(a)所示)。这种方法利用波形文字增加OCR的识别难度。 动态(图1(b)所示)。在浏览器中的网址是动态的,采用动态格式的GIF文件增加了真实垃圾信息被发现的难度。 变形(图1(c)所示)。采用变形(如非常规手写体、字体颜色)的目的是为了逃避OCR技术的追捕。 旋转(图1(d)所示),这种方法通过把文本内容旋转一个角度来逃避OCR技术的识别。(2) 随机化处理模板图像进行随机化处理可以产生大量不同的垃圾图像,这样可以逃避传统基于签名的反垃圾邮件技术的鉴别。常用的随机化处理技术有18种。 移动位置(如图2(a)所示)。在画布上水平或垂直移动模板图像。 改变大小(如图2(b)所示)。在画布上稍微改变一下模板图像的宽度或高度。 剪切模板(如图2(a)所示)。剪切模板图像为不同的垃圾图像,有时可牺牲部分内容。 添加噪点(如图2(e)所示)。在模板图像中随机添加噪声点。 变换字体类型(如图2(g)所示)。变换模板图像中文本信息的字体类型。 变换字体型号(如图2(g)所示)。变换模板图像中文本信息的字体型号。 变换字体颜色(如图2(g)所示)。变换模板图像中文本信息的字体颜色。 添加线条(如图2(g)所示)。在模板图像背景中随机添加不同颜色线条。 变换背景颜色(如图2(f)所示)。在模板图像中变换背景颜色。 添加样条(如图2(d)所示)。在模板图像中添加随机样条,样条颜色与模板图像颜色类似。 添加图形(如图2(e)所示)。在模板图像背景中使用不同的图像,如多边形或椭圆。 旋转文本(如图2(c)所示)。把文本信息旋转到一个随机角度。 模糊内容(如图2(d)所示)。模糊模板图像的内容。 变换URL(如图2(i)所示)。同样的产品使用不同的URL。 添加框架(如图2(d)所示)。为模板图像添加一个框架,变换表达方式。 变换内容表达方式(如图2(i)所示)。同一主题,采用不同的表达方式。 切分子图(如图2(j)所示)。把模板图像切分成不同的子图。 变换位数(如图2(h)所示)。在元数据或像素级使用的位数的不同会产生没有明显区别的不同图像文件。4防范与治理图像垃圾邮件出现以后,一些学者13,58开始研究图像垃圾邮件的过滤方法,但大部分方法都处于探索阶段,还没有出现一种有效的控制方法。到目前为止,图像垃圾邮件过滤的方法主要有以下几类。 文本过滤方法。传统的文本过滤技术虽然不能扫描垃圾图像,但是通过分析邮件头和邮件正文的文字信息2,仍然可以发现一部分图像垃圾邮件。文本过滤方法可以作为多层过滤器的第一层,OCR、图像属性分析、图像内容分析等方法可以作为其补充。 OCR方法。利用OCR方法对垃圾图像进行识别,通过提取垃圾图像中的文本信息实现图像垃圾邮件的过滤。垃圾图像制造者都想绕过OCR技术的扫描,随着OCR技术的逐步成熟,利用OCR技术依然可以发现一部分图像垃圾邮件 8。 图像属性分析法。随着垃圾图像的增大,对图像内容进行分析会越来越困难。图像属性分析法是利用垃圾图像的简单属性3, 7(如文件大小、高度、宽度、高宽比等)进行垃圾图像的过滤。这种方法的优点是计算简单、快速,缺点是误判率比较高。 图像内容分析法。图像内容分析法是利用图像的内容来识别垃圾图像,如利用图像 中的文字信息5, 6, 8,或利用图像的颜色、纹理、形状等特征1, 3, 7。这种方法的优点是识别率高,缺点是计算量较大。5结束语图像垃圾邮件的出现对垃圾邮件过滤器来说是一个非常大的挑战,对互联网用户来说也是一个非常大的挑战,图像垃圾邮件侵蚀着有限的网络资源,给人们带来极大的干扰。如何防范图像垃圾邮件是全世界共同面临的一道难题。反垃圾邮件战争远没有结束,有愈演愈烈的趋势,图像垃圾邮件也不会是垃圾邮件的最后变种。因此,在研究图像垃圾邮件防范措施的同时,也要预测垃圾邮件的发展趋势,提前做好防范工作。参考文献1 Nhung N P, Phuong T M. An efficient method for filtering image-based spam E-mail. In: IEEE International Conference on Research, Innovation and Vision for the Future, Hanoi, Viet Nam, March 20072 Krasser S, Tang Y C, et al. Identifying image spam based on header and file properties using c4.5 decision trees and support vector machine learning. information assurance and security workshop.In: IEEE SMC, West Point, NY, June 20073 Wang Z, Josephson W, Lv Q,et al. Filtering image spam with near-duplicate detection. In:Fourth Conference on E-mail and Anti-Spam, Mountain View, California,USA , August 20074 http:/ /5 Wu C T, Cheng K T , Zhu Q, Wu L. Using visual features for anti-spam filtering. In:IEEE International Conference on Image Processing, Genova, Italy, August 20056 Aradhye H, Myers G K, Herson J A. Image analysis for efficient categorization of image-based spam E-mail. In: Proceeding Eighth International Conference of Document Analysis and Recognition, Seoul, South Korea, August 20057 Dredze M, Gevaryahu R, Elias-Bachrach A. Learning fast classifiers for image spam. In:Fourth Conference on E-mail and Anti-Spam, Mountain View, California,USA, August 20078 Fumera G, Pillai I, Roli F. Image spam filtering using textual and visual information. In: MIT Spam Conference,Cambridge, MA, USA,March 2007Development and Methods of Filtering
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 走出迷雾发言稿
- 团员志愿服务发言稿
- 时间管理甘特图课件
- 中班我会排序课件
- 二零二五年度高速铁路变形缝安装工程合同
- 二零二五年度虚拟现实技术应用股权变更及出资合同
- 二零二五年度交通事故第三方调解赔偿协议
- 2025版玻璃幕墙维修保养劳务分包合同模板
- 二零二五年度电梯土建施工第三方检测合同
- 二零二五年度楼顶场地租赁合同范本规范版
- 怎么制作历史教学课件
- 《通信技术基础》技工全套教学课件
- 养老机构经营与管理课件
- 良性位置性眩晕的护理查房
- 余华《活着》人物介绍
- 2023-2025北京初三二模物理汇编:力学计算题
- 康复家长培训
- 教育数字化背景下虚拟仿真实训教学资源的建设与开放共享模式探索
- 地铁工程质量培训
- 断舍离课件教学课件
- 云南博物馆招聘笔试真题2024
评论
0/150
提交评论