




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种基于内容的广告垃圾图像过滤方法,目录,论题意义及其必要性 过滤原理与实现方法 实验和结果分析,论题意义及其必要性,垃圾邮件问题日益严重: 2005年7月,中国互联网络信息中心(CNNIC)发布的第十六次中国互联网发展状况统计报告显示,中国网民平均每周收到14.5封电子邮件,其中垃圾邮件占了9.3封,垃圾邮件数量已经大大超过了正常邮件数量。 基于文本过滤方法的局限性 : 第一 、基于文本的过滤受到文本语言种类的限制; 第二、垃圾邮件发送者(spamer)经常使用各种各样的骗术来迷惑基于文本的垃圾邮件过滤器,比如将文字页面转换为图像;有数据显示,包含图像的垃圾邮件占所有垃圾邮件的25%。可见,这种欺骗手段已经被垃圾邮件制作者们频繁利用,如果没有找到可行的解决办法,这个数字还会上升。 第三、随着因特网的范围和容量不断增长,邮件包含越来越多的多媒体信息。,一些广告垃圾图片的示例,目录,论题意义及其必要性 过滤原理与实现方法 实验和结果分析,过滤的原理,彩色边缘提取,由于广告图像中的文本与背景有较强的对比度,表现为在文本与背景的交界处,存在十分明显的高频区域,因此可以用提取边缘的方法来大致估计出文本可能存在的区域。 由于广告垃圾图像大多为彩色图像,所以本文采用张引等提出的彩色图像边缘提取算子来提取边缘,利用彩色三分量的彩色边缘提取算法,充分利用了全面的色彩信息,效果优于传统的灰度边缘提取算法。 边缘提取的具体做法如下: 已知输入图像f的RGB值,其中象素(i,j)的RGB分量分别为R(i,j),G(i,j),B(i,j)。要计算图像f的边缘图像Edge。 Eud(i1, j1; i2 , j2)定义为像素点(i1 , j1)与(i2 , j2)之间的彩色值欧氏距离。,原图与边缘图像,(a)原图 (b)边缘图像,边缘图像二值化,阈值选取方法: 首先计算边缘图像Edge的归一化灰度直方图h(i): 其中,ni是图像Edge中灰度值为i的象素的个数,N是图像象素总数。 因为文字区域边缘十分明显,所以本文认为文字区域边缘的灰度级一般比较高。于是需要找到一个灰度级k作为阈值,把灰度大于k的边缘象素点保留,灰度小于k的边缘象素点忽略。 令 ; eh(k)表示保留的边缘象素数占图像总象素数的比例;找到一个尽可能大的灰度级k使得eh(k)大于阈值TH1;如果此时k小于下限TH2,则把TH2作为二值化的阈值,否则把k作为二值化的阈值。在实验中,我们取TH1=0.2,TH2=120(认为文字区域边缘的灰度级不应低于120)。,二值化边缘图像,(c)二值化边缘图像,候选文本区域提取,从二值边缘图像中可以看出,由于文字的分布比较集中,所以文字附近的边缘比较丰富,而且属于同一文字区域的文字边缘具有较小的距离。对于水平方向的文本行来说,可以用水平膨胀的方法将相邻的边缘连起来,形成连通的区域,从而在空间位置上将可能含有文本的区域检测出来。 膨胀方法: 设f 为二值图像,B为结构元素,二值形态和(膨胀)定义如下: 其中 表示以(x,y)为原点,形状与结构元素B相同的区域。膨胀运算具有扩大图像的作用,膨胀可以看作是将图像f中的每一个点(x,y)扩大为 。 本文使用的结构元素B是一条N个象素的水平线段。其中N由图像的宽度决定,因为较宽的图像里的文字的横向间隔也会较宽。 本文中取N=imageWidth/250+1;其中imageWidth为图像宽度 。 把膨胀操作后所得的连通区域所在的最小的矩形区域记录为候选的文字区域。,膨胀边缘图像,(d)膨胀边缘图像,文本区域筛选,本文根据文字区域的视觉特征定义了若干约束条件,满足所有约束条件的候选文字区域被认为是文字区域。 本文中使用的约束条件有: (1)文字区域包含的边缘信息丰富,因此连通区域的象素总数占连通区域所在矩形的象素总数的比例应该大于某个阈值。 (2)文字高度不能太小,否则人眼将无法看清;也不会太大,应在某一范围内。 (3)因为每个文字区域都是同行的几个字符粘连而形成的区域,所以文字区域的宽高比应当大于某一阈值。 (4)文字区域中存在一组连续的,边缘信息相当丰富的行。要求这段区域的高度占文字区域高度的一定比例,并且这段区域中的每一行的白点数目大于某一阈值。 (5)如果两个候选文字区域具有包含关系或具有大部分重叠的关系,则保留面积较大的区域。 按照上述准则,可以除掉候选文字区域中的虚假文字区域,得到了相对准确的文字区域。下页的图(e)为文字区域的提取结果,识别出的文字区域用红色边框标出。,文字区域的提取结果,(e)文字区域的提取结果,目录,论题意义及其必要性 过滤原理与实现方法 实验和结果分析,实验和结果分析,实验流程如下图所示: 广告垃圾图像判定条件: 主要根据文字区域的数量和面积两个特征判断图像是否为广告垃圾图像。本实验设定阈值th1,th2。如果图像f的文字区域数量大于th1,或者文字区域面积占图像总面积的比例大于th2,则认为图像f为广告垃圾图像。经实验证明,th1取值6,th2取值15%可以达到较实用的效果。,文字区域提取实验结果,广告垃圾图像过滤实验结果,本文为做广告垃圾图像过滤实验,建立了一个图像库,分别由广告垃圾图像(39帧),普通图像(1215帧)和纹理图像(598帧)等三种图像组成,下图为图像库取样。,广告垃圾图像过滤实验结果,实验数据表明,广告垃圾图像集合的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电信资源考试题库及答案
- 2025年广西医生人文考试题库及答案
- 专科生政治考试题及答案
- 肝炎护理学考试题及答案
- 锅炉水气化验考试试题及答案
- 吕梁焊工实操考试题库及答案
- 绿色园区品牌价值构建-洞察与解读
- 感控试题及答案2025年
- 2025年信息系统监理师考试冲刺阶段试题及答案
- 国际海事赔偿责任限额新发展及对我国航运法律体系的多维影响与应对策略研究
- 跌落机操作规程
- (高清版)DBJ33∕T 1319-2024 住宅小区供配电工程技术标准
- 中国人口研究专题报告-中国2025-2100年人口预测与政策建议
- 2025年家居服行业市场趋势分析报告
- 酒店餐饮服务礼仪培训课件
- 《中韩贸易竞争性和互补性分析》15000字(论文)
- 重庆红色之旅心得体会
- 2024年北京高中学生化学竞赛试卷
- 心内科人文关怀护理
- 医院培训课件:《预灌式抗凝剂皮下注射》
- 退耕还林转包合同模板(2篇)
评论
0/150
提交评论