已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
图像过滤技术零 摘要随着宽带的不断的普及与提速,多媒体技术的不断发展,网络上的多媒体信息呈爆炸式的增长。现今网络上充斥着大量的色情内容,给人们的日常生活带来了很大的影响和危害。为此,通过技术手段,对互联网信息特别是国外信息进行过滤已经迫在眉睫。本文介绍了图像过滤技术的三种经典的算法色度空间模型算法、种子像素领域扩展模型算法、直方图模型算法。并对三种算法模型的优缺点进行了比较。此外,文中还列举出了敏感图像过滤器模型的一个IE浏览器应用。关键字:色情内容 经典的算法 敏感图像过滤器一 研究背景继报刊、广播、电视之后,基于技术和全球化背景的国际互联网(Internet),已成为重要传播手段日益成为文化传播活动、社会经济活动的重要载体。其信息容量大、传播速度快、覆盖范围广、具有高度开放性和交互性,把人类引入信息新纪元,加速了人际交流和信息沟通,大大促进了科研、生产和社会的发展。互联网络以其即时、廉价、大容量和无所不及的特性,极大地促进了社会进步和国际交融,但由于它还有一个隐身的“便利”,也随之伴生了无孔不入的色情活动。据保守估计,目前全世界互联网色情网站至少有70万个,而且仍以每天200至300个的速度增加。可以说,目前网络色情无论是在内容上、数量上,还是在传播速度与覆盖范围上都超过以往任何时期。根据中国社会科学院“互联网对新时期青年与青年工作的影响”课题组的调查,大约三成的青年上过色情网站【1】。在青少年的思想意识还未成熟的重要阶段,网络色情“网络海洛因”会对青少年的思想造成错误的引导,严重影响青少年身心的健康成长。在当今的网络上,图像媒体是Internet上信息传递的重要组成部分,对多达四百万个HTML网页进行统计显示,将近70.1%的网页包含有图像。考虑到在网络黄毒的传播中,色情图像的危害性更为严重,使用图像过滤系统的网络色情防范软件将会更有效的打击网络黄毒的传播。而且现有的结合图形图像过滤的软件较少,过滤效果都不甚理想,本文正是以此为选题背景,分析经典的图像过滤技术。二 敏感图像过滤器模型及其应用1.敏感图像过滤器模型我们采用的敏感图像过滤器模型2的工作过程如下:先用肤色检测模型对待过滤图像进行肤色检测,得到标注肤色区域的肤色掩码图像,其中肤色检测模型由肤色检测算法在标准肤色掩码图像库上训练得到;再用纹理检测模型对得到的初步肤色掩码图像进行确认,得到更加精确的肤色掩码图像,运用纹理检测模型可以去除类似肤色但纹理较粗糙的区域;得到肤色掩码图像后,对应于原图像对选择好的分类特征向量进行计算;最终将计算出的特征向量送到训练好的分类器中进行分类决策。系统总体设计如图2-1。本过滤器设计分两层:第一层为网址、关键字过滤层。网址、关键字过滤层将用户将要访问页面的URL地址及页面文本与预先存储在库中的网址和敏感关键字进行匹配比较,只有通过网址、关键字过滤层的网页才会进入到图像内容分析层进行进一步过滤。该部分内容只是体现在体系结构中,文中并没有给出详细的介绍。第二层为图像内容分析层,该层是我们研究的重点,其分析流程可分为如下四个模块:数据加载模块,肤色检测模块,特征提取模块和分类决策模块,如图2-2所示。我们的工作主要是集中对肤色检测模块以及特征提取模块的研究以及完善,其他模块我们沿用现有模块。图像内容分析层各模块的功能简介如下:数据加载的目的是将肤色检测模型中所用的条件概率数据进行加载,为肤色检测提供基础数据;肤色检测模块主要是利用皮肤的颜色统计信息来标注皮肤区域以获得肤色掩码,用于计算分类特征向量;特征提取模块结合肤色掩码和原图像提取出用于分类的特征向量,这些特征主要包括颜色特征和形状特征。最后的决策分类器采用简单的决策树分类器,通过统计分类训练图像库中的图像,以得到较好的分类规则。2.敏感图像过滤器在IE中的应用众所周知,在浏览器与互联网上的服务器建立虚拟连接之后,很多未知因素都会对网络数据流传输产生不利影响。为了减少延迟,加快系统响应,诸如IE,Netscape等浏览器都采用了缓存机制,把最近或经常读取的网页内容放到硬盘进行存储,以加快下次读取的响应速度。因而图像过滤系统可以充分利用缓存内容,通过分析缓存内的图像,来实时过滤有害网页。三 些经典的图像过滤算法1.色度空间模型算法色度空间模型对肤色在YIQ和YUV色度空间上的分布进行了统计分析,利用YUV空间的相位角和YIQ颜色空间的I分量在肤色方面的分布特性来进行肤色检测。在计算机里YUV是仅次于RGB使用最广泛的颜色模型。色度信号(即U与V之和)是一个二维矢量,称之为色度信号矢量。每一种颜色对应一个色度信号矢量,它的饱和度由模值Ch表示,色调由相位角表示。统计大量含人体肤色图像后发现人体肤色色调的变化范围具有规范性,人的肤色色调的变化范围基本上在96,146之间,如图3-4所示,可见肤色在该颜色空间具有很好的聚类性。把彩色图像的像素P由RGB空间变换到YUV空间,如果满足条件:96,146,则P是肤色点。图3.4 YUV空间中的肤色色调分布 图3.5 YIQ空间中肤色对应的I值分布在YIQ空间上利用彩色的饱和度信息来增强分割效果。人体肤色包含了较多的黄色分量,而I分量代表了从桔黄到蓝绿的色调,I值越小,包含的黄色越多,蓝绿色越小,基本涵盖了人体肤色的颜色范围。通过统计可确定人体肤色的I值范围为18,92,如图3-5所示。把彩色图像的像素p由RGB空间变换到YUV和YIQ空间,如果满足条件:p96,146并且Ip18,92,则认为该像素属于肤色。2.种子象素邻域扩展模型方法种子象素邻域扩展模型方法不仅考查单个象素,还考虑邻近象素的信息。该算法基于Ruiz-del-Solar3所提出的思想,但又有所不同。该算法的主要实现思想如下:先对输入图像运用通用的肤色检测算法进行较低约束的肤色检测(所谓较低约束是指确保绝大多数的肤色象素能被标记出来,允许较高的误检测率),得到大概的肤色掩码区域,再从这些肤色区域中选出最有可能属于肤色的象素作为种子肤色象素,最后运用一定的规则(可以是距离等相似性度量方式)对种子象素周围的象素进行扩展判断,将符合条件的邻近象素标识为肤色象素,加入到种子象素集合中。再继续对新扩展到的象素进行类似的操作,直至所有种子象素周围的象素都被判断完为止。算法实现中,重点需要考虑两方面:如何确定种子象素和如何根据种子象素扩展其周围象素。其关键是象素“肤色度”的度量和象素间“平滑程度”的度量。常用的“肤色度”度量标准有:统计模型中的“概率”值和模糊方法学中的“成员等级” 。算法扩展过程由以下四个参数控制:Tseed是种子象素阈值,用来确定种子象素;Tdiff是邻近象素与种子间的Euclidean距离阈值,Tmin是象素“肤色度”的最低标准,Tmode是要考虑的种子象素周围象素的范围。只有满足PskinTmin且DeTdiff的象素才被认为是肤色象素(De为邻近象素与种子象素间的距离)。由于算法需要确定的参数个数较多,所以在确定某一参数时,需假设其它三个参数不变。确定每个参数阈值时,同样采用等错误率法,通过多次试验训练,最终确定算法各个参数阈值。3.直方图模型及贝叶斯方法介绍基于统计直方图的贝叶斯分类算法4是建立在统计颜色直方图和贝叶斯方法的基础上的。(1).直方图模型直方图是表示数据变化情况的一种主要工具,它将所收集的测定值或数据之全距分为几个相等的区间作为横轴,并将各区间内之测定值所出现次数累积而成的面积,用柱子排起来的图形,故亦称之为柱状图。用直方图可以将杂乱无章的资料,解析出规则性,比较直观地看出研究对象特性的分布状态。在建立直方图模型时,牵涉到一些统计学的概念,首先要对数据进行分组,因此如何合理分组是其中的关键问题。(2).贝叶斯方法概述贝叶斯方法29是基于贝叶斯理论而发展起来的用于系统阐述和解决统计问题的方法。将先验信息正式的纳入统计学中并探索如何利用这种信息的方法,称为贝叶斯分析。贝叶斯分析方法的特点是使用概率去表示所有形式的不确定性,学习或者其他形式的推理都用概率规则来实现。贝叶斯学习的结果表示为随机变量的概率分布,它可以解释为对不同可能性的信任程度。贝叶斯定理将事件的先验概率与后验概率联系起来。一般情况下,设x是观测向量,是未知参数向量,通过观测向量获得未知参数向量的估计,贝叶斯定理记作:()是的先验分布。在实际应用中的贝叶斯公式有多种表达形式,我们可以用机器学习中的方法将其表达为:其中,h是一假设,而D为观察到的数据集。P(h|D)为给定数据集D时假设成立的概率(后验概率),P(h)P(D)为先验知识,而P(D|h)为在给定假设下观察到数据集的概率,此为先验概率,可用统计的方法得到。(3)基于统计直方图的贝叶斯分类算法的介绍Jones和Rehg提出的算法中,将每个颜色平面分割为32组,选取32组来构建统计直方图。统计直方图模型包括肤色统计直方图和非肤色统计直方图,其中肤色统计直方图统计了4675幅包含肤色象素点的图片中所有肤色象素点的RGB值分布情况;非肤色统计直方图统计了8965幅不包含肤色象素点的图片中所有非肤色象素点的RGB值分布情况。由统计直方图建立的肤色分类算法的公式为:在上式中,Ts与Tn分别表示统计中肤色点总数与非肤色点总数。Srgb,nrgb分别说明了肤色统计直方图及非肤色统计直方图中对应的rgb数据项中肤色及非肤色象素点数。当概率值rgbP(Skinrgb)时,即可认为该点为肤色点,其中是阈值,01。需要说明的是,Skin 为肤色假设,rgb为统计的对象数据集。P(Skin|rgb)为当输入象素点获得的RGB值对应到统计数据集行时假设是肤色的概率(后验概率),P(skin)代表输入象素点为肤色的概率。P(rgb|skin)说明了在给定肤色假设的情况下统计到的rgb的概率。如下图是一个直方图实例,上半部分是正常图像的直方图,下半部分是敏感图像的直方图。4.三种肤色模型检测算法的优缺点色度空间模型的优点在于,它利用先验知识与规则将肤色模型建立在肤色点更为集中的与轴上,在增加了模型检验的精确度的同时,推广能力也得到了增强。其缺点在于:借助简单的阈值来判断是否为肤色点会把落入阈值内的点都当作肤色,这导致了较高的误检测率。统计直方图-贝叶斯分类模型是建立在对大量的肤色象素以及非肤色象素进行统计之后的先验参数基础上的。而对于检测的象素点,需经过贝叶斯公式的计算,最后进行判断。正因如此,该模型需建立在训练集足够大的基础上,训练集过小会造成其推广能力下降。但由于采用贝叶斯决策,相对其它两种模型,该模型的误检率较低。种子象素邻域扩
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国际贸易合同法律条款解析与判例
- 房地产租赁合同范本文案
- 物业安全安保管理方案
- 煤矿设备拆除安全施工方案流程
- 具身智能在建筑运维中的机器人巡检效率提升方案可行性报告
- 具身智能+制造业人机协作安全性能提升方案可行性报告
- 具身智能在特殊教育辅助工具中的设计方案可行性报告
- 具身智能+老年人辅助生活服务系统方案可行性报告
- 具身智能+体育训练运动员运动表现数据分析与优化方案可行性报告
- 具身智能+城市无障碍通行导航机器人设计优化方案可行性报告
- 政治经济学5章习题(有答案)
- 机器人工程大一职业规划书(8篇)
- 能量均分定理理想气体的内能
- 功能高分子04-电功能高分子材料
- 建筑企业管理制度大全-精品完整版
- GB/T 1185-2006光学零件表面疵病
- 锚杆工程隐蔽验收记录
- 2020年汽车物流企业组织结构及部门职责
- 混凝土原理与设计10压弯承载力课件
- 幼教培训课件:《家园共育体系建构与实施策略》
- 突发公共卫生事件健康教育与健康促进课件
评论
0/150
提交评论