




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:显著区域检测是近年来非常活跃的研究方向。目前已经存在一些显著 区域检测方法。这些方法主要有:基于对比的模糊增长方法、基于s v m 的显著区 域提取方法等。这些方法主要是研究图像中各个像素之间的关联关系,从而达到 提取显著区域的目的。这些方法的主要问题是,没有考虑更多像素之间的相关性, 因此,也无法得到令人满意的结果。 论文改进了基于层次的显著区域检测模型。把原始图像分层,首先针对每一 层,计算显著性特征,然后再把各层的显著性特征值叠加,通过动态阈值获得最 终的显著区域。 论文针对每一层,分别提取底层特征、计算显著性特征,包括:亮度显著性、 饱和度显著性和色彩显著性。然后综合加权上述各个特征,得到较为合理的显著 性。该改进模型综合考虑各个特征,可以减少噪音像素对显著区域检测的影响。 论文分析了图像的概率特性后,提出了用二维正态分布函数表示图像像素间 的相关性的方法。该方法可以保证显著区域提取的连贯性,也综合考虑了像素问 的关系,能减少噪音像素对显著区域提取的影响。 把各层计算所得的结果叠加,考虑到图像的统计特点,通过引入动态闺值, 得到最后的显著区域。动态阂值方法不受原始图像的影响,有较好的适应性。我 们将此方法应用于真实图像,得到了令人满意的检测结果。 关键词:显著区域,显著性特征,视觉注意,动态阙值 分类号:t p 3 9 1 a b s t r a c r i i lr e s e n ty e a r s ,s a i i e n tr c 酉o n sd e t e c t i o nh 弱b e c o m eae x t r e m e l y a c t i v er c s e a r c hf i e l d a tp r c s e n t ,t h e r ee x i s ts o m em e c h o d sf o rs a l i e n tr e 百o n sd e t e c t i o n , s u c ha s :c o n i m s t b a s e di m a g ca t t e n i i o na n a l y s i sb yu s i n gf i i z z yg r o w i n 舀s v m b a s e d s a l j e n tr e 百o n ( s ) e x t r a d i o nm e i h o df o ri m a g er c t r i e v a l ,a n ds oo n t h e s em e t h o d s g c n e m l i yd e a lw i t hp e n i n 6 n c c 锄0 n gt h ei n v o l v e dp j x e l si no r d e r t of i l l f i uo u rg o a lo f s a i i e n tr c 百o n sd e t e c t i o n b u t ,t h e s em e t h o d si g n o r et h er e i a t i o n s h i pa m o n g p i x e l s ,a n d c a nn o tp r o v i d es a l i s f y i n gr e s u i t s t h i sd i s s e r t a t i o ni m p m v e st h em o d e lf o rd e t e c t i n gs a l i e n t 比百o n sb a s e do n i a y e r s w 毫f i r s td i v i d et h ei m a g ei n t ol a y e r s a n df o r “e r yl a y c r w ec a i c u l a t es a l i e n c y , a l l di h e na d dl h er c s u l t so fc v e r yi a y e lw bu s ed y n 锄i ct h r c s h o l dt oe x t r a c ts a l i e n t r c 百o n f o r c v e r yl a y c r c x t m c l sb a s i cc h a r a c t e r i s t i c sa n dc a l c l l i a t e ss a i k n c yc h a r a c t 丽s t i c s i n c l u d i n gi n t e n s i t ys a l i e n c y ;s a t u r a t i o ns a l i e n c ya n dc o l o rs a i i e n c y :a n dt h e n ,w e s y i l t h e s i z ea n da n a l y z ec v e r yc h a r a i 。t e r i s t i ct 0e l i m i n a t et h ee 疵c 【o fn o i s ep i x e l so n s a l i e n tr e 百o n sd e t e c t i o n b e c a u s co f t h ep o s s i b i l i t yc h a m c t e r i s t i c so fi m a g e s ,t h ep l a n a rn o 肺a ld i s t r i b u l i o n f l l n c l i o nc a nt a k ec h a 唱eo ft h cp e n i n e n c eo f p i x e l sa c c i i m t e l ya n dr c a s o n a b l y t 1 l i ss t e p i st h ek e yo fs a l i e n tr e 沓o n sd e t e c t i o n o no n eh a n d ,i tc a nm a k es a h e n tr e 西o n s d c t e c t i o nc o h e r e n n y o nt h eo t h c rh a n d ,i tc a nt a k et h ep c r t i n e n c co fp i 】e l si n t o c o n s i d e r a t i o na n de l i m i n a t et h ee 丘e c to fn o i s ep i x e l so ns a i i e n tr e 西o n sd e t e c t i o n w ea d dt h er e s u i t so fl a y e r s o u to fc o n s i d e r a t i o no f t h es t a t i s t i c sf e a t u r c ,w eu s e t h ed y n a m i cl h r c s h o l d ,a n dt h e nr c a c hl h ef i l l a ls a l i e n c yr c g i o l l s 1 l l ed y n a m i ct h r c s h o l d t e n d st oa d a p tw e l ig e t t i n g 瑚o ft h ee 虢c to ft h eo r i 百n a li m a g c s w ea p p l yt h i sm e t h o d t or c a li m a g e s ,a n df i n a i l yg e ta s a t i s f y i n gr e s u l t k e y w o r d s : s a l i e n tr c 舀o n ,s a l i e n c yc h a r a c i e r i s t i c v i s u a la t t c n t i o n ,d y n a m i c t l i r e s h o l d c l a s s n 0 :口3 9 1 致谢 在北京交通大学三年的硕士学习生活即将结束,在这段难忘的日子里,除了 得到家人朋友的鼓励和支持以外,最大的收获是我有幸遇到很多良师益友。在此 对他们表达我最诚挚的感谢! 首先,我要将最诚挚的谢意献给我的导师须德教授,感谢他在我的研究生学 习期间给予了我学业上的谆谆教导和生活上无微不至的关怀。须老师是一位有着 渊博的知识、严谨的治学态度,创新的思想、谦逊的作风和平易近人性格的导师。 三年来,导师的言传身教不仅使我在学业上受益匪浅,而且还让我学会了不少为 人处事的真谛。在本文的撰写过程中,须老师给予了我大量的鼓励和指导,使我 得以顺利完成学业,并提高了独立学习和科研能力,为今后的继续学习乃至工作 打下了坚实的基础。值此论文完成之际,我再次向须老师表达我最衷心的谢意。 同时,我还要特别感谢宋泽海老师,他在学习和生活方面给予我无私的帮助 和耐心的教导,并提出了很多宝贵的意见,使我受益匪浅。 此外,还要感谢成文刚博士对我长久以来的关心和指导,以及在本文的编写 过程中,冯松鹤博士给予的无私帮助。 然后,感谢同实验室的李玮,祁飞、王海霞、吴静、李兵、李鹏等同学和已 经毕业的其他曾经在实验室工作过的兄长。我们曾并肩学习和工作,共同经历的 成长岁月。 最后,我还要感谢我的家人,因为他们无私的关怀和殷切的期望给予了我克 服困难、坚持不懈的勇气和向上进取的动力。 1 绪论 1 1 课题背景 在进行视频检索和视频分类时,特征的选择至关重要。如果选择了合理的特 征,那么就很可能得到令人满意的结果。图像的显著区域作为一个较好的特征, 逐渐引起人们的关注和浓厚兴趣。因此,研究如何更准群更快速地进行显著区域 提取就显得格外重要了。 多媒体数据库的广泛应用推动了检索技术的发展,对其要求也越来越高,所 以非常有必要对基于内容的检索技术进行探讨,另外如何将基于内容的检索技术 应用于特定的实际系统中,也是迫切要解决的问题,也有待于进一步的研究。同 时,和其它特征一样,显著区域也可以作为特征,进行视频分类。所以,讨论如 何更快捷、更准确地对图像进行显著区域提取就成了迫在眉睫的问题。 1 2 课题的意义 显著区域检索在视频检索和视频分类等方面有重要的意义。 1 2 1 在视频检索方面的意义 显著区域提取在视频检索方面的意义主要是它能够作为特征和其它特征结合 在一起,从而实现视频检索。 多媒体技术是一门综合的跨学科的交叉技术,它综合了计算机通信以及多种 信息科学领域的技术成果,它的研究涉及到计算机硬件、软件和体系结构、图像 处理、语音处理、数字信号处理、通信技术等诸多方面技术。它是基于计算机、 通信和电子技术发展起来的一种新的学科领域,对信息社会产生了重大影响。由 于它有很强的使用价值,其应用已经渗透到社会生活和工作的各个方面。多媒体 信息检索就是根据用户的要求,对图形、图像、文本、声音和动画等多媒体信息 进行检索,从而得到用户所需的信息。它广泛应用于诸多领域,并有着广阔的应 用前景。越来越多的信息需要以数字形式存储和传输。随着信息的爆炸性增长, 人们获得感兴趣信息的难度却越来越大,而传统的基于关键字或文件名的检索方 法不适于数据量庞大且不具有天然结构特征的声像数据。因此,近年来多媒体研 究的一个热点是声像数据基于内容的检索。基于内容的检索根据媒体对象的语义 和上下文联系进行检索,其特点是: ( 1 ) 从媒体内容中提取信息线索,直接对媒体进行分析,抽取特征( 如基于表 达式) 。 ( 2 ) 提取特征的方法多种多样。如图像特征有形状,颜色、纹理、轮廓等。 ( 3 ) 人机交互。 ( 4 ) 基于内容的检索采用一种近似的匹配技术。在检索中,常采用逐步求精的 方法,每一层的中间结果是一个集合,不断减少集合的范围,直到定位到 查找的目标。而一般的数据库采用的是格式化信息精确匹配的方法。 基于内容的检索【l l 中常用的几种媒体特征:在音频方面,包括基音、共振峰、 线性预测倒谱系数、m e l 倒谱系数等高层特征;在静态图像方面,主要包括颜色、 纹理、几何形状、灰度统计特征( 直方图) 、人脸部特征、表情特征、物体和景物 特征;在视频方面,主要包括镜头切换类型、特技效果、摄像机运动、物体运动 轨迹、代表帧和全景图等。 近年来,随着多媒体技术和数字照相机、摄像机、扫描仪、打印机这些图像 电子设备的普及,全世界的数字图像的数量正以惊人的速度增长,每天都会产生 数以百万计的图像。随着互联网的发展,越来越多的人能够更加方便、快捷、经 济地接触到这些图像媒体,人们面临的问题不再是缺少图像媒体的内容,而是如 何在浩如烟海的图像世界中找到自己所需要的信息,这就要求有一种能够快速而 且准确地查找访问图像的技术,也就是所谓的图像检索技术。 显著区域提取对视频检索提供了很大的帮助,是一种行之有效的图像检索方 法,通过提取图像的显著区域来实现对显著区域的检索。自从2 0 世纪7 0 年代以来, 在数据库系统和计算机视觉两大研究领域的共同推动下,图像检索技术已逐渐成 为一个非常活跃的研究领域。数掘库系统和计算机视觉两大领域是从不同的角度 来研究图像检索技术的,d 口者是基于文本的,而后者是基于视觉的。 基于文本的图像检索技术( t c x l b a s e di m a g er e i r i e v a l ) 的历史可以追溯到2 0 世纪7 0 年代末期,当时流行的图像检索系统是将图像作为数据库中存储的一个对 象,用关键字或自由文本对其进行描述。查询操作是基于该图像的文本描述进行 精确匹配或概率匹配,有些系统的检索模型还是有词典支持的,另外,图像数据 模型、多维索引,查询评价等技术都在这样一个框架之下发展起来。然而,完全 基于文本的图像检索技术存在着严重的问题,首先,目前的计算机视觉和人工智 能技术都无法自动对图像进行标注,而必须依赖于人工对图像做出标注,这项工 作不但费时费力,而且手工标注往往是不准确或不完整的,还不可避免地带有主 观偏差:其次,图像中所包含的丰富的视觉特征( 颜色、纹理、形状等) 往往无 2 法用文本进行客观地描述。 随着大规模数字图像库的出现,上述的问题变得越来越尖锐。为克服这些问 题,基于内容的图像检索技术( c 0 n t e n t b a s e di m a g er e t r i e v a l ) 应运而生,所谓基 于内容的图像检索,是指由计算机对图像的内容进行自动分析,制成索引,用户 可以针对自己所需要的内容提出查询要求,而不是苦思冥想地寻找关键词来进行 图像检索。区别于原有系统中对图像进行人工标注的做法,基于内容的检索技术 自动提取每幅图像的视觉特征作为其索引,如颜色、纹理、形状等。如何实现快 速有效地图像检索,关键在于采用何种特征作为索引以及特征如何匹配,这正是 基于内容的图像检索技术的核心,对它的研究具有十分重要的意义。 基于内容的图像检索技术从提出到现在,取得了很多令人瞩目的成就,技术 上各种新的方法层出不穷,许多原来研究计算机视觉的科研小组都展开了基于内 容的图像检索方面的研究:在应用方面已经取得了初步成果并得到了社会各界的 广泛关注和支持,国内外一些大学在这方面早已开展了相当多的研究工作。目前, 在i n t e m e t 网上己经有许多关于基于内容的图像检索的原型系统与数字图书馆系 统,大多数的图像检索系统支持以下一种或几种选项: 随机浏览 通过示例查询 通过草图查询 通过文本查询 定制的图形目录导航 基于内容的多媒体信息检索是一项实用的高技术,有着广阔的应用前景。目 前主要应用于以下几个方面:将基于内容检索引擎嵌入到常规数据库管理系统中, 以实现多媒体数据的检索;在信息检索系统中,对专用领域的视频、图像和文档 库进行检索:对1 1 1 t e m e t 上包含在w e b 信息网中h r m l ,页面上的多媒体数掘进行基于 内容检索等。 早期的全文信息检索、罪犯头像的识别和管理、指纹的识别和管理都是基于 内容检索的一些尝试,现在这种技术将扩展到任何媒体和更广泛的领域,例如, 艺术画廊和博物馆管理、建筑与工程设计、地理资源遥感与管理、地理信息系统、 商标及版权数据库管理、数字视频图书馆、w c b 信息浏览、多媒体应用、电子会议、 远程教学、远程医疗、天气预报、服装设计、军事指挥系统等方面。 基于内容的图像检索具有如下特点: ( 1 ) 直接从图像媒体内容中提取信息线索。它突破了传统的基于表达式检索 的局限,直接对图像进行分析和抽取特征,利用这些描述图像内容的特征来建立 索引。 3 ( 2 ) 基于内容的图像检索实质上是一种相似匹配的技术。在检索过程中,它 采用某种相似性度量对图像库中图像进行匹配,以获得查询结果。 ( 3 ) 特征的提取和索引的建立,可由计算机自动实现,避免了人工描述的主 观性,也大量减少了工作量。 ( 4 ) 整个过程是一个逐步逼近和相关反馈的过程。在基于内容的图像检索系 统中,应该具有很强的交互能力,用户参与整个检索的过程。 我们可以使用图像的显著区域进行视频检索。 1 2 2 对视频分类的意义 显著区域提取在视频分类方面的意义主要是它能够作为特征和其它特征结合 在一起,从而实现视频分类。 视频分类按照视频文件本身所提供的信息进行内容分类,根据语意内容的层 次性,有三种形式的视频分类: ( 1 ) 类型( g e n f c ) 分类:视频类型是根据视频的风格、表现形式以及内容而被 归入的某个类别标识,如体育、新闻、卡通以及广告等,类型本身又是 由一些子类型组成的,如体育类型又可以分为篮球、足球、赛车等类型, 但在同一个层次的类型划分中,各个类型是互斥的。 ( 2 ) 事件( e v e n t ) 分类:事件由一些对象( o b i e c t ) 组成,这些对象在一个事件 段内相互作用、相互联系。相对于类型分类,事件的分类需要更复杂的 特征提取过程以便于描述某个事件的特点。 ( 3 ) 对象( o b j e c t ) 分类:对象直接影响了视频内容的语意,人脸是目自口最经 常的检测和分类对象。在良好的结构化特征提取之上,一般使用基于规 则的或机器学习的方法进行检测和分类。 下面介绍一种我在另一篇论文中的视频分类方法。 视频是一种信息丰富的媒体,描述其内容比较困难,为有效的视频分类增加 了难度。视频分类有两个关键问题:( 1 ) 特征提取与表示。特征一般表示成向量 的方式,由于视频底层特征与高层语义之间的鸿沟,使得特征的表示能力有限, 利用哪些特征,如何保证分类结果的准确性是研究人员关注的问题。即使是应用 综合特征的方法,特征的融合也是一个挑战性问题。( 2 ) 分类器和规则形成。分 类器选择依赖于特征表示,对于视频分类来说,形成规则的方法对于理解视频类 型更具意义,目前的一些方法形成的规则不够明确,难以理解,且规则的可扩充 性比较差,不利于开集测试。因此,在本文中,我们主要从这两个方面考虑来设 计分类方法,对视频文档的最高层的视频类型进行分类。 4 当单个特征不足以描述视频内容时,融合多特征有助于减少语义的模糊性, 在本文中我们综合应用了视听特征。由于直接应用底层特征不利于视频内容的描 述,容易导致形成的规则不可辨识,因此我们在d 口人工作的基础上,分析了各个 视频类型的特点,运用抽取的底层特征定义了视频内容分类的可计算特征。但是 这些可计算特征只是我们的经验认识,需要通过一定的方法,选择其中有用和重 要的特征子集,形成简单有效的规则。租糙集理论是建立在分类机制的基础上的, 它无需提供问题所需处理的数据集合之外的任何先验信息并且给出了对知识( 或 数据) 的约简方法,从而提供了从信息系统中分析多余属性的能力和从决策表中 抽取规则的能力。除了能形成确定性的规则直接应用于视频分类之外,不确定规 则对视频分类也是有益的:因此,我们使用租糙集理论对可计算特征进行分类形 成规则,从而实现视频分类。这个方法是我们的首创。其他的方法或者只考虑了 特征或者只考虑了租糙集理论,而没有全面考虑问题: 该方法的具体步骤是:对于类型已知的一个视频片段,通过切变、叠化和淡 入淡出的检测,获得平均镜头长度,切变、叠化和淡入淡出所占比例等剪辑可计 算特征。把镜头的中间一帧设为关键帧,得到视频片段的颜色可计算特征:p c v 、 平均饱和度和平均亮度。运动可计算特征主要是获得视频片段运动矢量的标准差。 通过对音频文件的分析,得到各种关于音频的可计算特征:能量特征、静音统计 特征、噪音统计特征、带宽特征和光谱能量统计特征。然后,利用已经获得的剪 辑可计算特征、颜色可计算特征、音频可计算特征和运动可计算特征,通过r o s s e t a 软件,生成用于分类的合适的规则。最后,用这些规则对类型未知的视频片段进 行分类( 参见图卜1 ) 。 1 2 3 图像信息的分类 图卜1 分类方法 图像信息的种类是多种多样的,但是,要想进行明确的分类也并非容易。这 里我们就信息处理中常见的图像信息进行一下简单的分类,从而更全面更准确地 认识图像。 概括起来,图像信息大致可分成三类,即符号信息、实物信息和情绪信息。 景物信息是一种能给人以主观感觉但并不取决于人本身的客观场景信息。一 般来说,它包含丰富的内容,所含的信息量也较多。如:由铁路调车场控制中心 的工业电视上看到的图像信息,可从中得到有关车辆编组调度情况、调车员的工 作情景及天气情况等等。情景画面的内容一般比较复杂,在传输和处理中做到较 大的压缩比较困难。在人机识别中需要较大的信息量。但在事先设定某种条件的 情况下,是有可能在任何情况下保证正确判断的。 1 3 显著区域提取的研究现状 近年来,使用计算机进行显著区域检测逐渐成为人们关注的焦点。显著区域检 测在日常生活中的应用十分广泛:可以将显著区域检测技术应用到遥感技术中去 i i l ,进行资源调查、灾害监测和环境保护;也可以应用到医学图像处理方面,对医 6 学图像进行处理【”。在很多情况下,我们需要根据某些特征对监控录像进行分析, 为我们的日常生活提供有益的帮助。显著区域检测主要是通过图像固有的影响人 类视觉的信息,根据有关心理学的规律,检测出图像的最明显的区域,也就是对 人类视觉刺激最强烈的区域。目前已有的比较有效的方法有:基于对比度的模糊 增长方法【2 1 、基于s v m 的显著区域提取方法【3 i 等。在本文中,主要使用几种颜色 显著性特征实现对显著区域的检测。 基于对比的模糊增长方法的检测步骤是: ( 1 ) 首先,对原始图像分块量化。目的是消除原始图像中的噪音象素,并使 运算变得更加简便。这一步的结果为q u a n t i z e d b l o c ki m a g c 。 ( 2 ) 运用基于对比度的方法得到显著性图像( s a i i e n c ym a p ) 。 对比度的计算公式为: 【,f t j 艺4 ( 见o ,q ) 其中,g ,表示像素幅刀的对比度。j ( ) 表示距离公式。q 为岛。,的邻域e 中的 一个像素。 ( 3 ) 用模糊增长的方法得到进一步的检测结果; ( 4 ) 进一步获得注意力区域( a t t e n d e da r e a s ) ; ( 5 ) 最后,由注意力区域( a f t e n d e da r e a s ) 得到注意力点( a t i e n d e dp o i n t s ) 。 这种方法和我们的基于动态阂值的显著区域分层检测方法的实验结果对比将 在第5 章作详细说明。 由于在考虑像素之间相关性时,考虑的像素范围较小,因此这种方法具有运算 量小的优点。但是,同时,也具有明显的缺点:提取的显著区域容易受到噪声像 素的影响。 由于这种方法没有使用分层技术,因此往往只能得到显著区域的轮廓而非显著 区域的整个区域,这使得大部分的实验结果很难满足我们的要求。 1 4 本文的组织 本文共分为六章,各章的安排如下: 第三章介绍这种方法的检测模型,包括实际检测的步骤和一些边缘提取的方 法。 第四章是本文的重点,它将介绍显著性的计算,包括各种基本的底层特征和 各种基于底层特征的上层特征,综合考虑这些显著性特征,并且创造性地引入二 维正态函数,用于处理像素间相关性。 第五章将介绍一种全新的动态阈值的设置方法,用于最终的显著区域提取。 7 第六章将展示显著区域的提取结果。 第七章将对本文所做的工作做一总结,并探讨该领域未来的发展方向。 8 2 检测模型 2 1 主要的检测步骤 如图2 1 所示,首先把原图像进行分层,分层的方法多种多样,我们这里采 用了隔点采样的方法,对原始图像每隔一个点采样一次,得到长、宽都为原始 图像二分之一的图像。第一层的图像为原始图像,第二层的图像是第一层图像 面积的四分之一,而第三层图像为第二层图像面积的四分之一。【5 】1 6 】 针对每一层,提取各种底层特征,然后根据底层特征分别计算亮度显著性特 征、饱和度显著性特征和彩色显著性特征。综合加权考虑这些特征。由于人的 视觉对对比强烈的区域较为敏感,因此这三种特征实际上包含了某两个像素点 之间的差值,差值越大越显著。1 7 j 【8 j 由于二维正态分布函数有很好的概率特性,并且与实际情况非常吻合,为了 综合考虑各个像素点与周围其它像素点的关联情况,我们弓l 入二维正态分布函 数。在理论上,对于某个像素点,它与图像上各像素点都有关联。如何评价这 种联系的强弱呢? 我们很自然地想到,距离该点较近的像素点与它的联系较强, 而距离较远的像素点与它联系较弱。二维正态分布函数的特性正好符合要求, 所以我们采取二维正态分布函数对各像素点的显著性值加权平均,得到的加权 平均值最能反映实际情况。进一步,我们把每层得到的加权平均值进行叠加: 第三层的结果经放大后与第二层结果叠加,然后再经放大后与第一层结果叠加。 这是因为:每一层计算出来的加权平均值,实际上只代表了显著区域的轮廓, 而我们想要得到的是整个显著区域,第三层的结果正好可以“填充”到第二层 的“轮廓”中去,第二层的结果正好可以“填充”到第一层的“轮廓”中去, 依此类推,反复叠加,最终我们可以获得显著区域的形状: 如果想进一步获得明显的显著区域( 显著区域用白色表示,其余区域用黑色 表示) ,就需要根据上一步叠加的结果计算出一个动态阈值,大于此阂值的像素 点用白色表示,其余像素点用黑色表示,这样,就得到了最终的显著区域。 下图为显著区域检测的模型。 9 原始图像 ? 百第= 层 小 寸第三层 一撇著性 额色显著性 一性一著性 觳髓性7 产f 懒一f一著吵 。一 j , 、l l 墨溺糕ii 繇粼l| 冀勰i l 性ii 佳li 性l 、l , 叠加 i | 引入动态阏值l i 彤腽卿i 图2 1 显著区域检测模型 可以看出,对于每一层来说,相当于都是计算显著区域的轮廓。目标物体 的边缘对图像识别和计算机分析十分有用。边缘能够画出目标物体,使观察着 一日了然:边缘蕴含了丰富的内在信息( 如方向、阶跃性质、形状等) ,是图像 识别中抽取图像特征的重要属性。从本质上说,图像边缘是图像局部特征不连 续性( 灰度突变、颜色突变等) 的反映,它标志着一个区域的终结和另一个区 域的开始。轮廓提取是边界分割中非常重要的一种处理,同时也是图像处理的 经典难题,轮廓提取和轮廓跟踪的目的都是获得图像的外部特征。在必要的情 况下应用一定的方法表达轮廓的特征,为图像的形状分析做准备,对进行特征 描述、识别和理解等高层次的处理有着重大的影响。所以,我们有必要在这里 首先讨论计算显著区域轮廓的方法。 虽然有很多方法可以得到图像的轮廓,但是,在这里,我们提出我们自己 1 0 的方法。对其他方法只做简单的介绍。 2 2 其它的边缘提取的方法 要想获取图像中物体的轮廓。首先要明确什么是轮廓,什么是物体的边缘。 图像的边缘对人类的视觉系统具有重要意义,它是人类判别物体的重要依 据,是图像的基本特征。边缘中包含着景物有价值的边界信息,这些信息可以 用于图像分析、目标识别以及图像滤波,并且通过边缘检测可以极大地降低后 续图像分析处理的数据量。边缘存在于目标与背景、目标与目标、区域与区域, 基元与基元之间。 尽管边缘在数字图像处理和分析中作用重要,但是到目前为止,还没有关 于边缘的精确且被广泛承认的数学定义。一方面是因为图像的内容往往非常复 杂,很难用纯数学的方法描述;另一方面则是因为人类本身具有感知目标边界 的高层视觉机理,目前 、类对这些机理的认识还很肤浅。 边缘可以定义为:两个具有不同灰度的均匀图像区域的边界,即边界反映 局部的灰度变化。局部边缘是图像中局部灰度级以简单( 即单调) 的方式作极 快变换的小区域。这种局部变化可用一定窗口运算的边缘检测算子来检测。边 缘的描述包含以下几个方面: ( 1 ) 边缘法线方向:在某点灰度变化最剧烈的方向,与边缘方向垂直: ( 2 ) 边缘方向:与边缘法线方向垂直,是目标边界的切线方向; ( 3 ) 边缘位置:边缘所在的坐标位黄; ( 4 ) 边缘强度:延边缘法线方向图像局部的变化强度的量度。 一般认为边缘方向的灰度变化比较平缓,而边缘发现方向的灰度变化比较剧 烈。基本的灰度变化可以是阶跃形或者脉冲形等,这些只是理想的情况,考虑 到图像是二维的,而且往往图像上叠加有噪声,因此欢度的变化要复杂得多。 由阂值法可以看出,图像分割的实质是提取图像中物体的边界,闺值法通 过阂值来确定物体的边界。边缘检测则是通过检测每个像素和其邻域的状态, 以决定该像素是否位于一个物体的边界上。如果一个像素位于一个物体的边界 上,则其邻域像素灰度值的变化就比较大。假如可以应用某种算法检测出这种 变化并进行量化表示,那么就可以确定物体的边界。 边缘检测算子就是通过检查每个像素的邻域并对其灰度变化进行量化来达 到边界提取的目的,而且大部分的检测算予还可以确定变化( 边界) 的方向。 1 c a 蚰y 方法 1 1 c a i i n y 方法是先对图像做梯度运算,然后通过寻找梯度的局部极大而求得边 界。其梯度计算是基于一个先用g a u s s i a n 滤波器做低通滤波的图像,因此,能 ( 1 ) 不会漏检真实存在的边缘,也不把非边缘点作为边缘检出,使得输出 输入图像通过高斯函数g o ,y ) = 击e x “一之鞠进行平滑,抑制图像噪 声。其中盯为平滑参数,盯较小时,迈缘定位精度蒿,但图像平滑作用较弱, 抑制噪声的能力差;盯较大时,导致高斯平滑模板增大,不仅使边缘位置偏移 使用s o b e l 梯度算子计算每一像素点的梯度估计值。s o b e i 算子有两个3 3 的 卷积核,如下式所示,一个计算水平方向的梯度分量,另一个计算垂直方向的 q 倒司 协- , g 4 睢习 疗一a f c t a n ( q q ) ( 2 2 ) 用下式计算方向角: ( 2 - 3 ) 对于图像中每个像素,它只有4 个可能的方向与邻点相连:0 度( 水平方向) 、 4 5 度( 正对角线) 、9 0 度( 垂直方向) 和1 3 5 度( 负对角线) 第五步:非最大化抑制 遍历边缘点,若该点在方向角方向上是梯度值最大,则保留,否则将该点 从边缘点集合中去除。运算结果将得到一幅细线图。 第六步:双阈值分割 选定两个梯度阈值,一个高阈值t h ,一个低阈值t l ,t h 通常与t l 的比值 为2 :3 。先从边缘点集合中去除梯度值小于高阈值的像素点,得边缘点集合f , 再处理梯度介于高低阈值之间的像素点集合m 。若m 中一点在f 中有邻点,则将 该点加入f 。最终得到的集合f 就是边缘点集合。 2 其它方法 边界检测就是对每个像素的邻域进行会度变化率的计算,通常还包括方向 的确定。从这种角度出发,可以产生若干种其它的边界检测方法:r 0 b e r s 算子、 s o b e l 算子、p r c w i l t 算予、l ( i r s c h 算子和曲面拟合法等有效方法。 3 显著性计算 要想获得更高一层的显著性特征,就需要首先从原始图像中提取出底层特 征。这些底层特征是图像宣接反映出来的,包括:亮度特征、饱和度特征和四 个颜色通道:r ( r c d ) ,g ( g r e e n ) ,b ( b l u e ) 和y ( y e l l o w ) 。通过这些底层特 征,计算出高一层的显著性特征:亮度显著性特征、饱和度显著性特征以及彩 色显著性特征。这些特征能够较好地反映出像素间的对比关系,是显著区域检 测的关键。有的资料【4 】中还提到方向( 0 r i e n t a t i o n ) 特征等其他一些特征。但是 在实际检测过程中,这些特征并没有明显提升检测效果,反而增加了计算强度, 增加了检测时间。因此,我们只选用了以上几种显著性特征进行显著性检测。 为了解决像素问的相关性表示的问题,我们引入了二维正态分布函数。各种显 著性特征值与二维正态分布函数结合,完成图像显著性的计算。 3 。1 底层特征提取 底层特征主要包括:图像的亮度特征:图像的饱和度特征;图像的彩色特 征。下面逐一进行介绍。 3 1 1 亮度特征提取 下面先介绍亮度对比和颜色对比。 一般情况下,在相同亮度的刺激下,如果背景亮度不同所感觉到的明暗程 度也不同。在观察颜色的场合也一样,在图形的色度一样,但背景颜色不一样 时,感觉到的图形的色度也不一样。 刺激的亮度和色度受周围背景的影响而使其产生不同感觉的现象叫同时对 比现象。这里包括亮度对比和颜色对比。另外,在两个刺激相继出现的场合, 后续刺激的感觉受到先行刺激的影响。这种现象叫相继对比。但是,相继对比 可以看所示视觉的时闯特性或适应效果的一个侧面,因此,一般的对比多指同 时对比。有实验表明,在背景亮度比目标亮度低的场合,感觉目标有一定亮度。 当背景亮度比目标亮度高时,看到的目标就有暗得多的感觉。同时对比效果在 背景大的场合比较显著,但不一定在且标被包围的情况下才产生,在其它场合 也可以产生,只是效果小了一些。 1 4 e 瘟銮堑厶鲎亟主位淦塞显蕴健让簋 关于对比效果有一定性的法则,即基尔希曼( 1 ( i r s c h m a n ) 法则。其基本内 容如下; ( 1 )目标比背景小,颜色对比大: ( 2 ) 颜色对比在空间分离的两个领域内也发生,间隔大时则效果较小; ( 3 ) 背景大,对比量也大; ( 4 ) 明暗对比最小时,颜色对比最大; ( 5 ) 名安相同时,背景色的高对比量大; ( 6 ) 亮度及颜色的恒定性; 有这样一些例子可以说明亮度的恒定性。例如,我们感觉一张白纸的亮度, 照明光的强度改变时它也不怎么改变,总有一定的亮度感觉。更为显著的例子 是,与白天的煤山相比尽管夜间的雪山亮度低,但我们感觉煤山还是黑的,而 雪山还是自的。这种物理亮度在变化而感觉却又保持一定的倾向,也就是亮度 的恒定性。 另外,在照明光的颜色稍微改变的场合,我们感觉白纸仍然是白纸。这一类 照明光改变但感觉到物体颜色能稍微保持一定的倾向。也就是颜色的恒定性。 这些恒定性与亮度和颜色的适应性与对比因素有关,同时也与才质有关。 r g b 系统与人眼很强地感觉红、绿、蓝三原色的事实能很好地匹配。但是 r g b 和其它类似的彩色模型不能很好地适应实际上人解释的颜色。首先它没有 涉及组成其颜色的每一原色的百分比。此外,我们不能简单地认为彩色图像是 由三幅原色图像合成一幅单一图像。 面向彩色处理的最常用模型是h s i 模型,其中,h 表示色调,s 表示饱和度, i 表示亮度( 或者灰度) 。人区分颜色就常用3 种基本特征量:亮度、色调和饱 和度。亮度和物体的反射率成正比,如果无色彩就只有1 个维量的变化。对颜 色来说,颜色中掺入白色越多就越明亮,掺入黑色越多亮度就越小。色调是与 混合光谱中主要光波长相联系的。饱和度与一定色调的纯度有关,纯光谱色是 完全饱和的,随着自光的加入,饱和度逐渐减少。色调和饱和度合起来称为色 度。所以颜色可用亮度和色度共同表示。 h s l 模型有两个重要的特点。首先,亮度分量与色的分量是分开的,1 分量 与图像的彩色信息无关。其次,h 和s 分量与人感受彩色的方式紧密相连( 这 里强调了颜色的重要性,因为人对光的感知还与1 分量有关) 。这些特点使得h s i 模型非常适合基于人的视觉系统对彩色感知特征进行处理分析的图像算法。 h s i 模型的重要性在于两方面:第一,去掉强度成分( i ) 在图像中与颜色 信息的联系;第二,色调和饱和度成分与人们获得颜色的方式密切相关。这些 特征是h s i 模型成为理想的研究图像的工具。 h s i 模型的坐标系统接近圆柱坐标系统。在r g b 空间的彩色图像可以方便 地转换到h s i 空间。对任何3 个归一化到【0 ,1 】范围内的r ,g ,b 值,其对应 的h s i 模型中的h ,s ,1 分量可以由公式计算得到。 光源发光的功率成为发光亮度。其单位主要有如下两种: ( 1 ) 烛光( c a n d l ep o w e r c ) 1 c 是指标准蜡烛发出的光。标准蜡烛是用鲸脑油 制成,重l 6 磅,燃烧率为1 2 0 格令( 1 格令= o 0 6 4 8 克) 的蜡烛。 ( 2 ) 坎德拉( c a n d i e ,c d ) l c d 就是“全辐射体”加温到铂的熔点( 2 0 2 4 k ) 时从1 锄2 表面面积上发出的光的1 6 0 。所谓“全辐射体”就是某一物质 加热到某一温度时,它发出的能量分布在整个可见光范围内。t 理论上的 全辐射体就是一个完全黑体,当冷却后,它将吸收所有入射到它上面的 光。 亮度是用来说明物体表面发光的量度。光可以有一个面光源直接辐射出来, 也可以有入射光照射下的某表面反射出来。亮度对其两者均适用。 亮度的衡量有各种不同的单位,其中主要有a 、b 两组。a 组是以每单位面 积上的发光强度来表示的;b 组是以每单位面积上发出的光通量来表示的。这两 种单位可以换算。 h s i 模型的颜色定义与归一化的红、绿、蓝值有关。这些值有r g b 的三基 色给出: r ;而括 ( 3 1 ) 卜雨百万 p d j g4 志 ( 3 。2 ) 6 = 而 ( 3 - 3 ) 尺+ g + b 、7 我们假定r 、g 、b 已经被归一化,其值在【o ,l l 之间,此外,上式说明r 、 g 、b 的值也在【0 ,1 】之间。 h s i 模型是从人眼的主观感觉出发描述颜色。人眼不能直接感觉红、绿、蓝 三色的比例,只能通过感知颜色的亮度、色调和饱和度来区分物体。在h s i 彩 色空间中,i 表示强度( i n t e n s i t y ) ,是人眼所感觉到的颜色明暗程度的物理量。 色度表明颜色的种类,而颜色是由波长决定的,所以彩色的色度反映了该 彩色最接近什么样的光谱波长。在自然界中,人眼所能分辨的物体的色度大约 有1 2 0 种,不同的波长显示出不同的颜色,如波长为o 5 5 u m 的里现出绿色,织 1 6 g 峦套迤厶堂亟土翌僮途塞显釜缝让簋 物由于叶片中含有叶绿素,在o 5 5 u m 左右有一个反射高峰,使叶子看上去呈现 绿色。 基于上述h s i 模型的各种优点,我们把亮度特征作为显著性检测的底层特 征。亮度特征的计算方法【5 】为( 略去推倒过程) : 例:盟地掣( 3 4 ) j 其中,毋为坐标为f 刃的像素点。,( 尸砂、占( 尸:( f ) 、6 俐为像素点乃的r 、g b 三个分量值。,( 尸矽为像素点尸:c 的亮度值。 3 1 2 饱和度特征提取 饱和度是表示颜色浓淡程度汾物理量,例如同是红色,却有深红和浅红之 分。c a s t l e m a n 博士在其著作数字图像处理1 6 l 中用一桶颜料作了精辟的注释: 假设有一桶纯红色的颜料,其饱和度为i ,如果掺入白色染料后,则红色变淡, 即减少了它的饱和度,对着更多的白色染料加入,饱和度逐渐降低,直到变成 白色( 饱和度为o ) 。在图像处理中,通常用一个柱体坐标系来表示h s i 空间。 住体高度表示强度分量i ,柱体的圆环表示色度分量h ,以“度”为衡量单位, 主体的半径表示饱和度分量s ,半径越大,s 就越大。具有最高亮度和最大饱和 度钓颜色位于圆柱上底圆的圆周上。不失一般性,在计算机中,强度( i ) 的值 域为【o ,1 】,色度( h ) 的值域为【o 度,3 6 0 度】或【o ,1 】,饱和度( s ) 则为【o , l 】。 饱和度是指颜色的纯洁性。i n l 可见光谱的各种单色光0 是最饱和的彩色。 当光谱色加入白光成分时,就变得不饱和。物体的饱和度取决于该物体表面选 择性反射光谱辐射能力。物体对光谱某一较窄波段的反射率高,而对其它波长 的反射率很低或没有反射;则表明它有很高的选择性反射的能力,这一颜色的 饱和度就高。这说明,饱和度特征有助于检测图像的显著区域。其计算公式f 1 2 j 为: s l p q ) = m 戤0 l p l j ) t g ( p q ) b ( p 4 ) 1 一m t h 0 ( p v ) g ( p q ) b p q ) 1q - 其中,s 限,j 为像素点 的饱和度值。 3 1 3 彩色通道提取 为了方便获得更高层次的显著性特征。我们采用了下面四个颜色通道i 4 l ( 负 尺:,俐丝婪堑型( 3 6 ) g 例:g 俐塑掣 ( 3 7 ) b ( p o :b 【p q 丛曼e i ;墨堡立p s ) 冽:掣掣6 俐( 3 9 ) 其中,月假、g ( p 、b ( p :c c ) 、圳劲分别为颜色的四个通道:r e d 、g r e e n 、 b 1 l i ej 铂、,e i l o w 。 3 2 显著性特征计算 本文综合了亮度显著性、饱和度显著性和色彩显著性,它们都同时影响显 著区域的检测。 3 2 1 亮度显著性和饱和度显著性的计算 本文采用基于对比的方法,像素工与像素y 之间的亮度差和饱和度差越大, 越有利于对显著区域的区分。定义【4 l 为: 出伍力= i 删一例l ( 3 - 1 0 ) 丛( x ,) ,) = i s 例- s i (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绝缘胶销售合同6篇
- 2025年台州市黄岩区卫健系统公开招聘卫技人员26人考前自测高频考点模拟试题及答案详解(各地真题)
- 2025年马鞍山市消防救援局招聘政府专职消防员38人考前自测高频考点模拟试题及答案详解(新)
- Glycine-CoA-Glycine-coenzyme-A-生命科学试剂-MCE
- 2025年合同研究组织项目建议书
- 2025年浙江台州温岭市中医院公开招聘编外员工9人(第四批)考前自测高频考点模拟试题及1套参考答案详解
- 保护环境从我做起议论文周记(15篇)
- 时尚化妆品推广方案
- 安全培训效果反馈调查课件
- 2025贵州大方县人民政府办公室招募见习人员模拟试卷及答案详解(必刷)
- 临床医学循环系统试题及答案2025年版
- 中国资源循环集团招聘笔试题库2025
- 新版2026统编版小学道德与法治三年级上册 第4课《 科技力量大》第1课时 科技改变生活和科技改变观念 教学课件
- 实验室生物安全管理制度及流程
- 第一章-宗教社会学的发展和主要理论范式课件
- 国内外新能源现状及发展趋势课件
- 临床常见护理技术操作常见并发症的预防与处理课件
- 高速公路改扩建桥梁拼宽施工技术及质量控制
- 双台110kV主变短路电流计算书
- 你不懂咖啡课件
- 危险物品储存安全隐患排查整治表
评论
0/150
提交评论