




已阅读5页,还剩104页未读, 继续免费阅读
(计算机软件与理论专业论文)图象检索中高层语义和低层可视特征的提取研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
| 芏| 象榆索中商层语义和低层a n 虻特征的提取_ i j | 究:摘莹 摘要 ( 基于内容的图象检索( c b i r ) 是一个复杂而又富有挑战性的问题。当前通常的研 究思路是,通过提取图象的低级可视特征( 例如,颜色、纹理、形状等) 来表示图象的 内容,但是这些所谓“内容”反映的只是图象的一些客观统计特性,并不能真f 被人类 视觉理解。我们发现,c b i r 的本质是在自动提取图象低层可视特征的基础上,从图象 库中找出与查询图象相关或相似的图象。这实际上蕴涵着一个基本前提语义相关的 图象具有相似的可视特征。这就使得图象语义分类成为可能。图象分类是一种受限的图 象理解,目的是根据图象的可视特征将图象归并到某一语义类,从而实现图象语义特征 的提取,这不仅有助于图象库的语义组织,而且能实现图象的自动标注,从而极大地改 善图象检索的性能,使c b i r 真正成为一种实用的技术。 基于以上动机疗本文着重研究了如何从计算机自动提取的图象可视特征得到图象的 高层语义特征,并以此为中心对图象检索相关问题进行了深入地探讨。下面简要介绍作 者在论文研究期间所从事的主要工作以及取得的进展: ( 1 ) 一种新的图象纹理谱描述子 本文提出的纹理谱描述子通过比较邻域内象素点灰度的变化来刻画象素点的纹理; ( 而不是常用的绝对灰度值,使得提取图象的纹理谱特征成为可能:注重邻域内像素灰度 的显著变化,能有效地刻画图象的粗糙度,这些特点都说明本文的纹理谱描述子和人类 视觉对图象纹理的感知是一致的。1 7 ( 2 ) 用最大权二部图匹配度量图象的相似性 本文提出了一种基于最大权二部图匹配的多区域图象相似性度量算法;( 它考虑图象 的局部特征和图象的空间分布信息,在度量图象的相似性时,综合考虑图象各区域的内 容,这种方法不但降低了由于分割不精确带来的影响,而且降低了用户操作的难度。j ( 3 ) 非线性图象相似性度量 本文先用非线性映射。将特征向量从输入空问映射到高维特征空间,在不真f 实现 非线性映射巾的情况下,用核函数代替点积,计算图象的相似度。滇优点是在不增加计 算复杂性的情况下显著提高了图象相似性度量函数的判别能力,图象检索实验证明了我 们的观点。l ( 4 ) 用支持向量机进行图象语义分类 本文利用支持向量机( s v m ) 在统计学习方面表现出的优越性能,结合图象的颜色、 纹理特征谱,将图象归并到具有一定语义特征的类,取得了较好的效果。 ( 5 ) 用基于核函数的判别式分析( k d a ) 解决多类问题。 虽然支持向量机在图象分类中表现出了较好的性能,但是它解决的是两类问题,而 现实申的图象类别是多种多样的,如果用两两分类的方法,结果所得到的是多个分类器, 这对真实图象分类将会产生较大的干扰。本文提出了一种称为k d a ( k e m e l - b a s e d d i s c r i m i n a l l t a n a l y s i s ) 的i 訇象分类算法,并给出了详细理论推导。它不但能解决多类问 题,避免了贝叶斯判决后验概率的估计,而且用核函数的思想将判别式分析从线性情况 鲻蒙检寡中岛摇语义张抵崖掣锐特挺妁蚶戤 出气 推广铡非线性情况,从蕊更具有实用性。i ( 6 ) 改进的基予参数调整的糨关反馈算法 ( 莹于参数调整的相关反馈是关联图象低层可视特征和离层语义特缝另外秘常朋 的思想,然两已有的方法大多没有考虑反例,在调整查询向量和备特征分量的权重时, 没专考虑反例与正铡的不问分布特点,而且没有考虑历史反馈信息。针对现有算法的不 足一本文提蹦了新的查询囱攮t 秘权傻调整策昭,并取得了较好的效粟。 另外,本文提出并实现了爆象的边缘特征提取算法,以及一种基于视觉一致性的彩 叁譬词:基量内容管图象检索? 纹理谱:颜色萤纯,边缘检测了图象分割,图象相似性 度量,二部陶匿配y 图象分类ys v m ,k d a ,嫉涵数y 翱关反馈 。 鬯墨竺窒主塑星堕墨塑堡星! 塑竺堑塑丝坠! 业! ! ! 垒! ! ! ! ! 竺 r e s e a r c ho ne x t r a c t i o no fh i g h 一1 e v e ls e m a n t i ca n dl o w l e v e lv i s u a l f e a t u r ef o ri m a g er e t r i e v a l w a n h u a l i n ( c o m p u t e rs o r w a r e & t h e o r y ) d i r e c t e db ys h iz h o n g z h i c o n t e m - b a s e di m a g er e t r i e v a l ( c b i r ) i sac o m p l e xa n dc h a l l e n g i n gp m b i e m t h ec o m m o n r e s e a r c hm e t h o di st or e p r e s e n ti m a g ec o n t e n tu s i n gl o w l e v e lv i s u a lf e a t u r e ,s u c ha s ,c o l o r , t e x t u r ea n ds h a p c e t c h e r e ,“c o n t e n t ”i ss o m ek i n do fo b i e c t i v es t a t i s t i cc h a r a c t e ro fi m a g e w h i c hc o u i d n tb eu n d e r s t o o db yh u m a nb e i n gd j r e c t iy tt h en a t u r eo fc b i r i st os e a r c ht h e r e l e v a n to rs i m i l a ri m a g e sb a s e do nl o w l e v e lv i s u a lf b a t u r e s ,w h i c hi m p l i e sr e l e v a n ti m a g e s h a v es i m i l a rv i s u a if c a t u r e s ,s oi ti s p o s s i b l et o c l u s t e ro rc l a s s i f y i m a g e sa c c o r d i n g t o l o w 1 e v e lv i s u a lf e a t u r e s i no t h e rw o r d s ,i m a g ec l a s s i f i c a t i o ni si i m i t e di m a g eu n d e r s t a n d i n g t h ep u r p o s ei st og r o u pi m a g e si n t os o m es e m a n t i cc l 鹤s ,s ot h a ts e m a n t i cf c a t u r eo fi m a g e s c o u l db ee x t r a c t e da u t o m a t i c a l l y w h i c hw i l in o t o n l y h e l po r g a n i z ei m a g e d a t a b a s e s e m a n t j c ly ,b u ta l s oh e l pl a b e li m a g e sa u t o m a t i c a l ly t h i sw i i id r i v ec b i rf 而m1 a bt o i n d u s t r y m o t i v a t e db yt h e s e ,t h i sp a p e ri s m a i n l yf o c u s e do nh o wt o e x m l c ti m a g eh i 曲一l e v e l s e m a n t i cf e a t u r e 行o m1 0 w 1 e v e lv i s u a lf e a t u r e ,o nt h eo t h e rh a i l d ,c b i rr e l a t e dp r o b l e m s , s u c ha s ,l o w 1 e v e lf e a t u r ee x t r a c t i o n ,r e p r e s e n t a t i o na n di t ss i m i l a r i t ym e a s u r e m e n t ,a r ea l s o d e e p l yd i s c u s s e d i nm i s p a p e r ,f i n a l ly ,a ne x p e r i m e n t a lc b i rs y s t e m h a sb e e nb u i l tt ov a l i d a t e t h em e t h o d s w es 啪m a r j z e dt h em a i n w o r ka n dc o n 砸b u t i o n sa sf - o n o w s : ( 1 ) n o v e l t e x t u r e s p e c t l u md e s c r i p t o r an o v e lt e x t u r e d e s c r i p t i o n m e t h o di s p m p o s e d i td e s c r i b e i n t e n s i t yc h a j l g e s o f n e i g h b o r i n gp i x e l s ,w h i c hi n d i c a l e st h a tt e x t u r ei s ak i n do fc h a n g eo fp i x e li n t e n s i t y ;t h e t e x t u r eu n i to b t a i n e du s i n gt l l i sm e t h o di s1 0 c a l t e x t u r e ,w h i c hm a k e si tp o s s i b l et og e tt e x t u r e s p e c t r u m ;i tp a ym o r ea t t e n t i o nt os a l i e mc h a n g eo fi m a g ep i x e l s ,t l l i si sm o r ec o n s i s t e n tw i t h h u m a t lv i s i o np e r c 印t i o nf o ri m a g et e x t u r e ,s oi tc a i ld e s c r i b et l l es m o o t h n e s sd e g r e eo f i m a g e se 街c i e n t l y ( 2 ) i m a g es i m i l a r i t ) rm e a s u r e m e n tu s i n gw e i g h t e db i p a r t i t em a t c h i n g m a x w e i g h t e db i p a r t i t em a t c h i n ga l g o r i t l l i i lf o rm u l t i r e g i o ni m a g es i m i l a r i t ym e a s u r e m e n t i s p m p o s e d i ti n c o r p o r a t e sp r o p e r t i e so fa l l t t l e r e g i o n si nm ei m a g e s ,w h i c hr e d u c e st h e i n n u e n c eo fi n a c c m t es e g m e n t a t i o n ,f u r t h e r m o r e ,t h i sa l g o r i t h i nt a i 【e st h es p a t i a li n f o m l a t i o n i n t oc o n s i d e r a t i o n ,s oi tc a j lr e t r i e v em o r er e l e v a n ta 1 1 dm o r ea c c u r a t ei m a g e s ( 3 ) m e a s u r i n gi m a g es i m i l a r i 妙n o n l i n e a r l ya n dn o n - m e t r i c l y 1 nt h i sp a p e r ,t h ei n p u ts p a c ei sm a p p e di n t of e a t u r es p a c eu s i n gn o n l i n e a rm a p 中,t h e n r e p l a c e k e m e lf u n c t i o nw i t hd o tp m d u c t i o n ,a i l d c o m p u t et h es i m i l a r i t ya m o n gi m a g e s i i 酗象榆索中矗层语义和低层可视特印的挺取川宄 w i t h o u t r e a l l yi m p l e m e n t i n g n o n l i n e a r m 印m t h es c h e m e g r e a t l yi m p r o v e s t h e d i s c r i m j n a l l c ep e r f o m l a n c eo fs i m i l 甜j t ym e a s u r ef h n c t i o n ( 4 ) l m a g e s e m a n “cc l a s s j 疗c a “o nu s i 丑gs v m i nt h i sp a p e r ,w ec o m b i n ec o l o ra 1 1 dt e x t u r ed e s c r i p t o ra sf e a t u r ev e c t o la n du s es u p p o r t v e c t o rm a c h i n e ( s v m ) t og r o u pi m a g e si n t os e m a n t i cc l a s sa c c o r d i n gt ot h ef 色a t u r ev e c t o r , t h ee x p e r i m e n t a lr e s u l t sa r es a t i s f y i n g , ( 5 ) l m a g es e m a n t i cc i a s s i n c a t i o nu s i n gs v m h o w e v e r ,w h a ts v m s o l v e si st w o c i a s sc l a s s i f i c a t i o np r o b i e m i nr e a i i t y ,n a t u r a ji m a g e s a r ef u l io ft y p e ,i fu t i l i z i n gs v m ,w e 1 1g c tm a i l yc i a s s i f i e r s ,w h i c hw i i ld e t e r i o r a t et h e p e r f o r m a n c eo fc l a s s i n c a t i o n s o ,w ep m p o s ea na l g o t h mn 跏e dk d a ( k e r n e l - b a s e d d i s c r i m i n a n ta n a l y s i s ) t os o l v em u l t i c l a s sp r o b l e m ,w h j c hg e n e r a l i z e1 i n e a rd j s c r i m i 力a n t a n a l y s i s ( l d a ) 矗o m “n e a r t on o n l i n e a rb yk e m e lf l m c t i o n ( 6 ) i m p r o v e dr e l “a n c ef e e 曲a c ka i g o r “h mt h m u g hp a r a m e t e ra d j u s t m e n t r e l e v a n c ef e e d b a c kb a s e do np a r 锄e t e ra d j u s t r n e n ti sa n o t l l e rp o p u l a rs c h e m et ob r i d 窖e l o w l e v e lv i s u a lf e a t u r ea n dh i g h - l e v e is e m a n t i cf c a t u r e h o w e v e r ,t h em e t h o d si nm o s t l i t e r a t u r e sd i d n tt a k en e g a t i v es 柚p l e si m oc o n s i d e m t i o n sw h e na d i u s t i n gt h ew e i 曲t so f f e a t u r e c o m p o n e n t s ,a n dw h e nm o v i n gq u e r yv e c t o r t h e yd i d n t c o n s i d e rt h ed i f 艳r e n t d i s t r i b u t i o no f 、p o s i t i v ea n dn e g a t i v es 锄p l e s w 色i m p r o v et h ep a r a m e t e r a d j u s t i n ga l g o r i t h m , w h i c ha v o j dt h e s es h o n a g e s ,e x p e r i m e n tr e s u n ss u p p o r o u rs t a n d p o i n t f u r t h e r m o r e ,w ep r e s e n ta r l di m p l e m e n ta ni m a g ee d g ed e s c r i p t o r ,a n da ni m a g es e g m e n t a l g o r i t h mb a s e d o n p e r c e p t u a lc o l o rc l u s t e r i n g k e y w o r d s :c o n t e j l t _ b a s e di m 鸠er e t r i e v a j ,t e x t u r es p e c t r u m ,c o l o rq u a n t i z a t j o n ,e d g e d e t e c t i o n ,i m a g es e g m e n t a t i o n ,i m a g es i m i l a r i t ym e a s u r e m e n t ,b i p a n i t em a t c h i n g ,i m a g e c 1 a s s i n c a t i o n ,s v m ,k d a ,k e m e lf u n c t i o n ,r - e i e v a n c ef e e d b a c k 独创性声明 本文声明所呈交的论文是我个人在导师指导卜进行的研究r 作及取得 的研究成果。就我所知,除了文中特别加以标注和致谓 的地方外,论文中 不包含其他人已经发表或撰写过的研究成果。与我1 同工作的同志对本研 究所作的任何贡献均已在论文中作了明确的说明并表示了谢意。 躲硼嗍w z 。饵、珥 关于论文的使用授权的说明 中国科学院计算技术研究所有权保留送交论文的复印件,允许论文被 查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、缩印或 其它复制手段保存该论文。 签名_ 琴弩冲牢导师签名:义嗵才叠7 日期:。姣孕。牛 本文受 自然基金项目“不变性知觉信息表达的计算理论与计算机实验( 6 9 7 9 0 0 8 0 ) ” 与 国家8 6 3 计划通信技术主题项目“基于特征的多媒体信息枪索系统m i r f s 的研究开发( 8 6 3 3 1 7 9 6 0 4 0 5 ) ” 资助 笙二旦塑生一 1 1 研究背景及动机 第一章绪论 图象在人类通信、交流中扮演着非常重要的角色。早在远古时代,人类的祖先就丌 始在他们所住洞穴的墙壁上绘画以表达他们的思想文化,用地图、建筑图等来传递信息, 中国人和古埃及人由此发明了象形文字。现在,图象等多媒体信息已经渗透了人类生活 的方方面面,例如,医药,杂志,广告,设计,教育,娱乐等。 随着计算机技术及网络通讯技术的飞速发展,特别是因特网的出现和普及,使得数 字图象等多媒体数据库的规模迅速膨胀,每天都有数以亿记新的军用或民用图象数据被 存储在数据库中。各种多媒体信息的增多,给用户带来了极大的方便,但是不论用户需 要什么信息,首先要面临的问题就是如何查找自己需要的信息。超大规模的的信息量使 得信息检索问题显得格外重要,最初的信息索引和检索都是通过人工完成的( 如图1 1 ) , 计算机的出现使人类得以解脱。对于文本信息,索引和检索相对来说比较容易,对于图 象、视频和音频等非结构化数据则非常困难,因为文本数据是一维的( 关键词数组) , 而图象数据是二维的( 象素点阵列) ,视频数据则是三维的( 象素点阵列+ 时间) 。文本 和图象视频数据一个最显著的差别是描述文本的单词在某种意义上是个语义对象 ( s e m a n t i c0 b i e c t ) ,而数字图象数据则需要先经过计算机处理、分析和解释j 有可能得 到图象的语义信息,这是计算机视觉和图象理解萨在努力的方向,到目静为止还远远没 有完成。 圈1 1 :传统的文档检索方式 针对这个问题,人们提出了基于内容的检索( c b i r ) 方法,它主要利用图象的低级 可视特征( 例如,颜色、纹理、形状等) 来表示图象中所包含的内容信息,图l2 给出 了一般c b i r 系统的框架。数量巨大的多媒体信息和用户需求使得基于内容的多媒体信 息检索成为近年来非常活跃的研究领域之一。 | 芏| 象榆索中,n 层语义舸】低层刮挑特征的提取”咒 图1 2 :基丁内容| 笙| 像检索的一般流群 1 2 基于内容图象信息检索的特点 过去的信息是以离散的形式( 如,字符、数字等) 存储在关系数据库或者w w w 上, 并以结构化查询语言( s q l ) 或超连接来进行查询检索,而多媒体数据则是连续的,形 式多样的,海量的信息,并且多媒体数据( 如,图象、视频) 在不同的人眼旱可能有不 同的理解,如果将其所有不同的解释都靠人工用关键字( 文本或数字) 来表示,这显然 是不可能的。与传统的文本检索系统相比,基于内容的图象检索系统具有如下特点: ( 1 ) 基于特征抽取的图象内容表示。基于内容的图象检索通过自动分析图象的统计特征, 提取图象的低层可视内容,例如,颜色、纹理、形状、空问关系等,并将其表示为 特征向量的形式,以利于图象的索引和检索。 ( 2 ) 基于相似度的检索。基于内容图象检索的目的是找出与用户查询要求最相似的图象, 不要求精确匹配,因为也许给定的查询信息本身就是不精确、不完全的,因此只要 求c b i r 系统能够返回那些尽可能满足查询要求的图象集合,并按相似度的大小顺序 排列。 ( 3 ) 检索过程离不开用户参与。当用户提供一幅查询图象或草图( s k e t c h ) ,并要求找 出与此相似的图象时,他她的意识中已经有了相似性判别标准。理想情况下,c b i r 系统的相似性度量应该与用户的主观判断一致,它涉及到人类视觉系统对图像的认 知和高层语义的解释,这个问题目前还远远没有解决。因此检索结果的好坏在一定 程度上依赖于用户的主观评判。 1 3 应用前景 基于内容的信息检索是一种实用性很强的技术,有着广阔的应用前景,涉及到社会 笙二主堕垒一 和生活的许多方面。 1 3 1 数字图书馆 传统图书馆是储藏图书资料的仓库,它负责收集、选择和整理图书资料,使其可以 被查询利用,保存图书资料并提供便利的查询工具是图书馆的主要任务 高文,1 3 1 。 数字图书馆是对传统图书馆的根本性变革,它将所有有用的多媒体信息资源用数字的形 式进行表示,其根本目标是为数字多媒体信息的收集、存储和组织提供一个快速有效的 方式,从而使得人们可以通过网络用基于内容的方式来处理和检索这些信息。数字图书 馆是一项非常有意义的研究课题,特别是对于教育领域,数字图书馆将成为非常重要的 教育设施。在未来,数字图书馆将无处不在,它预示着一种全新的网络文化的出现,将 彻底改变人们在娱乐、教育、获取信息等方面的活动方式。上世纪九十年代初,美国自 然科学基金会、国防部、宇航局等便丌始资助数字图书馆丌创( d i g i t a ll i b r a r y i n i t i a t i v e ,d g i ) 研究,欧共体也资助丌展数字图书馆的研究,我国把数字图书馆列为 十血重大项目。 13 2 医疗 基于内容的图象检索对于丌发医疗诊断数字图书馆是至关重要的,它将被用于医疗 诊断和决策支持。现在越来越多的医院都配备了图象档案和通讯系统( p a c s ) ,每年医院 都会生成大量的x 线、磁共振图象( m r i ) 和计算机x 一线断层图像( c t ) 等医疗图像, 有效的基于内容图象管理和检索系统将帮助医生找出历史上相似的病例。通过研究相似 历史病例的诊断和治疗方案,医生将更好地理解新病例,并作出更好的医疗方案。 1 3 3w e b 相关的应用 w o r l d w i d ew e b ( w w w ) 诞生于二十世纪九十年代早期,她使得人们能从地球上任 何地点、任何时间访问w e b 上的多媒体信息,现在w w w 己成为在线图象的最大载体,实 现w e b 图象的快速索引和检索无疑是一件振奋人心的课题。研究发现,分析网页图象周 围的文本对理解图像的内容很有好处,然而仅分析这种文本是不充分的,因为图象附近 的文本可能并不是用来说明该图象内容的。 人们已经开发出了一些通用的图象搜索引擎,例如,q b i c ( i b m ) ,i n t e r d i x ( y a h o o ) , v i r a g e ( a l t av i s t a ) ,g o o g l e 等等。 型叁堡室! 鱼星堕墨塑堡星! ! 丝竺塑塑堡坐竺壅 一一 1 34 其它可能的应用 除了上述令人兴奋的数字图书馆,医疗和w e b 相关的应用以外,基于内容的图象检 索还可以用于其它许多方面,例如: 建筑、室内设计 遥感和地球资源管理( 卫星农业分布,森林采伐,交通等) 图象分类( 过滤网上不健康的图片,视频等) 军事( 雷达,空间,卫星目标识别等) 工业( 纺织品,时装设计) 版权保护( 商标,图片拷贝侦测等) 公共安全和犯罪调查( 指纹识别、面部识别等) 文化( 画廊、博物馆) 1 4 研究现状 图象检索自7 0 年代以来就成为一个非常活跃的研究领域,研究人员主要来源于数 据库系统和计算机视觉两个研究团体,他们分别从基于文本和基于内容两个不同的角度 对图象进行了大量的研究 张磊,1 4 2 。另外,人工智能和模式识别领域的研究人员也 对图象检索中的学习,分类,聚类等问题进行了深入的研究。 基于内容的图象检索在以前的研究中大致可分为两个方面:( 1 ) 图象内容通过人工 模型化为一组属性并被管理,在传统数据库管理系统的框架下,通过这些属性进行查询。 基于属性的图象表示要求高层次的图象抽象。通常地,越高层次的抽象,对图象数据库 查询的范围越小,基于属性的图象查询最初是出数据库研究人员所倡导和进行的:( 2 ) 集成特征提取和目标识别子系统来克服基于属性检索的局限性。这种子系统在图象插入 数据库时自动进行特征提取和目标识别,然而,自动目标识别的研究依赖于特定的领域, 计算处理困难且代价高,这种研究最初是由计算机视觉和图象理解的研究人员进行的。 图象语义的获取和表示方面先前也有两种探索:( 1 ) 通过人的中介作用来解释,然 后用一个适用的形式来描绘其语义,然而语义通常是依赖于具体环境的,人并不能对给 定对象同样的特性给出一致的解释,这就导致了第二种探索。( 2 )使用计算机技术自 动描绘语义。在过去的二十多年晕,计算机视觉及信息领域的研究人员不断地进行研究, 但问题仍然没有完全解决。这方面研究也由于知识库迅速增大,关系极难模型化,包含 的数据结构太过复杂而不能够有效处理。 随着数据库规模的不断扩大,人工注释的大量劳动和人工解释的主观性和不完全性 带来了难以克服的困难。自动的高级的图象理解和目标识别技术不够成熟,因此当前基 于内容的图象检索技术主要面向低级特征,例如,颜色、纹理、形状等。实际上没有一 种单一的方法能够适用于具体的应用,所以需要多种方法结合以解决当前面临的困难, - _ 一 第一币绪论 多特征联合以及文本注释结合将为基于内容图象检索系统提供一个良好的途径。 1 4 1 基于文本的图象检索 当前几乎所有的商用图象检索系统( 包括g o o g l e ) ,都是先用文本来描述图象的语 义,然后在这些图象文本标注基础上应用成熟的文本搜索算法,为用户搜索预期的图象。 与基于内容的检索相比,设计一个基于关键字或文本描述的图象检索系统要简单得多。 由于这种搜索引擎可以利用成熟的关系数据库技术,所以检索比较准确,而且速度很快。 这种技术可以用来管理数量不多,但比较有加值的图片库,例如,博物馆收集的图片。 但是随着图象数据库规模的增大,如,数十力幅以上,基于关键字或文本标注的图 象检索存在的问题就突显出来了。首先,人工对图象进行标注太费时费力,其次人_ = r 标 注具有主观性和不确定性。例如,对于同一幅图象,不同的人给出的标注可能完全不同, 这使得准确地响应用户的查询非常困难。最近有许多研究者通过分析网页对其链接图象 的说明获得图象的文本标注,这在一定程度上减少了人工标注的劳动量,但是网页对图 象的说明仍然是人工的,因此不能避免主观性和不确定性问题。 尽管如此,由于图象的低层可视特征不能有效地表示图象的高层语义特征,当前基 于文本标注的图象检索技术仍然起着不可替代的作用。例如,为了实现对多媒体内容的 存取、索引和检索,m p e g 一7 标准提出了多媒体内容的层次表示,最低层次是由计算机自 动提取的物理统计特征,最高层次是与多媒体语义内容相对应地类似文字描述的特征, 语义层次的特征在必要时还需要人工标注的方式提供。 1 4 2 基于内容的图象检索 随着人们对网络带宽需求的增加和宽带网络自身的发展,网络应用的类型在不断扩 大,互联网上信息的类型也变得越来越丰富;另外,计算机、网络和通信技术的发展使 得产生、处理、传播数字图象视频信息的能力大大增加。如何帮助用户快速准确地找 到感兴趣的图象或视频成为一个迫切需要解决的问题,针对这问题,人们提出了基于 内容的图象检索( c b i r ) 方法,其研究目的是提供在没有人类参与的情况下能自动识别或 理解图象重要特征的算法。常见的思路是,提取图象的颜色,纹理和形状等低层可视特 征,并存储、索引,检索时则根据这些视觉特征返回一组与查询图象最相似的图象,如 图1 2 。但是图象的高层语义特征( 例如,图象中对象的类型) 却很难提取,这是目前 计算机视觉和图像理解面临的一个巨大挑战。 决定基于内容图象检索性能的两个最根本的问题是:( 1 ) 如何利用图象的低级可视 特征( 例如,颜色、纹理、形状等) 有效地表示图象的内容? ( 2 ) 如何度量图象的相 似性? 为了解决这个问题,运动图片专家组m p e g 于1 9 9 6 年1 0 月丌始制定m p e g 一7 标准, 幽象榆索叶 矗层语义年f i 低层n r 虬特征的提取州究 正式名称是“多媒体内容描述接口”,2 0 0 1 年3 月m p e g 一7 专家委员会在新加坡提出第 五版,这是最终的标准草案,目的是定义一套描述多媒体内容的标准,使得它能在一定 程度上支持多媒体信息内容的解释,并能用某种设备或计算机代码进行传输和访问。为 此,m p e g 一7 标准提出了多媒体内容描述子( d e s c r i p t o r ) 的概念,用于描述多媒体信息 的颜色、纹理、形状等特征,但是m p e g 一7 标准只是对内容的描述制定标准,而不涉及 如何提取和表示这些特征或内容,同样也未涉及如何度量特征的相似性,如图1 3 所示。 m p e g 一7 标准回避的问题正是基于内容信息检索中最困难的问题,因此,虽然m p e g 一7 针 对基于内容的多媒体检索制定了标准,但仍存在很多问题需要研究者们继续努力。经过 近十年的努力,目i 这些关键技术己取得了相当大的进展,下面分别进行介绍。 m p e g 一7 标准的范川 幽1 3m p e g 一7 标准的定义范闱 1 4 2 1 图象特征提取和表示 特征( 或内容) 的自动提取和表示是基于内容图象检索的基础,从广义上讲,图象 特征既包括基于文本的高层语义特征,又包括低层可视特征。然而目前的计算机视觉和 图象理解技术还不能自动提取图象的语义特征,因为图象目标提取和识别技术还没有达 到理想状态。本文的介绍仅限于图象可视特征的提取和表示,图象的可视特征又可进一 步分为一般通用特征和领域相关特征,前者包括颜色、纹理、形状和空间关系等,后 者是与特定的应用有关的,例如人脸和指纹等,领域相关特征在模式识别文献中有大量、 详细的介绍,这罩不再赘述,下面我们主要介绍在大多数基于内容检索系统中都得到应 用的常用可视特征。 1 4 2 1 1 颜色特征 颜色有两个般的概念:一个对应于全局颜色分布,另一个对应于局部颜色信息。 按照全局颜色分布来索引图象常常通过使用颜色直方图来实现,它能简单有效地表示图 象颜色的分布状况,这对检索具有相似总体颜色内容的图象是一个很好的途径。一幅图 象的颜色直方图是通过计算每种颜色的象素的个数来构造的。王伟 王伟,1 4 0 对使用 颜色直方图来检索图象数据库进行了研究和总结,在这些研究中,抽取算法一般包括以 下几个步骤:( 1 ) 颜色空间的选取,( 2 ) 颜色空问的量化,( 3 ) 直方图的计算,( 4 ) 直方图 距离函数的推导。 虽然直方图方法简单有效,但是也存在不足,因为直方图表示的是一种全局统计特 征,不能刻画图象可视特征的空间分布状况,这意味着具有相同颜色直方图的图象可能 在空间分布上完全不同,如图1 _ 4 和1 5 。 塑二要笪堡 图【5 :相似的颜色直方幽相似的图象 1 9 9 1 年,s w a i n 和b a l l a r d m j s w a i n ,7 0 提出了颜色索引的基本思路和算法,并提 出用直方图交距离来度量颜色直方图的相似性。其主要特点是是采用互补颜色空间直方 图来描述物体,并通过直方图交和反投影算法来完成物体的识别和检索。 s m i t h j r s m i t h ,6 2 提出用颜色集合( c o l o rs e t ) 方法来抽取空间局部颜色信息 并提供颜色区域的有效索引。通过变换、量化和形态过滤图象等步骤来抽取颜色区域, 舍弃不重要的颜色信息,强调显著的颜色区域,保留在图象中的颜色区域使用颜色集合 来抽取和表示,颜色集合定义图象区域的颜色内容。该方法利用二进制颜色集合来表示 颜色内容,它通过构造二叉树来建立索引。首先去掉大的单颜色区域,然后按照对用户 来说最直观的方式来捕获颜色内容。用户主要是使用单颜色来描述一个对象的,当使用 多种颜色的时候,一次也只使用两到三种颜色。颜色集合方法允许直接抽取一些多颜色 区域。 曹莉华等【曹莉华,1 2 8 】提出了一种扩展主色调方法,首先将色彩从r g b 颜色空白j 转换到h s v 颜色空间,然后根据人类的视觉特性,对h s v 颜色空间的三个属性进行了 非等间隔量化。张磊 张磊,1 4 2 】在此基础上作了进一步改进。 m p e g 7 最终草案也提出了一些示范颜色描述子( 如图1 6 ) ,包括直方图描述子 ( h i s t o g r a m ) ,主色描述子( d o m i n a n tc o l o r ) 和颜色御局描述予( c 0 1 0 r l a y o u t ) 等。主 色描述子给出图象中显著颜色的分布信息,和直方图的箱柜( b i n ) 式量化不同,主色描 述子仅仅取决于颜色空间的量化,其目的是为兴趣区域提供一种有效、紧凑和直观的颜 幽象榆索中商层语义和低层u j 桃特征的摊墩川究 色表示。颜色布局描述子刻画兴趣区域中网格主色的空日j 分布,它在图象快速浏览和搜 索应用中非常有效 bsm a n j u n a t h ,1 1 。 c o i o rd e s c d t o r s d o m j n a n ts c a l a b l ec o l o rc o l o rs t r u c t u r ec o l o rl a v o u t c o i o r- h s vs d a c e- h m m ds d a c e- y c b c rs d a c e h l s t o g r a m 图1 6 :m p e g 7 颜色描述子 1 4 2 1 2 纹理特征 纹理是基于内容图象检索应用中另一种常用的有效低层特征描述子。在7 0 年代初 期,h a r a li c k 等人提出了纹理特征的共生矩阵表示 r m h a r a i i c k ,8 1 。他首先根据像素 间的方向和距离构造一个共生矩阵,然后从共生矩阵中抽取有意义的统计量作为纹理表 刁i 。 受关于纹理的人类视觉的心理学研究的启法,t a m u r a 等人从另外一个角度提出了纹 理表示 h t a m u m ,3 7 。它有六个视觉性质:c o a r s e n e s s ,c o n t r a s t ,d i r e c t i o n a l j t y , 1 i n e l i k e n e s s ,r e g u l a r i t y ,r o u g h n e s s 。它和共生矩阵的一个主要的差别在于:在 t a m u r a 表示中的所有纹理性质都是有意义的,而从共生矩阵提取的纹理性质则可能没有 意义。这使得t a m u r a 纹理表示在图象检索中非常具有吸引力,而且可提供一个更有友 好的用户界面。q b i c 系统 f l i c h n e r ,3 3 和m a r s 系统 s s e e n o ,8 6 进一步改进了这一纹 理表示。 9 0 年代初期,在引入小波变换并建立它的理论框架后,许多研究者丌始研究在纹理 表示中使用小波变换。s m i t h 和c h a n g jr s m i t h ,5 8 使用从小波带中抽取的统计量( 平 均值和方差) 作为纹理表示。在1 1 2 幅b r o d a t z 纹理图象上,该方法取得了9 0 的准确 性。m a 和m a n j u n a t h 评价了各种小波变换 w ym a ,1 0 2 ,f 交和双正交小波变换,树 结构小波变换和g a b o r 小波变换。他们发现g a b o r 小波变换最符合人类的视觉特征。 另外,m p e g 一7 也考虑了三种纹理描述子 b s m 蛆;u n a t h ,1 1 ,第一种称为“纹理浏 览描述子”( t e x t u r eb r o w s i n gd e s c r i p t o r ) ,它描述图象纹理的知觉特性,例如,方 向性( d i r e c t i o n a l i t y ) ,规整性( r e g u l a r i t y ) 和粗糙性( c o a r s e n e s s ) 等。第二种 是“同质纹理描述予”( h o m o g e n e o u st e x t u r ed e s c r i p t o r ) ,它为同质纹理区域的相似 性检索提供了一种定量特性。最后一种是局部边缘直方图描述子( 1 0 c a le d g eh i s t o g r a m d e s c r i p t o r ) ,它在当兴趣区域的纹理不同质时有较好的效果。 _ _ - _ - 一一 一 第一章绪论 1 4 2 1 3 形状特征 目标的形状特征为目标
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 系统规划与管理师的考点总结及练习试题及答案
- 讲师基本知识培训课件
- 讲友谊的课件
- 抢先看!2025年中级经济师农业考试真题及答案
- 机房空调专业知识培训课件
- 中国审美(上海民办高校联盟)知到智慧树见面课答案
- 全国2025年4月自学考试公共经济学试题和答案
- 2025年经济师(工商管理)专业技能知识考试试卷含答案
- 2025年生物技术在农业生产中应用试卷及答案
- 中华诗教概论知到智慧树答案
- 2025企业单位网络与信息安全事件应急预案
- 企业品牌价值评估模型设计
- 2025-2026学年人教版(2024)小学数学三年级上册教学计划及进度表
- 社保补助协议书范本
- 电缆购销合同文本参考
- 新员工质量保证考试(中软国际)
- 安徽涵丰科技有限公司年产6000吨磷酸酯阻燃剂DOPO、4800吨磷酸酯阻燃剂DOPO衍生品、12000吨副产品盐酸、38000吨聚合氯化铝、20000吨固化剂项目环境影响报告书
- 制造业业务流程
- 石英长石无氟浮选分离工艺研究现状
- 对铁路机车乘务员规章培训的探讨与实践
- GB/T 18947-2003矿用钢丝增强液压软管及软管组合件
评论
0/150
提交评论