(计算机应用技术专业论文)dct压缩域基于内容的图像检索研究.pdf_第1页
(计算机应用技术专业论文)dct压缩域基于内容的图像检索研究.pdf_第2页
(计算机应用技术专业论文)dct压缩域基于内容的图像检索研究.pdf_第3页
(计算机应用技术专业论文)dct压缩域基于内容的图像检索研究.pdf_第4页
(计算机应用技术专业论文)dct压缩域基于内容的图像检索研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着信息技术的发展,基于内容的图像检索技术受到广泛的关注。近年来出现的多种图 像压缩标准,减少了存储和传输的开销,却增加了相应的图像检索的开销。解决这一问题的 途径之一是在压缩域直接处理图像数据,即压缩域检索技术。 本文对d c t 压缩域的图像检索开展了一定的研究,并提出了一些的算法,提高了检索速 度的同时兼顾了检索的准确率。 本文首先提出了一种基于d c t 压缩的j p e g 图像的快速检索方法。直接基于d c t 压缩域,利 用j p e g 图像数据在d c t 压缩域的特性,直接提取特征。而且,该方法只需要对j p e g 进行部分熵 解码,在加速了图像检索的过程的同时也保证了检索结果的精确性,并且该方法具有一定的 鲁棒性。 其次,本文提出了一种基于d c t 的纹理图像检索方法。该方法在d c t 压缩域系数直接计 算获得图像纹理的统计特征,并作为检索的依据。理论分析和实验结果都表明,该方法具有 很好的检索准确率和效率,并且对于旋转具有不变性。 最后本文提出了一种d c t 压缩域的基于形状的图像检索方法。首先根据d c t 压缩域图像 的边缘特性,提取图像中物体的粗糙边缘,形成二值边缘映射图;其次,根据描述形状的不 变矩,重新定义相似度测度,提高了检索的精度。理论分析和实验结果都表明,此方法不但 有很快的检索速度,而且有很好的检索效率,并且对于旋转和平移具有鲁棒性。 关键词: 基于内容图像检索d c t 压缩域j p e g 纹理统计特征形状不变矩 江南大学硕士学位论文 a b s t r a c t w i t hm ed e v c l o p m e n to fi n f b 肋a t i o nt e c h o n o l o 甄c b 琅( c o n t e n tb 眦di i n a g er e t r i e v a l ) i s m u c hc o n c e m e d 嵇n d so fi i n a g ec o m p r e s s i o ns t a r d a 】协a r ep r e s e n t e d ,w 1 1 i c hs a v et 1 1 el o a do f s t o r a g e 趾d 仃a n s i i l i s s i o 玛b u tm a k et b ep r o c e s so fi m a g e sm o r ed i 街c l l l t o n ew a y o fs o l v i i l gs u c h p m b l 锄i sm a tp m c e s si m a g ed a t a 洒c o m p r e s s e dd o m a i nd i r e c u y i nt h i sp a p e r ,s o m er e s e a r c hi sd o n eo nt l l ei m a g er c 仃i e v a li nd c tc o m p r e s s e dd o m a i l l f i r s t ,an e wm e t l l o do f 缸t 形岫e v i n gj p e gi m a g e si sp r o p o s e d t h ef b a n 聆e x 眦吐o ni sd o n e d c t i yi nd c tc o m p r e s s e dd o m a i l l ,l l s i i l gt h ec h 啦c t e r i 髓t i o no fd c t f u n l l 锄o r e ,i n s t e a do f m l l yd e c o d i n g ,o n l yp a m a le n 协) p yd e c o d i n gn e e dt ob ed o n e t h e r e f o r e ,t h ew o r ko fr e m e v i n g i i i l a g e si sa c c e l e m t e d 舢s o ,廿l ee 伍c i e n c yo f r e 仃i e 、,i i l gi ss a t i s f i e d ,、i t l lc e 商nm b u s 恤e s s n 吼a n e w a l g o r i 血mf o rr ;e t r i e v a lo f t e 舭i m a g e s i nd c t c o m p r e s s e dd o m a i ni sp m p o d t h eg t a t i s t i c a if e a t u r eo ft 1 1 et e x t i l r ei m a g e si sc o m p u t e dd i r e c t l yf 如md c tc o f f i c i e n t s ,a n di sl l s e d f o ri m a g er e m e v a l ni ss u p p o n e db yt l l e o r e 虹c a la n a l y s i s 柚de x p e 血e n t a lr e s l l l t s 也a t 也ea p p m a c h a c h e i e v sg o o dp e r f o 衄a n c e si nt e m so fr e l d e v a le 伍c i e n c ya i l de 虢c t i v e n e s s a n di ti si i l v 撕姐tt o r o t a t i o n l a s t ,a na l g o r i t h i l lo fi m a g er e 仃i e v a lb 鹊e ds h a p ef e a t i l r ed i r e c t l yi i ld c tc o m p r e s s e dd o m a i n i sp r o p o d f i 毗a c c o r d 抽gt ot l l ee d g ef b a t u r eo fd c tc o m p r e s s e di m a g e ,t h em u 曲o b j e c ts h 印e i se x 缸佻t e di 1 1d c tc o m p r e s s e d d o m a i nt of o 皿ab i m r ye d g em a p t h e n ,t oi i i l p r 0 v e l er e 伍e v a l p e r f o 册a n c e ,t h es i i n i l i 撕哆m e s s u r e m e n ti s r e d e f i i l e dl l s i n gt h ei n o m e n ti n v a r i 趾t ni sa l s o s u p p o n e db yt h e o r e t i c a la i l a l y s i sa n de x p e d m e n t a lr e s u h s ,m i s 印p m a c hn o t0 1 1 l yi sf 如t ,b u ta l s o h a v eag o o dp e r f o n n a i l c e a n di ti sm b i l s tt or o 诅t i o n 锄dt r a n s l a t i o n k e y w o r d s : c b i ri m a g er e t r i e v a l ,d c t ,c o m p r e s s e d d o m a i n ,j p e gt e x t u r e ,s t a t i s t i cf e a t u r c ,s h a p e ,m o m e n t i 1 1 v a r i 锄t 独创性声明 本入声明所璧交的学位论文是本人在导师指譬下进行的研究工 作及取键的研究成果尽我所知,除了文中特别加以标注和致谢的地 方捧,论文中不包食其绝人穗经发表或撰写过豹研巍成果,氇不包含 本人为获得江南大学或其它教育机构的学位或证书面使用过的材料。 与我一箨工作昶瓣袁对本研究所敲豹任衙贡献均瑟在论文孛豫了骧 确的说明并表示谢意。 签名: 日期:锄姑年月店日 关于论文使用授权的说瞬 本学位论文作者完全了解江南大学有关保留、使用学位论文的规 定:江南大学有投保留并向国容有关部门绒机构送交论文的复印佟和 磁盘,允许论文被意阅和借阏,可以将学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编掌懂论文,并履本人电子文挡的内容和纸质论文的内容襁一致。 保密的学位论文在解密后也遵守此规定。 签名:懿导师签名:煎 墨期:油参年f 月缮鑫 第一章绪论 第一章绪论 随着信息技术的发展,图像检索受到广泛的关注。对于非结构化的图像数据,传统的基 于文字的检索方法效率很低,为此人们提出了基于内容的检索技术,并且取得了一定的进展。 但是这些检索系统中采用的技术( 见图1 1 a ) 大多是基于像素域的,也就是说检索所基于的 特征均从原始像素域抽取。 近年来出现的各种压缩标准如j p e g 系列、肝e g 系列以及h 2 6 x 系列等。压缩标准的运用 减少了存储和传输的开销,却增加了相应的处理开销,因为按照像素域处理方法,这些数据 必需解压后才能进行处理,而解压的计算量是很大的。解决这一问题的途径之一是在压缩域 直接处理图像数据,以完成传统的只有在像素域才可进行的处理,即压缩域检索技术( 见图 l _ 1 b ) 。这样做有两方面的优势: ( 1 ) 省去了解压过程,处理速度快; ( 2 ) 由于直接操作压缩数据,处理过程中资源占用少。 下面,将介绍现有的压缩域图像检索技术,主要是d c t 压缩域的图像检索技术。 ( a ) 像素域 ( ”压缩域 图1 1 基于内容的图像检索技术 f i g u r e1 ic o n t e n t - b 鼬e di m 鸠er e m e v a l 江南大学硕士学位论文 1 2 压缩域图像检索 压缩域的图像检索是指通过挖掘图像压缩时的中间结果或晟终码流中包含的信息,力争 在不解码或部分解码的情况下提取表征图像内容的特征,并以其作为索引而实现基于内容的 图像检索。基于压缩域的图像检索最理想的情况当然是直接在最终的压缩码流上( 如图1 2 位置1 ) 提取特征,但是由于熵编码属于非结构化、非字节对齐编码,在熵编码后进行这些 操作十分困难,通常都在熵解码后( 如图1 2 位置2 ) 或熵解码和反量化后( 如图1 2 位置 3 ) 进行。压缩域检索根据所基于的压缩方法的不同可分为两大类:变换域技术和空域技术。 变换域技术包括基于d f t ,k l t ,d 凹,子带d 町等,空域技术有基于矢量量化和分形等。 b b 子块 图l _ 2j p e g 基本模式编解码过程 f i g u r e1 2t h ep r o c e s so fj p e ge n c o d i n ga n dd e c o d i n gi nb a s i c o d e 1 3 离散余弦变换域图像检索 离散余弦变换( d c t ) 作为次最佳的正交变换,因其所具有的良好解相关特性和快速算法而 被国际压缩标准如j p e g ,m p e g l m p e g 2 ,h 2 6 1 1 1 2 6 3 等普遍采用。图1 2 给出了基于d c t 的 j p 开g 基本模式编解码算法示意图,该算法具有普遍性,上面提到的其它国际标准几乎均采用 与它相似的算法结构。从整个的编码过程,我们可以看到这种基于d c t 的标准并未考虑图像 检索功能。基于d c t 压缩域的检索技术就是在现有的压缩标准基础上,通过分析d c t 变换系 数以及压缩算法的特点,力争在不解码( 图1 2 位置1 ) 或部分解码( 图1 2 位置2 位置3 ) 的情况下实现图像检索。图1 2 中位置o 是像素域检索技术的操作位置。 由于d c t 压缩的广泛应用,d c t 压缩域图像检索已经开展了大量的研究。下面介绍并讨 论各种基于d c t 压缩域的检索技术,这些方法大多是在位置2 或位置3 处进行操作的。基于 d c t 压缩域的检索技术中研究最多的是纹理特征的提取及基于纹理特征的检索和分类a s m i t h 等首先提出一种基于d c t 的检索方法【“。该算法将图像分成4 4 的于块进行d c t 变 第一章绪论 换,每一个子块得到1 6 个变换系数,对图像中所有d c t 变换块中同一位置的系数计算其均值和 方差,形成一个具有3 2 个分量的特征矢量,用它表征整个图像的纹理特征。同时作者还采用 了f i s h e r 区别分析( f d a ) 技术降低特征矢量的维数,降维后的特征矢量被用于支持检索。严格 地讲,这种方法不属于压缩域检索方法因为它采用的d c t 块与标准不兼容,要采用此方法, 必须完全解码标准压缩图像,但是此方法给我们提供了一种基于d c t 压缩域进行图像检索的思 路。 r e e v e s 等人在此基础上进行改进,实现了基于d c t 图像纹理特征的提取【2 】。他采用与标准 兼容的8 8 的子块,并且他认为反映不同纹理特性的主要是前面的几个a c 系数,所以只对每 个变换块内的前8 个a c 系数计算其方差用来形成特征矢量,这样即使不使用文献中采用的 f d a 降维方法,维数也很小,匹配复杂度大大降低。 文献p 州中介绍了另外两种基于d c t 的图像检索方法。与前面两种计算单个通道均值和 方差的策略不同,文献【3 j 根据d c t 系数的特性,把d c t 系数分成不同的区域,通过统计这些 区域的系数能量,得到一个具有9 个分量的综合特征,其中4 个反映频率特性,5 个反映 空间特性。s i m 等在文献h 中引入了人眼视觉特性,利用一个符合人眼视觉的掩模对各个 频率通道的特征分量做加权处理。 l 8 y 等考虑到直方图技术在图像检索中的作用,提出了一种基于低频d c t 系数能量直方 图的检索方法口j 。该方法首先选择d c t 块中一个对称区域,然后统计该区域中d c t 系数的 能量直方图,并以此直方图为索引进行图像检索。我们注意到,当该区域仅选择d c 系数时, 得到的直方图即d c 图的灰度直方图,而随着区域的扩大,直方图中将包含进各种频率成分。 作者在文中建议选择d c 系数和前3 个a c 系数构建直方图。 h u a n g 等通过重组d c t 系数,实现了一种类似于小波分解的纹理特征提取方法嘲。吴东 升,吴乐南也提出了基于重组d c t 系数子带能量直方图进行图像检索的方法u j 。因为小波变 换具有多分辨率特征组织的能力,他们通过对d c t 系数分组,重新组合,形成类似于三级小 波变换,从而可以进行多种精确度的图像检索。 黄祥林等提出一种基于d c t 区域能量方向性和多分辨率特征组织的纹理分类方法口j 。因 为一定区域的变换系数代表着一定方向的频谱成分,所以把8 8 子块d c t 变换系数分成直 流区、竖直纹理区、水平纹理区和对角纹理区,并且直接从r l e 码流中计算这些区域的能量, 通过一种多分辨率特征组织形成特征矢量来支持纹理分类及检索。 黄祥林等还提出了一种基于d c t 频率系数分布特点的纹理分类方法翻,对8 x 8 子块 d c t 变换系数按低频率、中频率、高频率分区,通过d c t 系数直接统计这些区域的能量,形 成多分辨率特征矢量。由于这里是把各个方向中同等地位的系数考虑在同一个区域,因此这 种方法具有较好的旋转不变性。 c l i m e r 和b h a t i a 提出了一个基于四叉树的方法,将图像的d c t 系数组织成四叉树结构 提出特征信息【l q ,通过底层的8 8 块的a c 系数进行比较,然后一级级向上形成索引。该 方法的缺陷是,待形成索引的图像必须是包含2 的指数方个8 8 块的正方形图像。 a a r m s t r o n g ,j j ia l g 和g f e n g 等根据d c t 压缩域的特征,提出了一系列的针对压缩 江瘫大学礤士掌髓论文 域的检索方法【l “q 。他们提取一个基于统计参数的方法,使用每个块的平均值和方差作为图 像特征i i “。他们利用d c t 系数的部分数据重构原瘸像进行检索。还将基困遗传算法和竞争学 习网络露于院t 压缩域的图像检索。 除了纹理特征,边缘信息在表征图像内容上也具有重要意义。 s h e n 等人研究了一种利用高频d c t 系数检测感兴趣区及其边缘的算法。根据每个8 8 块秘系数形成近议边缘豹直线,模叛物体的边缘线。实验络果表明该嚣法鹘边缘检测结 果达到了对原始图像粟胡s o b e l 边缘检测算子的水平。 l c e 等人提出了一种利用边缘倍息进行图像腿配的方法 。这种方法包括3 个步骤: 首先,从a c 系数中提墩= 值边缘图;然后,利用边缘图计算边缘方向、边缘强度和边缘偏移 量形成特萑e 矢量;最磊按一定的榛戗性准裂进幸亍图像匹配,实验结莱表明该方法具寄较静豹 边缘检测能力和检索效率。 黄祥林等也提出一种d c t 域基于边缘轮廓和连通直方图的检索方法【”,通过重组d c t 系数获得隧像的多级轮廓,以各级轮艨豹连遥壹方图搬较和撵为特 歪量进行强臻捡索。实验 结果表明该方法具有报好的检索效果。不足之处,是计算连通赢方圆时需要较大的计算爨。 n g o 等人也针对d c t 压缩域的图像检索做了相关研究口m ,在形状信息提取方面,提出了 搜用a c 系数计算,形成原物体粗糙的轮廓,并使用不变矩作为特征进行检索。 除了上述的纹理特链和边缘信惑睡提取,研究蠹还提出了其他的基于d 掰域鳇图像稔素 方法,这魑方法可概括地称之为基于统计特征的检索方法。 s h n e i e r 等人提出了种基于j p e g 压缩域的图像检索算法口”。它的主要思想是通过判 定检索图像弱甚标图像中不相连嚣域对中d c t 系数的相似关系的太小来进行检索:首先在图 像内选取2 k 个互不相逑的区域窗,随机配对得到k 个窗对,对每个窗计算箕包含的8 x 8 子 块中每个系数的均值得到一个6 4 维的特征矢量,将配对窗的特征矢量之间按其对应关系判 定每一对分量的相似度犬小并赋予该窝对一个比特( 0 或1 ) ,而检索图像和目标图像豹相似与 否取决于瓒有这些窑对眈蒋滚豹柱戗度。 y u 提出种可用于直接比较两幅测度:p 测度,这种测度可以直接利用f ,c t 系数计算 两幅图像之间的相似程艘田l 。 文献酬分缨了一种滏接从j p 蕊圈缳的r 码滚中提取特援矢量进行梭索妁方法。主要 思路是应用主分量法到f 系数,把d c t 图像映射到一个低维空闷,用一个低维特征量( 特 征空问一点) 来表征图像。另外该文还分析了量化对检索结果的影响,认为量化不会造成特 征映射的犬畸变。 另秘,g e r a l ds c h a e f e 提i 电了霹j 翔提窭纹理的l b p 算子对d c 系数提取纹理耪形状口“。 这些方法虽然取得了一定的效果,但是总体来说,它们一般没有具体理论依据,可以说 不属于基于d c t 压缩域的主流检索披术。 第一章绪论 1 4 本文的主要工作和内容组织 本文主要工作是提出了二个d c t 压缩域的图像检索算法,并且通过实验验证具有较好的 效果。 本文的组织如下: 第一章首先介绍了d c t 压缩域图像检索的概念和己取得研究成果。 第二章介绍了基于内容的图像检索的概念和相关技术。 第三章介绍了基于d c t 的图像编码,并介绍了一系列图像编码标准。 第四章给出了提出的第一个算法的相关算法描述及实验结果。 第五章给出了提出的第二个算法的相关算法描述及实验结果。 第六章给出了提出的第三个算法的相关算法描述及实验结果。 第七章是总结和将来的工作。 附录中说明了实验过程的程序编写。 最后是研究生期间发表论文,参考文献以及致谢。 第二章棼于内容的囤像转索c b m 2 1 简介棚i r 第三章基于内容的图像检索c b 讯 图像检索簇域的研究分为基于文本和基于建客藕大类。蓠者有两大缺煮: ( 1 ) 人工注释图像工作擞大; ( 2 ) 主观性理解和表达造成注释信息不稳定。 第二点妻接澎晌图像梭壤结果的可赣髋,于是基予蠹容的图像捡索( c o n t e n t8 a s e di 砬a g e r e t r i e v a l ,c 8 r ) 逐渐被入 = l 所重视。e 8 i r 技术议图像视觉特征袋与图像相似静草图作为用 户查询和系统梭索的依据。早期c b i r 的研究重点是视觉特征提取。后来在语义特征、多维 索引、用户接口、系统设计档方面又有所发展。近年柬研究者又引进了更多领域的知识:从 知识表示的露整运用a 工智疑领域豹攫联和棒经网络较术提取特徭鞫分类图像;掏逢面向对 象的c b i r 系统:开发面向w e b 的c b i r 系统:另外,并行c b i r 技术和压缩域的c b i r 技 术也被提上了议程。同时,许多c b i r 系统被开发出来。但这一领域还有很多问题有待解决, 2 2 i r 的基本技术燮素 基于内容的图像检索圭妥趣含特征提取、多维索g | 及用户接隧三个基本技术要素。下蔼 将对它们给予简述: ( 1 ) 视觉特征包含颜色、纹理、形状、区域、空间层次等。每个特征所对应的匹配算法 蠢日趋成熟。邂年来研究人员发现视觉特征提取仍不熊擐好地满足用户的需要,于是在提高 其精确痘的同时开始磋究离盛的语义特征描述和相议甄配。 ( 2 ) 高效的多维索引技术是使c b i r 能够应用于趟大型图像数据库的重要保障。常用的 树索引技术源予传统的数据库查询,但多维特征向量有维数太多和寓含语义等特点。许多专 家开始研究其它陡方式挺藩索 l 效率,铡妇使】霹l 聚类彝镡经网络搜零对图像避行分类索 l 。 ( 3 ) 图像检索系统通过用户接口从用户处获取查询信息,并向用户提交查询结果。用户 可以向系统提交与所需查询的图像一致或类似的例图或绘制草图;还可以给出一种或多种特 征要求。在有的系统中对图像进行语义分类,用户可以交互地由系统引导直到找到自己需要 的图像为止。程许多现存的e 8 i r 系统中都运用了其中的一种或几种相结合鳇接翟方式。 江南大学硕士学位论文 2 3 特征提取 2 3 1 底层特征提取 ( 1 ) 颜色。 颜色具有一定的稳定性,因此成为检索中最常用的视觉特征。许多不同的思想和算法都 是以颜色直方图相交算法为基础而设计。不少相关的文献都详尽地描述了针对颜色直方i 羽缺 点( 亮度敏感性、稀疏直方图对噪声敏感性、计算量大等) 的改进算法。 ( 2 ) 纹理 图像的纹理特征与图像中物体表面的组织结构有关。早期对纹理特征提取的研究是在模 式识别的背景下展开的,方式多为统计方法,典型代表是基于二阶灰度统计特征的共生矩阵 法。而后提出的相似度量:对比度、粗糙度、方向性、规律性,比共生矩阵中的统计信息更 符合人类感知力,受到一定的重视。目前也有不少研究者在研究利用神经网络进行纹理分割。 ( 3 ) 形状 形状是最接近用户需求的匹配特征。形状匹配分为基于边界和基于区域两太类型。它们 分别采用傅立叶描述子和不变矩表述特征。在相关的文献中对这两类方法的发展和成果都有 详细的描述。学者也提到许多新颖的方法,如小波变换描述法和有限元匹配方法。对于更广 泛的变形匹配问题,需要从研究变形模型着手。弹性变形模型是研究和应用最早的模型,其 后提出的主动轮廓模型则应用于边缘及轮廓的检索。此外还有根据部分先验信息采用参数控 制模型表示的方法,用于人脸识别、医学图像检索等方面。不少专家沿用二维表示中的两个 途径表示三维形状,在思想上没有突破。从二维图像中建立三维模型进行匹配才是今后研究 的主题,这方面的成果还比较少。 ( 4 ) 图像分割与空间关系 局部特征提取具有更高的精确性,而好的图像分割技术将使局部特征提取得到更令人满 意的结果。侧如,在颜色特征提取中采用颜色层( c o l o rl a y o u t ) 描述方法:在纹理特征提取 中进行局部纹理分割:在形状特征提取中对形状进行轮廓分割和分形等技术都需要图像分割 技术的支持。图像分割技术也使得小块图像之问的方向空间关系被用作特征描述。 2 3 _ 2 语义层次关联 以颜色、形状、纹理等视觉特征描述图像一直是这一领域研究的热点,新颖或改进的算 法层出不穷。这的确提高了图像检索的精确度和速度,但与用户的要求仍有一段距离。对用 户来说,判断两幅图像是否相似具有主观因素,它依据的是人类的感知力。再者,通过选择 例图、比较两者特征来寻找相似图像的方法固然简单,但概念性的描述更利于准确表达需求, 并且毫无疑问这种方式比输入某种特征参数( 如像素值、形态草图等) 更具人性化。于是,特 征表述与用户语言之问需要有一个语义层次将两者相互关联。提取图像的语义特征,依据是 第二章基子癌容酶霞像控索c b 王r 图像的视觉特征,这与基于文本的图像检索有本质区别。过去的基予文字的图像检索只是简 单机械地进行字符串匹配,蕊现在提出的语义特薤提款概念则是在文字与图像之阀建立起映 射关系。 2 0 3 高层语义表述 这一层次的任务是使用带有主观感情色彩的语义表述图像。例如“冷”、“热”、“快 乐”、“悲伤”等词汇的描述。在所有图像的视觉特征中,颜色是最具有感情色彩的特征, 显著的色块可以一下子吸引用户的注意弗使用户心中产生主观感受。这里面应该还涉及到色 耪0 理学原瑾的应用。总的来说,在这一摄次上面的研究还缀稀少,由于其主麓性强,既没 有比较成功的方法,也没有可靠的相似标准以供评价。 2 4 多雏素孳i 与翻像分赉技术 2 1 i 1 多维索l 技术 高效的索引撞术是基于内容图像检索在大型图像数据库中发挥优势的保证。索引技术随 着数据库技术的发展而发展,随后被应用于基于内容的图像检索领域。提高索引的效率有两 种方法:缝璇特程向量抟缀度窝改进索s l 纂法。 2 4 2 图像分类与聚类 多维索; 技术只是屣魏蒋改进索b l 算法蛙适应大栽模数据库池麓凄来考虑问蹶匏,在基 予内容的图像梭索中,用予表述图像内窭的视觉特征宵其自身的表示方法( 如色彩直方图 等) ,这无疑大大增加索引的难度。 如果从语义层次上对图像进行有效的分类,对于系统索引处理和用户查询郡露极大的帮 渤。枣j 用底层的视觉哥寺桎对黼像进行语义屡次豹分类是一项十分艰匹的工作。宅必须建立在 精确并且效率商的视觉特征摄取技术的羲础之上。 大多数图像检索系统采用辞典框架结构存储分类信息。研究较多的技术是聚娄和神经网 络。分类是按已经存在懿类髑规受4 将围像进幸亍分缀,瓣聚类尉是在磷究丈量图像的特征的基 础上通过学习产生出类剐,然后按此类别蒋对未处理的图像进行分类。利用视觉特征对图像 进行聚类后,仍有可能出现如视觉特征相似而含义不问的情况。于憨,有必要进步对图像 的瀑义分类进行研究,特别是如何建立一个强壮的体系氅构来定义鼹像中可以袭镬语义信息 秘突出部分。这样,人为干预就显得十分毖要。况量西藏强像豹采絮莠没有完全实现自动纯, 人工分类与聚类相结合的方法比较可行。 9 江南丈学硕士学位论文 2 5 曲l r 系统介绍 一些著名c b i r 系统都在网络上放置了演示版和简介,以下将介绍几个具有不同特点的 c b t r 系统。 ( 1 ) p h o t o b o o k 是m 工t 的媒体实验室开发的一套交互式图像数据库浏览和查询工具。在它 放在网上的演示版给出了四种应用领域的示范:纹理识别、形状识别、人脸识别和大脑形状识 别。 ( 2 ) l b m 的q b i c 系统是第一个商用的c b i r 系统。它针对大型的d b 2 图像数据库,同时也 支持w e b 检索。演示版分别给出了对邮票、照片和黑白商标检索的示例。 ( 3 ) v i s u a l s e e k 和w e b s e e k 都是哥伦比亚大学开发的基于w e b 的图像视频搜索工具。 ( 4 ) n e t r a 是加里福利亚太学a d l ( a l e x a n d r i ad i g i t a ll i b r a r y 亚里山大数字图书馆) 项目中开发的一个c b i r 原型系统。它着重从已分割的图像中查找相似区域进行匹配。 ( 5 ) i k o n a 是i n t i i a 的i m e d i a 项目研究小组为开发c b i r 软件系统而设计并实现的基于 c s 的体系结构。 2 6 i r 的同韪与展望 基于内容图像榆索技术的研究和系统设计涉及到许多技术领域。从上文的叙述来看研究 者们从c b i r 的不同技术方面着手,取得了相应的成果或进展。大部分研究沿袭了计算机视觉、 模式识别、数据库索引等领域的研究思路,在研究更符合c b i r 自身特点的技术方面也取得了 一些进展,如相关反馈、语义特征提取等等,但这些研究是远远不够的。下面将根据相关文 献和我们对c b i r 研究的体会分析其需要研究的主要问题并提出未来的发展趋势。 2 6 1 有效的特征提取 特征提取是c b i r 技术的关键。以往的研究大多从颜色、纹理和形状的模式匹配角度处理 这个问题。但是从用户的角度来讲,相似性是一个非常主观化的评价准则,用户对图像的感 知关系到视觉、心理等等方面,用量化的距离标准来测试两幅图像的相似度仍会出现令人意 想不到的结果。现在需要做的工作是如何提取更能够表述人类对图像感知的特征,如何使得 这些底层的视觉特征与图像的含义关联得更紧密。 2 6 2 高层概念描述 上文中在特征提取部分己提到了语义层次关联的问题。从特征描述中取出语义描述是从 方便用户表述查询需求的角度来考虑的,对图像进行语义分类则是考虑到检索的速度和精确 性。语义特征提取需要做许多工作。前面己介绍了许多专家在这方面所做的一些工作和研究 成果,但仍存在着以下问题: 第二章基于内容的图像检索c b m 如何从视觉特征中提取出语义特征; 如何判断不同注释的图像之间是否有相似的语义 如何更加准确高效地进行图像内容的语义分类。 2 6 3 相似度量与评价标准 任何一个领域中的技术研究都需要有与之相对应的一套评价标准,好的评价标准将引导 这一领域沿着正确的方向发展。如何评价检索的实现结果是c b i r 里的一个关键问题。 2 6 4 图像数据集成与多媒体描述标准 目前所使用的大多数图像数据库都是类似于传统的数据库的集成方式,包含一个文本标 志或者是一个表示该图像的小图标。这并不是严格意义上的“图像数据库”,图像数据库不 仅仅涉及到数据库管理领域的研究,还应当包含视觉特征的因素。这样的图像数据库才更适 应于基于内容的图像检索。新型媒体类型m p e g 2 7 就是在做这样的尝试,它的全称是多媒体内 容描述接口,它的研究成果将给c b i r 技术的研究带来巨大的影响。 2 6 5 面向h b 的i r 系统 鉴于c b i r 技术的高效性,人们开始研究它与w e b 的结合,以提高互联网图像搜索效率。 面向w e b 的c b i r 系统大致可分为w 唧服务器、查询处理器、图像数据库和特征提取器四大部 分。w 聊服务器用于互联网上的通信,查询处理器用于处理客户的查询需求,特征提取器则是 负责图像特征提取的模块。查询处理器涉及到对图像语义分析技术的研究,图像数据库则涉 及到具有图像特征含义的图像数据库的组织,它们有待研究者进一步的探索。许多专家正在 更深入地研究w e b 与c b i r 的结合,这是基于内容图像检索系统未来发展的趋势。 2 7 本章结论 本章对基于内容的图像检索c b i r 的研究成果和发展趋势做了较为详尽的描述。完整的 c b i r 系统包含三个基本技术支持:特征提取、多维索引和用户查询接口。特征提取部分主要 是视觉特征的提取,其发展趋势是高层的语义特征提取;多维索引部分主要是基于数据库索 引技术的开发以及对图像的分类,其发展趋势是用自动学习机制指导图像的分类与聚类。用 户查询接口部分主要是研究接口的形式,其发展趋势是将基于特征和基于文本相结合以形成 更高效的查询模式。这些特点要求c b i r 系统不仅需要有图像数据库支持,还需要有文本数据 库和可视化特征数据库的支持。更进一步的发展有待研究者长期的探索。 第三章基于d c t 的图像编码 第三章基于d c t 的图像编码 在数字电视广播、可视电话通信、数字图像处理、多媒体技术等领域中,碰到的首要难 题是数据量太大,无论是进入计算机处理、还是保存图像数据都非常困难,尤其是图像传输 困难就更大了。 1 9 8 2 年,c c i r6 0 1 建议“演播室数字电视编码参数”数字电视分量编码标准为亮度信号 抽样频率1 3 5 删z ,两个色差信号抽样频率都是6 7 5 删z ,三个信号都采用8 b i t 量化。如果 采用串行传输,这4 :2 :2 格式所需要的位速率为2 1 6 m b s ,它相当于3 0 0 0 路数字电话所需 要的传输码率。如此搞的传输码率大大阻碍了数字电视技术的发展。因此,数字图像信号的 存储、处理、传输需要解决的首要问题室保持图像质量必须的保真条件下压缩数据量。 近年来,图像编码技术得到了迅速发展和广泛应用,关且日臻成熟,其标志就是几个关 于图像编码的国际标准的制定,即国际标准化组织i s o 和国际电工委员会i e c 关于静止图像的 编码标准j p e g 、国际电信联盟i t u t 关于电视电话会议电视的视频编码标准h 2 6 1 ,h 2 6 3 和 i s o i e c 关于活动图像的编码标准m p e g l ,m p e g 一2 和m p e g 一4 等。这些标准图像编码算法融合了 各种性能优良的图像编码方法,代表了目前图像编码的发展水平。 3 1 1j p e g j p e g ( j o i n tp h o t o g r a p h i ce x p e r tg r o u p ) 是i s 0 i e c 联合图像专家组制定的静止图像 压缩标准,是适用于连续色调( 包括灰度和彩色) 静止图像压缩算法的国际标准。j p e c 算法 共有4 种运行模式,其中一种是基于空间预测( d p c m ) 的无损压缩算法,另外3 种是基于d c t 的有损压缩算法。 ( 1 ) 无损压缩算法,可以保证无失真地重建原始图像。 ( 2 ) 基于d c t 的顺序模式,按从上到下,从左到右的顺序对图像进行编码,称为基本系 统。 ( 3 ) 基于d c t 的递进模式,指对一幅图像按由粗到细对图像进行编码。 ( 4 ) 分层模式。以各种分辨率对图像进行编码,可以根据不同的要求,获得不同分辨率 的图像。 j e p g 对图像的压缩有很大的伸缩性,图像质量与比特率的关系如下: ( a ) 1 5 2 0 比特像素:与原始图像基本没有区别。 ( b ) 0 7 5 1 5 比特像素:极好,满足大多数应用。 ( c ) 0 5 0 7 5 比特像素:好至很好,满足多数应用。 江南大学硕士学位论文 ( d ) 0 2 5 0 5 比特像素:中至好,满足某些应用。 3 1 2j p e g 一2 咖 与以往的j p e g 标准相比,j p e g 一2 0 0 0 压缩率比j p e g 高约3 0 ,它有许多原先的标准所不 可比拟的优点。j p e g 一2 0 0 0 与传统j p e g 最大的不同,在于它放弃了j p e g 所采用的以d c t 变 换为主的分块编码方式,而改为以小波变换为主的多分辨率编码方式。 j p e g 一2 0 0 0 有着一些很好的优点。能实现无损压缩( 1 0 s s l e s sc o m p r e s s i o n ) ;误码鲁棒 性( r o b u s t n e s st ob i te r r o r ) 好;具有感兴趣区( r o i ,r e g i o no fi n t e r e s t ) 特性。 3 1 3 啊,e 昏一1 国际标准化组织i s 0 i e c 的运动图像专家组m p e g ( m o v i n gp i c t u r ee x p e r tg r o u p ) 一 直致力于运动图像及其伴音编码标准化工作,并制定了一系列关于一般活动图像的国际标准。 1 9 9 3 年制定的m p e g 一1 标准是针对1 5 m b i t s 速率的数字存储媒体运动图像及其伴音编码制 定的国际标准,该标准的制定使得基于c d r o m 的数字视频以及m p 3 等产品成为可能。忡e g 一1 的带宽最多为1 5 m b i t s ,其中1 1 m b i t s 用于视频,1 2 8 k b i t s 用于音频,其余带宽用于 m p e g 系统本身。 为了追求高的压缩效率,去除图像序列的时间冗余度,同时满足多媒体等应用所必须的 随机存取要求,m p e g 一1 视频把图像编码分成i 帧、p 帧、b 帧和d 帧共4 种类型。i 帧为帧内 编码帧( i n t r ac o d e df r a i i l e ) ,编码时采用类似j p e g 的帧内d c t 编码,i 帧的压缩率是几种 编码类型中最低的。p 帧为预测编码帧( p r e d i c t i v ec o d e dr 锄e ) ,采用前向运动补偿预测和 误差的d c t 编码,由其前面的i 或p 帧进行预测。b 帧为双向预测编码帧( b i d i r e c t i o n a l l y p r e d i c t i v ec o d e df r 锄e ) ,采用双向运动补偿预测和误差的d c t 编码,由前面和后面的i 或 p 帧进行预测,所以b 帧的压缩效率最高。d 帧为直流编码帧( d cc o d e df r 锄e ) ,只包含每个 块的直流分量。船e g l 采用运动补偿支除图像序列时间轴上的冗余度,可使对p 帧和b 帧图 像的压缩倍数比i 帧提高很多。 3 1 4 - 巾e g 一2 m p e g 组织1 9 9 5 年推出的m p e g 一2 标准是在肝e g 一1 标准基础上的进一步扩展和改进,主 要是针对数字视频广播、高清晰度电视和数字视盘等制定的4 9 m b i t s 运动图像及其伴音的 编码标准,m p e g 一2 是数字电视机顶盒与d v d 等产品的基础。m p e g 一2 系统要求必须与m p e g l 系统向下兼容,因此其语法的最大特点在于兼容性好并可扩展。 m p e g 一2 的目标与m p e g 一1 相同,仍然是提高压缩比,改善音频、视频质量,采用的核心 技术还是分块d c t 和帧间运动补偿预测技术。m p e g 一2 视频允许数据速率高达1 0 0 m b i t s ,支 持隔行扫描视频格式和许多高级性能。考虑到视频信号隔行扫描的特点,m p e g 一2 专门设置了 1 4 第三章基于d c t 的图像编码 “按帧编码”和“按场编码”两种模式,并相应地对运动补偿和d c t 方法进行了扩展,从而 显著提高了压缩编码的效率。考虑到标准的通用性,增大了重要的参数值,允许有更大的画 面格式、比特率和运动矢量长度。除此之外,肝e g 一2 视频压缩编码还进行了以下扩展: ( 1 ) 输入输出图像彩色分量之比可以是4 :2 :o ,4 :2 :2 ,4 :4 :4 。 ( 2 ) 输入输出图像格式不限定。 ( 3 ) 可以直接对隔行扫描视频信号进行处理。 ( 4 ) 在空间分辨率、时间分辨率、信噪比方面的可分级性适合于不同用途的解码图像要 求,并可给出传输上不同等级的优先级。 ( 5 ) 码流结构的可分级性,比如头部信息、运动矢量等部分可以给予较高的优先级,而 对于d c t 系数的高频分量部分则给予较低的优先级。 ( 6 ) 输出码率可以是恒定的也可以是变化的,以适应同步和异步传输。 m p e g 一2 视频是一系列的系统,每一个系统具有安排好的共性和兼容程度。它允许对四种 源格式或者级别进行编码,从简单清晰度( c i f 格式) 到完全的高清晰度电视h d t v ( h i g h d e f i n i t i o nt e l e v i s i o n ) 。除了源格式的这种灵活性外,卿e g 一2 还规定了分辨率从低到高的 4 级5 类共1 1 种单独的技术规范,同一种类不同级别间的图像分辨率和编码速率相差甚远。 3 1 5 - 巾e 昏- 4 1 9 9 2 年1 1 月,船e g 专家组决定开发新的适应于极低码率的音频视频( a v ,a u d i o v is u a l ) 编码的国际标准,即m p e g 一4 。对于学术界来说,极低码率( 即小于6 4 k b i t s ) 是视频编码标准 的最后一个比特率范围。 相对于忡e g 的前两个压缩标准,肝e g 一4 已不再是一个单纯的视频音频编解码标准,它 将内容与交互性作为核心,从而为多媒体提供了一个更为广阔的平台。它更多定义的是一种 格式和框架,而不是具体的算法,这样人们可以在系统中加入许多新的算法。除了一些压缩 工具和算法外,各种各样的多媒体技术如图像分析与合成、计算机视觉、语音合成等也可以 充分应用于编码中。 3 1 6h 2 6 1 h 2 6 1 是i t u t 针对可视电话和会议电视、窄带i s d n 等要求实时编解码和低延时应用提 出的一个编码标准。该标准包含的比特率为p 木6 4 k b i t s ,其中p 是一个整数,取值范围为1 3 0 ,对应比特率为6 4 k b i t s 9 2 m b i t s 。 h 2 6 1 标准大体上分为两种编码模式:帧内模式和帧间模式。对于缓和运动的人头肩像, 帧间编码模式将占主导位置;而对画面切换频繁或运动剧烈的序列图像,则帧问编码模式要 频繁地向帧内编码模式切换。 为了减少信道误码,采用一种叫做b c h ( 5 l l ,4 9 3 ) 的纠错编码方式。这种纠错码可以在 4 9 3 比特中自动纠正2 比特的错误。按

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论