




已阅读5页,还剩46页未读, 继续免费阅读
(系统工程专业论文)基于形状的图像检索技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院硕士学位论文 摘要 随着多媒体数据量的急剧增长,对这些数据的有效管理显得尤为重要。人们 的绝大部分信息来自图像,所以图像检索技术的研究是其中最为重要的课题。目 前一些较为成熟的图像( 静止图像) 检索技术是基于颜色和纹理的,虽然人们在 形状分析这一研究上做出了许多努力,并有许多成果,但是与基于形状的图像检 索的真正实用化还有很大距离。 本文从基于形状的图像检索的背景意义和发展现状出发,研究了相关的专业 知识和几个典型算法。然后重点对基于边缘的图像检索进行了详细的阐述。针对 传统的边缘方向直方图法对旋转过于敏感的缺点进行了改进,并提出了一种新的 傅立叶描述子,由物体的轮廓得到起链码,通过相应的变换得出傅立叶系数来作 为特征向量。两种方法各有优点,在实验中进行了分析。利用上述两种方法,实 现了一个基于形状的图像检索原型系统。研究了系统的功能,界面和操作情况。 主题词:图像检索基于形状的边缘方向直方图傅立叶描述子 第i 页 国防科学技术大学研究生院硕士学位论文 a b s t r a c t i nr e c e n ty e a r sv is u a li n f o r m a t i o nh a sb e c o m eam a j o rr e s e a r c ha r e a o w i n gt ot h ee v e r i n c r e a s i n gr a t ea tw h i c hi m a g e sa r eg e n e r a t e di nm a n y a p p li c a t i o nf i e l d s v i s u a li n f o r m a t i o nr e t r i e v a ls y s t e m ss u p p o r tr e t r i e v a l b yv i s u a lc o n t e n tb yd i r e c t l ya d d r e s s i n gi m a g ep e r c e p t u a lf e a t u r e ss u c h a sc o l o r , s h a p ea n dt e x t u r e b u tt h es h a p e b a s e di m a g er e t r i e v a lp e r f o r m s p o o ri nt h ee x i s t i n ga l g o r i t h m i nt h i sp a p e r ,t h eb a c k g r o u n da n dt h es i g n i f i c a n c ea n dt h ec u r r e n t p r o g r e s so fs h a p e b a s e di m a g er e t r i e v a la r em e n t i o n e da tf i r s t t h e nt h e p a p e rs u m m a r i z e ss o m ec l a s s i c a la l g o r i t h mo ft h i sf i e l d ,t w oo ft h e ma r e s t r e s s e d o n ei se d g eo r i e n t a t i o nh i s t o g r a m ,t h eo t h e ri sc h a i nc o d ea n d f o u r i e rd e s c r i p t o r f r o mt h er e s u l to fe x p e r i m e n t ,i tc a nb es e e nt h a te a c h o ft h e mh a si t so w na d v a n t a g ea n ds u i t sd i f f e r e n tk i n do fp h o t o s f o l l o w e dw i t ht h et w om e t h o d s ,as y s t e mo fs h a p e b a s e di m a g er e t r i e v a l i sb u i i t f u r t h e r m o r e ,t h i ss y s t e mi si n t r o d u c e di nt h ep a p e r k e yw o r d s :i m a g er e t r i e v a l s h a p e b a s e de d g eo r i e n t a t i o nh i s t o g r a m f o u r ie rd e s c r i p t o r 第i i 页 国防科学技术大学研究生院硕士学位论文 表目录 表2 1图像特征的描述方法及其适合应用的图像类1 7 表3 1检索系统性能的基本参数3 0 表4 1原型系统的功能3 6 第i 页 国防科学技术大学研究生院硕士学位论文 图目录 图2 1c b i r 的体系结构1 5 图3 15 种边缘子图像2 5 图3 2 图像的分解2 5 图3 35 种边缘检测算子2 6 图3 4 将原图旋转3 0 0 和1 8 0 0 后得到的图像2 7 图3 5原图的直方图2 7 图3 6 将原图旋转3 0 0 得到的直方图2 7 图3 7 将原图旋转1 8 0 0 得到的直方图2 7 图3 8原图的最终直方图2 8 图3 9 旋转3 0 0 的最终直方图2 8 图3 1 0 旋转1 8 0 0 的最终直方图2 8 图3 1 1花卉的检索2 9 图3 1 2 国旗的检索2 9 图3 1 3 区域边界图3 1 图3 1 4 车辆的检索一3 3 图3 1 5 花卉的检索3 4 图4 1原型系统功能图3 6 图4 2图像入库按钮3 7 图4 3图像检索按钮3 7 图4 4 操作流程图3 8 图4 5 开始界面3 9 图4 6 图像输入过程3 9 图4 7 图像入库4 0 图4 8图像检索结果界面4 0 第1 v 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目:基王型迭鲍图倦捡塞撞盔珏塞 学位论文作者签名:缁! 堑日期:年月 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印,缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:基王壁达数图馕捡塞燕苤珏窒 学位论文作者签名 硷丐 日期年月 日 作者指导教师签名: 日期:年月 日 国防科学技术大学研究生院硕士学位论文 第一章绪论 i i 课题研究背景和意义 随着多媒体技术、计算机技术、通信技术及i n t e r n e t 网络的迅速发展,人们 正在快速地进入一个信息化社会。现代技术己能运用各种手段大量的采集和产生 各种类型的多媒体数据,人们对多媒体信息的需求也越来越大量和频繁。虽然信 息的快速增长促进了社会的发展,但是信息膨胀也给人类带来了过多信息量以至 于超过了人的接受能力。因此,除了获取、处理和存储多媒体信息十分重要,怎 样在海量的多媒体信息中快速有效地访问人们感兴趣的多媒体信息也显示出了同 样的重要性。 图像信息是多媒体信息中最常见的一种,也具有多媒体信息数据量大、抽象 程度低的特点。如何从海量的图像信息中有效地获取有用信息,即图像信息资源 的管理和检索显得日益重要。随着人们对图像信息的巨大需求的增长,产生了基 于文本的图像检索技术,比如著名的搜索引擎百度中对图像的检索。这种基于文 本的检索技术所利用的人工标注方法存在局限性,经常检索出来大量的用户不感 兴趣的图像,但在没有更好解决办法的情况下,用户只能继续使用。因此如何对 图像的内容自动、客观、全面地进行特征提取,真实有效的表示图像内容,帮助 用户快速有效地访问感兴趣的图像有着极大的研究需求和迫切的需要,而基于内 容的图像检索( c o n t e n tb a s e di m a g er e t r i e v a l ,c b i r ) 技术恰好能有效的解决 这个问题。 1 2 国内外研究现状 所谓基于内容的图像检索( c b i r ) ,是指直接根据图像媒体对象内容进行的 各种特征检索,它能从数据库中直接找到具有指定特征或含有特定内容的图像。 其基本过程是:首先对图像进行预处理,然后根据图像的内容从图像中选取所需 要的图像特征存于数据库中;当对图像进行检索时,对于一个已知的图像抽取其 相应的特征,然后在图像库中检索与其相似的图像,也可以相对于某一查询要求 给出一些特征值,然后根据所给定的特征值在图像库中检索所要的图像。它区别 第1 页 国防科学技术大学研究生院硕士学位论文 于传统的基于关键字的检索手段,融合了图像理解、模式识别等技术,具有如下 特点: 1 ) 直接从图像媒体内容中提取信息线索。它突破了传统的基于表达式检索的 局限,直接对图像进行分析和抽取特征,利用这些描述图像内容的特征来建立索 引。 2 ) 内容的图像实质上是一种近似匹配的技术。在数据库中,需使用模式识别 的方法对图像库中的图像按不同索引特征分类。在检索过程中,它采用某种相似 性度量对图像库中的图像进行匹配,以获得查询结果。 3 ) 特征提取和索引的建立,可由计算机自动实现,避免了人工描述的主观性, 也大大减少了工作量。 4 ) 整个过程是一个逐步逼近和相关反馈的过程。在基于内容的图像检索系统 中,应具有很强的交互能力,用户参与整个检索的过程,它是图像数据库的一个 重要方面。交互性增加了用户表达查询、评价查询结果和基于这些评价上进一步 检索的能力,是一个闭反馈结构。 基于内容的图像检索技术由于具有传统的文本检索技术所无法比拟的优越 性,近年来己成为人们研究的热点。m p e g ( 运动图像专家组) 在继m p e g 1 , m p e g 2 和m p e g 4 之后,制定了m p e g 7 标准,该标准就是针对多媒体信息检 索而提出的,它的正式名称是多媒体内容描述接口。m p e g 7 的制定为多媒体内容 检索的真正实用化铺平了道路,其主要由内容的特征提取、描述方案的生成以及 匹配等环节构成,并包含了图像描述的编解码等。 基于内容的图像检索技术自9 0 年代“冠名 以来得到了国内外信息领域科技 人员的广泛重视,也得到了许多国际学术组织的重视和关注,成为了图像、数据 库技术中的研究热点之一,己有大量的相关理论研究和技术应用,取得了长足的 进展。近年来国内外的一些大专院校和科研机构,在该领域进行了大量的研究。 比如美国加州大学伯克利分校、麻省理工学院,新加坡国立大学、美国密歇根大 学、我国的清华大学、浙江大学、中科院,进行了这方面的研究,在图像特征的 提取与表达、图像检索数据库的建立与管理、图像特征的相似性度量、图像检索 系统的性能评价、图像检索的网络化应用等方面都做了大量的研究工作,取得了 一定的成果,并开发出了一些应用系统。 第2 页 国防科学技术大学研究生院硕士学位论文 目前,c b i r 技术的主要研究机构包括: i b ma l m a d e n 研究中心 其q b i c ( q u e r yb yi m a g ec o n t e n t ) 是“基于内容 检索系统的典型代表,但 是在引入交互式分割之后,该组己将研究方向转移。 m i t 媒体实验室 麻省理工学院( m i t ) 媒体实验室开发的p h o t o b o o k 被认为是早期“基于内容 检索系统在科研方面的代表作,其代码可以在媒体实验室的下载区获得。经过对 系统的交互性能改进。当时媒体实验室的主任p e n t l e n d 作为p h o t o b o o k 系统发表文 章的第一作者出现,足见该组对c b i r 的重视;之后p i c a r d 及其一些学生,女i m i n c a 等,继续为c b i r 领域做出了很大贡献:但是,在将p h o t o b o o k 升级为f o u r e y e s 之后, 该组基本未在c b i r 领域有更大贡献。但改组在图像语义分类方面的工作,为c b i r 的索引结构提供了良好的思路。 哥伦比亚大学 1 9 9 7 年,j r s m i t h 在c o l u m b i a 毕业时,在其多达3 0 0 余页的博士论文中详 细的对c b i r 领域做了回顾。s m i t h 攻读博士期间,在其导师s f c h a n g 的指导下 搭建了v i s u a l s e e k ,v i s u a l w e b 等系统。而且,s f c h a n g 始终是坚定的c b i r 路 线支持者。目前j r s m i t h 在i b m 研究院也仍然继续c b i r 领域的工作。 u n i v e r s i t yo fi i l i n o i sa tu r b a n a c h a m p a i g n 自从率先将人机交互的机制引入m a r s 系统中来,t s h u a n g 同其指导的博士 研究生如r u iy o n g 等在c b i r 的研究工作中始终占据重要地位。在r u i 力l 盟微软 r e d m o n d 研究院后,h u a n g 的其他一些研究生,z h o ux i a n g 等仍然在该领域进行研 究。 微软亚洲研究院 微软亚洲研究院的检索实验平台是i f i n d ,在d r z h a n gh 的主持下搭建,其 目前主要研究集中与r f 和基于图像分割的多区域组合间的距离度量。最近数年的 a c mm u l t i - m e d i a 等重要会议和刊物均有该组在c b i r 领域的研究报告。 ( s t a n f o r du n i v e r s i t y ) p e n ns t a t eu n i v e r s i t y j a m e sz w a n g 及其合作者l ij i a 等,共同实现s i m p l i c i t y 系统。该组主要研 第3 页 国防科学技术大学研究生院硕士学位论文 究思路是基于对象,但是对图像的分割方法没有n e t r a 或b l o b w o r l d - - 样重视,他 们将着眼点放在两幅都被分割成数块的图像之间如何进行相似度度量,并在这个 问题上相继发表一系列论文。同时改组对基于机器学习的索引结构也做一定研究。 u n i v e r s i t yo fc a li f o r n i a ,s a n t ab a r b a r a 在加州大学圣巴巴拉分校,始终活跃着一支多媒体信息检索的队伍,且每年 在重要的会议上都会有他们的位置,数个c b i r 原型系统都诞生于该校。b s m a j u n a t h 及其指导的m aw y ,w u p e n g 等都致力于多媒体信息检索和索引。 e d w a r dc h a n g 的研究组为c b i r 用户提供了概念学习( c o n c e p tl e a r n i n g ) 的机制, 利用m l 领域的知识来提高反馈的效率。 下面通过几个成熟的系统来展示一下基于内容的图像检索的研究现状,并且 分析一下这方面的应用情况和技术的发展趋势。 1 2 1几个典型的图像检索系统 i b m 的q b i c i b m 的q b i c 系统是第一个商用的c b i r 系统。它针对大型的d b 2 图像数据 库,同时也支持w e b 检索。演示版分别给出了对邮票、照片和黑白商标检索的示 例。对于邮票和照片,提供根据颜色、颜色层、纹理等特征进行图像检索的途径, 对于黑白商标还提供了分形检索方法。此外,q b i c 系统还运用了一些维度约减技 术( 如k l t ) 和多维索引技术( r 书t r e e ) 来对付高维特征索引问题。在更新的版 本中,他们将基于文本的图像检索技术结合了进来,也许是寄希望于在语义匹配 方面有所突破。q b i c 结合多种查询方式,如标准的系统查询方式,选择特征查询 和草图查询等,因此它的用户界面比较友好。近年来q b i c 的应用领域越来越广, i b m 也致力于将之应用于诸如商业图形检索、艺术图像检索及医学等领域中。其 中引人注目的是因特网上的远程博物馆漫游计划,q b i c 在其中扮演重要角色。 m i t 的p h o t o b o o k p h o t o b o o k 是m i t 的媒体实验室开发的一套交互式图像数据库浏览和查询工 具。在它放在网上的演示版给出了四种应用领域的示范:纹理识别、形状识别、 人脸识别和大脑形状识别。纹理识别主要针对以纹理为主体内容的图像:形状识 别给出了一些具有简单形状物体( 如扳手) 的检索示例;人脸识别是m i t 基于他 第4 页 国防科学技术大学研究生院硕士学位论文 们研究的技术基础上开发的重要应用;大脑识i i i i 是p h o t o b o o k 的一个新的应用领 域,它在检索过程中处理图像的3 d 数据。版本6 允许用户通过动态的加载代码来 定义匹配算法。 v i s u a l s e e k 和w e b s e e k v i s u a l s e e k 和w e b s e e k 都是哥伦比亚大学开发的基于w e b 的图像视频搜索工 具。v i s u a l s e e k 是一个通用的搜索引擎,它主要是根据所检索图像中不同色块的空 间关系进行相似匹配,另外也用到颜色、纹理等特征提取技术。v i s u a l s e e k 同q b i c 一样提供了多种查询方法:根据视觉特征、图像注释、草图甚至是图像的u r l ( 这 是w e b 上搜索所特有的) 。它根据草图检索的方法仍是注重图像中不同色块的空 间位置关系,只有具有良好空间区别性的草图才可以得到较好的结果。w e b s e e k 是一个专用的面向w w w 的搜索引擎。它的目的是在w w w 上建立一个可视化对 象的自动辞典供用户查询。与v i s u a l s e e k 一样,它也是采用多种特征提取技术进 行匹配,并提供基于注释和基于图像视觉信息的用户查询接口。 u c s b 的n e t r a n e t r a 是加利福尼亚大学6 d ) l ( a l e x a n d r i ad i g i t a ll i b r a r y 亚历山大数字图 书馆) 项目中开发的一个c b i r 原型系统。它着重从已分割的图像中查找相似区域 进行匹配。此外n e t r a 还使用了一些特殊的特征表述,便于快速完成用户的一些 特殊的查询,如检索包含a 的颜色、b 的形状、c 的纹理的图像,并将它们分类 列出。在它的d e m o 版本中提供给用户的查询界面也体现了这样的特点。n e t r a i i 是n e t r a 的新版本。它是一个基于区域和颜色特征的图像检索系统,主要采用了 研究小组在彩色图像分割算法和局部颜色特征描述方面所作出的一些成果( 如色 彩量化、特征的距离化度量等) ,使得图像分割更加快速。 l 娘s m a r s ( m u l t i m e d i aa n a l y s i sa n dr e t r i e v a ls y s t e m ) 系统为美国u i u c ( u n i v e r s i t y o fi l l i n o i sa tu r b a n ac h a m p a i g n ) 大学所开发,其不同之处在于用到了多领域的知 识:计算机视觉、数据库管理系统和信息检索。m a r s 系统的注重点不在于寻找 单个的最佳特征表示,而在于如何将不同的视觉特征组织成有意义的检索体系, 以动态适应不同的用户及应用场合。m a r s 系统是正式提出相关反馈的系统,它 将相关反馈技术集成到检索的不同层次过程中。 第5 页 国防科学技术大学研究生院硕士学位论文 1 2 2 图像检索系统的应用领域 数字图书馆 随着计算机技术和网络技术的飞速发展,数字化图书馆也应运而生,数字化图 书馆中存有大量的信息资源,包含文字、图像、声音、视频等多媒体信息。因此 在数字图书馆中,如何快速有效的查找所需的信息,是基于内容的图像检索系统 的重要研究方向,数字图书馆也成为基于内容的图像检索系统的重要应用市场。 n e t r a 就是加里福利亚大学a d l ( a l e x a n d r i ad i g i t a ll i b r a r y 亚里山大数字图书馆) 项目中,为图像检索开发的一个c b i r 原型系统。 公安系统 公安系统需要保存大量的图像档案,包括过去嫌疑犯的面部相片,指纹和胶印 等。当有犯罪行为发生时,破案人员可以利用图像检索系统,通过简单的人机交 互,在图像档案中快速检索到类似的犯罪记录或者疑犯的相关信息,加速破案。 知识产权 商标识别和查询是一个很大的应用市场。商标管理机构拥有一个商标库,商家 在其商标注册前要先在现有的商标库中先进行查询,判断是否已有类似的商标存 在,避免商标的雷同。q b i c 和v i r a g e 检索系统已经采用了商标数据库。另外日本 东京大学电子实验室的t r a d e m a r k 系统,新加坡大学的s t a r 系统,英国 n o r t h u m b r i a 大学的a r t i s a n 系统也已有了相应的商标数据库。其中s t a r 和 a r t i s a n 系统都已经应用到国家专利局。 建筑和工程设计 建筑和工程设计的一个共同特点就是采用二维图像表示三维物体。设计者特别 希望能够借鉴以前的设计作品,特别是那些在某些方面很相似或者符合某些规定 标准的图像。但是目前,这方面还没有一个成熟的商业系统,所以对于c a d 设计 人员来说,迫切需要开发出一套建筑和工程图像检索系统。c a l i f o r n i a 大学的三维 信息管理系统现在正在实验阶段。 时尚和室内设计 对于服装设计者来说,设计一套好的服装必须考虑所选的颜色、纹理、服装的 样式等等,如果能够对照当前比较流行的服装图像,设计者可以从中得到很多启 第6 页 国防科学技术大学研究生院硕士学位论文 发。室内装潢和图像也有很大的联系,参考装修很好的图像可以帮助我们更好的 设计我们的房间。现在还没有这样的成熟的商业化检索系统。 新闻和广告 新闻和广告都利用图像进行宣传,对于不同情况和不同目的,设计不同的富有 极大吸引力的图片是一件不容易的事情。但是如果能够找到一些相似的图像对我 们来说应该有很大的帮助。 医疗和诊断 现在很多医院利用图像帮助医生治病,同样保存病人的一些图片资料对病人的 治疗和以后的健康状况的掌握也很有用,如c r e t e 大学的二维放射图像检索系统和 c a r n e g i e m e h o n 大学的三维神经图像检索系统等,就在这方面进行了尝试。 地理的信息和遥感系统 通过地图规划商场和工厂的位置。军事上对卫星图像的分析。农业学家和地理 学家研究都离不开图像,把图像及其分析结果保存起来对以后的研究有很大帮助, 通过图像检索系统,可以方便的查找到所需的地理图像信息。 文化遗产的保护 博物馆和文化馆保存了大量的图像,通过相似性来鉴别不同的对象对于我们追 溯历史很有帮助。对于艺术爱好者来说总希望能够找到自己最感兴趣的图像以便 收藏。i b m 的q b i c 系统己经建立了艺术图像数据库供艺术爱好者检索。印度的 j a i n e t a l 也应用c b i r 技术来保存和管理与h i n d u 大教堂有关的图像和视频资料。 教育和培训 现在各个学校都有了多媒体教室,有些教学内容采用图像比采用语言或文本的 效果更好,而且有些内容只能通过图像来表达。图像检索系统在这方面的应用将 有很大前景。目前英国的c a r n e g i e - m e l l o 大学已开发出了多媒体信息管理系统进行 教学。 家庭娱乐 基于图像、视频等多媒体的娱乐方式己经是家庭娱乐的一个重要组成部分。照 片、v c d ,d v d 等都可以保存起来。随着数码相机的普及,家庭娱乐中会出现 越来越多的数字图片,将这些图片有效的管理和利用起来,也是基于内容的图像 检索系统发展的一个很大的市场。 第7 页 国防科学技术大学研究生院硕士学位论文 军事 图像技术在军事上的应用非常广泛,如以雷达显示屏上识别敌机,从卫星图上 鉴别目标以及导弹引导系统等等。另外许多用于犯罪预防的图像技术也可以用于 军事领域。因此在对这些图像的管理和检索上,c b i r 也将发挥重要的作用。 网络搜寻 基于文本的搜索引擎随着互联网的发展得到了很大发展,但是随着计算机技术 的不断提高,互联网的不断发展,人们接受的图像也日益增多,早期的检索仅仅 基于文本的,如目前著名的商用搜索引擎y a h o o , g o o g l e , i n f o s e e k ,a l t a v i s t a 和l y c o s 等,都是基于文本的关键词查询。但是图像等多媒体资料内部有着重要 的内容,它门是i n t e r n e t 的重要资源,用关键词查询是不适合的,他们己经不能满 足人们全方位的需要。因而提供合适的基于图像内容的检索工具是一项重要而又 迫切的课题。基于内容的图像检索系统正是为了满足这种需要而研制的一种有效 的检索工具。许多c b i r 技术己经应用到图像搜索中,w e b s e e k 系统和i m a g e r o v e r 系统,商业化的图像搜索引擎有i m a g es u r e r 和p h o t of i n d e r 等等。 1 2 3 图像检索技术的发展方向 可以看到,在图像检索的多个研究领域中确实取得了一些进展,如视觉特征的 提取、多维索引和系统设计以及数据库技术方面,然而图像检索技术真正要投入 实用有许多方面的问题需要考虑到。 面向网络 万维网的急速发展是惊人的,每天都有数以万计的文档和图片被发布到网上。 为了更有效组织和检索这些海量数据,基于w e b 的搜索引擎是非常必要的,但大 多基于w e b 的搜索引擎都是基于文本和关键字的。虽然也有一些面向万维网的图 像搜索引擎,但它们要想达到基于文本的搜索引擎同样的性能,还有很多问题需 要解决。一个主要的问题就是无法有效地将低层视觉特征和高层的语义描述进行 关联。因为在万维网上搜索信息时,人们更倾向于利用某种主观特征进行检索, 对于图像来说而非颜色纹理等低层特征。 检索系统的性能评价 任何技术的发展都离不开一个性能评价标准。s n r 是图像压缩领域的评价标 第8 页 国防科学技术大学研究生院硕士学位论文 准,准确度是基于文本的信息检索的判断标准。目前,一些图像检索系统主要是 靠查询图像所耗费的时间来评价一个系统的性能,还有一些利用和基于文本搜索 一样的性能评价标准。用这些标准来评价图像检索系统的性能结果是不尽人意的, 难于给出一个好的评价标准的原因是人们对视觉心理的研究还不是很成熟,换句 话说就是人对图像的主观理解和客观评价不一致。因此我们需要找到一种评价标 准,使主观和客观相一致。 多学科研究的综合 数据库和计算机视觉研究领域都提到“图像数据库”这一词,然而在许多图像 查询系统中,这一图像数据库并非真正意义上的数据库,它们可能仅仅是在一个 大的文件中包含了许多图片,根本就没有涉及数据模型和索引技术。一个成功是 图像数据库系统是多学科交叉研究的结果,它应该包括数据管理、计算机视觉和 信息检索等多方面内容。虽然传统检索系统是基于文本的文档检索,但是其中的 检索模型和一些技术还是可以被图像检索系统所利用的。所以对图像检索系统的 研究必须在多领域展开,这样才可能取得令人满意的结果。 人对图像内容的理解 人是图像检索的最终用户,因此研究人对图像的感知原理是非常必要的,这和 前面提到的人机交互和视觉特征是密切相关的。这一问题现在得到越来越多的关 注,许多研究集中在人是如何理解图像内容的和怎样在图像检索系统中利用这一 知识。最早进行这方面研究的是m i t 和n e c 以及u i u c 的研究人员,他们也是最 早在系统中引入反馈方式的人。正是由于意识到对人的感知原理研究的困难性和 所取得的有限成果,所以很自然地他们在的系统中引入人的反馈信息,以使主观 理解和客观结果一致。 综合的多特征检索技术 图像具有多种不同的特征,对于同一种特征有不同的表示方法。如何有机的 组织这些多种特征,使应用能够调用合适的特征和特征表示来支持查询,并按照 用户的查询要求合并各种特征的检索结果,是一个值得研究的问题。综合意味着 采纳其他学科领域的成果,如传统的基于文本的信息检索技术、知识发现、人工 智能等领域中的方法基于内容的检索系统要充分利用文本、关键字和其他客观属 性。基于内容的检索系统并不排斥这些常规的检索途径,相反,要充分利用现有 第9 页 国防科学技术大学研究生院硕士学位论文 的文本检索功能并集成到基于内容的检索系统中,以向用户提供完备的检索能力。 高层概念和低层特征的关联 人们习惯于在日常生活中使用高层概念,但是当前计算机视觉技术能够自动 抽取的图像特征大都为低层特征。在特定的某些应用中,如人脸识别和指纹识别, 有可能将低层特征和高层概念( 人脸或指纹) 进行关联。 在一般的应用中,低层特征和高层概念不存在直接的关联,需要离线或在线 处理来减小这种语义上的差距。可以通过使用有师学习、无师学习或者两者的组 合来进行离线处理,神经网络、遗传算法和聚类算法都是此类学习工具。需要一 个有效的且友好的智能查询界面来进行在线处理,能够使得用户很容易的向计算 机提供对检索结果的性能评价,检索反馈技术是一个很好的在线处理工具。 高维索引技术 很多检索算法的试验数据仅仅几百个或上千个,虽然采用顺序搜索,但感觉 不出检索的响应时间。而对于大型图像库,则肯定需要建立索引。因为内容特征, 尤其是在集成的检索中,特征矢量高达1 0 2 量级,大大多于常规数据库的检索能力, 因此需要研究新的索引结构和算法以支持快速检索。目前,一般采用先减少维数, 然后再用适当的多维索引结构的方法。虽然过去已经取得了一些进展,例如k d 树 和r 乖树以及改进的索引树结构,但仍然需要研究和探索有效的高维索引方法。在 相似度的计算中,可以采用欧式和其他距离公式,甚至采用非距离的度量( 例如直 方图求交) ,在这种情况下,聚类和神经网络方法适于解决这类问题。 性能评价准则 需要一套能够平衡表达各种场景和事物的标准测试数据来评价检索的效率和 效果,就像在图像处理领域中,大家都用l e n a 图像作为实验图像一样。当然,这 是一项更复杂的工作,要召集领域专家收集大量有代表意义的图像数据,以便能 够测试各种算法的效率。在此基础上,定义标准的性能评价准则,如检索精度、 回召率、查准率、响应时间等。这样就可以利用标准的检索性能评价准则来全面 检验算法的性能。 内容描述标准 m p e g 一7 是正在制定的多媒体内容标准,其目标就是制定一组标准的描述子及 其描述模式( 定义描述子的结构和相互关系) ,内容描述与媒体内容结合,使用户能 第1 0 页 国防科学技术大学研究生院硕士学位论文 够快速准确的进行检索。m p e g 7 还制定标准的描述定义语言。这种自描述模式独 立于平台、厂商和任何应用,方便多媒体内容的分布处理,同时有利于内容的交 换和重用。在丰富而且标准的内容描述模式的支持下,应用将可以支持用户化多 视图。由此可见,内容的标准化将极大的促进基于内容检索的广泛应用,同时也 有利于其他多媒体应用。m p e g - 7 的范围不包括特征提取和检索引擎,目的是留有 竞争的余地。因此,在特征提取及其查询接口、检索引擎、索引方面可以进一步 深入研究。 用户查询接口 涉及到用户对内容的感知表达、交互方式的设计、用户如何形成并提交查询 方面。现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性,人在 系统中是主动的除了提供示例和描绘查询基本接口之外,用户的查询接口应提供 丰富的交互能力,使用户在主动的交互过程中表达对媒体语义的感知,调整查询 参数及其组合,最终获得满意的查询结果。用户的查询接口应该是直观易用的, 底层的特征选择对用户是透明的。这里涉及到如何把用户的查询表达转换为可以 执行检索的特征矢量,如何从交互过程中获取用户的内容感知,以便选择合适的 检索特征等问题。 从前面的内容可以看出,许多图像检索系统都把重点放在基于颜色或者纹理的 方法上。但是对于某些图像来说,纹理和颜色信息不够丰富,如一些商标图像等, 这时基于颜色和纹理的方法就无法满足检索需要了,而必须从图像的形状着手。 另外,由于人们对图像内目标事物的理解主要是基于形状的,基于形状的图像检 索技术有很强的实用性,所以本文从形状特征着手,分析并实现了两种基于形状 的图像检索算法。 1 3 本文的主要工作 本文主要进行了以下三个方面的工作: ( 1 )改进了基于边缘方向直方图的图像特征提取方法。 ( 2 )提出了一种新的基于傅立叶描绘子的图像特征提取方法。 ( 3 )设计并实现了一个基于形状的图像检索原型系统。 由用户提供一张示例图片,通过例程将其特征提取出来,再到预先建立好的一 第1 1 页 国防科学技术大学研究生院硕士学位论文 个图像数据库中与每一张图片进行相似度的计算,得到检索的结果,由人机交互 界面反馈给用户。其中主要是考虑了两种提取形状特征的方法,可以分别采用每 一种方法,也可以两种方法结合使用。 1 4 本文内容与组织形式 本文的研究目的是希望能够建立一个符合上述要求的基于形状的图像检索系 统,这样就必须要解决一系列的关键问题,如形状的自动提取,形状的相似性度 量,数据库的建立和检索等。在这一过程中,通过学习来掌握相关的专业基础知 识。 本文共分为四章,下面对各章节内容概述如下: 第一章主要涉及四方面的内容。论述了课题研究的背景与意义,国内外研 究现状及发展趋势,论文的主要工作以及对论文内容与组织形式的说明。 第二章主要论述了基于形状检索的基本概念及基础理论。 第三章详细阐述了两种基于边界的图像特征提取方法的原理,并通过原型 系统进行了简单的实验,分析了结果。 第四章为原型系统设计与实现,主要从系统实现及基本功能两方面加以阐 述。 第1 2 页 国防科学技术大学研究生院硕士学位论文 第二章基于形状的图像检索 2 1 基于内容的图像检索 2 1 1基于内容的图像检索概述 基于内容的图像检索( c o n t e n t b a s e di m a g er e t r i e v a l ,简写为c b i r ) 是一门 2 0 世纪9 0 年代兴起的新技术,因其直观( 示例描述) 、高效( 相似性匹配检索) 、通 用( 与领域知识无关) 等特点,近年来在国际国内均是一个热门研究课题。 首先,它是一门有关信息检索的新技术,有别于传统的信息检索技术。传统 的信息检索是基于文本( 或关键词) 的信息检索,即输入文本,检索出与之相匹配 的文本对象。哪怕检索对象本身不是文本,而是其它类媒体( 如声音、图形、图像、 视频等) ,往往也是先用文本对这类媒体对象进行标识或索引,建立起与这类媒体 对象之间的逻辑联系,无非是一种“以文找文”检索方式的拓展,本质上仍是基 于文本的检索。此时,图像检索系统内的图像用关键词标识,检索线索是与标识 相匹配的关键词,即输入为关键词,输出为图像( 所谓“以文找图”) 。目前,在 i n t e r n e t 上,多数图像搜索引擎( 网站) ,如g o o g l e , y a h o o ,a l t a v i s t a , t n f o s e e k ,l y c o s , s c o u r ,w e b s e e k ,搜狐等,普遍采用此种方式。而基于内 容的图像检索是图像特征相似性匹配检索,系统内的图像标识是图像特征描述, 检索线索是一目了然的图像示例( 或示例特征描述) ,输入为图像示例,输出为所 有与示例特征相同或相近的图像( 所谓“以图找图 ) 按相似程度排列,供用户选 择,把一般用户难以完成的图像特征描述、提取与识别等难题交由系统去解决, 避免了“似是而非 的关键词匹配输入及由此产生的“答非所问的检索结果。 其次,它是一门有关图像特征相似性匹配的新技术,有别于图像处理、模式 识别、计算机视觉、图像理解等专门的图像技术,而以这些技术作为其重要的研 究基础。它需要深入研究图像特征描述方法、特征提取与索引方法,以及相似性 度量与快速检索算法等问题,便于以图像中包含的各类典型特征( 即图像内容本身) 为客观检索对象,避免以文本为主观标识所造成的图像内容理解方面的歧义。基 于内容的图像检索技术中所用到的图像特征有两类,一类为底层特征或物理特征, 如颜色、纹理、形状等,另一类为高层特征或语义特征,即图像内容的语义描述 第1 3 页 国防科学技术大学研究生院硕士学位论文 以及各类物理特征之间的逻辑联系。在目前的研究水平上,基于内容的图像检索 技术主要针对通用图像的检索,它以通用图像底层特征的相似性匹配检索为主, 辅助以图像高层特征。这也体现出通用图像检索与专用图像识别之间的联系与区 别。图像高层特征的描述需要借助专门领域的知识,涉及到专用图像的精确识别, 如指纹识别、面貌识别、虹膜识别、步态识别等,这类识别己构成了当今极其活 跃的一类图像识别技术分支生物特征识别技术分支。 总之,基于内容的图像检索属于多媒体的集成综合技术,不仅要确定是否能 够找到,而且还要确定相应的输入输出方法、存储方法、媒体间的组织方法等。 它利用认知科学、用户模型、图像处理、模式识别、知识处理、计算机图形学、 数据库管理以及信息检索等方法,建立新的媒体数据表示方法和数据模型,采用 有效和可靠的查询处理算法,使得用户可以在智能化查询接口的辅助下,从多媒 体数据库( 或大型分布数据库) 中,以用户可以接受的响应时间、尽量以与领域无 关( 在需要时也可以是与领域有关) 的方式检索到所要求的数据。它可以不需要去 理解媒体中的对象,更关注的是基于内容的快速查找与发现。 可以预见,随着多媒体信息处理、数据库及计算机互联网等技术相互融合与 发展,特别是随着基于内容检索技术在i n t e r n e t 中应用不断深入,远程教育系统 开发需求的不断扩大,在不远的将来,在i n t e r n e t 环境下,基于内容的图像检索 系统的设计和应用,是一个颇具生命力的研究方向,针对这一方向深入研究,将 具有重大的理论价值和广泛的应用前景,其成果对我国此类信息产业的形成与发 展将起到积极的促进作用。 2 1 2c b i r 的体系结构 图2 1 表示了基于内容图像检索的体系结构。在图像入库阶段,首先对图像 进行特征提取,然后由相应程序负责将所得到的各特征值存入图像特征库中;图 像数据库和图像特征库通过特定的标识相关联。系统的核心是图像特征数据库。 图像特征既可以从图像本身提取得到,又可以通过与用户交互获得,并用于计算 图像之间的相似度。在图像检索阶段,用户可以通过预先设定各特征值进行检索, 也可以先输入检索样图,通过程序自动提取样图对应的图像特征进行检索;无论 采取何种方式,其结果总是得到一个关于图像描述的特征向量,系统将这个特征 第1 4 页 国防科学技术大学研究生院硕士学位论文 向量和图像特征库中存储的各种特征向量相比较( 根据某一相似性度量计算两个 特征向量之间的距离) ,将与样图间距离小的特征向量所对应的图像返回给用户。 为了使检索的结果更加符合检索者的要求,c b i r 系统一般还包括检索反馈部分。 用户和系统之间的关系是双向的:用户可以向系统提出查询要求,系统根据查询 要求返回查询结果,用户还通过对查询结果的相关反馈来改进查询结果。 蠢诩梭鬃 用户 丽广 2 1 3c b i r 的特征提取 图2 1c b i r 的体系结构 图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲,图 像的特征包括基于文本的特征( 如关键字、注释等) 和视觉特征( 如色彩、纹理、形 状、对象表面等) 两类。由于基于文本的图像特征提取在数据库系统和信息检索等 领域中已有深入研究,这里主要研究图像视觉特征的提取和表达。在图像检索中, 通常所说的视觉特征是指用于描述所有图像共有的特征,与图像的具体类型无关,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 音像市场细分策略优化路径分析报告
- 打击乐器制作工质量管控考核试卷及答案
- 碳酸锂转化工技术考核试卷及答案
- 煤直接液化操作工内部技能考核试卷及答案
- 氯乙烯装置操作工专业技能考核试卷及答案
- 液体二氧化碳生产工技能比武考核试卷及答案
- 栓剂工三级安全教育(车间级)考核试卷及答案
- 压力管道施工技术规范及操作流程
- 金融行业合规管理与风险控制方案
- 小学作文教学课程设计与案例
- (标准)舞蹈班转让合同协议书
- 2025年学宪法、讲宪法知识竞赛题库及答案
- 高中英语新课标3000词汇表(新高考)
- 【MOOC】《中国马克思主义与当代》(北京科技大学)中国大学MOOC慕课答案
- 蓝花花钢琴谱
- 印度白内障小切口手术学习笔记
- 卢春房副部长讲话《树立质量意识,强化风险控制,持续纵深推进铁
- 成型周期公式及计算
- 第11章分析化学中的分离与富集方法
- 管桩垂直度检测报告
- FMEA培训资料(PPT 57页)
评论
0/150
提交评论