(计算机应用技术专业论文)基于半监督学习的图像检索技术研究.pdf_第1页
(计算机应用技术专业论文)基于半监督学习的图像检索技术研究.pdf_第2页
(计算机应用技术专业论文)基于半监督学习的图像检索技术研究.pdf_第3页
(计算机应用技术专业论文)基于半监督学习的图像检索技术研究.pdf_第4页
(计算机应用技术专业论文)基于半监督学习的图像检索技术研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)基于半监督学习的图像检索技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学 硕士学位论文摘要 学科、专业:王堂让篡扭廑旦撞丕 研究方向:让篡扭在通信虫的廑旦 作 者:韭筮 指导教师:王鱼竖 题 目:基于半监督学习的图像检索技术研究 删 y 1 7 5 考。彳苓l 苦 英文题目:r e s e a r c ho fi m a g er e t r i e v a lv i as e m i s u p e r v i s e dl e a m i n g 主题词:图像检索;半监督学习;相关图像;各向异性相似性估计;双曲 线正切函数;模糊隶属度 k e y w o r d s :i m a g er e t r i e v a l ;s e m i - s u p e r v i s e dl e a r n i n g :r e l e v a n ti m a g e ; a n i s o t r o p i cs i m i l a r i t ym e a s u r e m e n t ;d o u b l eh y p e r b o l i c1 h g e n t f u n c t i o n ; f u z z ym e m b e r s h i pv - a l u e 南京邮电大学硕士研究生学位论文 摘要 摘要 近年来,随着计算机技术、通信技术、多媒体技术以及网络技术的迅速发展,全世界 的数字图像资源正以惊人的速度增长。这些图像信息来源于卫星系统、监测系统、科学实 验和生物医学等领域,包含了大量有用的信息。然而,由于这些图像是无序地发布在世界 各地,图像中包含的有效信息很有可能无法被有效地访问和利用。因此,如何有效地组织、 管理和利用这些海量的图像资源,以及如何快速、高效地从大规模图像数据库中检索出满 足用户需求的图像,是许多应用领域所面临的重要问题。 传统的基于文本的图像检索技术,因存在人工标注工作量过大以及关键字标注带来的 主观性与不精确性等问题,已不能满足当前海量图像资源的检索需求。为克服传统图像检 索技术的缺陷,需要一种一般性地、全面地和客观地提取图像内容的技术。在这样的背景 下,基于内容的图像检索( c o m e n t b a s e di m a g er e t r i e v a l ,c b i r ) 技术应运而生。其主要 思想是在融合图像理解、模式识别、计算机视觉、机器学习等诸多相关技术的基础上,根 据图像内容所包含的色彩、纹理、形状等信息,提取出描述图像信息的特征向量,建立图 像的特征库;然后计算查询图像与图像特征库中特征向量间的相似度,返回查询结果。在 当前研究成果的基础上,如何更加有效地描述查询图像与特征库中图像特征向量间的相似 度、提高图像检索的准确率等都是值得进一步研究的问题。 本文在回顾了基于内容的图像检索研究现状、发展趋势以及关键技术的基础上,提出 了一种基于半监督学习( s e m i s u p e r v i s e dl e a 力1 i n g ) 的图像检索模型。为了解决检索大型 图像数据库时所面临的高计算代价问题,本文提出的半监督检索模型首先引入一种基于各 向异性相似性估计( a 【l i s o t r o p i cs i m i l 撕t ) rm e a s u r e m e m ) 的预处理机制。该预处理机制在 实现滤除与输入查询图像不相关图像的同时保留一定比例的数据库相关图像。然后,半监 督检索模型运用双曲线正切函数( d o u b l eh y p e r b 0 1 i c g e n tf u i l c t i o n ) 表示数据库相关图 像与查询图像之间的模糊隶属度。该隶属度数值同时也可视为图像检索的初步结果。最后, 该模型运用基于随机行程与重新开始( r 觚d o m 、a l ka l l dr e s t 甜) 的半监督学习方法细化检 索的初始结果,以得到高精度的检索结果。 在通用图像数据库c o r e l 5 0 0 0 平台上对本文提出的半监督学习检索算法进行了测试, 并与基于支持向量机( s u p p o r tv e c t o rm a c h i n e ) 及基于流行排序( m a j l i f o l d 凡m k i n g ) 的算 法进行了比较。实验结果表明,本文提出的半监督学习检索算法在各项性能指标( 加权查 南京邮电大学硕士研究生学位论文 摘要 一 准率的平均值,排名的平均值,各类查准率的平均值,及各类查全率的平均值) 方面均体 现出较好的性能。 关键词:图像检索;半监督学习;相关图像;各向异性相似性估计;双曲线正切函数;模 糊隶属度 i l 南京邮电大学硕士研究生学位论文absn认ct - _ i _ _ - _ _ - _ _ _ - - - - - - - - _ _ l _ _ - _ i _ - - _ - 一_ 一一 a b s t r a c t w i t ht h e 聊) i dd e v e l o p m e n to fc o m p u t e r t e c l l l l i q u e ,c o m m 1 i c a t i o nt e c l l l l i q u e ,m u l t i m e d i a t e c l l i l i q u ea n dn e t w o r kt e c l 1 i q u e ,t h e r ei sm o r ea n dm o r er e s o u r c eo fd i g i t a li m a g e s t h e s e u s e 向li m a g e sa r eg e n e r a t e d 舶ms a t e l l i t es y s t e m s ,m o n i t o r i n gs y s t e m s ,s c i e n t i f i ce x p e r i m e m s , a n db i o m e d i c i n e h o w e v e r ,t h e s ei m a g e sc a i ln o tb e u t i l i z e d e 髓c t i v e l yi 1 1m a t 位ya r e d i s o r d e d yd i s t r i b u t e da l lo v e rt 1 1 e 、o r l d t h e r e f o r e ,h o wt oo 略a n i z ea n du t i l i z et h e s em a s s i v e i m a g e sa l l dh o wt 0r 印i d l ya i l de f i e c t i v e l ys e a r c hr e q u i r e di m a g e s 仔o mi m a g ed 她a b a s eh a s b e c o m ea i le a n l e s tp r o b l e m t 硼i t i o n a li m a g er e t r i e v a lt e c l l i q u e sb a s e do nt e x td e s c r i p t i o na i l dk e yw o r d sh a v e m a i l y l i m i t a t i o n s ,s u c ha so v e r l o a d ,i n a c c u m c y 柚ds u b j e c t i v i 劬a i l dm e yc 趾n o ts a t i s 黟t h es e m a n t i c d e m a n d s t o o v e r c o m em e s el i m i t a t i o n so f 舰d i t i o 枷 i i i l a g e r e t r i e v a l t e c l l l l o l o g i e s , a c o r n p r e h e n s i v e ,u 1 1 i v e r s a la n do b j e c t i v et e c l u l o l o g yi su t i l i z e dt 0e x t r a c tt h ec o n t e n to fi m a g e s t h e r e f o r e ,t h et e c l l i l o l o g yo fc o n t e n t - b a s e di m a g er e t r i e v a l ( c b i i ue m e 唱e sa st l l et i m e r e q u i r e sa i l di tc o n t a i n si m a g eu i l d e r s t a n d i n g ,p 甜e mr e c o g n i t i o n ,c o m p u t e rv i s i o n ,m a c h i n e l e 锄i n g ,a i l dm a n yo t h e rr e l a t e dt e c l l i l o l o g i e s t h em a i ni d e ao fc b i ri st oe x 仃a c tf e a :t u r ev e c t o r t oc o n s t m c ta l i b r a 巧o ff e a t l j r ev e c t o rw i t hr e s p e c tt ot h ei n f o n n a t i o no fc o l o r ,t e x t l l r ea n ds h a p e , t l l e nc a l c u la t i et h es i m i l 撕t i e sb e 铆e e nq u e 巧i m a g e sa 1 1 dd a t a b a s ei m a g e sa n dr e t u n lr e t r i e v a l r e s u l t s b a s e do nc u r r e n tr e s e a r c hr e s u l t s ,t l l ei s s u e so fh o wt oe x t r a c ti m a g ec o n t e ma n di m p r o v e t h ea c c u r a c yo fi m a g er e t r i e v a la r eb e c o m i n gm e p r o b l e mt h a td e s e r v e sm o r es t l j d y b a s e do nm er e v i e 诵n go fc 眦陀ms t a t u so fc o n t e m - b a s e di m a g er e t r i e v a l ,、ep r o p o s ea n o v e ls c h e m eb a s e do nt h es e m i s u p e r v i s e dl e a n l i n g t h ep r o p o s e ds c h e m ec o m a i n s e e c o r n p o n e n t s f i r s t ,ap r e - p r o c e s s i n gb a s e do nm ea i l i s o t r o p i cs i m i l 撕锣m e a s u r e m e n ti su t i l i z e d t 0t a c k l et h ep r o b l e mo fl a r g ec o m p u t a t i o n a lc o s ti r o l v e di na 1 a 唱ei m a g ed a t a b a s e t h e n ,t h e s i m i l a r i t yb e 觚e e nt h ei n p u tq u e ui m a g ea n dt l l er e m a i l l i n gr e l e v a n ti m a g e sa r em e a s u r e dt 0 o b t a i ni i l i t i a lr e l e v a n c es c o r ev i ad o u b l eh y p e r b o l i c 诳g e m 矗m c t i o n f i n a l l y as e 血- s u p e i s e d 1 e a m i n ga l g o r i t l l i l l ,r a n d o m 、v a l ka u l dr e s t a r t ,i su t i l i z e dt 0r e f i n ec a n d i d a t er a i l k i n gt 0i m p r o v e t h er e t r i e v a la c c u r a c y t bt e s tt l l ep r o p o s e dm e m o da 1 1 dc o m p a r ei tw i t ho t h e rm e t h o d sd e s c r i b e di nt l l el i t e r a t u r e , i i l 南京邮电大学硕士研究生学位论文 a b s t r a c t 一一 s u c ha ss u p p o r tv e c t o rm a c h i n ea n dm a m f o l dr a n “n g ,t l l e5 0 0 0c o r e ld a t a s e ti s u s e da st h e 黟o u l l dt 兀j t hd a t a b a s e e x p e r i m e n tr e s u l t sd e m o n s t r a c em a to u rp r o p o s e dm e m o da c l l i e v e st h e b e s tp e 墒n i l a l l c et h a no t h e r 铆om e t h o d si na l lo ft h ef o u rp e 渤咖a n c em e a s u r e s ,s u c ha st h e m e a no fw e i g h t e dp r e c i s i o n ,m em e a l lo f a v e r a g er a n k ,a v e r a g ep r e c i s i o n 、访t h i ne a c hc a t e g o 吼 a 1 1 da v e r a g er e c a l l k e y w o r d s :i m a g er e t r i e v a l ;s e m i 。s u p e n ,i s e dl e a n l i n g :r e l e v a i l ti m a g e ;a l l i s o t r o p i cs i m i l a r i t ) r m e a s u r e m e n t ;d o u b l eh y p e r b 0 1 i ct a n g e n t 缸l c t i o n ; 吻m e m b e r s h i pv a l u e i v 南京邮电大学硕士研究生学位论文 目录 目录 摘 要i a b s t r a c t 。i i i 目勇之v 第一章绪论1 1 1 引言1 1 2 基于内容的图像检索的应用1 1 3 基于内容的图像检索技术面临的问题2 1 4 基于内容的图像检索系统的研究现状3 1 5 本文的工作及章节安排5 第二章基于内容的图像检索的关键技术7 2 1 图像数据库结构8 2 2 图像视觉特征提取9 2 2 1 颜色特征1o 2 2 。2 纹理特征1 4 2 2 3 形状特征19 2 3 相似性度量2 1 2 3 1 距离度量2 1 2 3 2 非距离度量2 3 2 4 图像检索效果的评价准则2 4 2 5 本章小结2 7 第三章基于半监督学习的图像检索模型研究2 8 3 1 问题的产生和背景2 8 3 2 预处理机制2 9 3 3 相关值计算3 0 3 4 相关值细化3 2 3 5 特征选取与性能评价3 3 3 6 本章小结3 5 v 南京邮电大学硕士研究生学位论文目录 第四章基于内容的图像检索系统的实现3 6 4 1 实验系统的设计原则3 6 4 2 实验系统的开发环境3 6 4 3 实验系统的设计3 7 4 3 1 系统框架3 7 4 3 2 系统功能3 8 4 4 实验结果分析4 1 4 5 本章小结4 4 第五章总结与展望4 5 5 1 总结4 5 5 2 展望4 6 致谢4 7 参考文献4 8 v i 南京邮电大学硕士研究生学位论文 第一章绪论 1 1 引言 第一章绪论 随着计算机技术、网络通信技术及互联网技术的迅速发展,人们越来越多地接触到包 括声音、图形、图像、视频和动画等在内的各种各样的数字信息。作为一种内容丰富、表 现直观的媒体信息,图像日益受到人们的青睐,图像数据库的规模也以爆炸的速度增长。 随着信息应用领域的深入和扩展,必然要对庞大的图像数据库数据进行有效的管理,不仅 需要对图像数据进行分析处理,还要进行随时随地的查询。然而传统的基于标注的图像检 索方法已经不能满足现今的要求,所以研究开发由计算机自动执行的多媒体信息内容特征 提取和检索技术成为当前急需解决的课题之一。 由于目前图像理解和计算机视觉发展的水平所限,使得在人对图像的理解与计算机对 图像的描述之间存在较大差异;而且由于图像的视觉内容丰富多彩,不同的人对于同一幅 图像的理解和描述也存在差距,甚至大相径庭。诸如此类问题,都是图像检索技术需要考 虑和解决的难题。 基于内容的图像检索技术【l 】涉及了多个学科和领域,不仅需要利用图像处理、模式识 别、计算机视觉等学科的相关理论,还要从认知科学、用户模型、知识库系统、计算机图 形学、数据库管理系统,以及信息检索等领域中寻求并获得启示,并不断引入新的媒体数 据表示和数据模型,产生出有效、可靠的查询处理算法和可视化查询接口,以及与领域无 关的检索技术和系统体系结构。 目前,基于内容的图像检索技术已经成为图像工程领域的一个研究热点【l 】,备受关注。 1 2 基于内容的图像检索的应用 基于内容的图像检索是一项实用的多媒体技术,有着广阔的应用前景,涉及到社会和 生活的许多方面,例如:数字图书馆、搜索引擎、医学图像检索、卫星遥感图像、地理信 息系统、罪犯和安全预防、商标版权等等。其中,有些应用领域对图像检索的效率要求很 高。致力提高图像检索的性能,将对这些行业的发展起到推波助澜的作用。目前基于内容 的图像检索主要应用于以下几个方面【2 1 。 南京邮电大学硕士研究生学位论文 第一章绪论 1 知识产权保护 科技的飞速发展使得人们越来越关注知识产权的保护问题。许多知识产权的载体都是 图像,最明显的例子是商标。商标知识产权体现在专用的文字描述和专用的图形标记两个 方面。为防止侵权,需通过严格的商标审查程序来确认新申请的候选商标是否与已注册商 标的图形存在过分相似之处。毫无疑问,利用基于内容的图像检索技术实现商标的专用图 形标记的自动审查,就显得具有非常重大的现实意义。 2 网上搜索 网络正逐渐渗透到人们的日常生活中,除了文本资源外,网上还存在非常丰富的图像 资源。新一代网上搜索引擎,应该具有协助用户从海量而且无序的网上图像资源中寻找符 合要求的图像的能力。 3 医学和遥感图像的分析和处理1 3 - 5 l 尽管传统的图像处理领域早就开始了有关医学图像和遥感图像方面的研究,但目前它 们仍然是一个研究的重点和难点。无论对于民用还是军事来说,分析和处理医学图像和遥 感图像都具有非常重大的现实意义,特别当图像规模增加时,准确有效的图像分析手段以 及快速的图像识别和检索技术将凸现其重要性。 4 犯罪与安全预防1 6 j 当将图像的内容限制在特定领域时,基于内容的图像检索技术将找到更为具体的应 用。例如,安全部门可以将人的主要特征( 如指纹和脸部) 的图像存储在数据库中,通过 指纹识别和人脸识别就有可能从大量的指纹库或者人脸库中自动识别出特定的目标。毫无 疑问,这具有重大的社会价值。互联网的飞速发展也带来另外一个负面的影响,即网上不 健康内容的大量增加,特别是一些低级趣味的图片。在某些情况下可能需要对这些信息进 行过滤。基于内容的图像检索技术完全可以应用到类似的具有图像过滤需求的应用中。 1 3 基于内容的图像检索技术面临的问题 目前基于内容的图像检索技术主要集中在颜色、纹理、形状等视觉特征提取的基础上, 但由于图像特征描述、提取及相似性度量的复杂性,其理论和技术仍然相当不成熟不完善, 理论上有许多问题亟待解决,技术上也有许多难关需要攻克。存在的主要问题概括起来表 2 南京邮电大学硕士研究生学位论文 第一章绪论 现在以下几个方面。 1 感知特征的提取 图像特征提取是基于内容的图像检索技术的关键,提取的特征应具有直观意义,区分 能力强,计算相对简单等特点。以往的研究大多从颜色、纹理、形状等特征的模式匹配角 度处理这个问题,但是从用户的角度来讲,相似性度量是一个非常主观化的评价准则。用 户对图像的感知涉及视觉、生理、心理等方面,仅仅用量化的距离标准来测试两幅图像的 相似性往往不能取得令人满意的结果,有时得出的甚至是令人意想不到的结果,如颜色直 方图相近而图像内容各异的现象。因此,目前的研究方向是如何提取有效表述人对图像感 知的特征,使得这些底层视觉特征与图像含义的关联更紧密。 2 相似度的评价 如何制定图像特征的相似性度量中定性与定量的标准,目前仍无很好的解决办法。在 融合图像多种特征的检索中,如何在不同的特征度量空间中,找到统一的归一化衡量方法, 并且能尽量准确地符合人类对相似图像内容的认知是一件很难的事情,仍需要在大量的实 验研究中进行探索。 3 检索效果的评判 如何评价和衡量一个检索系统的优劣还没有一个统一的标准。目前基于内容检索结果 的评价方法采用的是信息检索中的查全率和查准率方法【7 1 ,这种办法并不能完全正确的评 价一个检索系统,主要原因在于不同的人对图像内容认知上的差异,即认知上的主观差异 性使得很难定义一个客观的标准来计算查全率和查准率。 1 4 基于内容的图像检索系统的研究现状 目前,基于内容的图像检索技术已成为解决图像检索问题的研究热点,各大高校、研 究机构和公司也陆续推出了它们的商业系统或原型系统。下面我们将介绍几个具有代表性 的图像检索系统。 q b i c ( q u e 巧b yi m a g ec o n t e n t ,基于内容的查询) 系统【8 1 是i b ma l m a d e n 研究中心开 发的第一个商业化的基于内容的图像检索系统,它的系统框架和所用技术对后来的图像检 索系统具有深远的影响。它的系统结构包括图像入库、特征计算、查询阶段三部分组成, 支持基于例子图像、手绘略图、指定特征( 如颜色、纹理、形状等) 等查询方式。其中, 3 南京邮电大学硕士研究生学位论文 第一章绪论 颜色特征采用了平均色和颜色直方图两种方法;纹理特征采用了纹理的粗糙度、对比度和 方向性信息;形状特征为面积、圆形度、离心率、主轴向和一组代数矩不变量:实现了基 于文本的关键字查询与基于内容的相似性查询结合的查询。q b i c 的基于内容检索的技术 已经制成独立产品,如i b m 数字图书馆、超媒体管理器、d b 2 数据库的图像扩展等工具 软件。 v i r ( v i s u a li n f o 锄a t i o nr e t r i e v a l ,视觉信息检索) 【9 】是r a g e 公司开发的一种基于内 容的图像搜索引擎。与q b i c 相似,r a g e 也支持基于颜色、纹理、布局和结构的查询。 但比q b i c 更进一步的是,r a g e 同时也支持由上述四个原子查询的任意组合。r a g e 技 术的核心是r a g ee n g i n e 以及其在图像对象层上的操作,其中r a g ee n g i n e 包含三方面 的功能:图像分析、图像比较和图像管理。r a g e 将查询引擎视为一个插件,可实现通用 的图像查询,也对其进行扩展并应用到特定的领域。 r e t r i e v a l w a r e l l u j 是由e x c a l i b u r 公司开发的基于内容的图像检索工具。它的重点在于将 神经网络用于图像检索中,其搜索引擎利用颜色、形状、纹理、结构、亮度、纵横比等作 为查询特征,它也支持这些特征的组合,允许用户调整每种特征的权重。 n e t r a 【l i j 是美国加利福尼亚圣芭芭拉大学亚历山大数字图书馆项目组开发的一个图像 检索原型系统。它是基于区域的图像检索方法,其主要思想是通过图像分割技术提取出图 像中的物体,然后综合各个区域的局部特征得到图像的特征描述,最后利用给定的相似性 函数检索相关图像。它主要使用的技术是基于g 批r 滤波器的纹理分析,基于神经网络的 图像词典结构,基于边缘增长的区域分割技术。 m a r s ( m u l t i m e d i a a n a l y s i sa n dr e t r i e v a ls y s t e m ,多媒体分析与检索系统) 【1 2 】是美国 伊利诺州大学开发的。与其它系统在研究范围和技术上都有不同,m a r s 是计算机视觉、 数据库管理和信息检索多个领域交叉的结果。m a r s 主要目的不在于找到单一的最佳特征 表达,而是如何把不同的视觉特征组织成为一个可以动态适应于不同应用和不同用户的检 索机制。m a r s 在图像检索中形式化地提出了相关反馈结构,并在检索中不同层次上结合 了该技术,包括矢量优化,自动匹配工具选择和自动特征适应。 在国内,基于内容的图像检索系统主要有中国科学院计算技术研究所智能信息处理重 点实验室开发的基于内容的图像检索演示系统( m i r e s ) 。m i r e s 系统是一个综合利用高层语 义特征和底层可视特征的图像检索系统。它通过机器学习的办法提取图像语义类别来表示 图像高层内容,底层特征则集成图像的颜色、纹理、边缘特征。该系统还实现了基于核函 数的支持向量机的相关反馈算法。它可通过两种方式进行图像检索:第一种为图像浏览方 4 南京邮电大学硕士研究生学位论文 第一章绪论 式,通过该方式用户可浏览图像数据库中各个类别的图像,并根据选定的感兴趣图像从图 像库中检索出相似的图像;第二种为图像检索方式,用户通过该方式可直接从列出的典型 图像中选择感兴趣的图像进行检索。 除此之外还有许多优秀的原型系统,如美国麻省理工学院开发的p h o t o b o o k 系统【1 3 】, 美国哥伦比亚大学的s u a l s e e k 系统【1 4 】,美国加利福尼亚大学伯克利分校开发的c h a b o t 系统等。国内的一些研究单位,如清华大学、上海交通大学、复旦大学等,也进行了研究 并开发了一些实验系统。此外,m i c r o s o r 公司的手机拍照呼叫互联网图像检索,g o o g l e 公司的语音呼叫互联网图像检索等都为图像检索提供了新的前景。 1 5 本文的工作及章节安排 本文主要研究图像处理与模式识别领域的一个重要分支图像检索技术,在研究相 关理论和分析现有算法的基础上,提出了新的算法,主要包括: ( 1 ) 提出了一种基于各向异性相似性估计( a n i s o t r o p i cs i m i l a r i t ym e a s u r e m e n t ) 的预处理机制,该预处理机制能够实现在滤除与输入查询图像不相关数据库图 像的同时保留一定比例的数据库相关图像,且进过分析可知该预处理机制不产 生新的计算花费,因而引入的该预处理机制可以有效地解决检索大型图像数据 库时所面临的高计算代价问题; ( 2 ) 提出采用双曲线正切函数( d o u b l eh y p e r b o l i ct a n g e n tf u n c t i o n ) 描述经预 处理后保留下来的数据库相关图像与输入查询图像之间的模糊隶属度,该双曲 线正切函数实现了按距离描述图像之间的相似性转化为采用模糊隶属度刻画 图像之间的相似性,从而使得图像间相似性的描述更加直观,且得到的隶属度 数值也可视为图像检索的初步结果; ( 3 ) 提出运用基于随机行程与重新开始( r a n d o mw a l ka n dr e s t a r t ) 算法的半监 督学习方法细化检索的初始结果,由于随机行程与重新开始算法同时考虑了数 据库图像与输入查询图像之间的相似性关系以及数据库图像间的相似性关系, 因而可以进一步提高检索的精度。 本文共包含七章,具体内容安排如下: 第一章介绍了基于内容的图像检索技术的应用和特点,由此提出基于内容的图像检 索的关键技术,确定了本文的研究主题,之后介绍了在这个领域内的相关研究工作。后 续章节基本上是按照上述的研究内容逐一展开的; 5 南京邮电大学硕士研究生学位论文 第一章绪论 第二章对基于内容的图像检索的关键技术进行了详细分析,重点集中在图像视觉特征 的描述和提取、图像的相似度模型以及性能评价三个关键技术方面; 第三章首先研究了图像检索系统设计过程的一个公共问题,然后提出了基于半监督学 习的图像检索模型; 第四章详细介绍了整个图像检索系统的设计和实现,并借助该实验系统对本文提出的 算法进行了测试,以及借助检索技术性能指标对几种方法的测试结果进行了分析; 第五章对论文的工作进行了总结,并展望了基于内容的图像检索的研究趋势。 6 南京邮电大学硕士研究生学位论文 第二章基于内容的图像检索的关键技术 第二章基于内容的图像检索的关键技术 随着计算机技术和互联网技术的飞速发展,海量图像信息的存储与传输已经成为可 能。而针对存储文本信息而开发的传统数据库,显然无法实现对这些海量信息进行有效的 组织、管理、检索,这是因为传统数据库没有能力对图像内容进行准确、有效的描述,更 无法对其进行可靠快捷的管理,从而使得大量有用信息淹没在数据库中,无法在需要时被 检索出来。此外,在传统数据库中,相似图像间的联系无法简单地用文字描述出来,这也 带来了组织管理上的问题。因此,如何将图像处理、计算机视觉与数据库技术相结合,建 立基于图像内容的无人参与或半人工方式的新一代图像数据库就成为迫切的需要。近年 来,基于内容的图像数据库检索技术成为国内外研究热点,也成为未来信息高速公路、数 字图书馆等重大项目的关键技术。 2 0 世纪7 0 年代,数据库专家开始研究如何对图像数据进行有效的管理,最先的方法 是基于文本的图像检索,即首先对图像用文本进行注释,并用基于文本的数据库管理系统 建立起注释和图像之间的关联,从而提供检索功能。但是基于文本的图像检索存在着三个 问题:一是当图像量非常大的时候,人工注释所需的工作量太大;二是文本注释带来了额 外的存储开销;三是图像注释的主观性和不精确性使得图像分类变得困难,从而导致检索 结果的不准确。随着9 0 年代初图像数据量的激增,采用基于文本的图像检索方法带来的 不便日渐显露。为了解决图像检索这个问题,研究者们提出了基于内容的图像检索方法。 所谓基于内容的图像检索,是指直接根据描述图像内容的各种特征进行相关图像的检 索。它根据用户提出的反映图像内容特征的查询要求,从图像数据库中查找到具有指定特 征的或含有特征内容的图像( 包括视频片断) 。与传统的基于关键词的检索方法相比,基 于内容的图像检索方法融合了图像处理、模式识别、计算机视觉、数据挖掘、数据库管理 等多种技术,其具有以下鲜明的特征。 ( 1 ) 直接对图像内容进行分析 基于内容的图像检索方式突破了以往基于关键词检索的局限,直接对图像内容进行分 析,抽取描述图像内容的信息,如颜色、形状、纹理等;并依据这些内容特征建立索引实 现检索大型图像数据库的功能。这里的特征提取和索引建立是由计算机自动实现,因而避 免了大工作量的人工描述,以及人工描述所产生的主观性和不精确性等诸多缺陷。 7 南京邮电大学硕士研究生学位论文 第二章基于内容的图像检索的关键技术 ( 2 ) 基于内容的检索是一不断求精的过程 由于对图像内容的描述是一种非精确描述,因此,基于内容的图像检索系统采用逐步 求精的相似性匹配方法来获得查询结果,即不断缩小检索的范围,直至达到检索的要求为 止,是一个不断求精的迭代过程。 ( 3 ) 实现快速、有效地检索大型数据库 实际的图像数据库不仅数据量巨大,而且种类繁多,因此要求基于内容的图像检索技 术与常规的信息检索技术一样,能够实现对大型数据库快速、有效的检索。 本章主要讨论基于内容的图像检索系统中的关键性技术问题。图2 1 是从系统设计角 度考虑的检索系统的一般框图,是面向系统设计人员的。 2 1 图像数据库结构 图2 1 基于内容的图像检索体系结构 作为传统数据库检索的拓展,基于内容的图像检索系统是根据图像的内容进行检索。 因此,同传统的关系数据库检索系统相比,基于内容的图像数据库检索系统有以下的主要 特点: ( 1 ) 在传统的数据库中,符号数据可以用基本数据类型精确地表示,因此相应的检 索匹配为精确匹配。由于图像数据是一段二进制数据流,因而对图像进行基于像素和像素 的精确匹配是不科学的。事实上,人对两个图像的相似性和不相似性的判断是根据图像中 甬京邮电大学硕士研究生学位论文 第二章基于内容的图像检索的关键技术 所包含的内容,因此内容的表达是近似的: ( 2 )图像数据的表达形式不是单一的,多种表达方式的并存是可能的,表达方法的 选择要依赖于特定的用户和特定的应用领域。随着识别技术的发展,还可能采用更新或更 好的表达方法; ( 3 ) 在传统的数据库中,符号数据本身就具有一定的语义信息,这是因为在符号数 据命名的过程中就赋予了特定的信息。而图像内容本身不包含语义信息,对图像的匹配主 要是对图像中的内容特征进行相似匹配; ( 4 ) 由于对内容表达的不精确,因此检索得到的结果很可能仍旧包含一些不相关的 图像。这种情况对基于内容的图像检索是允许的,但更重要的一点是在检索过程中不要将 那些相关的图像漏掉。 结合基于内容的图像检索系统本身的特点,以及考虑到特征表达、特征匹配、特征综 合和系统可扩展性等诸多因素,在参考文献 1 5 的多媒体对象模型的基础上建立图像数据 库模型 ,肘= ,m ( d ,f ,r ,s ,y ) ( 2 1 ) 其中,各个符号所代表的涵义如下:d 代表图像数据,比如类型( 例如j p e g ,b m p 格式) 、 尺寸等数据;f = 历夕是与图像数据相关联的特征集合,比如颜色、纹理和形状特征等;r = 倒 是给定特征z 的表示的集合:s = 矗是相似性度量方法( 如余弦法、欧几里德法、直方图 相交) 的集合,对于一个给定特征z ,由 哟( 特征表达,特征匹配) 共同决定这一特征 的观察方法;肛倒是相应的特征向量,对于每一个,= ,存在一个吩来存储该,= ,的实际值, 也就是说是相应巧的的一个实例。 当该数据模型应用于基于内容的图像检索中时,可以有多个特征参与检索,一个特征 可以有多种表达方法,每一种表达方法可以采取不同的距离度量。 图像数据库是图像处理技术和传统数据库技术相结合的产物,图像数据库的产生拓展 了传统数据库技术,又为图像处理技术提供了有力的支持。 2 2 图像视觉特征提取 如何实现图像视觉特征的提取是基于内容图像检索的基础和核心技术,特征选取的好 坏对整个基于内容图像检索系统有着重要的影响,这是因为它直接关系到整个系统的检索 准确度、检索效果和检索效率。 9 南京邮电大学硕士研究生学位论文第二章基于内容的图像检索的关键技术 就范畴而言,图像视觉特征可分为一般特征和领域特征。前者用于描述所有图像共有 的特征,与图像的类型或内容无关,主要包括颜色、纹理、形状、物体间方位关系等;后 者则是建立在对所要描述的图像内容的某些先验知识( 或假设) 的基础上,与具体的应用 紧密有关,例如人的面部特征或指纹特征等。由于领域相关的图像特征主要属于模式识别 的研究范围,并涉及许多专业的领域知识,在此我们就不再详述,而只考虑通用的视觉特 征。 对于某个特定的图像特征,通常又有多种不同的表达方法。由于人们主观认识上的差 异性,从而使得对于某个特征并不存在所谓的最佳表达方式。事实上,图像特征的不同表 达方式,是从各个不同的角度刻画了该特征的某些性质。在本章中,我们主要介绍那些由 实践证明对图像检索比较有效的特征和相应的表达方法。以下我们将分别介绍图像的颜 色、纹理和形状特征。 2 2 1 颜色特征 颜色特征是在图像检索中应用最为广泛,同时也是最重要的视觉特征,主要原因在于 颜色常常与图像中所包含的物体或场景紧密相关。此外,与其他的视觉特征相比,颜色特 征对图像本身的尺寸、方向、视角的依赖性较小,从而具有较高的鲁棒性。 面向图像检索的颜色特征的提取与表达涉及到若干问题。首先,我们需要选择合适的 颜色空间来描述颜色特征;其次,我们需要采用一定的量化方法将颜色特征表示成向量的 形式;最后,我们还需要定义一种相似度标准用来衡量不同图像在颜色上的相似性。本小 节将主要讨论前两个问题,并详细介绍颜色直方图、颜色矩、颜色集、颜色聚合向量以及 颜色相关图等颜色特征的表示方法。 1 颜色直方图 颜色直方图是最简单也是最常用的颜色特征,是对图像中每个像素的颜色在色彩空间 中出现频率的统计。它描述的是不同色彩在图像中所占的比例。由于颜色直方图是像素颜 色的统计信息,并不涉及像素的空间位置排列,因而具有旋转不变性、尺度不变性和平移 不变性,是一种应用广泛的颜色特征。 颜色直方图可以是基于不同的颜色空间和坐标系。最常用的颜色空间是r g b 颜色空 间【1 6 】,原因在于大部分的数字图像都是用这种颜色空间表达的。然而,r g b 空间结构并不 符合人们对颜色相似性的主观判断。因此,有人提出了基于c m y k 空间【17 1 、h i s 空州1 8 1 、 l o 南京邮电大学硕士研究生学位论文第二章基于内容的图像检索的关键技术 h s v 空间【1 9 1 的颜色直方图,因为它们更接近于人们对颜色的主观认识。其中h s v 空间是 直方图最常用的颜色空间。它的三个分量分别代表色调( h u e ) 、饱和度( s 籼a t i o n ) 和亮 度( v a l u e ) 。从r g b 空间到h s v 空间的转化公式如下所示: v = m a x ( ,g ,6 ) 。一 1 ,一m i n ( r ,g ,6 ) s = 二二2 0 _ v 办= 5 + 6 i f r = m a x ( r ,g ,b ) a n dg = mi n ( r ,g ,b ) l g i fr = m a x ( r ,g ,b ) a n dg m i n ( r ,g ,b ) 1 + 尸i fg = m a x ( r ,g ,b ) a n db = m i n ( r ,g ,b ) ( 2 2 ) 3 6 i f9 2 m a x ( r ,g ,b ) a n db m i n ( r ,g ,b ) 3 + g i f b = m a x ( r ,g ,b ) a n dr = m i n ( r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论