(计算机软件与理论专业论文)图像语义标注方法研究及其系统实现.pdf_第1页
(计算机软件与理论专业论文)图像语义标注方法研究及其系统实现.pdf_第2页
(计算机软件与理论专业论文)图像语义标注方法研究及其系统实现.pdf_第3页
(计算机软件与理论专业论文)图像语义标注方法研究及其系统实现.pdf_第4页
(计算机软件与理论专业论文)图像语义标注方法研究及其系统实现.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机软件与理论专业论文)图像语义标注方法研究及其系统实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着网络技术、多媒体技术、数据库技术的发展和互联网的不断普及,人们 对越来越广泛应用的图像等多媒体数据的需求也越来越强烈。传统的基于文本的 图像检索已不能完全满足人们的要求,基于内容的检索虽然解决了人们对图像视 觉特征所代表的特征语义,但图像的底层视觉特征与图像的语义表达之间存在“语 义鸿沟 ,不能满足人们按语义检索图像的需求。所以建立图像的语义表示和检 索机制势在必行,而对图像进行语义标注是基于语义的图像检索中的核心模块, 也是图像理解要解决的关键问题。因此本文选择“图像语义标注方法研究及其系 统实现 为研究课题。 图像检索系统c s i r 是为了能同时向用户提供基于内容的图像检索和基于语 义的检索而设计的系统。在此系统的基础上,本文分析和研究了一种实时图像语 义标注方法,并设计和实现了基于语义检索的核心部分一图像语义标注系统。本 文的主要贡献在以下几点: ( 1 ) 深入分析和研究了实时图像语义标注方法r a l i p ( r e a l t i m ea u t o m a t i c l i n g u i s t i ci n d e x i n go f p i c t u r e s ) 。其主要内容有:非欧式空间的图像相似性度量、机 器学习算法d 2 聚类( d i s c r e t ed i s t r i b u t i o n d 2 】c l u s t e r i n g ) 、基于概率的m m 混合模 型( m i x t u r em o d e l ) 以及基于模型的实时标注方法。 ( 2 ) 提出了基于不确定性推理融合标注结果的方法。本文对r a l i p 进行了部 分改进,采用基于单个特征训练模型并标注图片,最后用不确定性推理融合基于 不同特征的标注结果。实验表明,该方法通常情况下能较好地标注图片。 ( 3 ) 设计并实现了实时图像语义标注系统。该系统是对改进的r a l i p 方法的 实现,由两部分组成:模型训练子系统和图像标注子系统。两个子系统是相对独 立的,模型训练子系统可以离线执行,对图像训练集进行训练获得模型;图像标 注子系统可在线执行,对未标注的图片进行实时标注。 关键词:图像检索,图像标注,d 2 聚类,m m 混合模型 a b s t r a c t a b s t r a c t w i mt h ed e v e l o p m e n to ft h et e c h n o l o g yo f n e t w o r k ,m u l t i m e d i a , d a t a b a s ea n dt h e p o p u l a r i z a t i o no fi n t e r n e t , p e o p l e ss t r o n gd e m a n do fm u l t i m e d i ad a t as u c ha si m a g e s t r a d i t i o n a lr e t r i e v a l t e c h n o l o g yl i k ei m a g er e t r i e v a lb a s e do nt e x tc a n n o ts a t i s f y p e o p l e sd e m a n dc o m p l e t e l y t h o u g ht h er e t r i e v a lb a s e do nc o n t e n ts o l v e st h ef e a t u r e o fp e o p l e sv i s i o no fi m a g e ,b u ti tc a n n o ts o l v eh i g hl e v e ls e m a n t i ci m a g er e t r i e v a l c o m p l e t e l y t h e ni ti su r g e n tt oe s t a b l i s hs e m a n t i cd e s c r i p t i o na n dr e t r i e v a lm e e h a n i s m o fi m a g e 计as t u d yo ni m a g es e m a n t i ca n n o t a t i o na n di t ss y s t e mi m p l e m e n t a t i o n i s s e l e c t e da st h et h e m eo ft h i sp a p e r c s i ri sa ni m a g er e t r i e v a ls y s t e mw h i c hi sb ea b l et o p r o v i d eu s e r sw i t h c o n t e n t - b a s e da n ds e m a n t i c - b a s e di m a g er e t r i e v a l b a s e do nt h i ss y s t e m , t h i sp a p e r a n a l y z e sa n ds t u d i e sar e a l t i m ei m a g es e m a n t i ca n n o t a t i o nm e t h o d s ,a n dd e s i g na n d i m p l e m e n tt h ec o r eo ft h es e m a n t i c - b a s e di m a g er e t r i e v a ls y s t e l n i m a g es e m a n t i c a n n o t a t i o ns y s t e m t h em a i nc o n t r i b u t i o n so ft h i st h e s i sa r ea sf o l l o w s : ( 1 ) a n a l y s i sa n dr e s e a r c ht h em e t h o dr a l i p ( r e a l t i m ea u t o m a t i cl i n g u i s t i c i n d e x i n go fp i c t u r e s ) i t sm a i nc o n t e n t sa r e :n o n - e u r o p e a ns p a c ei m a g es i m i l a r i t y m e a s u r e ,m a c h i n el e a m i n ga l g o r i t h md 2c l u s t e r i n g ,b a s e do nt h ep r o b a b i l i t yo fm i x t u r e m o d e l ,a sw e l la sm o d e l b a s e dr e a l t i m ea n n o t a t i o nm e t h o d ( 2 ) p r o p o s eaf u s i o nm e t h o do fa n n o t a t i o nr e s u l t su s i n gu n c e r t a in t yr e a s o n in g th e o r y t h i sp a p e rd o e sa s i m p l em o d i f i c a t i o nf o rr a l i p ,i tf i r s tt r a i n e sam o d e lb a s e d o ns i n g l ef e a t u r e ,t h e nf u s e st h ea n n o t a t i o nr e s u l t sb a s e do nd i f f e r e n tc h a r a c t e r i s t i e s e x p e r i m e n t ss h o wt h a tt h em e t h o du s u a l l yc a na n n o t a t ea ni m a g eg o o d ( 3 ) d e s i g na n di m p l e m e n tar e a l t i m ei m a g es e m a n t i ca n n o t a t i o ns y s t e m t h e s y s t e mi si m p l e m e n t a t i o no fm o d i f i e dm e t h o dr a l i p i ti sc o m p o s e do ft w op a r t s : m o d e l t r a i n i n gs u b s y s t e ma n di m a g ea n n o t a t i o ns u b s y s t e m t h e ya r er e l a t i v e l y i n d e p e n d e n t ,t h ef o r m e rc a nb eo f f - l i n ea n dt r a i ni m a g e st oo b t a i nm o d e l ;t h el a t t e r c a l lb eo n l i n ea n da n n o t a t ea ni m a g e k e y w o r d s :i m a g er e t r i e v a l ,i m a g ea n n o t a t i o n ,d 2c l u s t e r i n g ,m i x t u r em o d e l u 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:础一一 蹶硝6 具 e t 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 醐:7 铂日 第一章绪论 1 1 研究背景 第一章绪论 2 0 世纪9 0 年代随着多媒体硬件和软件技术迅速发展,多媒体己广泛地应用于 多个领域,如多媒体搜索、医学、教育、广告等,可获取的图像等多媒体数据急 剧增长。如何有效地组织、表达、存储、管理、查询和检索这些海量的数据,是 对传统数据库技术的一个重大挑战。如果没有对图像等多媒体数据有效存储、检 索的方法,大量信息将淹没在数据的海洋之中,而无法被人们识别和利用。因此, 如何将数字图像处理、数据库技术、计算机视觉技术以及模式识别技术有效结合 起来,建立高效的图像检索机制成为迫切需要解决的问题。 早期基于文本的图像检索( t b i r :t e x t b a s e di m a g er e t r i e v a l ) 技术首先对图像 进行人工标注,然后通过对关键词进行匹配得到检索结果。该方法有效的提高图 像检索的效果,但也有其缺陷:一是当对海量图像库进行处理时,人工标注费时 费力,工作量巨大;二是文本标注存在不确定性和主观性,会影响检索的准确性。 近二十年来基于内容的图像检索( c b i r :c o n t e n t b a s e di m a g er e t r i e v a l ) 技术从 定程度上解决了基于文本的检索的局限性。c b i r 使用图像的视觉特征( 如颜色、 纹理、形状) 来定义图像之间的相似性,进而通过例子查询( q u e r yb ye x a m p l e ) , 采用直接计算图像间的相似度来匹配图像,以及运用相关反馈等可视化的查询方 式来代替关键词检索,是一种直观的检索方法。 但是传统的c b i r 系统并没有挖掘图像的语义知识,只是直接比较图像视觉特 征的相似度,不能完全满足人们按语义检索图像的需求。传统的基于实例的图像 检索需要提供“实例”图像才能进行图像检索,对于广大用户来说,需要查询的东西 并不总是能够拿出“实例”图像来。在实际的网络图像搜索方面,用户更倾向于直接 输入文本形式的关键字而基于语义进行图像检索。因此基于语义的图像检索成为 目前图像检索领域的研究前沿,具有理论研究价值,又兼具工程实践意义,具有 令人鼓舞的应用前景。自动语义图像“标注”( a n n o t a t i o n ) 是基于语义的图像检索的 关键环节,已经成为多媒体检索中的研究热点和关键技术。 电子科技大学硕士学位论文 1 2 研究现状 在实际应用中,用户往往事先对所需的图像只存在有关图像描述的对象、事 件以及表达的情感等含义上的概念,用户需要的是图像含义的查询,而不是颜色、 纹理、形状等特征。这些图像的含义就是图像的高层语义特征,包含了人们对图 像内容的理解。岗此基于语义的图像检索主要解决图像语义特征的提取、表示和 检索。对图像进行标注u 获取图像语义逐渐成为了近年来研究的热点,图像语义 标注可以分为手t 标注、半臼动b ;i t l - 和自动标注口”。幽像语义自动标注问题的形 式化拙述i ”i :给出一个图像集合s ,每幅图像已绎有标注词( 关键词) 反映其语义, 此时给出一副来标注的图像i ,找出最符合图像i 语义的t 个词( 比如,t - 5 ) 。下图 是图像及其语义标注的例子m : 潮目p e o p l e 圈j b a b y * o o d t t e s m g a a l l 戳 融璃错嚣 h m t 蘑龋。5 圈 f r a i l f o o d 暖_ 癌一一_ _c 删 目舞一一 一 f 面介绍儿种图像自动标注模型: ( 1 ) c o - o c c u r r e n c em o d e l : c 。一o c c u h e n c e 模型通过对带有关键洲描述的图像集合的统训信息进行分析 束挖拥i 图像和史本之怕的天系。阿先它将陪l 像【了j 分成滞有天键训的f 图像( 种j = c 则的图像区域1 ,然肝将这些了h 像聚类,形成几组可唯表,r ;任何r 罔像的r 类, 第一章绪论 这样就可以得到每一类子图像和某一个关键词出现的概率。对于未标注的图像, 采用同样的切分方法,将切分后得到的子图像用唯一类别表示出来,最后将某一 个关键词标注给图像的概率就是这个关键词和所有子图像同时出现的概率的融 a 口o ( 2 ) h i e r a r c h i c a la s p e c tc l u s t e rm o d e l : 统计模型h i e r a r c h i c a la s p e c tc l u s t e rm o d e l 2 9 1 结合了图像底层特征所代表的视 觉信息和与图像一起出现的相关文本中蕴含的语义信息,这个模型对于在数据库 中进行基于关键词或者图像特征的检索来讲非常的有效。此外,该模型具有在文 本信息和图像特征之间学习关联规则的能力,因此可以应用于图像自动标注和图 像中的对象识别。 ( 3 ) a l i pm o d e l : a l l p 模型【3 0 】基于二维多分辨率隐马尔可夫模型( 2 - dm u l t i r e s o l u t i o nh i d d e n m a r k o vm o d e l ,2 dm h m m ) 来给整个图像库建模。它认为图像库中含有若干不同 语义类别的图像,每一类图像可以用一个2 dm h m m 模型描述。用待标注的图像 与若干2 dm h m m 模型作比较,选择相似度最高的几个语义概念作为候选的标注 关键字。 ( 4 ) m a c h i n et r a n s l a t i o nm o d e l : t r a n s l a t i o n 模型【3 l 】认为对图像的标注过程就是将图像包含的视觉词组翻译成 文本词组的过程。因此可以使用机器翻译的方法来理解这个过程。t r a n s l a t i o n 模型 首先用n o r m a l i z e dc u t s 算法对图像进行分割,然后为每个图像区域提取一组相同 的特征,接着通过k n n 方法对所有的图像区域进行聚类,得到图像子块集合,这 些图像子块就构成了描述所有图像的视觉词组,接下来的标注过程中,将待标注 图像分割成不同的图像区域,并通过计算这些图像区域和已有的视觉词组的相似 度,将图像表示为一组视觉词组的组合。最后采用最大似然估计法为每个视觉词 组估算出概率最大的关键字作为该视觉词组对应的文本词组。 ( 5 ) l a t e n td i r i c h l e ta l l o c a t i o nm o d e l : l a t e n td i r i c h l e ta l l o c a t i o nm o d e l t 3 2 】是一个三层结构的贝叶斯模型,在该模型 里,任何的一组包含予以的数据都可以看成为底层语义组的某种有限的组合,反 过来,通过一组包含了语义的训练数据( 图像) 可以获得这些底层的语义组。他们认 为,任何一个语义都可以用一组语义概率的无限组合来表示。 ( 6 ) c m r mm o d e l : 与上述两个模型针对图像单个区域进行标注不同,交叉媒体相关模型 电子科技大学硕士学位论文 ( c r o s s - m e d i ar e l e v a n c em o d e ,c m r m ) t 3 3 】把图像作为整体进行标注。c m r m 在给定 训练集的基础上,采用相关模型( r e l e v a n c em o d e l ) 学习图像子块( b l o b ) 集合和关键 字之间的联合概率分布。 ( 7 ) m a x i m u me n t r o p y m o d e l : m a x i m u me n t r o p y 模型【3 4 】通过己被标注的训练数据,运用最大信息嫡模型来 预测测试图像该被赋予的关键词。这种技术能够很有效地获得不同特征之间的关 联,并且在很多的语言学习研究中得到了很好地应用。模型将图像用一组v i s t c = n l a s 表达,然后通过最大信息嫡模型来计算在一组v i s t c r m s 出现的前提下,某个关键词 应该被标注的概率,同时最大信息墒模型还能考虑到v i s t c n n s 之间的关系对标注的 影响。实验表明最大信息熵模型的表现比传统的翻译模型更加优越。 ( 8 ) c o h e r e n tl a n g u a g em o d e l : 由于以往的模型虽然能够通过机器学习获取用于图像标注的统计模型,但是 这些模型只能将每个可能的关键字独立开来的考虑并标注给图像,为了克服这个 问题,c o h e r e n tl a n g u a g e 模型【3 5 】估计训练库中的关键字之间的关系,在获得关键 字关系的前提下使用传统的机器学习方法获取最后用于标注的统计模型,他们的 方法能够自动的选择标注结果的长度,并有效的减少需要的训练库的大小。 1 2 2 多媒体标注工具 到目前为止,人们对图像和视频的语义标注的研究已经取得了一定的成果, 下面介绍几个多媒体标注工具【8 】: i n o t e 是由美国维吉尼亚大学开发的一个图像标注工具,由j a v a 语言开发,该 工具允许用户把文本标注附加在图像中的不同区域内,然后把这些标注存储在单 独的文本文件中。用户可以通过圆形、方形、椭圆形等方式区分图像对象,并对 其进行标注。此外,用户可以编辑和修改标注的内容,并将这些标注存储为x m l 文件,供用户使用。 i b mv i d e o a n n e x 是由i b m a l p h a w o r k s 工作组发布的一个m p e g 7 标注工具, 它用m p e g 7 元数据辅助标注视频流,视频流中的每一个镜头都能通过静态场景 描述符关键对象描述事件描述符和其他字典集标注与每个视频镜头相关的描述符 都可以作为m p e g 7 描述符存储在x m l 文件中。该工具还允许用户定制描述字典, 以对其创建、保存和更新。i b mv i d e o a n n e x 工具把m p g e 视频流作为要求的输入 源,同时还要求一个相应的镜头分割文件,该文件通过检测场景剪切、融合和褪 4 第一章绪论 色等把输入的视频流分割为更小的称之为视频镜头的单元。当该工具在一段视频 上完成镜头检测之后,镜头文件能被存在m e p g 方案中供以后使用。 r i c o hm o v i e t o o l 是一个交互式创建符合m p e g 7 语法的视频内容描述的工 具。该软件在载入视频期间根据其结构交互式地产生m p e g - 7 描述。在用户利用 候选标签进行交互式结构编辑时,视觉线索辅助用户进行相应的m p e g 7 标签选 择。视频结构和m p e g 7 描述之间的关系是直观的。在m p e g 7 中定义的元数据 可以以自由文本标注的方式来丰富视频。该工具还可以和基于m p e g 7 的检索工 具配套使用。 1 3 论文主要工作 本文是对图像检索技术中的一个前沿研究领域:图像语义标注的一些研究, 图像语义标注是基于语义的图像检索的关键技术。在图像检索系统c s i r 的基础 上,本文研究并实现了图像语义标注系统,论文的主要工作有: ( 1 ) 分析和研究了一种实时图像语义标注方法r a l i p ( r e a l t i m ea u t o m a t i c l i n g u i s t i ci n d e x i n go f p i c t u r e s ) 。r a l i p 能完全自动地实时标注在线图片,每张图 片的标注时间大约一秒。r a l i p 借鉴了机器学习的思想,但设计了一种新的学习 算法哪2 聚类( d i s c r e t ed i s t r i b u t i o n d 2 】c l u s t e r i n g ) 和一个基于概率的语义标 注模型混合模型m m ( m i x t u r em o d e l ) 。d 2 聚类的算法过程类似于k m e a n s 聚类,但比k - m e a n s 聚类更复杂,使用了成熟的优化技术;混合模型m m 采用了 新颖的概念假设局部映射h l m ( h y p o t h e t i c a ll o c a lm a p p i n g ) ( 2 ) 提出了基于不确定性推理融合标注结果的方法。本文对r a l i p 进行了简 单的修改,采用基于单个特征训练模型并标注图片,最后用不确定性推理融合基 于不同特征的标注结果。实验说明,该方法通常情况下能较好地标注图片。 ( 3 ) 设计并实现了一个实时图像语义标注原型系统。该系统是对修改的r a l i p 方法的工程实现,主要由两部分组成:模型训练子系统和图像标注子系统。两个 子系统是相对独立的,模型训练子系统可以离线执行,主要是对图像训练集进行 训练获得模型;图像标注子系统可在线执行,主要是对未标注的图片进行实时在 线标注。 电子科技大学硕士学位论文 1 4 论文组织结构 全文的章节安排: 第一章:简要介绍了论文的研究背景和该领域的研究现状( 主要是目前已有 的图像自动标注模型和标注工具) ,并概括了论文的主要工作。 第二章:回顾了图像检索领域中几个主要研究阶段:基于文本的图像检索、 基于内容的图像检索和基于语义的图像检索,并对图像检索技术和著名的图像检 索系统做了一个简要的概述。 第三章:分析和研究了一种实时图像语义标注方法。主要讨论了图像的特征 提取、非欧式空间图像的相似性度量、模型建立过程中的两个重要环节d 2 聚类和 参数估计、以及基于模型的实时图像标注方法,最后提出了使用不确定性推理融 合不同特征标注结果的方法。 第四章:设计和实现了一个实时图像语义标注的原型系统,主要是作为算法 的测试平台。首先介绍了系统的框架结构,然后对系统各个模块进行描述,并详 细说明实现过程,最后给出了实验和分析。 第五章:对论文工作进行总结,提出今后的研究方向。 6 第二章图像检索技术概述 第二章图像检索技术概述 图像语义标注是基于语义的图像检索的关键环节,也是图像理解的关键技术。 从图像检索的发展来看,经历了三个阶段:基于文本的图像检索、基于内容的图 像检索和基于语义的图像检索。基于文本的检索通过图像的文本信息( 名称、注解 文字等) 来索引图像,比如g o o g l e 、百度等均属于这类;基于内容的检索通过图像 的视觉特征( 颜色、纹理、形状等) 来检索图像;基于语义的检索需要提取图像的语 义特征( 对象类别与空间关系、场景与行为、情感语义等) ,根据语义来检索图像更 能满足用户的需求。本章将详细概述三种检索方式采用的关键技术。 2 1 基于文本的图像检索 2 0 世纪中期开始,随着互联网的高速发展,网络上的图像信息急剧增加并同 文本信息一样成为人们重要的信息来源,因此人们对图像信息的检索需求也就随 之而来。由于传统的对信息检索的研究主要集中于文本信息检索方面,因此图像 检索的初期研究主要借鉴了传统的文本信息检索技术,它利用图像名称、图像尺 寸、压缩类型、作者、年代等信息来索引图像,检索过程一般以关键词形式的提 问来查询图像,或者是根据等级目录的形式浏览查找特定类目录下的图像。 2 1 1 描述性文本提取 在基于文本的图像检索系统中,需要先对所有的图像进行关键字标注,然后 才能使用全文检索技术对图像进行搜索。在这个过程中,如果图像资源是独立的, 则关键字的来源只能是标注者,如果图像资源伴随着描述性的文字,则需采用文 本信息分析技术抽取有效的关键字。随着自然语言处理技术的发展,其中的很多 技术被应用到对图像的有效关键词的自动抽取当中,如对图像的描述性文字采用 自动分词和词频统计,并识别“有效词”和“停用词”,识别专有名词、复合短语 和未定义词等。 7 电子科技大学硕士学位论文 2 1 2 图像检索模型 基于文本的图像检索从传统的信息检索技术中借鉴了很多成熟的模型,其中 主要采用下面的几类模型【2 刀: ( 1 ) 布尔逻辑模型:它是最简单的检索模型,也是其它检索模型的基础。设文 本集d = 吐,吐,以,吃) ,珥( f = 1 ,2 ,1 ) 为文本集中某一文档,互= t l l ,, :,) 为 文档谚的标引词集合,则对于形如q = 彬 形a 人睨的查询,如果所有的查询关 键词,z ,则喀为查询q 的命中文档,否则盔为查询q 的非命中文档; 而对于形如q = 彤vw 2v v 哌的查询,如果至少存在某个形z ( 歹= 1 ,2 ,k ) , 则西为q 的命中文档,否则4 为非命中文档。 ( 2 ) 模糊逻辑模型:它以模糊数学作为理论基础,设置单个的检索词w 在文档d 中的隶属度“,u o ,1 1 ,u 越大表示检索词w 和文档d 的相关性越高,反之亦然。 用户提交的查询作为w 的来源,经过对查询的预处理得到一个或者一组w 之后, 通过查询模块根据模糊逻辑运算w 和图像描述性文本的匹配度,从而给出查询的 结果,并能够按照相关度排序。 ( 3 ) 向量空间模型:它将文档d 看作特征向量以国= 毛,q ( 印;之,哆( 印;t n ,q ( 印 , 其中( i = 1 ,2 ,n ) 为一列互不相同的词条项,q ( d ) 为在文档d 中的权值,通常 是t 在d 中出现频率的函数。在常用的词条权值计算函数t f i d f 中,当某一词条 在某一文档中出现的频率越高,说明它区分该文档内容属性的能力越强,权值就 越大:当含有某一词条的文档占总文档数的比例越高,则它区分文档类别属性的 能力越低,相应的权值越小。 2 1 3 目前存在的问题 基于文本的图像检索从文本信息检索研究中获得了大量的启发,但文本资源 和图像资源在表现形式和表达的意义上存在巨大差异,故检索效果不太理想。此 外它还需要人工或者半人工的标注过程,而这种标注过程存在几个不可克服的问 题:是这种方法需要较多的人工参与,图像数目越大,越难实现;二是描述不 同类别的图像需要有一个结构化的描述体系,图像种类越多,制定描述体系越困 难;三是对于庞大的图像信息量,不同的人对于同一张图像的理解也不相同,会 导致对图像的标注没有一个统一的标准,手工标注的非客观性造成用户检索结果 的不确定性。所以基于文本的图像检索不再成为图像检索技术的热点。 8 第二章图像检索技术概述 2 2 基于内容的图像检索 9 0 年代以来,基于内容的图像检索成为一个研究热点,它直接根据图像的视 觉特征在数据库中检索具有相似特征的图像。与基于文本的图像检索相比,基于 内容的检索具有如下特点:( 1 ) 突破了关键词检索基于文本特征的局限,直接从媒 体内容中提取特征,并通过相似性匹配来检索图像。( 2 ) 检索方式多样。基于内容 的图像检索可以提供基于实例的检索方式、浏览方式以及基于草图的检索方式等。 2 2 1c b i r 的基本原理 c b i r 的基本原理形式化定义【3 6 1 :任给定一个检索图像示例户,计算其特征向 量,= ( 最,互,e ) ,其中墨为图像的第f 种特征;根据,检索图像特征索引库, 得到与,距离最小的特征向量f ,则f 所对应的图像p 即为与p 最相似的检索结 果。c b i r 系统典型的架构【1 7 】如下所示。 li i - l l li i - l - ; 图像存储 ; l 特征提取匹配检索 用 户 用 接 h户 口 用户系统 图2 - 1c b i r 系统架构 系统主要包括用户系统、匹配检索、特征提取和存储系统四部分。图像特征 索引和相似度匹配技术是系统的核心部分,直接影响检索系统的性能。检索和存 储系统都要对原始图像进行特征向量计算,不同之处在于查询检索部分需要实时 在线计算,而索引库的生成采用离线方式。匹配度的计算将决定检索结果的产生 以及结果的排序。 9 电子科技大学硕士学位论文 2 2 2 图像内容特征表示 图像特征的提取是基于内容的图像检索技术的基础。虽然图像特征从广义上 说包括文本特征( 如关键字、注释) 和视觉特征( 如颜色、纹理、形状) 两类。但是基 于内容的图像检索侧重于依靠视觉特征来进行检索。对于某个特定的图像特征, 有多种不同的表达方法,并从各个不同的角度刻画了该特征的某些性质。下面将 分别介绍颜色、纹理和形状三类视觉特征。 ( 1 ) 颜色特征 颜色是图像最显著的特征,它计算简单,有很强的鲁棒性,并具有稳定,旋 转、平移、尺度变化无关性,故基于颜色的检索是现有图像检索系统中最基本的 方法。在基于颜色特征的索引算法中,图像的颜色特征表示有颜色统计直方图【2 4 1 、 累积直方图 2 5 1 。颜色直方图虽然应用了颜色的全局概率分布,但忽略了图像颜色 的空间信息,改进方法的方法有颜色聚合矢量c c v ( c o l o rc o h e r e n c ev e c t o r ) 方法【2 3 1 、 累计颜色直方图方法【2 5 】等。以上方法都保留了颜色在图像中出现的概率信息,但 也忽略了颜色的空间信息,故不同的图像会出现相同的颜色特征表示。为解决该 问题提出了局部颜色特征索引方法,h s u 等试图结合图像的颜色信息和图像颜色的 部分空间信息对颜色的直方图进行检索。 ( 2 ) 纹理特征 纹理是模式识别中常用的用来辨识图像区域的概念,它被认为是灰度在空间 以一定的形式变化而产生的图案( 模式) ,是真实图像区域固有的特征之一( 纹理是 一种区域性质) 【l 】。纹理分析的方法有模型法、结构法、空间频率域联合分析法以 及统计法等四类【3 7 1 ,并将统计、分析的结果作为图像的索引。基于模型的方法假 设纹理按某种类型分布,如m a r k o v 随机场模型、分形模型等;基于结构的方法将 重点放在分析纹理元之问的相互关系和排列规则上;基于空间频率域联合分析法 主要包括g a b o r 变换法和小波变换法等;基于统计的方法是对图像中的颜色强度 的空问分稀信息进行统计,包括共生矩阵法、l a w s 纹理能量法等。 ( 3 ) 形状特征 形状也是图像的一个显著特征,它被认为是一条封闭的轮廓曲线所包围的区 域。对形状的描述涉及到对轮廓边界的描述以及对这个边界所包围区域的描述。 基于形状检索方法主要从形状的轮廓特征和形状的区域特征建立图像索引。对形 状轮廓特征的描述主要有:直线段描述、样条拟合曲线以及傅立叶描述子等。j a i n 等人将形状用封闭的直线段来描述,然后依靠线段斜率的统计斜率直方图进行匹 l o 第二章图像检索技术概述 配 9 1 。g u d i v a d a 采用样条曲线对形状的边界进行拟合,然后依靠形状边界上的各个 控制点计算斜率、曲率的正负等信息进行检索。g u n s e l 提出了采用傅立叶描述子 描述形状的边界信息基于特征形状的图像检索方法【1 3 1 。 2 2 3 图像相似度模型 在基于内容的图像检索过程中,最重要的一项工作是计算图像之间的相似度。 检索结果是通过计算用户提交的例子图像和数据库中候选图像之间的相似度来进 行匹配。由于图像视觉特征大都表示为向量形式,故图像的相似度通常定义为两 幅图像之间的距离。常用的距离公式包括欧拉距离、二次距离、直方图相交和马 氏距离【2 7 1 。 ( 1 ) 欧拉距离:欧拉距离是最常用的度量方式,通常用来计算图像特征的各分 量之间正交或无关的图像间的距离,如果图像特征的每个维度的重要程度相同, 则两个特征向量a 和b 之间距离可以用厶距离或者厶距离( 也称为欧拉距离) 来度 量。其中厶距离可以表示为: q = l 4 一ei i = l 厶距离可以表示为: d 2 = ( 4 一e ) 2 f 宣l ( 2 ) - - 次式距离:二次式( q u a d r a t i cf o r m ) 距离通常是用来计算图像的直方图。如 两个颜色直方图i 和q 之间的二次式距离可以表示为: d = ( q na ( q - i ) 二次式距离在计算直方图距离的时候考虑了不同颜色之间的相似度,因而比较好。 公式中的a 为颜色相似性矩阵,彳= ,表示直方图中下标为i 和j 的两个颜 色b i n 之间的相似度。 ( 3 ) 直方图相交:直方图相交( h i s t o g r a mi n t e r s e c t i o n ) 也是一种被用来度量图像直 方图距离的方法。假设i 和q 是两个含有n 个子区域的颜色直方图,则它们之问 的直方图相交距离表示为: r n i n ( 1 ,g )uj 。jl ,= i 这个公式是将两个直方图在每个子区域中共有的像素数量相加。 ( 4 ) 马氏距离:马氏距离( m a h a l a n o b i sd i s t a n c e ) 用来计算某些特殊的特征向量 电子科技大学硕士学位论文 之间的相似度,例如分量间具有相关性同分量具有不同的权重。计算公式如下: p 。柏,= ( 彳一曰) c - 1 ( 4 一b ) 其中c 是特征向量的协方差矩阵。 2 2 4 图像检索中相关反馈 在基于内容的图像检索中,反馈是调整技术以适应用户需求和提高检索精度 的常用手段。比较常用和成熟的反馈方法是相关反馈( r e l e v a n c ef e e d b a c k ) 技术【, 用户根据先前检索结果借助权重调整已有的查询要求以给检索系统提供更多更直 接的信息,从而使系统更好地满足用户的要求。简单的说,反馈的过程是用户和 检索系统之间的一个交互过程,系统根据用户对当前检索结果的评价来调整用户 的初始查询以及匹配模型的参数,从而达到对检索结果的优化。 目前相关反馈的研究集中在两个方法:权重调整法和查询点移动法。权重调 整法主要利用正例进行反馈,而反例包含的信息则被忽略掉了,此过程需要用户 对相关图像提供参考权重;查询点移动法试图改进对理想查询点的估计,具体是 将该查询点移向好的范例点而远离坏的范例点。实现这种调整的一个典型的迭代 公式为: ,、,1、 q - 引q + l 袁荟口j - y l 寿善毋j 其中口、和7 是平滑常量,通过先验知识获取,珥和j d 分别代表相关对象和无 关对象集合,虬和- 分别是d r 和d 中对象的数量。q 代表调整后的查询所对 应的点。 2 3 基于语义的图像检索 现有的图像检索系统在对图像内容进行描述时大多直接采用传统的低级图像 特征,如颜色、纹理、形状等,在这些特征上建立的图像描述模型中,对图像的 描述一般以统计数据的形式出现。实际上,这些统计数据与人对图像内容的理解 存在很大差异。如何描述图像内容,使其尽可能与人对图像内容的理解一致,是 图像检索的关键所在,也是其难点所在。从人的认知角度看,人对图像的描述和 理解主要在语义层次上进行的。如何提取图像的语义,如何将图像语义特征结合 到检索中得到越来越多的关注。 1 2 第二章图像检索技术概述 2 3 1 图像语义层次模型 语义的层次在图像检索中说明了检索的复杂度,如图2 2 所示h j ,从下往上, 语义更抽象,检索更困难。对于特征语义层,可以通过图像的相似性来检索;对 于上几层的语义检索,必须通过一定的知识推理,识别出图像所包括的对象、空 间关系等;对于场景语义层、行为语义层、情感语义层、以及更高层的语义层, 必须对图形的场景、对象等进行高层推理,这是一个主观判断必须参与的过程。 在这些层上,需要有建立用户知识库的过程,知识库的好坏直接影响检索的结果。 语义层 更抽象的语义 三三至亘圆 人的情感 图像表现的行为e 至固 图像场景 对象间的空间关系 厂1 所出现的对象l 对象语义层l 广1 颜色、纹理、形状等i 特征语义层l 图2 2 图像语义层次模型 2 3 2 图像语义提取 语义检索 基于内容的检索( c b i r ) 实际上图像是人对世界认知的间接表示,一幅图像充满了丰富语义信息,用 户在图像检索时总是存在一个大致的概念,这个概念建立在图像所描述的对象、 场景事件以及所表达的情感等图像的高层语义上,包含了人对图像内容的理解, 所以近年来出现了对高层的基于语义内容的图像检索技术的研究,成为解决图像 简单视觉特征和用户语义之问存在的鸿沟的关键。 电子科技大学硕士学位论文 ( 1 ) 对象类别与空间关系 根据图像中对象间的空间关系来进行检索一直是图像数据库检索的重要研究 方向。主要方法有:一是用图元方法来表示图像中的对象并用图元来索引对象【3 9 】, 二是用二维符号串( 2 d s 血曲的表示方法来进行图像空间关系的检索【删,该方法简 单并且对于部分图像来说可以从2 d s t r i n g 重构它们的符号图,所以被许多学者采 用和改进:l e e 和h s u 等人提出了2 d c s t r i n g 的方法【4 2 】【叫;n a b i l 综合2 d s t r i n g 方法和二维平面中对象之间的点集拓扑关系,提出了2 d p 1 r 检索方法【蜘。 对图像内容的理解上升到了对象及其空间关系的理解,弥补了前面提到的方 法中缺少空间信息约束的缺陷,空间关系语义提取的结构图如下: 图像 l 图像分割 圄 图2 3 空间关系语义提取的结构图 ( 2 ) 场景与行为 识别出的对象及其空间关系可以成为获取场景语义的基础,作为获取场景和 描述事件的辅助手段。然而由于现实图像场景的复杂性,以及目前通用对象识别 技术还不完善,这种方法还只在一些有限领域得到运用。在图像分割技术和对象 识别技术不能满足需求的情况下,一些新的绕过对象识别的方法被提出,s m i t h 等 提出了组合区域模板方法;c h e o n g y i uf u n g 提出的方法最有代表性,这些方法也 进行图象分割,但它的分割是对图像的固定分割,即将图像划分成固定大小的子 块,然后对这些图像子块分别确定其各自的语义类别,然后根据子块问的关系来 确定整幅图像的语义。一旦子块的语义确定了,场景语义就能有效地使用现有统 计方法从子块的相关模式中获得,而特定场景对应的子块组合模式就要通过训练 集学习获得。 固定划分图像的场景分类的结构图f 4 5 】如下: 1 4 第二章图像检索技术概述 原 始 图 像 口墨圈 疆 场 景 类 别 图2 - 4 图像场景分类结构图 ( 3 ) 情感语义 图像的情感语义相对其他特征而言具有更多的主观成分,它涉及到人的认知 模型、文化背景以及美学标准。目前对情感语义的研究只局限于艺术图像领域, 例如a m h c i m 探讨了艺术形式和视觉特征的关系】;i t t e n 提出艺术图像中颜色所 表达的语义理论,提出了判断颜色组合是否和谐的i t t e n 球模型。i t t c n 发现不同的 颜色组合导致和谐、不和谐、平静和兴奋等效果,如红黄色调导致温暖的感觉, 往往表达快乐、荣耀或者力量等,相反蓝绿色调会导致冷的感觉,常表达平静、 放松或者忠诚等情删4 7 】。此外,纹理的疏密、线条的倾斜度、光滑度不同所表达 的情感语意也截然不同,光滑的纹理给人细腻感,粗糙的纹理给人苍老感,坚硬 的纹理给人以刚强感【4 引。正方形易给人庄重感,圆形则容易产生松弛平易的运动 感,三角形的锐角易产生好斗和进取的感觉【4 9 1 。 基于情感的图像检索系统框架图【3 8 】如下: 幽2 - 5 基丁情感的幽像检索系统框架图 1 5 电子科技大学硕士学位论文 以用户情感为线索检索图像,其目标是以图像可能激发人的主观体验为中间 桥梁,实现用户检索需求与图像之间的匹配

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论