(计算机应用技术专业论文)自然场景图像的自动标注方法研究.pdf_第1页
(计算机应用技术专业论文)自然场景图像的自动标注方法研究.pdf_第2页
(计算机应用技术专业论文)自然场景图像的自动标注方法研究.pdf_第3页
(计算机应用技术专业论文)自然场景图像的自动标注方法研究.pdf_第4页
(计算机应用技术专业论文)自然场景图像的自动标注方法研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)自然场景图像的自动标注方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

卢 t , p , c l a s s i f i e di n d e x : u d c : ad i s s e r t a t i o nf o rt h ed e g r e eo fm e n g t h er e s e a r c ho fa u t o m a t i ca n n o t a t i o n m e t h o df o rn a t u r a ls c e n ei m a g e c a n d i d a t e :d a il i j i e s u p e r v i s o r :a s s o c i a t ep r o f l i uy o n g m e i a c a d e m i cd e g r e e a p p l i e df o r :m a s t e ro fe n g i n e e r i n g s p e c i a l i t y :c o m p u t e ra p p l i e dt e c h n o l o g y d a t eo fs u b m i s s i o n :d e c e m b e r , 2 0 0 9 d a t eo fo r a le x a m i n a t i o n :m a r c h 。2 010 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :代确茄 日期:刀口年弓月,6 日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 曰在授予学位后即可口在授予学位1 2 个月后口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :锭葡;舌 日期: 加o 年;月,占日 导师( 签字) :刘婚构 砒年乡月1 6e l 哈尔滨t 程大学硕十学何论文 摘要 随着科技的进步、互联网技术的不断发展及数码产品的普及,越来越多 非文本信息出现在人们的生活中,如图像。急需一种有效的图像标注与检索 方法,对大量的图像信息进行管理。早期的图像标注多数是由人工为图像添 加关键字,来描述图像的内容,并做成索引,以方便图像的检索。但是由于 图像的数量几乎呈指数形式增长,人工标注图像的办法显得既费时、费力, 又容易产生错误。因此,人们迫切的希望能够对图像进行自动标注。此外, 图像自动标注由于其对于图像理解和网络图像检索都有着重要的意义,所以 近年来已成为新的热点研究课题。 本文在认真总结各种图像标注方法的基础上,提出了一种有效的图像标 注方法,这就是基于词间相关性的c m r m 标注方法。本文将图像标注分为两 个部分进行,首先利用已有的c m r m 模型对图像进行基本的标注。然后, 全面分析标注关键字之间的语义关系,提取了关键字之间的词间相关关系, 并利用词间相关性矩阵进行存储。该矩阵对关键字之间的语义相关性进行了 描述。最后,利用图学习算法,将词间相关性矩阵叠加到初始标注矩阵上, 使得词间的相关关系在各个关键字之间传播从而对标注结果进行改善。 最后为了对标注效果进行验证,利用c o r d 图像库中的自然场景图像对 本文方法进行实验。实验结果表明,本文方法很好的完成了对测试集图像的 自动标注。在查全率与查准率方面都较c m r m 模型有所提高。与共现模型 和机器翻译模型相比,查全率分别提高了3 倍和1 5 倍,查准率分别高了5 5 倍和2 7 倍,正确检索到的关键字数目也分别提高了3 5 倍和1 3 倍。从而验 证了本文方法在图像自动标注方面的有效性。 关键词:图像标注;c m r m 模型;相关关系;词间相关性矩阵 哈尔滨下稃人学硕十学何论文 a b s t r a c t w i t ht h eo ft h ea d v a n c e m e n to ft e c h n o l o g y , t h ec o n t i n u o u sd e v e l o p m e n t i n t e r a c ta n dt h ep o p u l a r i t yo ft h ed i g i t a lp r o d u c t s ,m o r ea n dm o r en o n t e x t u a l i n f o r m a t i o n ,s u c ha si m a g ea p p e a r si np e o p l e sl i f e a ne f f i c i e n ti m a g ea n n o t a t i o n a n dr e t r i e v em e t h o di sh i g h e s tn e e d e d ,f o ral a r g en u m b e ro fi m a g ei n f o r m a t i o n m a n a g e m e n t e a r l yi m a g ea n n o t a t i o no f t e nm a n u a l l yp u tu ps o m ek e y w o r df o ra n i m a g et od e s c r i b et h ec o n t e n to ft h ei m a g e a n dt h e nm a k ei n d e xo nt h e s ew o r d s i no r d e rt oc o n v e n i e n tf o rt h er e t r i e v i n go ft h ei m a g e b u tt h eq u a n t i t i e so fi m a g e i n c r e a s e d v e r yf a s t ,a l m o s te x p o n e n t i a l ,m a n u a li m a g ea n n o t a t i o nb e c a m e e x p e n s i v e 、l a b o ri n t e n s i v ea n de a s yb r i n ge r r o r s s op e o p l eh a v eb e e ng r e a t d e s i r e di n l a b e l i n gi m a g ei na na u t o m a t i cw a y s b e s i d e sa u t o m a t i ci m a g e a n n o t a t i o ni ss i g n i f i c a n c ef o ri m a g eu n d e r s t a n d i n ga n dr e t r i e v eo fw e bi m a g e ,s o i tb e c o m e st h en e wh o tr e s e a r c ht o p i ci nr e c e n ty e a r s o nt h eb a s i so fs e r i o u ss u m m a r i z i n gs o m ei m a g ea n n o t a t i o nm e t h o d s ,w e p r o p o s ea ne f f i c i e n tm e t h o df o ri m a g ea n n o t a t i o n ,w h i c hi st h em e t h o do fc m r m i m a g ea n n o t a t i o nb a s e d o ni n t e r - w o r dc o r r e l a t i o n i nt h i st h e s i s ,i m a g ea n n o t a t i o n i sd i v i d e di n t ot w op a r t s f i r s tu s et h ee x i s t e dc m r mt om a k eb a s i sa n n o t a t i o n t h e nt h es e m a n t i cr e l a t i o n s i l i pb e t w e e na n n o t a t i o n si sa n a l y z e d t h ec o r r e l a t i o n s b e t w e e nk e y w o r di s p i c k e du p ,a n ds t o r e di nam a t r i xw h i c hn a m e di n t e r - w o r d c o r r e l a t i o nm a t r i x t h i sm a t r i xd e s c r i b e st h es e m a n t i cc o r r e l a t i o n s f i n a l l y , t h e , i n t e r - w o r dc o r r e l a t i o nm a t r i xi sa d d e dt ot h ei n i t i a ll a b e l i n gm a t r i xb yg r a p h l e a r n i n ga l g o r i t h m ,m a k i n gt h ec o r r e l a t i o nb e t w e e nw o r d st ob es p r e a db e t w e e n t h ev a r i o u sk e y w o r d sa n dt h e ni m p r o v et h er e s u l t so ft h ea n n o t a t i o n i nt h ee n do ft h et h e s i s ,i no r d e rt ot e s t i n gt h em e t h o dp r o p o s e di nt h i st h e s i s , e x p e r i m e n th a sb e e nd o n eo ns o m en a t u r a ls c e n ei m a g ew h i c hc o m e so u to ft h e c o r e li m a g ed a t a b a s e t h ee x p e r i m e n tr e s u l ti n d i c a t et h a tt h em e t h o do b t a i ng o o d 哈尔滨t 程人学硕十学何论文 p e r f o r m a n c eo na u t o m a t i ct e s t i n gi m a g ea n n o t a t i o n c o m p a r e dw i t ht h ec m r m , o u rm e t h o dg e t sh i g h e rr e c a l la n dp r e c i s i o n c o m p a r e dw i t ht h ec o - o c c u r r e n c e , m o d e la n dm a c h i n et r a n s l a t i o nm o d e l ,t h er e c a l li m p r o v e s3t i m e sa n d1 5t i m e s a n dt h ep r e c i s i o ni m p r o v e s5 5t i m e sa n d2 7t i m e s b e s i d e so ft h e s e ,t h en u m b e r 6 o f k e y w o r dw h i c h c a l lb ec o r r e c tr e t r i e v e da l s oi m p r o v e s3 5t i m e sa n d1 3t i m e s 一 a l lo ft h e s ec o u l dt e s t i f yt h ee f f i c i e n to fo u rm e t h o di na u t o m a t i ci m a g e k e yw o r d s :i m a g ea n n o t a t i o n ;c m r m ;c o r r e l a t i o n ;w o r d - c o r r e l a t i o nm a t r i x 哈尔滨。r 袢人学硕十学何论文 目录 第l 章绪论1 1 1 课题研究的背景和意义l 1 1 1 课题研究背景一1 1 1 2 论文研究的目的和意义2 1 2 国内外研究现状3 1 2 1 国外研究现状4 1 2 2 国内研究现状”6 1 3 本文的主要工作7 第2 章图像标注的基本方法”9 2 1 图像自动标注简介9 2 2 图像标注的基本步骤l o 2 2 1 训练图像集1 1 2 2 2 图像分割12 2 2 3 特征提取1 4 2 2 4 图像描述16 2 2 5 图像标注模型1 6 2 2 6 标注结果评价1 7 2 3 本章小结”1 9 第3 章基于词间相关性的c m r m 标注方法2 0 3 1c m r m 标注方法2 0 3 1 1 图像描述方法2 0 3 1 2c m r m 标注的基本原理2 1 3 1 3c m r m 的图像标注算法2 4 3 2 基于词间相关性的c m r m 标注算法设计2 5 哈尔滨t 程大学硕十学位论文 3 2 1 词间相关性描述2 6 3 2 2 词间相关关系提取算法2 8 3 2 3 相关关系传播算法2 9 3 2 4 基于词间相关性标注算法3 0 3 3 标注整体结构3l 3 4 本章小结3 2 第4 章基于词间相关性的标注方法实现3 4 4 1 方法描述3 4 4 2 实验结果及分析3 8 4 2 1 实验数据集的构建3 8 4 2 2 参数的选择“3 9 4 2 3 实验结果4 2 4 3 本章小结4 7 结论4 8 参考文献”5 0 攻读硕士学位期间发表的论文和取得的科研成果“5 5 致谢5 6 哈尔滨下稃人学硕十学何论文 第1 章绪论 1 1 课题研究的背景和意义 1 1 1 课题研究背景 众所周知,眼睛是人类最重要的感知外界的器官,人们通过视觉与听觉 等手段,从自然界中获取信息,其中视觉信息是主要来源,大约可以占到人 类从外界获取的信息总量的五分之四以上。人们常说“耳听为虚,眼见为实 , 可见视觉信息提供给人们的直观作用是文字信息与声音信息所无法比拟的。 图像是人类视觉的基础,同时,也是人脑对自然场景的客观所映,是人 们得以认识世界和自身的重要源泉。那么到底什么是图像呢? 所谓“图就 是物体反射或透射光的分布,而“像 则是指人眼所看到图在人脑中所形成 的印象。常见的照片、地图、医用图片、艺术图片等都可以称为图像。 图像在人类的生活和交流中扮演着越来越重要的角色,人们对图像的依 赖性也越来越强,这在很大程度上是由于图像具有直观、易于理解及富含大 量信息的特点。由于人脑是一套精密复杂的系统,当人们看到图像的瞬间, 就可以迅速的完成获取图像,分析图像,识别图像与理解图像等一系列复杂 的任务,人们往往更喜欢利用图像说明问题。但是随着计算机等新一代电子 产品以及互联网的快速发展,人们可以获取的图像越来越多,几乎在成指数 增长,怎么对这样大规模的图像数据进行管理和利用,就成了今天所面临的 重要课题。 为了利用现代的科技手段对图像进行有效的管理,可以将传统的图像进 行数字化,从而得到可以在计算机中存储和处理的数字图像。不过可以设想 一下,在计算机中存储着数以千记,甚至数以万记的图像,那么怎样才能从 中快速的找出目标图像呢? 这是一个至关重要的问题。为了解决这个问题, 研究人员们丌创了图像检索这一新的研究领域。在图像检索之前若能先对图 哈尔滨t 释人等:硕十字:何论文 像进行有效的标注,则可以将图像检索转化为对图像标注的关键字的检索, 那么就可以将现有的比较成熟的文本检索方面的技术用于图像检索领域,将 大大提高检索的效率。 简单的讲,所谓图像标注就是根据图像的语义内容,为图像添加一些关 键字,以便准确全面的反映图像的内容。图像标注的应用领域非常广泛,从 网络搜索引擎到医学图像分析等领域都有很大的应用价值。早期的图像标注 多数采取人工方式进行,但是由于每个人对同一幅图像的理解不同,所以标 注结果难免会带有工作人员的个人感情色彩或无法量化的衡量标注效果。而 且,随着数码产品及网络的发展,图像的数据量快速增长,全部由人工进行 标注已无法胜任。因此,探索利用计算机对图像进行自动的标注,变得越来 越重要。 1 1 2 论文研究的目的和意义 近年来,随着计算机技术、通信技术以及互联网技术的迅速发展,标志 着现在已经进入了一个新的互联网时代。与此同时,多媒体数据在人们的生 活中占有越来越重要的位置,其主要形式是图像数据。随着数码影像技术的 发展,数字图像信息呈现爆炸式增长,如何对大规模的图像数据进行有效管 理越来越受到人们的关注。有效的图像描述方法i l 】是图像数据管理的基础。 目前图像描述方法主要采用人工标注的方式进行,即用关键字表示图像的内 容。这种方法在有些场合是很有效的。但是由于标注者与用户对图像的理解 不同,难免会存在主观性与不一致性。而且随着互联网的快速发展与图像的 广泛应用,待标注图像库的规模不断扩大,这时用人工方式进行图像标注就 变得非常耗时费力,代价过高而无法胜任了。因此如何快速有效的进行自动 的图像标注就变得异常重要。 此外,随着新技术的蓬勃发展,数字图书馆等大规模的信息资源库不断 出现。这些资源库中的信息类型多种多样,即有简单的文本信息,又有稍微 复杂的图像、音频、图形信息,以及更为复杂的视频信息。其中图像作为一 哈尔滨t 稗人学硕十学何论文 种最重要的媒体形式,其所扮演的角色正在被人们不断的认可和重视。其数 量也在以惊人的速度不断的增加。如何对大量的数字资源进行方便高效的管 理,进而从中快速准确的检索出真正需要的信息,便成了目前急需解决的问 题。而解决这些问题的基础是要对图像进行有效的标注。 另外,自1 9 7 0 年以来,在多种新技术和计算机听觉与视觉等新的快速发 展的带动下,一个非常新的热点研究领域出现了,这就是图像检索。图像检 索问题从根本上说就是一个视觉问题,即让计算机从语义层次来理解存放于 数据库中的图像,计算机要将图片中的人物或其它物体用文字描述出来。进 而从大规模的图像数据库中提取出满足用户要求的图像。图像检索的方式主 要分为为两种:一种是基于内容的图像检索 2 1 ( c o n t e n t b a s e di m a g er e t r i e v a l , c b i r ) ,另一种是基于文本的图像检索( t e x t b a s e di m a g er e t r i e v a l ,t b i r ) 。 近年来随着多媒体数据库的大规模应用,基于内容的图像检索已成为当前研 究的重点。近十年来研究人员提出了一系列基于内容的图像检索方法与系统。 但是由于底层视觉特征( 颜色、形状、纹理) 与高层语义之间存在很大的不 一致性,即所谓的“语义鸿沟( s e m a n t i cg a p ) ,使得c b i r 的检索性能很难 令人满意。而图像标注可以缓解这一问题,从而得到了人们的广泛关注。 自动的图像语义标注是图像检索中重要且非常具有挑战性的工作【,1 。它 可以能过对已标注图像集的训练,在高层的语义描述与底层的视觉特征之间 建立相应的模型,然后利用这个模型完成对图像集还没有标注的图像的自动 语义标注。语义描述与视觉特征之间的鸿沟通过自动标注得到了有效的解决 可以很好的缓解“语义鸿沟 问题。因此,可以将已经很成熟的文本检索应 用到图像检索中来,检索系统的效率将会得到有效的提高。 1 2 国内外研究现状 图像标注的研究方向主要有两种:一种是基于分类的方法。这类方法首 先将训练图像集中的图像进行分类,分成若干个互不相关的类别并加以标记, 例如:房屋,狗,蔬菜,汽车等,称之为类别标签。同时,为训练集中的每 哈尔滨t 秤人学硕十学何论文 幅图像添加四至五个关键字,这些关键字可以是手工进行标注得到的,要尽 量反映出图像的真实的语义内容,也就是说,要让人一看这些关键字,就能 明白这幅图像的主要内容。需要注意的是,这些关键字与之前提到的类别标 签并不一样,它们是不同层次的概念。例如,一幅图像的类别标签是房屋, 但和它相对的关键字可能是房屋,街道,汽车,人等。这样建立了初始的训 练集后,利用各种分类方法对测试图像集中的图像进行分类,最终实现图像 的自动标注。代表方法主要有:s v m e 4 5 】,基于贝叶斯理论的方法【s 】等。另一 种是通过建立图像与语义概念的统计模型进行标注。主要的代表方法有:共 现模型 7 1 、机器翻译模型【8 】、联合媒体相关模型 9 1 、有监督的机器学习方、法【m i l , 1 2 】等。 1 2 1 国外研究现状 由于国外在图像标注领域的研究开展得较早,以及高度发达的计算机, 通信技术,使得国外的一些技术相对比较成熟,提出了一些比较经典的算法, 如m o r i 等人,在1 9 9 9 年提出了共现模型【7 】,该模型通过统计学习的方式,将 图像的内容转化为文本信息。该模型的基本思想是:首先,将图像分分割成 许多区域,同时将关键字也分割到各个区域;然后,对各个区域提取特征并 进行聚类;最后,估计每个关键字与聚类之间的概率,再根据得出的概率值 选取合适的关键字作为图像标注内容。可见,共现模型在图像与单词之间建 立了联系。但是由于数据集的大小对概率的影响较大,使得共现模型的标注 性能受到了限制。另外,由于在共现模型将关键字严格的对应到图像某个的 分割区域中,使得标注结果受到了较大的影响。总的来说共现模型得到标注 结果并能满足人们的要求。 后来,p d u y g u l u 等人将机器翻译理论应用到图像标注领域,提出了一种 机器翻译模型【s 】。他们认为,图像标注的过程与机器翻译的过程类似,都是 将一种表示方法( 图像区域,相当于法语) 转化为另一种表示形式( 标注, 与英语对应) 。该方法首先将n c u t 0 3 l 算法将图像分割成区域,利用各区域的 4 f n f ! 尔滨t 程人学硕十学何论文 特征,将这些区域进行聚类,形成各种区域类型。在这些区域类型和关键字 之间建立一种映射关系,然后进行学习,并对测试图像进行标注。在该模型 中,对于那些不好标注的关键字个体,也进行了聚类,然后再进行标注,使 得标注的结果有了明显的改善。虽然与共现模型相比,机器翻译模型具有更 高的查全率与查准率,但是由于视觉词元( b l o b s ) 即前文提到的区域类型与 关键字的一一对应关系也很严格,对于标注结果的影响很大,使得标注性能 并没有达到令人满意的程度。 虽然共现模型与机器翻译模型的标注结果虽然并不是最理想的,但是由 于它们较稳定的性能,以及它们在图像标注领域的首创性,目前已成为各种 新方法的性能提升与否的衡量标准。还有许多研究人员,在仔细研究的基础 上,对这两种方法存在的缺点进行了改进,并以此为基础,提出了许多新的 方法,性能也有了较大的提升。 为了对上述模型进行改进,j j e o n 等人i 。j 提出一种基于内容的联合媒体相 关模型( c r o s s m e d i ar e l e v a n c em o d e l ,c m l w ) ,用于自动的图像标注与检 索。该模型假设图像中的区域可以用一个小的视觉词元集来描述。这些视觉 词元是通过对图像特征进行聚类产生的。用已标注的训练图像集,获得视觉 词元( b l o b s ) 与关键词之间的联合分布。对于一幅测试图像,根据它包含的 视觉词元从联合分布中得到关键词以及与这些关键词相关的概率。需要指出 的是,从将词翻译为视觉词元的角度说,该模型并不是翻译模型,相反联合 媒体相关模型利用了词与视觉词元的联合分布。此外,该模型为图像整体分 配关键词,并不指定特定区域,从而摆脱了机器翻译模型中一一对应关系对 标注过程的影响。经过实验证明,该模型与共现模型以及翻译模型相比,在 性能上有了较大的提高。 b l e i 和j o r d a n 扩展了l d a 模型m 】,提出了一种“c o r r l d a ”用于联系词与 图像。l d a 是一个集合概率模型,主要用于处理离散的数据集合,目前主要 用在数据挖掘( d m ) 中的t e x tm i n i n g 和自然语言处理中,主要是用来降低维 度的。b l e i 等人对其进行改进,假设狄利克雷分布可以用于生成一种潜在因 哈尔滨t 程人学硕十学位论文 素的组合,然后利用这个组合生成词和区域,最后利用期望最大化算法进行 估计。b l e i 在文献 1 4 】中展示了在一幅图像中标注特定区域的一些例子。 此外,v l a v r e n k o 等人在参考文献【1 5 】中提出了一种“连续空间相关模 型 ( c o n t i n u o u s s p a c er e l e v a n c em o d e l c r m ) 。对j j e o n 等人提出的c m r m 模型进行了改进,对连续特征向量建模。该模型基于贝叶斯理论,利用高斯 核函数进行特征向量间的距离计算。c r m 又与c m i 洲很相似,但是二者之间 有两点重要的区别:首先,c m r m 是一种离散模型,不能利用连续的特征值, 而c r m 直接对连续特征向量建模。其次,c m r m 中要将特征向量聚类成视觉 词元,因此它的标注质量对聚类错误非常敏感,很大程度上取决于聚类粒度; 而c i 洲不依赖于聚类,因此不会遇到粒度问题。 为了获取更好的标注性能,s l f e n g 等人,利用多重伯努利模型对c r m 模型进行改进,提出了多重伯努利相关模型( m u l t i p l eb e r n o u l l ir e l e v a n c e m o d e l s ,m b i 蝴) 1 1 6 l 用于图像与视频的自动标注。该模型假设给定带有关键字 标注的训练图像集,其中每幅图像有多个关键字,但每个关键字与每幅图像 的特殊关系没有给出。每幅图像被划分为一组矩形区域的集合,对这些区域 提取特征向量。该模型是标注关键字与图像区域特征向量的联合概率分布, 利用训练集进行计算。关键字的概率利用多重伯努利模型进行估计,图像特 征概率利用核密度估计。然后将该模型用于测试集,对测试图像进行自动标 注。 1 2 2 国内研究现状 国内虽然起步较晚,但这方面的研究进展速度也很快。许多大学及其它 研究机构都在该领域取得了突出的成就,如:清华大学,复旦大学,中国科 学技术大学,中科院等。 在基于内容的图像标注中,最困难的问题就是图像的底层特征与高层语 义间存在语义鸿沟。为了在二者之间建立联系,清华大学的路晶等人,提出 了一种新的基于s v m 的否定概率和的标注模型1 5 ,】。该模型以小规模的图像 6 , 哈尔滨t 程火学硕十学何论文 集作为训练集,其中的每幅图像标有单一的语义标签,根据训练集,以s v m 为子分类器,以成对耦合的方式构成多类分类器,进行学习。然后,利用多 类分类器,对未标注图像进行自动标注,得出的结果是与图像内容相关的标 注向量,其各个元素是语义标签及相应的确信度。虽然该模型与一对多方式 的多类分类器【1 8 】及使用概率和法的成对耦合的多类分类器相比,标注性能更 好,但是也有一些不足之处,该模型中的s v m 模型的参数是固定的,没有 按不同类别的图像选择最佳值,因此,该分类器的分类效果必然会受到影响, 需要寻找对参数进行快速优化的方法,以改进该模型的性能。 复旦大学的王梅等人,将扩展的生成语言模型用于图像标注【- 9 1 ,提出一 种新的基于扩展的生成语言模型的图像自动标注算法。该算法利用启发式迭 代过程进行图像的语义标注。该算法利用基于最大权匹配的图像特征生成概 率方法以及词与词之间的相似性来提高标注性能,取得了很好的标注结果。 为了更好的进行图像标注,中国科学院的卢汉清和刘静将图学习算法应 用于标注中,将图像与关键字之间的关系分为了四种:图像之间的关系、关 键字之间的关系、图像到关键字之间的关系以及关键字到图像之间的关系。 提出了一种新的基于图学习的图像标注框架 2 0 i 。图学习算法是一种半监督算 法,即已分类数据和待分类数据都要参与训练。该框架分两步对图像进行标 注,首先,对图像进行初始标注。即以图像为节点,以图间相似性为边建立 图,通过图学习算法将标注信息从已标注图像传递到未标注图像。然后,对 标注结果进行改善。这时,利用关键字之间的关系,建立以词为节点的图, 以初始标注结果设置初始状态向量利用词间的共生关系等对图像的初始标注 结果进行改善。通过学习算法得到图像的最终标注结果。实验证明了该框架 能够得到较好的标注结果。 1 3 本文的主要工作 本文对图像标注的相关问题进行广泛而深入的分析与总结,在全面细致 的学习了相关的知识后,对j j e o n 等人提出一种基于内容的联合媒体相关模 , 哈尔滨f :科人学硕十学何论文 型o 】进行改进,提出了一种基于词间关系的图像自动标注方法。 在本文所提出的方法中,对图像的标注分为两个阶段进行,第一个阶段 为初始标注阶段,实现了c m r m 模型的基本算法,首先建立视觉词元与图 像关键字之间的映射关系,其中的视觉词元是由图像的有效区域聚类得到的。 然后,利用统计学的方法,通过计算每个关键字可以作为图像标注的概率值, 以此作为测试集中图像的初始标注集。这一阶段又可称为基本标注阶段。 在第二个阶段中,先从训练集中统计出标注关键字之间的相关关系矩 阵,即两个关键字同时出现在一幅图像的标注中的概率。并利用该矩阵对标 注的概率进行调整,并对调整后的关键字按概率值进行排序,取出其中概率 值最大的五个关键作为测试图像的初始标注,得到最终的标注结果,这一阶 段称为标注改善阶段。 通过实验分析与原算法对比,本文方法可以明显的改善标注的性能,利 用本文方法生成的自动标注进行检索,可以很好的提高的查全率与查准率。 本论文共分为四个章节和总结共五部分,各部分的内容安排如下: 第2 章归纳了图像标注模型基本框架。首先给出了处理图像标注问题的 基本步骤。然后对图像标注问题的各个步骤进行了详细的介绍,对于其中可 以利用的方法进行了全面的分析与总结。 第3 章提出了基于词间相关性的c m r m 标注方法。详细介绍了c m r m 模型的主要思想及算法原理,分析了该模型的缺点,在此基础上提出了改进 的方法。并给出详细的设计过程。 第4 章详细说明了基于词间相关性的标注方法的具体实现。首先实现了 基于词间相关性的c m r m 标注方法,并将该方法用于对自然场景图像进行 自动标注。然后,通过实验证明了本文方法的有效性,并对实验结果进行了 全面的分析和总结。 在文章的最后全面总结了本文的工作,并对实验结果进行了全面的分析 与总结,对今后的研究方向以及主要的研究工作给出了一些建议。 8 哈尔滨t 程人学硕十学位论文 第2 章图像标注的基本方法 2 1 图像自动标注简介 在当今的社会中,随着数字图像技术的发展,数码照相产品如数码相机、 有照相功能的手机等快速走进了人们的日常生活,使得普通人家自己照相成 为非常平常的事。再加上近年来计算机网络的广泛应用,使得图像在网络之 间的传播变得更加容易。但是伴随而来的,就是出现在惊人数量的数字图像, 往往这些图像都是由一些编号标识的,如“d s c 0 0 0 1 ”等,这些编号会随着产 生图像的设备的不同而不同。时间一长,问题就突显出来。例如人们用数码 相机拍了好多照片,全都存在电脑里,一段时间后若想看其中的某一张时, 可能早已记不清照片的编号了,只有能一张一张的从文件夹里查找。当照片 数量较少时,还不会觉得有什么不方便,但是,设想一下,在网络上每天都 有成千上万张图像,而且还在不断的增加。怎么才能快速的找到真正需要的 图像,或者说怎样才能把查找范围缩小到一个可接受的范围内呢? 对于这个问题,有人可能会说那就给图像加些标题,然后将图像按标题 分别存储就可以了。这确实是解决这个问题的一个很好的方法,这也就是图 像标注的实质。 图像自动标注就是指利用计算机等先进的设备,自动分析一幅图像内容, 为该图像自动生成一组能够完整、准确的描述其内容的关键字,使得这些关 键字可以很明确的反映图像的内容。从而可以利用目前已经很成熟的文本检 索技术,从大量的图像数据库中顺利的检索出自己的目标图像。所以说,目 前图像标注问题的研究已经成为图像检索及其它对象识别技术的基础。 在早期,往往采取人工的方式,来完成这项工作。但是随着图像数量的 不断增加,人工标注的方式显得越来越力不从心了,因为它过于昂贵,而且, 由于每个人对同一幅图像的理解方式不同,造成标注结果不够客观,甚至会 9 哈尔滨。i :柞大学! 硕十学位论文 产生错标或漏标等问题。如图2 1 所示:有的人可能将该幅图像标注为“海, 天,桥”,而另外一名工作人员可能将它标注为“水,道路等。这时就需要 寻找一种新的方式,即可以将人从繁重的手工劳动中解放出来,又可以按照 一种统一的方式完成图像标注任务。于是便产生了自动图像标注。 图2 1 示例图像 具体的说,图像自动标注就是对于一幅图像,通过分析其底层的特征, 来提出它的语义信息,并将这些信息输入到某标注算法中,通过比对或计算, 得到与其相对应的一组标注关键字集合,可以记为,其中的关键字个数, 可能随着所选算法的不同而有差异,但是这些关键字都与图像中的某个语义 对象相关,共同反映图像的语义内容。如图2 2 所示的图像,它的标注就应 该是“飞机、大地、天空、日落、云”。 图2 2 示例图像 2 2 图像标注的基本步骤 目前已经有许多成熟的图像标注算法,通过对这些算法进行分析与总结, 1 0 哈尔滨下程大学硕十学位论文 可以得出图像标注的基本流程如图2 3 所示。该流程图描述了一般的图像标 注的步骤。由于目前许多学者都在图像标注方面的展开了广泛的研究,也提 出了许多不同的标注方法,因此,在具体的标注过程中可能存在一些差异。 但是总体来说,这一流程符合一般的标注过程。 图2 3 图像标注的基本流程 下面就分别介绍一下流程中的各个部分的重要作用及采用的主要技术。 2 2 1 训练图像集 一般来说,自动图像标注算法通常都是采用一种监督式学习( s u p e r v i s e d l e a r n i n g ) 过程来生成模型进行标注的。所谓有监督的学习是指在算法的训练 过程中需要对已知类别的数据进行学习,形成某种模型,然后将未分类的数 据输入到模型中,完成对它们的分类f 2 f j 。 哈尔滨t 柙人导:硕十学位论文 由此可知,在图像标注算法的学习过程中,需要通过对已标注的图像进 行学习,然后来完成对其它图像的标注。也就是说,需要用到一个训练集, 在这里所说的训练集,不但包括训练图像,还包括一个由人工标注过关键字 集合。训练图像都是经过人工标注过的。每幅图像由若干个关键字标注。算 法利用训练集数据进行有监督的学习,从而生成标注模型。 但是,由于目前大规模的训练集的获取有一定的困难,b r y a nr u s s e l l 等 人开发了一个名为“l a b e lm e ”的网站 2 2 1 ,这个网站是个开放的标注工具,提供 一些m a t l a b 工具箱。用户还可以在网站上对感兴趣的图片进行自由的标 注。这样在无形中,就获得了大量的训练图像。 也有的学者采用了半监督学习方法,所谓的半监督学习是指在训练中, 不仅可以利用已知类别的数据,还可以将未分类的数据也用来对算法进行训 缘冽。即将测试集中的信息也应用到对模型的训练中。这样,在学习阶段, 就可以应用更多的信息。很好的解决了带标注的训练集难以获取的问题: 2 2 2 图像分割 图像分割往往是图像标注的基本步骤之一,其基本策略是像素灰度值的 两个基本特性一区域内的相似性和区域之间的跳变性。由于物体自身的复杂 性,以及受图像获取条件等因素的影响,对图像物体进行有效分割却一直是 基础性的难点问题一般的边缘检测方法,对自然景物图像往往出现过分割 或欠分割1 2 4 】的现象,难以取得满意的效果。同时,受光照条件的影响,物体 与背景的边缘模糊造成边缘不连续,也使得一些基于边界特征的图像分割方 法,如基于区域同质性的区域生长【她:7 l ,很难做到很好的分割效果。另外,物 体具有多灰度的特性使得根据图像狄度直方图的分割方法,如最大类间熵, 在实际中也缺乏必要的稳健性。虽然现在有一些图像标注算法,为了避免分 割过程中带来的误差,而采取直接对图像进行处理的方式,但是,由于图像 的数据量过大,往往会造成计算过于复杂的情况。因此到目i j 为止,图像分 割还是图像标注过程中不可缺少的重要步骤。 哈尔滨丁程大学硕十宁何论文 目前在图像标注领域中最常用的分割算法有k 一均值图像分割和n - c u t ( n o r m a l i z e dc u t ) 分割两种1 1 3 2 s 1 。 k 一均值分割是聚类分割中比较常见的一种分割方法,它是一种有效的基 于聚类的图像分割算法。传统的k - 均值聚类分割算法采用特征空间中的相似 性测度来度量像素的归属类别。它对于噪声较小的图像分割可取得良好的效 果。由于该方法是对像素的视觉特征在特征空间聚类,并没有考虑像素的空 间位置信息,这就造成了在空间位置上很接近的像素点在特征空间中却相距 很远,因此往往会造成错误的分类。 n c u t 算法目前广泛被用于图像标注中训练图像集的构建中。许多数据 集都利用该算法来对初始图像进行分割。它的基本思想是将图像分割看作是 一种图分区问题,将图像中的每一个像素看作是图的一个顶点,顶点间由边 相连,边的权值表示各个顶点之间的相似度,通过对像素对之间的相似性和 距离的计算得到,权值计算公式如下1 1 3 2 9 : 一i 丝+ 垃盟、 ;= e 仃,口x ( 2 1 ) 其中的,表示像素的灰度值,x 代表像素的空间位置,盯则代表了,和x 的标准差。可见,该公式是从灰度值和空间位置角度来衡量像素间的相似性 的。然后根据权值矩阵来将图中的所有顶点y 分为两个不相交的子集a ,b , 连接同一集合中的两个顶点的边的权值应该尽可能大,而顶点分布在两个集 合中的边的权值应该尽可能的小。若将这一思想用公式描述,则是为了取得 n - c u t 标准的最小值【2 8 】: “a 动- c 徊r ( 南+ 赤) “置聊= ,。秘 q 。2 其中,那些完全在同一个子集中的边的权值由c ( 么,v ) 和c ( b ,v ) 来计算, 而顶点处于不同子集中的边的权值则由c ( a ,b ) 来计算。 这样分割之后,处在同一区域内的像素是相似的,而与其它区域的像素 有足够的区分度。 哈尔滨下秤人学硕十学何论文 由于n c u t 算法是直接对图像的像素进行处理,运算量非常大,因此有 许多学者将该算法与其它的算法相结合,先用其它的算法对图像进行预分割, 形成一些初始的小区域,利用n c u t 算法对这些小区域进行再分割,取得了 不错的分割

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论