(信号与信息处理专业论文)基于词袋模型的图像分类方法研究.pdf_第1页
(信号与信息处理专业论文)基于词袋模型的图像分类方法研究.pdf_第2页
(信号与信息处理专业论文)基于词袋模型的图像分类方法研究.pdf_第3页
(信号与信息处理专业论文)基于词袋模型的图像分类方法研究.pdf_第4页
(信号与信息处理专业论文)基于词袋模型的图像分类方法研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 如何面对人们日常生活中接触到的,尤其是互联网上数量激增的图像进行有 效的分类,已经成为研究的新热点。虽然现有的图像分类技术已经取得不错的性 能,但是它们还存在着一些问题。一是大部分现有的图像分类算法都是基于图像 的底层特征,无法解决图像分类中的“语义鸿沟”问题;二是,大多数图像分类算 法总是忽视图像中部分与部分之间的空间关系。 一种新的图像分类的思路是将一幅图像看成一篇文章,图像是由一系列视觉 单词组成的。通过这样的假设,我们可以把图像分类的问题转换为文本分类的问 题,一些非常成熟而且有效的文本处理及分类方法可以被应用来实现高效的图像 分类。 文本建模著名的模型是词袋模型( b a g o f w o r d s ,b o w ) ,该模型已经被应用 到现实的图像分类中,取得了非常不错的效果。基于词袋模型的图像分类可以实 现高速的图片分类,但是它还是无法解决图像分类中的“语义鸿沟”问题及忽略图 像部分间的空间关系问题。 本文对基于词袋模型的图像分类方法进行研究,提出若干改进算法试图缓解 或者解决其存在的问题。对“语义鸿沟”问题,提出利用概率潜在语义分析的方法 提取底层图像特征中的语义信息,并利用这些语义信息进行分类。对如果利用图 像部分间的空间关系的问题,提出在词袋模型基础上,利用文本的语言建模的概 念考虑各种视觉单词的空j 旬关系,并利用这些空间关系进行分类。 本文的主要创新点总结如下: 1 介绍了图像分类发展与问题,将文本分类与图像分类进行了类比,给出了基 于词袋模型的图像分类思路。 2 介绍了图像特征提取算法一尺度不变特征变换描述算子( s i f t , s c a l ei n v a r i a n t f e a t u r et r a n s f o r m ) ,并对其做了改进。改进措施有两种,一项为减少种子点 数目并增加方向数目:另一项为给s i f t 特征提取步骤中增加提取颜色信息的 一环( s i f t 是针对狄度图像的) ,从而优化图像的描述效果。 3 针对图像分类的“语义鸿沟”问题,提出基于概率潜在语义分析与词袋模型的 图像分类方法。该方法在词袋模型的基础上,从视觉词汇中提取具有语义的 中层特征,进而利用分类技术对图像分类。 4 为了利用图像部分间的空间关系,给出了基于语言建模的图像分类方法。在 此基础上,提出了基于“双词袋、三词袋、l 镜像型、十字交叉型词袋”的综 合图像分类模型。 摘要 关键词:概率潜在语义分析模型、词袋模型、图像分类、视觉单词、尺度不变特 征变换、语言建模 a b s t r a c t , a bs t r a c t h o wt oc l a s s i f yt h eg r e a ta m o u n to fd a t ae x t r a c t e df r o mi m a g e sm o r ee f f i c i e n t l yi s o n ev i t a lr e s e a r c h i n gt a s kf o rt h er e s e a r c h e r si nt h ef i e l do fi m a g e sp r o c e s s i n g p e o p l e o s c u l a t em u c hm o r ei m a g e st h a ny e a r sb e f o r e ,e s p f r o mt h ei n t e m e t ;e n o r m o u s i m a g e sp r o l i f e r a t er e s u l t i n gi nm o r ef r e q u e n c yc o n t a c tw i t hu s 。t of i n da ne f f e c t i v e m e t h o do fi m a g ec l a s s i f y i n gi ss t i l lac r u c i a lt a s ka l t h o u g hag r e a td e a lo fw o r kh a s b e e nd o n ew i t h i nt h ef i e l do fi m a g ec l a s s i l y i n ga n dt h ea c c o r d i n gp e r f o r m a n c ew a s g o o d ,b u ts o m ep u z z l i n gp r o b l e m sh a db e e nc o m ef o r t h f i r s t l y , m o s to f t h ee x i s t i n g m e t h o d sf o ri m a g e sc l a s s i f y i n ga r eb a s e do nc h a r a c t e r so fb o t t o ml a y e rb e l o n g i n gt o i m a g e sw h i c hr e s u l ti no n ep r o b l e mc a l l e d “s e m a n t i cg a p ”s e c o n d l y ,a st om o s to f t h ew a y si nb e i n gd o n e ,d i dn o tt a k ef u l la d v a n t a g eo ft h es p e c i a lc o r r e l a t i o n i n f o r m a t i o na m o n gt h ef e a t u r e se x t r a c t e df r o md i f f e r e n tr e g i o n sw i t h i ni m a g e st o o b t a i ns u f f i c i e n ti n f ot oc l a s s i f yt h ei m a g e so f v a r i o u st o p i c af l e wp e r s p e c t i v ei st oc o n s i d e ro n ei m a g ea so n ed o c u m e n to rt e x t c o m p a r i n g w i m 协es t r u c t u r eo fw o r d sc o m p o s e dt e x t ,w ea r ea b l et om a k ea 1 1a s s u m p t i o nt h a t i m a g e sc o n s i s to f “v i s u a lw o r d s ”v i a t h i sn o t i o n ,w ec o u l df i n dt h ev a l u a b l e c o n n e c t i o nb e t w e e nt e x t u a lc a t e g o r i z a t i o na n di m a g ec l a s s i f y i n g a n dt h eq u i t e t h a n k w o r t h yp o i n ti st h a ts o m em a t u r ea n de f f i c a c i o u st e c h n i q u e sh a db e e nr e s e a r c h e d w e l le n o u g hi nt h et e x t u a lc a t e g o r i z a t i o n ,w h i c hb e s t o w su st ou s et h e m a sr e f e r e n c e s a n dt oa v a i lu se x a l t i n gp e r f o r m a n c eo fi m a g ec l a s s i f y i n g t h ew e l l k n o w nm o d e lc a l l e d “b a g o f - w o r d s ”( w h i c hi su s u a l l yw r i t t e na sb o w ) h a sb e e ne m p l o y e di nt e x t u a lc a t e g o r i z a t i o n a n dt h ee f f e c ti s s u p e r i o r a n d d i s t i n g u i s h e d 。a c c o r d i n g l y ,c l a s s i f y i n gm e t h o d b a s e do nb o ww o u l da l s ob ec a p a b l e t oc l a s s i f yi m a g e sw i t hh i g h s p e e d t h i sp a p e ra c c o m p l i s h e st h er e s e a r c ha n dr e l a t i v es t u d ya n dp r o p o s es e v e r a l m e a n st h a tc a ns o l v eo rr e l i e v em o d e r a t e l yt h ee x i s t i n gp r o b l e m o n eo ft h em a i n l i n e so ft h i sp a p e ri st ou t i l i z ep r o b a b i l i s t i cl a t e n ts e m a n t i ca n a l y s i s ( p l s a ) t o e x t r a c tt h es e m a n t i ci n f of r o mt h el o wl e v e lf e a t u r e so fi m a g e s ,f u r t h e r m o r eb yt h e i n f ow em a yc l a s s i f yi m a g e so fd i f f e r e n tt o p i c s r e f e r r i n gt h ea s p e c to fm a k i n gg o o d u s eo ft h es p e c i a lc o r r e l a t i o ni n f o r m a t i o na m o n gt h ef e a t u r e se x t r a c t e df r o mp a t c h e s d i v i d e df r o mi m a g e s ,g r e a te f f o r t i sm a d et oc o n s i d e rt h ev i e w p o i n to f a b s t r a c t l a n g u a g e m o d e ls p e c i f i c a l l yw h a tt h ee s s e n t i a ls p e c i a lc o r r e l a t i o ni s ,w h i l eg i v e nt h e a p p l i c a b l em o d e lo fb a g - o f - w o r d s c o n s e q u e n t l y , t h ea f o r e m e n t i o n e dp r o c e s sm a k e s t h ew o r ko fc l a s s i f y i n gi m a g e sp o s s i b l ea n df e a s i b l e t h em a i nc r e a t i v es u b s t a n c e sc o n s i s to ff o u re l e m e n t s : 1 t of i g u r eo u tt h ed e v e l o p m e n to fi m a g ec l a s s i f y i n ga n dm a k eac o m p a r i s o n b e t w e e nt h et w oc l a s s i f y i n gw o r k so ft e x t sa n di m a g e s m e a nw h i l e ,p r e s e n t i n gt h e o u t l i n eo ft h es t r u c t u r eo fi m a g ec l a s s i f y i n g 2 i m p r o v i n go nt h ec l a s s i cs c a l e - i n v a r i a n t - f e a t u r e t r a n s f o r md e s c r i p t o r sw h i c h a r eu t i l i z e dt oe x t r a c tt h ef e a t u r ef r o mi m a g e s t h e r ea r et w om e a s u r e so f i m p r o v e m e n t f i r s t l y ,t h r o u g hr e d u c i n gt h en u m b e r so fd e s c r i p t o r sa n di n c r e a s i n gt h e n u m b e ro fo r i e n t a t i o n s s e c o n d l y , c o m b i n i n gt h es i f tw i t ht h ep r o p o r t i o n e dc o l o r - d e s c r i p t o rm o d e l sd e r i v e df r o mt h eb a s i cm o d e lt h a ti sr g b t h i sm e t h o dc o u l dm a k e u pt h el i m i t a t i o no ft h eo n l y g r a y - o r i e n t e ds i f td e s c r i b i n gp r o p e r t yt oac e r t a i n e x t e n t 3 t oc o p ew i t ht h eo v e r s t e p p i n g “s e m a n t i cg a p ”,t h i sp a p e rd e p i c t sa na p p r o a c h b a s e do np l s aa n db a g - o f - w o r d s t h ea p p r o a c hi sa b l et oe x t r a c tt h ef e a t u r e so f m i d d l el e v e lf r o mi m a g e sa n dt h e ni m p o s ec l a s s i l y i n gt oi m a g e so fv a r i o u sc a t e g o r i e s 4 t h i sp a p e rp r o p o s e da nc o n c e p tn a m e di m a g e g r a m m a rw h i c hl a ys t o r eb y s p a t i a lc o o c c u r r e n c er e l a t i o n s h i pw i t h i nt h ep a t c h e se x t r a c t e df r o mt h eo r i g i n a l i m a g e s r e s u l t i n gf r o mt h ei d e ao fi m a g e g r a m m a r , an o v e lc o m p r e h e n s i v em o d e l c o m p o s e do fd o u b l e b o w :t r i p l e b o w ,r e v e r s i n g “l ”b o wa n dc r o s s i n gb o w k e y w o r d s :p r o b a b i l i s t i cl a t e n ts e m a n t i ca n a l y s i s ( p l s a ) ;l a t e n ts e m a n t i c a n a l y s i s ( l s a ) ;b a g - o f - w o r d s ( b o w ) m o d e l ;i m a g ec l a s s i f i c a t i o n ; v i s u a lw o r d ;s i f t ;l a n g u a g em o d e l i n g i v 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作 了明确的说明。 作者签名: 签字日期: 争忆弓 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 p 公开 口保密( 年) 作者签名:刁价 导师签名 签字日期:2 1 :驾 签字日期 论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:2 丛作者签名:型幽1 2 0 0 8 年11 月10 日 第一章绪论 第一章绪论 毫无疑问,我们在生活中尤其是在互联网上所要面对的图像飞速增长,这直 接导致了图像分类这个搜索引擎所须具备的图像分类这一关键技术成为了图像 处理研究领域里的热点课题。本章将讨论图像分类的发展与遇到的问题,从而引 出本论丈的主要工作。 1 1 图像分类的发展与瓶颈 图像分类是属于图像处理范畴所讨论的问题,而图像处理正是要研究用计算 机代替人工自动地处理大量的物理信息,解决人类生理器官所不能识别的问题从 而部分代替人的脑力劳动。人类识别图像的过程总是先找出它 f f j # l - 形或颜色的某 些特征进行比较分析、判断,然后加以分门别类,即识别它们。人们在研制自动 识别机时也往往借鉴人的思维活动,采用同样的处理方法,然而图像的灰度与色 彩是由光强和波长不同的光波所引起的,它们与景物表面的特性、方向、光线条 件以及干扰等多种因素有关。在各种恶劣的工作环境里,图像与景物已有较大的 差别。因此要区分图像属于哪一类,往往要经过预处理、分割、特征抽取、分析、 分类、识别等一系列过程。现在这些技术完全可以通过计算机进行模拟、对图像 信息进行处理来达到对它的识别。 在我们现在所处的互联网高速发现的时代,数字彩色图像的取得和存储变得 容易,图像数据库每天也以倍增的速度发展,并广泛应用于各领域。面对海量的 图像信息,如何合理、高效地组织图像数据,实现语义级的图像分类技术,已成 为研究的新热点。虽然现有的图像分类技术已经取得不错的性能【1 】【2 】【3 】,但是它 们还存在下述的一些缺点: ( 1 ) 大部分现有的图像分类算法都是基于图像的底层特征,无法解决图像分 类中的语义鸿沟【4 】【5 】【6 】问题,如图1 1 所示【1 2 】,即底层视觉特征和高层语 义特征之间的不统一性。 第一章绪论 f 情船义h 。甓勰糕l ji 仃为场景目标 一l :结 行为语义 _ 啼i 场景和目标的结 l ; j i 含体或者集合 一i 。 “”“。 【,一 场景语义 l 一场景语义 i 叫 s e m e n t i cg a p 一一一 图1 1图像的六层层次模型与亟待解决的语义鸿沟问题 现有的所谓基于内容的图像检索( c b i r ) 其实都是基于底层的图像特征,没 有真正达到“语义”级别。人类的智慧让我们对图像的语义能够轻而易举地的获 得和理解。通常人们在判别图像的主题或者类别是并非建立在图像低层视觉特征 的基础上,而是建立在对图像所描述的对象或事件的语义理解的基础上。这种理 解是日积月累得到的一种能力。从图像的特征怎样抽象出其内容或主题是解决如 何跨越“语义鸿沟 【7 8 j 要亟待解决的问题,只有跨域此鸿沟,才能真正地做到 “基于内容”的图像分类。 下面举个例子来说明图1 1 的六层模型的含义: 如果一个图像的内容为射击运动员杜丽的射击照片,那么,我们可以称之为 该图像中具有一个目标部件:人。而逾越过“语义鸿沟”( s e m a n t i cg a p ) ,我们 就可以将该图像中的这个对象( o b j e c t ) 杜丽“解释”为“射击运动员。继 而,若过一幅图像中含有多个对象( o b j e c t s ) ,比如“2 0 0 8 奥林匹克射击运动 场的一排射击架”,那么,这幅图像就提供了“场景 ( s c e n e ) 信息【4 0 】我们 便可以判断为这是一张射击场馆的照片。再向高层分析,如果这幅图像具有多个 对象( o b j e c t s ) 比如:场景射击架和多位运动员的射击姿态,即,图像已经提 供了结构化的场景和目标的结合,那么,更进一步,我们就可以从中得到“行为 语义”这是一张关于射击比赛的照片。最高一层,即图1 1 的第六层是最具 人性化的一层“情感语义”,如果在前面描述的己达到“行为语义 的级别 2 的照片中再加入非结构化的人物表睛( 比如杜丽的微笑) 或动作( 句媒体朋友们 招手) ,那么,我们就可以得到照片最高层的语义“杜丽摘得桂冠”。 ( 2j 大多数目像分类算法总是忽视图像中部分与部分之叫的空间关系,这个缺陷 已有研究人员指出吼没有能够充分利用图像“晴示。给我们的小图块状的p a lcl 1 zj 剐包含的空川相关性( 如削i2 所示) 。 旧 ( 1 :。l ,、。,。 字s i 炎亡t c h 叠筑nj 厂j 耻h m 。j 孽 幽l2 型像的分块间存在着空间相关信息 上述的技术瓶颈一直是图像分娄拄术领域的学者们要面对并且解决,最近新 的解决图像分类的思路被提出来:通过比较图像与文本的相似性,利用文本表示 及分类的万法束帮助我们进行图像分类。下节将对文本分类技术和图像分类技术 进行对比,并将配明文币分娄技术如词袋模型,主题模型与语i 模型可以用于缓 解和解决图像分类中存在的问题。 2 由文本分类的技术同图像分类技术的过渡 词袋模型自先应用在文本处理领域并获得了成功。概率潜在语义分析模型采 用非监督的方式挖掘文档集中的主题信息,即可以从底层的特征中提取出具有语 义的特征。词袋模型由于其陕速、高效性在文本分类问题中获得巨大成功5 6 1 第一章绪论 【7 j 。词袋模型忽略了特征之间的联系和位置关系,这虽然造成了一些信息的损失, 但是这样能方便、快速的构造出设计模型。 分析文本分类与图像分类的关系,有利于我们将在文本分类问题的领域已经 比较成熟的各类方法过渡使用到图像分类问题之中。我们将文本分类问题与图像 分类问题类比,类比于一篇文档包含若干文本单词,我们认为一幅图像中包含了 若干个视觉单词。因此,既然依据文本文档可以得到词条一文档( t e r m - d o c u m e n t ) 共生矩阵,从对图像的分析中我们也可以得到图像的词条一文档( t e r m d o c u m e n t ) 矩阵,只不过,后者的词条为视觉词条,而文档也变得不是纯粹意义上的“文档”, 而是图像区域了,因此经过p l s a 后得到的主题也就成了视觉主题。基于主题的 图像的分类方法就是要按照不同图像的主题即这种视觉主题进行分类,这便是文 本分类与图像分类的对应关系。图1 3 表达了这种对应关系。 ? r 一。 ;:文本词汇1 l 一 砾词 已: i i ! ! :文本词汇n ; 毒 :簪警旦: ! : & 堡塑竺j ; ! t ”覆孟最i :! 图1 3 图像与文本的对麻关系 1 3 词袋( b a g - o f - w o r d s ) 模型在图像分类中的应用 在1 2 节中,我们已经指出了文本分类和图像分类的对应关系,这样一来, 文本分类中的成熟的技术就可以为我们图像分类所用了。从对图像的分析中我们 先得到图像的词条一文档( t e r m d o c u m e n t ) 矩阵,其中t e r m 为视觉单词( v i s u a l w o r d ) ,我们由得到的矩阵可以进行一系列的特征提取与聚类( 第三、四章会详 尽说明细节流程) 从而得到词袋( b a g o f w o r d s ) 。 当然,利用基本的词袋模型还是无法解决上文提到的图像分类问题中的问 题,比如说词袋无法表示单词的语义,词袋无法表示视觉单词之间的空间关系。 4 第一章绪论 本文运用两种方法对基本的词袋模型进行改进进行图像分类,如图1 4 : 第一种是利用p l s a 就可以从词袋信息中提取具有语义( s e m a n t i c ) 的视觉主 题( v i s u a lt o p i c ) ,图像便可以利用视觉主题的分布来表示。也就是由低层的视 觉特征提取出了具有语义的视觉主题特征,最后一部是采用支持向量机( s v m ) 分 类器进行最终的类别判定。 第二种则是由词袋信息中的词与词之间空间关系来判定图像类别,我们可以 用一个比喻来解释这种空间关系:在文本中,词与词之间是由不同的相关性的, 这种同时出现的频次的多寡从某种程度上可以解释为“语法 ( g r a m m a r ) ,那么 对于图像,利用词袋中词与词的空间关系来进行图像分类就是在利用一种“图像 的语法信息”。最后,这种抽象的信息被输入至一种特殊的分类器, 关于矩阵中w o r d 的解释 矩阵足南一一个d o c u m e n t 进 j 统汁钳来的 这个d o c u m e n t d l 以烃史奉也i 以匙i 警i 像。 若雇箭者情况,蜘w o f d 为文本肇( t e x t u a l w o r d ) 若足后。种t 寿况则w o r d 为视觉 ( j i , d ( v i s u a l w o r d ) 4 。 ;b a g o f - w o r d ! 图1 4 采h j 词袋( b o w ) 进行图像分类的两种方法 1 4 本论文主要工作 c l a s s o u t p u t c l a s s 、o u t p u t 卜卜 本文提出了基于词袋模型( b a g o f - w o r d s ) 的图像分类改进方法。 本方法又分为两种方案基于词袋模型的概率潜在语义分析模型 ( p l s a b o w ) 方案和基于词袋模型的语言建模的图像分类方案( l m b o w ) 方 案。 第一步,两种方案都利用尺度无关特征变换( s i f t ) 【1 0 】提取图像集中的关 键点及其特征。然后通过对所有关键点的聚类,可以获得一个视觉的词汇表( 类 患耋| 枣逊 第一章绪论 比与文本的词汇表) 。 第二步,利用这个视觉词汇表,每幅图像可以被量化表示为若干视觉单词。 这是对底层特征的第一次抽象。 两种方案的不同在于第三步:前者采用采用概率潜在语义分析模型,从图像 集中提取具有语义的视觉主题。每幅图像可以有视觉主题的直方图来表示。这是 对底层特征的第二次抽象。通过概率潜在语义分析模型,我们可以利用底层的视 觉特征提取出具有语义的视觉主题特征,一定程度上避免了“语义鸿沟”问题。 最后,利用词袋模型对每个图像类另5 ) j l 练出高效的分类模型实现快速、有效的图 像分类。后者则利用抽象得到的视觉单词之| 、白j 的空间关系,这种空间关系往往暗 含了某种“图像语法”信息,而从“图像语法”信息得到图像的类别比p l s a b o w 方 案的语义提取过程相比更加直接因而精确度在大多数种类中要更高一些。 论文内容安排如下: 第一章为绪论部分,主要介绍图像分类这一课题面对的瓶颈,并简要说明了 本文针对此问题进行的改进的思路。 第二章介绍图像特征提取算法。本文采用的介绍s i f t ( 尺度不变特征变换) 这一图像特征表述算子。本文图像特征提取算法主要。对于标准的s i f t 特征提 取方法,提出了两项改进算法,并应用具体的实际图像范例进行了说明。 第三章介绍文本分类的成熟的技术理论背景知识,如词袋模型、潜在概率潜 在语义分析模型与语言模型。通过文本分类技术向图像分类作过渡,实现了不同 领域的技术交叉与融合。 第四章详细介绍基于词袋模型的概率潜在语义分析模型( p l s a b o w ) 方法。 这种方法是由第三章的文本( p l s a b o w ) 分类方法借鉴而来的。其中作为重要 的过渡作用的元素就是“视觉词汇”( v i s u a lw o r d ) 和“视觉词袋”( v i s u a lb o w ) 。 p l s a b o w 的思路在于“降维获真知”,如果p l s a b o w 模型的后面增加支持向 量机与之很好地配合,那么基于词袋模型的概率潜在语义分析模型( p l s a b o w ) 方法对于“对象”( o b j e c t ) 较多的图像】( m u l t i p l eo b j e c t sp e ri m a g e ) 具有良好的 分类效果。 第五章介绍了基于词袋模型的语言建模的图像分类方案( l m b o w ) 方案, 此方案与第四章是各具优势的,第四章将视觉词汇打“打包”( 用不同的词袋形状: 双词袋- - 词袋l 镜像形词袋十字型词袋) ,而第五章则将词袋映射到一维轴上, 当然,该轴的选取需精心设置。 第六章为工作总结与未来工作展望。 6 第二章尺度卜变特征变换描述算了及其改进 第二章尺度不变特征变换描述算子及其改进 本章介绍一种特征描述符一即尺度不变特征变换( s i f t ,s c a l ei n v a r i a n t f e at u r et r a n s f o rm ) ,它是由d a yi dg l o w e 在2 0 0 4 年的研究成果,该图像特征 提取算法成功的被运用到图像拼接、图像分类等计算机视觉课题中。此外,本章 还对经典的s i f t 方法进行了改进,改进措施有两种,一项为减少种子点数目并 增加方向数目;另一项为给s i f t 特征提取步骤中增加提取颜色信息的一环( s i f t 是针对灰度图像的) ,从而优化图像的描述效果,为后续的分类处理奠定更强的基 础结合我们研究工作的需求与本文实验对于所采用的s i f t 特征提取模块的需 求,本论文采用第二种改进措施,即c o l o r - s i f t 联合特征描述方法。 2 1 经典s if t 特征描述子的优势 对图像进行分类的一个重要步骤是对待分类图像提取特征向量,然后用得到 的特征向量与已知分类类别的图像的特征向量进行比较,若满足比较算法所设定 的条件,则将待分类图像分到该类别中。因此特征匹配的首要任务就是提取稳定 的特征,并进行描述。描述子的选取就至关重要。 对图像变化保持稳定的特征描述符称为不变量,比如对图像的旋转保持稳定 的不变量称为旋转不变量( r o m t i o ni n v a r i a n t ) ,对尺度缩放保持稳定的不变量则称 为尺度不变量( s c a l ei n v a r i a n t ) 。特征描述符( f e a t u r ed e s c r i p t o r s ) 指的是检测图像 的局部特征( 比如边缘、角点、轮廓等) ,然后根据匹配目标的需要进行特征的 组合、变换,以形成易于匹配、稳定性好的特征向量,从而把图像匹配问题转化 为特征的匹配问题。 s i f t 算子就是具有上述优势的一种特征描述子 10 1 ,其全称是s c a l ei n v a r i a n t f e a t u r et r a n s f o r m ,即尺度不变特征变换。它是d a v i dg l o w e 在2 0 0 4 年总结了 现有的基于不变量技术的特征检测方法,并正式提出的一种基于尺度空间的、对 图像缩放、旋转甚至仿射变换保持不变性的图像局部特征描述算子s i f t 算 子。 本论文采用s i f t 特征描述的原因对于现实的图像集中,各类物体,或人或 车或动物在图像中的方向是多变的,因此,本论文采用的特征描述子必须对尺 度缩放保持稳定。而s i f t 特征描述子符合我们的实验要求,s i f t 算法提取的 s i f t 特征向量具有以下5 个优点: 1 ) s i f t 特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性, 对视角变化、仿射变换、噪声也保持一定程度的稳定性。 2 ) 独特性好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配。 3 ) 多量性,即使少数的几个物体也可以产生大量s i f t 特征向量。 7 第二聿尺度不变特征变换描述算予及其改进 4 ) 高速性,经优化的s i f t 匹配算法甚至可以达到实时的要求。 5 ) 可扩展性,可以很方便的与其他形式的特征向量进行联合。 算法首先在尺度空间进行特征检测,并确定关键点( k e y p o i n t s ) 的位置和关 键点所处的尺度,然后使用关键点邻域梯度的主方向作为该点的方向特征,以实 现算子对尺度和方向的无关性( 其步骤如图2 1 所示) 。 精确定位 特征点位置 确定特征点 主方向 图2 1s i f t 特征匹配算法流程 下面,我们分别对这四部进行详细的介绍: 2 1 1 尺度空间极值检测 生成s i f t 特征向量 尺度空间理论最早出现于计算机视觉领域,当时其目的是模拟图像数据的多 尺度特征,在这之后,k o e n d e t i n k 利用扩散方程来描述尺度空间滤波过程,并 由此证明高斯核是实现尺度变换的唯一变换核。l i n d e b e r g 【2 3 1 、b a b a u d 列等 人通过不同的推导进一步证明了高斯核是唯一的线性核。因此,尺度空间理论的 主要思想就是利用高斯核对原始图像进行尺度变换,获得图像多尺度下的尺度空 间表示序列,对这些序列进行尺度空间特征提取。 二维高斯函数定义如下: g ( x ,y ,仃) = 击p 小2 叫2 ) ,2 一( 2 - i ) o 矿代表了高斯正态分布的方差。 一幅二维图像,在不同尺度下的尺度空间表示可由图像与高斯核卷积得到: l ( x ,y ,盯) = g ( x ,y ,盯) 木i ( x ,y ) ( 2 2 ) 式( 2 2 ) 中,( x ,y ) 代表图像的像素位置,盯称为尺度空间因子,其值越小则表 征该图像被平滑的越少,相应的尺度也就越小。大尺度对应于图像的概貌特征, 小尺度对应于图像的细节特征。选择合适的尺度因子平滑是建立尺度空间的关 键。上代表了图像的尺度空间。 l o w e 在图像二维平面空间和d o g ( d i f f e r e n c e o f - o a u s s i a n ) 尺度空间中同时 检测局部极值以作为特征点,以使特征具备良好的独特性和稳定性。d o g 算子 定义为两个不同尺度的高斯核的差分,其具有计算简单的特点,是归一化l o g r 第二章j 度小变特征变换描述算了及j e 改进 ( l a p l a c i a n o f - g a u s s i a n ) 算子的近似。 d o g 算子如式( 2 3 ) 所示: d ( x ,y ,仃) = ( g ( x ,y ,k o ) 一g ( x ,y ,盯) ) 卡i ( x y ) = z ( x ,y ,七盯) 一l ( x ,y ,o - ) ( 2 3 ) 在尺度空间极值检测这一步里面,主要是建立高斯金字塔d o g ( d i f f e r e n c e o f - g a u s s i a n ) 金字塔,然后在d o g ( d i f f e r e n c e - o f - g a u s s i a n ) 金字塔里面进行极值检 测,以初步确定特征点的位置和所在尺度。 1 ) 建立高斯金字塔 为了得到在不同尺度空间下的稳定的特征点,将图像l ( x ,j ,) 与不同尺度因子 下的高斯核g ( x ,y ,进行卷积操作,构成高斯金字塔。 高斯金字塔有o 阶,一般选择4 阶,每一阶有s 层尺度图像,s 一般选择为5 层,高四金字塔的构成如图2 2 所示 第 1 阶 第5 层 如么猡黼 尼5 么霉黼 如么猡嬲 矿么留燃 :差猡姗 图2 2 高斯金字塔( o = 4 ,j = 5 ) 在高斯金字塔的构成中要注意,第l 阶的第1 层是放大了2 倍的原始图像, 其目的是为了得到更多的特征点:在同一阶中相邻两层的尺度因子的比例系数是 9 第二章尺度小变特征变换描述算子及其改进 k ,则第l 阶第2 层的尺度因子是k c r ,第1 阶第3 层的尺度因子是k 2 0 - ,其他 层以此类推即可;第2 阶的第l 层由第1 阶的中间层尺度图像进行子抽样获得, 其尺度因子是k 2 仃,然后第2 阶的第2 层的尺度因子是第l 层的k 倍即k 3 c r ,第 2 阶的第3 层的尺度因子是k 4 c r 。第3 阶的第一层由第2 阶的中间层尺度图像进 行子抽样获得,其它阶由此类推。 2 ) 建立d o g ( d i f f e r e n c e o f - g a u s s i a n ) 金字塔 不o d o g ( d i f f e r e n c e o f - g a u s s i a n ) 即相邻两尺度空间函数之差用d ( x ,y ,仃) 来表 这里,d ( x ,y ,盯) = ( g ( x ,y ,k c r ) 一g ( x ,y ,仃) ) 木,( 砂) = 三( z ,y ,七仃) 一l ( x ,y ,仃) d o g 金字塔通过高斯金字塔中相邻的尺度空间函数相减即可,如图2 3 所 图2 3建立d o g ( d i f f e r e n c e - o f - g a u s s i a n ) 金字塔( o = 4 ,s = 5 ) 1 0 男溅缀鞴 一一一一一 , t ,砭一一一一一 # 一h 唐十盘* r 蚨m # # t 厦_ h 二改m 在图中,d o g 金字塔的第1 层的尺度园子与高斯金字塔的第1 层是一致的, 其它阶也一样。 返单为什么总是要利用高斯差分算子呢,l o w e 在文献中进行了介绍:g 关于d 的阶导数u j 以用尺度分别为女口和一的高斯算子的差分的线性组合来近 似 8 g :d v2 g( 2 4 ) w2 g :o v2 g :坐 d ( x ,k o ) 一c ( x ,y ,j ) k j 一口 所以有c ( x ,y ,k o - ) 一d ( x ,y ,们。( 一1 矽2 v 2 g 3 ) 图像的s i f t 特征高斯差分金字塔的生成实例 在本节将以实例给读者一个直观的感受:s i f t 变换的第一步执行结果究竟 如何。幽24 为张书桌角的普通照片。而瞄25 为d o g ( d i f f e r e n c eo p o a u s s i a a l 金字省的灰度表示图,这张效果圈是由漠国) 加利福尼亚大学洛杉矶分校的研究 小组的代码生成的4 ”他们存这一方面作出的贡献书目日自仍然处于世界前列。 在文献圳中可以看到详尽的s i f t 介绍与相关实现特征检测与匹配的程序资料。 图24 将要进行s i f t 特征变换前一步 帕矬9 0 g ( i j i f f e r e n c e o fg a u s s i a n ) 盘,j 苦) 的胤国 * 一幸 盅小娈 女按m 琏算t & h ”。:”一。、”。”鬻。| j 鬻”? 饕| = _ - 婺鬻懋3 j 一鞫遵墨 酒囤逊冀遂j 豳乏臼 溺弼溺鞠毯 目25d o g 1 f e r e 呲。卜6 a u s s i a n ) 金r 增效果图 如图26 ,所示,为了算在每一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论