(计算机科学与技术专业论文)基于文本和视觉信息融合的web图像检索.pdf_第1页
(计算机科学与技术专业论文)基于文本和视觉信息融合的web图像检索.pdf_第2页
(计算机科学与技术专业论文)基于文本和视觉信息融合的web图像检索.pdf_第3页
(计算机科学与技术专业论文)基于文本和视觉信息融合的web图像检索.pdf_第4页
(计算机科学与技术专业论文)基于文本和视觉信息融合的web图像检索.pdf_第5页
已阅读5页,还剩134页未读 继续免费阅读

(计算机科学与技术专业论文)基于文本和视觉信息融合的web图像检索.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学博十学位论文摘要 摘要 随着数码技术、扫捕技术和i n t e m e t 的迅速发展,w 曲图像资源h 益丰富。 但由于w 曲数据具有多样性、复杂性和无规则性等特点,如何快速、准确地从海 量w 曲资源中查找用户感兴趣的图像成为一个非常具有挑战性的任务。w e b 图像 检索通过合理地组织w e b 图像资源,并研究高效的查询和检索方法以达到充分利 用w e b 图像资源的目的。目前主流的w 曲图像检索方法大致可以分为两大类, 即基于关键词的图像检索( t b i r ) 和基于内容的图像检索( c b i r ) w 曲图像主要包含两种类型的信息,一种是w e b 图像本身所包含的丰富的视 觉信息,另一种是w ,e b 图像所在网页包含的丰富的文本信息。t b i r 仅仅使用从 文本信息中抽取的文本特征索引和检索图像,而c b i r 仅仅使用从图像视觉信息 中抽取的低层视觉特征索引和检索用户。显然,要较好地满足用户检索图像的需 求,在w 曲图像检索过程中必须充分利用并融合上述两种不同类型的信息;此外, 还需要为w e b 图像附加上包括图像内容的高层语义在内的各种信息,因为用户主 要根据图像的高层语义特征判断图像满足自己的需要程度。但如何为w 曲图像附 加语义信息,以及如何实现上述两种信息的融合直到今天依旧是图像检索领域中 的研究难点。 针对上述问题,本文首先提出了浅层语义处理技术一词汇相似性计算技术。 词汇相似性计算是自然语言处理领域中语义处理的基础性研究之一,主要研究如 何计算词汇之间的语义相似程度。本文的研究中将词汇相似性计算技术作为语义 信息的度量手段,这使得存在于人类思维中的抽象语义信息具有了可计算性和可 对比性,同时也进一步使得w r e b 图像的文本信息和视觉信息( 图像视觉信息被表 示为高层语义特征,参考下文) 的融合成为可能。 其次,本文针对w 曲图像的低层视觉特征和高层语义特征之间的语义鸿沟问 题,提出了一个w r e b 图像自动加权标注模型:首先使用各种机器学习和统计技术 学习从图像低层视觉特征到图像高层语义特征的映射模型:然后利用这个映射模 谳 浙江人学博士学位论文摘要 型抽取图像的高层语义特征;最后根据w 曲图像文本信息和提取出的高层语义特 征本身,使用词汇相似性计算技术度量抽取出的高层语义特征的质量。通过上述 步骤可以将w e b 图像表示为带有权重的高层语义特征,同时也进一步将图像视觉 信息和文= 耷:信息的融合转化为表达图像内容的高层语义特钲和w 曲图像文本信 息的融合。 接着,针对w e b 图像包含的文本信息和从图像视觉信息中提取的高层语义特 征,提出了一种具有可扩展性的w 曲图像检索模型。为了充分利用w r e b 文档中 的文本信息和从w e b 图像低层视觉特征中抽取的高层语义特征,该模型构架在贝 叶斯推理网上,利用推理网内在的多信息源融合能力,将w 曲图像文本特征和 w ,e b 图像的高层语义特征无缝地融合在一起实现w 曲图像检索。 基于上述研究,本文设计并实现了一个w r e b 图像检索原型系统,该系统充分 利用w 曲图像的两类信息:从w 曲图像内容中提取高层语义特征,然后将它们 与从w 曲图像文本信息中提取的文本特征融合在一起实现w 曲图像检索,研究 结果验证了本文提出的模型在w r e b 图像检索中的有效性。 文章最后对本文的研究工作进行了总结和展望。 关键词w 曲图像检索,语义相似性,图像自动标注,图像高层语义特征,贝叶 斯推理网,图像语义检索,信息融合 浙江人学博十学位论文 a b s t r a c t t h er a p i dd e v e l o p m e n to fd i g i t a li m a g et e c h n o l o g ya n ds c a n “,c h n o l o g ya n d i n t e m e tg r e a t l ye n r i c h e sa c c e s s i b i ew e bi m a g er e s o u r c e s d u et 0t h ed i v e r s i 吼 c o m p l e x i t y 柏di r r e g u i a r i t yo fw e br c s o u r c e s ,h o wt oq u i c k i y 卸da c c u m t e l yf i n d i m a g e so fi n t e r e s tt 0u 辩r s 舶mt h eh u g ev o l u m e so ft h ew e b 他s o u r c e si sav e 哕 c h a l l e n g i n gl o n g t e 咖t a s k t bm a k e 如l lu o ft h e s ew e br e s o u r c e s ,i ti sn e c e s s a 叫t o d om o 他陀a r c ho nw c bi m a g er e 仃i c v a l ,i n c l u d i n gh o wl oo 唱柚i 跫t h e m 他a s o n a b i y , a n dh o wl oq u e ga n d 删e y a jt i l e me 丘毫硎v e l y c u r 诧玎l l yp 陀v a l e n ta p p r o a c h e sl ow 曲 i m a g c 旭t r i e v a i 伍ni n t 0 “,0m a i nc a t e g o r i 骼:t e x t b 戤di m a g e 陀t r i e v a l ( t b i r ) a n d c o n t 蜘t b a s e di m a g e 腧i e v a l ( c b l r ) w e bi m a g e sm a i n i yc o n t a i nt v v ot y p e so fi n f 0 肿a t i o n ,o n e i sl o t so fv i s u a i i n f o 咖a t i o ni ni m a g ec o n t e n t s ,柚dt h e0 t h e ri si o t so f t e x t u a li n 仍r m a t i o ni nw e b p a g e s t b lrm a k e su s eo ft e x t u a lf e 咖佗se x t r a c t e do n i yf r o mi m a g et e x t u a li n f o r m a t i o nt o i n d e xa n ds e a r c hi m a g e s ,w h i i ec b i rm a k e su s eo fl o w l e v e iv i s u a if b a t u r e se x t m c t e d o n l yf 两mi m a g ev i s u a li n 内m l a t i o n t o 卿i s 黟c o m m o nu s e ri n f 0 锄a t i o nn e e d i n g ,i ti s n e c e s s a t 0m a k em nu o f t h ea b o v ct 、o 哆p c s0 fi n f o 咖a t i o ni l lw e bi m a g e r e t r i e v a l f u n h e 咖。豫,h i 曲- l e v e is e m a n t i cf e a t u r e ss h o u l db ee 娥r a c t e df b mi m a g e c o n t e n t s ,b e c a u t h ed e g l l e eo f 鞠t i s 亿c t i 伽o f 他! t r i e v e di m a g ei sj u d g e dm a i n l yb a s e d o ni m a g eh i g h - l e v e lm a n t i c佬a t u r c s u n f o n = u n a t e l y t l l e e ) 【t m c t i o no fi m a g e h i g l l - i e v e is e m a n t i c 佬a t u 他sa n d 向s i o no fi m a g et c x t u a l 佬a t u 佗s 锄dv i s u a lf e a t u r e s a r es t 订iad i f 矗c u l tt a s ki nt h ed o m a i no fi m a g er e t r i e v a l 1 oa d d r e s st h ea b o v ei s s u e s t e 册s i m i l 撕t ym e a s u r e ,as h a l l o ws e m a n t i c p m c e s s i n gt e c h n o i o g y i sf i r s t l yp r o p o s e d t h er e 辩a r c ho f 蛔呻s m i l a r i t ym e 船u 他i s o n eo ff h n d a m e n t a lr e s e a 佗hi nt h ed o m a i no fn a t u r a i i a n g u a g pp r o c c s s i n g ,f b c u s i n g0 n h o wt 0q u a n t i z et c 咖s e m a n t i cs i m i l a r i t y i nt h i ss t u d y ,t e r ms i m i l a l r i t ym e a s u r e m e n t 醯t h em e t r i cf 0 彻o f m a n t i ci n f o n n a t i o n ,m a k ei tp o s s i b l et 0c o m p u t c 锄dc o m p 玳 a b s 讹c t m 绷t i ci n f 0 肿a t i o ne x i s t i n gi nh u m 锄t h i n k i n g f u n h e 珊。佗,i ti s t l l c p r e c o n d i t i o no ft h e 允s i 加o ft e x t u a lw e bi m a g ei n f o r m a t i o n 弛dv i s u a lw e bi m a g e v 衙江人学博十学位论文abs昀砹 i n f 0 咖a t i o np r e s e n t e db yi m a g e h i g h - i e v e ls e m a n t i c 龟a t u 陀s s e c o n d i y aa u t o m a t i cw e i g h t e d a n n o t a t i o nm o d e if o rw e bi m a g ei sp r o p o s e dt o a d d r e s st h ei s s u eo f s e m a n t i cg a p e x i s t i n gi ni m a g el o w 1 e v e lv i s u a lf e a t u 佗sa n d i m a g eh i 曲- l e v e is e m a n t i cf e a t u r e s :f i r s t i y i ts t r u g g l e sf o rl e a m i n gt h em a p p i n gf b m i m a g el o w - j e v e jv j s u a lf e a t u r et oh i g h - l e v e ls e m a n t i c 佗a t u r eb ym e a n so fm a c h i n e i e a m i n ga n ds t a t i s t i c a it e c h n o i o g y ;s e c o n d l y t h el e a m e dm a pi su s e dt oe x t r t h i 曲一l e v e is e m a n l i c 诧a t u r ef - r o mi m a g ec o n t e n t s ;f i n a i l y t h eq u a l i t yo fe x t 陀c t e d h i 曲一l e v e lf e a t u r e si sm e a s u r e da st e 咖s i m i i a r i t yb a s e do nw e bt e x t u a li n f o 唧a t i o n a n dh i g h - l e v e l 诧a t u r 豁,陀s u l t i n gt h ew e i g h t e di m a g ch i g h - l e v e l 辩m a n t i c 佬a t u 麟 w h i c hi nt u mc h 柚g e st h e 如s i o no fv i s u a l 锄dt e x t u a li n f o m a t i o ni n t 0t h ef h s i o no f t e x t u a li n f o 珊a t i o na n d i m a g eh i g h - l e v e l m a n t i ci n 硒m a t i o n a r e rt h e n ,w ep m p o s cas c a l a b l em o d e lf o rw e b i m a g e 他t r i e v a l t 1 0m a k c 如u s c o ft e x t = u a lf e a t u r e se x 订a c t e df r o mw e bp a g e s 锄dh i g h - l e v e l m a n t i cf c a t u r 懿e x t m c t c d 仔o mi m a g ec o n t e n t s ,i nt h ss t u d y t h ep r o p o s e d m a g er e t r i e v a lm o d e li sb a s e do n b a y e s j a ni n f e r c n c en e t 、v o r k t h ei m a g et e x t u a l 佗a t u 陀s 卸dh i g h l e v e ls e m a n t i c f e a t u r e sc 卸b ei n t e g r a t e di n t o 、v e bi m a g er e t r i e v a is e a r n l e s s i yw i t i im eh e i po f i n 佗r e n c en e “v o d ( w h i c hh 勰觚i n h e r e n t 如s i o nc a p a b i i i 妙o fm u l t i p i ei n f o 肿a t i o n s o u 心e s b a s e do nt h ea b o v ew o ( ,aw e bi m a g e 陀t r i e v a lp m t o t y p es y s t e mi sd e s i g n e d 锄d i m p l e m e n t e d t h i ss y s t e mm a k e s 凡nu o ft w ot y p e so fw e bi m a g ei n f 0 砷a t i o n 舔 两h o w s f i r s t i y e x 仃a c t i n gh i 曲i e v e is e m n t i c 彻加他s 舶mi m a g ec o n t e n t s ,t h 朋i n i m a g er e t r i e v a lt h e ya 佗i n t e 黟钒e dw i t ht e x t l j a l 佬a t l l r e se x t r a c t e d 五r o mw e bt e x t l j a l i n f o m a t i o n t h er e s e a r c hr e s u l t sd e m o n s t r a t et h eu s e f u i n e s so ft h ep r o p o s e dm o d e ii n w e bi m a g er e t r i e v a l f i n a l i y c o n c j u s i o n sa n df h t u r ew o r ka r ep r e s e n t e d k e y w o r d sw e bi m a g er e t r j e v a l ,s 锄a n t i cs i m i l a r i 劬a u t o m a t i ci m a g ea n n o t a t i o n , l m a g eh i g h l e v e ls e m a n t i cf e a t u 佗,b a y e s i a ni n f e r e n c en e “旧水,i m a g es e m a n t i c r e t r i e v a l ,i n f 0 咖a t i o nf u s i o n 浙江大学博士学位论文 图目录 图目录 图1 1 论文组织结构图9 图2 1 对应“狮了”查询返问结果之一1 5 图2 2 图像内容的层次结构1 6 图2 3c b i r 系统基本框架网1 7 图3 1w 曲图像语义检索框架图3 0 图3 2 图像自动标注示例图。3 5 图4 1g 0 0 9 l e 针对查询词“t i g e r ”的查询结果。4 5 图4 - 2 支持向量机4 8 图4 - 3 训练库s n i p p e t 预处理5 l 图4 4w br j d n e t 语义关系示例图。5 3 图4 - 5s n i p p c t 训练库生成实例图5 4 图4 6d m o z 目录结构示例图5 4 图5 1 图像标注模型系统框架图6 8 图5 2t m 模型中使用的符号定义7 l 图5 3 包含正确标注词和噪音标注词的示例图8 0 图5 4 标注关键词相关性分布示例图。8 2 图5 5i w a m 标注模型标注结果示例8 9 图6 1 基于推理刚的w 曲图像检索模型框架示意图9 8 图6 2 贝叶斯网络示例图1 0 4 图每3 贝叶斯推理网示例图l0 6 图6 - 4 基于推理网的w 曲图像检索模型示例图1 0 8 图6 5 文本信息源单独作用于图像检索测试结果1 l5 图6 - 6 先验概率烈d ) 对图像检索贡献测试11 6 图每7w 曲图像语义查询测试1 l8 l v 浙江人学博士学位论文表r 录 表目录 表2 1 利用关键词检索图像,各搜索引擎返回结果数量比较1 4 表4 1 在r & g 数据集上的实验结果5 8 表4 2 在m & g 数据集上的实验结果6 0 表4 3 在w s 3 5 3 数据集上的实验结果6 l 表5 1c l d s t e s t 测试集上的测试结果8 7 表5 2t m 、n c r m 、m b l w 和h m a m 模型标注关键词集合叠加示例图8 9 表5 3 基于多种词义相似性算法的n f m 在c i d s t e s t 上结果的比较9 0 表5 _ 4w u t e s t 测试数据集上的测试结果一9 i 表5 5w b b _ t c s t 测试数据集上的测试结果9 l 表每lc o r e l i m a g ed a 协s e t 标注集中出现频率最高的3 0 个标注关键词1 1 3 表每2w 曲网页下载源1 l3 表6 3w 曲文档统计1 1 4 v 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得堑江盘鲎或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文作者签名:案聊嚆 签字日期:知弼年7 月哥日 学位论文版权使用授权书 本学位论文作者完全了解逝江盘堂有权保留并向国家有关部门或机 构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝鎏盘堂 可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 苇b 嚆 导师签名: 签字日期:掰年7 月秀日签字日期: 日冬月屯年 ,、 浙江大学博士学位论文 致谢 致谢 时光匆匆,如白驹过隙。在论文完成之际,回想求学之路,快乐而艰辛,在 这六年的博士生涯即将结束之际,谨对多年来给予我关心与支持的良师益友和亲 人们致以最诚挚的谢意! 首先要诚挚地感谢我的导师陈纯教授。本论文能够顺利完成,离小开陈老师 的悉心指导和严格要求,陈老师在论文的选题、研究理论、框架结构、数据整理, 直至撰写、修改和定稿等各个环节均严格把关,并投入了大量的时间和精力。师 从陈老师六年有虞,每次聆听教诲,都如春风风人,陈老师严谨治学、敬业爱生 的教风,注重基础研究、科研协作、学科交叉和研以致用的科学精神,以及强烈 社会责任感和历史使命感所折射出的人格力量,令我深受教益。 其次要特别感谢卜佳俊教授对我科研工作的指导帮助和生活上无私关爱。作 为团队的领头人,卜老师精心指导我开展各项科研工作,帮助整合国内外资源搭 建一系列科研平台,论文撰写过程中不时指点我以正确的方向,使得本论文能够 更完整而严谨。在生活等方面,卜老师又给予了我无微不至的关怀,使我得以安 心科研。可以说没有卜老师的帮助,就没有论文工作的顺利完成。卜老师细致严 谨,锐意进取,兢兢业业,勇挑重担,众多闪光点无一不是我辈学习的典范。 衷心感谢王灿老师对我学习生活的帮助,王老师学识渊博,善解人意,知难 而进,任劳任怨,令我深为感佩。 师恩似海,永生难忘! 衷心祝愿各位老师身体健康,工作顺利,生活幸福美 满,生平安! 在求学历程中,我遇到了许多给予我无私关心和帮助的师兄弟、同学和朋友, 他们使我的求学生涯充满了欢乐,让我在开心的时候能与人分享,让我在烦恼的 时候能找人倾诉。他们是:刘康荫、康志明、蔡柯柯、陈伟、仇光、张利军、吴 升瑞、曲明成等“数据管理课题组”的所有同学( 排名不分先后) ,感谢他们这 几年来对我科研工作的关心、帮助和支持。和他们讨论,总能让我的研究工作得 浙江人学博士学位论文 致谢 到启发。 最后,感谢我的父母、家人对我关爱和奉献,在我最困难的时候他们总是默 默地给予我最大的帮助。尤其感谢我妻子无私的支持,让我在漫长的求学道路上 不感到孤单,让我在拼搏和奋斗的历程中不感到疲倦。 黄鹏 2 0 0 7 年6 月于求是园 浙江大学博士学位论文 第l 章绪论 第l 章绪论 1 1 引言 随着通信和计算机的发展,存储技术的提高和i n t e m e t 的日渐普及,我们拥 有了以往任何时代都无法比拟的信息资源。这其中,不仅仅有简单的文本数据, 更加包括了大量的图像、视频等多媒体信息。数字图像与文本信息相比,更为直 观逼真、形象生动,既与其它类型的信息资源相互补充,更是一种独立的信息载 体。目前i n t e m c t 上的w - e b 信息以每年翻几番的速度迅速增加,w 曲信息资源已 成为l m m e t 上信息资源的主流。根据第2 1 次中国互联网络发展状况统计报告 显示,截止2 0 0 7 年1 2 月,中国网民数达到2 1 亿人,中国网站总数达到1 5 0 万 个,全国网页总数约为8 4 7 亿个【。 很明显,只有合理地组织这些资源,并研究高效的查询和检索方法,才有可 能充分利用它们。于是各种针对i n t e m 戗的图像搜索引擎应运而生,极大地方便 了用户对i n t e m e t 图像进行检索。由于i n t e m e t 上的图像大多数都是嵌入在w e b 网页中的图像,并且本文的研究对象也是针对于w 曲网页中的图像,因此全文中 将使用w 曲图像表示i n t e m e t 图像资源,而针对于i n t c m c t 上的图像检索系统称 为w r e b 图像检索系统。w r e b 图像检索系统按照其组织和管理图像方式的不同,主 要可以分为以下几类。基于文本的图像检索( t e x t b a s e di m a g er e t r i e v a l ,简称 t b i r ) 和基于内容的图像检索( c o n t e n t b a s e di m a g er e t r i e v a l ,简称c b i r ) 。此 外,由于w 曲图像资源的特殊性,w c b 图像检索也具备了新的特点,这也导致了 一些新的检索系统的出现。下文首先简单介绍使用传统的1 1 b i r 和c b i r 实现的 w 曲图像检索,再对一些针对w 曲图像检索的特性而开发的w 曲图像检索进行 分析和研究。 1 基于传统t b i r 和c b i r 技术的w 曲图像检索 浙江大学博十学位论文第1 章绪论 t b l r 的历史可以追溯到2 0 世纪7 0 年代:由于数据库技术的进步而建立和 发展了基于文本的图像检索技术【h 】,并取得了一定成果,例如数据建模、多维数 据索引,查询优化和查询评估等。图像数据研究者们在对图像进行文本标注的基 础卜,对图像进行基于关键字的检索:其基本步骤是先对图像文件建立相应的关 键字或描述字段,并将图像的存储路径与该关键字对应起来,然后用基于文本的 数据库管理系统来进行图像检索。该方法实质是把图像检索转换为对与该图像对 应的文本检索,文献【5 】对该技术进行了较为全面的综述。 2 0 世纪9 0 年代初,人工智能、数字信号处理、统计学、自然语言理解、数 据库技术、心理学、计算机视觉、模式识别和信息处理等技术都得到了不同程度 的发展。在此基础上,基于内容的图像检索的理论和方法研究开始受到重视,同 时也有力地促进了图像检索系统的发展。在这期间,出现了相当多的基于内容的 图像检索系统,其中比较典型的代表有q b i c 【6 7 】,p h o t o b o o k 【8 ,9 1 ,v i 甩g e 【m , v i s u a l s e e k 【1 1 和m a r s 【2 ,1 3 】等。这些系统都遵循同一个模式:用图像的颜色、形 状、纹理等视觉特征表示图像的内容,利用查询例图的视觉特征和底层数据库中 图像的视觉特征进行匹配来完成检索。 2 基于网页内容和结构的w ,e b 图像检索 w 曲图像的检索不同于传统的t b i r 和c b i r ,网络环境中的图像一般是嵌入 在w 曲网页中发布的,w 曲图像及其所在网页的上下文信息为更好地分析和提取 图像特征提供了丰富的外部信息。因为w r e b 图像嵌入在w r e b 页面中,可以根据 图像所处的上下文环境来判断图像的主题内容。目前对w e b 文档的主题提取算法 不少,因此结合这一成熟技术可以简化t b i r 中图像主题人工标注的消耗。例如 g 0 0 9 l e 公司的图像搜索引擎【1 4 1 。此外,c b i r 检索也可以利用w r e b 图像的上下文 信息,例如z h a 0 等【1 5 】使用w ,e b 图像上下文f f l 提取出的主题和w | e b 图像的视觉特 征实现w r e b 图像检索。 除了w r e b 网页所包含的信息之外,还有的研究者使用w r e b 图像所在埘页的 结构和其中的链接等信息改进w r e b 图像检索。例如,c a i 等人【6 ,1 7 1 把网页按照其 组织内容的框架和结构将网页分割成多个基本块,然后将块内的元素作为一个基 2 浙江大学博士学位论文 第l 章绪论 本的语义单元实现w 曲检索。还有的研究者使用网页内的链接信息实现w 曲检 索,例如p a g e 和w a n 一9 1 。 为了能够充分利用w r e b 图像所提供的信息,一些研究者开始研究同时使用 、曲图像所在网页的文本信息以及w 曲图像本身包含丰富的视觉信息实现图像 检索,例如,w b o d r u f f 等人【2 0 】使用缩略图帮助w 曲用户在基于文本检索的结果 中i 更好地定位感兴趣的图像;x 嘴等人【2 1j 采用了类似的策略,使用网页的文本片 段( t e x ts n i p p e t ) 和图像片段( 1 m a g es n i p p e t ) 帮助用户快速定位其感兴趣的网 页。s i i v a 等人的研究结果表明,在w r e b 图像检索中同时使用包括文本和视觉在 内的多种信息有助于改进w 曲图像检索2 2 l 。 1 2 存在的问题及研究方向 w e b 图像检索系统的核心问题是采用何种方式描述图像内容。如前所述,目 前主要存在三种方式生成w 曲图像的描述内容,下文将对它们进行简单的分析。 1 传统的t b i r 采用的人工标注方式。 在i n t e m e t 普及之前,这种方法在规模较小、封闭的数据库环境中是比较有 效的,也获得了不少的应用。然而,i n t e m c t 的出现和网络技术的发展,这种方式 的不足和局限性日益凸出,其中存在两个主要问题: 手工标注图像需要耗费大量的时间和人力,对于海量w r e b 数据来说这是 一个巨大的障碍。 预先选择好的图像标注关键词难以应付冷僻词等非常规的检索,此外, 图像内容会因人的感受不同而出现差异,导致标注内容具有主观性。 上述这些问题不可避免地阻碍了这种方式在w 曲图像检索中的进一步应用。 2 自动提取h 盯儿中信息的方式。 这种方式本质上和t b i r 是一致的,它们都采用关键词索引和检索图像。但 是,为了解决传统t b i r 手动标注图像的缺点,一些研究者研究如何从图像所在 网页自动抽取文本信息标注图像。这种技术由于采用机器自动处理方式标注图 像,因此可以将标注者从繁重的手工标注工作中解放出来,但是由于目前自然语 3 浙江人学博十学位论文第l 章绪论 言处理技术和人工智能技术的相对滞后,很难自动判断网页的哪些信息与w 曲图 像内容是相关的,因此不可避免地会引入“噪音”标注关键词,导致图像检索质 量的下降。如何从网页中判断和抽取和图像内容相关的信息标注图像是通往高质 量w 曲图像检索的一个难以逾越的障碍,要克服这个障碍需要自然语言处理、人 工智能、图像模式识别等多个领域取得技术性的突破。 3 抽取图像低层视觉特征的方式 c b i r 抽取图像低层视觉特征索引和检索图像。具体地说,c b i r 检索技术主 要集中在颜色、纹理、形状和轮廓等低层视觉特征提取的基础上,但是由于图像 特征的描述和提取,以及特征间相似性度量的复杂性,导致其技术仍不成熟,理 论上有许多问题需要解决,概括起来主要表现在以下几个方面: 图像特征。颜色特征是许多c b i r 系统的一个主要研究对象【2 3 1 ,但颜色之 间的相似性度量的定义和视觉上人对颜色的判断仍有一定的差距【2 4 1 。定 义一种和人的视觉相一致的度量可以进一步提高检索效果,这需要对人 类心理学和人类视觉以及颜色物理几方面进行综合深入地研究。此外如 何精确地提取图像的边界形状特征一直是困扰图像处理领域多年的难题 【2 5 】,各种形状特征表达方法对形状信息的丢失非常严重:而且目前各种 形状度量方法仍不具有很好的形状区分能力,不能有效表达形状之间的 相似性【2 6 1 。研究形状特征检索仍然是基于内容检索中最具挑战性的研究 课题,而且较之于颜色和纹理特征,形状特征更加接近子对象水平1 2 7 】。 相似性度量。如何实现特征的相似性度量从定性到定量的转变,目前仍 无很好的解决办法。在图像多特征的相关反馈检索中【2 引,不同特征具有 不同的度量空间,如何将这些距离转变为图像之间的相似度并能准确地 表示人对图像之间的相似性认识是非常困难的,仍需要对其开展大量的 心理实验研究。 语义鸿沟。c b i r 方法在搜索视觉上相似的图像具有较好的效果,但搜索 结果中往往包含语义上毫不相关的图像。s m e u i d e 倦等研究结果【2 j 表明内 容完全相异的图像也可能包含十分相似的低层视觉特征,而这一存在于 4 浙江大学博士学位论文第l 章绪论 图像低层视觉特征与图像高层语义之问的断层被称为语义鸿沟。因此, 仅使用图像低层视觉特征很难满足人们对图像检索多方面的复杂需求。 检索效率。c b i r 基于图像的低层特征之间的近似匹配检索图像,但是相 对于简单的关键词匹配,图像低层视觉特征之间的棚似性计算需要耗费 更多的时问,这对于w 曲的海量数据来说是一个巨大的性能挑战。 从目前罔像检索研究的趋势而言,提高w e b 图像检索存在三个不同的着眼 点,其一是对t b i r 的深入研究。t b i r 将传统的文本检索技术移植于对多媒体信 息的检索上,实现难度略小,但是人工标注消耗大,易歧义,同时更新速度慢, 不易应对网络上日新月异的图像资源。其二是对c b i r 的深入研究。相比丽言, c b i r 实现难度大,更不易取得重大突破。第三种形式是综合t b i r 与c b i r 的优 势,进行w 曲图像文本信息和视觉信息的融合性研究。上述三种方式中第三种是 目前最有希望取得成果的一种。 目前已有一些研究尝试在w r e b 图像检索中同时利用w 曲图像的视觉信息和 图像所在网页的文本信息,但是这些研究还只是停留在信息利用层面,并没有实 现这两种信息的真正融合。例如,w 0 0 d m f f 等人凹l 在基于关键字检索的基础之上, 利用w - e b 图像的缩略图提供的视觉信息直接帮助用户定位其感兴趣的网页:x 雌 等人【2 l 】采用与恻m f r 类似的策略,使用图像片段和文本片段帮助用户在检索结 果中快速定位其感兴趣的网页。w 的d m f f 和x u e 等人仅仅使用w r e b 图像内容将 检索结果更好地展示给用户,并没有将它运用在图像检索过程中。w a n g 等人i 悖l 尝试将图像视觉信息和文本信息分别当作两种不同的对象,然后在它们之问建立 起各种关联,再通过使用互信息将二者融合在一起实现w r e b 图像检索,但是这种 方式并没有充分利用w 曲图像内容的高层语义信息。 1 3 本文研究成果 w | e b 图像所在网页的各种文本信息与w c b 图像通常具有一定语义上的关联 性,因此在许多研究中w - e b 网页被当作w 曲图像内容摘述的一个重要来源。例 如,网页的标题、图像的名字、图像所在网页的上下文都可以作为w 曲图像内容 5 浙江人学蹲十学位论文第1 章绪论 的高层语义描述。 w 曲图像视觉内容蕴含的高层语义特征在图像检索中也具有十分重要的作 用:人们判断图像的相似性并非仅仅建立在图像视觉特征的相似性上。用户在进 行图像检索时总是存在一个大致概念,这个概念建立在图像所描述的对象、事件 以及表达的情感等含义上。理想的状况下,用户主要根据图像的含义,而不是颜 色、纹理、形状等特征,直观地进行分类并判别图像满足自己的需要程度。这些 图像的含义就是图像的高层语义特征,它包含了人对图像内容的理解,这种理解 是无法直接从图像的视觉特征获得的,而要根据人的知识来判断。 从以上描述可知,w r e b 图像可以提供两种类型的信息,即w 曲图像本身包含 的丰富的视觉信息和w 曲图像所在网页包含的文本信息。从之前的描述中可以看 出,仅仅依赖w r e b 图像文本信息( t b i r 方式) 或w 曲图像视觉特征信息( c b i r 方式) 的w 曲图像检索都存在一定的局限性。幸运的是w e b 图像检索中,由于 w 曲图像嵌在w 曲网页中,并且图像的内容和其所在的w ,e b 网页之间存在有一 定语义上的关联性,也就是说w r e b 图像的视觉特征和w r e b 图像的文本特征之间 存在融合的可能性。将图像的文本信息和视觉信息融合在一起实现w 曲图像检索 是目前一种可行的检索方法。本文在以下方面对在w _ e b 图像检索中如何实现文本 信息和视觉信息的融合进行了深入的研究并取得了较好的研究成果: 1 提出基于加权模型的s n i p p c t 分类技术 s n i p p e t 是网页片段,它组成了搜索引擎针对某个查询词的检索结果,因此 可以将同一类型的s n i p p e t 所包含的内容当作对查询词某一层次或某一方面的 语义信息的描述。通常s n i p p e t 包含的信息量只有l 至3 个句子,远远少于一个 文档包含的信息。本文针对s n i p p e t 的这个特点,提出了新的加权特征模型以替 代传统的布尔特征模型,其主要特点是利用被广泛应用于信息检索领域中的信 息熵来量化特征对s n i p p e t 分类的重要程度,使对s n i p p e t 类型更具有指示性作 用的特征被赋予较大的权重,而对s n i p p e t 分类贡献较少的特征被赋予较小的权 重。 2 提出基于搜索引擎的词汇相似性计算方法 6 浙江大学博士学位论文第l 章绪论 词汇相似性计算研究作为自然语言处理领域中一项基础性研究,对许多上层 应用具有巨大的推动作用。本文针对w r e b 图像检索任务的特点和要求,提出利 用w 曲搜索引擎实现的词汇相似性计算方法。该方法将w 曲整体当作一个大的 语料库,将参与相似性计算的词汇当作查询词,然后通过分析检索结果巾词汇 的出现频率和其中主要类型的s n i p p e t 信息来度量词汇之问的语义相似性。 3 提出和设计了w e b 陶像自动加权标注模型 图像自动标注技术可以根据图像的低层视觉特征( 例如颜色、纹理和形状等) 自动给图像标注上关键词,然后可以使用成熟的文件检索技术实现图像索引和 检索。作为图像检索领域中语义鸿沟问题的有效手段之一,图像自动标注技术 是一种很有研究前景和应用价值的技术。针对现存方法和模型的缺点,本文提 出了w 曲图像自动加权标注模型,该模型在利用现有标注模型生成候选标注集 的基础上,使用基于词汇相似性计算的噪音标注过滤模型过滤噪音标注,实现 候选标注集的优化处理。 4 提出基于推理网的w 曲图像检索模型 w 曲图像的上下文提供了丰富的信息,这些信息是w - e b 图像主题的潜在描 述。但是由于w e b 网页内容的复杂性和多样性,由机器自动判断和图像内容相关 的信息依然是一个难点。本文提出了基于推理网的w 曲图像检索模型,它分析和 利用w r e b 网页不同位置的文本信息,以及网页的p a g e 呲值,并将它们融合在 一起共同作用于w 曲图像检索,从而规避了上述问题。 5 提出了w 曲图像文本信息和视觉信息的融合技术 由于w e b 图像文本信息和图像视觉信息之间的异构性,直接将它们融合在一 起存在很大的困难。针对这个问题,本文首先从w r e b 图像视觉信息中提取出代表 其高层语义特征的主题关键词,然后使用词汇相似性计算技术和贝叶斯推理网将 图像文本信息和图像高层语义特征( 代表图像内容) 无缝地融合在一起实现w r e b 图像检索。 7 浙江大学博士学位论文第l 章绪论 1 4 本文组织结构 本文的组织结构如图1 1 所示: 第一章绪论。本章主要介绍了w r e b 图像检索研究的必要性,目前发展状 况和存在的问题。在此基础上,阐述了本文的研究内容、目的、意义,以及论文 的组织结构安排。 第二章图像检索综述。本章详细介绍了目前w r e b 图像检索方法,并对它 们的优缺点做了详细的介绍和分析。在此基础上,介绍了图像检索未来的方向, 以及本文提出的解决方法。 第三章基于文本和视觉信息融合的w 曲图像检索模型。本章主要介绍了 本文提出的w 曲图像检索模型的内部运行机制及原理。该模型主要包括三个部 分,一是词汇语义相似性计算方法,它是自然语言中语义处理的基础性研究之一: 二是图像自动标注模型研究,它将图像视觉特征直接映射到高层语义,是解决图 像的低层视觉特征和高层语义之间语义鸿沟问题的重要手段之一;三是提出基于 贝叶斯推理网的w 曲图像检索模型,该模型通过融合多个信息源来实现w

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论