(计算机软件与理论专业论文)基于文本的web图像检索技术研究.pdf_第1页
(计算机软件与理论专业论文)基于文本的web图像检索技术研究.pdf_第2页
(计算机软件与理论专业论文)基于文本的web图像检索技术研究.pdf_第3页
(计算机软件与理论专业论文)基于文本的web图像检索技术研究.pdf_第4页
(计算机软件与理论专业论文)基于文本的web图像检索技术研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)基于文本的web图像检索技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于文本的w e b 图像检索技术研究 摘要 随着f l e b 信息技术的不断发展,图像作为一种重要的信息资源不可避 免地出现在w e b 的信息资源交换中,其数据规模不断膨胀,面对海量的w e b 图像资源,如何基于w e b 用户的图像认知及检索习惯,高效实现w e b 图像 的检索服务是信息检索领域中的重要研究课题之一。 本文在分析图像及其语义特征的基础上,对图像检索的各种方法进行 了相应的调查研究,基于用户对图像的认知及检索习惯,结合图像所处的 w e b 环境特征,针对现有技术现状,分析了基于文本的w e b 图像检索方法的 可行及有效性。本文围绕改进w e b 图像的检索质量,对基于文本的w e b 图 像检索方法进行了深入研究与分析,并着重图像资源采集及相关文本分析 的预处理环节展开研究,主要工作有: ( 1 ) 针对各类f l e b 图像资源的采集,在分析r o b o t 的核心工作机制基 础上,进行了可配置w e br o b o t 的架构研究与实现,并给予7 相应实验证 明。通过采用可配置的灵活架构,可灵活控制w e b 资源采集的目标、范围 及效率等;通过保留适当的增量开发接口,可实现各种采集工具的无缝集 成,有利于节约各种w e b 资源采集工具的开发成本并提高工作效率。 ( 2 ) 针对日益复杂的h t m l 页面,以v l p s 算法中证明的各项启发式规 则作为支撑,提出基于h t m l 树路径差异度的页面主题区分算法,并给予了 实验证明。通过算法实现复杂页面中的主题区分,可以克服将整体页面视 为同一主题进行索引检索所带来的“主题漂移”现象,有利于准确提取w e b 图像的相关文本,有效地改进基于文本的w e b 图像检索质量。 ( 3 ) 针对同一网站中部分主题信息重复使用的现象,利用基于h t m l 树 路径差异度的主题区分算法,结合t s 算法中的h u b 值概念,提出了基于 网站的噪音过滤算法,并给予了实验证明。通过算法可以有效地识别同一 网站中的重复主题,通过过滤h t m l 页面中的重复主题可达到降噪处理的效 果,不仅有助于用户高效获取有用信息,也有利于确定有效的图像资源并 准确获取图像资源的相关文本,进而改进基于文本的w e b 图像检索的查准 率。 关键词:w e b 检索图像检索w e br o b o t 主题区分噪音过滤 r e s e a r c h0 nt e x t - b a s e dw e blm a g er e t rle v a l a b s t r a c t w i t ht h ec o n t i n u a ld e v e l o p m e n to fw e b - b a s e di n f o r m a t i o nt e c h n o l o g y , 勰 o n eo fi m p o r t a n ti n f o r m a t i o nr e s o u r c e s ,i m a g eh a sb e e ni n e v i t a b l ye m e r g i n gi n w e bi n f o r m a t i o ne x c h a n g ea n di t sc a p a c i t yh a sb e e ni n c r e a s i n g l ye x p a n d i n g a m o n g t h eh u g ea m o u n to fw e b i m a g e s ,h o wt or e a l i z et h ew e bi m a g er e t r i e v a l e f f e c t i v e l yo i lt h eb a s i so ft h ek n o w l e d g ea b o u ti m a g er e c o g n i t i o na n dr e t r i e v a l h a b i to fw e bc l i e n t si so n eo fi m p o r t a n tr e s e a r c hp r o j e c t si ni n f o r m a t i o n r e t r i e v a l t h et h e s i si sb a s e d0 1 1t h ea n a l y s i so fi m a g ea n di t ss e m a n t i c a lf e a t u r e s , a c c o r d i n gt ot h ei m a g er e c o g n i t i o na n dr e t r i e v a lh a b i t so fw e bc l i e n t s ,b y s t u d y i n gv a r i e t yo fm e t h o d so fi m a g er e t r i e v a la n dc o m b i n e di m a g ew i t hi t s s p e c i a lw e bc o n t e x t ,a n a l y z e dt h ef e a s i b i l i t ya n de f f e c t i v e n e s so f t e x t - b a s e dw e b i m a g er e t r i e v a lo nt h eb a s i so fc u r r e n tt e c h n o l o g i e s t h et h e s i sd e e p l ys t u d i e d a n da n a l y z e dt h er e t r i e v a lm e t h o do fw e bi m a g eb y f o c u s i n g 0 1 1t h e i m p r o v e m e n to ft h er e t r i e v a lq u a l i t yo fw e bi m a g e s ,a n dt h es t u d y i s e m p h a s i z e do nt h e c o l l e c t i o no fi m a g er e s o u r c e sa n dt h ep r e p r o c e s s i n gi n a n a l y s i so f r e l a t e dt e x to f i m a g e s t h em a i nr e s e a r c ha c t i v i t i e sc o m p r i s e : h i ( 1 ) f o rt h ec o l l e c t i o no fv a r i o u st y p e so fw e bi m a g er e s o u r c e s , c o n f i g u r a b l ew e br o b o ta r c h i t e c t u r ew a ss t u d i e da n da c h i e v e db a s e do nt h e a n a l y s i so ft h ec o r em e c h a n i s mo fr o b o ta n dc o n f i r m e db ye x p e r i m e n t s b y a d o p t i n gt h ed i s p o s a b l ef l e x i b l ec o n f i g u r a t i o n , t h et a r g e t , r a n g ea n de f f i c i e n c yo f t h ec o l l e c t i o no fw e br e s o u r c e sc a nb ec o n t r o l l e d f l e x i b l y b yr e t a i n i n g a p p r o p r i a t ed e v e l o p i n gi n t e r f a c e ,t h es e a i n l e s si n t e g r a t i o no f v a r i o u sc o l l e c t i n g t o o l sc a l lb ea c h i e v e d , w h i c hi sf a v o r a b l ef o rs a v i n gt h ed e v e l o p i n gc o s to f v a r i o u sw e b c o l l e c t i n gt o o l sa n di m p r o v i n g t h eo p e r a t i n ge f f i c i e n c y ( 2 ) f o rt h ei n c r e a s i n gc o m p l i c a t e dh t m l p a g e s a l g o r i t h mo f p a g et o p i c d i v i s i o nb a s e do nt h ed i f f e r e n c eo ft r e ep a t hi nh t m lw a sp r o p o s e d , w h i c hi s s u p p o r t e db yt h ev a r i o u sh e u r i s t i cr u l e sp r o v e db yv i p sa l g o r i t h m , a n dw a s v e r i f i e db ye x p e r i m e n t s q o p i cs h i f t i n g p h e n o m e n o nc o m i n gf r o mt h ei n d e x s e a r c h i n gi nw h i c ht h eo v e r a l lp a g ei sr e g a r d e da ss i n g l et o p i ce a rb eo v e r c o m e b ya c h i e v i n gt h et o p i cd i v i s i o ni nc o m p l i c a t e dp a g ev i at h ea l g o r i t h m t h e r e f o r e , t h er e t r i e v a lq u a l i t yo fw e bi m a g ea c c o r d i n gt ot h ea l g o r i t h mc a r lb ei m p r o v e d e f f i c i e n t l y ( 3 ) f o rt h ep h e n o m e n ao f u s i n gt h ef l a m et o p i cf r e q u e n t l yi no n ew e b s i t e , t h ea l g o r i t h ma b o u tn o i s ef i l t e r i n go ft h ew e b s i t ew a sp r o p o s e db ye m p l o y i n g t h ea l g o r i t h mo ft o p i cd i v i s i o nb a s e do nt h ed i f f e r e n c eo ft r e ep a t hi nh t m l w i mh u bv a l u ei nh i t sa l g o r i t h m , a n dw a sv e r i f i e db ye x p e r i m e n t s b yu s m g t h ea l g o r i t h m ,t h e r e p e a t e dt o p i ci nt h e $ a m ew e b s i t ec a l lb er e c o g n i z e d e f f i c i e n t l y b yf i l t e r i n gt h er e p e a t e dt o p i c sp r e s e n ti nt h eh t m lp a g e ,t h ee f f e c t s i v o fn o i s er e d u c t i o nc a nb ea c h i e v e d , w h i c hn o to n l yc a nb e n e f i tc l i e n t st oo b t a i n u s e f u li n f o r m a t i o n , b u ta l s oc a nc o l l e c tu s e f u li m a g er e s o u r c , e $ a n di t sr e l a t e d t e x t , a n dt h u sc a ne n h a n c et h er e t r i e v a lp r e c i s i o no ft e x t - b a s e dw e bi m a g e r e t r i e v a l k e yw o r d s :w e br e t r i e v a l ;i m a g er e t r i e v a l ;w e br o b o t ;t o p i c d i v i s i o n ;n o i s ef i l t e r i n g v 广西大学学位论文原创性声明和使用授权说明 原创性声明 本人声明:所呈交的学位论文是在导师指导下完成的,研究工作所取得 的成果和相关知识产权属广西大学所有,本人保证不以其它单位为第一署名 单位发表或使用本论文的研究内容。除已注明部分外,论文中不包含其他人 已经发表过的研究成果,也不包含本人为获得其它学位而使用过的内容。对 本文的研究工作提供过重要帮助的个人和集体,均已在论文中明确说明并致 谢。 一:t 1 鬣叼年易月g 日 学位论文使用授权说明 本人完全了解广西大学关于收集、保存、使用学位论文的规定,即: 按照学校要求提交学位论文的印刷本和电子版本: 学校有权保存学位论文的印刷本和电子版,并提供目录检索与阅览服务; 学校可以采用影印、缩印、数字化或其它复制手段保存论文; 在不以赢利为目的的前提下,学校可以公布论文的部分或全部内容。 请选择发布时间: 口即时发布口解密后发布 ( 保密论文需注明,并在解密后遵守此规定) 论文作者签名。瓠卷铰导师签名叶f 岛。肛 ,1 一,叫煳士掣啦能! 文l 于文奉的- e b 田俄检蠹技术研完 1 1 概述 第一章前言 随着信息技术、网络技术及多媒体技术的发展和推广应用,信息世界不再局限于传 统文本的表达形式,图像、声音、动画等等丰富的多媒体形式呈现于大众面前,并通过 互联网技术实现便利的共享及快速的传播,这些因素直接引发了“信息爆炸”时代的到 来多年前曾有专家指出:。全世界的信息量正以2 0 万倍于人n 的增长速度递增”i l j , 加之多媒体技术及网络共享传输技术的应用及推动,使得人们不仅淹没于信息的数量之 中,同时也迷失于信息的纷繁表达形式之间。 图像作为多媒体信息的重要呈现形式之一,它通过颜色、纹理,形状等丰富的视觉 特征,直观、生动地使抽象数据形象化、真实化地呈现给普通大众,促进了人与人之间 的信息交流,有助于知识的深入理解。随着k t e m e t 技术及多媒体技术的不断发展,图 像这种重要的信息表现形式不可避免地出现在w e b 的信息交换中,并且数据规模仍不 断膨胀,面对海量的w e b 图像资源,迫切需要检索w 曲图像的有效方法。然而,图像 语义丰富,但语义理解却不同于文字,缺乏文字语义理解的明确标准,受到人的感知能 力与知识结构等因素的限制,不同人对相同图像语义的理解存在着偏差,而要使计算机 正确理解w 曲图像的语义,并兼顾不同层次的用户需求实现图像的有效检索,这其中 涉及到的图像采集、图像语义分析与理解、图像检索等技术原理及方法是一项极具挑战 性的课题。 1 2 研究背景及意义 1 2 1 研究背景 从1 9 5 1 年首次提出“信息检索”的概念以来,随着计算机软硬件技术的不断发展, 在不同的历史阶段,由于信息来源与信息编码方式的不同,研究者对信息检索研究的侧 重点不断发生着变化【2 】。信息检索从普通文本检索发展到多媒体检索,多媒体检索又经 历了基于文本的检索,到基于内容的图像、音视频等多媒体检索及目前最流行的面向 w w w 的多媒体检索等发展过程,其最终目标就是以最低的检索代价及最便捷的检索方 式检索出用户满意的信息内容。 图像信息检索作为信息检索领域中的重要分支之一,其起始于二十世纪7 0 年代【3 】, 早期的图像检索依靠人工标注图像语义关键词的方法实现图像检索,即t b 一技术 ( t 眦- b a s e oi m a g er e 仃i m l ,基于文本的图像检索方法) ,在图像资源规模较小的初期, ,冒大掌习e 士掣啦论文| l 亏乞奉的w e b 田啊q j 捌p 一研竞 这种检索方法因检索方式简单,查询效果较好而得到用户的赞赏。随着图像资源规模的 不断增长,这种技术由于存在着人工工作效率等问题,使其在大规模图像检索应用中存 在着一定的局限性。 9 0 年代,伴随着计算机技术、多媒体技术及机器视觉技术的发展,为了克服人工理 解图像语义的效率及主观差异等缺陷,研究者提出了利用机器自动识别图像的底层特 征,以颜色、纹理等作为图像语义检索标识的检索方法,即c b 取 3 1 技术( c o n t e n t - b a s e d i i n a g er e t r i 利,基于内容的图像检索方法) 。然而,图像的语义丰富,其语义层次由低 向高可分为:特征语义、对象语义、空间关系语义、场景语义、行为语义及情感语义【4 】, 由底层的特征语义映射到上层的对象、空间等语义的过程中存在着难以跨越的“语义鸿 沟”问题,因此,这种技术目前只应用于一些底层语义与高层语义之间具有强对应关系 的特殊图像检索中,如指纹识别、商标检索等。利用基于内容的图像检索技术模拟人类 识别图像语义的过程,还存在许多未决的研究课题,其实现的复杂度及成本都相当高, 此外,由于采用颜色、纹理等大众用户并不熟知的底层特征作为检索标识,增加了用户 的操作负担,所以,这种技术并不适用于面向大众的海量w e b 图像资源的检索,世界 著名信息搜索引擎g o o o e 等还没有推出这类图像搜索技术就是最好的佐证。 1 2 2 研究意义 在当前图像检索技术的背景下,对比中国互联网信息中心于2 0 0 5 年7 月及2 0 0 6 年 7 月两次发布的中国互联网络发展状况统计报告的统计数据同,w e b 用户对于图像 信息的获取需求不断增长,且用户的检索经验层次各异,面对种类繁多且迅猛增长的 w e b 图像资源及其使用用户,如何基于用户对图像的认知及检索习惯高效实现w e b 图 像资源的检索成为迫切需要解决的问题。利用基于内容的图像检索方法实现w e b 图像 的检索,其实现代价十分高昂,且在技术上也存在着许多局限性。目前,多数搜索引擎 都没有采纳其作为w e b 图像的检索技术,而是通过改进传统的基于文本的图像检索方 法,利用w e b 文本表达的语义与图像语义之间的相互印证关系,借用成熟的w e b 文本 检索技术,实现图像语义的推导并自动提取表达图像语义的关键词以实现有效的w e b 图像检索。这种方法利用计算机自动提取表达图像语义的关键词,克服了人工工作的效 率问题,但从目前的实际应用情况调查来看,利用这种方式实现的w e b 图像检索,其 检索结果的质量仍存在着不同程度的偏差,需要进一步研究与分析并进行改进,才能有 效地满足不同用户对于w e b 图像资源的检索需求。 1 3 课题研究内容及研究成果 1 3 1 课题研究内容 w e b 图像检索的完整实现涉及到诸多方面的知识原理,不仅需要考虑w e b 用户使 2 j 霄,叫煳士掌位钝夫l 于文奉的曲田像世索拭术靖童 用需求特征、w e b 环境特点、图像语义表达特征等等主客观因素,而且需要并行计算技 术、人工智能技术、多媒体技术及数据挖掘等等技术的支持,其有效实现的复杂度及困 难性不容乐观。 本文在分析图像语义表达及认知过程的基础上,针对图像出现的特定w e b 环境特 征,在分析用户的使用需求及其检索习惯的基础上,对图像的各种检索方法原理及其技 术进展状况进行了相关研究和分析,主要研究内容有: l 、图像语义认知分析研究; 2 、图像检索方法的调查与分析; 3 、w e b 图像的环境特征及其可行性检索方案的讨论与分析: 4 、基于文本的w 曲图像检索的相关技术研究与分析。 1 3 2 研究成果 在对相关技术进行了深入调查研究的基础上,我们围绕基于文本的w e b 图像检索 方法,以改进w e b 图像检索质量为目标,将研究重点放到基于文本的w 曲图像检索技 术的资源采集及图像相关语义文本推断的预处理环节中,主要研究成果有: l 、可配置w e br o b o t 技术的研究与实现; 2 、基于h n 几树路径差异度的主题区分方法研究与实现; 3 、基于网站的h t m l 页面噪音过滤方法研究与实现。 1 4 本文的内容及安排 第一章介绍项目的来源、研究背景、意义及本文的研究工作; 第二章介绍课题的相关技术,包括图像语义及其认知过程、图像检索方法、评价体 系及其应用发展现状、w e b 环境下的图像检索技术、关键算法及其关键技术研究等; 第三章针介绍了可配置w e br o b o t 的研究与实现,主要针对基于文本的w e b 图像 检索的资源采集环节,在深入分析r o b o t 核心技术的基础上,结合目前专业化等垂直搜 索引擎的资源采集需求,提出了一种可灵活配置的r o b o t 架构模型,并针对该架构进行 了相应的技术分析与实验验证; 第四章介绍基于h 1 1 v i l 树路径差异度的主题区分方法及应用研究,主要围绕准确 获取w 曲图像的相关语义文本环节,基于目前页面信息中普遍存在的多主题现象,提 出了一种页面主题区分方法并进行了相应的实验验证;在此基础上,针对同一网站中页 面主题重复出现的现象,提出基于网站的页面噪音过滤方法并进行了相应的实验验证。 同时,结合经验证的算法进行了基于文本的w 曲图像检索质量的改进实验。 第五章为结论部分,对研究工作进行了总结,并对下一步研究工作做了展望。 3 3 , - 叠r 大尊啁士掌位论文| ,;,0 奉的w e b 田l ;自9 掣p k 司 电 第二章w e b 图像检索的相关技术研究 2 i 图像语义认知分析研究 2 i 图像语义 从汉语学角度讲,语义即词语、句子和篇章的意思。扩展到多媒体,多媒体语义即 多媒体信息的含义。文本之外的媒体信息的语义可以用文字描述。图像作为多媒体信息 的重要形式之一,通过文字可以描述图像的语义,如,利用文字描述图像中包含的客观 事物、给人的主观感受及各种抽象概念等嘲 2 i 2 图像语义的特征 图像语义的特征也称为逻辑特征,是一种高层特征,它依赖颜色、纹理及形状等低 层特征的不同组合以表现丰富的高层语义,这些语义可以进一步分为客观语义和主观语 义;从人的认知角度看,人对图像的描述和理解主要基于图像的语义,客观语义与图像 中目标的辨识有关,而实现图像客观语义的获取,需要有一些先验知识的支撑;主观语 义与目标及场景的属性有关,表达了目标或场景的意义和用途,主观语义可进一步分解 为事件、活动类型、情感语义等类型,不同用户对主观语义的理解存在着偏差。 图像语义具有模糊性、复杂性及抽象性的特征f 7 】,且语义具有内在的层次特征,根 据语义复杂度的不同,主要的语义层次包括:特征语义( 如颜色、纹理、结构、形状等) , 这些特征是与视觉感知直接相连的部分,是图像的底层语义;对象语义( 如人、物等) 和空间关系语义( 如人在房前,球在草地上等) ,这需要进行一定的逻辑推理并识别出 图像中目标的类别;场景语义( 如海滨、旷野、室内等) 、行为语义( 如进行图像检索、 表演节目等) 和情感语义( 如赏心悦目的图像、使人振奋的图像等) ,由于这类语义涉 及到图像的抽象属性,需要对所描述的目标和场景的含义进行高层推理。 2 1 3 圈像语义的认知过程 图像语义丰富,根据人类理解和认知图像语义的普遍过程,可以将其认知的过程由 低向高划分为六个步骤( 如图2 - 1 ) 嘲,每一认知步骤对应于其中的一个语义层次,高一 层的语义获取需要以低一层的语义获知为基础。由于图像语义所具有的模糊、复杂及抽 象等特点,不同自然人由于自身知识结构及分辨力的差别,导致其对图像语义的理解呈 现出主观性和易变性,即不同的用户在不同的时间或环境下对同一幅图像的语义判断也 l 于,:奉的e b 田啊潍章董p 一研竞 会不同【9 l 。 低 高 i 特征语义f l 对象语义i l 空间关系语义 l l 场景语义l i 【行为语义i l 情感语义i 特定颜色纹理和形状特征及其组合;如:白色圆形 对象的出现;如:足球,草地 对象之间的空间关系;如:在草地上的足球 图像所处的场景;如:白天,球场等 图像所表示的行为或动作;如:一场足球比赛 图像给人带来的主观感受:如:让人兴奋或让人悲伤 图2 - i 图像语义认知模型 f i g u r e 2 一l $ e m n t i c b a s e di m g ec o g n i t i 0 1 1m o d o l 随着计算机技术及机器视觉技术的发展,人类可以利用一些高级自动化技术提取图 像的各种底层视觉语义特征,如颜色、纹理及形状等,但这些底层的语义特征本质上不 属于语义层次,并且由于其与高层语义之问不存在强对应关系,使现代计算机视觉技术 还不能稳定地建立起图像的语义信息与图像的底层视觉特征间的对应关系,这即是困扰 研究者的“语义鸿沟”问题( 4 i l s l o o 。正是因为此,导致虽以图像底层视觉特征比对为基 础的基于内容的检索方法在一些特殊专业领域中得到了成功运用,但通过其实现大规模 的通用图像检索还存在着许多未决的技术难题。 2 2 图像检索方法概述 图像的语义内容丰富,中国古人云。百闻不如一见”,西方哲学家说。一幅图胜过 千言万语”,充分说明了图像在信息传播方面的作用。随着计算机视觉、多媒体技术, i n t e m 既等技术的蓬勃发展,图像资源的产生、存储、传输及访问量也呈指数级态势增 长着,面对海量纷繁的图像资源,如何有效地帮助用户实现图像资源的获取成为近年来 信息检索领域中的热点研究课题。图像借助于直观形象的视觉特征,如颜色、形状及纹 理等的不同组合以表达丰富的语义信息,普通用户对于图像的认知常基于其丰富的视觉 特征所表现出的不同语义信息,因此,根据图像所表达的语义实现图像资源的检索是一 种符合用户常规认知的有效方法。 ,1 一j 叫乒习【t 尊啦截 文 l 于毫奉的- e b 田像检索技术研完 2 2 1 基于文本的图像检索方法概述 基于文本的图像检索方法诞生于二十世纪7 0 年代【l l l f 瑚,是图像检索方法的常用技 术之一,它利用人工进行图像语义识别,并用相应的文本关键词对图像语义进行注解以 实现图像的检索。由于语言文字是人们进行语义表达最直观和熟知的手段,也是检索技 术中广泛采用的检索方法,故通过其实现的图像检索使得检索形式较为简便、且由于采 用人工注解图像语义,有效跨越了。语义鸿沟”,从一定意义上说是基于语义的图像检 索方法。在图像规模较小的初期应用中,这种方法有效地满足了图像的检索需求,然而, 随着图像检索应用的不断深入,利用人工提取图像语义标识以实现检索的方法存在着一 些明显的缺陷: 人工提取图像语义标识需要耗费大量的人力资源,尤其面对呈指数级增长态势 的图像资源,完全依赖人工工作存在着明显的效率问题; 人工实现图像语义标识的提取过程存在着主观片面性,图像的语义丰富,充分 理解图像语义依赖于不同的知识结构及理解能力,不同人对其理解存在着主观 差异性。 因此,面对不断增长的图像资源检索需求,如何高效、客观地实现图像语义的识别 是影响基于文本的图像检索方法发展的瓶颈技术。 2 2 2 基于内容的围像检索方法概述 二十世纪9 0 年代初,伴随着计算机视觉、模式识别等技术的发展,研究者试图模 拟人类识别图像语义的感知过程。提出了基于内容的图像检索方法【9 l 【1 3 。这种方法利 用机器自动识别图像的不同视觉特征,如颜色、纹理、形状等低层特征,并根据其进行 图像索引,利用图像特征的相似性匹配实现图像检索。基于内容的图像检索方法有效地 克服了人工描述图像的主观性,提高了图像检索的工作效率但人类对于图像的习惯认 知基于图像的高层语义,利用图像的底层统计特征表达图像的高层语义存在着一定的局 限性,因此,尽管基于内容的图像检索已经在特征选择、特征匹配、检索技术等方面取 得了很大的进展,但其只基于图像的底层特征实现检索,增加了用户检索操作的复杂性, 不符合普通用户对于图像的常规认知习惯。 图像语义丰富,低层语义层次与高层语义层次之间存在着难以逾越的“语义鸿沟”, 目前,围绕如何克服“语义鸿沟”问题所进行的一系列研究成为基于内容的图像检索领 域中的热点研究课题。研究者利用各种人工智能技术,如知识库、模板库等智能辅助技 术的支持以试图跨越。语义鸿沟”,他们取得了一定的成果,但技术应用受限于一定范 围,如在指纹识别、医学影像检索及商标检索等专业图像检索领域中得到应用,对于规 模庞大、形式各异及内容丰富的w e b 图像信息资源,要利用基于内容的图像检索方法 实现有效的w e b 图像检索,不仅实现的代价会相当高昂,现有技术上也存在着许多未 决因素。 6 广冒r 大箪硬士掣啦性,丈| l 于文奉的w e ba n i l i u m - 囊! 舅u 一研究 2 3w e b 图像环境特征及可行性检索方案分析 w e b ”l 技术的诞生改变了传统的信息交流与共享模式,它通过h t t p 1 6 】协议 ( h y p e r - t e x tt r a n s m i tp r o t o c o l ,超文本传输协议) ,以w e b 页面为节点,超链接为纽带将 世界各地的信息资源连接起来形成复杂的巨型网。由于w e b 采用了开放、自由的信息 资源共享及交流模式,从诞生以来一直受到用户的欢迎,其中的信息资源也日新月异, 它已成为世界上最大的信息资源库。图像资源作为w e b 资源库中的重要信息资源之一, 它的规模不断递增,如何在w e b 环境下对其进行有效的组织、管理并提供相应的检索 服务是目前迫切需要解决的问题,这一系列问题的有效解决需要深入分析w e b 图像的 特定环境特征,并结合现有图像检索技术和用户需求特点才能得到较好的解决。 2 3 1w e b 田像环境特征概述 面对海量的w e b 图像资源库,如何高效地实现w e b 图像的检索,需要对图像所处 的w e b 环境等特征进行深入分析 ( 1 ) w e b 数据的特点1 7 1 w e b 数据来源广泛,结构性差,而且数量庞大,内容良莠不齐,概括起来有如下特 数据分布:由于w w w 本身的特点,使得数据分布在地理位置各不相同的计算 机上,这些计算机通过网络互连,形成了物理上分布的拓扑结构,造成数据的 分布式存储; 数据量大;w e b 本身以指数级速度增长着,数据规模成为一项棘手的问题,据 统计,现在每天增加1 0 0 万个页面,页面总数已经超过1 0 0 亿; 数据的动态性:由于w e b 的动态特性,每天都有新的页面产生和加入,同时也 有一些页面和链接被更新,因此w e b 上的数据不断地处于动态变化之中; 结构性差且数据冗余:w e b 上的数据是主要以h t m l ! 嘲( h y p e r t e x tm a r k u p l a n g u a g e ,超文本标记语言) 的形式实现组织,它缺乏确定的语义描述且结构性 较差;由于资源共享及自由交换的特点,w e b 数据常被自由拷贝引用,形成了 大量的冗余数据; 数据质量不同:w 曲作为一种新兴传播媒体,自由、开放等特征使其中的多数 信息未经正规编辑,数据质量及有效性存在着严重的偏差: 数据异构性:w e b 数据格式种类繁多,存在着文本、图像、视频、声音等等种 类,每一种类又存在着众多的格式支持,造成数据结构及形式各不相同; 多语种及多内码:w w w 技术将世界变成一个地球村,其中的w e b 页面以不同 的语言文字实现信息表达和传播,每种文字存在着多种内码表示方法,这导致 w e b 信息的表达出现多语种及多内码的特点。 7 g - 冒,“螺士掌咖瞻文| i ,嗨的- e b 田q q 囊埘k 研完 ( 2 ) w e b 页面特征 w e b 中的各种数据信息资源主要通过w e b 页面形式予以呈现,一般一个w 曲页面 以一个计算机文件表示,这些文件通过u r l ! l s j ( u n i f o r mr e s o u r c el o c a t o r ,统一资源定 位器) 来描述其存放的位置,主要以h t m l 等标记语言来组织内容。其具有如下特点: 页面形式多样:w e b 页面的形式多样,存在着多种组织形式,如文本文件、p d f 文件、图片、声音及视频等各种形式; 页面中包含着大量的链接:w e b 页面信息通过不同的链接相互关联,通过超链 接实现着信息的跳跃式浏览,这些链接的存在使页面之间存在着复杂的联系; 页面噪音:由于商业因素等影响,页面中充斥着大量的广告等无用信息,这些 信息被称之为噪音,它干扰着有效页面信息的获取; 页面以网站为单位组织;虽然w 曲页面之间不存在强制的语义结构,但受商业 管理模式等因素的影响,w e b 页面一般以网站的形式实现信息的发布,导致同 一站点下的页面之间必然存在着更多的相关性。 ( 3 ) w e b 图像特征 随着多媒体技术的不断发展,图像早已融入到w e b 信息资源中,它以u r l 等地址 形式嵌入于w e b 页面中,通过生动形象的视觉特征表达丰富的语义信息。根据图像在 页面中出现的位置及作用,所代表的意义各不相同,图像起到不同的作用: 修饰图像:由于图像具有生动、直观的表现力,利用它作为页面的修饰元素有 利于信息的展现及页面美化功能,其应用可以吸引用户访问,确保w e b 页面的 点击率,通常这类图像资源会以基于站点的形式重复使用,可以根据它引用的 地址结构进行有效分析与识别; 广告图像:广告是w e b 自我生存的手段之一,图像由于其生动的表现特征而大 量应用于各种广告形式中,各种以广告形式出现的图像资源大量地嵌入于w e b 页面中,并表现出在同一站点下重复使用的现象,它的存在干扰了用户快速有 效地获取图像资源; 有效图像:这类图像的存在是作者根据页面的主题意义而精心选择,用于配合 页面主题表达的图像资源。这些图像资源与页面中的其他媒体元素、如文字、 视音频等信息表现形式并行承担着表达作者主旨意图的作用,是用户关心的有 效图像资源,w e b 图像检索的目的即要帮助用户高效获取这类图像资源。 2 3 2 曲图像检索的可行性方案分析 针对海量的w e b 图像资源,需要基于用户的认知习惯实现基于语义的图像检索, 从现有的技术调查分析中看,一方面,利用基于文本的图像检索技术,依赖人工工作 实现海量w e b 图像检索显然具有许多非现实性;另一方面,尽管近些年来基于内容的 图像检索技术得到了长足的发展,但由于机器识别图像的过程中,低层语义到高层语 3 广蕾r 杰茸昀曩士摩啦论文l 于文奉的e b 田像检索拉爿u 口f 究 义之间存在着难以逾越的“语义鸿沟”,导致利用该方法实现w e b 图像检索服务的技术 条件还不成熟。目前,虽然有部分搜索引擎提供基于内容的w 曲图像检索服务,但其 只利用一些底层特征,如颜色、纹理及形状等简单特征实现图像检索,这些底层特征 并不能较好地表达图像丰富的语义内涵,不符合用户对于图像的认知及检索习惯。 用户检索图像更关心概念层次上图像的内容和图像所表现的寓意,即图像的高层 语义【1 9 1 ,如何基于用户的实际需求,跨越机器识别过程中存在的“语义鸿沟”,利用语 义高效实现w e b 图像检索成为摆在我们面前的难题。幸运的是在w e b 环境中,图像嵌 入于w e b 页面中,其引用是页面创作者根据实际需求进行的有意选择。这些图像用于 页面修饰、广告及主题呈现等目的,包含了页面作者对于图像的识别及理解过程。其 中用于主题呈现的图像是帮助作者实现主题表达的有益元素,是用户关心的有效图像 资源,它与相应的主题文本共同承担着主题表达的作用。基于这些特征,完全可以利 用与图像共同出现的文本,分析这些文本与图像语义之间的相互关系,并自动提取表 达图像语义的关键词以实现有效的w 曲图像检索,即基于文本的w e b 图像检索,它是 目前检索w 曲图像资源的一种切实、可行并有效的方法 2 4 基于文本的w e b 图像检索技术概述 基于文本的w e b 图像检索技术是目前各类提供w e b 图像检索服务的搜索引擎广泛 采用的方法,它借用成熟的w e b 文本检索技术,通过自动分析获取图像的相关文本, 推断图像表达的语义实现检索。从实际检索结果的质量调查来看,检索结果存在着一定 的偏差,需要进一步研究以改进检索质量。 2 4 1 曲文本检索技术概述 面对动态、异构、海量的w e b 文本资源库,产生了w e b 文本检索技术,其核心就 是利用机器人采集程序自动完成网络信息资源的搜索、并实现相应的检索服务,检索的 理论基础是已发展多年的信息检索技术,国内多称为情报检索嗍。w e b 文本搜索引擎可 以看作w e b 文本检索技术的一个应用实例,它在传统文本检索系统的基础上,通过搜 索器自动采集网页信息,获取相应的检索数据源,并提交给索引器进行文本信息索引, 用户通过相应的接口提交检索需求,并由检索器实现相应的检索服务。w e b 文本检索实 现的基本结构应由搜索器、索引器、检索器及相应的用户接口部分组成【2 l 】,基本工作原 理如图2 - 2 所示。 ( 1 ) 搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息,它通常是一个自动执行的计算 机程序,般把它称作r o b o t 、s p i d e r 或c r a w l e r 等,它以指定的种子u r l 作为起始遍 历点,在获取相应的w e b 页面信息后,解析页面中包含的超链接,以此递归遍历获取 9 ,1 j 曲鼻习士拳位论文i 于文事的e b 田侏麓囊技术研究 其他页面信息。如果将w w w 抽象成以w e b 页面为顶点,以超链接为有向边的巨型网 g 似e ) ,那么搜索器的遍历搜索过程即可以抽象成树搜索方式,也就是以某个树结点为 起点,以有向边为方向,可以在树中实现深度优先遍历或广度优先遍历,最终遍历获取 树中所有的资源阎。搜索器是网络资源检索实现的基础,它采集到的页面数量、质量从 根本上决定了w e b 文本检索的检索效果。 图2 - 2 耽b 文本检索工作原理 f i g u r e 2 2y e bt e x tr e t r i e v a l - e c l i a n i s l ( 2 ) 索引器 索引器的功能是理解搜索器所获取的页面信息,进行页面信息的自动标引,建立索 引项并生成索引库。索引方式有多种:包括基于词频统计的索引、基于词区分值的索引 和基于概率加权的索引例鲫。索引采用的结构往往与文档内容的表示和检索算法密切相 关,不同的检索模型采用的文档索引结构也往往不同。一个好的索引结构应该易于实现 和维护、检索速度快、空间需求低。倒排文件是最常用的索引结构,它易于实现、检索 速度快、并能够支持布尔模型、向量空间模型等多种检索模型,是w 曲文件检索技术 广泛采用的索引结构。在海量w e b 文本检索技术中,索引可以缩短检索的响应时间, 提高检索效率,是实现高效检索的关键。 ( 3 ) 检索器 检索器的功能是根据用户的检索需求在索引库中快速检索出文档,进行文档与检索 需求相关度的评价,并按相关度降序将结果反馈给用户,同时提供某种相关性反馈机制。 检索器中常用的检索模型有布尔模型、向量空间模型和概率计算模型等。在海量的w e b 信息资源检索中,合理的捧序算法不仅考虑文档本身内容的相似度,还需要结合相应的 超链分析算法以确定信息资源的重要性,如通过p a g e r a n k 、h i t s 算法进行重要性判断 以提供合理有效的检索结果。检索器对检出结果进行合理有效的排序,可以有效提高检 索结果中的首页查准率,是w e b 检索技术中关注的技术指标之一 ( 4 ) 用户接口 1 0 广r 大掣嘎士掌位 e i 文l 于支奉的e b 田俄检索筑术研究 用户接口承担着用户与w e b 文本检索处理的交互工作,是用户输入检索需求、查 看检索结果并根据需求进行相关反馈等一系列操作的可视用户界面。用户接口友好可以 简化用户的操作,帮助用户高效地进行信息检索,是实现w e b 检索服务需要考虑的重 要因素之一 2 4 2w o b 图像相关语义文本提取 基于文本的w e b 图像检索技术依赖于图像的特定环境特征,通过推断与图像相关 的语义文本获取图像的语义,并借用成熟的w e b 文本检索技术实现w e b 图像的检索。 如何分析并获取图像的相关文本是实现基于文本的w e b 图像检索技术的关键。 w e b 图像的相关语义文本蕴含在页面文本中,相关语义文本主要包括: 图像的文件名,其一般为拼音、英文单词、英文缩写或中文词语等,通常蕴含 了图像的主题或主体名等; 图像周围的文本,其表现为一个句子或一个段落,包含了丰富的图像语义信息; 图像的标签,常以短语的形式概括图像的主题内容; 图像所在网页的标题,通常以一个短旬的形式概括网页的核心内容,可能与图 像的语义相关; 图像链接的网页,以链接形式关联的图像和网页之间具有密

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论