(计算机应用技术专业论文)图像检索系统的优化技术研究.pdf_第1页
(计算机应用技术专业论文)图像检索系统的优化技术研究.pdf_第2页
(计算机应用技术专业论文)图像检索系统的优化技术研究.pdf_第3页
(计算机应用技术专业论文)图像检索系统的优化技术研究.pdf_第4页
(计算机应用技术专业论文)图像检索系统的优化技术研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)图像检索系统的优化技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 随着w e b 技术的发展,互联网上出现了一系列基于内容的图像检索应用, 即“以图找图”。石材图像检索系统是为石材行业开发的一个基于i n t e r n e t 环境的 实用信息系统,该系统可通过石材图像本身的特征,检索与未知图像相同或相 似的石材图像及相关信息。 当前针对图像检索的研究主要集中于如何让图像比对更加准确,即重点关 注“以图找图”的效果。但是,石材图像检索系统中,由于计算量大,访问数据库 效率较低,用户得到检索结果的时间一般较长,一旦并发用户较多,将造成服 务器压力过大。 本文重点关注“以图找图”的速度。在分析原有系统的基础上,诊断出制约系 统性能的若干因素,针对性地提出相应的优化方案。优化方案分别从三个方面 对系统进行改进,分别是:内存数据库、多线程技术、高性能集群。本文深入 研究内存数据库以及o r a c l et i m e s t e n 的原理及应用,并在n e t 环境下使用o d b c 接口访问o r a c l et i m e s t e n 。将高性能计算集群引入石材图像检索系统,通过使 用负载均衡算法以及n e tr e m o t i n g 通讯,在n e t 环境下实现石材图像比对集群 系统。此外,本文对多核多线程技术做一定的研究,将其用于石材图像检索系 统。最后,本文通过一系列测试,说明优化方案中各种技术为系统性能带来的 提升。 实验表明:通过引入内存数据库,访问二进制数据类型的图像特征值速度 加快,平均检索时间比原有方案低一个数量级;合理地设计多线程程序,可更 有效地利用c p u 的资源进行图像检索计算,减少图像检索时间:通过构建集群 系统,可提升石材图像检索系统的并发性能,缩短并发请求用户的平均等待时 间。 关键词:石材图像检索系统,性能优化,内存数据库,多线程技术,高性能集群 武汉理工大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fw e bt e c h n o l o g i e s ,s o m ec o n t e n t - b a s e di m a g er e t r i e v a l s y s t e m ,n a m e l y , ”f i n d i n gi m a g e st h r o u g hi m a g e :a r ei n t r o d u c e do nt h ei n t e r a c t i n t h ef i e l do fs t o n ei n d u s t r y , s t o n ei m a g er e t r i e v a ls y s t e mi sa l la p p l i c a t i o nb a s e do n i n t e m e te n v i r o n m e n t ,w h i c hc a nr e c o g n i z eu n k n o w ni m a g et h r o u g ht h ei m a g e c h a r a c t e r i s t i c s t h ec u r r e n tr e s e a r c ho nc o n t e n t - b a s e di m a g er e t r i e v a lf o c u s e so nh o wt om a k e t h ec o m p a r i s o nm o r ea c c u r a t e ,w h i c hi sc o n c e r na b o u tt h ea c c u r a c y h o w e v e r , w h e na g r e a td e a lo fa c c e s sc o n c u r r e n t l yo c c u r , s t o n ei m a g er e t r i e v a ls y s t e mw o u l db e i n e f f i c i e n tb e c a u s eo ft h el a r g ev o l u m eo fc a l c u l a t i o na n dt h ei n e f f i c i e n ta c c e s st ot h e d a t a b a s e t h i st h e s i sf o c u s e so nt h es p e e do f ”f i n d i n gi m a g e st h r o u g hi m a g e ”f i r s t l y , t h e e x i s t i n gs y s t e mp e r f o r m a n c ei sa n a l y z e d ,s e c o n d l y , c o n s t r a i n t so f t h ep e r f o r m a n c ea r e f o u n do u t ,a n df i n a l l y , ac o r r e s p o n d i n go p t i m i z i n gs o l u t i o ni sg i v e no u t t h es o l u t i o n o p t i m i z e s t h e s y s t e m f r o mt h e f o l l o w i n ga s p e c t ss u c ha sm e m o r yd a t a b a s e , m u l t i - t h r e a d e dt e c h n o l o g ya n dh i g h p e r f o r m a n c ec l u s t e r s i nt h et h e s i s ,t h ep r i n c i p l e a n da p p l i c a t i o no fm e m o r yd a t a b a s ea r es t u d i e d ,t h eo r a c l et i m e s t e ni sa t t e m p t e dt o v i s i ti nt h e n e te n v i r o n m e n tb yo d b ci n t e r f a c e ,t h e n ,h i g h - p e r f o r m a n c ec l u s t e r sa r e c r e a t e di ns t o n ei m a g er e t r i e v a ls y s t e m ,b yu s i n gl o a d i n gb a l a n c ea l g o r i t h m s ,a sw e l l a s n e tr e m o t i n g ,m o r e o v e r , m u l t i - t h r e a d e dt e c h n o l o g yi sa d d e di ti n t ot h es y s t e m a t l a s t , as e r i e so ft e s t sh a sb e e nd o n et oi l l u s t r a t et h a th o wt h et e c h n i q u e su p g r a d et h e p e r f o r m a n c e e x p e r i m e n t ss h o wt h a t :t h r o u g ht h ei n t r o d u c t i o no ft h em e m o r yd a t a b a s e ,i t b e c o m e sf a s t e rb yv i s i t i n gt h eb i n a r yd a t at y p eo fi m a g ec h a r a c t e r i s t i c s ,t h ea v e r a g e r e t r i e v a lt i m er e d u c ea no r d e ro fm a g n i t u d e ;r e a s o n a b l ed e s i g n e dm u l t i - t h r e a d e d g o g r a t n sm a k e sc p u r e s o u r c 圮sm o r ee f f i c i e n t l yu s e db yi m a g er e t r i e v a lc a l c u l a t e ; t h ec l u s t e rc a l le n h a n c et h es t o n ei m a g er e t r i e v a ls y s t e mo fc o n c u r r e n tp e r f o r m a n c e , t h e n ,s h o r t e nt h ec o n c u r r e n tr e q u e s tf o rt h eu s e r sa v e r a g ew a i t i n gt i m e k e yw o r d s :s t o n ei m a g er e t r i e v a ls y s t e m ,m e m o r yd a t a b a s e ,m u l t i - t h r e a d e d t e c h n o l o g y , h i g h - p e r f o r m a n c ec l u s t e r s 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 签名: 学位论文使用授权书 日期:山p 7 川z 日期:出口7 jt z 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库 进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时 授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论 文,并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) : 参磊 导师( 签名) 知1 【气钐日期 武汉理工大学硕士学位论文 1 1 问题的提出 第1 章引言 随着w e b 技术的发展,互联网上的媒体形式逐步多样化。从简单的文本、 超链接,到现今一些更加直观的媒体形式,如图片、音频、视频以及流行的f l a s h 。 正是这些各具特色的媒体信息构成了丰富的互联网。由于信息的繁多,用户经 常要采取信息检索的方式来筛选内容,例如:文本检索,即输入文本,检索出 与之匹配的对象。 文本检索的优点是速度快,准确率高,但在众多的媒体类型中,用户有时 也有检索未知图像、未知音频的需求,此时,文本检索就存在一定的局限性。 最近几年,互联网上出现了一系列基于内容的图像检索的i n t e m e t 应用,即“以 图找图”,如m y h e r i t a g e 等。该类应用可通过图像本身的特征,来检索与未知图 像相同或相似的图像及相关信息,能较好地弥补只能使用文本检索的局限性。 “石材图像检索系统”是为石材行业开发的一个基于i n t e m e t 环境的实用信息 系统【1 1 。该系统的核心功能包括:1 ) 基于石材图像本身内容的检索( 简称“图像 检索”) ;2 ) 基于石材信息的属性检索( 简称“属性检索”) 。图像检索的主要功 能是找寻与未知图像相同或相似的图像,即“以图找图 ;属性检索的主要功能 是用文本信息找寻符合属性的石材信息,即传统的文本检索。石材图像检索系 统的图像检索功能如图1 1 所示。 石材图像检索系统的图像检索分为如下几个步骤:1 ) 用户提交一张未知的 石材图像,系统对该图像进行分析,计算颜色特征值和纹理特征值;2 ) 进行图 像比对检索。在图像数据库中,图像数量在1 万- - - 1 0 万,计算机将把未知图像 与图像数据库中所有的图像一一比对,计算该图像与各图像的相似程度;3 ) 计 算机按照相似度由高至低,排列检索结果,列出与未知图像最相似的石材图像 及其它信息,并将结果返回给用户。由此可见,石材图像的检索是基于图像内 容的数据库检索,该过程针对图像的内容,通过分析图像本身的颜色及纹理特 征,与图像数据库中的所有图像比对,进而得出最相似的比对结果【2 】。 武汉理工大学硕士学位论文 目h 女i 1 啦“b i 日日* 0 卜j e b 日劂* e r 口 w t 蚺, 2 月,”j t b 噜 1 e ,曛叫 5 * r # t r t ,姐* 舢h 6 # j 口 r 一8 i _ e = 一一 t q 4 e n t 批 日c = = = = * t “蝴 肝二jl - m 酬p 4 j 二| i 磷 口tm l h o :l l l 口m *o i b o 啪*o 啪* ;:裂雾:裂:;冀:嚣:薹鬟 :嚣嚣。;:鏊:i 警 s h “ 图1 - 1 石材图像检索系统截图( 截图来源于w w w b i s t o n e s c n ) 石材图像检索系统是图像检索一个具体的应用,随着w e b 应用的多元化, 相信有更多类似的基于i n t e r n e t 的图像检索系统出现,因此,有必要从检索质量、 系统性能等方面,对类似的图像检索系统做一定的研究”j 。本研究将重点放在系 统性能优化上,通过内存数据库、多核多线程技术、高性能计算集群等技术, 有效地提升石材图像检索系统的性能以及并发性,并对提升类似图像检索应用 的系统性能做一定的探讨。 1 2 相关概念 ( 1 ) 图像特征值 图像特征值是指标明图像特征的一系列属性,用于描述和识别单个物体或 某个物体的部分,包括:颜色、纹理、形状以及结构【4 】。针对石材图像,采用颜 色特征和纹理特征来区别不同图像,因为颜色和纹理是强调物体表面的特征, 而石材图像往往是靠这两个特征来区分。例如:大理石类的石材图像具有较长 的裂纹,而且非常明显,而花岗岩类的石材图像一般具有较多的斑点;不同石 材图像,在颜色上也有较大差异。 武汉理工大学硕士学位论文 ( 2 ) 图像比对 图像比对通过提取两张图像的图像特征,使用算法比对两张图像的差异, 得出两张图像的相似度,用于判断两张图像是否相似【5 】。类似应用有数字识别, 人脸识别,指纹识别等等【6 】。在待优化的系统中,使用到的是石材图像比对,石 材图像比对通过比对石材图像的颜色以及纹理,得出两张石材图像的相似度, 并将该相似度作为判断图像是否为同一石材的不同图片的主要依据。 ( 3 ) 基于数据库的石材图像检索 石材图像检索系统中,每张图像的特征( 纹理特征和颜色特征) 都是预先 计算后并存入数据库,图片检索模块会将待比对图片的特征值与数据库中的每 张图片特征值逐一计算并比对,并将相似度靠前的结果显示给用户。基于数据 库的石材图片检索系统特色在于,可以选出数据库中所有与待比对石材图片相 同或者相似的图片,检索速度和精度远高于人工目测。 1 3 课题相关国内外研究现状分析 1 3 1 已有成果分析 目前国内外针对按内容图像检索研究的相当多,而且出现了许多基于内容 图像检索的原型系统,最为著名的系统有i b m 的q b i c 系统,哥伦比亚大学开发 的v i s u a l s e e k 以及v i r a g e 公司开发的v i r a g e 系统,并在一些领域得到了应用。 除此之外,还有许多优秀的原型系统如u 砌c 开发的m a r s ( m u l t i m e d i aa n a l y s i s a n dr e t r i e v a ls y s t e m ) ,m i t 媒体实验室开发的p h o t o b o o k ,u cb e r k e l e y 开发的 c h a b o t 系统等等。 q b i c 系统是i b m 第一个商业化的基于内容的图像检索系统【7 】。它支持基于 例子图像、用户构造的略图、选择的颜色、纹理等的查询。q b i c 是少数几个考 虑了高位特征索引的系统,而且在它的新系统中,基于文本的关键字查询与基 于内容的相似性查询结合在一起。p h o t o b o o k 是m i t 媒体实验室开发的一套交互 式图像数据浏览和查询的工具,在它的近期版本中,该系统提出了在图像注释 和检索中加入人的因素,提出了模型集( s o c i e t yo f m o d e l ) 方法,实验结果表明 该法在交互式图像注释中很有效。v i s u a l s e e k 是一种视觉性搜索工具,主要研究 是图像区域的空间关系查询和从压缩域抽取视觉特征,系统采用时局特性是颜 武汉理工大学硕士学位论文 色集( c o l o rs e t ) 和基于小波变换的纹理特性。为了加速检索过程,该系统还采 用了基于二叉树的检索算法。引人注目的是在现有的商业数据库中,o r a c l e t m 8 1 0 已经s h a t i m a g ed a t ac a r t r i d g e s 和v i r t u a li m a g er e t r i e v a lc a r t r i d g e s ,采用的 是v i r a g e 公司的图像查询引擎。 国内的一些高校和研究机构在基于内容的图像检索系统上有较多研究。浙 江大学1 9 9 5 年开始进行多媒体图像检索的研究,分别完成了基于图像颜色和基 于图像形状的原型系统。其总体设计思想是允许用户找到包含特定颜色、纹理 和形状的图像,它支持基于关键字、全局颜色、全局纹理、对象形状、颜色布 局、纹理布局等的查询。中国科学院开发的图像检索系统i m a g h u n t e r 基于纹理和 颜色特征对图像进行检索,此外,系统还具有系统反馈的效果。 经过总结和归纳,已有的研究及成果特点有: 1 当前的研究主要集中于如何让图像比对更加准确【8 】,着重研究图像特征 提取及图像比对算法。重点关注“以图找图 的效果,即,能否更好更准地找 出相同或相似图像: 2 研究成果产生的一些实用系统,主要在c s 结构下,基于i n t e m e t 环境的按 内容图像检索系统不多9 】【1 0 】; 3 在所查询的文献中,针对按图像检索系统的性能研究,尚未发现较全面 的方案。 1 3 2 存在的问题 图像检索系统有一些共性的问题,如计算量大、访问速度较慢等等。下面 以石材图像检索系统为例,说明在i n t e m e t 中的图像检索应用可能存在的问题。 ( 1 ) 计算量 在图像检索过程中,每两张图像之间的比对操作会有一定的计算量,而且 每次检索要逐个对图像比对计算,一旦库存图片的数量级上万,计算机就需要 进行大量的计算,因此,每次石材图像检索过程会消耗相当的系统资源,按内 容检索将比传统文本检索更加耗费查询时间。用户等待较长时间才能得到比对 结果,甚至有可能被迫放弃等待而离开。 ( 2 ) b s 结构下系统的并发问题 另外,石材图像检索系统是基于i n t e m e t 的应用,而基于i n t e m e t 的系统一般 有如下特点:第一,它是联机工作方式,即在图像比对的过程中,用户将一直 4 武汉理工大学硕士学位论文 保持与服务器的连接,并在线等待结果;第二,在未知的互联网环境下,并发 用户数是未知的,多个用户可能在同一时间进行图像比对操作。 用户数是不可预知性,因此基于i n t e m e t 的石材图像检索系统必须考虑并发 用户的请求处理。石材图像检索的特殊性就在于它将一张待比对图片逐一与数 据库中的图片比对,计算量比较大,而且与大量的图片比对将消耗一定的系统 资源,这个问题在用户并发数量过多时就显得尤为明显。因此,需要设计出抗 压力更好的图像检索系统,合理分配系统资源,应对多用户的并发请求。 ( 3 ) 互联网应用的通信质量 在互联网范围内,用户由于网速、路由等因素,导致访问应用的速度较慢, 这就使得用户在访问系统时,保障性不高,用户有可能花很长时间才能得到请 求结果,甚至被服务器拒绝而返回错误结果。而石材图像检索系统的关键是图 像检索的质量与速度,因此,必须保证石材图像检索速度,使得用户能够较快 地得到检索结果,提升系统的通信质量。 1 4 主要研究内容及创新点 本研究针对现有的石材图像检索系统,对图像检索模块做一些性能优化工 作,旨在通过一系列技术,有效地提升图像检索系统性能,较好地应对并发用 户请求。 主要研究内容有: 1 基于内容的图像检索系统现状研究,分析在图像检索领域优化性能的主 要途径,确立性能优化方案; 2 深入研究内存数据库的原理及应用,掌握o r a c l et i m e s t e n7 0 的使用, 在n e t 环境下使用o d b c 接口访问o r a c l et i m e s t e n7 0 ,说明使用内存数据库给 系统性能带来的提升; 3 研究多线程多核技术,在线程级别对图像检索系统进行性能优化; 4 将高性能计算集群引入石材图像检索系统,通过使用负载均衡算法以 及n e tr e m o t i n g 通讯,在n e t 环境下实现石材图像比对集群系统: 5 随着互联网的普及,必将会有越来越多基于b s 结构的应用出现,其中 不乏许多类似基于内容的图像检索应用,该类系统的特点就是计算量较大。如 何让这一类系统更加稳定快速地相应并发用户,均衡负载,本研究将做出一定 5 武汉理工大学硕士学位论文 的探索和贡献。 论文的创新点有: 1 分析石材图像检索系统的特点以及可能存在的问题,提出一种能优化现 有系统中图像检索模块的架构方案; 2 在使用n e tr e m o t i n g 技术构建高性能计算集群,并将内存数据库技术用 于n e t 编程环境中。 3 对多核多线程技术做了一定的研究,并将其用于石材图像检索系统。 1 5 本文结构 本文可以划分为三个部分: 第一部分包含第1 章和第2 章。第1 章主要分析了图像检索的研究现状, 以及石材图像检索系统的相关概念;第2 章将分析原有的石材图像检索系统, 分别在网络拓扑结构以及系统架构方面可能导致的性能问题,并提出一种新的 性能优化方案以及介绍新系统架构中的相关技术; 第二部分包含第3 、4 、5 章。主要对内存数据库、多核多线程技术、高性 能计算集群等技术进行研究,分别将其运用于优化方案。通过实现和测试,说 明这些技术为石材图像检索系统带来性能提升。其中第3 章介绍了内存数据库 以及o r a c l et i m e s t e n7 0 ,第4 章介绍了多核多线程技术,第5 章介绍了高性 能计算集群,包括负载均衡算法等等; 第三部分包含第6 章。对性能优化工作做一定说明、并展望性能优化方案 对类似应用的现实意义。 6 武汉理工大学硕士学位论文 第2 章图像检索系统的优化技术综述 原有的石材图像检索系统,从网络拓扑结构以及系统架构方面都存在一定 不足,尤其库存石材图像数量较多时,并发性能较差。本章将深入剖析原有石 材图像检索系统,并设计优化后的石材图像检索系统,最后简要介绍改进内容 以及使用到的关键技术,说明优化方案的可行性。 2 1 优化前的图像检索系统架构 21 1 原有系统网络拓扑 在优化前的石材图像检索系统,采取b s 多层应用结构,服务器端主要由 两台服务器组成:一台是w e b 服务器,另一台是数据库服务器,网络拓扑如图 2 - 1 所示: 用j 图2 - 1 原有系统网络拓扑图 w e b 应用中,经常使用两台服务器,一台配置为w e b 服务器,专门用于处 理h t t p 请求和业务逻辑;另一台配置为d b 服务器,用于存储数据。将w e b 服 务器和d b 服务器分离,这样能提升w e b 服务器性能并使数据库对外部网络不 可见,可有效减少外部恶意程序直接攻击数据库所在主机的可能性,增强了数 据库的安全性。 2 1 2 原有系统架构 原有系统中,服务器端的系统架构如图2 - 2 所示 武汉理工大学硕士学位论文 黼i 义 运蕾对模毫 i 、 w e b 服务器 悟 堑坠塑i 弋面孺瞎幂弋 图2 2 原有糸统柴嗣倒 在该架构中,w e b 服务器接收用户请求,经过计算未知图像特征、凰像比 对、返回结果等步骤来完成图像检索。d b 服务器主要用于存储数据,提供比对 所需的图像及石材信息数据。整套服务器采用微软的解决方案,w e b 服务器采 用运行环境为w i n d o w ss e w e r 2 0 0 3 以及n e t f r a m e w o r k l1 ,d b 服务器使用s q l s e r v e r 2 0 0 0 存储图像及特征值数据。 2 2 原有系统分析 2 2 1 图像检索模块 原有系统中,图像检索模块的主要功能就是访问数据库并将符合属性条件 的图像与未知图像一一比对,并返回结果。详细流程如图2 - 3 所示: 图像检索过程包含如下几个基本操作: ( 1 ) 属性检索 即传统的文本检索方式。石材及相关图片具有一系列的属性,如石材的“产 地”、“种类”、“颜色”以及“加工面”等等。在图像检索时,如果可以确定未 知石材图像的某些属性,并在图像检索时把它作为属性检索条件,可更精确地 把相同或相似的石材图像找出。例如,如果用户已知该石材属于大理石类别, 图像检索将返回所有与该未知图像相似的大理石图像。 而且,由于属性检索可以筛选掉一部分不符合条件的图像,整个图像检索 过程能减少一定的计算量,加速图像检索速度。因此,在图像检索中,推荐用 户尽可能使用属性检索,能让系统更针对性、更快速地检索出正确结果。 武汉理工大学硕士学位论文 图2 - 3 图像检索过程 9 武汉理工大学硕士学位论文 ( 2 ) 轮询数据库,逐个图像比对 石材图像检索过程中,将会把未知图像与所有符合属性条件的石材图像一 一比对。获取数据库中某图像特征值、比对计算相似度,再获取下一张图像特 征值,再比对计算相似度这个过程将反复进行,直到数据库中所有符合属 性条件的图像全部被比对为止。在这个过程中,系统将保持与数据库的连接, 直至图像检索完毕,方断开连接。 ( 3 ) 获取、返回结果 因为数据库中图像数目较多,而用户一般情况只关心较为相似的图像,所 以系统将选择性的挑选一些相似度较高的图像作为检索结果。最终将较为相似 的图像及其相关信息作为检索结果,返回给用户。 2 2 2 特征值的存储叫l o b 数据 因为抽取特征值是一件比较耗时的过程,所以特征值是预先计算好存放在 数据库中的,在数据库中特征值的存放形式是二进制数据。 在现在主流的r d b m s 中,一般将二进制数据、声像数据、大文本数据等 大型数据统称为b l o b 对象( b k n a r yl a r g eo b j e c t ) 。为存储b l o b 对象,s q l s e r v e r2 0 0 0 提供了2 种数据类型,分别是i m a g e 数据类型以及t e x t 数据类型。 其中,i m a g e 类型用于存放二进制数据和声像数据,t e x t 类型用于存放大文本数 据。 i m a g e 数据类型在s q ls e r v e r 数据库中的存储方式不同于普通的数据类型 【l l 】。对于普通类型的数据,系统直接在用户定义的字段上存储数据值;而i m a g e 类型为存放这些大型二进制数据,系统将开辟新的存储页面,表中i m a g e 类型数 据字段存放的仅是一个1 6 个字节的指针,该指针指向存放该条记录的i m a g e 数 据的页面。在s q ls e r v e r2 0 0 0 中,访问i m a g e 类型将增加从表中的指针到存储 页面中的寻址过程、以及较复杂的磁盘i o 过程。 2 2 3 原有系统存在的问题 原有方案中,影响图像检索速度的因素有下面几点: 第一,由于石材图像检索的特殊性,系统为响应任何一次“图像检索”请 求,都必须访问一次数据库,要扫描所有的特征值并逐一与之比对,而且在这 1 0 武汉理工大学硕士学位论文 个过程需要保持与数据库的连接。此外,这个过程需要大量的页面寻址、磁盘 i o 开销,在库存图像数量上升到1 0 0 0 0 条时就显得尤为明显: 第二,平均每个特征值大小约为1 5 k b ,1 0 0 0 0 张图像的特征则为1 5 m b , 从d b 服务器访问大量特征值会有较大的数据传输。虽然该架构方案实现简单, 但系统速度较慢。对单个用户,平均每次搜索时间约为1 分钟左右;如果遇到 多个并发用户,不仅用户等待时间长,而且消耗了大量的服务器内存容量和c p u 使用率,并发性能较差。 2 3 优化后的图像检索系统架构 因为上述系统存在的问题,可能导致系统性能低下,并发性能较差,所以, 本文对石材图像检索系统进行了优化,针对原有系统不足,提出新的系统架构, 以及在n e t 环境中优化系统的实现方案。 2 3 1 优化后的系统网络拓扑 优化后的石材图像检索系统,除保留w e b 服务器与d b 服务器外,添加了 一组计算集群,用于均衡负载,减小w e b 服务器的压力。如图2 - 4 所示: 价价r 、 h i x i vv ;j“r f 图2 _ 4 优化后系统网络拓扑 2 3 2 优化后的系统架构 优化后的系统架构如图2 - 5 所示 武汉理工大学硕士学位论文 d b 豫g 一、 图2 5 优化后的系统架构图 在优化后的架构中,加入了若干计算节点,这些计算节点的作用是完成图 像检索过程,返回比对结果;其次,除接受用户请求外,w e b 服务器的主要作 用是使用负载均德算法来分散并发用户请求,使图像检索所需要的计算发生于 计算节点,从而减轻w e b 服务器的压力;最后,在各个计算节点,比对所需的 特征值数据将存放在内存数据库中。 w e b 服务器采用运行环境为w i n d o w ss e r v e r2 0 0 3 以及n e tf r a m e w o r k2 0 , w e b 服务器与各计算节点通讯方式采用n e tr e m o t i n g ,d b 服务器使用s q l s e r v e r2 0 0 5 存放系统数据,各个计算节点中,比对所需数据将存放于o r a c l e t i m e s t e n70 。 武汉理工大学硕士学位论文 2 3 3 优化方案主要改进内容 优化方案分别从数据存储、多线程技术、集群系统对系统做了改进。 数据存储方面,通过内存数据库,可以使访问特征值数据的速度加快,不 再有大量的磁盘i o 和网络传输,每次图像检索只需访问本地的内存数据库获取 相关数据,图像检索速度将有明显提升; 通过使用多线程技术,能较充分地利用服务器资源( 如c p u ) 。多线程程序 能使多c p u 、多核服务器的计算资源充分发挥作用,因此,也能一定程度加速 图像检索; 优化方案所构建的集群系统中,加入了若干计算节点,与控制节点组成一 个小型的局域网,作为一个整体来应对并发用户请求。加入计算节点,是为了 完成图像检索所需的计算,将计算从w e b 服务器分离,并将结果返回控制节点; 控制节点将使用负载均衡算法,将并发请求分配至各不同的计算节点,从而减 轻w e b 服务器压力,降低并发用户给系统带来的性能影响。 2 4 优化所使用到的关键技术 在优化系统中,将应用到一系列技术,包括使用n e tr e m o t i n g 通讯方式构 建集群、利用w i n d o w s 服务封装图像检索模块,使用o d b c 访问内存数据库等 等。本小结将对该系列关键技术做概要介绍,并从可行性角度阐明所采用技术 适用于优化方案。 2 4 1 n e tr e m o t i n g 优化系统中,使用n e tr e m o t i n g 作为控制节点与计算节点之间的通讯方式, 包括传输图像比对数据,返回图像检索结果等等。 n e tr e m o t i n g 是在d c o m 等基础上发展起来的一种技术,它的主要目的是 实现跨平台、跨语言、穿透企业防火墙,这也是它的基本特点,与w e b s e r v i c e 有所不同的是,它支持h 1 瞪以及t c p 信道,而且它不仅能传输x m l 格式的 s o a p 包,也可以传输传统意义上的二进制流,这使得它变得效率更高也更加灵 活。而且它不依赖于i i s ,用户可以自己开发( d e v e l o p m e n t ) 并部署( d e p l o y m e n t ) 自己喜欢的宿主服务器【1 2 】。 武汉理工大学硕士学位论文 w i n d o w s 操作系统将应用程序分离为单独的进程。这个进程形成了应用程 序代码和数据周围的一道边界。如果不采用进程间通信( i n t e r p r o c e s s c o m m u n i c a t i o n i p c ) 机制,则在一个进程中执行的代码就不能访问另一进程。 这是一种操作系统对应用程序的保护机制。然而在某些情况下,我们需要跨过 应用程序域,与另外的应用程序域进行通信,即穿越边界。 在r e m o t i n g 中是通过通道( c h a n n e l ) 来实现两个应用程序域之间对象的通 信的。如图2 - 6 所示: l m 。l i n gs y i rl 咖。括n gs y s t 御nl r c h a n r 嘲 p ( s e r v e ro b j e c t 】【c t i e n to b ) e c t 】 图2 - 6 n e tr e m o t i n g 通讯过程 客户端通过r e m o t i n g ,访问通道以获得服务端对象,再通过代理解析为客 户端对象。这就提供一种可能性,即以服务的方式来发布服务器对象。远程对 象代码可以运行在服务器上( 如服务器激活的对象和客户端激活的对象) ,然后 客户端再通过r e m o t i n g 连接服务器,获得该服务对象并通过序列化在客户端运 行。以此达到调用远程计算节点中的图像检索方法的目的。此时,计算节点将 完成图像检索,并返回结果。 2 4 2w i n d o w s 服务 w i n d o w s 服务是一种可随w i n d o w s 操作系统启动而启动的、在后台运行 的、通常不和用户产生交互的程序。它无法通过双击来运行,类似于u n i x 守 护进程( d a e m o np r o c e s s e s ) ,当用户注销时它也不会停止。 w i n d o w s 服务能够创建在它们自己的w i n d o w s 会话中可长时间运行的可执 行应用程序。这些服务可以在计算机启动时自动启动,可以暂停和重新启动而 且不显示任何用户界面。这些功能使服务非常适合在服务器上使用,每当需要 1 4 武汉理工大学硕士学位论文 使用不会影响在同一台计算机上工作的其他用户的功能时也适用。还可以在不 同于登录用户的特定用户帐户或默认计算机帐户的安全上下文中运行服务。 优化后的石材图像检索系统中,将在计算节点使用w i n d o w s 服务,有如下 特点: 能将图像检索过程封装成可调用的服务,供控制节点调用; 有独立的w i n d o w s 会话域,针对多线程程序,有线程共享资源,适合开发 多线程程序; 随操作系统启动而启动,无需人工干预,一旦启动,即可被调用。 2 4 3o d b c 数据访问技术 o d b c ( o p e nd a t a b a s ec o n n e c t i v i t y ,开放数据库互连) 是微软公司开放服务结 构( w o s a ,w i n d o w so p e ns e r v i c e sa r c h i t e c t u r e ) 有关数据库的一个组成部分, 它建立了一组规范,并提供了一组对数据库访问的标准a p i ( 应用程序编程接 口) 。这些a p i 利用s q l 来完成其大部分任务。o d b c 本身也提供了对s q l 语 言的支持,用户可以直接将s q l 语句送给o d b c 。 o d b c 的最大优点是能以统一的方式处理所有的数据库。一个基于o d b c 的应用程序对数据库的操作不依赖任何d b m s ,不直接与d b m s 打交道,所有 的数据库操作由对应的d b m s 的o d b c 驱动程序完成。使用o d b c 访问数据库 的基本过程如图2 7 所示: 图2 7o d b c 访问示意图 应角墨 o d b c 基 数i 瞻 武汉理工大学硕士学位论文 优化后的石材图像检索系统中,使用o d b c 方式访问内存数据库,主要原 因就是o r a c l et i m e s t e n 能利用s q l 语句通过o d b c 方式对完全位于物理内存 中的数据存储区进行操作。因此,o d b c 方式能完成对内存数据库的访问。 2 5 本章小结 本章介绍了原有图像检索系统架构、并分析针对关键问题,诊断该系统可 能存在的问题;之后通过分析,设计优化后的石材图像检索系统,并简要介绍 改进内容以及使用到的关键技术,包括:n e tr e m o t i n g 、w i n d o w s 服务、o d b c 技术等等。从可用性的角度分析所设计的方案是可实现的。 1 6 武汉理工大学硕士学位论文 第3 章使用内存数据库改进系统性能 石材图像检索系统中,图像特征数据存储在s q ls e r v e r 中,因为访l 浯q - - 进 制数据需要二级寻址,该过程将增加页面开销,随着数据量的增加,访问特征 值数据将导致性能下降。为消除磁盘i o ,加快访问数据的速度,本研究引入内 存数据库及其产品o r a c l et i m e s t e n ,在数据访问方面做一定的优化工作,提升 图像检索速度。 3 1 内存数据库简介 内存数据库,顾名思义就是将数据放在内存中直接操作的数据库【1 3 】。相对 于磁盘,内存的数据读写速度要高出几个数量级,将数据保存在内存中相比从 磁盘上访问能够极大地提高应用的性能。同时,内存数据库抛弃了磁盘数据管 理的传统方式,基于全部数据都在内存中重新设计了体系结构,并且在数据缓 存、快速算法、并行操作方面也进行了相应的改进,所以数据处理速度比传统 数据库的数据处理速度要快很多,一般都在1 0 倍以上f 1 4 1 。内存数据库的最大特 点是其“主拷贝”或“工作版本 常驻内存,即活动事务只与实时内存数据库 的内存拷贝打交道【1 5 】。 3 1 1 内存数据库的发展 内存数据库的理论基础是在1 9 8 0 年代后期通过积极的研究和开发形成的。 但由于经济和技术的限制,投入实际应用的内存数据库系统产品很少,只有一 些大学和研发机构开发的试验产品。 随着现代计算机硬件以及软件技术的发展,内存的造价越来越便宜,各种 软件技术可以保证数据库的稳定性,存储器、操作系统以及数据库相关技术的 发展为内存数据库的出现奠定了基础。 ( 1 ) 存储器价格的下降 半导体技术的高速发展使d r a m 的成本急剧地下降,在过去的2 0 年中, d r a m 的成本下降了1 0 倍【1 6 】。1 9 8 6 年时1 g b 内存的成本是4 0 0 0 0 美元,但是 1 7 武汉理工大学硕士学位论文 现在还不到1 0 0 美元,在一些服务器上还不到5 0 美元。i d c 预测存储器的价格 还会持续下降。考虑到这种趋势,在数据库解决方案中引入内存数据库是可行 的,这正被越来越多的人所接受。 ( 2 ) 6 4 位系统的关键作用 在操作系统中,进程的地址访问空间与计算机的位数相关,3 2 位操作系统 只能访问大约2 g b 的内存,事实上,较大型的系统数据库容量将远远超出2 g , 操作系统的位数限制内存数据库的实际应用。而6 4 位操作系统的出现大大改善 了这一瓶颈,6 4 位系统可以访问最多1 6 0 亿g b 的内存,所以在6 4 位系统中的 内存数据库不受地址访问空间的限制。 ( 3 ) 数据库管理技术的提高 在实际应用中用户通常会有两个考虑:内存数据库的稳定性和数据库的大 小。6 4 位操作系统解决了内存数据库容量的问题,而现在商业内存数据库已经 具有和传统基于磁盘数据库同样的稳定性,并应用于各种领域。传统基于磁盘 数据库所能提供的事务处理,备份与恢复等等管理方式,在内存数据库中都得 到实现,因此,内存数据库管理技术也能使用户较为方便地实施并管理自己的 数据。 3 1 2 内存数据库原理 与一般的磁盘数据库系统相比,内存数据库系统高性能的关键在于它的数 据库管理技术和数据库系统的架构。 ( 1 ) 存储介质 磁盘的价格低于存储器的价格,存储器的价格低于c p uc a c h e 的价格, 换句话说,速度越快,价格越高。另一方面,在处理速度方面,磁盘的访问时 间位毫秒级,而内存的方位时间为数十纳秒的数量级。要想得到高性能仅仅将 数据库存储在主存中是不够的,还需要高效内存结构技术,高速缓存数据管理 技术和基于主存的查询优化技术。 ( 2 ) 主存和磁盘的地址映射 假定磁盘d b m s ( d a t a b a s em a n a g e m e n ts y s t e m ) 管理的所有数据主要的存 在于磁盘中,记录的访问是通过r i d ( r e c o r di d e n t i f i e r ) 实现的【l 引。因此要访问一 个记录,需要地

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论