




免费预览已结束,剩余29页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于语义的图像信息检索本科毕业论文(科研训练、毕业设计)题 目:基于语义的图像信息检索姓 名:学 院:软件学院系:专 业:软件工程年 级:学 号:指导教师(校内): 职称: 指导教师(校外): 职称: 年 月第 29 页 共 34 页基于语义的图像信息检索摘要 多媒体技术及Internet的迅速发展,使得视觉信息检索成为当前迫切需要解决的问题,而图像检索是其中的一个重要方面。图像检索技术自从它兴起至今,也经历了好几个阶段,这个历程说明图像检索只有结合图像的多种信息,特别是语义信息,才能使检索系统的能力尽可能符合人们的要求。本文首先介绍了基于语义图像检索的历史和现状,阐述了构建语义检索系统的几个关键技术。并对ImageSearch系统中对本体模型的检索方法和显示做了详细的介绍。特别以OWL定义产品信息的知识模型,用知识模型标记ImageSearch系统中的信息,通过度量语义标记的相似性来获得产品图片信息的相似性。本体概念的相似性度量包含了三个要素:本体概念、语义和相似性1。本系统用户交互界面自然友好。实验表明,ImageSearch系统能够以比较高的命中率来检索图像。关键词 图像检索,基于语义图像检索,本体模型,相似度,OWLSemantics-based Image RetrievalAbstract:With the rapid development of multimedia technologies and Internet, an urgent demand has arisen for visual information retrieval, in which image retrieval plays an important role. From a historical point of view, we find that only if we use all kinds of image content, especially image semantics, that the capability of retrieval system can close to humans image understanding ability. This paper first introduces the history and present situation of the Semantics-based Image Retrieval and elaborates several key technologies of building Semantic Retrieval System. You can see a detailed presentation of the Ontology Model Retrieval as well as the display of the ImageSearch System. Particularly the knowledge model of the product information is defined in the OWL language, the information of the ImageSearch System is marked by the knowledge model and the productphoto information similarity is obtained through measuring the similarity of the semantic mark. The similarity of Ontology concept contains three elements: the concept of Ontology, semantic and similarity. The system has a friendly and natural user interface. Experiments show that, the ImageSearch System is able to retrieve images in a higher hit rate.Keywords: Image Retrieval, Semantic-based Image Retrieval, Ontology Model, Similarity目录第一章 引言1第二章 系统的总体设计12.1 系统的主要关键技术12.1.1 本体模型的建立12.1.2 界面设计22.1.3 版本控制22.1.4 单元测试22.1.5 系统框架图2第三章 系统相关概念简介23.1 本体及本体中的概念23.1.1 本体的基本概念33.1.2 本体的主要构成43.1.3语义网43.1.4 本体的作用53.1.4 知识本体语言53.2 语义相似性6第四章 语义相似性度量在系统中的应用64.1 OWL个体的相似性及排序算法64.1.1 OWL相似性计算方法74.1.2 Vector排序算法124.2 语义检索系统的建立134.2.1设计思路和关键问题134.2.3查询处理步骤分解描述144.3 知识服务在查询与浏览中的应用154.3.1基于OWL个体的查询方式154.3.2相似查询与浏览16第五章 系统UML建模175.1用例图175.2类图185.3时序图185.4系统包图19第六章 系统实例206.1 界面及其测试206.2 文件标记测试226.3 结果处理及其性能测试23第七章 结束语24致谢语26参考文献27ContentChapter 1 Introduction1Chapter 2 System Design12.1 Key technology of the system12.1.1 Foundation of Ontology Model12.1.2 Interface Design22.1.3 Version Controlling22.1.4 Unit Testing22.1.5 Systems Frame Picture2Chapter 3 Introduction of the System Concept23.1 Ontology and Concept in Ontology23.1.1 Basic Concept of Ontology33.1.2 Main Composition of Ontology43.1.3 Semantic Web43.1.4 Function of Ontology53.1.4 Knowledge Ontology Language53.2 Similarity of the Semantic6Chapter 4 Application of the Measurement of Semantic Similarity64.1 OWL Individual Similarities and Sorting Algorithm64.1.1 OWL Similarity Calculation Method74.1.2 VectorSorting Algorithm124.2 Foundation of Semantic Retrieval System134.2.1Design Ideas and Key Issues134.2.3Description of Decomposition Query Processing Steps144.3 Application of Knowledge Service in Inquiry and View154.3.1OWL-based Individual Inquiry154.3.2Similar Inquiry and View16Chapter 5 UML Modeling175.1Use Case Diagram175.2Class Diagram185.3Sequenial Diagram185.4Package Diagram19Chapter 6 Instance of the System206.1 Interface Testing206.2 File Flag Testing226.3 Result Processing Testing23Chapter 7 Summary24Acknowledgement26References27第一章 引言20世纪90年代初,大规模图像集不断涌现,研究者们提出了基于内容的图像检索(content-based image retrieval, CBIR)。CBIR使用颜色、纹理、开关及区域等视觉特征,而这些视觉特征是唯一可以独立、客观地直接从图像中获得的信息。并且这一方法成为20世纪90年代图像检索技术研究的主流。CBIR的主要特点是利用图像本身包含的客观视觉特征,图像相似性体现在视觉相似性上。然而,人们判断图像的相似性仅仅建立在图像视觉特征的相似性上。用户在进行图像检索时,总是存在一个大致概念,这个概念建立在图像所描述的对象、事件以及表达的情感等含义上。理想的状况下,用户主要根据图像的偏方,而不是颜色、纹理、形状等特征,直观地进行分类并差别图像满足自己的需要程度,这些图像的含义就是图像的高层主义特征,这种特征是无法直接从图像的视觉特征获得的,而要根据人的知识来判断。正是由于人对图像相似性的差别依据与计算机对相似性的差别偏执之间的不同,造成了人所理解的“语义相似”与计算机理解的“视觉相似”之间的“语义鸿沟”的产生。可以说CBIR中的“语义鸿沟”就是:由于计算机获取的图像的视觉信息与用户对理解的语义不一致性而导致的低层和高层检索需求间的距离2。因此语义图像检索已成为解决图像简单视觉特征和用户检索丰富语义之间存在的“语义鸿沟”问题的关键。使计算机检索图像的能力接近人的理解水平,这就是语义图像检索的目的。第二章 系统的总体设计本系统采用敏捷软件开发方式进行开发。利用多次迭代的方法进行系统功能的逐步扩展。因为本系统用Java语言可以,所以我们利用IBM的开源工具Eclipse作为我们的开发工具,并且利用Eclipse自带的JUnit工具进行系统有关的单元测试,以CVSNT作为版本控制器,协调项目小组的迭代开发。2.1 系统的主要关键技术2.1.1 本体模型的建立 基于OWL 语义网络 手工标志图像2.1.2 界面设计主要是用于图像的读取和显示。用户利用图形界面进行文件输入和输出。并且在输入时,把图像的相关语义读取并保存在一个文本文件里,供图像检索时候使用。2.1.3 版本控制系统利用CVS进行版本控制,CVS系统可以有效的进行版本变更控制,和整个系统的整合。2.1.4 单元测试整个系统在开发过程中,采用JUnit进行单元测试,可以有效的把Bug控制在系统开发的早期,使得系统在整个生命周期内的更加的健全。2.1.5 系统框架图(如:图一):第三章 系统相关概念简介3.1 本体及本体中的概念本体概念的语义相似性,顾名思义包含了三个要素:本体概念、语义和相似性。本体概念是相似性度量的对象,语义是相似性度量的依据,而相似性是人对概念语义产生的一种心理反应。因此分析本体所表述的语义特点是建立本体概念语义相似性度量模型的基础。本节阐述了语义相似性三要素之本体概念和语义,分析了其在相似性度量中的作用。3.1.1 本体的基本概念本体论是西方哲学中形而上学的一个分支学科,研究的是关于自然和存在的关系3。在二十世纪的分析哲学中,本体论是研究实体存在性和实体存在本质等方面的通用理论。在中国古代哲学中,本体论又被称为“本根论”,是指探究天地万物产生、存在、发展变化的根本原因和根本依据的学说。4综上所述,我们可以知道本体(Ontology)最早是一个哲学的范畴,原意指的是:“客观存在的一个系统的解释和说明,客观现实的一个抽象本质”,后来随着人工智能的发展,被人工智能界给予了新的定义,基本上可以定义为:“概念模型的明确的形式化规范说明”。在知识工程领域中也存在着多种本体定义。其中Studer在Gruber5和Burst6的定义基础上给出了一个较全面的本体定义7。“本体是概念化的一个显式的,共享的形式化表示。概念化表示本体是一个用由一组相互关联的概念构成的抽象模型,它被用于解释现实世界某些现象。显式表明构成模型的概念类型和约束是被显式定义的。形式化指本体应是计算机可理解的。共享反映了本体表述的知识是共性的、开放的知识。 ”以上的定义体现了本体的含义:8概念模型(capitalization)通过抽象出客观世界中一些现象(phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态。明确(explicit)所使用的概念及使用这些概念的约束都有明确定义。形式化(formal)本体是计算机可读的。共享(share)本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。3.1.2 本体的主要构成通常意义上,本体包括概念的定义、概念之间的关系、公理和实例,它们共同限制术语在特定领域中的解释和应用。1. 本体中的概念是广义上的概念,除了可以是一般意义上的概念外,也可以是任务、功能、行为、策略、推理过程等。本体中的这些概念构成了一个分类层次。2. 本体中的关系表示概念间的关联,其中最典型的二元关联是概念间的蕴涵关系。它使概念形成一个层次结构。3. 公理用于描述一些永真式,它是在领域中任何条件下都成立的断言。4. 实例是指概念的具体实例,本体中的所有实例构成了本体概念的特定领域的指称域。3.1.3语义网9WWW的缔造者Tim Bemers-Lee于2000年12月在XML 2000会议上,提出了下一代因特网的概念语义网(Semantic Web),并于2001年5月在科学美国人杂志上发表同名论文”The Semantic Web”,为人们勾勒出一幅未来语义网的美好前景。语义网的目标是,为因特网上的信息提供具有计算机可以理解的语义,从而满足智能主体(Agent)对WWW上异构、分布信息的有效检索和访问,实现网上信息资源在语义层上的全方位互联,并在此基础上,实现更高层的、基于知识的智能应用。10Tim Bottlers-Lee提出的语义网层次结构如图二所示11。该结构从底层到高层依次为Unicode(统一字符编码)和URI(Universal Resource Indicator,统一资源定位符),XML、RDF和RDF Schema(简称RDFS)、本体(Ontology)、逻辑(Logic)证明(Proof)和信任(Trust),在语义网七层结构中的XML、RDF和Ontology三层,主要用于表示Web信息的语义,因而是系统的核心和关键所在。3.1.4 本体的作用本体的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互的关系的明确定义。换句话说,构造本体的目的都是为了实现某种程度的知识共享和重用。综合参考文献12,13认为本体的作用主要有以下三个方面:1本体提供了一种新的知识获取手段,规范化的描述有利于确定知识系统的需求,澄清领域知识的结构。2. 采用形式化描述的本体作为核心,能提高知识系统的重用和可靠性,为知识更新和演化打下坚实的基础。3. 采用统一的术语和概念,使不同系统间的知识共享成为可能。3.1.4 知识本体语言为了让计算机能理解本体,通常采用具有推理能力的形式化描述语言来表述本体。虽然框架(Frame)14,概念图15,描述逻辑16都被用于打桩本体,但在过去五年中,占统治地位的是OIL17,DAML+OIL18和OWL19等基于描述逻辑的知识本体语言。在这三者中,本文以OWL DL描述的本体概念为研究对象。OWL(Web Ontology Language)是W3C组织推荐的本体表述语言,它建立在描述逻辑基础之上,提供多种形式语义的词汇,具有良好的机器可理解性。OWL包含三个表达能力依次递增的子语言:OWL Lite, OWL DL和OWL Full。本文研究的OWL DL的表达能力比OWL Lite要丰富许多,它支持构建具有强大表达能力的推理系统。这个推理系统可以保证计算完备性(所有的结论都确保是可计算出的)和可判定性(所有的计算都能在有限的时间内完成)。3.2 语义相似性语义相似度在不同的应用领域中可能会有不同的含义。例如,在信息整合领域中,相似度一般指的是文本与文本能够匹配的程序;而在信息检索领域中,相似度则反映与用户查询在语义上的匹配程度,相似度越高,表明该文本或文件与用户的请求越接近。本文的研究背景即为信息检索领域。国内外对概念间语义相似度的研究大致可以分为两类:一是利用语义词典如WordNet、HowNet中的同义词或义元组成的树状层次体系结构20,通过计算两个概念之间的信息熵或语义距离,计算概念间语义相似度。二是利用语料库统计的方法,根据两概念在上下文中出现的频率,计算概念间语义相似度。具体而言,文献21,22中,首先计算两个概念在树中的语义距离,然后转换为两个概念间语义相似度。很多计算本体相似性的方法基本上都是以分别属于不同本体的实体之间配对比较来实现,而且往往要考虑所有相关的元素,这不仅增加了计算复杂度,还会遇到循环计算的问题。在对语义网本体语言的推理能力进行研究以后,提出了一种基于知识推理的二阶本体相似技术,解决了循环计算的问题。为了更恰当地计算本体相似性,提出了一种本体的相似性网络推理的集成框架。该框架集成了基于外延的方法,基于内涵的方法,计算间接相似的相似性网络推理,和检验相似性测度有效性的环境反馈。同时,提出了一种用于构造概念相似性网络的新测度,相似性网络上的推理则采用图论实现而不是预定义知识规则,这样可免去知识获取的困难。框架已经应用于文本分类和高维数据的可视化,理论分析和实验验证了相似性网络推理框架的有效性。第四章 语义相似性度量在系统中的应用4.1 OWL个体的相似性及排序算法OWL个体的相似性是实现下图(如:图三)相似性匹配的关键。4.1.1 OWL相似性计算方法算法ConsineSimilarity算法思想:把欲比较的两个字符串Str1, Str2转化为相对应的两个Map型的就是pc1, pc2。再分别对pc1,pc2进行比较,若pc1包含两者共同的键,则把它的值保存在相应的一个相对应下标Double数组weightPC1i,否则此Double数组的元素weightPC1i为。同样,pc2对应的Double数组为weightPC2i,它的计算方法与pc1相同。最后再对这两个Double数组进行计算。若(weightedPC1.length=0) & (weightedPC2.length=0),则Str1与Str2的相似度为,否则若(weightedPC1.length=0) | (weightedPC2.length=0),则Str1与Str2的相似度为。否则,它们的相似度为MathUtils.vectorDotProduct(weightedPC1,weightedPC2)/(MathUtils.vectorNorm(weightedPC1) * MathUtils.vectorNorm(weightedPC2) ),其中MathUtils.vectorDotProduct()表示两个数组对应下标的积的和,(MathUtils.vectorNorm()表示数组中每个元素的平方和的根。算法Jaccard similarity 23算法思想:Jaccard similarity在许多领域都有着广泛的应用,如:numerical taxonomy 和 GT等。Jaccard similarity系数在i, j两个数据中的定义如下,并且它的取值范围是0,1之间。a表示:the number of orders that need items i and jb表示:the number of orders that need item i onlyc表示:the number of orders that need item j onlyd表示:the number of orders that need neither i nor j.算法JensenShannonMeasure算法思想:利用JensenShannonMeasure进行两个字符串的相似度比较的时候,首先对这两个String进行PrimitiveConceptTokenizer格式重构,使得这两个String都各自生成相对应的Map变量pc1, pc2。合并这两个Map的键集合union(pc1.keySet(),pc2.keySet() - size然后对pc1的每个键值进行比较,若pc1含有相对应的位置i的size元素的话,则把pc1相对应的数值保存在r1i中,否则r1i的值为0。同理,pc2的操作同pc1一样,最后数据保存在int r2中。对r1,r2的各个元素进行如下操作:若r1i!=0 & r2i!=0,则对tmp = h(v1i+v2i) - h(v1i) - h(v2i);,其中h()的意义是:-x*Math.log(x)。然后对这些数据tmp值进行累加保存到temp中,最后-0.5 * temp /Math.log(2)即为我们所求的相似。具体数学描述如下图:算法JiangConrath 24算法描述:若计算Double元素的相似度的时:则计算的表达式如下:p_z = numCommons / N;p_x = numElemX / N;p_y = numElemY / N;similarity = new Double(-2d * Math.log(p_z) -(Math.log(p_x) + Math.log(p_y);numCommons表示:number of common/shared elements between two elements x and ynumElemX表示:number of occurrence of element xnumElemY表示:number of occurrence of element yN表示:total number of elements in reference set/structure/tree/graph若计算的是本体模型树的两个结点的相似度时:则其计算表达式为:double size = graphAccessor.size();int nX = graphAccessor.getSuccessors(x, false).size() + 1;p_x = nX / new Double(size);int nY = graphAccessor.getSuccessors(y, false).size() + 1;p_y = nY / new Double (size);IGraphNode mrca = graphAccessor.getMostRecentCommonAncestor(x,y);int nXY =graphAccessor.getSuccessors(mrca,false).size() + 1;p_z = nXY / new Double (size);similarity = new Double (-2d * Math.log (p_z)-(Math.log (p_x) + Math.log (p_y);graphAccess表示:tree accessor to access the corresponding treex表示:first tree nodey表示:second tree nodegetSuccessors()的功能:Returns the set of graph nodes that have an incoming (directed) edge from node. In a tree, the successors of a node are its children.getMostRecentCommonAncestor()的功能是:Returns the node in the graph which (1) connects nodeA and nodeB (i.e., from which there exists a directed path to nodeA and nodeB) and (2) whose sum of path lengths to nodeA and nodeB is minimal. 算法Resembalance算法描述:Resembalance算法的主要功能是计算两个集合Sets1,s2的相似程度,主要思想是:首先对这两个集合s1,s2进行取交集操作,并计算交集里的元素的个数n1。其次再对这两个集合s1,s2进行取并集操作,并计算并集里的元素的个数n2。最后n1/n2即为所求的相似度,算法具体实现如下:double score(Set s1, Set s2) double intersection = SetUersection(s1, s2).size();double union = SetUtils.union(s1, s2).size();return intersection / union;,其中SetUersection()的功能是对集合s1,s2进行交集运算;SetUtils.union()的功能是对集合s1,s2进行并集运算。算法ConceptSimilarity 25算法描述:若ConceptSimilarity的计算参数为三个double类型的参数时,其相似度为:(2d * N3) / (N1 + N2 + 2d * N3)。其中N1表示:length of path from node1 to the most recent common ancestor of node1 and node2;N2表示:length of path from node2 to the most recent common ancestor of node1 and node2;N3表示:length of path from the most recent common ancestor of node1 and node2 to the root of the tree。若ConceptSimilarity的参数为:( IGraphAccessor accessor, IGraphNode nodeN1,IGraphNode nodeN2 ),则其相似度的计算方法步骤为: getMostRecentCommonAncestor(nodeN1, nodeN2),即get the node in the graph which (1) connects nodeA and nodeB (i.e., from which there exists a directed path to nodeA and nodeB) and (2) whose sum of path lengths to nodeA and nodeB is minimal。 getRoot(),即get the first node found in the graph having no predecessors (root) but only successors。 N3 getShortestPath(mrca, root),即get the length of the shortest path connecting mrca and root。 N1N2 getShortestPath(nodeN1, nodeN2),即get the length of the shortest path connecting nodeN1 and nodeN2。 若N30则 similarity = new Double(1d / (N1N2 + 1d),否则similarity = new Double(2d * N3) / (N1N2 + 2d * N3)。算法FuzzyCon 1算法描述:FuzzyCon模型以Rodriguez Egenhofer模型为基础,从OWL DL概念的本体定义中计算概念的相似性。为了反映用户对相同和差异的不同认识,FuzzyCon模型和模糊集构造概念集的交集和模糊差集,并以概念间的相似性函数为基础,构建模糊交集和模糊差集的隶属函数。最后FuzzyCon模型综合考虑了蕴涵关系和角色连接关系的相似性度量模型,用特性权值定义FuzzyCon模型中的函数f,并使用函数f的值与概念特性集中特性的多少和特性权值的大小成正比,使FuzzyCon模型的计算结果更能符合用户的感受;并且定义了复合概念的相似性计算规则,给出了FuzzyCon模型迭代算法的定义。具体算法思想如下:算法为第次计算概念A和B的相似性度量函数为:当k1,第k次计算不互斥的概念A和B相似性度量函数为其中u为蕴涵系数,v为角色系数,且u+v=1,为相对显著性系数(01);互斥的概念A和B间相似性函数为simkFC(A,B)=0。在这个算法中,定义当k=0时的概念间相似性为通过不断的迭代循环计算,逐渐产生概念间的相似值,且这些值都在区间0,1里。小结许多算法都是在OWL中计算本体相似度有着广泛的应用。由于本文主要应用FuzzyCon,所以在本文中,只列出了其中的几个算法进行分析并进行比较。从上面的算法描述中,我们可以看出,ConceptSimilarity在计算本体相似度中实现是比较简单的,但是它在计算树中同一层上的结点概念相似度的时候的值都是一样,使得我们在搜索的时候会出来比较大的误差。所以本系统最后使用老师提出的FuzzyCon模型,并根据此模型所用到的相应算法再计算概念之间的相似度,实验结果表明FuzzyCon算法在系统中的效果是比较好,能够以比较接近用户要求的结果来计算出相关概念的相似度,使得系统搜索更加接近用户的要求。4.1.2 Vector排序算法算法直接插入排序算法描述:直接插入排序是一种简单的排序方法,具体做法是:在插入第i个记录时,R1,R2,Ri-1已经排好序,这时将关键字ki(即SimilarityOntoloyg.getSimilarity())依次与关键字ki-1,ki-2,k1进行比较,从而找到应该插入的位置,然后将ki插入,插入位置及其后的记录依次向后移动。算法冒泡排序算法描述:n个记录进行冒泡排序的方法是:首先将第一个记录的关键字k1(即SimilarityOntoloyg.getSimilarity())和第二个记录的关键字k2进行比较,若k1k2则交换两个记录的值(即SimilarityOntoloygobj),然后比较第二个记录和第三个记录的关键字,依次类推,直至第n-1个记录和第n个记录的关键字进行过比较为止。上述过程称作第一趟排序,其结果是关键字最小的记录被安置到第n个位置上,然后进行第二趟排序冒泡排序,对前n-1个进行同样的操作,其结果是关键字次小的记录被安置到第n-1个位置上,当进行完第n-1趟时,所有记录有序排列。算法希尔排序算法描述:希尔排序又称“缩小增量排序”,是对直接插入排序方法的改进。它的基本思想:先将整个待排记录序列分割成若干序列,然后分别进行插入排序,待整个序列中的记录基本有序时,再对全体记录进行一次直接排序。具体做法是:先取定一个小于n的整数d1作为第一个增量,把文件的全部记录分成d1个组,将所有距离为d1倍数的记录放在同一个组中,在各组内进行直接插入排序;然后取第二个增量d2d1,重复上述分组和排序工作,依此类推,直至所取的增量di=1(didi-1d2d1),即所有记录放在同一组进行直接插入排序为止。算法快速排序算法描述:快速排序的基本思想:通过一趟排序将待排的记录分割为独立的两部分,其中一部分记录的关键字均比另一部门记录的关键字大,然后再分别对这两部分记录继续进行排序,以达到整个序列有序。一趟快速排序的具体做法是:附设两个指针low和high,它们的分别指向文件的第一个记录和最后一个记录。设枢轴记录(第一个记录)的关键字为pivotkey,则首先从high所指位置起向前搜索,找到第一个关键字大于pivotkey的记录并与枢轴记录互相交换,然后从low所指的位置起向后搜索,找到第一个关键字小于pivotkey的记录并与枢轴记录互相交换,重复这两步直至low=high为止。小结若待排序的记录数目n较小时,可采用插入排序和选择排序。由于直接插入排序和选择排序。由于直接插入排序所需的记录移动操作较直接选择排序多,因而当记录本身信息较大时,用直接选择排序方法较好。若待排序记录按关键字基本有序,则宜采用直接插入排序或冒泡排序。若n较大时,则应采用时间复杂度为O(nlogn)的排序方法快速排序,它是目前排序方法中被认为是最好的方法,当待排序的关键字为随机分布时,快速排序的平均运行时间最短。因为本系统中待排序的记录的关键字数目较多,且分布比较随机,所以在ImageSearch系统中,我们采用快速排序算法来对Vector进行排序。4.2 语义检索系统的建立4.2.1设计思路和关键问题根据对系统的整体设计考虑,我们可以看到基于语义的检索系统需要解决的几个主要问题:某一领域本体的建立对于某一个方面的领域本体,如果希望能够得到一个比较合理的本体,应首先是由相关的领域专家给出抽象的本体结构定义,再由计算机专业人士通过相关的技术手段转换成为计算机能够理解的数据形式。在本系统的设计中我们采用w3c最新的推荐标准描述语言OWL,至于OWL描述语言的生成工具现在常用的有斯坦福大学的Protg或者是Jena等,其中Protg拥有一个图形化的使用界面,并可以将本体的定义以OWL格式输出。因此我们的系统中所用到的Pizza.owl就是参考Protg而生成的。资源数据的标注我们需要检索的传统数据原本不是具有基本的语义信息的,这就需要我们对这些原始数据根据我们的需要进行一定的改造。由于本系统还处在探讨阶段,因此我们采用手工标注的方法对文件图片进行标注。设计实现语义分析推理的推理检索引擎这一功能的实现应当是实现语义检索功能的关键部分。其功能就是根据所建立的关系模型,对用户提交的搜索词汇的语义进行分析,借助于某种推理规则进行语义扩展,比如近似/同义词的推理分析,或者层次/继承的推理分析,以及词汇语义在分类结构上的扩展,并根据此扩展从数据标注数据库ontology.dat中检索相应的数据并返回给用户界面部分。4.2.2系统结构设计系统主要分为以下四大部分:用户界面:系统提供给用户一个友好易用的用户界面,可以设计为简单的使用关键字方式进行检索输入。查询处理器部分:作为系统的核心部分,查询处理器接受用户界面的查询信息,进行查询并返回查询结果。本体库及管理子系统:负责将领域专家设计的本体模型转化为计算机的内部存储结构,并提供相应的接口方便本体库的存储管理。资源数据库及管理子系统:负责将原始数据按照本体模型进行语义化标注,并以某种格式进行存储,同本体库管理一样也提供相应的接口方便资源的添加管理。根据以上的分析,我们得到如图一的检索系统结构。4.2.3查询处理步骤分解描述查询处理的具体步骤描述如下:查询处理器从用户界面接收并解析用户查询请求,检验查询请求的合法性,如果查询请求不合法返回错误信息,否则将请求提交给推理机部分。推理机从本体库中加载本体,按照定义的推理规则或推理引擎对用户界面发送的来的查询词汇进行语义推理和扩展,比如求得相同或相似的概念,并将结果返回给查询处理器。查询处理器根据推理机的结果,获得语义扩展后的词汇集合,并将这些词汇分别组合成不同的子查询,将这些子查询发送至数据库(ontology.dat)的检索引擎。查询引擎将最终的查询结果集返回查询处理器。4.3 知识服务在查询与浏览中的应用以上一节的OWL个体相似性算法为基础,我们在ImageSearch系统中实现了近似查询功能,着力解决关键字查询所不能实现的近似查询问题。在传统的查询机制中,主要采用如图四的描述方法,但是这种方法的查询方式比较单一,且不能查询同义词或相似概念的文件,因此我们提出了如图五的解决方案。下面我将介绍图五方案的相关内容。4.3.1基于OWL个体的查询方式基于本体的信息检索的常用方法是以概念作为信息的索引项,或用本体中近似的概念来松弛查询条件,或用概念的结构近似性来查询信息。这些方法都能有效地解决多义词的问题,并且扩大搜索的范围。但是索引项并不能完整表现文档的内容和结构,从而造成查询结果的不精确性。与传统的方法不同,我们用OWL个体描述用户的查询需求,将信息查询转换为OWL个体间相似性的匹配(如图五所示)。4.3.2相似查询与浏览图六所示是ImageSearch系统中的产品信息相似查询的框图。查询接口是用于输入查询条件的界面。查询预处理模块将这查询转化为OWL个体。概念词表记录了每个概念所对应的单词,查询预处理模块根据概念词表,将查询条件中的单词转换为OWL个体中的本体概念。概念相似表记录了已计算出的概念间相似度。相似度计算模块用xmu.software.simpack.file包中的WriteInfo.java文件中描述的算法计算在信息语义标记库中所有标志之间两两之间的相似度,并保存在数据库ontology.dat中。根据查询条件,查询数据库,结果转换模块根据OWL个体与产品信息的一一对应关系将结果转化为产品信息,并输出给用户。图七所示是ImageSearch系统中产品信息相似浏览的框图。相似浏览接口接受其他模块提交的信息,并将其转换成OWL个体,再查询数据库ontology.dat中的相关信息,并输出给用户。第五章 系统UML建模5.1用例图如图八:图八:系统用例图5.2类图如图九:图九:系统类图5.3时序图如图十图十:系统时序图5.4系统包图如图十一:图十一:系统包图第六章 系统实例6.1 界面及其测试系统界面(如图十二):图十二:系统主界面当点击“Open”按钮时,系统将弹出选择路径对话框(如图十三):图十三:打开对话框若选择对话框的“Open”按钮,返回图十四的界面:图十四:显示图片面板若选择对话框的“Cancel”按钮,则返回主界面(如图十二或图十四)。6.2 文件标记测试用鼠标点击选择欲标志的图像,然后点击主界面的按钮,右键点击图像弹出一个菜单选择AddFlag菜单项。系统将弹出如图十五的界面。图十五:添加标志点击SelectKeyword窗口上的下拉框,将弹出所有有效的标志(如图十六)。图十六:选择标志若选择完标志,并点击按钮,系统将弹出添加标志成功的对话框(如图十七);否则,若选择按钮,则返回的未添加标志的对话框(如图十八)。图十七图十八6.3 结果处理及其性能测试当要搜索相关概念的图片的时候,在搜索输入栏里输入我们想要查找的图片的相关信息(如“Soho”)。则系统将返回相应的图片在显示面板中,并且相似性较高的图片显示在前面(如图十九)。图十九若用户输入的搜索条件在系统中找不到相应的图片,则系统将返回一个没有找到图片的消息提示框(如图二十)。图二十第七章 结束语 基于本体的语义检索技术已经成为现在非常热门的研究方向,它为解决传统检索技术中缺乏语义相关性问题带来了希望。本文对本体和借助本体的检索技术进行了讨论研究,描述了一种语义检索系统的基本框架结构。本体可使用户对于自己查找的问题又一个统一的理解,避免在检索过程中提交难以理解的问题,方便查询处理。另一方面,也可在建立信息源时指导人们使用统一的概念,减少信息检索过程中大量的无关信息。相似度可以解决不同术语之间的交叉关系,从而提高检索的效率。在信息检索领域,语义相似度的计算起着重要的作用。本文知识提出了基于本体与相似度的信息检索方式,其中有些问题如相似度的计算如何能更精确,本体与概念关系图如何更好地转换等,还需进一步研究。致谢语在本文的完成之际,谨向指导、关心、支持和帮助我的老师、同学和朋友们致以衷心
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 永大税务协议书
- 车辆转让协议和转让合同
- 轮值董事协议书范本
- 配电柜楼层使用协议合同
- 车辆运输协议合同书
- 转让定制衣柜合同协议
- 灵狐科技协议书
- 水利整改协议书
- 足疗店装修施工合同协议
- 湿地保险协议书
- 一年级数学下册100以内加减法口算题一
- 2024年新人教版四年级数学下册《第6单元第2课时 小数加减法》教学课件
- 2023年嘉兴海宁水务集团下属企业招聘工作人员考试真题
- 2024年动物疫病防治员(高级)技能鉴定理论考试题库(含答案)
- 凉山州彝族留守儿童心理教育现状及对策
- 江苏省南京市江宁区2023-2024六年级下学期期末数学试卷及答案
- 2024年新课标高考历史试卷(适用云南、河南、新疆、山西地区 真题+答案)
- 知道网课智慧《自动化生产线实训》测试答案
- 《大海》课件 图文
- 智慧管网项目建设方案
- 常用个人土地承包合同
评论
0/150
提交评论