(土壤学专业论文)基于ontology的土壤知识体系智能检索系统的设计与Web实现.pdf_第1页
(土壤学专业论文)基于ontology的土壤知识体系智能检索系统的设计与Web实现.pdf_第2页
(土壤学专业论文)基于ontology的土壤知识体系智能检索系统的设计与Web实现.pdf_第3页
(土壤学专业论文)基于ontology的土壤知识体系智能检索系统的设计与Web实现.pdf_第4页
(土壤学专业论文)基于ontology的土壤知识体系智能检索系统的设计与Web实现.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着i n t e m e t 的迅速发展和普及,人们越来越依赖于网络来传递和获取各种信息,但是如何 从海量的网络信息资源中快速、准确地找到所需的信息己成为困扰人们开发利用网络信息资源的 一个严重屏障,也成为网络信息资源共享研究的一个热点。 基于网络的信息化技术、应用集成技术、语义w e b 等技术的研究已经列入国家高技术研究发 展计划和攻关课题中。本文的研究是中国农业科学院科技文献信息中心承担的国家“十五”科技 攻关项目的组成部分,主要研究目标为依据先进的本体论( o n t o l o g y ) 理论,采用课题构建的知 识体系,开发基于网络的农业科技信息智能检索系统,为整个研究项目的实施提供一种新的智能 信息搜索方法。 针对农业知识本体论基础性研究的特点,结合土壤与农业化学专业知识,本文以土壤分类知 识体系这一支为例,采用纯x m l ( e x t e n s i b t e m a r k u p l a n g u a g e ) 数据库t a m i n o 作为信息导航库, 根据用户输入的查询条件,以直观的树型结构来显示相关分类信息,通过点击方式理解用户的需 求,实现w e b 智能检索。本文详细介绍了智能检索系统的设计与实现的具体过程以及采用的x m l 和j s p ( j a v as e r v e r p a g e s ) 技术,可以将其推广应用于网络环境下的其他共享信息资源检索,为 用户提供高效、贴切的服务。 关键词:土壤,o n t o l o g y 智能检索,x m l ,j s p a b s t r a c t w i t ht h ed e v e l o p m e n ta n dp o p u l a r i z a t i o no fi n t e m e t ,m o r ea n dm o r e p e o p l ed e p e n d o nn e t w o r kt o e x c h a n g em e s s a g e so ro b t a i ni n f o m a a t i o n ,b u ti th a sb e c o m e ac r i t i c a lh a n d i c a pf o re x p l o i t i n gn e t w o r k s i n f o r m a t i o nr e s o u r c e st og e tt h er e q u i r e m e n tq u i c k l ya n de x a c t l yf r o mal a r g en u m b e ro fi n f o r m a t i o n t h e r e f o r et h er e s e a r c hf o c u s e so nh o wt os h a r eo f n e t w o r ki n f o r m a t i o nr e s o u r c e t h e p r o j e c to fi n f o r m a t i o n ,i n t e g r a t i o no fa p p l i c a t i o n ,s e m a n t i cw e bt e c h n o l o g ya n d5 0o nb a s e d o nn e t w o r k sh a sb e e na r r a n g e di ns c i e n t e c hr e s e a r c ha n d d e v e l o p m e n tp r o g r a m o fc h i n a t h er e s u l to f t h i sa r t i c l ei sap a r to ft h ep r o g r a mo ft h et e n t hf i v e - y e a rn a t i o n a lk e ys c i e n c ea n dt e c h n o l o g yp l a n , w h i c hi sb e i n gt a k e nc h a r g eb ys c i e n t i f i cd o c u m e n t a t i o n & i n f o m a a t i o nc e n t e r , c h i n e s ea c a d e m yo f a g r i c u l t u r a ls c i e n c e s i t sm a i no b j e c to f t h i sp a r to f w o r ki st od e v e l o p i n t e l l i g e n tr e t r i e v a ls y s t e mo f a g r i c u l t u r a ls c i e n t i f i c i n f o r m a t i o nb a s e do ni n t e m e ta c c o r d i n gt oa d v a n c e dt h e o r yo fo n t o l o g ya n d a d o p t i n ge s t a b l i s h e dk n o w l e d g es y s t e m i tw i l lp r o v i d ean e wi n t e l l i g e n ts e a r c h i n gm e t h o df o rt h e w h o l e p r o g r a m a tl a s t i nt h i s p a p e r , t h es o i lk n o w l e d g es y s t e ma se x a m p l ea n dn a t i v ex m l ( e x t e n s i b l em a r k u p l a n g u a g e ) d a t a b a s e - - - t a m i n oa si n f o r m a t i o nn a v i g a t i o nh a v eb e e nt a k e nf o rt h er e t r i e v a ls y s t e m b a s e do no n t o l o g yt h e o r yo fa 曲c u l t u r e sc h a r a c t e r sa n dc o m b i n i n g 、聃t l lt h e m a j o ro fs o i l a n d a g n c u l t u r a lc h e m i s h y a c c o r d i n gt ot h ed e m a n d si n p u t r e db yu s e r s t h i ss y s t e mw i l ld i s p l a yr e l a t e d i n f o r m a t i o nb yt r e ea n du n d e m t a n dn s e r s d e m a n d st h r o u 【g l lc l i c k s ,p r i m a r i l yr e a l i z ew 曲si n t e l l i g e n t s e a r c h i n g t h ed e s i g na n di m p l e m e n tp r o c e s so f t h ei n t e l l i g e n tr e t r i e v a ls y s t e m ,x m la n dj s p ( j a v a s e r v e r p a g e s ) t e c h n o l o g yw e r ei n t r o d u c e di nd e t a i l t h ea p p l i c a t i o no fs y s t e mc a nb es p r e a df o ro t h e r s h a r e di n f o r m a t i o nr e s o u r c e sr e 廿i e v a l ,p r o v i d i n ge f f i c i e n ta n dr e l e v a n ts e r v i c e sf o ru s e r s k e y w o r d s :s o i l ,o n t o l o g y ,i n t e l l i g e n tr e t r i e v a l ,x m l ,j s p i l l 独创性声明 s s b 7 s ; 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得中国农业大学或其它教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示了谢意。 研究生签名 时间:年月日 关于论文使用授权的说明 本人完全了解中国农业大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复 制手段保存、汇编学位论文。同意中国农业大学可以用不同方式在不同媒体上发表、 传播学位论文的全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名: 导师签名: 时间:年月日 时间:年月日 中国农业大学顺一f 1 学位论文第一章引言 1 1 研究背景 第一章引言 随着i n t e m e t 的迅速普及,网络已经成为人们获取信息的一种重要手段。而w e b 技术的发展 又为人们提供越来越多的交互式动态服务,如网上购物、网上医疗、网上预定车票等等,可以说 i n t e m e t 和w e b 技术的发展改变了人们的b 常生活和工作方式。面对如此众多的网络信息资源。 人们一方面能为获得丰富的信息而感到高兴,但另一方面又为如何从这些信息资源中快速地找到 自己所需要的东西而犯愁,即出现了“丰富的数据和贫乏的知识”问题,不同领域的人们都希望 能快速而高效地从这些数据中找到自己需要的东西,将信息变为知识。 当前,基于网络的信息化技术、应用集成技术、语义w e b 等技术的研究已经列入国家高技 术研究发展计划和攻关课题中。如何在海量信息资源中及时、准确地检索到各种实时信息,成为 信息检索研究领域的一个重点。常规的信息检索技术有全文检索( t e x tr e t r i e v a l ) 和数据检索( d a t a r e t r i e v a l ) ,全文检索的特点是把用户的查询要求和全文中的每一个词进行比较,这种方法虽然保 证了查全率,却大大降低了奁准率;而数据检索要求用户查询请求和信息系统中的数据都遵循一 定的格式,具有很大的局限性。因此寻求新的检索方式,特别是面向w e b 的智能检索方法成为信 息检索的研究热点。 中国农业科学院科技文献信息中心承担的国家“十五”科技攻关子专题( 编号为 2 0 0 t b a s l 3 8 0 1 - 0 3 0 2 ) “农业信息网络用户需求智能识别技术研究与开发”,主要研究内容为从常 用农业信息的词义和语义分析出发,建立农业知识本体系统。在农业知识本体系统基础上,建立 信息需求识别模式,初步形成农业信息网络用户需求智能识别技术,提供建立在新技术手段的智 能搜索引擎。 面向w e b 的智能检索技术是一项需要长期、持续研究的系统工程,本文正是依托于中国农业 科学院科技文献信息中心承担的“十五”科技攻关予专题课题开展先期研究,以o n t o l o g y 作为理 论指导,应用课题构建的科学的土壤知识体系,采用j s p 和x m l 技术开发基于网络的智能检索 系统。 1 2 本文研究目标和内容 1 2 1 研究目标 本文的研究目标是在深刻理解o n t o l o g y 理论的基础上,以中国农业科学院科技文献信息中心 中国农业人学硕l 学位论文第章引言 - - m 的文献数据库中与土壤学科相关的1 8 5 2 2 条数据为例,参与土壤知识体系的构建井尝试将建立 好的土壤知识体系嵌入专业检索系统中,开发山一个基于o n t o l o g y 的试验性应用系统,实现w e b 智能检索。 1 2 2 研究内容 本文研究的具体内容主要有: 夺 理解o n t o l o g y 概念,及其对农业领域的检索系统的指导作用。 令 了解土壤科学知识体系的构建过程,即如何依据统计方法和农业分类标准从与士壤学科相关 的1 8 5 2 2 条记录中抽取主题词,形成规范的概念集词表。( 只参与其中的一部分工作) 定义土壤知识体系的结构,即s c h e m a ,再把规范的概念集词表变为计算机可以识别、读取 的土壤o n t o l o g y 。 夺 把计算机可识别和读取的土壤o n t o l o g y 导入纯x m l 数据库t a m i n o 。 夺 使用j s p 技术实现土壤o n t o l o g y 的w e b 智能检索 夺 开展农业本体服务的应用研究。 1 3 研究意义 中国农业科学院科技文献信息中心具有丰富的文献资源和三大国际农业数据库 ( a g r i s ,c a b i ,a g r i c o l a ) 及中国农业文献数据库,现有国内外农业数据库2 0 余个,数据量 1 0 0 0 余万条,每年新增记录5 0 余万条。其主要任务之一是系统地收集、加工、存储、传递和开 发利用各种载体的国内外农业科技文献信息,并建立农业信息数据库和计算机网络,实现基于 w e b 的信息检索。目前,该中心使用的后台数据库是s o ls e r v e r2 0 0 0 关系型数据库,存储、处 理的是结构化的数据,所采用的检索系统是北京国信贝斯软件有限公司的徽机通用信息管理系统 m i c r oi s t i c i s i s ,它提供了一种方便实用的方法来表达一些逻辑运算,用户提交的每个检索词 都与含有这个检索词的记录有关,通过对检索词之间逻辑的表达式进行运算,得到用户需要的记 录( 吴广印,1 9 9 0 ) 。该系统通过一个例排文件对数据库进行快速检索,但这耗费了外存空间, 而且随着数据量的增加,显得尤为突出。t r s ( t e x tr e t r i e v a ls e a r c h ) 全文检索系统对于文献中 心海量数据来说在保证了查全率的同时降低了查准率。 本文的研究引用了o n t o l o g y 理论,既为构建土壤科学知识体系提供了理论基础,又改进了 w e b 智能检索系统性能,提高了系统的可复用性、可靠性、规范性和检索速率。后台数据库为纯 x m l 数据库t a m i n o ,可以处理半结构化的数据。提供数据变换和应用程序集成环境与原有系 统相比具有明显的优势。因此本文的研究意义就是通过试验,应用课题构建的土壤科学知识体系, 开发出一个真正基于o n t o l o g y 的试验性应用系统,实现w e b 智能检索,从而揭示基于o n t o l o g y 的知识组织体系在农业学科知识挖掘方面的实力和前景本课题如研究提供了一种靳的先进的智 能检索方法,而且可以推广应用于农业信息检索领域。本研究既是农业信息管理中的基础性研究, 又具有创新意义和实用性,而且必将为后继研究提供宝贵的经验教训。 2 中因农业火学砸l 学位论文第一誊引言 1 4 所采用的相关技术综述 1 4 1 理论基础o n t o l o g y o n t o l o g y 概念 术语“o n t o l o g y ”来源于哲学领域,是哲学的一个分支,它所研究的问题是本体、现实的性 质与组织( g u a r i n o 、g i a r e t t a ,1 9 9 5 ) 。它最早用于人工智能领域是由n e w e l l 于1 9 8 2 年描述的一 套称之为o n t o l o g y 分析法的方法体系,实际上是建立一种知识标准的分析手段,当将这种方法应 用于某一课题领域中时,会产生有关其知识元素的一套规范说明( n e w e l l ,1 9 8 2 ) 。 o n t o l o g y 是描述概念及概念之间关系的概念模型,在人工智能领域,它的定义有很多,如: 由u s c h o l d 等提出的“av o c a b u l a r yo f t e r m sa n ds o m es p e c i f i c a t i o n o f t h e i r m e a n i n g ( 一套术语词表 以及术语含义的规范说明) ”( u s c h o l d 等,1 9 9 6 ) :b r o s t 则认为o n t o l o g y 是指“a ne x p l i c i t f o r m a l s p e c i f i c a t i o no f a s h a r e dc o n c e p t u a l i z a t i o n ( 一套得到认同的、关于概念体系的明确、正式的规范说 明) ”( b o r s t ,1 9 9 7 ) 。 目前被广泛接受的定义是:o n t o l o g y 是一套共享的概念化的形式、显式的规范说明( d i e t e r f e n s e l ,2 0 0 1 ) 。 “概念化( c o n c e p t u a l i z a t i o n ) ”指的是世界上某些现象的抽象模型,该模型能够识别现象的 相关概念。 “显式的( e x p l i c i t ) ”指所使用概念的类型及这些概念在使用上的约束要显式定义。 “形式的( f o r m a l ) ”指o n t o l o g y 是机器可以处理的。目前,人们从不同的形式化程度对各个 领域设计了本体论,例如w o r d n e t 提供了超过l o 万的使用自然语言解释的术语,而c y c o r p 公司的c y e u p p e r o n t o l o g y 提供了应用于公共基础的最高概念。 “共享( s h a r e d ) ”说明o n t o l o g y 表明的是达成一致的知识,也就是说,它并不是局限于某几 个个体而是被整体所接受。 综上所述,o n t o l o g y 提出了对特定领域知识的共同理解,抽象出该领域内共同认可的词汇( 术 语) ,并从不同层次的形式化模式上给出这些词汇( 术语) 及它们之间相互关系的明确定义。 o n t o l o g y 具有两个特性:静态性和动态性。静态性是指它反映的是概念模型,没有涉及动态的行 为;动态性指它的内容和服务对象是不断变化的,针对不同的领域,可以定义和构造不同的本体 ( 邓志鸿等,2 0 0 2 ) 。在实际应用中,o n t o l o g y 由于提供了对某一领域可共享的、通用的理解,从 而使不同人员、不同应用系统之间可以进行通信( 许卓明等,2 0 0 3 ) 。 o n t o l o g y 和主题词表的比较 o n t o l o g y 不是一般意义上的概念集,它不仅包含一整套关于概念的规范说明,而且还包含概 念和概念之间的关系,体现了知识的内在组织关系。在用于人工智能和知识共享领域中时,这种 概念集是可以被机器理解的。从而使它能在智能信息集成、知识管理、信息检索、资源共享和电 子商务等方面更好地发挥作用。 中国农业大学顺i 学位论文第一章引言 o n t o l o g y 是基于概念的,它与目前被广泛应用的基于术语的主题词表既有相同处,又有所不 同,它_ f i j s n 同的特征包括术语学的组织与等级结构( 李景,2 0 0 3 ) 。o n t o l o g y 与主题词表都用于大 范围地涵盖特定领域的术语,以及理解这些术语间的关系,二者都利用一个等级的组织结构将术 语区分为类和类,因此均可应用于编目和组织信息。 o n t o l o g y 和主题词表的不同之处可以从以下几个方面来说: 着重点不同 主题词表着重表现术语间的关系,o n t o l o g y 则着眼于定义概念并表达概念间的关系。主题词 表对于定义概念毫无建树,也不涉及概念的表达以及概念的含义是否规范,它只涉及一种特定自 然语言中术语间的关系;而o n t o l o g y 是由术语抽象而来的概念,它规范地阐明了从术语到概念的 映射。 概念模糊牲 主题词表可用于组织术语的几种关系有b t n t r t ( b r o a d e r t h a n n a r r o w e r t h a n r e l a t e d t o ) 等, 不仅在数量上相对较少,而且还没有得到规范定义,因此概念是比较模糊。如r t 关系包含了所 有其它关系,将各种关联、随意的特性和其它模糊的关系都浓缩在一起。而一个完善的o n t o l o g y 能够提供结构的主体和概念的关系,包括超类,亚类实例( s u p e r e l a s s s u b c l a s s i n s t a n c e ) 关系、特 征值( p r o p e r t y v a l u e ) 、时间关系以及其它依赖于所用的表达语言的关系等。它包含的不只是关系, 与主题词表相比,这些关系还会得到规范地定义和明确地应用。 在检索中的作用 当实际应用到系统或软件中,o n t o l o g y 的特征使它在进行检索时优于主题词表。因为o n t o l o g y 包含机器可判断的对概念的定义,它能够支持术语的语义推理,即通过分析用户提问中所包含术 语的意义,用户的问题可以被理解,并能准确地映射到信息资源。o n t o l o g y 通过比较逻辑概念结 构来推理有关概念的含义,举一个简单的例子归类,如果概念b 是满足作为概念a 的一种 情况的需要,o n t o l o g y 就能够推理出概念b 是概念a 的专有实例,于是概念b 就会被自动划分 到概念a 之下。在这种情况下加工的检索式以及所实现的检索,用主题词表是不可能实现的。由 于o n t o l o g y 能通过概念间的关系来表示概念语义,从而能够提高检索的查全率和查准率( 邓志鸿 等,2 0 0 2 ) 。 组织结构上的区鼬 主题词表中知识点的分布是线性的、一维的。主题词在表中的位置是固定不变的,通常只能 表现主题词表中的上下位关系。而o n t o l o g y 中的知识点概念分布是层次性的,多维的,能表示 子类超类、继承等关系。 o n t o l o g y 对智能检索系统的改进 常规的直接基于关键词的全文信息检索技术已不能满足用户在语义和知识上的需求,而且用 户在检索出的无序、大量的一条一条记录中寻找所需的信息时,往往显得一筹莫展,如著名的搜 索引擎g o o g l e 、a l t a v i s t a 等。在目前网络信息资源急剧增长的形势下,这种现象使用户感到越 来越不方便。笔者于2 0 0 3 年5 月1 7 日用“农业+ o n t o l o g y ”在g o o g l e 中搜索得到1 0 9 条记录,由 于o n t o l o g y 是来自哲学领域的,真正检索到相关的信息不到2 0 ,而用“0 n l o l o g y + 农业+ 中国” 检出的4 7 条记录中只有3 条是符合要求的。这充分显示了g o o g l e 在支持检索的语义知识上的不 足,也说明了农业o n t o l o g y 在我国乃至全球都处于刚刚开始研究的初期阶段。 d 中周农业大学顶:l 学位论文 第一章引言 o n t o l o g y 具有良好的概念层次结构和对逻辑推理的支持。因而在新的基于知识的信息检索中 可以得到广泛的应用。目前,基于w w w 的信息检索系统的性能可以从如下方面进行改进( 李景, 2 0 0 3 ) : 夺 具有支持检索的语义知识; 审 部分、但强有力的自然语言理解; 夺 系统提供多种与用户交互的自然方式; 夺 集成结构化文档、半结构化文档和关系数据库的知识。 o n t o l o g y 能够作为咀上几个方面的基础和中介,在系统中居于核心地位。 本文的研究是涉及农业基础科学的土壤知识领域,依据o n t o l o g y 分类属于d o m a i no n t o l o g y ( 领域o n t o l o g y ) :它提供了这个领域中概念的词表以及它们之间的相互关系。 1 4 2 实现技术j s 嗍l 1 ) j s p ( j a v a s e v e r p a g e s ) j s p 是由s u nm i c r o s y s t e m 公司倡导建立的新技术,是基于j a v as e r v l e t 以及整个j a v a 体系的 w e b 开发技术,也是j 2 e e 平台上的一个关键性组件。它的结构与微软的a s p ( a c t i v es e r v e rp a g e s ) 非常相似,但a s p 只能工作在微软的s 和p e r s o n a lw e bs e r v e r 上,而j s p 则可以不加修改地在 大多数w e bs e r v e r 上运行其中包括了n t 系统符合“一次编写,各处运行”的j a v a 标准( 唐 泽圣、刘九如,2 0 0 1 ) 它彻底解决了动态网络技术基于“脚本级”的先天性缺陷。 j s p 设计思想是将业务逻辑和页面显示分离,这使得浏览器客户端的访问几乎没有限制,而 且大大简化了应用程序的部署和管理,如:要更新一个应用程序。管理人员只需要更改一个基于 服务器的程序t 而不是成千上万安装在客户端的应用程序,因此也能实现建造基于浏览器客户端 的多层次应用程序。j s p 不但简化开发基于w e b 的交互式应用程序的过程,还可在任何w e b 或 应用程序服务器上运行,它强调可重用的组件,具有扩展性,并能提高总体开发效率。j s p 技术 构建w e b 应用的模型结构大体有两种( 见图1 - 1 、图1 2 ) : 浏 览 器 、毫bb r o w s c rw e bs e r v e rd a t as o u r c e s 围i - 1横型一的结构 模型一( 王雷,蔡自兴,2 0 0 1 ) 是纯j s p 的比较简单的方案,应用服务器接受到从浏览器发 来的请求,由j s p 通过访问j a v a b e a n s ,连接到数据库,取得相应结果后再经j s p 处理,动态产 中国农业大学硕士学位论文 第一章弓苦 生h t m l 网页,返回给用户。这种模型适合于处理逻辑比较简单的w e b 应_ l = j 。 浏 览 器 w e bb r o w s e r w e bs e r v e r 图卜2模型二的结构 模型二是比较复杂的体系结构,它是由j s p 和s e r v l e t 共同来实现交互处理的。这种模型体现 了m v c ( m o d e l - v i e w - c o n t r 0 1 ) 的设计模式,j a v a b e a n s 组件构成了应用模型( m o d e l ) ,实现各个 具体的应用逻辑和功能( 吴晨清,荣震华,2 0 0 1 ) 。s e r v l e t 负责处理h t t p 请求,属于控制者 ( c o n t r o l l e r ) ,而j s p 作为用户晃面程序( v i e w ) 。负责生成交互处理后返回的动态页面。这种模 型适合于大型的企业级应用。 2 ) x m l 可扩展标记语言 x m l ,即可扩展标记语言,国际互联网联盟w 3 c 于t 9 9 8 年2 月1 0 日推出它的t 0 标准( w 3 c , 1 9 9 8 ) ,作为s g m l ( s t a n d a r d g e n e r a l i z e d m a r k u p l a n g u a g e 标准通用标记语言) 的一个子集,它 略去了s g m l 中繁杂和不常用的内容,保留了主要的使用功能,从而大大缩减了s g m l 的复杂 性,使得编程简化,易于理解。w 3 c 于2 0 0 0 年1 0 月6 目公布了x m l l 0 第二版( w 3 c 2 0 0 0 ) , 目的是使文档中的数据达到结构化,并赋予其明确的语义以充分地描述数据,为数据信息的交换 提供条件,使其更适合于w e b 应用,同时它还克服了h t m l 的不足之处,被称为继h t m l 的“第 二代w e b 语言”、2 1 世纪w e b 的“世界语”。 x m l 体系包含丰富的内容,作为一个新技术处在不断发展、不断完善的阶段,在设计整 个系统时涉及到如下方面: 1 ) 基础语法:包括x m l 文档、x m l 声明、注释、属性与标记、c d a t a 节、命名空间、数 据岛、处理指令等。 2 ) 文档类型定义d t d ( d o c u m e n t t y p e d e f i n i t i o n ) :是一套关于标记符的语法规则( 陈晓欧 董欣等,2 0 0 1 ) 。它描述了一个置标语言的语法和词汇表即定义了文件的整体结构以及 文件的语法,用来校验x m l 文档的有效性。 3 ) s c h e m a :是专门针对x m l 的一种应用,它不仅包含了d t d 能实现的所有功能,并对其有 所扩充,而且本身就是规范的x m l 文档,具有_ _ 致性、扩展性、易用性、规范性和互换 性的优点。 4 ) x s l 可扩展样式单语言( e x t e n s i b l es t y l e s h e e tl a i l g i l a g e ) :是描述x m l 文档样式信息 的一种语言,遵从x m l 语法规范,是x m l 的一种具体应用( 陈晓欧,董欣等,2 0 0 1 ) , 6 中国农业大学硕+ l :学位论文第一章0 j 苦 它被用来把x m l 文档转换为h t m l 、x m l 或其他格式的文档。它包括x s l t ( e x t e n s i b l e s t y l e s h e e tl a n g u a g et r a n s f o r m a t i o n ) 和x s l f o ( e x t e n s i b l es t y l e s h e e tl a n g u a g e f o r m a t t e do b j e c t ) 两部分,前者负责x m l 源代码的转换:后者提供大量的格式化命令, 精确地设定外观样式,是一种独立于设备的格式。 5 1 x q l ( x m l q u e r y l a n g u a g e ) :x m l 查询语言,提供用于查询、定位和模式的简单语法, 与关系型数据库的s q l 相对应。 6 ) d o m 文档对象模型( d o c u m e n to b j e c tm o d e l ) ;是由x m l 分析器提供的应用程序接口, 通过它可以对x m l 文档进行访问,实现对文档中数据的增加、删除、修改等操作。( 详见 3 3 3 ) 7 1 s a x ( s i m p l ea p i sf o rx m l ) :即x m l 简单应用程序接口,提供了一种对x m l 文档进行 顺序访问的模式,是一种快速读写x m l 数据的方式。( 详见3 ,33 ) x m l 是可扩展的源标记语言,和h t m l 相比有自身的特点和优势 夺内容和形式的分离;便于信息表现方式的修改和数据的搜索,也使得x m l 具有良好的自描 述性,能够描述本身的含义甚至它们之间的关系,进行更加灵活的编程,减少服务器的工作 量增强服务器的升级性能; 夺良好的可扩展性:用户自己定义标签,从理论上讲类型数量可以是无限的,现在许多行业已 经定义了自己的置标语言,例如:化学置标语言c i v i l ( 由p e t e rm u r r a y - r u s t 制订) 和数学 置标语言m a t h m l1 0 版本( w 3 c 1 9 9 8 0 4 0 7 推荐标准) 夺语义性强:自行设计有意义的标记便于异构系统之间的数据交换和信息检索实现机器和机 器之间的信息交换: 夺结构性强:支持复杂的多层次嵌套结构,能表示面向对象的等级层次: 夺遵循严格的语法要求:x m l 遵守规定的标记符语法规则,这增加了网页文档的可读性和可 维护性也大大减轻了浏览器开发人员的负担,提高了浏览器的时间空间效率; 支持多文种:x m l 文件使用u n i c o d e ( 网络通用的信息编码标准) 字符集编码,几乎包括了 世界上所有现代语言通常使用的每一种字符。 x m l 作为s g m l 的子集,是用来定义文本标记的语言,其主要应用包括:交换信息、定义 文档类型、说明信息。信息以结构化的基于文本格式的方式表达,易于进行传输、转换和阐释, 并实现了数据内容和显示形式相互分离,使得x m l 有着和j a v a 技术一样的进行跨平台信息交换 的优点,从而使其与j s p 的台作有了天然的基础。 综上可知,x m l 可描述任意复杂结构的不依赖于平台的数据,j s p 是基于面向对象机制的跨 平台应用,能利用强大的j a v a 平台来解析、转换x m l 信息和文档,二者的结合是使用多种数据 源和支持多语言客户的w e b 应用开发中的完美组合。 7 中国农业大学硕上学位论文第二章设计智能检索系统的前期准备工作 第二章设计智能检索系统的前期准备工作 2 1 原始文献数据库信息分析 现有的原始文献数据库中共有5 6 万条记录,其中标有s i s ( 土壤学) 分类号的记录有1 8 5 2 2 条,每条记录包含五个字段:( 见表2 - 1 ) 记录序号:该条记录在文献数据库中的记录序号。 类号:依据中国农业专业分类表标引的所属类号。 题目、关键词、出版年代:该篇文章的题目、关键词和出版年代。 表2 - 1 原始文献数据库记录示倒 2 2 土壤知识体系的组织 数据是数据库的核心,数据整理是数据库管理工作中的重中之重,也必然成为组织土壤知识 体系的一个重要环节。对于原始文献数据库中的土壤分类信息,以中国图书资料分类法为标准, 结合统计分析方法对分类号和关键词进行抽取、清洗、规范、整合,实现概念化、正规化,最终 形成土壤领域的d o m a i no n t o l o g y 。 原始文献数据库中的记录,一个关键词通常涉及多个类号,而且这些类号分布在不同的学科 和类级,因此关键词与分类信息之间是一个单维与多维多层的树型结构的关系,为了引导用户有 效地使用这些分类信息,既不能把这些分类按所统计的信息量的顺序简单地罗列给用户,也不能 全部按分类表的层次顺序进行展现,在对分类信息进行调查、分析的基础上结合网络信息检索的 特点,制定了分类信息规范化、正规化原则:( 钱平。苏晓路,2 0 0 3 ) 夺 重多不轻少,不丢一个分面。在某些分类的层面,有的分类节点仅有一条记录,但它有可能 是代表了某个方面的信息或某一领域新的发展的信息。 夺 对含记录数较多的分类采用先以多带少、后以高带低的原则,即先按所含记录数的多少排序, 后按分类法的层次归类,这样使用户能在第一位置,看到检索词所含记录数最多的类。 夺 分类号在按分类法的规则排列后,若某一节点不含记录数据,且仅有一个子节点时,去掉此 节点,其子节点上升层。这样做的目的是减少不必要的层次以减少用户查询时的点击次数。 夺 三级以下的分类若含有的记录数较少,则合并到第三级。 经过这样的规范、组织信息后土壤领域的d o m a i no n t o l o g y 由关键词及关键词所对应的信息 量和分类信息组成。由于关键词与其分类信息之间是每个词对应一组树型结构的关系,因此若采 8 中国农业大学硕士学位论文第二章设计智能检索系统的前期准备1 = 作 用传统的关系型数据库对其进行存储、查询需要借助专门的接口或相应的算法,这无疑将增加事 务的复杂性、降低系统的效率和性能。为此,我们选择纯x m l 数据库t a m i n o 做为导航信息系统 的服务器端数据库管理系统,它与关系型数据库最大的不周之处是遵循树型结构的,详见3 1 1 。 2 _ 3 土壤知识体系智能检索系统的基本设计思想 组织好土壤知识体系后,只有把它应用到实际的检索系统中,才能体现基于o n t o l o g y 思想建 立的土壤d o m a i no n t o l o g y 的优势,土壤知识体系智能检索系统的基本设计思想如下: 1 ) 收集相关的信息源数据,参照己建立的d o m a i no n t o l o g y 把收集来的数据规范化,并以 x m l 格式存储在信息导航数据库中。 2 ) 用动态网页实现提取用户检索界面的查询请求,并从信息导航数据库中匹配出符合条件 的数据结果集。 3 ) 数据结果集实际是棵d o m 树,利用x m l 解析器及x s l t 技术以直观、简单的形式呈 现给用户。 2 4 实现w e b 应用的相关技术研究 上个世纪九十年代以来,客户机服务器( c l i e n t s e r v e r ,简称c s ) 结构逐渐替代了原来的 基于资源共享、分时模式的主机,终端( h o s t t e r m i n a l ) 结构,成为应用程序开发体系结构的主流 ( 贾文珏,2 0 0 2 ) ,但随着i n t e m e t 的不断发展,基于c s 的开发模式面对应用复杂度的不断扩大, 其自身局限性逐渐显现,如必须开发专用的客户端软件、对客户端的性能要求较高、系统难以升 级维护等等。为了降低开发维护的复杂度,保证应用的可扩展性和可移植性,“胖客户机”演变 为包含表示逻辑的“瘦客户机”和包含业务逻辑的服务器,两层的c s 应用模型转向了更灵活的 三层和多层应用模型( 范孝民,石玉2 0 0 2 ) 。最初的应用服务器支持分布式事物处理,并缓解了 客户端的复杂性。但由于没有和w e b 技术结台起来,该模型中的各客户端需要维护,且局限于特 定的应用服务器,不同应用服务器间的组件难以复用( 罗新星,江景佼2 0 0 1 ) 。 随着w e b 技术的发展,出现了基于w e b 的三层应用模式,本系统采用的浏览器服务器 ( b r o w s e r s e r v e r ;简称b s ) 体系结构就是由传统的两层c s 结构发展而来的基于w e b 应用的三 层c s 结构。b s 结构由w e b 浏览器、具有应用程序扩展功能的w e b 服务器、数据库服务器组 成,把两层c s 结构的事务处理逻辑模块从客户机的任务中分离出来,由单独组成的一层来负担 其任务,这样大大减轻了客户机的压力,解决了“胖客户机”的问题使得维护人员也不用再为 程序的维护工作奔波于每个客户机之间,能把主要精力放在功能服务器上程序的更新工作。这种 三层体系结构层与层之问相互独立,任何一层的改变不影响其它层的功能。它从根本上改变了传 统的两层c s 体系结构的缺陷,把负荷均衡地分配给了w e b 服务器。提供了一个低成本、开放的 实施平台。 本系统采用了j s p 技术实现服务器端动态页面- 以x m l 格式组织数据。但以树型结构来表 9 中国农业大学硕士学位论文 第二章设计智能检索系统的前期准需工作 现从信息导航数据库中检索出来的文档结果是由可扩展样式单语言x s l 实现。 x s l 本身是一项x m l 应用,它直接架构在x m l 语法之上,是专门用来转换x m l 文档结 构的语言。当x m l 文档从数据库中被提取出来时,可以用各种不同的x s l t 模扳处理,输出不 同需求的文档,本系统的用户查询结果显示都是用x s l t 来实现的。x s l 在网络中的应用分为两 种模式: ( 1 ) 服务器端转换模式 在这种模式下,x m l 文件传送到浏览器之前先被转换成h t m l ,然后客户端再对传过来的 h t m l 文件进行浏览,具体有两种转换方式: 动态方式:即当服务器接到转换请求时再进行实时转换,这种方式对服务器性能要求较高。 批量方式:事先用x s l 将一批x m l 转换成h t m l 文件,当服务器接收到请求后调用转换 好的h t m l 文件。 ( 2 ) 客户端转换模式 这种模式是将x m l 和x s l 文件都传送到浏览器,在客户端实时转换。 本系统采用的是服务器端的动态转换模式。 x s l 的基本元素有: x s l :s t y l e s h e e t :声明语句; 在x m l 文档中用以下语句来声明x s l 样式单: x s l :t e m p l a t e :指定x m l 文档中的特定标记来定义排版样式,相当于编程中函数的概念; x s l :t e m p l a t em a t c h = :相当于函数调用,去匹配引号中指定的节点; x s l :a p p l y - t e m p l a t e :指示x s l 处理器在该x s l 样式表中选择要匹配的模板。相当于一个 要调用的过程: x s l :v a l u e - o f i 从x m l 文档中的特定标记中读取信息; x s l :f o r - e a c h :将排版样式应用到x m l 文档中相同的标记相当于循环语句: x s l :i f :与一般程序中的i f t h e n 类似; x s l :c h o o s e 、x s l :w h e n 、x s l :o t h e r w i s e :用来设定较为复杂的条件式,一般共同配合使用; x s l :a t t r i b u t e 和x s l :e l e m e n t :可在标记中附加一个属性名称或新建一个标记。 x s l 样式单通过这些语法规则来对x m l 文档进行处理,实现基于w e b 的交互式动态应用, 特别是对于同一个x m l 文档,当调用不同的x s l 样式单时可以不同的形式个性化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论