(计算机软件与理论专业论文)基于符合celts3标准的xml教育资源查询技术的研究.pdf_第1页
(计算机软件与理论专业论文)基于符合celts3标准的xml教育资源查询技术的研究.pdf_第2页
(计算机软件与理论专业论文)基于符合celts3标准的xml教育资源查询技术的研究.pdf_第3页
(计算机软件与理论专业论文)基于符合celts3标准的xml教育资源查询技术的研究.pdf_第4页
(计算机软件与理论专业论文)基于符合celts3标准的xml教育资源查询技术的研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

内蒙古大学硕士学位论文 基于符合c e lt s - 3 标准的x m l 教育资源查询技术的研究 摘要 教育信息化是国家信息化建设的重要组成部分,以计算机网络为基础的现代 教育技术得到了迅速发展。全国信息技术标准化委员会教育技术分技术委员会发 布的学习对象元数据标准,即c e l t s 3 标准,使现代的教育资源具有了两个 突出的特点:( 1 ) 、具有了规范的结构;( 2 ) 、与x m l 进行了规范化的绑定。目 前,如何提高检索效率和准确度是基于符合c e l t s 3 标准定义的x m l 文档教育资 源检索面临的主要问题。 关于x m l 信息检索的研究,主要集中在两个方面:( 1 ) 、索引技术方面的研 究;( 2 ) 、查询技术方面的研究。 为了满足基于符合c e l t s 3 标准定义的x m l 文档教育资源检索的需求,本文 主要对x m l 信息检索中查询技术方面进行了研究和改进,得到一种适合于对符 合c e l t s 3 标准定义的x m l 文档教育资源检索使用的查询方法,并同时实现了一 个符合c e l t s 3 标准定义的x m l 教育资源信息检索系统。 本文的研究内容主要包含了三方面:( 1 ) 、查询模型的选择。针对符合c e l t s 3 标准的x m l 教育资源的特点,选择一种查询执行效率高、查询算法易于确定、 能够管理符合c e l t s 3 标准的x m l 文档的查询模型。该模型能够同时考虑查询结 构信息和查询关键字信息,使用户能够准确的定位到自己所需要的信息,得到便 于理解、无歧义的查询结果;( 2 ) 、查询相关度算法的研究。针对符合c e l t s 3 标 准的x m l 教育资源的特点,对传统的信息检索领域的检索算法进行分析和改进, 提出一种适合于符合c e l t s 3 标准定义的x m l 文档的查询相关度算法;( 3 ) 、设 计并实现一个符合c e l t s 3 标准的x m l 文档信息检索系统c 3 x s ( c e l t s 3d e f i n e x m ld o c u m e n ts e a r c hs y s t e m ) 。c 3 x s 系统设计的主要的目的是采用一种合适的 查询算法对符合c e l t s 3 标准定义的x m l 文档进行检索。实验证明此系统可以比 较准确、高效的完成对符合c e l t s 3 标准的x m l 教育资源的检索。 关键字:c e l t s 3 标准;查询模型;相关度算法;x m l 信息检索 基于符合c e l t s - 3 标准的x m l 教育资源查询技术的研究 t hr e s e a r c ho nt r i e v a lo fx m ld qe d u c a t iqder e s e a r c l lor e t r i e vo c u m e n te d u c a t i o n a l n 10 ix j r e s o u r c e sb a s e do nc e l t s 3s t a n d a r d a b s t r a c t e d u c a t i o ni n f o r m a t i z a t i o ni sa n i m p o r t a n tc o m p o n e n to f t h en a t i o n a l d e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y t h em o d e me d u c a t i o n a lt e c h n o l o g yw h i c hi s b a s e do nt h en e t w o r kh a sb e e n d e v e l o p e dr a p i d l y e d u c a t i o n a lt e c h n o l o g y c o m m i t t e eo fn a t i o n a li n f o r m a t i o nt e c h n o l o g ys t a n d a r d i z a t i o nc o m m i t t e eh a s p u b l i s h e dt h es t a n d a r do f ”l e a r n i n go b j e c tm e t a d a t a ”,t h a ti s ,c e l t s 一3s t a n d a r d , w h i c hm a k e sm o d e me d u c a t i o n a lr e s o u r c e sh a v et h e f o l l o w i n gt w op r o m i n e n t c h a r a c t e r i s t i c s :f i r s t ,as t a n d a r d i z e ds t r u c t u r e ;s e c o n d ,as t a n d a r d i z e db i n d i n g sw i t h x m l a tp r e s e n t ,t h a th o wt oi m p r o v et h es e a r c h i n ge f f i c i e n c ya n da c c u r a c yi st h e p r o b l e mt h a tt h er e t r i e v a lo fx m ld o c u m e n te d u c a t i o n a lr e s o u r c e sm a i n l yf a c e s , w h i c hi sb a s e do nc e l t s 3s t a n d a r d t h es t u d yo fx m li n f o r m a t i o nr e t r i e v a lm a i n l yd e a l sw i t ht w o a s p e c t s :f i r s t ,t h e i n d e x i n gt e c h n o l o g y ;s e c o n d ,t h eq u e r y i n gt e c h n o l o g y i no r d e rt om e e tt h ed e m a n d so fr e t r i e v a lo fx m ld o c u m e n te d u c a t i o n a l r e s o u r c e sb a s e do nc e l t s 一3s t a n d a r d ,t h i st h e s i sm a i n l yd o e sr e s e a r c ho nt h eq u e r y i n g t e c h n o l o g yo fx m li n f o r m a t i o nr e t r i e v a l ,a n di m p r o v e si t ,w i t l lt h ep u r p o s eo f a c h i e v i n gas u i t a b l eq u e r y i n gm e t h o df o rt h er e t r i e v a lo fx m ld o c u m e n te d u c a t i o n a l r e s o u r c e s ,m e a n w h i l er e a l i z i n gar e t r i e v a ls y s t e mo fx m li n f o r m a t i o nb a s e do n c e l t s 3s t a n d a r d t h es t u d yi n t h i st h e s i sm a i n l yi n c l u d e st h ef o l l o w i n gt h r e ea s p e c t s :f i r s t ,t h e s e l e c t i o no fq u e r y i n gm o d e l c o n s i d e r i n gt h ef e a t u r e so ft h ex m le d u c a t i o n a l r e s o u r c e sb a s e do nt h ec e l t s - 3s t a n d a r d ,s e l e c taq u e r y i n gm o d e lt h a th a sah i g h q u e r y i n ge f f i c i e n c y ,a n dt h eq u e r y i n ga l g o r i t h mo fw h o mi se a s yt od e t e r m i n ea n d m a n a g et h ex m ld o c u m e n tb a s e do nc e l t s 一3s t a n d a r d t h i sm o d e lm u s tt a k ei n t o u 内蒙古大学硕士学位论文 c o n s i d e r a t i o nt h es t r u c t u r ei n f o r m a t i o na n dk e y w o r di n f o r m a t i o no fq u e r y i n g ,m a k i n g t h eu s e rt oo b t a i nt h ee x p e c t e dr e s u l tw h i c hi se a s yt ou n d e r s t a n d ,w i t hn oa m b i g u i t y s e c o n d ,t h es t u d yo nq u e r y i n gr e l e v a n c er a n k i n ga l g o r i t h m a c c o r d i n gt ot h ef e a t u r e s o ft h ex m le d u c a t i o n a lr e s o u r c e sb a s e do nt h ec e l t s 一3s t a n d a r d ,s t u d ya n di m p r o v e t h er e t r i e v a la l g o r i t h m so ft r a d i t i o n a li n f o r m a t i o n , p u t t i n gf o r w a r das u i t a b l er e l e v a n c e a l g o r i t h mo fx m l d o c u m e n t sq u e r y i n gb a s e do nc e l t s 一3s t a n d a r d t h i r d ,d e s i g na n d r e a l i z eax m ld o c u m e n ti n f o r m a t i o n ( w h i c hi sb a s e do nc e l t s - 3s t a n d a r d ) r e t r i e v a l s y s t e mc 3 x s ( c e l t s 一3d e f i n ex m ld o c u m e n ts e a r c hs y s t e m ) t h em a i np u r p o s eo f c 3 x sd e s i g ni st oa d o p ta l la p p r o p r i a t eq u e r y i n ga l g o r i t h mt or e t r i e v et h ed o c u m e n t a c c o r d i n gt oc e l t s - 3s t a n d a r d t h ee x p e r i m e n th a sp r o v e dt h a tt h ec 3 x ss y s t e mc o u l d d ot h er e t r i e v a lo fx m lr e s o u r c e sa c c o r d i n gt oc e l t s - 3s t a n d a r dm o r ea c c u r a t e l ya n d e f f i c i e n t l y k e y w o r d :c e l t s - 3s t a n d a r d ;q u e r y i n gm o d e l ;r e l e v a n c er a n k i n ga l g o r i t h m ; x m li n f o r m a t i o nr e t r i e v a l u i 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人 己经发表或撰写过的研究成果,也不包含为获得内蒙古大学或其他教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在 论文中作了明确的说明并表示了谢意。 学位论文作者签名: 日期: 在学期间研究成果使用说明书 学位论文作者完全了解内蒙古大学有关保留和使用学位论文的规定,即:内 蒙古大学研究生在校攻读学位期间论文工作的知识产权单位属内蒙古大学。学校 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查 阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印 或其它复制手段保存、汇编学位论文。作者今后使用涉及在学期间主要研究内容 或研究成果,须征得内蒙古大学就读期间导师的同意;若用于发表论文,版权单 位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名:雠指导教师签名: 日期:日期: 筠 内蒙古大学硕士学位论文 1 1 研究背景 第一章绪论 教育信息化是国家信息化建设的重要组成部分,是教育发展的必由之路。 从进入本世纪以来,以计算机网络为基础的现代教育技术在我国得到迅速发展。 国家十分重视现代教育技术的发展与应用,不断加快教育信息化建设的步伐。 目前,全国各大中专院校都建起了校园网,大力开展远程教育。在基础教育方 面,全国各城市中、小学大多数建立了校园网络,使多数学生能够共享优质教 育资源。 这些教育资源是十分庞大和复杂的,因此对教育资源的有效管理和高效利 用显得尤为困难,诸如资源存储、传输、共享、分类、检索等方面的理论问题 和关键技术问题一直是人们关注的重点。由于缺乏有效的管理系统和工具,检 索技术已经成为教育资源能否被高效利用的瓶颈,它严重制约着教育资源效益 的发挥。而且,随着以后教育资源的不断增加,检索将会变得越来越困难。 目前,信息检索已经发展到网络化和智能化的阶段,信息检索的特性发生了 巨大的变化,主要表现在多样性、开放性、动态性、分布广泛、更新快、变化 快、网络传输和管理松散。人们对信息检索从结果、效率和方式提出了更高、 更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术 发展的新趋势。 本论文是面向教育资源领域,针对符合c e l t s 3 标准定义的x m l 的教育资 源的两个突出的特点:( 1 ) 、具有了规范的结构;( 2 ) 、与x m l 进行了规范化 的绑定,来进行研究,以获得专门的、高效的、高性能的检索查询处理技术与 工具,为建设和完善教育资源库与教育资源应用系统提供技术基础,对推动发 展教育信息化进程是十分有意义的。 1 2 国内外研究现状 在国外,从上世纪九十年代开始制定了教育信息化标准,在此基础上建设了 一大批优秀的、高质量的教育资源和资源库管理系统,教育资源的建设、管理和 基于符合c e l t s 3 标准的x m l 教育资源查询技术的研究 应用都达到了相当高的水平。 较早且影响较大的学习资源的元数据规范是d u b l i nc o r e ! j ,它规定了定了元 数据属性的一个最小集合,用于描述类似文档一类的学习对象。现有的很多关于 元数据的规范都受到了d u b l i nc o r e 的影响瞳1 ,有些是直接对d u b l i nc o r e 的扩 充,如g e m l 3 】项目( g a t e w a yt oe d u c a t i o n a lm a t e r i a l sa r o j e c t ) 。g e m 扩展了d u b l i n c o r e 的数据元素,用于支持对文档以外的学习资源的描述,如学习计划,课程 等。另外,i m s ( i n s t r u c t i o n a lm a n a g e m e n ts y s t e m ) 也致力于开发学习资源的元 数据规范,于2 0 0 0 年6 月形成了规范的最终稿h 1 。 1 9 9 6 ,一个由学术、政府和企业代表组成的组织成立,称为教育技术标准化 委员会( l e a m i n gt e c h n o l o g ys t a n d a r d sc o m m i t t e e ) ,简称l t s c ,并受至i j i e e e ( i n s t i t u t eo fe l e c t r i c a l a n de l e c t r o n i ce n g i n e e r s ) 的资助,标号为i e e ep14 8 4 t 5 1 。 委员会中1 4 8 4 1 2 小组负责学习对象元数据规范的制定工作。该小组对现有的规 范标准进行了总结,形成了学习对象元数据规范草案( d r a f ts t a n d a r df o rl e a r n i n g o b j e c tm e t , a d a m ) ,简称l o m 【6 。 我国从1 9 9 9 年开始着手远程教育技术的标准化工作,并与2 0 0 0 年成立了现 代远程教育技术标准化委员会( d i s t a n c el e a r n i n gt e c h n o l o g ys t a n d a r d s c o m m i t t e e ) ,简称d l t s c v i 。d l t s c 在l o m 的基础上,进行了一系列的本地 化工作,包括数据元素属性的确定,取值范围的修改等等,形成了我国的学习对 象元数据规范草案( 也简称为l o m ) 。同时d l t s c 还对l o m 进行了进一步的扩 展和细化,起草了“教育资源建设技术规范草案”。 全国信息技术标准化委员会教育技术分技术委员会( c e l t sc h i n ae l e a m i n g t e c h n o l o g ys t a n d a r d i z a t i o nc o m m i t t e e ) 从2 0 0 1 年开始陆续发布了一系列有关教育 信息化的标准,与教育资源建设与应用有关的标准有学习对象元数据 ( c e l t s 3 ) 、教育资源建设规范( c e l t s - 4 1 ) 、基础教育资源元数据 应用规范( c e l t s 4 2 ) 【引。标准发布之前已有大量的教育资源,但不符合标 准与规范,也没有完全和x m l 绑定,可共享性差,不易利用。标准一方面致力 于改造已有教育资源使之符合标准,另一方面建设更大量的新的规范的教育资 源。同时,标准也为更好、更快地建设与利用教育资源奠定了基础、铺平了道路, 使我国教育资源建设步入了规范化和标准化的高速发展期。 2 内蒙古大学硕士学位论文 综上所述,我们的教育资源的硬件基础条件已经达到了较高的水平。然而相 对于出现的大量的可用的优秀的教育资源,资源管理平台的建设相对较为缓慢, 有许多核心技术和关键技术问题需要加速解决。 1 3 论文的研究内容和组织结构 本文的研究内容主要包含以下三个方面: ( 1 ) 、查询模型的选择。针对符合c e l t s 3 标准的x m l 教育资源的特点,选 择一种查询执行效率高、查询算法易于确定、能够管理符合c e l t s 3 标准的x m l 文档的查询模型。该模型能够同时考虑查询结构信息和查询关键字信息,使用户 能够准确的定位到自己所需要的信息,得到便于理解、无歧义的查询结果。 ( 2 ) 、查询相关度算法的研究。针对符合c e l t s 3 标准的x m l 教育资源的特 点,对传统的信息检索领域的检索算法进行分析和改进,提出一种适合于符合 c e l t s 一3 标准定义的x m l 文档的查询相关度算法。 ( 3 ) 、设计并实现一个符合c e l t s 3 标准的x m l 文档信息检索系统c 3 x s ( c e l t s 3d e f i n ex m ld o c u m e n ts e a r c hs y s t e m ) 。c 3 x s 系统设计的主要的目的是 采用一种合适的查询算法对符合c e l t s 3 标准定义的x m l 文档进行检索。实验证 明此系统可以比较准确、高效的完成对符合c e l t s 3 标准的x m l 资源的检索。 本文的组织结构如下: 第一章,绪论,主要论述了课题的来源和意义、国内外研究现状和课题的主 要工作。 第二章,c e l t s 3 标准简介,主要对c e l t s 3 标准的特点和与其相关的概念进 行了介绍。 第三章,基于c e l t s 3 的x m l 文档信息检索的查询模型的选择,主要对经典 的x m l 模型进行了分析,选择了一种适合于c e l t s 3 标准定义的x m l 文档的查 询模型来对其进行检索。 第四章,基于c e l t s 3 的x m l 文档信息检索的相关度算法的研究,主要内容 是提出了一种新的查询的相关度算法。 第五章,基于c e l t s 3 的x m l 信息检索系统( c 3 x s ) 的设计与实现,对本 课题设计并实现的系统c 3 x s 进行了介绍,主要包括:系统的整体框架、主要功 基于符合c e l t s 3 标准的x m l 教育资源壳询技术的研究 能模块和其中采用的主要技术,并进行了相应的实验,证明该系统能够比较准确、 高效的完成基于c e l t s 3 标准定义的x m l 信息检索。 第六章,结束语,对论文作了总结,并对今后的工作提出了思路和意见。 1 4 本章小结 在本章中,主要介绍了本课题的研究背景( 1 1 小节) 、国内外研究的现状( 1 2 小节) 和本论文的研究内容和组织结构( 1 3 小节) 。最后,在1 4 小节,对本章 进行了小结。 4 内蒙古大学硕士学位论文 第二章c e it s - 3 标准简介 在本章中,我们将首先对c e l t s 3 标准的相关概念的基本概念进行介绍( 2 1 小节) 。然后,介绍c e l t s 3 标准( 2 2 小节) 。最后,对本章讨论的内容进行了小 结( 2 3 小节) 。 2 1 与c e l l s - 3 标准相关的基本概念 在本小节中,本文将重点介绍两个与c e l t s - 3 标准相关的基本概念,即学习 对象和元数据,下面将分别对其进行介绍。 2 1 1 学习对象 学习对象,l e a r n i n go b j e c t ,定义为用于学习、教育或者培训的数字或者非 数字的任何实体。一般的学习对象均以数字化的形式存在,而其粒度也可大可小。 如:一张图片、一段x m l 格式的文档,或者一门课程等。 学习对象有明确的、特定的学习目标和独立性。而且,一般认为学习对象是 构成学习内容的基本单元。如:使用一个特定x l v i l 格式的文件来描述一门精品 课程的基本信息。此x m l 文件就可称为一个学习对象。可以用此x m l 文件为 基本单元来对其所描述的这门精品课程进行学习。 2 1 2 元数据 元数据,m e t ad a t a ,定义为关于数据的数据,或者数据的属性。元数据的 概念包含的内容很广泛,如:本书的元数据可以是作者信息、出版时间、出版 社等,- i o 课程的元数据可以是课程的名称、课程的内容等。 元数据可以认为是一个具体值的集合,它是为了更好的理解和使用其所描述 的数据对象而存在。元数据对其所描述的数据对象具有很强的依赖性,反之则不 然。通常情况下,一个学习对象应该包含其对应的元数据描述,才可称此学习对 象为完整的。 基于符合c e l t s 3 标准的x m l 教育资源查询技术的研究 2 2c eit s - 3 标准 2 2 1c ei t s - 3 标准概述 在2 1 小节中,介绍了学习对象和元数据的概念。学习对象的元数据标准就 称为c e l t s - 3 标准。通常,c e l t s - 3 标准也被称为l o m 标准,或者简称为元数据 标准。由全国信息技术标准化委员会教育技术分技术委员会( c e l t sc h i n a e l e a m i n gt e c h n o l o g ys t a n d a r d i z a t i o nc o m m i t t e e ) 在2 0 01 年提出,称为:学习 对象元数据( c e l t s 3 ) ,并在2 0 0 8 年成为了国家标准( g b t 2 1 3 6 5 2 0 0 8 ) 。 与c e l t s 3 标准同时提出的有关教育信息化的标准和与教育资源建设与应用有 关的标准还有教育资源建设规范( c e l t s 4 1 ) 、基础教育资源元数据应 用规范( c e l t s 4 2 ) 等。 c e l t s 一3 标准定义了关于学习对象元数据应该包含哪些方面的信息,这些信 息是怎么组织的,在计算机中表示的形式等的标准规范。目的是帮助学习者、教 育者或者自动化的软件等对学习对象进行查找、评估、获取和使用。 c e l t s - 3 标准主要包含四个子规范文本的具体定义阳1 :( 1 ) 、c e l t s 一3 1 :信 息模型,c d 2 0 ;( 2 ) 、c e l t s 一3 2 :x m l 绑定规范;( 3 ) 、c e l t s 一3 3 :实践指南, c d l 6 ;( 4 ) 、c e l t s 一3 4 :测试规范,w d l 0 。 c e l t s - 3 1 ,信息模型规范定义了学习元数据的结构,使用数据元素来表示 元数据。标准还定义了用于学习对象元数据的所有数据元素,而且将数据元素划 分为9 个类别,从不同的方面描述了学习对象。 c e l t s - 3 2 ,x m l 绑定规范定义了元数据信息模型的x m l 表示方法,也称为 x m l 绑定。同时,标准还给出了x m l 绑定的s c h e m a 文档。 c e l t s - 3 3 ,实践指南规范中,主要阐述了列表和分类的方法,来帮助实践 者更好的理解标准,支持在该标准的实现指导功能。 c e l t s - 3 4 ,测试规范中,主要说明了对元数据实例和标准实现进行标准一 致性测试的依据。以及对x m l 绑定的实例和实现进行测试的方法。 此外,c e l t s - 3 标准作为c e l t s 标准体系中的基本标准之一,其具有支持多 语言、可扩展的特性。c e l t s 一3 以元数据作为数据元素的基本单元。通过对元数 据的名称、对应的英文名称、解释、约束性、值域大小、是否有序和数据类型等 6 内蒙古大学硕士学位论文 方面来定义了必须元素、可选元素和扩展元素。同时,在c e l t s 一3 标准中,还引 用了大量的其他标准,如:世界各国的名称均定义为国际标准的名称,中国定义 为c h i n a 、标题定义为t i t l e 等等。 2 2 2c e i t s - 3 标准的结构 如上所述,c e l t s - 3 标准的数据元素被分成九个类别n 训,分别是通用类、生 存期类、元一元数据类、技术类、教育类、权限类、关系类、评注类和分类。c e l t s 一3 定义的x m l 文档的结构可以看作是树状的,只有叶节点才直接有值,如图2 1 所示。 l o m 根元素 g e n e r a l ( 通用类) :学习对象作为整体的通用信息 l i f e - c y c l e ( 生存期类) :学习对象的状态以及对其作出 贡献的各项元素信息( 如:人或者组织) m e t a - m e t a d a t a ( 元- 元数据类) :元数据实例自身的信息 t e c h n i c a l ( 技术类) :学习对象的技术要求和相关特征 e d u c a t i o n a l ( 教育类) :学习对象在教育和教学方面的主 要特征 r i g h t s ( 权限类) :学习对象的知识产权和使用条件 r e l a t i o n ( 关系类) :学习对象和其它学习对象间的关系 a n n o t a t i o n ( 评注类) :学习对象在使用方面受到的评价 c l a s s i f i c a t i o n ( 分类) :学习对象在一个分类系统中所处 的位置 图2 1c e l t s 一3 1 学习对象元数据的结构 f i g u r e 2 1c e l t s 一3 1t h es t r u c t u r eo fl e a r n i n go b je c t s m e t a d a t a 7 基于符合c e l t s 3 标准的x m l 教育资源查洵技术的研究 2 2 3c ei t s - 3 标准的分类 在c e l t s - 3 标准中,所有的数据元素都被分成了三类n :必须元素、可选元 素和扩展元素。 其中,所有的必需元素组成了学习资源属性的核心集。核心集中的数据元素 具有最大的通用性,对于任意一个学习对象都是必要的。对于任何一个和c e l t s 一3 标准一致的元数据实例或应用都必须支持核心集中的所有数据元素。核心集是学 习资源元数据实现互操作的基础。对于元数据实例,核心集中的数据元素是能被 任何和c e l t s - 3 标准一致的应用所接受的,同样对于任何一个应用,都能识别和 c e l t s 一3 标准一致的元数据实例核心集中的数据元素。 对于所有的可选元素则组成了学习资源的可选集。对于可选集合中的任意一 个数据元素,对于元数据实例或应用来说都是可选的。可选集可以看作是对核心 集的扩展。用户在确定核心集以外的数据元素时要尽可能地选用可选集中的数据 元素,因为可选集为数据互操作提供了一个可能被采用的数据元素的集合。 最后,对于所有的扩展元素组成了学习资源属性的扩展集。其中,扩展集还 可分为特定扩展集和任意扩展集。特定扩展集中的数据元素是由“教育资源建设 技术规范”中特定资源的扩展属性组成的。我们可以把它看作是某一领域中的一 个“协议 。对于那些遵守“协议 的用户或开发商,他们的元数据实例或应用 系统是能够达到互操作的。而对于那些不遵守此“协议的用户或开发商,他们 的扩展数据元素是不具有互换性的。任意扩展集是用户或开发商根据自身的需要 所确定的扩展数据元素的集合。由于任意扩展集的互操作性很差,对于那些能用 特定扩展集描述的属性,也尽量采用特定扩展集中的数据元素,而不要随意地添 加新的扩展数据元素n 2 i 。 2 3 本章小结 在本章中,我们对c e l t s 3 标准及其相关的概念进行了介绍。c e l t s 3 标准在 学习对象的管理、浏览、查找和共享等方面起着重要的作用。随着学习对象的增 加,学习对象元数据的统一规范就更为重要。c e l t s - 3 标准的目的就在于给出学 习对象的标准化属性描述,尽可能地达到资源共享。c e l t s 3 标准形成了学习对 8 内蒙古大学硕士学位论文 象元数据的三层描述结构:核心集,可选集和扩展集,这种分层的现象是数据互 操作性和描述灵活性之间相互平衡的结果。也就是说通过分层结构,提供互操作 性的多个层次,尽可能地满足不同应用的需要。使得用户可以根据自身的需求进 行有选择地应用。 9 基于符合c e l t s 3 标准的x m l 教育资源查询技术的研究 第三章基于c e it s - 3 的x m l 信息检索的查询模型的选择 在本章中,我们将首先对x m l 的数据模型和查询模型进行分析( 3 1 小节 和3 2 小节) 。然后,根据基于c e l t s 3 标准定义的x m l 文档的特点,选择出了 一种合适的查询模型对其进行检索( 3 3 小节) 。最后,对本章讨论的内容进行了 小结( 3 4 小节) 。 3 1x m l 的数据模型 数据模型随着应用的需求和对信息管理研究的不断深入而逐渐发展。在 e e c o d d 提出了关系模型【l3 j 的基础上建立的关系数据库称为当前的主流数据库 系统。随之又出现了面向对象的数据模型,该模型具有面向对象技术的封装性和 结构性的特点,然后基于对象模型的对象型数据库系统也应运而生。 传统的数据库管理系统使用的是基于结构化的数据模型,其特征就是数据库 预先都有一个固定的模式,数据遵守严格的类型定义。模式的作用在于检验数据 和查询优化,而x m l 数据的模式却是不固定的。国际上从9 0 年代中叶开始研 究x m l 数据的模型,并且取得了很多成果。 3 1 10 e m 模型 x m l 数据是由半结构化数据发展而来的。半结构化数据的内容与模式信息 都包含在数据中,因此也被称为是“自描述的”。有些半结构化数据没有单独的 模式,而有些只对数据做不严格的约束。1 9 9 5 年,国际上提出了o e m t l 4 】( o b j e c t e x c h a n g em o d e l ) 模型,用于描述半结构化数据。 o e m 模型中,半结构化数据可以用一个有向的标记图来表示。一个o e m 对 象由一个四元组 l a b e l ,t y p e ,v a l u e ,q i d 表示,其每个域的意义如下: ( 1 ) 、l a b e l ,变长字符串,描述对象的意义; ( 2 ) 、t y p e ,对象值的类型,包括两种:一种为原子型( a t o m i c ) ,如i n t e g e r , r e a l ,s t r i n g ,i m a g e ,p r o g r a m 等;另外一种为复杂类型( c o m p l e x ) ,包括零个或 多个子对象,每个子对象用一条带标记的边与其相连。对象类型为原子型的称为 原子对象,而对象类型为复杂型的称为复杂对象。 l o 内蒙古大学硕士学位论文 ( 3 ) 、v a l u e ,对象的值。 ( 4 ) 、q i d ,用于唯一标识每个o e m 对象。 在o e m 中,每个对象允许有多个父对象,因此在有向图中允许环的存在。 o e m 模型可严格定义如下: 半结构化数据可用s d = ( p ,e ,r ) 的带有根节点的有向图表示,其中pcn 表 示有限节点集,ecp xd xp 表示带标记的边的集合,d 为标记集,r 为根节点, 由r 沿一定顺序的e 可以访问所有的节点p 。 3 1 2d o m 模型 x m l 文件由嵌套的带标记的元素组成。每一个元素又可以拥有零个或多个 属性值对( a t t r i b u t e v a l u e ) 以及零个或多个子元素( s u be l e m e n t ) 。每个子元 素本身也是元素或“不带 标记的文本( p c d a t a ) 。由于x m l 被定义为一种标 记语言而不是数据模型,因此x m l 是一种有序的数据文件。具有良好构造 ( w e l l f o r m e d ) 的x m l 文件不对其中的标记、属性名以及嵌套模式做任何限制, 如果它符合一定的文档类型定义( d t d ) ,则被称为是合法的x m l 文档。为了 在软件中使用x m l 数据,w 3 c 组织为x m l 数据定义了d o m l ”】( d o c u m e n t o b j e c tm o d e l ) 模型,用于将x m l 数据映射到一定的数据结构中。 x m l 具有半结构化数据的许多特征,如自描述行、结构的易变性。并且, o e m 模型中的标记、对象、原子值分别对应与x m l 中的标记、元素、p c d a t a 。 但x m l 与o e m 模型之间也有很大的区别,主要体现在以下几个方面: ( 1 ) 、o e m 模型不是一个有序的数据模型,对象的各个子对象之间没有固 定的顺序,而x m l 则是有序的数据。 ( 2 ) 、其次,o e m 没有属性的概念,只有子对象。 ( 3 ) 、x m l 是一种树形结构的数据,但它采用特殊类型的属性i d 和i d r e f , 来实现元素到元素之间的链接,从而也可演变成一种图型结构。 3 2x m l 的查询模型 对于x m l 数据的查询,通常主要有三种不同的查询模型,不同的查询模型 之间的区别主要在于查询的形式,查询结果的确定方法以及查询结果的排序方 基于符合c e l t s 一3 标准的x m l 教育资源查询技术的研究 法。三种查询模型分别为:( 1 ) 、基于简单关键字查询模型。( 2 ) 、严格结构匹配 与关键字相结合查询模型。( 3 ) 、非严格结构匹配与关键字结合查询模型。下面, 我们将对这三种模型分别进行分析。 3 2 1 基于简单关键字查询模型 这种查询模型非常类似于我们当前在网络上使用的搜索方式,如:百度、 g o o g l e 、雅虎等。用户可以输入任意的内容进行查询,如:词语、短语或者一句 话等。 这种查询的方式是将用户的输入进行关键字的切割,用切割出来的关键字序 列在源x m l 索引库中进行查询,将匹配的结果返回给用户。对于返回给用户节 点的层次通常不进行规定,因此任意层次的满足条件的任意标记节点都可以作为 查询结果返回。 其优点是:便于用户使用。因为其查询界面简单,仅要求用户输入自己需要 的查询关键字,而对x m l 内部结构信息的处理则由系统自动完成。 其缺点是:查询结果由于缺少必要的限制而经常变得难以理解。具体表现为, 由于没有规定查询返回的层次,查询结果可以是x m l 数据中的任意层次,任意 标记的节点,那么就可能出现两个查询结果相互包含的情况;同时,当用户浏览 这些查询结果时,难以判断该结果节点在源x m l 数据所处的上下文环境,因而 也就是难以理解该节点所包含信息的意义。 3 2 2 严格结构匹配与关键字相结合查询模型 在这种查询模型中,通常要求查询系统通过一定的功能模块来引导用户进行 查询需求的输入。使用户输入的查询包含两部分信息:( 1 ) 、查询结构路径匹配 条件;( 2 ) 、查询关键字匹配条件。然后,根据用户输入的两部分信息,将其映 射成一棵查询树,在源x m l 索引库中进行查询。那么,返回的结果也应该是源 x m l 索引库中某一棵x m l 树的子树。同时,所谓的“严格结构匹配”,就是要 求查询树的结构路径信息要与结果树的结构路径信息要完全匹配。 严格结构匹配和关键字相结合查询模型与简单关键字的查询模型的不同是: 在严格结构匹配和关键字相结合查询模型中,只有那些用户指定的目标节点才能 1 2 内蒙古大学硕士学位论文 作为查询结果被返回,其他的节点则一概不予考虑。 严格结构匹配与关键字相结合查询模型的优点是: ( 1 ) 、用户可以准确地找到自己所需要的信息,所谓的准确是指用户可以定位于 既满足一定结构匹配条件又满足一定的关键字匹配条件的信息。 ( 2 ) 、用户可以方便清楚地理解查询结果所具有的含义。因为这些结果都必须是 用户在查询中指定的目标节点,而不会出现简单关键字的查询模型中存在的查询 结果混杂、意义含糊不清的问题。 其缺点是:用户在查询x m l 数据之前则须事先知道其所具有的准确的模式 信息。 3 2 3 非严格结构匹配与关键字结合查询模型 非严格结构匹配与关键字结合查询模型是介于前两种查询模型之间的一种 查询方式,它同样在考虑关键字匹配的同时,也要考虑结构匹配的情况。但是它 又不想第二种查询模型那样,要求查询结果和查询条件在结构上要具有完全的一 致性,允许存在一定的偏差。 也就是说,这种查询模型相对于第二种模型,放宽了对用户查询表达的限制。 当前许多的研究都是针对这种“模糊的路劲查询的。但是,由于查询的“模糊 性”,就使的这种查询存在一定程度上的很难克服的缺点,如:查询结果的准确 度、执行查询需要时间相对较长等等。 那么,这种非严格结构匹配与关键字结合查询模型的优点是:方便于用户使 用,即用户可以在一定程度上,比使用第一种查询模型能更加准确的得到自己所 需要的信息;同时,又不需要像第二种查询模型那样提交完全准确的查询,其可 以比较自由的表达自己的查询需求。 非严格结构匹配与关键字结合查询模型的缺点是: ( 1 ) 、这种查询方式方便了用户提交模糊的查询,但另一方面也增大了找不到合 适的查询结果的可能性,因为用户可能根本不清楚自己所要查询的x m l 数据所 具有的模式信息,只能根据自己的猜测来构造查询,这样即使允许查询结果可以 不完全匹配于查询中的结构条件,也可能很难找到满足一定相似性的查询结果。 ( 2 ) 、这种查询方式决定了在完成该种形式的查询时,查询执行的效率会比较低。 基于符合c e l t s 3 标准的x m l 教育资源查询技术的研究 由于允许结果树与查询条件可以不完全匹配,也就要求必须处理更多的源x m l 库里的数据子树以判断其是否满足查询条件,而且在计算二者之间的相似度时也 需要耗费较多的时间。 3 3 查询模型的选择 通过对以上三种不同的x m l 查询模型的分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论