(教育技术学专业论文)本体技术决策树算法的研究及在高校教务管理中的应用.pdf_第1页
(教育技术学专业论文)本体技术决策树算法的研究及在高校教务管理中的应用.pdf_第2页
(教育技术学专业论文)本体技术决策树算法的研究及在高校教务管理中的应用.pdf_第3页
(教育技术学专业论文)本体技术决策树算法的研究及在高校教务管理中的应用.pdf_第4页
(教育技术学专业论文)本体技术决策树算法的研究及在高校教务管理中的应用.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

天津师范大学硕十学位论文 摘要 目前高等院校人数越来越多,传统的高校教务管理模式无法对如此庞大的体系作出明 智的决策,如何充分合理地利用现有资源促进学校的发展,已经是高校教务管理者所面临 的共同问题。分类规则能为教务管理者提供诸如课程安排,招收男女学生比例等方面的决 策,为高校在信息化时代的进一步向前发展起到定的推动作用。全文的主要工作概括如 下: 本论文以本体论和决策树算法为研究对象,首先,对本体定义、本体描述语言、本体 构建方法、本体应用领域、现阶段本体研究的热点以及本体未来的研究方向做了比较详细 探讨,利用本体构建技术,创建了高校教务管理知识模型,并针对教务管理中成绩关联知 识模型做了比较深刻的分析。其次,从决策树算法的背景出发,本论文针对其各分类算法 进行了比较,并对其未来发展方向作了深入的探讨,重点对决策树算法之一的i d 3 算法进 行了原理上的研究,且在测试属性的根节点的选择上进行了有益改进。最后,文章用i d 3 算法及其改进算法,对基于本体技术的成绩关联知识模型进行挖掘分析。详细介绍了作为 w 3 c 标准的本体o w l 语言,及本体创建工具p r o t 6 酌。以及用关系数据库作为中介,如何 把成绩关联中的文本数据映射到关系数据库中后,然后依据算法对数据进行分析,得出分 类规则。发现改进后的算法得出的分类规则更符合实际,说明了改进算法的优势。 关键词:本体,决策树算法,i d 3 算法及其改进算法,成绩关联知识模型 天津师范大学硕十学位论文 a b s t r a c t a tp r e s e l l t , t l l eb r o a d 嘶n g 锄o u n to fc o l l e g e ,t h e 仃a d i t i o n a lc o l l e g ee d u c a t i o n a l m a l l a g 锄e n tp a t t e n lc a i lr a r e l ym e e tt l l ea c t u a lr e q u i 涮n e n t s h o w t ou s et h er e s o u r c er e a s o n a b l e t 0d e v e l o pc o l l e g ei sap r o b l 锄o fc o l l e g et e a c h i n gm a n a g 锄e n t c l a s s i f i c a t i o nn l l e sc 锄s u p p l y d e c i s i o n ss u c ha sa r r a n 西n gc l l 州c u l u m ,e i l m l l i n go ft l l ep r o p o n i 蚰o fm a l ea i l df 孤a l es _ n l d e i l t s t h e d e c i s i o n sp l a yac e n a i nr o l ei l l 即瑚o t i n g h i 曲s c h 0 0 lt oa 缸t h e rd e v e i o p i i l 即ti ni n f 0 咖a t i o na g e t l l em a i n w n k sn ft h et e x ta r es u n l m a r i 2 ) e da sf o l l o 、s : i i lm i sp a s s a g e ,i t ss t u d yo b j e c t sa r et h e t o l o 彰锄dt h ed e c i s i o n 晚ea l g 面m m n e 凰t ,m e p a p e rd e t a i l ys t i l d i 骼t h ed e f i n i t i 蚰0 fo n t o l o 鼢o n t o l o g yd e s 嘶州o nl 锄g i l a g e ,o m o l o 影c o n s 仇l c t i m e t l l o d 0 i i l t o l o g ya p p l i c a t i o n s ,吐坞h o to f0 n t o l o g y 髂e a r c 血a tp r e s 船t ,a sw e l la sm ed i r 洲0 no fm 咖r e s 眦h 0 l i l t o l o 夥c o n s 仇l c t i o nt b c l h l o l o g ) rc a i lb eu s e dt 0c 哟tc o l l e g e1 h c h i i l gm 扑a g 锄tk n o w l e d g em 0 d e l a n d 6 wn l eg m d er e l e v a n c ek n o w l e d g em o d e lo ft 鼢c h i i l gm a i l a g 锄e i l ti th a sb e e nd eaf a i r l ys m a y t h e 。 s e c o n d ,f r o mt l l eb a c k 蓼m m do fm ed 。c i s i o n 位e ea l g o r i l h m ,t l l ep a s s a g eh 觞r 镐e 解c h e da i l dc o f m p a r e dt h ea u k i n d so fd e c i s i o nt r e ec l a s s i f i c a t i o na l g 嘶t h m s ni m 髑t i g a t 骼n l e 向t l l r er e s e a r c hd i r e c t i o no ft l l ed e c i s i o n 1 慨a l g 嘶t i l l i i i t 咖d i e st l l e t l l ei d 3a l g 谢吐n 砷d p l e ,w h i c hi st l l e0 n eo ft h ed e c i s i o n1 r a l g 砸吐姗, 锄di ta l s oi m p r o v et h ei d 3a l g o 喇【l i i lb a s e d0 nm e1 敏a 舸b u t em o tn o d e a tl a s t ,t l i ep a s s a g eu s e si d 3 a 1 9 耐t h ma n da p p r o v e di d 3a l g 谢t l l l l lt o 锄a l y s i sm eg m d er e l e v 觚c el ( 1 1 0 w l e d g em o d e lb a s e d 伽 o i l t o l o g yt e c h n o l o 跏1 1 1 et e x tm a i n l y 硫r o d u c e st l i eo w l t o l o g yl a n g l l a g eo fw 3 c 觚d 伽t o l o g yc r e a t i o n t o o l so fp r o t 6 酌u s i n gr e l a 6 0 n a ld a t a b a s ea s 锄i n t 锄e d i a i ts t u d i e sh o wt 0m a pt h e 渤【td a t ai i lt h e ( 嬲d e r e l e v a t l c ei n t om er e l a t i o n a ld a t a b 笛e ,m e i li t 锄a l y s 龉d a t a sb a s e d0 na l g o f i 妇nt od r a wc l a s s i 丘c a t i o nn l l e s f o u n d i n gc l a s s i 6 c a t i o nn l l e sd r a w nb yt h ei m p m v e da l g o r i t l l mm e e tr e a l i t ym o r e i ti l l u s 仃a t 懿i n l p r 0 v e d a l g o r i t l l :ma d v a n t a g e s k e y w o r d s :o i l t o l o g y ,d e c i s i o n ea l g o r i t h m ,i d 3a l g 嘶t l 蚰s 卸d 岍v 。di d 3a l g 鲥t h m ,r d e 、,锄c e k j l o w l e d g em o d e l n 独创性声明 本人声明所呈交的论文是我个人在导师指导f 进行的研究: 作及取得的研究成果。尽 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得丕鲞! 垂整盘堂或其它教育机构的学位或证二 5 而使用过的 材料。与我一同:i :作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示 了谢意。 签名: 基坦蓉 日 期:竺应:孟生 学位论文版权使用授权书 本人完全了解天津师范大学有关保留、使用学位论文的规定,即:学校有权将学位论 文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、 汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的论文在解密后应遵守此规定) 签名: 共口霍导师签名:墨酗磁 臼 期:型! :垂竺 天津师范人学硕士学位论文 1 1 问题的提出 第一章绪论 信息爆炸的2 1 世纪需要高素质的综合性人才,高校教务管理者有必要对专业课程的 设置、学生实际学习效果、招收男女学生的比例等方面所具有的相关程度大小进行分析, 从而进行相应的决策。然而高校教务管理者在实际操作中常常会遇到如下需决策的问题。 1 预测类问题 在实际的高校教务管理活动中,经常需要根据以往的反馈数据,如本学院学生必修课 的合格率,选修课的合格率,学生所选课程人数的多少,学生通过本学院课程学习以后的 就业率,课程是否需要更新,教师的教学质量和效益等来进行预测。这些预测主要可以依 靠各种预测模型及其算法来实现,主要有平滑预测模型、趋势预测模型、季节指数预测模 型、概率预测模型、基于人工神经网络的非线性预测模型等。 2 相关性分析类问题 在教务管理中,比如,决策者增加计算机相关的课程能否对管理专业的学生素质和能 力有所提高,若能提高,提高的程度又有多大。根据相关性分析模型对增加计算机相关的 课程前后相关数据进行分析,便可以得出相应的量化结果。另外还应提供给管理决策者有 关经济、政策、高校的综合实力和知名度等对生源效益有影响的相关性分析报告作为决策 参考。具体可包括课程相关性分析、专业相关性分析、政策相关性分析、经济相关性分析、 高校综合实力相关性分析和广告效应等。此类分析主要采用回归分析算法,关联规则算法。 3 规划类问题 在实际的教务管理工作中,教务管理领域决策者需要在预测和分析的基础上对高校的 发展目标、招生计划、资源配置、人员安排、教学管理等总体规划向上级提供有依据的信 息。常用的模型和算法有线性规划模型、非线性规划模型、动态规划模型。 因此如何从信息化海量数据中提取有用的知识,已成为教务管理者难处理的问题。 天津师范人学硕士学位论文 1 2 课题研究的背景与意义 1 2 1 本体 本体论( o n t o l o g y ) 是哲学概念,它是研究存在的本质的哲学问题。但近几十年里, 这个词被应用到计算机界,并在人工智能、计算机语言以及数据库理论中扮演着越来 越重要的作用【8 】。 斯坦福大学的g r u b e r 给出的定义得到了许多同行的认可,即本体论是对概念化 的精确描述,本体论用于描述事物的本质。 然而,到目前为止,对于本体论,还没有统一的定义和固定的应用领域。尽管定 义有很多不同的方式,但是从内涵上来看,不同研究者对于本体论的认识是统一的, 都把它当作是领域( 领域的范围可以是特定应用中,也可以是更广的范围) 内部不同主 体( 人、机器、软件系统等) 之间进行交流( 对话、互操作、共享等) 的一种语义基础, 即由本体提供一种共识。而且本体论提供的这种共识更主要的是为机器服务,机器并 不能像人类一样理解自然语言中表达的语义,目前的计算机也只能把文本看成字符串 进行处理【9 1 。因此,在计算机领域讨论本体论,就要讨论如何表达共识,也就是概念 的形式化问题。 在人类对世界的认知过程中,不同的人对客观世界的认识是有差异的,这种差别是由 于不同的人对同一事物具有不同的概念而导致的。人与人之间缺乏共识导致了人们在交流 与沟通过程中经常会出现误差。共识是指人们对同一个客观事物具有相同的概念。本体即 是人类共识的集合,目的是构建一个统一的认识事物的标准。尤其是在以计算机、多媒体、 通信、网络、人工智能等为代表的信息收集、处理、加工、转载等技术的飞速发展的今天, 人们以往的信息交流与沟通方式受到了挑战。网络信息时代要求对“获取知识”方式和“知 识表现”方式重新调整。j 下是这种需要,人们运用本体来整理知识和信息资源,并按照本 体理论来动态地认识信息时代的“知识 和“资源 ,从而获得一种适应网络信息时代的 能力。 1 2 2 决策树算法 决策就是为解决存在的问题而寻找若干可行方案,并从中择优的活动或过程。决策是 学校教务管理的一项基本职能,在教务管理过程中,管理者经常会遇到各种各样的问题, 2 天津师范人学硕士学位论文 需要随时进行决策寻找解决问题的方法,决策水平的高低直接关系到管理水平的高低。 决策树学习是以实例为基础的归纳学习算法【l 】,它着眼于从组无次序、无规则的事 例中推理出决策树表示形式的分类规则,通常用来形成分类器和预测模型,可以对未知数 据进行分类或预测、数据挖掘等。决策树方法在机器学习、知识发现领域得到了进一步应 用及巨大的发展,在人工智能领域有着相当重要的理论意义与实用价值。 决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形 成决策树,如果该树不能对所有对象给出正确的分类,那么选择些例外加入到训练集数 据中,重复该过程一直到形成j 下确的决策集。决策树代表着决策集的树形结构。 决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是 一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待 分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过 程中,在每个结点都会遇到一个测试,对每个结点上问题的不同的测试输出导致不同的分 支,最后会到达一个叶子结点,这个过程就是利用决策树进行分类的过程,利用若干个变 量来判断所属的类别。 决策树算法生成的决策树可以直观、清晰地表达加工的逻辑要求。决策树算法是 数据挖掘技术中为给管理者提供决策支持的常用算法。 1 2 2 本体与决策树算法 本体论从本质上讲是一个或几个领域的概念以及反映这些概念问的关系的集合。 关系反映了概念间的约束和联系。因此,本体是许多主体协定的对某个领域共享理解 的表示。这种协定有助于减少或消除概念及术语的混乱,精确内容意义,同时又促进 系统的交互式操作、共享、重用等。能把数据间的关系明确,关联规则清晰明了。 本体技术可以帮助教务管理者在信息化时代的海量的数据中获取有用的元数据, 通过决策数算法,为教务管理者在课程安排,教师课程安排,招生男女学生的比例等 需要决策的问题上提供决策支持。 3 天津师范大学硕士学位论文 1 3 课题主要研究内容和论文结构 本文主要是对本体论和决策树算法进行分析与研究后,将其应用到高校教育管理的成 绩关联领域中。 论文的布局结构如下: 第一章简述本课题的研究背景与意义,课题的现实意义,本论文的主要研究内容和论 文布局。 第二章重点对本体论技术进行分析研究,并利用本体构建技术实现了高校教务管理应 用本体后的知识模型。 第三章着重对决策树算法进行分析研究,重点针对i d 3 算法进行分析和改进。 第四章综合第二三章的研究结果,对高校教务管理领域中的一部分成绩关联领域进行 分析,并且针对成绩关联领域本体模型用i d 3 算法和改进的i d 3 算法进行分析,为教务管 理者提供决策依据。 第五章总结本课题工作,展望后续工作。 4 天津师范入学硕士学位论文 第二章本体论研究 前面只是简单地提到了本体的背景知识。本章重点对本体的定义,本体构建方法,本 体的应用等方面进行研究。 2 1 本体定义 1 9 9 3 年,在美国斯坦福大学知识系统实验室,g m b e r 在定义2 1 的基础上给出了一个在 信息科学领域广泛接受的定义,他认为:概念化是从特定目的出发对所表达的世界所进行 的一种抽象的简化的观察。每一个知识库、基于知识库的信息系统以及基于知识共享的智 能a g e n t 都内含一个概念化的世界,或是显式的或是隐式的。对所关心领域中的对象、概念和 其它实体概念化,是知识形式化表达的基础。因此,首先对概念对本体定义,如定义2 1 。 定义2 1 概念化o :结构c = ,只是定义2 4 中某 气 天津师范人学硕十学位论文 一特定状态下的世界。于是,g u 撕n o 将结构( d ,r ) ,称为“世界结构 ( w 。r l ds t m c t l 鹏) 。 在此基础上,为对o n t o l o g y 的内涵进行说明,又作了定义2 5 和2 6 。 定义2 5 预定世界结构( i n t e i l d e dw o d ds t m c t u i e ) :令概念化c = ( d ,w ,r ) ,则对任一 可能世界w w ,其关于c 的“预定世界结构 为s w c = ( d ,r w c ) ,其中r w c = p ( w ) lp r ) 是r 中元素的( 相对于w 的) 外延的集合。而s c = sw c l w w ) 则表示了所有关于c 的预 定世界结构。 定义2 6 令l 为一逻辑语言,v 为其词汇集。l 的一个模型( m o d e l ) 定义为结构( s ,i ) , 其中s = ( d ,r 为世界结构,i :v d u r 为一个解释函数,将d 的元素指配到v 的常量符号 ( c o n s t a n ts y m b o l s ) ,将r 的元素指配到v 的谓词符号( p r e d i c a t es y m b o l s ) 。以上定义中,i 其实 表达了使用词汇集v ,对领域d 和关系r 所进行的描述或解释:v 中的常量符号( 如名词等) 描述解释d ,而v 中的谓词符号( 如动词等) 则描述解释r 。这样,定义2 6 中l 的模型,即结 构( s ,i ,其实是对语言l 的一种特定的外延解释( e x t e n s i o n 越i n t 蜘) r e t a t i o n ) 。 类似地,为了进一步扩充o n t o i o g y 的内涵,根据定义2 4 ,扩展定义2 6 的内涵,给出定 义2 7 和定义2 8 如下。 定义2 7 令l 为一逻辑语言,v 为其词汇集,则定义l 的本体承约( o n t o l o 西c a lc o m m i t m e i l t ) 为k _ ( c ,j ) 。其中c = ( d ,w ,r ) 为域d 上的概念化,j :v d u r 为一个函数,将d 的元素 指配到v 的常量符号( c o n s t a n ts y m b o l s ) ,将r 的元素指配到v 的谓词符号( p m d i c a t es y m b o l s ) 。 定义2 8 令l 为一逻辑语言,v 为其词汇集,k _ ( c ,j ) 为l 的本体承约。称模型( s ,i 兼容于k ,如果:s sc ;对于每一个实例c ,i ( c ) = j ( c ) ;存在一个世界w ,对于每一 个谓词符号p ,i 将其映射成为j ( p ) 的一个“可承约扩展”( a d m i t 2 t a b l ee x t e l l s i o n ) ,即存在一 个概念关系p ,使得j ( p ) = p 八p ( w ) = i ( p ) 。则与k 兼容的l 的所有模型的集合i k ( l ) ,称为l 关于k 的“预定模型”( i n t e n d e dm o d e l s ) 集合。 通过上述8 条定义可以得出,本体是为了说明某种语言词汇表的内在意义而设计的一 套逻辑公理,若给定一个语言l 和本体承约k ,语言l 的本体的没计逻辑公理集合为:其自 身模型尽可能地接近依照k 的由语言l 描述的所有预定模型。但事实上难于找不到这样的逻 辑公理结合,本体只能以一种问接的方式详细说明一个概念化。集合以上理论,在澄清本体、 预定模型和概念化的基础上,给本体下了定义,如下定义2 9 。 定义2 9 本体论是一个逻辑理论,用来说明一个j 下规( f o 彻a 1 ) 词汇表的预定义。 由定义可以看出,本体是语言相关的,而概念化则是语言无关的。这一点对于本体集 成、融合和转换都非常重要。另外在2 9 定义中,概念化是比本体论( 仅限于信息科学中) 更 6 天津师范大学硕十学位论文 为广泛的概念,前者更接近领域的事实和哲学上的本体论。对于这一点,文献【4 1 又从本体 论由哲学到信息科学转换的角度给出了较好的解释说明,应该说这对透彻理解信息科学中 的本体论是有较大帮助。 2 2 本体描述语言 2 2 1 本体描述语言的发展 本体描述语言起源于历史上人工智能领域对知识表示的研究,主要有以下语言或环境 为代表:k i f 与o n t o l i n g u a ,o k b ( o p e 玎山m o w l e d g e b a s e c o n n e c t i v i 勺力,o c m l ( 叩e r a t i o n a l c o n c e p t u a l m o d e l i n gl a i l g u a g e ) ,f 姗el 0 百c ,l o o m 等。 近年来,w e b 技术为全球信息共享提供了便捷手段,以共享为特征的本体论与w e b 技 术结合是必然趋势。在此背景下,基于w e b 标准的本体描述语言( 以下简称为“w e b 本体语 言) 正成为本体论研究和应用的热点。 在标准方面,由w 3 c 主持制定的r d f ( 诧s o u r c e d e s 谢p t i o nf r 锄e w o r k ) 和r d fs c h e m a 是建 立在x m l 语法上,以语义网( s e m a n t i cn 咖o r k s ) 为理论基础,对信息资源进行语义描述的语 言规范。r d f 采用“资源”( r e s o u r c e s ) ,“属性 ( p r o p 酣i e s ) 以及“声明”( s t a t 锄e n t s ) 等三 元组来描述事物。 r d f s c h e m a 则做进一步扩展,采用了类似框架的方式,通过添加 r d f s :c l a s s ,r d f s :s 1 1 b c l a s s o r d f s :s u b p r o p e n y o e r d f s :d o m a i n ,r d f s :r a i l g e 等原语,对类、父子类、 父子属性以及属性的定义域和值域等进行定义和表达。这样,r d f ( s ) 成为一个能对本体进 行初步描述的标准语言。然而本体描述语言要走向通用,还需解决一些重要问题,如对推 理的有效支持( 包括计算复杂性和可判定性等) ,j 下规和充足的语义表示机制,以及标准化 问题。这将依靠下述基于描述逻辑的本体语言的发展。 2 2 2 描述逻辑与本体描述语言 描述逻辑( d e s 嘶p t i o nl o 百c s ,d l ) 是近2 0 多年来人工智能领域研究和丌发的一个相当重 要的知识表示语言,目前正被积极应用于本体描述,或者作为其他本体描述语言的基础。 例如,用描述逻辑描述“1 个男人与l 位医生结婚,他们至少有5 个孩子,并且这些孩 子都是教授这一语义如下: 天津师范入学硕士学位论文 h t l m n nr 、f e m 口tr 、3 m a r r i e d d 0 c t o rr 、瞳s h c h i t d ) 广、可h n s c h i l d p l 田e s s o r 描述逻辑具有以下主要特点: 1 定义良好的语义和表示能力; 2 基于逻辑的推理能力; 3 保证计算复杂性和可判定性; 4 明确的推理算法,如知名的基于t a b l e a u x 的算法; 5 现有工具的有力支持,如高度优化的推理器f a c t ,r a c e r 等。 近年来o w l ( o n t o l o g yw e bl a l l g u a g e ) 已为w 3 c 国际标准,这里主要以o w l 为例作简要 分析。o w l 根据表示和推理能力分为3 类:o w lf u l l 与r d f 保持最大程度的兼容,具有最 大的表示能力,但不能保证计算性能;o w ld l 是以描述逻辑为基础,在不失掉计算完全 性和可判定性条件下,支持最大的表示能力;o w l l i t e 则局限于对概念( 类) 的层次分类和 简单的约束等进行描述。另外,图2 1 总结了w e b 本体描述语言的相互关系,这些语言的特 性比较见图2 2 所示。 图2 1 基于w e b 的本体描述语言的相互关系 。 语言 特征 s 琶o e0 _ 、c 1 3 正j 己d f l s o 已d a 、互一0 i 己d h z 语法 主1 、x 、疋恐也心疋掰心巴 r d f ) 3 正r d f 心亿 正规语义有有无有有有 类的层次支持支持支持支持支持 支持 硅c :n 逻辑疋 否否否否否 描述逻辑否否是否是是是 谓词逻辑否否否否否否 类的相等支持支持不支持不支持支持 支持 属性渭词相等 支持支持不支持不支持支持支持 实例相等 不支持不支持不支持不支持支持支持 本俸分布定义 支持不支持 支持 支持支持支持 本体扩展支持不支持支持支持支持支持 本俸版本修订支持不支持不支持不支持支持支持 计算特性区分无 有 无 有无有 图2 2 基于w e b 的本体描述语言特性比较 天津师范大学硕士学位论文 2 3 本体构建方法的研究 目前,关于本体构建的方法,虽没有一套公认的完整的统一的方法论,但是已有开发 过的成功案例可借鉴。下面给出一些已经开发出的经典本体以及方法。 1 c y c 本体及方法; 2 企业本体及u s c h 0 1 d k i n g 方法; 3 t o v e 本体及g n l n i n g e r f o x 方法; 4 k a c t u s 及b e m a r a s 方法; 5 c h e m i c a l s 本体与m e t h o n t o l o g y 方法; 6 e n s u s 本体及方法。 通过对上述几种方法比较后,得出如下5 条结论: 1 与i e e e 标准相比,没有一种方法论是完全成熟的。m e t h o n t o l o g y 采用了生命 周期的方法,是相对最成熟的一个。 2 没有提出统一的方法论,只有适合自身项目的方法。 3 存在几乎完全与众不同的方法论如s e n 2 s u s l 这说明可能会同时存在多个被广泛 接受的方法论,标准不一定惟一。 4 对于由同一个基础本体( 如s e n s u s ) 构建出的领域本体,由于高层概念的共享,本 体系统之间具有互操作能力。 5 分析总结现有的各种方法论可作为发展标准方法论的起点,传统软件开发标准可 作为指导方针来参考使用。 2 4 本体的应用研究 虽然本体论在人工智能领域的各个领域上都有许多应用,但是从本体的起源和概念出 发,可以简单地归结为以下3 类: 1 人与组织之间的信息交流:本体的核心概念是知识共享,通过减少概念和术语上 的歧义,本体描述为某一组织或是工作小组提供了一个统一框架或是规范模型,有助于对 来自不同背景,持不同观点和目的的人员之间的理解和交流能,并保持语义上的一致性。 2 系统之间的互操作:应用程序使用本体论实现异构系统之间的互操作,即不同系 统或工具之间的数据传输。前面讲的语义w e b 服务就属于此类。 3 软件工程:在需求分析中,本体论通过对问题和任务的理解描述,提高明确性, 9 天津师范大学硕士学位论文 减小分析代价。同时,本体可进步作为软件设计的基础,以半自动方式检查需求和设计 的一致性,提高软件可靠性。还可以通过对系统内部各个功能模块和它们之问的联系的详 细描述,有助于本体提高软件的重用性。 其中,本体在互操作,即信息系统的集成上的应用最为典型和普通,可以进一步细分 为以下3 种: 1 基于本体的信息检索:本体在信息检索引擎中的应用的基本思路是利用本体对信 息的描述来检索知识库,从而提高检索的效率和精确度。典型的例子为s h o e 。 2 基于本体共享的信息访问:不同的应用程序开发人员在共享本体上达成一致,即 定义了一个可以双向转换的数据传输的格式。典型的例子主要有e c o c y c 等。 3 基于本体映射的信息访问:与前一种应用不同的是,不同的应用程序之间拥有自 己独立的本体,而不存在一个共享的本体,因此它们之间的信息共享或者数据交换只能通 过不同的独立本体之间的映射( m a p p i n d 。典型的应用主要o n l o n s 等。 2 5 本体技术研究热点 本体技术现阶段研究的热点为:本体学习,本体匹配,本体映射,本体融合,本体调 节,本体校验和本体进化。目前比较成熟的是前三个,下面主要针对前三个进行理论阐述。 1 本体学习 本体学习是信息提取的一个子任务,目标是自动或半自动地从给定的语料库或数 据源中提取概念和关系,形成本体。本体学习是一个跨学科的任务,典型地,这个任 务过程从术语提取开始,通常还包括几个语言处理过程( 例如分词,词性标注等) ; 然后,通过统计的或者规则的方法提取关系;最后把概念和关系放在一起构成一个本 体。 2 本体匹配 随着语义网的发展,本体正在大量涌现。由于互联网的分散特性,相关领域的不同本 体之间存在异构性。本体匹配旨在架起异构本体问的桥梁,它是语义网环境下数据集成与 管理的重要途径。体匹配对于实现数据的互联网( 语义网) 而言是至关重要的,它是未来 互联网环境下的数据集成与管理的有效途径。在不久的将来,存储在互联网上的数据将逐 渐由纯文本文档及存储在关系数据库中的数据( 称为“d e 印w e b ”) ,向基于本体的管理方式 转变,无论是本体、还是基于本体的应用都将大幅增长,因此本体匹配作为语义关联分散 本体的基础技术,将不可或缺。除此之外,本体匹配和计算机学科中的众多其他研究方向 l o 天津师范人字硕士学位论文 也起着相互促进、共同发展的作用,例如目前的生物信息学、自然语言理解等诸多研究方 向。 3 本体映射 下面主要是从本体映射的概念和方法对本体进行简介【2 0 】【1 4 l 。 ( 1 ) 概念 本体映射通过定义条件规则、函数、逻辑以及表与关系的集合来实现不同本体间的映 射,是完成本体集成的重要一步工作( 本体集成的概念包括本体的重用、本体合并、本体修 正等,在这些过程中建立准确的本体映射是基础性的任务) 。或者说,本体映射是不同的本 体在概念层语义相关联,源本体的实例根据语义关联的关系转换为目的本体。下面就来举例 说明本体映射的概念。 图2 3s t i l d 即t 本体与p e r s o n 本体f i 勺简单映射 图2 3 说明了一个学校中s t u d 饥t 本体和社区中p e r s o n 本体之间的映射,这里两个本 体的w e i 曲t 的度量单位不同( 分别为k g 和伊a i n ) ,因此定义了映射规则u n i t c o n v e r s i o n ,保 证了本体的准确映射。 ( 2 ) 本体映射的方法 下面主要从映射策略的角度来研究本体映射的方法。 映射策略是一对一方法,即为每一个本体提供一组转换函数,使得它在没有中介本体 的情况下直接跟其他的本体或概念交流,如上文所举示例。但这种方法不适合于比较复杂 的情况,此时的转化函数可能会难于定义,或者由于定义后,复杂度太高而难于实现。 定义一个共享本体作为标准,以其作为中介进行映射。通过共享本体作为标准可以有 效的消除本体间的异构问题,但是定义标准时会出现以下问题: ( a ) 为了适合所有现有和潜在的应用,标准会很大很繁琐而不宜使用; ( b ) 定义和维护这样的标准也变的很困难。 天津师范大学硕十学位论文 2 6 本体技术未来研究方向 本体的研究和应用总体来说还在在本体构建,知识领域建模等方面,虽在国内已有显 著的进步,仍然存在一些问题,比如在本体融合,本体调节,本体校验和本体进化等领域 里还需做进一步的研究。 2 7 高校教务管理领域应用本体 2 7 1 本体创建工具p r o t 6 9 6 目前支持本体开发的工具多达数十种,功能各不相同,对于本体语言的支持能力、表 达能力、逻辑支持能力以及可扩展性、灵活性、易用性等都相差很大,其中较著名的有 p r o t e g e 一2 0 0 0 ,o n t o e d i t ,o i l e d ,o n t o l i n g u a 等。 o w l 是一门供处理w e b 信息的本体语言。w 曲信息拥有确切的含义,w 曲信息可被 计算机理解并处理,计算机可从w 曲上整合信息。 p r o t e g e 是斯坦福大学开发的本体论编辑和知识获取软件。开发语言为j a v a ,为开放源 码软件由于其优秀的设计和众多的插件,p r o t e g e 成为目前使用最广泛的本体论编辑器之 一。它可用来建立o w l 。 p r o t e g e 采用表单作为输入槽值的界面,p r o t e g e 的知识模型与o k b c 兼容,包括支持 类和类层次结构的多继承,模板和私有槽,槽的任意面和定义前的明确说明。明确说明包 括值、基数约束、默认值、逆转槽、元类和元类的层次结构。 除了高度方便使用的界面,p r o t e g e 有两个重要的特征,使它从多数的知识本体编辑环 境中脱颖而出,即可伸缩性和可扩展性。开发者可以用p r o t e g e 来构建和使用包括1 5 0 ,0 0 0 个框架的知识本体。对包括成千上万个框架的知识库的支持包括两个组件,一个是后端的 数据库来对数据进行存储和查询,另一个是缓冲机制,解决了框架的个数超出了内存的限 制时无法加载一个框架的问题。 p r o t e g e 体系结构的最主要的优势就是它的开放的模块化的风格。基于组件的体系结构 使系统开发者可以通过生成恰当的插件来增加新的功能。插件可以分为三类,一类是后端 插件,使用户可以以多种格式来存储和输入知识库;一类是s l o tw i d g e t s 类插件,用来为特 定的域或特定的任务合并槽或显示边界槽值;第三类是t a b 插件,通常与p r o t e g e 知识库一 起,提供基于知识的应用。后端插件支持在r d fs c h e i n a 、带d t d 的x m l 文件、x m l s c h e m a 1 2 天津师范人学硕十学位论文 文件中存储和导入知识本体;s l o t 谢d g e t s 插件包括显示g i f 图片和音频视频的用户界面组 件;t a b 插件非常普及,提供高级可视化、知识本体合并、版本管理、推理等功能。例如 t a b 插件中的o n t o v i z 和j 锄b a l a y a 提供知识库的不同视图,j 锄b a l a y at a b 允许交互式的导 航、对结构中的特定的元素缩放、用图像中节点的不同层次来强调数据群集之间的连接。 领域知识获取可以采用的策略通常有两种:手工+ 辅助工具( 图形用户接口) ;自动半自动 + 人工校对。前者相对简单一些,人工工作仍然是主体,只是为移植者提供了一些图形化 的辅助工具,以方便和加快领域知识获取过程。后者采用有指导的、无指导的或问接指导 的机器学习技术从文本资料中自动或半自动获取领域知识,人工干预程度较低。 2 7 2 高校教务知识模型 高校教务知识模型具有教务和科研两个子模型构成。其中教务又由教务客体、教务资 源、及教务过程组成;科研由学科方向、学术论著、科研学者、学术机构、科研项目及信 息源组成,其基本模型如图2 4 所示。 科研领域: p a 。t 二0 一r 一弋誓一、 一一卜o f 、 冬科研学者) 一一一f p to f 、料例子百, 信息源: p 卑r t o f , ,7 + 0 :一一、 ,- 。一一、( 学术机构) ( 科研项目) 1 一 一 一 图2 4 教务科研信息模型 下面仅仅只对教务管理领域进行分析,所以下面只建立了和教务管理领域相关的领域 本体模型。该领域本体基于教务系统数据字典建立。根据实际需求该本体描述需要多个分 类层次,并且大部分本体由词汇表及教务行业标准代码转换过来。教务管理领域本体图如 图2 5 所示。 1 3 天津师范大学硕十学位论文 教务管理领域本体建立步骤如下: ( 1 ) 找出教务领域术语及其含义的描述: ( 2 ) 分析教务业务元数据; ( 3 ) 分析参与教务领域活动的角色; ( 4 ) 分析作为数据库数据来源的o l t p 系统的e r 关系; ( 5 ) 在e r 关系、领域术语和业务元数据的基础上建立教务领域分析本体。 下图表示了教务领域的全局本体,图中: p a n 0 f 表达概念之间部分与整体的关系。 i s a 表达概念之间的继承关系,类似于面向对象中的父类和子类之间的关系。 a 缸b u t 鲫f 表达实体与属性的关系。 图2 5 教务领域应用本体 1 4 天津师范大学硕十学位论文 2 7 3 成绩关联知识模型 图2 5 分析了整个教务领域的本体模型,本节只对教务客体中成绩关联性领域进行具 体分析。依据本体构建步骤,下面给出了某高校理学院课程领域局部本体,如图2 6 所示。 ,7 、 (成绩) 一 ( 课程编号,- 、7 厂上课对;) 一 a t t r i b t e o fa t t r i b u t e o f , 、一一一、,7 一一 图2 6 课程领域本体 图2 6 显示了课程本体的全部属性,本文只对其中课程及成绩这两个属性进行更深入 的研究。下面解释课程这个概念的相关属性。 课程:描述了概念的名字; 上课地点:描述了概念的相关属性; 上课教师:描述了概念的主体属性; 上课对象:描述了概念的客体属性; 成绩:描述了概念的度量属性; 课程编号:描述了概念的代码。 本体中格式异构通过类公理或函数、查找转换表柬解决。其中有属性类型的不同,如 i d 属性有i n t 和s t r i n g 两种;有度量单位不同,如工资使用美元$ 和人民币¥两种;有数据 精度不同,如整型值分数0 1 0 0 对应于等级值 y n ) 。可通过如下映射表来解决这个问题: 分数等级,表2 1 所示。 表2 2 分数与等级的一个映射表 分数等级 o 5 9n ( 不合格) 6 0 1 0 0 y ( 合格) 在o w l 中定义了两种类型的属性来描述概念的特征。一种是数据类型属性,如图2 7 所示。 1 5 天津师范人学硕十学位论文 图2 7 课程概念本体属性 定义该属性的o w l 代码为: r d f ! t y p e r d f r e s o u r c f t h t t p :n ) 1 1 w w 3 o 舭0 0 2 0 7 o w 摊d a t a 劬p e p r o p e r t ) ,l t 胁 另一种是对象( 可以是t e a c h e r 或者s n j d e l l t ) 属性,用来描述概念之间的关系。如下图2 8 所示,定义了属性p u r c h a s i n 出t 豇n 飚n d ”,该属性的d o m a i n 指向概念”p 巾c m a i n ,r 锄g e 指向概念“p r p c i t e m k i n d ”表。表明p r l 蜒m a i n 具有属性p u r c h a s i n 出t e i i l 尉n d ,属性是概念 “p r p c i t e m k i n d ”的类或者实例。 图2 8p 巾c m a i n 属性本体 定义该属性的o w l 代码为: 本体在描述概念体系的层次结构及概念问的联系时有着丰富的表达能力。因此,如果 1 6 天津师范人学硕十学位论文 基于本体来最大程度地表达概念间的精确联系,可提高语义的丰富性和各元素联系的准确 性。在实际开发中可以使用p r o t e g e 来辅助编写o w l 本体。 2 8 本章小结 本章除了具体介绍了本体构建技术外,还用本体构建技术应用到高校教务管理模型中, 具体介绍了在教务管理的成绩关联领域中应用。对于本体技术的引入,对教务管理中成绩 关联中提供决策的有效性,还待以后做进一步的验证。 1 7 天津师范大学硕士学位论文 第三章决策树算法研究 3 1 决策树算法的发展 基于决策树的分类算法自提出至今,种类不下几十种。各种算法在执行速度、可扩展 性、输出结果的可理解性,分类预测的准确性等方面各有千秋。 决策树分类算法的发展分如下四个阶段: 1 1 9 6 6 年由h u l l t e b 等人提出了c l s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论