(计算机应用技术专业论文)基于jspxml的在线考试系统的研究和实现.pdf_第1页
(计算机应用技术专业论文)基于jspxml的在线考试系统的研究和实现.pdf_第2页
(计算机应用技术专业论文)基于jspxml的在线考试系统的研究和实现.pdf_第3页
(计算机应用技术专业论文)基于jspxml的在线考试系统的研究和实现.pdf_第4页
(计算机应用技术专业论文)基于jspxml的在线考试系统的研究和实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)基于jspxml的在线考试系统的研究和实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文题目:基于j s p x m l 的在线考试系统的研究和实现 硕士生: 计算机应用技术。 袁通路( 签名) 二荦垒! 乌 指导教师:陈建铎( 签名) 军垂丑i 犟 摘要 本文首先分析了在线考试系统的特点和技术现状,然后研究了数据仓库技术、数据 挖掘技术、j s p 和x m l 技术。根据计算机网络化考试的具体特点,提出了一个基于数据 仓库和数据挖掘技术的在线考试系统模型,给出了系统的设计模型和功能模块分析,采 用“雪花型”维表一事实表结构实现数据仓库,用x m l 数据来管理元数据、试卷数据和 考生的答卷数据,数据库服务器采用s q ls e r v e r2 0 0 0 技术,最终用j s p 、x m l 结合s q l s e r v e r2 0 0 0 技术进行了实现。本系统的主要特点是_ :1 跨平台;2 能处理异构源 数据;3 具有良好的可扩展性;4 操作简单,易于使用。 基于数据仓库和数据挖掘技术的在线考试系统是一个复杂的系统,它集成了数据仓 库技术和数据挖掘技术,使在线考试比以往的考试更具有智能性。对它的研究有很强的 现实意义,在线考试系统的使用能大大提高考试效率,节约考试成本。 关键词:数据仓库数据挖掘x 札j s p 考试 s u b j e c t :t h es t u d ya n di m p l e m e n t a t i o no fo n l i n ee x a ms y s t e mb a s e do nj s p x m l s p e c i a l t y :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y n a m e :y u a nt 0 n g i u ( s i g n a t u 旧zj 丝! ! ! 乏沙 i n s t r u c t o r : c h e nj i a n d u o ( s i g n a t u r e ) 么醯j 迹垡2 a b s t r a c t f i r s t t h i sp a d e rf i r s ta n a l y z e st h ef e a t u r e so fo n l i n ee x a ms y s t e ma n di t sc u r r e n tt e c h n i c a l s t a t u s i tt h e ns t u d i e sd a t aw a r e h o u s ea n dd a t am i n i n ga n da l s os t u d i e sj s pa n dx m l t e c h n o l o g y a c c o r d i n gt ot h es p e c i f i ct r a i t so fn e t w o r ke x a m i n a t i o n ,t h i sp a d e rp u t sf o r w a r d a l lo n l i n ee x a n ls y s t e mm o d e lb a s e do nd a t aw a r e h o u s ea n dd a t am i n i n gt e c h n o l o g y , d e s c r i b e st h ed e s i g nm o d e lo ft h es y s t e ma n df u n c t i o nm o d u l ea n a l y s i sa n da d o p t ss n o w f l a k e m o d e ld i m e n s i o nt a b l e f a c t a lt a b l es t r u c t u r et os e tu pad a t aw 打e h o u s e x m li su s e dt o a d m i n i s t r a t em e t ad a t a ,p a d e rd a t aa n da n s w e rs h e e td a t aa n ds q ls e r v e r2 0 0 0i su s e di n d a t a b a s es e r v e r a n da tl a s t t h eo n l i n ee x a l t ls y s t e mi sa c h i e v e dt h r o u g ht h ec o m b i n a t i o no f j s p - x m la n ds q ls e r v e r2 0 0 0 t h em a i nf e a t u r e so ft h i ss y s t e ma r ea sf o l l o w s :1 i tc a nb e u s e do nd i f i e r e n tp l a t f o r m s ,2 i tc a nh a n d l ed a t af r o md i f i e r e n ts t r u c t u r e ,3 i th a sg o o d e x t e n s i b i l i t y , 4 i to n l yn e e d ss i m p l eo p e r a t i o na n d c a nb ee a s i l yu s e d t h eo n l i n ee x a n ls y s t e mb a s e do nd a t aw a r e h o u s ea n dd a t am i n i n gt e c h n o l o g yi sa n i n t e g r a t e dc o m p l i c a t e ds 3 7 s t e m ;i tm a k e so n l i n ee x a mm o r ei n t e l l i g e n c et h 她b e f o r e i ti s s i g n i f i c a n c e t om a k es t u d i e sa n dr e s e a r c ho ni ts oa st o g r e a t l yp r o m o t e t h e i n t e l l i g e n c e o r i e n t e do n l i n ee x a me f f i c i e n c ya n dr e d u c et h ec o s to fe x a m s k e y w o r d s :d a t aw a r e h o u s e ,d a t am i n i n g , x m l ,j s p , e x a m 学位论文创新性声明 y6 0 5 5 7 2 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不再包含其 他人已经发表或撰写过的研究成果;也不包含为获得西安石油大学或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 做了明确的说明,并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名:纽日期:沙豸留t ? o 学位论文使用授权的说明 本人完全了解西安石油大学有关保留和使用学位论文的规定,即:研究生在校攻读 学位期间论文工作的知识产权单位属西安石油大学。学校享有以任何方法发表、复制、 公开阅览、借阅以及申请专利等权利。本人离校后发表或使用学位论文或与该论文直接 相关的学术论文或成果时,署名单位仍然为西安石油大学。 论文作者签名:弛 导师签名:z 速瑾 日期;a 幻f o 日期:坦鱼:土! 第一章绪论 1 1 国内外研究现状 第一章绪论 计算机应用到考试中是从标准化考试开始的 4 1 , 4 2 , 4 3 , 4 6 】,标准化考试结合了 统计分析原理,对考试的全过程命题、考试、阅卷、统计分析和成绩报 告提供支持和指导。我国从1 9 8 1 年开始引进标准化考试托福考试;从那 时起,标准化考试得到了应用。从高考、英语四六级考试、计算机等级考试 到各种各样的职称考试、职业资格考试等都采用了标准化考试。标准化考试 具有阅卷快、客观公正、成绩统计迅速、考试成本低等特剧4 3 ,4 6 。 随着计算机软硬件技术的飞速发展,特别是计算机网络技术的日新月异, 考试工作也逐渐采用网络化的方式实现,只是现在国内的技术还不太成熟, 没有哪一种考试能真正地完全采用网络化的方式进行。但近几年国际上比较 流行的各种i t 认证考试、英语g m a t 、g r e 等考试都基于网络,考试完全 摆脱了纸和笔。考生采用计算机答卷,通过网络提交答案,计算机自动进行 阅卷,考试成绩可以在线发布,供考生查询。其优点是显而易见的:阅卷快、 保密性高、结果公布快、成本低 3 9 , 4 0 , 4 6 】。 基于i n t e m e t i n t r a n e t 的远程考试系统就是利用w e b 服务具有的功能, 以w w w ( w b r l dw i d ew e b ) 浏览器的方式提供远程在线的考试服务,与传 统的考试相比具有以下几令特点:学生可以自己选择合适的时间访问远程考 试服务系统,并可根据自己所学的内容,从考试系统抽取试题进行测试,以 检查其学习的质量;考试系统能自动记录学生习题和单元测试的成绩情况, 教师可针对单元测试情况调整教学方案和方法。随着计算机应用的普及和 i n t e m e t i n t r a n e t 技术的发展,对计算机考试系统和在线考试系统的研究也 如雨后春笋,蓬勃发展起来,如微软公司和i b m 公司的各种资格认证考试都 属于在线考试 3 9 , 4 0 , 4 6 】。 第一章绪论 在我国,也已经出现了许多应用型的研究。部分高校内部对某些课程的 考试实现了局域网上的在线考试,但考生基本上集中在同一个局域网络环境 之内。随着现代教育改革的快速推进和“校园网”的建设,在线考试已逐渐 发展起来,目前的现状是一些学校的某些课程考试采用了在线考试技术,但 是整个系统的实现基本上是基于a s p ( a c t i v es e r v e rp a g e s ) 和h t m l 语言 来实现的,完全利用j s p ( j a v as e r v e rp a g e s ) 和x m l ( e x t e n s i b l em a r k u p l a n g u a g e ) 语言实现的在线考试系统尚处于研究之中,而将数据仓库技术和数 据挖掘技术同时引入考试系统在国内才开始研究。 1 2 研究的目的和意义 考试的实质就是利用各种方式来考察学生对于知识的掌握程度,从而把 这些信息反馈给教师或学生,以便及时恰当地调整下一步的教学活动,进一 步提高教学质量及效果。随着计算机技术的发展,计算机功能越来越强大, 人们开始利用计算机来实现这一目的,于是就出现了各种各样的计算机考试 系统。随着信息技术的发展以及计算机网络技术的日趋成熟,为远程教育的 发展带来了新的机遇,注入了新的活力。远程教育促进了教育思想、教育方 法和教育手段的更新,基于w e b 的远程考试系统也将成为考试系统的一种发 展趋势。通过在线考试,教师可以了解学生的学习情况、教学效果,改进教 学方法,提高教学质量。学生则可以通过在线考试了解自己对内容的掌握情 况,有目的地进行学习。 在高等教育飞速发展的今天,各高校的招生人数和规模在不断扩大:同 时,高等院校也出现了师资严重不足的问题。许多教师现在承担着以往几倍 的教学工作,在实验、批改作业、课堂教学等环节上也几乎都是疲于奔命; 因此教学的质量和效果也就比以前有了明显的滑坡。在考试这个环节上也存 在以下问题:( 1 ) 试题重复率高,( 在考试命题这个环节上出现了不同程度的 偷工减料现象,导致试题重复率较高) ;( 2 ) 手工阅卷的主观失误增多( 面对 成百上千份相同的考卷,教师在批改试卷的过程中也会由于疲劳而产生厌烦 西安石油大学硕士学位论文 情绪,使得试卷的评阅出现较多的失误) ;( 3 ) 批改试卷的工作量也非常大; ( 4 ) 成绩反馈慢( 学生在考试结束后想尽快知道考试成绩,而目前的状况是, 学生需要耐心等待) 。 计算机在线考试客观公正,教学信息反馈迅速;用户端只需使用w w w 浏览器( i n t e r n e te x p l o r e r 或n e t s c a p e ) ,无需增加任何软件,使用简单方便。 本研究的目的就是利用校园网作为平台,充分利用j s p 技术和x m l 语言的 优点,在计算机网络环境下对学生进行考试,实现命题、组卷、答题、阅卷 和公布成绩全部自动化,实现教考分离、无纸化考试。 利用计算机建立试题库,通过计算机网络进行在线考试,不仅能节省教 师的宝贵时间,提高工作效率,节约学校的考试经费,而且能消除人的主观 因素影响,使考试更加规范化。在传统的考试中不能摆脱印刷试卷,课堂考 试,人工填写成绩单,教务部门将成绩输入学生成绩管理系统等一系列环节。 通过对计算机网络技术、j s p 技术和x m l 语言、数据库技术、试题库、自动 组卷等技术的深入研究,实现基于w e b 的在线考试,将任课教师从考试这个 环节中解放出来。使他们能有更多的时间去研究课堂教学和实验等环节;同 时对于学生来说,这种形式的考试也更客观、更公平、更公正,避免出现人 情分。同样对于如何更好地利用校园网这个平台也有很强的实际意义。 基于网络的考试需要专门的高新技术支持,而考试也将发展成为一种产 业。我国每年都要举行大量的各种各样的考试,高等院校内部也正进行着各 种各样的考试,同时高校内部几乎都建成了各自的校园网,有实施网络化考 试的条件。但是现在高校内部网络化考试的程度很低,真正实现网上考试的 学校几乎没有,只有极个别的学校在做实验性的研究。本文的目的在于对 j s p x m l 的在线考试系统的实现技术进行探讨,并提出了一个基于数据仓库 和数据挖掘技术的系统框架,通过它对考生、试题、出题教师等进行分析处 理和有价值的知识发现。 西安石油大学硕士学位论文 1 3 本文的任务和所做工作 ( 1 ) 首先对数据仓库技术进行了研究,包括数据仓库概念、体系结构、 组成部件、设计原则、开发方法及其在关系数据库中的实现,并对建设数据 仓库的关键技术进行了分析研究。 ( 2 ) 对数据挖掘的基本概念、挖掘过程、数据挖掘的六种模式和常用的 挖掘算法进行了研究。 ( 3 ) 对j s p 技术和x m l 技术进行了研究,用x m l 技术对数据仓库中 的元数据和试卷数据、答卷数据进行了描述、存储和管理。 ( 4 ) 提出了一个基于数据仓库和数据挖掘的在线考试系统模型,并用 j s p 、x m l 和s q ls e r v e r2 0 0 0 技术进行了实现,并对使用的关键技术进行了 分析讨论。 1 4 课题来源 本课题来源于计算机学院自选课题。 第二章数据仓库技术概述 第二章数据仓库技术概述 2 1 数据仓库的定义和特征 2 1 1 数据仓库产生的原因 数据仓库技术是计算机和数据应用发展到一定阶段的必然产物。随着企 业计算机应用的不断深入,数据的积累也越来越多。企业的各级人员都希望 能从这些大量的杂乱无章的数据中获取有意义的信息,进而利用这些有价值 的信息指导企业下一步的决策和发掘企业自身的竞争优势。要完成这样的任 务,依靠原有的数据库已不能满足这样的要求,这时就必须建立一种体系化 的数据存储环境,将分析决策所需的大量数据从传统的操作环境中分离出来, 使分散、不一致的操作数据转换成集成、统一的信息。事务处理环境不适宜 d s s ( d e c i s i o ns u r p o r ts y s t e m ) 应用的原因主要有以下五条【4 】: ( 1 ) 事务处理和分析处理的性能特性不同, ( 2 ) 数据集成问题, ( 3 ) 数据动态集成问题, ( 4 ) 历史数据问题, ( 5 ) 数据的综合问题。 要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型 处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照 d s s 处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为 了构建这种新的分析处理环境而出现的一种数据存储和组织技术。 西安石油大学硕士学位论文 2 1 2 数据仓库和数据集市定义 ( 1 ) 数据仓库( d a t aw a r e h o u s e ) 二十世纪8 0 年代中期,“数据仓库之父”晰l l i a mh i n m o n 先生在其建 立数据仓库一书中定义了数据仓库的概念,随后又给出了更为精确的定义: 数据仓库是面向主题的、集成的、非易失的,是随时间变化的数据集合,用 来支持管理决策 1 ,2 ,3 ,4 5 1 。 与其他数据库应用不同的是,数据仓库更像一种过程【1 ,5 1 ,是对分布在企 业内部各处的业务数据的整合、加工和分析的过程,而不是一种可以购买的 产品。数据仓库并不是一个仅仅存储数据的简单信息库,它实际上是一个“以 大型数据管理信息系统为基础,附加存储了从企业所有业余数据库中获取的 综合数据,能利用这些综合数据为用户提供经过处理后的有用信息的应用系 统”【1 ,2 ,3 ,4 ,5 1 。数据仓库更接近于是一种数据综合管理技术,它将企业网络中 分布的商业数据集成到一起。 ( 2 ) 数据集市 数据集市( d a t am a r t ) ,或者叫做“小数据仓库”1 1 , 2 , 3 , 4 , 5 1 。如果说数据仓库 是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的 一个子集,它主要面向部门级业务,并且只面向某个特定的主题。数据集市 可以在一定程度上缓解访问数据仓库的瓶颈。 2 1 3 数据仓库的特征 数据仓库具有如下特征【堙,1 3 1 4 1 5 】: ( 1 ) 面向主题 ( 2 ) 集成 ( 3 ) 菲易失 ( 4 ) 随时间变化 西安石油大学硕士学位论文 2 2 数据仓库的体系结构 一个典型的数据仓库体系结构如图2 一l 【4 5 1 所示。与其说数据仓库是软件 开发项目,还不如说是系统集成项目【8 ,9 ,lo 】;因为它的主要工作是把所需的数 据仓库工具集成在一起,完成数据的抽取、转换和加载、o l a p ( o n l i n e a n a l y s i ss e r v i c e s ) 分析和数据挖掘等。如图所示,它的典型结构由操作环境 层、数据仓库层和业务层等组成。其中,第一层( 操作环境层) 是指整个企 业内有关业务的o l a p 系统和一些外部数据源;第二层是通过把第一层的相 关数据抽取到一个中心区而组成的数据仓库层;第三层是为了完成对业务数 据的分析而由各种工具组成的业务层。图中左边的部分是元数据管理,它起 到了承上启下的作用。 2 3 数据仓库的实现模型 图2 1数据仓库的体系结构图 在实现数据仓库时,大多采用比较成熟的关系数据库技术来表示多维概 念模型,这就是关系型数据仓库。经常采用“维表事实表”构成的星型 和雪花型模型来组织和管理数据。 西安石油大学硕士学位论文 2 3 1 星型模型 星型模型如图2 2 所示,数据库中包括一个“事实表”,对于每一维都对 应有一个“维表”。事实表中的每个元组都包含有指向各个维表的外键和一些 相应的测量数据,维表中记录的是有关这一维的属性。事实表中的每一个元 组只是包含了一些指针( 外键) ,而对应的主键分别放在不同的表中。每个指 针指向一个维表,这就构成了数据库的多维联系。 2 3 2 雪花型模型 图2 - 2 星型模型结构 雪花型模型是对星型模型的扩展,如图2 3 所示。如果某个项点有多个归 类层次,就形成雪花型模型。它对星型模型的维表进一步层次化,原有的维 表可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是: 通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。 圈2 - 3 雪花型模型结构 西安石油大学硕士学位论文 2 4 元数据 元数据( m e t a d a t a ) 是关于数据的数据。在数据仓库系统中,元数据可 以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的 数据;元数据是描述数据仓库内数据的结构和建立方法的数据。 2 4 1 元数据的分类1 1 , 2 , 3 ,4 , 5 1 按用途的不同分为两类:技术元数据( t e c h n i c a lm e t a d a t a ) 和业务元数 据( b u s i n e s sm e t a d a t a ) 。 ( 1 ) 技术元数据 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管 理数据仓库使用的数据,它主要包括以下信息: 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据 的定义,以及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式; 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、 汇总、预定义的查询与报告; 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分 割、数据提取、清理、转换规则和数据刷新规则、安全( 用户授权和存取控 制) 。 ( 2 ) 业务元数据吣4 5 ,4 6 】 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者 和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂” 数据仓库中的数据。 业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、 对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以 及公式和报表的信息:具体包括以下信息: 西安石油大学硕士学位论文 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数 据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基 础,不懂数据库技术和s q l ( s t r u c t u r eq u e r yl a n g u a g e ) 语句的业务人员对数据 仓库中的数据也能做到心中有数。 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人 员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合 规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示 出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据 库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所 体现。 下面是元数据的一个例子,它定义了数据仓库中的一个表( 见表2 - 4 ) 表2 - 1 数据集元数据( 部分) 数据集名称考生成绩库 数据库名称x s c j m d f 数据集关键字 学号 建库时间2 0 0 0 年5 月 存储介质硬盘 所用数据库服务器 s q ls e r v e r2 0 0 0 中文版 数据集语种中文 数据来源考试后自动写入 2 4 2 元数据管理的策略【4 5 1 现在对于元数据管理主要有两种思路: ( 1 ) 建立一个元数据访问和整个元数据生命周期管理的系统一- 元数据仓储 ( m e t a d a t a r e p o s i t o r y ) ,它是元数据访问和聚集的平台。企业内的所有元数据 均放在此元数据仓储中,从而实现元数据的集成。 西安石油大学硕士学位论文 ( 2 ) 建立一个元数据交换的途径,不同系统中的元数据均可以通过这个途 径来互访,从而把分布、异构的系统集成在一起实现元数据管理的功能。 2 5 数据仓库的设计方法 2 5 1 瀑布式开发【l 4 ,5 】 瀑布式开发是按照编写需求说明、系统设计、系统实现、单元测试、系 统调试成功并投入运行这样的流程来进行软件系统的开发。其优点是:如果 需求确定,进行认真的系统分析和设计后,开发可以采用流水线的方式,效 率很高。一旦在开发的后期用户的需求发生了变化,则必须重新回到系统的 分析阶段再重复这一流程,这样会使得软件开发团队付出昂贵的人力和物力, 延长开发的时问。 2 5 2 螺旋式开发f 1 ,4 ,5 】 螺旋式开发方法将一个庞大的任务划分成多个阶段,在每一个阶段中, 项目按照问题定义、系统分析、系统设计、开发、实现、维护和系统评估来 进行。螺旋式的开发方法通过不断扩大开发范围来逐渐完善系统。由于任务 进行了阶段划分,企业能在比较短的时间内获得他们需要系统的一部分功能。 这些功能虽然还不是很完善,但是企业已经可以利用这些功能进行决策支持 并从中受益。开发团体则以与企业建立信任关系的方式从中受益。由于每个 阶段的任务相对较小,需要的开发时间较短,阶段成果能够在比较短的时间 内获得,随着交付使用的成功系统的数目不断增多,企业对开发团队的专业 技能有更充分的肯定,企业投资者对项目和团队的信心也会增强。系统本身 也能从中受益,开发团队在系统设计、开发、实现时获得的经验可以加入螺 旋式开发方法后续的开发过程中,使得系统性能更加优越。 第三章数据挖掘技术概述 第三章数据挖掘技术概述 3 1 数据挖掘技术定义 3 1 1 数据挖掘技术出现的背景【4 6 ,4 7 l 随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指 数速度迅速增长。进入九十年代,伴随着因特网( i n t e r n e t ) 的出现和发展, 以及随之而来的企业内部网( i n t r a n e t ) 和企业外部网( e x t r a n e t ) 以及虚拟私 有网( wv i r t u a lp r i v a t en e t w o r k ) 的产生和应用,已经将整个世界联成一 个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。这 样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库, 而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。当数据量极度增长时, 如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会 感到面对信息海洋像大海捞针一样束手无策。据估计,一个大型企业数据库 中数据,只有百分之七能得到很好应用。这样,相对于“数据过剩”和“信 息爆炸”,人们又感到“信息贫乏”( i n f o r m a t i o np o o r ) 和”数据关在牢笼中” ( d a t ai nj a i l ) ,奈斯伯特( j o h i 】n a i s b e t t 煽呼“w ea r ed r o w n i n gi ni n f o r m a t i o n , b u ts t a r v i n gf o rk n o w l e d g e ”( 人类正被数据淹没,却饥渴于知识) 。 1 2 , 1 3 , 4 7 面临 浩渺无际的数据,人们呼唤从数据汪洋中来一个去粗存精、去伪存真的技术。 从数据库中发现知识( k d d k n o w l e d g e dd i s c o v e r yi nd a t a b a s e ) 及其核心技 术数据挖掘m _ d a t am i n i n g ) 便应运而生了。 3 1 2 知识发现过程 知识发现( k d d ) 是从数据中发现有用知识的整个过程;数据挖掘( d m ) 1 2 第三章数据挖掘技术概述 是k x ) d 过程中的一个特定步骤,它用专门算法从数据中抽取模式( p a t t e r n s ) 。 19 9 6 年,f a y y a d 、p i a t e t s k ys h a p i r o r 和s m y t h 将k d d 过程定义为:从 数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可 理解的。 k d d 过程是多个步骤相互连接、反复进行人机交互的过程。具体包括: ( 1 ) 学习某个应用领域:包括应用中的预先知识和目标。 ( 2 ) 建立目标数据集:选择一个数据集或在多数据集的子集上聚焦。 ( 3 ) 数据预处理:去除噪声或无关数据,去除空白数据域,考虑时间顺序 和数据变化等。 ( 4 ) 数据转换:找到数据的特征表示,用维变换或转换方法减少有效变量 的数目或找到数据的不变式。 ( 5 ) 选定数据挖掘功能:决定数据挖掘的目的。 ( 6 ) 选定数据挖掘算法:用k d d 过程中的准则,选择某个特定数据挖掘 算法( 如汇总、分类、回归、聚类等) 用于搜索数据中的模式。 ( 7 ) 数据挖掘:搜索或产生一个特定的感兴趣的模式或一个特定的数据 集。 ( 8 ) 解释:解释某个发现的模式,去掉多余的不切题意的模式,转换某个 有用的模式,以使用户明白。 ( 9 ) 发现知识:把这些知识结合到运行系统中,获得这些知识的作用或证 明这些知识。用预先、可信的知识检查和解决知识中可能的矛盾。 3 1 3 什么是数据挖掘( d a t ab l i n i n g d m ) 简单的说,数据挖掘是从大量的数据中提取或“挖掘”知识。数据挖掘 应该更准确地命名为“从数据中挖掘知识”。挖掘是一个很生动的术语,它抓 住了从大量的未加工的矿料中发现少量金块这一过程的特点。 数据挖掘的定义:数据挖掘就是应用一系列技术从大型数据库或数据仓 库中提取人们感兴趣的信息和知识,这些知识或信息是隐含的,事先未知而 砖安石油大学硕士学位论文 潜在有用的,提取的知识表示为概念、规则、规律、模式等形式。也可以说, 数据挖掘是一类深层次的数据分析。数据挖掘是将人工智能技术( 神经网络, 模糊逻辑,遗传算法等) 应用到大规模数据,以发现隐含的趋势、模式和关 系。 数据挖掘作为知识发现的一个特定步骤,它是一系列技术及应用,或者 说是对大容量数据及数据间关系进行考察和建模的方法集,它的目标是将大 容量数据转换为有用的知识和信息。 3 2 数据挖掘的分类 从不同的视角看,d m 技术有以下几种分类方法: ( 1 ) 根据发现知识的种类分类: 总结规则挖掘,特征规则挖掘,关联规则挖掘,分类规则挖掘,聚类规 则挖掘,趋势分析,偏差分析,模式分析等。 ( 2 ) 根据采用的技术分类: 人工神经网络,决策树,遗传算法,最临近技术,规则归纳,可视化。 3 3 数据挖掘的任务及其六种模式 数据挖掘的任务是从数据中发现模式。模式是一个用语言l 来表示的一 个表达式e ,它可用来描述数据集f 中数据的特性,e 所描述的数据是集合 f 的一个子集f e 。e 作为一个模式要求它比列举数据子集f e 中所有元素的 描述方法简单。例如,“如果成绩在8 1 9 0 之间,则成绩优良”可称为一个 模式,而“如果成绩为8 1 、8 2 、8 3 、8 4 、8 5 、8 6 、8 7 、8 8 、8 9 或9 0 ,则成 绩优良”就不能称之为一个模式。 模式有很多种,按功能可分有两大类:预测型( p r e d i c t i v e ) 模式和描述型 ( d e s c r i p t i v e ) 模式。 预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测 西安石油大学硕士学位论文 型模式所使用的数据也都是可以明确知道结果的。例如,根据各种动物的资 料,可以建立这样的模式:凡是胎生的动物都是哺乳类动物。当有新的动物 资料时,就可以根据这个模式判别此动物是否是哺乳动物。 描述型模式是对数据中存在的规则作一种描述,或者根据数据的相似性 把数据分组。描述型模式不能直接用于预测。例如,在地球上,7 0 的表面 被水覆盖,3 0 是土地。 在实际应用中,往往根据模式的实际作用细分为以下6 种: 3 , 4 , 1 2 1 ( 1 ) 分类模式 分类模式是一个分类函数( 分类器) ,能够把数据集中的数据项映射到某 个给定的类上。分类模式往往表现为一棵分类树,根据数据的值从树根开始 搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。 ( 2 ) 回归模式 回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测 值是离散的,回归模式的预测值是连续的。如给出某种动物的特征,可以用 分类模式判定这种动物是哺乳动物还是鸟类。给出某个人的教育情况、工作 经验,可以用回归模式判定这个人的年工资在哪个范围内,是在6 0 0 0 元以下, 还是在6 0 0 0 元到1 万元之间,还是在1 万元以上。 ( 3 ) 时间序列模式 时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到 时问的特殊性质,像一些周期性的时间定义如星期、月、季节、年等;不同 的日子,如节假日可能造成的影响;日期本身的计算方法;还有一些需要特 殊考虑的地方,如时问先后的相关性( 过去的事情对将来有多大的影响力) 等。 只有充分考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好 地预测将来的值。 ( 4 ) 聚类模式 聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差 别尽可能小。与分类模式不同,进行聚类前并不知道将要划分成几个组和什 么样的组,也不知道根据哪一( 几) 个数据项来定义组。一般来说,业务知识 西安石油大学硕士学位论文 丰富的人应该可以理解这些组的含义,如果产生的模式无法理解或不可用, 则该模式可能是无意义的,需要回到上阶段重新组织数据。 ( 5 ) 关联模式 关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则: “在无力偿还贷款的人当中,6 0 的人的月收入在3 0 0 0 元以下。” ( 6 ) 序列模式 序列模式与关联模式相仿,而把数据之问的关联性与时间联系起来。为 了发现序列模式,不仅需要知道事件是否发生,而且需要确定事件发生的时 间。例如,在购买彩电的人们当中,6 0 的人会在3 个月内购买影碟机。 在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式是 使用最普遍的模式。分类模式、回归模式、时问序列模式也被认为是受监督 知识,因为在建立模式前数据的结果是已知的,可以直接用来检测模式的准 确性,模式的产生是在受监督的情况下进行的。一般在建立这些模式时,使 用一部分数据作为样本,用另一部分数据来检验、校正模式。聚类模式、关 联模式、序列模式则是非监督知识,因为在模式建立前结果是未知的,模式 的产生不受任何监督。 3 4 数据挖掘的方法和技术 为了完成挖掘任务,人们从统计学,人工智能和数据库等领域借用基础 研究成果和工具,提出了多种方法。主要的数据挖掘方法及其要点如下所述: ( 1 ) 传统主观导向系统:采用的方法从简单的走向分析直到基于高深数 学基础的分形理论和谱分析。这种技术需要有经验模型为前提,如传统的统 计分析,包括相关分析、回归分析及因子分析等。一般先由用户提供假设, 再由系统利用数据进行验证。缺点是需经培训后才能使用,同时在数据探索 过程中,用户需要重复进行一系列操作。 ( 2 ) 神经元网络技术:用于分类、聚类、特征采掘、预测和模式识别。 神经网络模仿生物神经网络,本质上是一个分布式矩阵结构,它通过对训练 西安石油大学硕士学位论文 数据的采掘逐步计算网络连接的权值,直到最终发现有价值的信息。 ( 3 ) 决策树:在知识工程领域,决策树是一种简单的知识表示方法,它 将事例逐步分类成不同的类别。由于分类规则是比较直观的,因而比较易于 理解,虽然在机器获取领域内,多年来已研制出不少实施决策树的有效算法 r 如i d 3 及其改进算法等) ,但这种方法限于分类任务。 ( 4 ) 进化式程序设计( e v o l u t i o n a r yp r o g r a m m i n g ) :这种方法的独特思路是 系统自动生成有关目标变量对其他多种变量依赖关系的各种假设,并形成以 内部编程语言表示的程序。内部程序( 假设) 的产生过程是进化式的,类似于 遗传算法过程。当系统找到较好地描述依赖关系的一个假设时,就对这程序 进行各种不同的微小修正,生成子程序组,再在其中选择能更好地改进预测 精度的子程序,如此依次进行,最后获得达到所需精度的最好程序时,由系 统的专有模块将所找到的依赖关系由内部语言形式转换成易于为人们理解的 显式形式,如数学公式,预测表等。由于采用通用编程语言,这种方法在原 则上能保证任何一种依赖关系和算法都能用这种语言来描述。 ( 5 ) 基于事例的推理方法( c a s e b a s e dr e a s o n i n g :c b r ) :这种方法的思路 非常简单,当预测未来情况或进行正确决策时,系统寻找与现有情况相类似 的事例,并选择最佳的相同的解决方案,这种方法能用于很多问题求解,并 获得好的结果,其缺点是系统不能生成汇总过去经验的模块或规则。 ( 6 ) 遗传算法( g e n e t i ca l g o r i t h m s :g a ) :用于分类,关联规则采掘等。遗 传算法模仿人工选择培育良种的思想,从一个初始规则集合( 知识基因) 开始, 逐代地通过交换对象成员( 杂交、基因突变) ,产生群体( 繁殖) ,评价并择优复 制( 适者生存,不适应者淘汰) ,逐代积累计算,最终得到优化的知识集。 ( 7 ) 非线性回归方法:这种方法的基础是,在预定的函数的基础上,寻 找目标度量对其它多种变量的依赖关系。这种方法在金融市场或医疗诊断的 应用场合,能提供比较好的可信赖的结果。 西安石油大学硕士学位论文 3 5 数据挖掘过程 数据挖掘的过程如图3 一l 所示,一般分为四个阶段。 3 5 1 确定目标 了解应用的范围,预先准备相关的知识,了解最终用户的目标。一般来 说,目标可以是关联规则发现,数据分类,回归,聚类,数据汇总,概念描 述,相关分析建模或误差检测等。如果能把用户或分析者的经验和知识结合 进来,既可以减少很多工作量,又能使挖掘工作更有目的性,更有成效。 3 5 2 数据准备 ( 1 ) 生成目标数据集。选择一个数据集,或针对一个变量或数据样本的 子集,在这个集合上进行挖掘。此时应考虑如何选取同类的数据,考虑过程 中的动态情况和变化、采样策略、样本是否足够、自由度和其他一些问题。 图3 - 1 数据挖掘的过程 ( 2 ) 数据净化和预处理。考虑如何正确地去除噪声或奇异值,收集必 一簋叵 西安石油大学硕士学位论文 要的信息建立噪声模型或解决噪声问题,决定采取何种策略来解决丢失的数 据或数据库设计不完善带来的问题,以及解决时间序列信息和正确标准化问 题。 ( 3 ) 数据变换和压缩。根据任务的目标,查找有用的特性来表示数据。 利用空间压缩或变换的方法来减少要考虑的有效变量数目或找到数据的不变 表示,一般方法是把数据投影到某个空间上,以利于问题解决。 3 5 3 数据挖掘 ( 1 ) 选择数据挖掘的方法。根据k d d 过程的目标,选择相应的数据挖 掘方法,如统计分析、机器学习、模式识别方法和人工神经元方法等。 ( 2 ) 选择数据挖掘算法。选择用来查找模式或符合数据的模型的算法, 确定合适的模型和参数。 ( 3 ) 数据挖掘。查找感兴趣的模式。模式一般表示为一种特殊的形式或 一套表达式,如关联规则,分类规则或分类树,回归结构和聚类集等。 3 5 4 表达、评价和巩固挖掘结果 ( 1 ) 结果表达。尽量直观地表示挖掘结果,便于用户理解和使用,可利 用可视化方法表示为图表等形式。 ( 2 ) 结果评价。筛选和评价挖掘结果中的有用部分,查找可接受的结果。 ( 3 ) 知识巩固。把挖掘出的知识结合到执行系统中,了解这些知识的作 用,或证明这些知识。 第四章j s p 技术和x m l 技术简介 第四章j s p 技术和x m l 技术简介 4 1 什么是j s p 技术 j a v as e r v e rp a g e s t m ( j s p ) 技术是由s u nm i c r o s y s t e m s 公司倡导的、许多 公司参与一起建立的一种动态网页技术标准。它为创建显示动态生成内容的 w e b 页面提供了一个简捷而快速的方法。j s p 是j a v a 平台上用于编写包含诸 如h t m l ,d h t m l ,x h t m l 和x m l 等含有动态生成内容的w e b 页面的应 用程序的技术。 4 1 1 j s p 工作原理【3 2 ,3 4 3 5 i 最初,w e b 服务器只能提供静态的页面给浏览器,客户端只能被动浏览, 无法进行交互。随着应用的需求和w e b 服务在i n t e r n e t i n t r a n e t 中的迅猛增长, 导致了s s i c ( s e r v e rs i d ei n c l u d e s ) 、c g i ( c o m m o ng a t e - w a yi n t e r f a c e ) 、 i s a p i ( i n t e m e ts e r v e ra p i ) , n s a p i ( n e t s - c a p es e r v e ra p i ) 、a s p 、j a v a 等扩充 w e b 服务器功能的新技术出现,可以通过在服务器端编程实现各种特定功能。 j s p 是基于j a v a 的技术,用于创建支持跨平台服务的动态网页。j s p 具有程序 设计容易、与浏览器无关、遵循面向对象的设计思想、支持跨平台运行等特 点,在开发基于w e b 的管理信息系统中将得到广泛的应用。其工作过程如图 4 1 所示。当用户浏览器从w e b 服务器上请求j s p 文件时,w e b 服务器响应该 h t t p 请求,j s p 引擎解释j s p 标识和小脚本,生成所请求的内容( 例如,通过访 问j a v a b e a n s 组件,使用j d b c 技术访问数据库,或者包含文件) ,并且将结果以 h t m l ( 或x m l ) 页面的形式发送回浏览器。微软的a s p 技术是直译式的,而 j s p 为编译式的。j s p 引擎通常是构架在s e r v e r l e t 引擎上面,以s e r v e r l e t 的形 式存在,把j s p 文件转移成s e r v e r l e t 的原始码,经j a v a 编译器编译成s e r v e r l e t 。 西安石濑大学硬圭学位论文 囝臣咂习 舅 图4 叫i s p 工作过程 哇。1 2j s p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论