




已阅读5页,还剩50页未读, 继续免费阅读
(计算机软件与理论专业论文)bs框架下基于模糊关联规则的学生成绩分析系统的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 量量量量皇量皇量皇置量曹鼻| 罾皇| 量鲁皇皇皇量曼量鲁鲁舅i | | 量| 量皇量皇量皇量曼曼一 摘要 信息技术、计算机技术,特别是数据库技术的迅猛发展,使得人 们能更快速、更容易、更廉价地获取和存储数据,基于三层b s 架构 的w e b 数据库满足了人们分布式的随时随地存取数据的要求。但是基 于成本及管理的考虑,网络中甚至局域网中的数据库管理系统并不一 样,访问技术亦不尽同。论文中提出了基于数据库中间件技术的多层 b s 应用模型,既整合了w e b 数据库资源,又实现了对数据库的透明 访问。 数据挖掘是从海量的数据中迅速获取新颖、有效知识的过程。数 据挖掘中的关联规则主要是从大量的数据中,探讨数据项目之间的关 联性,它多应用于二元的数据分析上,对于数值型数据的处理上,缺 乏弹性。因此本文运用f u 等提出的m i dp o i n t 的模糊隶属函数,将数 值型数据予以分类,并结合a p r o i r i 算法,与k u o k 等提出的s i g n i f i c a n c e 和c e r t a i n t y 二因素,来挖掘出符合使用者定义的规则来。 为了让学生在学习上能达到循序渐进的效果,通常学校都会制订 课程设置的规则,以决定哪些科目先修,哪些科目后修,这种先后修 顺序一般是由各系部的老师依据科目之间的相关性来制定的,而相关 程度无从得知。因此,本文通过分析学生成绩来看科目之间先修后修 的关系。本文在山东警察学院刑事侦查技术系的学生成绩基础之上结 合该系所制定的课程设置规则,分析科目间是否存在关系,以为学生 在选课及系部在制订课程设置规则时提供决策建议。 本文的主要工作体现在基于数据库中间件技术的多层b s 应用架 构的模型设计、数值型模糊关联规则的挖掘及多层b s 框架下基于模 糊关联规则的学生成绩分析系统的模型及算法思想的描述等处。 关键词:数据挖掘;模糊隶属函数;a d o n e t ;显著度;精确度 山东大学硕士学位论文 a b s t r a c t t h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y ,c o m p u t e rt e c h n o l o g y , e s p e c i a l l yt h ed a t a b a s et e c h n o l o g yi sp r o v i d i n gu st h ep o s s i b i l i t yt oa c c e s st h e d a t a b a s e 、) l ,i t hm o r es p e e d ,w i t hm o r ec o n v e n i e n c ea n dw i t hl e s sc o s t s u c ha w e bd a t a b a s eu n d e rt h et h r e e l e v e la r c h i t e c t u r eo fb s ( b r o w s e r s e r v e r ) m o o t s t h er e q u i r e m e n to fo u ra c c e s st h ed a t a b a s ea ta n yp l a c ea ta n yt i m e b u t 、而t ht h e c o n s i d e r a t i o no fc o s ta n de a s ya d m i n i s t r a t i o n ,t h ed a t a b a s em a n a g e m e n ts y s t e m s i nt h ei n t e r a c t ,e v e ni nt h el a n n e t w o r k ,a r en o ta l w a y st h es a m e n e i t h e ra r e t h ea c c e s s i n gt e c h n o l o g i e s a na p p l i c a t i o nm o d e lb a s e do nt h et e c h n o l o g yo f m i d - w a r eu n d e rt h em u l t i l e v e la r c h i t e c t u r eo fb si sp u tf o r w a r d ,w h i c hn o t o n l yi n t e g r a t e s t h er e s o u r c e so ft h ew e bd a t a b a s e s ,b u ta l s or e a l i z et h e t r a n s p a r e n ta c c e s st od a t a b a s e s d a t am i n i n gi st h ep r o c e s so fo b t a i n i n gn e w , e f f e c t i v ek n o w l e d g ef r o m p l e n t yo fd a t a t h ea s s o c i a t i o nr u l eo ft h ed a t am i n i n gt e c h n o l o g i e si st oe x p l o r e t h er e l e v a n c ea m o n gd a t ai t e m sw h i c ha r es t o r e di nd a t a b a s e s i ti so f t e nu s e di n t h ea n a l y s i so fb i n a r yd a t a i tl a c k so ff l e x i b i l i t yi nd e a l i n g 、析t l ln u m e r i c a ld a t a t h u s ,t h i sa r t i c l ea i m s a tc l a s s i f y i n gt h en u m e r i c a ld a t a 澌t l lt h eh e l po f m i d p o i n tf u z z ym e m b e r s h i pf u n c t i o nw h i c hi sb r o u g h tu pb yf ua n do t h e r r e s e a r c h e r sa n dm i n i n gs u c hr u l e st h a ts a t i s f i e st h eu s e r sd e f i n i t i o nw i t ht h e h e l po ft h ea p r o i r ia r i t h m e t i ca n dt h et w of a c t o r so fs i g n i f i c a n c ea n dc e r t a i n t y p r o d u c e db yk u o ka n do t h e rr e s e a r c h e r s i no r d e rt om a k es t u d e n t sg r a d u a t ei np r o p e rs e q u e n c e ,t h eu n i v e r s i t i e so r c o l l e g e su s u a l l yf o r m u l a t es o m er u l e st od e c i d et h es e q u e n c eo ft h ec o u r s e s b e i n gs e tu p ,t h a ti s ,w h i c hc o u r s e ss h o u l db es e tu pe a r l i e rt h a no t h e r s s u c h s e q u e n c ei su s u a l l yf o r m u l a t e db yt h et e a c h e r so ft h e i rd e p a r t m e n t sb a s e do nt h e r e l e v a n c ea m o n gc o u r s e s ,b u tt h er e l e v a n td e g r e ei sn o tk n o w n t h u s ,w el o o k i n t ot h er e l a t i o n s h i pb e t w e e nt h ec o u r s e sw h i c ha r es e tu pe a r l i e ra n dt h o s e i i 山东大学硕士学位论文 w h i c ha r es e tu pl a t e r t h i sa r t i c l ea n a l y z e st h ea c a d e m i ca c h i e v e m e n t so ft h e s t u d e n t so ft h ed e p a r t m e n to fc r i m i n a ld e t e c t i n gt e c h n o l o g i e s ,s h a n d o n g p o l ic ec o l l e g ea n dt r i e st of i n do u tt h er e l e v a n c eo ft h ec o u r s e ss e tu pi no r d e rt o p r o v i d es u g g e s t i o nt ot h es t u d e n t sw h i l et h e ya r ed e c i d i n gt os e l e c tw h i c h c o u r s e st os t u d yf i r s t ,a n dt ot h ed e p a r t m e n t sb e f o r et h e yf o r m u l a t eo rr e v i s et h e r u l e so fs e t t i n gu pc o u r s e s t h em a i nw o r ko ft h i sp a p e ri st h a ti tp r o v i d e sad e s i g n i n gm o d e lo fa m u l t i - l e v e la r c h i t e c t u r eo fb sb a s e do nt h ed a t a b a s em id - w a r e ,t h a ti tt e l l su s h o wt om i n ef u z z ya s s o c i a t i o nr u l e so fn u m e r i c a ld a t a , a n dt h a ti tg i v e su st h e s t a t e m e n to ft h em o d e lo ft h es t u d e n t s a c a d e m i ca c h i e v e m e n t sa n a l y s i ss y s t e m b a s e do nt h er u l e so ff u z z ya s s o c i a t i o nu n d e rt h em u l t i l e v e la r c h i t e c t u r eo fb s a n di t sa r i t h m e t i cp r o c e s s ,e t c k e yw o r d s :d a t am i n i n g ,f u z z ym e m b e r s h i pf u n c t i o n ,a d o n e t , s i g n i f i c a n c ef a c t o r , c e r t a i n t yf a c t o r i i i 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:弦! 盘:杰) e t论文作者签名: 铆! 丕:盘) 期:2 翌墨堡 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:、湓幺盘导师签名:论文作者签名:铋k 盔导师签名: 山东大学硕士学位论文 1 1 问题提出的背景 第1 章绪论 计算机及网络技术的迅猛发展带动了教学手段的不断更新。近年 来,基于校园局域网( c l a n ,c a m p u sl o c a la r e an e t w o r k ) 的网络教 学平台的研究和应用已经成为技术热点问题。该技术的关键之一就是 需要面向网络的分布式数据库的支持,既要考虑到整个结构框架,还 要考虑到对已有的教学资源的充分利用,即资源整合问题。基于b s ( b r o w s e r s e r v e r ,浏览器服务器) 的多层网络应用框架模式的应用和 支持a d o n e t2 0 技术的w e b 数据库的建立使得大量和学生学习相 关的数据得以保存。但是目前对这些数据所做的工作主要局限于课件 浏览、成绩统计、成绩查询等,数据的其它价值还没有被开发利用。 学生评价体系是网络教学平台必须考虑的一个重要组成部分。科 学的学生成绩评定技术所面临的问题是如何有效管理相关学生数据并 挖掘出在这些数据中蕴含的丰富信息,充分发挥信息的潜力及价值, 以对今后的决策提供科学的依据和合理化的建议【2 1 。w e b 数据库技术 和模糊关联技术正是解决这一问题的有效方案。本文采用基于b s 框 架的w e b 数据库技术和模糊关联技术,以现有系统中的数据做基础, 建立了一个学生成绩分析模型。首先模糊化学生成绩数据,并加以分 析,从而从中挖掘出相应的模糊关联规则,得出大学课程设置中先修 科目和后修科目之间的关联程度,为今后的教学改革提供决策依据。 数据挖掘的功能,就是从数据中寻找出规则,藉以用来分析、处 理、预测、解决问题;也就是要在庞大的数据资料中找到潜在的知识 并将其从数据仓库中取出来的过程1 3 。数据挖掘的方式有许多种,如 关联规则、分类法则、聚集法则等等,而关联规则是能够由数据仓库 中产生大量规则模型的一种方法 4 1 ,由数据库中找出数据项目固有的 山东大学硕士学位论文 相关性,并删除没有用的数据,在有用及相关的数据之中找出规则, 可以有效地分析规则,省去处理不必要的数据,使数据在处理、分析 及预测上能变得更有效率。 1 2 研究的意义 本文所研究的问题是在基于c l a n ( c a m p u sl o c a la r e an e t w o r k , 校园局域网) 的网络教学平台已经建立的基础上提出的,其意义就在 于利用a d o n e t 技术访问w e b 数据库,采集并发掘和学生学习活动 有关的记录数据,运用模糊理论、数据挖掘及其相关技术推导出相应 的模糊关联规则,为学生的选课及学校的课程设置和修订提供决策依 据和建议。 本文着重研究在关联规则的基础之上,将模糊隶属函数运用在连 续型数值数据上。模糊集合论已被广泛应用在人工智能系统中,因为 其具有简单性以及相对于人类的推论。本文主要运用模糊隶属函数配 合统计上的概念,以计算出不同的隶属程度值,并在使用关联规则上 的a p r i o r i 算法,配合k u o k 等提出的s i g n i f i c a n c e 和c e r t a i n t y 二因素, 筛选出符合使用者预定义的规则。 为了让学生在学习上能达到循序渐进的效果,学校都会依据科目 之间的相关程度来制定开设课程的先后顺序;然而对于课程内容的相 关程度没有一个量化的客观依据,仅凭主观意识来确定。因此本文运 用学生成绩来客观地分析课程的先修与后修的关系,藉由成绩所展现 出来的先修与后修关系,来提供制订及修订课程开设规则的依据。 1 3 国内外的研究现状 自从1 9 6 5 年札德( z a d e h ) 提出模糊集合和模糊逻辑的概念,并 最终于1 9 7 7 年确立模糊理论以来,由于其研究的“不确定性更接近 于人类的思维模式和现实世界的真实情况,模糊理论与数据挖掘迅速 2 山东大学硕士学位论文 结合,许多基于模糊关联规则的研究和成果被广泛地应用于军事、医 药、行为科学、人工智能等各个领域。但是同网络应用模型的技术成 熟和大规模的应用相比,模糊控制领域“目前,还没有办法设计出一 台机器,能够像人类那样完成诸如对话识别、语言翻译、含义理解、 抽象与泛化、非确定情况下的决策等知识归纳任务i s 。也就是说,模 糊关联规则还主要处于理论研究和部分应用阶段。比如,目前还不能 创建一种完全意义上的模糊数据库,只能是在比较成熟的关系型数据 库的基础上,加入模糊关联规则的元素,以部分实现模糊关联规则的 数据挖掘功能。 目前,模糊理论在教育领域基本上也是以理论研究为主,还没有 成熟的应用软件可供直接使用。但是,众多专家学者对此领域的研究 投入了极大的热情,不时有相对成熟的应用研究成果出现。比如,目 前已经有比较完善的高校建设指标评估系统。但是对学生成绩的评价 分析还缺乏完善的指标体系。建立一个这样的体系,从中挖掘出教育 教学的相关规律,可填补新形势下学生考试数据研究的空白。 1 4 本文的主要工作和贡献 本文首先给出了关联规则及模糊理论的基本概念、关键技术及其 发展的基本状况;阐述了a p r o i r i 算法思想,并提出了对数值型关联 规则的基于八分位数的模糊化思想;然后研究了通过a d o n e t 2 0 技术 实现基于数据库中间件技术的多层b s 分布式网络访问架构;之后给 出了该架构下实现学生成绩模糊分析的原型,并利用模糊关联规则技 术最终加以实现。 本文所作的工作主要有以下几个方面: 研究和分析了基于数据库中间件技术的多层b s 框架设计方 案。 利用a d o n e t 实现对w e b 数据库的访问。 对大量已存在的来源于不同数据库管理系统的数据进行抽取、 3 山东大学硕士学位论文 转换、整合,建立学生成绩数据仓库,优化了教学资源。 研究如何利用模糊理论对学生成绩进行模糊化处理分析,进行 模糊关联规则挖掘的模型,实现对学生数据相关性的探究。 给出了多层b s 框架下,基于模糊关联规则的学生成绩分析系 统的算法步骤,并利用具体试验数据加以验证。 本文的创新之处在于: 在较为成熟的三层b s 的网络应用模型的基础上,研究分析了 基于数据库中间件技术的多层b s 结构,并利用a d o n e t 技术实现 对w e b 数据库的访问,从而搭建了学生成绩数据仓库平台。 给出了基于模糊关联规则的学生成绩分析系统的算法步骤,并 利用具体试验数据加以验证。 1 5 本文的组织结构 第1 章主要介绍了课题提出的背景及意义。 第2 章通过a d o n e t 技术实现了一种基于三层b s 结构的w e b 数 据库设计方案。 第3 章主要阐述了模糊关联的基本概念、关联规则,并对目前存 在的一些问题进行了分析和研究。 第4 章深入探讨了实现模糊关联模型而采用的研究方法。 第5 章给出了学生成绩模糊分析原型系统的实现。 第6 章总结了课题的创新点,并对今后的应用前景做了展望。 4 山东大学硕士学位论文 第2 章基于多层b s 的w e b 数据库访问应用模型 教学各部门及教学资源的分散性特点要求教学管理及办公系统采 用分布式的部署。在早期的应用中,由于实际用户少,网络规模小, 基于c s ( c li e n t s e r v e r ,客户机、服务器) 的分布式应用系统能够 满足日常教学及管理的基本要求。随着多媒体技术的发展,各网络教 学平台的应用,学生用户激增,应用系统越来越复杂,随之出现了基 于b s ( b r o w s e r s e r v e r ,浏览器服务器) 的三层应用模型,更加有 利于系统的扩展和i n t e r n e t 访问。数据库中间件技术的应用,即可实 现对多种类型数据库的透明访问,又可整合各类教学资源,优化系统 结构。 2 1 基于c s 的两层应用模型 在c s 型的两层应用中,表示层和应用逻辑层被组合在一起,运 行在客户端,通过网络连接访问远端的数据。借助于a p i 接口,例如 业界标准的s o l 语言,客户端的应用组件从数据库中读取数据,执行 程序的运算逻辑,然后把数据送回数据库1 6 。这种应用模型比较适合 于小规模的、用户较少、单一数据库且有安全、快速的网络环境下运 行。 随着各网络教学平台的广泛应用,学生用户数量激增,应用系统 也越来越复杂,客户端应用程序变得越来越庞大,对客户机的处理能 力越来越高,c s 应用的模型的“胖客户机”【7 1 的弊端愈来愈突出,主 要表现在以下几个方面: 程序开发量大 由于存在许多不同的客户端都要访问数据库,且通常用户接口和 应用程序都集中在客户端,所以对不同的客户端要开发不同的应用程 序,极大地增加了编程的工作量。 山东大学硕士学位论文 i i 一一 i m n l i _ | _ 罾量| 曼量量| l l _ 量罾_ 皇曼鲁舅量鼍寞量量| 量曼舅一 系统维护困难 一旦系统程序要进行修改和升级,则需要更新所有客户端程序, 使得系统的正常维护升级工作很难进行。 客户机负载过重,成本增加 应用系统的功能越来越复杂,客户端的应用程序也越来越庞大, 客户机已不堪负重,于是不断提高客户机的配置,又加重了投资的成 本【8 1 。 系统的安全难以保障 客户机与服务器相连,一方面,数据库的事务处理逻辑包含在客 户端应用程序中,未经授权的用户可以很容易地通过应用程序入侵系 统;另一方面,授权用户连接数据库的权限允许他可以用自己的数据 库访问工具连接数据库对其进行操作。它们对于系统的安全性带来极 大的隐患。 由于当前的许多基于w e b 的网络教学软件都需要复杂的表现和逻 辑处理,传统的通过静态页面在w e b 上发布信息的两层c s 模式已经 不能够适应这种发展的需要,因为在该模式下,客户端需要专门的逻 辑处理模块,给软件的分布式部署带来困难,也不适于师生随时随地 访问网络资源的需求。 2 2 基于b s 的多层应用模型 2 2 1 基于b s 的三层应用模型 基于c s 两层应用模式的上述缺点,考虑到系统的可扩展性和 i n t e r n e t 的发展,将程序逻辑与用户界面分开,从而形成基于b s ( b r o w s e r s e r v e r ,浏览器数据库) 的三层应用模式【9 1 。 在三层b s 结构下,表示层( p r e s e n t a t i o n ) 、应用逻辑层 ( b u s i n e s sl o g i c ) 、数据服务层( d a t a s e r v i c e ) 被分割成三个相对 6 山东大学硕士学位论文 独立的单元。表示层负责与用户交互并把相应的请求通过调用中间层 的组件传递给应用逻辑层,应用层的组件执行具体的事务逻辑并通过 调用s o l 式向第三层的组件提出数据或其它资源请求1 1 。如图2 1 所 示。 图2 1 三层b s 应用模型 该结构中,用户界面常采用标准通用的浏览器,应用逻辑则运行 在中间层的w e b 服务器上,与用户界面和数据的访问相对独立。这种 分层方式带来了诸多的优点: 系统维护和更新简单 应用逻辑集中放置在w e b 服务器上由所有用户共享,使得系统维 护和更新变得简单,当事务逻辑发生变化时,只需更新服务器上相应 的应用逻辑组件,之后所有的客户就可以使用新的事务处理逻辑1 1 0 1 , 避免了客户端应用程序版本控制和更新的困难。 程序的可重用性增强 在应用逻辑层,开发人员可以利用自己熟悉的常用软件开发工具 开发可重用的组件,而不是编写存储过程。这些组件还可以镜像到多 台机器上同时运行,从而分担多用户的负担。 数据库服务器负担减轻 应用程序组件可以共享与数据库的连接,数据库服务器不再是为 每个活动的用户保持一个连接,从而降低了数据库服务器的负担,提 高了性能。 提高了系统的安全性 7 l 1 东大学硕士学位论文 安全管理可以基于组件来授权而不是授权给用户,客户不再直接 访问数据库,提高了安全性。 便于进行事务管理 可使用m i c r o s o f tt r a n s a c t i o ns e r v e r 或其它类似产品实现。 2 2 2 基于中间件的8 s 的多层应用模型 在整个网络教学环境中,考虑到有许多资源可以重用,需要对大 量的、已存在的教学资源数据库加以整合,而数据库管理系统往往不 一致,存在各种连接技术,给教学资源数据库的重用和整合带来一定 的困难。因此,实现对w e b 数据库访问的最好的方法是在w e b 服务器 端提供中间件来连接w e b 服务器和数据库服务器1 1 1 】,如图2 2 所示。 图2 2 基于中间件的b s 多层应用模型 该模型是对三层b s 应用模型的改进,主要是为了规避采用单一 数据库无法完成对已有数据资源的整合,从而需要大量人力物力进行 数据结构转换的缺点。由用户层提出的请求经w e b 服务器进行预处理, 通过中间件实现对各种数据库资源的透明访问。 2 3a d o n e t 实现多层b s 结构的应用 a d o n e t 支持强编程语言( 如:v b n e t ,c # ,j # 等) ,突破了传统 的a d o 受脚本语言的限制,有很强的互操作性、可编程性和可伸缩性。 同时,在a d o n e t 中不同开发工具开发的组件可以通过d a t a s e t ( 数 山东大学硕士学位论文 曼曼曼量量曼曼皇曼皇皇皇量目量曼量量量量量皇量舅量| 皇量皇量曹m n m 曹罾目量量量量曼皇量曼量曼量曼鼍罾鲁邑皇量罾_ 据集) 彼此通信,由于d a t a s e t 中的数据能够以x m l 的形式保存和传 输,这就使得数据的标准化成为可能【1 2 1 。 2 3 1a d o n e t 对象模型 a d o n e t 从a d o 数据访问模型发展而来,其对象模型主要由两个 核心组件构成,即n e t 数据提供程序和d a t a s e t 。n e t 数据提供程序 允许用户创建与数据库的连接,该连接允许用户根据其需求将数据检 索到d a t a r e a d e r 或d a t a s e t 中。d a t a s e t 是一个对象,从数据库检索 的数据可以存储其中。d a t a s e t 可以包含一个或多个表,以及有关关 系和约束的信息。d a t a s e t 中的数据以d a t a t a b l e 对象的形式存储【1 2 】。 a d o n e t 对象模型如图2 3 所示。 n e t 数据提供程序 d a t a s e t i c o n n e c t i o n i d a t a t a b l e i c o m m a n d i“ d a t a r o w i d a t a a d a p t e ri 中叫 d a t a c o l u m n ? i n i q u e c o n s t r a i n l l d a t a r e a d e r l 7 ii r e i g n k e y c o n s t r a i咀 兮一 图2 3 :a d o n e t 对象模型 然后,要创建与数据库的连接,需要使用c o n n e c t i o n 对象传递连 接字符串,用c o m m a n d 对象检索、更新、插入和删除数据库中的数据, 用d a t a a d a p t e r 对象的f i l l 方法填充d a t a s e t 对象,最后使用 d a t a b i n d 方法将数据源与d a t a g r i d 、d a t a v i e w 或其它数据控件绑定, 使用户可以查询或操纵数据。 9 山东大学硕士学位论文 罾量皇量量量皇曼曼量量曼曼量曼曼曼曼置皇量鲁量皇曼皇皇皇罾量量罾一i 一i 罾曹曹量量皇量量量置一 2 3 2a d o n e tw e b 数据库访问模型 几乎所有的软件都要处理数据。事实上,一个典型的i n t e r n e t 应 用程序只是位于某个复杂数据库程序上面的用户接口命令解释程序, 其中的数据库程序可以对w e b 服务器上数据库中的数据进行读写操 作。a d o n e t 根据用户对w e b 数据库不同的访问形式提供了两种访问 模型。如果只想在w e b 页上显示数据而且以后很少需要对这些数据进 行操作或更改,可采用a d o n e t 直接访问数据库的方式 1 2 , 1 3 ,如图2 4 所示。 伏理l 廿j 刖开 一、 只读地检索 c o m m a n d 对 1 舯挥d a t a r e a d c r 一一 、 w e b 【 连 】 2 0 n n e c t i 数据存储 o n ( 如关系 页代 数据库中 c o m m a n d 对 的一个或 码 发送置接更7 - _ 新删除命令 【连接】 图2 4 :通过a d o n e t 直接访问数据库 该模型利用s q l d a t a r e a d e r 或o l e d b d a t a r e a d e r 对象快速读取数 据。这些类与a d o 的快速向前指针( c u r s o r ) 相当,它们与某个数据 源之间保持某种活动的连接,但是不能够做出任何改变。若从某个 s q l d a t a r e a d e r 或o l e d b d a t a r e a d e r 中获取一行数据,应采用r e a d 方 法。 如果想要进行更复杂的交互式访问,则需通过a d o n e t 使用 d a t a s e t 对象 1 2 , 1 4 ,如图2 5 所示。 同传统的a d o 技术相比,a d o n e t 使用断开的方法访问数据库。 即在a d o n e t 中仍然可以创建一个到数据库的连接,但却不使用游标。 相反,用从数据库中提取的信息副本填充数据集( d a t a s e t ) 。如果改 1 0 山东大学硕士学位论文 变了数据集中的信息,数据库里相应的信息不会改变。也就是说,可 以轻易地改变和操作数据而无需多虑,因为用户不是在使用重要的数 据库连接。需要时,可以把d a t a s e t 连回最初的数据源并应用所有的 改变。 断开的数据。蠢活”的连接对 c o m m a n d 对 i i连接 i d a t a a d a p t e r 对 l 一一一一、 ,、 填充 读取教 s e t e c t c m a n 卜一 c o m m a n d 对 4 -、 1 u a s a s e t c o n n e o t i w e b 连接 数据存储 u r aa t e c 。m m a n 卜- 村 ( 如关系教 d a t a s e t 页代 对象 c o m m a n d 对 据库中的一 个或多个 更新7 i n s j r t c o m m a n 卜+连接 +袭) 码 劳改,删除致据 数源 id e l e t e c o m m a 卜+c o m m a n d 对 、 i 一 连接 图2 5 :通过a d o n e t 使用d a t a s e t 2 3 3 基于w e b 数据库中间件的实现方法 现有的、通用的数据库访问方式,其主要操作有:设置数据库连 接,打开和关闭数据库,执行查询和执行其它的s q l 语句,实现事务 管理和缓冲池管理;比较先进的数据库访问方式还支持实时数据库连 接【6 1 。因此,为了实现对传统数据库访问方式的封装,本文给出一个 实现方法。 1 首先要定义个w e b 服务。这个w e b 服务至少应该拥有以上所 列出的w e b 方法( 属性为w e b m e t h o d 的p u b1i c 函数成员) ,这些方法 就组成了这个w e b 服务的接口。 2 在n e t 框架下,由于w e b 服务的实现都封装在 s y s t e m w e b s e r v i c e s w e b s e r v i c e 这个类中,为了实现对数据访问方 式的w e b 服务的封装,必须定义一个新的类,该类继承于w e b s e r v i c e 山东大学硕士学位论文 i | i | 量置量置量置量曼罾量| 曼鼍罾量一 或是它的子类。 3 n e t 中的新的关系型数据管理类都是基于类库中s y s t e m d a t a 的一系列的名称空间,通常称这些名称空间集合为a d o n e t 。s y s t e m d a t a 包含用来访问和存储关系型数据的基础对象。n e t 直接提供了 s y s t e m d a t a s q i c i i e n t 和s y s t e m d a t a o i e d b c i i e n t 两个命名空间 【12 1 ,这两个命名空间分别包含有用来访问s q ls e r v e r 关系数据库和其 他关系数据库所需的基本对象。其中以t r a n s a c t i o n 结尾的类提供了 事务管理的功能,以c o n n e c t i o n 结尾的类用于连接具体的数据库,以 c o m m a n d 结尾的类定义了对数据库表的操作。 4 为了实现中间件的可扩展性,要避免在中间件的w e b 方法中直 接实现对数据库的操作,方法之一就是( 1 ) 先定义一个虚类d b a c c e s s , 在这个虚类中定义对数据库操作的接口,包括数据库的打开( d b o p e n ) 和关闭( d b c l o s e ) ,事务的开始( s t a r t t r a n s ) 、事务的递交 ( s u b m i t t r a n s ) 和回滚( r o ll b a c k t r a n s ) ,空返回值的s o l 语句的执 行( v o i de x e c u t i n g s q l ) 和返回数据集的s o l 语句的执行( d a t a s e t e x e c u t i n g s q l ) 。这样,w e b 服务中间件的每个w e b 方法就仅仅是调用 了d b a c c e s s 对象的相应成员函数。( 2 ) 为了具体实现对数据库的操作, 还需要对d b a c c e s s 类实例化,即定义d b a c c e s s 的多个子类,每个子 类对应一类数据库的访问方式( d b a c c e s s 类实例化的具体程序段请参 见本文的附录) 。在需要使用该中间件时,只需通过s r c 属性将包含该 中间件的a s c x 文件地址添加进来,就可以直接使用这个服务了。 1 2 山东大学硕士学位论文 邑邑皇量量曼舅量舅量量曼曼皇舅奠 i l li i1 | 一_ 第3 章数值型数据的模糊化规则 关联规则是数据挖掘的方法之一,它一般都是应用在对二元的数 据分析上,对于数值型的数据处理缺乏弹性 1 6 1 。也就是说,数据的分 类在传统上是绝对的,即一个元素若属于这一分类,就不属于另一分 类,此种分类太绝对,也缺乏弹性。如:对于考生分数,一般都是将 某个分数作为考生考试是否及格( 良好、优秀) 的标准,对于满分l0 0 分,考试成绩是6 0 分的考生是及格的:而考试成绩是5 9 分的就是不 及格的。仅一分之差,就将学生划归为两个截然不同的特征集合,无 疑会对学生成绩的分析产生巨大的误差,即会出现所谓的“尖锐边界一 1 6 1 问题。因此,单纯地以某个分数作为分割界限是不合适的。 近年来,关联规则对连续型数量数据的应用也越来越广泛。在处 理连续型数据上,s r i k a n t 等人提出属性分段的方式,即利用传统集合 学中解决数值型数据的方法,用数量属性区段重叠的办法,在接近区 段边界的数据可以隶属两种以上的区间,因而造成数据间重要性不同 调的问题。后来,k o u k 等人提出一种比分段更圆滑的方法,他利用模 糊集合提供了更有弹性的方法来转换数据的集合【16 1 ,其方法在处理数 值型值比现存的方法还好,因为模糊集合软化了清楚界定的结果,因 此使模糊集合更容易让人了解。 3 1 关联规则 关联规则是由a g r a w a l 在1 9 9 4 年首先提出的 , 7 a 8 1 ,主要用于研究 在数据仓库中某些数据彼此间的关联性。关联规则能从庞大的数据仓 库中找出感兴趣或是具有相对关系的规则来。例如找出课程之间的依 存关系,如在“数据结构 成绩为优秀的学生中,约有6 0 的学生其 “高级语言( c 语言) 编程 的成绩也为优秀,由此可以帮助学校在 课程设置上加以调整,以使学生的学习更具延续性。由于该法则最初 山东大学硕士学位论文 的研究目的是为了分析市场购物篮( m a r k e tb a s k e td a t a ) 中的大量 项目集( i t e m s e t s ) 的关联程度,因此也被称为市场购物篮分析 1 9 1 ( m a r k e tb a s k e ta n a l y s i s ) 。 关联规则通常以x 专】,的形式表达 1 6 , 2 0 】,其中x 及j ,分别表示数据 库中两个不同的数据项目组,且xny = 矽。关联规则的基本定义为给 定数据库的所有数据项目集合i = a ,b ,c ,d ,e , ,设最小支持值 ( m i n s u p p o r t ) 和最小信赖值( m i n c o n f i d e n c e ) ,找出的关联规则 x 哼】,必须满足以下条件【2 1 】: 1 x 和】,都属于,且xny = 。 2 s u pp o r t ( x 一】,) = n ( x r ) n m i n _ s u pp o r t 。 3 c o n f i d e n c e ( xjy ) = n ( x y ) n ( x ) r r f i n _ c o n f i d e n c e 。 其中: 表示数据项集合的元素个数: 算子“a 表示“合取 运算; ,z ( x ) 表示满足条件x 的数量。 关联规则的产生可以借助两个参数来判定其是否有意义:支持值 ( s u p p o r t ) 和信赖值( c o n f i d e n c e ) ;支持值定义项目在数据库中所 出现的比例,对于关联规则x 专y 来说,其支持值为既满足x 又满足】, 的项目数与数据库总项目数的比值;而信赖值定义此关联规则的可信 程度,对于关联规则x 专】,来说,其信赖值为既满足x 又满足】,的项 目数与只满足x 的项目数的比值。二者均由用户给出1 2 2 1 。一般说来, 有效的关联规则的支持值和信赖值都必须在一定程度之上,也就是说, 关联规则的支持值和信赖值必须分别大于或等于用户锁定的最小值, 否则,该关联不具任何意义。 以学生选课的例子来做说明。按照学生每学期选修的科目,透过 关联规则分析出学生在选课时的倾向性,因此学校便可知道学生知识 结构的组成。举例来说,某教学管理数据库的部分学生部分选课情况 资料如表3 1 所示。 1 4 山东大学硕士学位论文 编号选修科目 1 0数据结构、c 语言 2 0 网络安全、v b 、操作系统 3 0数据结构、v b 数据结构、c 语言、系统 4 0 结构 表3 1 学生选课情况统计表 表3 1 中,数据项目( i t e m ) 有:数据结构、c 语言、网络安全、 v b 、操作系统、系统结构六类科目,共有四项选课数据记录。在对学 生选课行为进行数据挖掘时,希望透过关联规则找出“数据结构与 “c 语言 一起选修的规则,假设最小支持值限制为5 0 ,最小信赖值 限制为6 0 ,则有: s u pp o r t ( 支持值) = p r o b ( 数据结构ac 语言) = ( 数据结构ac 语言) ( 全部选课数据记录) = 2 4 = 0 5 c o n f i d e n c e ( 信赖度) = p r o b ( c 语言i 数据结构) = ( c 语言a 数据结构) ( 数据结构) = 2 3 = 0 6 7 由此得到如下一条关联规则:学生5 0 的选课行为中,会选数据结 构:而当学生选修数据结构后,有6 7 的概率会选c 语言。 根据关联规则的定义,关联规则产生的方式如下。假设有一数据 库d ,包含了刀个学生记录,d = r o ,互,疋,0 ,瓦 ,而每个学生记录 互又包含了最多跏项的成绩数据项目,互= i o ,1 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乡镇招录面试题目及答案
- 文史面试题目大全及答案
- 维护秩序面试题目及答案
- 新解读《GB-T 36671-2018海洋工程船高速轴系设计要求》
- 林州市小学数学试卷
- 龙湖期末数学试卷
- 路桥区中考数学试卷
- 南通特产数学试卷
- 深圳海事面试题目及答案
- 青岛五四五上数学试卷
- 智研咨询发布:2025年中国脑机接口行业市场现状、发展概况、未来前景分析报告
- 2025年上半年广西北海市随军家属定向安置招考25人重点基础提升(共500题)附带答案详解-1
- 2025年标准房产中介服务合同范例
- 记背手册02:北京高考古诗文背诵与默写篇目(打印版)-备战2025年高考语文一轮复习考点帮(北京专用)
- 2025年中医推拿人员劳动合同范文
- 2025年人力资源咨询服务合作协议书模板
- 医院感染知识岗前培训
- 《钳工基础培训》课件
- 高标准农田建设项目验收技术方案
- 《如何应对焦虑》课件
- 山东省《建筑施工现场安全管理资料规程》(DB375063-2016)
评论
0/150
提交评论