




已阅读5页,还剩57页未读, 继续免费阅读
(通信与信息系统专业论文)信息挖掘在教学管理系统中的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中南大学研究生论文摘要 摘要 目前,结合数据挖掘与网络教学管理系统研究已经成为一种趋 势,一方面,网络教学管理系统作为大学数字化校园的一个重要建设 部分,经过多年运行,已经积累了大量数据,却没有得到充分的挖掘 和利用。另一方面,数据挖掘在金融、保险、商业等领域已获得了较 为广泛的应用,但是在对教育信息的挖掘与知识发现方面研究和应用 甚少。为了从海量的数据中提取有用的知识,更好地为学校的教学、 科研和管理工作服务,本文结合数据挖掘与教学管理系统进行研究, 提出了若干研究方案和解决方法,设计和实现了两个子模块,并对结 果进行了分析。 本文介绍了数据挖掘的研究现状、内容、发展技术及应用前景, 根据系统的总体目标和项目需求,提出了基于s q ls e r v e r 构建数据 挖掘解决方案,包括基于分析服务器的数据挖掘方法和基于s q l s e r v e r 外挂d m 算法的数据挖掘方法。方案对系统的功能模块设计, 系统功能架构,软件设计,数据库设计和网络拓扑结构进行了详细的 说明。“选课推荐”子模块采用加权关联规则算法,提出了用户兴趣 度的度量方法,实现了选课推荐功能。“教学评估”子模块运用模糊 集理论,设计和实现了教学评估功能。本文对工作进行了总结,分析 了系统存在的问题及需进一步研究的工作,并阐述了今后的研究方 向。 关键词信息挖掘,选课推荐,加权关联规则,教学评估,模糊集 中南大学研究生论文 a b s t r a c t a b s t r a c t s o f a r , t h er e s e a r c h o fd a t a m i n i n ga n d n e t w o r k t e a c h i n g a d m i n i s t r a t i o ns y s t e mi sb e c o m i n gat e n d e n c y o no n eh a n d ,a sa n i m p o r t a n tp a r to fd i g i t a lc a m p u s ,n e t w o r kt e a c h i n ga d m i n i s t r a t i o n s y s t e mh a sa c c u m u l a t eal o to fd a t aa f t e rm a n yy e a r s t h e s ea r e n tu s e d f u l l y o na n o t h e rh a n d ,d a t am i n i n gh a sg o taw i d e s p r e a du s i n gi nf i n a n c e , i n s u r a n c ea n dt r a d e b u ti n s u 伍c i e n ti ne d u c a t i o ni n f o r m a t i o na n d k n o w l e d g ed i s c o v e r y t o w i t h d r a wu s e f u li n f o r m a t i o nf r o m m a g n a n i m o u sd a t a ,a n d t h e ns e r v e rf o r t e a c h i n g ,r e s e a r c h a n d a d m i n i s t r a t i o nb e t t e r , t h i sa r t i c l ep r o p o s e sc e r t a i ns o l u t i o n sc o m b i n i n g w i t hd a t am i n i n ga n dt e a c h i n ga d m i n i s t r a t i o ns y s t e m t w os u b m o d u l e s a l ed e s i g n e da n dr e a l i z e da n dt h er e s u l t sh a v eb e e na n a l y z e d t h i sa r t i c l ep r o p o s e st h em a i nr e s e a r c hc o n t e n t d e v e l o p m e n ta n d t e c h n i q u eo fd a t am i n i n g a c c o r d i n gt ot h et o t a lg o a la n dp r o j e c t r e q u i r e m e n t ,as o l u t i o no fd a t am i n i n gb a s e do ns q ls e r v e ri sp r e s e n t e d , i n c l u d i n gt h ed a t am i n i n gm e t h o db a s e do na n l y s i ss e r v e ra n dt h ed a t a m i n i n gm e t h o dw i t hd ma l g o r i t h mb a s e do ns q l s e r v e r t h ef u n c t i o n a l m o d u l ed e s i g n ,s y s t e mf u n c t i o ni n f r a s t r u c t u r e ,s o f t w a r ed e s i g n ,d a t a b a s e d e s i g na n dn e t w o r kc o n s t r u c t i o na r ef u l l yi l l u s t r a t e d t h e “c h o o s i n g c o u r s e sr e c o m m e n d ”s u bm o d u l ea d o p t sw e i g h t e da s s o c i a t i o nr u l e s ,a n d t h e np r o p o s e sam e a s u r em e t h o dt oa c h i e v et h ef u n c t i o no fc h o o s i n g c o u r s e s t h e “t e a c h i n ge v a l u a t i o n s u bm o d u l ea d o p t st h ef u z z yt h e o r y , i n t r o d u c e st h ed e s i g n i n ga n da c h i e v i n gp r o c e s so ft e a c h i n ge v a l u a t i o n f i n a l l y , s u m m a r i z e sh a db e e np r o p o s e s ,p r o b l e m sh a v eb e e na n a l y z e d t h i sr e s e a r c hs t i l 】h a sal o to f w o r kt od oi nf u t u r e k e yw o r d si n f o r m a t i o n m i n i n g ,c h o o s i n gc o u r s e s ,w e i g h t e d a s s o c i a t i o nr u l e s ,t e a c h i n ge v a l u a t i o n ,f u z z ys e t s 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:圣查整日期:兰丝z 年兰月上日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名:监导师签邈叠昌期:丑年土月上日作者签名:至堕整导师签名堕叠j 当期:丑年土月上日 中南大学硕士学位论文第一章绪论 1 1 课题来源及应用背景 第一章绪论 本课题来源于“中南大学网络教学管理系统”,主要是为了适应学分制教学 管理要求、改革教学管理手段、规范教学管理程序、提高管理效益而开发的基于 互联网络的信息管理系统。用于提高我校教学管理的效率,加快我校在教学管理 方面的信息化建设的步伐。 我校9 0 年代初开始抓计算机教学管理,先后自行开发了教学评估管理系统、 学籍管理系统、教学计划和任务管理系统、排课系统等7 个单机管理系统。在此 基础上,1 9 9 8 年3 月教务处又开始着手网络管理系统的建设,经过一年多的努 力,于1 9 9 9 年8 月在教务处建立了n t 局域网连接各科室和5 栋教学楼,并与校 园网相连。设计完成了基于w e b 的教学管理系统。 随着高校体制改革,中南工业大学、湖南医科大学、长沙铁道学院三校合并 后新成立的中南大学迫切需要建立在新体制下具有学校特色的教学管理模式,以 适应形势的发展。我们以原来开发的系统为参考模型,从2 0 0 2 年开始重新设计 教学管理网络系统软件,采用最新的信息技术和软件开发工具重新开发了基于校 园网的教学管理网络系统。新开发出来的系统功能更加全面( 如新增教学计划、 教学任务、教师信息管理等功能模块) ,运行稳定,安全可靠,应用效果好,能 满足学分制教学管理需要,有效地整合了三校的教学资源,真正达到强强联合的 目的。中南大学网络教学管理系统的功能模块划分如下: 系 统 管 理 基 太 信 息 管 理 学 籍 管 理 成 绩 管 理 教 学 计 划 与 任 务 图1 - 1 教务模块功能划分 课 程 管 理 实 践 信 息 管 理 教学 质量 评估 与工 作量 统计 照 片 采 集 系 统 中南大学硕士学位论文第一章绪论 经过几年的使用,教学管理系统已经积累了大量的数据,这些数据无异于一 个巨大的宝库,迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏, 使其成为有用的知识,指导教学管理决策,更好发挥教学管理系统的作用。 数据挖掘( d a t am i n i n g ) 旨在从大量的、不完全的、有噪声的、模糊的、随 机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识。任务主要包括关联分析、聚类分析、分类、预测、时序模式和偏差分析等 等。目前,数据挖掘主要应用于商业尤其是电子商务,而对其在高等教育领域的 研究和应用在国内尚不多见。 本文基于现有的一些数据挖掘技术,提出了教学管理系统数据挖掘解决方 案,可以从纷繁复杂的数据中挖掘所需信息,满足教学管理系统的需要。 1 2 国内外研究动态 从数据库中发现知识( k o d ) 一词首次出现在1 9 8 9 年举行的第十一届国际联 合人工智能学术会议上。之后,研究重点逐渐从发现方法转向系统应用,注重多 种发现策略和技术的集成,以及多种学科之间的相互渗透。在美国国家科学基金 会( n s f ) 的数据库研究项目中,k d d 被列为9 0 年代最有价值的研究项目。人工智 能研究领域的科学家也普遍认为,下一个人工智能应用的重要课题之一,将是以 机器学习算法为主要工具的大规模的数据库知识发现。尽管数据挖掘还是一个很 新的研究课题,但它所固有的为企业创造巨大经济效益的潜力,已使其很快有了 许多成功的应用,具有代表性的应用领域有市场预测、投资、制造业、银行、通 讯等。 美国钢铁公司和神户钢铁公司利用基于数据挖掘技术的i s p a 系统,研究分 析产品性能规律和进行质量控制,取得了显著效果。通用电器公司( g e ) 与法国飞 机发动机制造公司( s n e c m a ) ,利用数据挖掘技术研制了c a s s i o p e e 质量控制系 统,被三家欧洲航空公司用于诊断和预测渡音7 3 7 的故障,带来了可观的经济效 益。该系统于1 9 9 6 年获欧洲一等创造性应用奖。 享有盛誉的市场研究公司,如美国的a c 一n i e l s o n 和i n f o r m a t i o n r e s o u r c e s ,欧洲的g f k 和i n f r a t e s tb u r k 等纷纷开始使用数据挖掘工具来应 付迅速增长的销售和市场信息数据。商家的激烈竞争导致了市场快速饱和,产品 的迅速更新,使得经营者对市场信息的需求格外强烈利用数据挖掘技术所形成的 市场预测能力和服务,使这些市场研究公司取得了巨大收益。 英国广播公司( b b c ) 也应用数据挖掘技术来预测电视收视率,以便合理安排 电视节目时刻表。信用卡公司a l l l e l i c a l lk x t r e s s 自采用数据挖掘技术后,信 用卡使用率增加了1 0 一1 5 。a t & t 公司赁借数据挖掘技术技术侦探国际电 2 中南大学硕士学位论文第一章绪论 话欺诈行为,可以尽快发现国际电话使用中的不正常现象。 与国外相比,国内对d m k d 的研究稍晚,没有形成整体力量。1 9 9 3 年国家自 然科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和高等院校 竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计 算技术研究所、空军第三研究所、海军装备论证中心等。中国的公安部门正在研 究利用k d d 技术总结各类案件的共性和发生规律,从而在宏观上制定最有效的社 会治安综合治理的方案和措施;在微观上指出犯罪人的特点,划定罪犯的范围, 为侦破工作提供方向。 最近,g a r t n e rg r o u p 的一次高级技术调查将数据挖掘和人工智能列为“未 来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理 体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据最近 g a r t n e r 的h p c 研究表明,“随着数据捕获、传输和存储技术的快速发展,大型 系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行 处理系统来创建新的商业增长点。”就目前来看,将来的几个热点包括网站的 数据挖掘( w e bs i t ed a t a m i n i n g ) 、生物信息或基因( b i o i n f o r m a t i c s g e n o m i c s ) 的数据挖掘及其文本的数据挖掘( t e x t u a lm i n i n g ) 。 目前还有许多开发者在开发通用可靠的工具集,可以预见,新的应用工具 将随着新的挖掘技术的出现而不断地产生。 1 3 课题的研究内容及意义 我国校园网的建设与发展为学校的现代化管理、教学资源的整合利用、教育 信息的收集存储打下了良好的硬件基础。在日常的教学、科研和管理工作中,学 校积累了大量的事务型教学数据,如何合理有效地利用现有的教学信息,更好地 为学校的教学、科研和管理工作服务,是现在乃至今后研究的重要课题。为了从 海量的数据中提取有用的知识,克服“数据爆炸,知识贫乏”的窘迫局面,2 0 世纪9 0 年代发展起来了数据挖掘技术。目前,数据挖掘在金融、保险、商业等 领域已获得了较为广泛的应用,但是在对教育信息的挖掘与知识发现方面研究和 应用甚少。 为解决这个问题,本课题通过对教育信息数据的挖掘来发现学校教学效果与 教学环境各要素之间的相互作用、相互影响关系,以及学生的学习状况与学生自 身因素的关系,依此来指导学校管理人员、教师和学生的教学实践,为学校的教 学管理提供更多的科学依据。随着我国教育事业的发展,教育信息的积累越来越 多,如学生的档案信息、学籍信息、选课信息、教材信息、成绩信息,就业信息、 教师信息等,这些信息均以关系数据库的形式存储在相应的表或数据库中,通过 3 中南大学硕士学位论文第一章绪论 数据库接口可以对这些数据库进行访问和调用,在校园网中实现教育信息的查 询、检索、共享以及分析处理。 数据挖掘在高校教育教学中的主要应用有”: 1 特征挖掘 根据学生的基本信息,学习成绩,选课记录,知识结构等已有信息挖掘特征, 帮助学生修正自己的学习行为,提高学习能力,完善人格,有利于学生各方面素 质的和谐发展。 2 干预师生行为 学校教学管理数据库中记录着各届学生与教师的学习,工作,社会活动及奖 励,处罚等情况。利用数据挖掘的关联分析各种行为活动之间的内在联系。如 “当存在a 行为时可以推出将发生b 行为”这样的规则。即当有a 行为发生时还会 有b 行为。在实际情境中如果发现a 行为发生时马上可以分析其产生b 行为的可能 性”,从而及时制定策略促进或制止b 行为的发生。 3 合理设置课程 在校学生的课程学习是循序渐进的,而且课程之间有一定的关联与前后顺序 系。在学习一门较高级课程之前必须先修一些先行课程。如果先行课程没有学 好,势必会影响后续课程的学习。同一年级学习同一课程的不同班级由于授课教 师和班级的差异导致班内学生的总体成绩相差有时会很大。利用学校教学数据库 中存放的历届学生各门学科的考试成绩结合数据挖掘的关联分析与时间序列分 析等相关功能就能从这些海量数据中挖掘出有用的信息。帮助分析这些数据之间 的相关性和回归性等性质可以得出一些具有价值的规则和信息,最终找到影响学 生成绩的原因。在此基础上对课程设置做出合理安排。 4 学习评价 学习评价是教育工作者的重要职责之一。评定学生的学习行为既对学生起 到信息反馈和激发学习动机的作用,又是检查课程计划,教学程序以及教学目的 的手段,也是考查学生个别差异,便于因材旌教。评价内容要全面,评价方式要 多元化,评价次数要多次化。+ 利用数据挖掘工具对学生的学习成绩数据库进行分析处理,可以即时得到 学生的评价结果,对学生出现的不良学习行为进行及时指正。另外还能够克服教 师主观评价的不公正,不客观的弱点,减轻教师的工作量。 5 课堂教学评价 课堂教学评价不仅对教学起着调节,控制,指导和推动作用,而且有很强 的导向性,是学校教学管理重要的组成部分,是评价教学工作成绩的主要手段。 学校每学期都要搞课堂教学评价调查,积累了大量的数据。利用数据挖掘技术从 4 中南大学硕士学位论文第一章绪论 教学评价数据中进行数据挖掘,探讨教学效果的好坏与教师的年龄,职称之间的 联系,课堂教学效果与教师整体素质的关系,从而合理配置班级的上课教师,使 学生能够较好的保持良好的学习态度,为教学部门提供了决策支持信息,促使更 好地开展教学工作,提高教学质量。 6 招生就业管理 在招生方面利用数据挖掘技术通过对学生的高考成绩,个人资料,在校成 绩等信息进行分析,建立科学,高效的校园招生管理系统,不仅能够提高生源素 质,缩短工作流程,同时能够为招生计划的拟订提供科学的依据,为整个招生工 作提供决策支持。在就业方面,利用数据挖掘技术,分析毕业生的就业情况和 他们的毕业学校,所学专业,学历,学制,学生性别,是否党员,生源地等有着 什么关联,这对学生就业指导部门的工作提供了有益的参考,而且可以指导科学 合理的人才培养方案的制定,提高大学生的竞争实力。 7 系科办学评估体系的研究 系科办学评估体系是用来衡量系科办学能力,学术水平,发展潜力等的标 准。办学评估值是人们对每个学科的量化评价,影响到学校的政策,投资的倾向。 近年来在全国大多数高校都陆续实行岗位设置和人员聘任办法。但针对系科,学 校给予岗位的数量在很大程度上取决于系科办学评估值,把评估值作为全面衡量 系科的一个指标。系科办学评估体系是高校管理工作者根据多年的管理经验并征 求各系科意见的基础上制定出来的,它的合理性也同样取决于经验。由于多方面 的原因很少有人用科学的方法评价过它的合理性,而它的不合理会影响人事改革 的进一步深入。利用数据挖掘技术中的关联规则就系科办学评估体系中权重设置 的合理性问题进行分析,并建立合理性评价系统。 8 个性化智能化校园网络建设 使用数据挖掘技术在数据中发现潜在的,有用的模式或信息。这也是目前 数据挖掘研究的热点。数据挖掘利用数据挖掘技术来指导校园网建设,可以解决 这样一些问题。 9 个性化挖掘 针对用户的使用记录对用户进行建模,结合该用户的基本信息分析使用习 惯和个人爱好,目的是在网络环境下为用户提供与众不同的个性化服务。 1 0 站点修改 站点的结构和内容是吸引用户的关键。用法挖掘通过挖掘用户的行为记录 和反馈情况为站点设计者提供改进的依据,比如页面连接情况应如何组织,哪些 页面可以直接访问等等。 1 1 系统改进 5 中南大学硕士学位论文第一章绪论 校园网的性能和服务质量是衡量用户满意度的关键指标,用数据挖掘可以 通过用户的拥塞记录发现站点的性能瓶颈以提示站点管理者改进缓存策略,网络 传输策略,流量负载平街机制和数据的分配策略。 1 2 试卷分析 每个学校都储存有大量的试卷,这些试卷含有大量丰富的信息,将其做为挖 掘的数据源,分析学生易错的地方以及错题之间的联系,更好地了解学生对知识 的掌握情况,发现学生在学习过程中的知识薄弱之处,指导老师进行针对性的授 课。此外,对试卷的挖掘还可以检验试卷的质量。如果试卷中有很多试题具有关 联规则,则说明该试题的区分度不够,不能正确考察学生的知识掌握程度。 1 4 论文的内容安排和组织结构 论文分为六章。 第一章绪论。首先介绍了网络教学管理系统的课题来源、应用背景,然后 介绍了数据挖掘技术和教学管理系统的研究现状,最后说明了本文的研究内容及 其意义。 第二章数据挖掘技术研究。首先概述了数据挖掘的定义,功能和流程。然 后介绍常要技术和工具;最后介绍数据挖掘技术的应用范围和应用前景。 第三章教学管理决策支持系统解决方案。首先阐述了系统的总体目标和项 目需求;接着提出了系统的网络拓扑结构,讨论了系统的软件设计技术,最后根 据学校教学管理系统的实际情况提出系统功能架构。 第四章加权关联规则在网络教学管理系统中的研究。首先介绍加权关联规 则的原理及挖掘步骤,给出算法定义和描述,提出了用户兴趣度的概念,结合教 学管理系统挖掘所需信息。 第五章模糊数据挖掘在教学评估子模块中的研究。首先介绍模糊集理论的 概念,然后结合中南大学教学管理系统提出教师教学质量评估体系,通过评估流 程得到评估结果,并对结果进行验证和分析。 第六章回顾和展望。总结本文所完成的工作,并提出了进一步研究方向和 研究问题 6 中南大学硕士学位论文第二章数据挖掘技术综述 第二章数据挖掘技术综述 早在1 9 8 2 年,趋势大师j o h nn a i s b i t t 在他首部作品( m e g a t r e n d s 中就 提到“1 :“人类正被信息淹没,却饥渴于知识”。激增的数据背后隐藏着许多重要 的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目 前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数 据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。数据挖掘做 为一种技术,它的生命周期正处于沟坎阶段,需要时间和精力去研究,开发和逐 步成熟,并最终被人们所接受“。 2 1 数据挖掘的基本概念 2 1 1 数据挖掘的定义 数据挖掘( d a t a m i n i n g ) ,曾经叫作“打捞”( d r e d g i n g ) ,“探查”( s n o o p i n g ) , 和“垂钓”( f i s h i n g ) 。相当一部分人把数据挖掘视为另一个常用的术语数据库 中的知识发现或k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) l 3 j 。简单的说,数据 挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的实 际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息 和知识的过程。数据挖掘的对象必须是真实的、大量的、含噪声的;发现的是用 户感兴趣的知识;发现的知识要可接受、可理解、可运用;数据挖掘技术涉及数 据库,人工智能,神经网络,预测理论,机器学习和统计学等多种相关技术。 2 1 2 数据挖掘与数据仓库 近年来,随着数据库技术的应用和发展,人们尝试对数据库中的数据进行再 加工,形成一个综合的,面向分析的环坡,以更好支持决策分析,因此形成了数 据仓库技术( d a t a w a r e h o u s i n g ,简称d w ) 。数据仓库弥补了原有的数据库的缺点, 将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。从而 实现了操作型处理和分析型处理的分离,划清了数据处理的分析型环境( 体系化 环境) 与操作型环境之间的界限。 自从数据仓库概念出现以来,不同的学者从不同的角度为数据仓库下了不同 的定义。现在,业内普遍认同的数据仓库的定义是wh i n m o n 博士于2 0 世纪9 0 年代初给出的“1 ,“数据仓库:通常是一个面向主题的、集成的、随时间变化的、 7 中南大学硕士学位论文 第二章数据挖掘技术综述 但信息本身相对稳定的数据集合,用于对管理决策过程的支持”。w h i n m o n 认 为,数据仓库是2 0 世纪9 0 年代信息技术体系结构中的一个重要组成部分,是数据 库产业发展的重点,数据仓库的数据随时间不断变化m 1 。 一般的数据仓库系统通常由数据仓库,仓库管理和分析工具三个部分组成。 其结构形式如图: l 。数据库i e u 数据仓库 数据仓库i 、i 用户壹 i 管理工具管理工具 l i 询工具 i 抽取,转接,清 数据仓库教据仓库 洗 c ,s 工具 管理工具 营翌工具 l 敲据文件参 r -一 黟 r - - 莎 ui 一 教据仓库数据仓库 元教据管理 o l a p 工更 管理工具管理工异 l 外部数据l 亡 数据建教据仓库 教据仓库 教据挖工具 模工具管理工具 管理工具 :塑鍪塑: 笪里塑坌 - : 墼堡垒鏖查熊墅坌:塾塑墨墨至竺: ill i 数据挖掘系统i i l 。一 il 图2 - 1 数据仓库结构体系 2 1 3 数据挖掘与在线分析处理( o l a p ) o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ,在线分析处理) 是一种数据处理技术, 它的更简单明确的定义是共享多维信息的快速分析。o l a p 通过对多维信息以多种 观察方式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深 入的观察”。,其主要特点有以下5 个方面: ( 1 ) 快速性。用户对o l a p 的快速反应能力有很高的要求。大部分的查询结果 必须在5 s 以内呈现给用户,并且这些查询往往是随机查询。 ( 2 ) 可分析性。o l a p 应用要能执行基本的数学和统计分析,这些计算由应用的 开发者预先定义,或由最终用户以特定查询的形式定义。 ( 3 ) 共享性。o l a p 应用得出的数据要能被共享。目前,o l a p 应用正朝着基于w e b 的0 l a p 发展,它使得o l a p 能在i n t e r n e t 上产生报告。 ( 4 ) 多维性。多维性是o l a p 的关键属性。必须提供对数据分析的多维视图和 8 中南大学硕士学位论文 第二章数据挖掘技术综述 分析。事实上,多维分析是分析企业数据的最有效的方法,是o l a p 的灵魂。 ( 5 ) 信息性。不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时 获得信息,并且管理大容量信息。 2 2 数据挖掘的研究内容 目前数据挖掘的主要内容有泛化知识( g e n e r a l i z a t i o n ) ,关联知识 ( a s s o c i a t i o n ) ,分类知识( c l a s s i f i c a t i o n & c l u s t e r i n g ) ,预测型知识( p r e d i c t i o n ) 和偏 差型知识( d e v i a t i o n ) 。 1 泛化知识 泛化知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征 的、带有普遍性的、较高层次概念的知识,反映同类事物共同性质,是对数据的 概括、精炼和抽象。 泛化知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。 数据立方体的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如 计数、求和、平均、最大值等,并将这些实现视图储存在多维数据库中。面向属 性的归约方法的基本思想是收集数据库中的相关数据集,然后在相关数据集上应 用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控 制、计数及其他聚集函数传播等。 2 关联知识 关联知识反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项 属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最 为著名的关联规则发现方法是r a g r a w a l 提出的a p r i o r i 算法。 关联规则的发现分为两步:首先通过迭代识别所有的频繁项目集,且要求频 繁项目集的支持率不低于用户设定的最低值;然后从频繁项目集中构造可信度不 低于用户设定的最低值的规则。 3 分类知识 分类知识反映同类事物共同性质的特征型知识和不同事物之间的差异型特 征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决 策树,是一种有指导的学习方法。 数据分类还有统计、粗糙集( r o u g hs e t ) 啪1 等方法。线性回归和线性辨别 分析属于典型的统计模型。 4 预测型知识 9 中南火学硕士学位论文 第二章数据挖掘技术综述 预测( p r e d i c t i o n ) 是构造和使用模型评估无标号样本类,或评估给定的样 本可能具有的属性或区间值。 预测型知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数 据,也可以认为是以时间为关键属性的关联知识。预测的目的是从历史数据中自 动推导出对给定数据的推广描述,从而能对未来数据进行预测。在这种观点下, 分类和回归是两类主要预测问题。其中分类是预测离散或标称值,而回归用于预 测连续或有序值。一般认为:用预测法预测类标号为分类,用预测法预测连续值 为预测。连续值的预测一般用回归统计技术建模。回归方法包括:线性回归、多 元回归”、非线性回归和其他回归方法等。 5 偏差型知识 偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如 标准类外的特例,数据聚类外的离群值等。偏差即异常,在数据挖掘中也有称其 为“孤立点”之说。孤立点探测和分析是数据挖掘中的一个很特殊的任务,被称 为孤立点挖掘”。 2 3 数据挖掘过程 整个数据挖掘的主要步骤有”: 1 数据预处理 原有的业务数据往往具有复杂性,重复性,不完整性,因此一个完整的数据 挖掘系统必须包含数据预处理部分嗍。对数据进行预处理,一般需要对源数据进 行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行平滑,对 丢失的数据进行填补,消除“脏”数据,消除重复记录等。常见的数据预处理方 法有:数据清理、数据集成、数据变换和数据归约“”。 2 数据清洗( d a t ac l e a r n i n g ) 目前的现存管理系统中的数据存在很多的问题,容易造成脏数据,主要原因 如下:滥用缩写词、惯用语、数据输入错误、数据中的内嵌控制信息、重复记录、 丢失值、拼写变化、不同的计量单位和过时的编码等。 这些脏数据可能带来如操作费用昂贵、决策制定失败甚至于错误、组织和下 属的不信任、分散管理的注意力等等,因此针对脏数据的有效处理是进行辅助决 策的必要步骤。数据清理旨在清除或减少数据噪声和处理空缺值。数据清洗处理 可以有效的清除脏数据、保证数据的质量“”。 3 数据集成( d a t ai n t e g r a t i o n ) 应用领域的分析数据通常来自多个数据源,所以必须进行数据集成。来自 1 0 中南大学硕士学位论文第二章数据挖掘技术综述 不同源的数据可能有模式定义上的差异,也可能存在因数据冗余而无法确定有效 数据的情形。此外,还要考虑数据库系统本身可能存在不兼容的情况,如在微软 的a c c e s s 中对于s t r i n g 类型的数据区分大小写,可是将数据导入s q ls e r v e r 时则会出现数据重复的异常,原因就在于后者对于s t r i n g 类型的数据不区分大 小写。 4 数据转换( d a t at r a n s f o r m a t i o n ) 数据变换主要是找到数据的特征表示,减少有效变量的数据或找到数据的 不变式,将数据转换为适合挖掘的形式“,可以根据需要构造出新的属性以帮 助理解分析数据的特点,或者将数据规范化,使之落在一个特定的数据区间中 f 1 0 o 5 数据归约 数据归约则是在尽可能保证数据完整性的基础上,将数据以其他方式进行 表示,以减少数据存储空间,使挖掘过程更有效。常用的归约策略有:数据立方 体聚集、维归约、数据压缩、数值压缩和离散化等。 数据挖掘( d a t a m i n i n g ) ,它是知识挖掘的一个基本步骤,其作用就使利用 智能方法挖掘数据模式或规律知识; 模式评估( p a t t e r ne n a l u a i o n ) ,其作用是根据一定评估标准( i n t e r e s t i n g m e a s u r e s ) 从挖掘结果中筛选出有意义的模式知识; 知识表示( k n o w l e d g ep r e s e n t a t i o n ) ,其作用就使利用可视化和知识表达 技术,向用户展示所挖掘出的相关知识。 囹2 - 2 数据挖掘过程 1 1 中南大学硕士学位论文第二章数据挖掘技术综述 2 4 数据挖掘的常用技术 数据挖掘有多种技术,针对不同的应用问题可以采用不同的数据挖掘方法 2 4 1 人工神经网络 神经网络是由大量处理单元互联组成的非线性,自适应信息处理的系统。它 在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记 忆信息的方式进行信息处理。人工神经网络模型主要考虑网络连接的拓扑结构、 神经元的特征、学习规则等。目前,已有近4 0 种神经网络模型,其中有反传网 络删、感知器“、自组织映射h ”、h o p f i e l d 网络“、波耳兹曼机、适应谐振理 论“。”3 等。标准的神经元网络模型如下图所示: 2 4 2 决策树 玉 乇 输入层 隐层 图2 - 3 标准的神经元网络模型 h 儿 决策树学习方法是解决实际应用中分类问题的数据挖掘方法之一,能够从 无次序、无规则的事例中推理出决策树表达形式的分类规则。决策树学习的一个 最大优点就是学习过程中不需要操作人员了解很多背景知识,只要训练事例能 够用“属性结论”式的方式表达出来,就能使用该算法来学习。用树枝状展现训 练集中资料受各变量的影响情形之预测模型,根据对目标变量产生之效用的不同 而建构分类的规则,在问题维数高的领域可以得到很好的分类结果。常用的方法 有c a r t ( c l a s s i f i c a t i o n a n dr e g r e s s i o nt r e e s ) 及c h a i d ( c h i 2 s q u a r e a u t o m a t i ci n t e r a c t i o nd e t e c t o r ) 。目前国内外已有学者利用决策树学习方 法获取知识并用于空间分析与研究过程“。 1 2 中南大学硕士学位论文第二章数据挖掘技术综述 2 4 3 遗传算法 遗传算法最先由j o h nh o l l a n d 于1 9 7 5 年提出【j “,是模拟达尔文的自然选择学 说和自然界的生物进化过程的一种计算模型。它是一种借鉴生物界自然选择和进 化机制发展起来的高度并行、随机、自适应搜索算法。它使用群体搜索技术,将 种群代表一组问题解,通过对当前种群施加选择、交叉和变异等一系列遗传操作, 从而产生新一代的种群,并逐步使种群进化到包含近似最优解的状态m j 。遗传算 法的操作对象是一群二进制串( 称为染色体、个体) ,即种群。这里每一个染色体 都对应问题的一个解。从初始种群出发,采用基于适应值比例的选择策略在当前 种群中选择个体,使用杂交和变异来产生下一代种群。如此模仿生命的进化一代 代演化下去,直到满足期望的终止条件为止。 2 4 4 近邻算法 这个算法首先贮藏所有的训练样本,然后通过分析( 包括选举,计算加权和 等方式) 一个新样本周围k 个最近邻以给出该样本的相应值。这种方法有时候 被称作“基于样本的学习”。 2 4 5 规则推导 分类器采用规则形式表达,和其它表示方法相比,具有易理解性。采用规则 表示的分类器的构造方法有好几种:( 1 ) 利用规则归纳技术直接生成规则,如 a q l 5 和c n 2 算法;( 2 ) 利用决策树方法先生成决策树,然后再把决策树转换位 规则,如c 4 5 算法;( 3 ) 使用粗糙集方法生成规则,如l e r s ;( 4 ) 使用遗传算 法中的分类技术生成规则。 2 4 6 模糊集方法 模糊集方法利用模糊集理论对实际问题进行模糊评判、模糊决策、模糊模式 识别和模糊聚类分析。模糊性是客观存在的。系统的复杂性越高,精确化能力就 越低,即模糊性就越强。这是z a d e h 总结出的互克性原理。 模糊逻辑推理公式一般由前提部分和结论部分组成,而每一部分又可由若 干简单命题组成。对简单命题作进一步分析,人们又可以分解出其中的个体词、 谓词和量词等成分,并通过研究它们之间的形式结构和逻辑关系,总结其正确 的推理形式和规则。按照逻辑的组成层次,模糊逻辑分为模糊命题逻辑和模糊谓 词逻辑。 1 3 中南大学硕士学位论文第二章数据挖掘技术综述 2 5 数据挖掘应用前景 2 5 1 数据挖掘的研究热点 从数据挖掘的研究成果分析来看,当前数据挖掘的研究热点主要有: ( 1 ) 复杂数据源和数据类型的处理,包括更大型的数据库、更高的维数和属 性之间的更复杂的关系; ( 2 ) 多种形式的输入数据; ( 3 ) 用户参与和领域知识; ( 4 ) 验证技术; ( 5 ) 知识的表达和解释机制; ( 6 ) 知识的维护和更新: ( 7 ) 数据挖掘算法的有效性、伸缩性与可测性: ( 8 ) 与其他系统的集成“”。 2 5 2 数据挖掘的主要发展趋势 通过对已有文献分析,数据挖掘将呈以下发展趋势: ( 1 ) 应用领域的探索和扩张; ( 2 ) 数据挖掘系统的交互性: ( 3 ) 隐私保护与信息安全; ( 4 ) w e b 挖掘”: ( 5 ) 数据挖掘语言的标准化; ( 6 ) 可视化数据挖掘; ( 7 ) 不同领域的理论、技术的融合; ( 8 ) 模型查询与优化的方法; ( 9 ) 多数据类型、容噪的、递增性的挖掘方法; ( 1 0 ) 专家参与和领域知识的指导p o j 。 1 4 中南大学硕士学位论文第三章教学管理决策支持系统解决方案 第三章基于s q ls e r v e r 构建信息挖掘解决方案 3 1 系统的总体目标和项目需求 基于d m 的教学管理系统的总体目标是:以教学管理系统及其他业务系统的数 据库做为数据源,辅之以生源库、考试库等与业务相关的外部数据,建立统一的 基于数据仓库的教学管理决策支持系统,实现业务数据的综合集中化管理;以教 学管理系统为平台,为各级人员提供管理报表、信息查询和数据分析服务,并采 用或开发特定的工具为各院系领导、学校管理人员提供信息决策支持。基于数据 仓库的教学管理决策支持系统应当满足以下需求: 1 能实现数据自动化收集、集中化管理 能够对原始数据( 数据源) 按条件自动收集、存储、应用和数据管理。该系 统的设计基于w e b 的b s 结构,用户要能根据其权限不同进行相应的操作,才可以 保证整个系统的安全。 2 数据输入人机界面友好 系统能提供灵活方便的数据录入方法,新增的数据可通过友好的人机晃面 输入到管理分析数据库中。部分数据通过手工录入。 3 灵活的动态报表功能 报表是财政业务活动中不可缺少的辅助工具,系统应能够根据用户要求以 及报表要求,灵活快速地生成报表,提高业务人员的工作效率。 4 决策分析功能 决策分析功能分为三类方法,除数据挖掘分析和灵敏度分析,还包括图形 化对比分析。通过对原始的业务报表数据加工整合,对学生信息,教师信息,考 试成绩,选课信息等进行深层次、较详尽的业务分析。 5 具备可扩展性 教学管理中的数据量是非常大的,在建设过程中,要考虑业务的拓展和增 加分析要素,因此,保持数据库的相对独立和冗余,对将来数据仓库的扩展是大 有益处的。 3 2 功能模块设计 教务管理决策支持系统概括为五大功能模块:选课推荐,教学评估,课程 设置,招生就业,试卷分析。系统详细功能图如下所示: 1 5 中南大学硕士学位论文第三章教学管理决策支持系统解决方案 3 2 1 选课推荐 图3 - 1 系统功能图 现有的网络选课系统缺少了人工选课时的老师指导,仅凭课程名称选课,过 于盲目,难以选择到真正满意的课程。选课管理模块通过加权关联规则发现算法 和学生的选课记录计算课程之间的相关度,从而为学生提供选课决策支持,调动 了学习积极性,同时由于引入了兴趣度的概念,为课程设置了课程重要度,保证 学生们在选择自己感兴趣的课程的同时,还考虑了课程重要性。 3 2 2 教学评估 教学评估不仅对教学起着调节、控制、指导和推动作用,而且有很强的导 向性,是学校教学管理重要的组成部分,是评价教学工作成绩的主要手段,还可 以用来衡量系科办学能力,学术水平,发展潜力等标准。已有的评估取决于经验, 没有一个科学的方法对教学水平进行量化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年牡丹江公路工程试验检测师资格考试(公共基础)综合能力测试题及答案
- 无线电设备运维员设备调试考核试卷及答案
- 2025年医院常见面试题目及参考答案
- 2025年教师招聘考试题库及参考答案
- 2025年知识竞赛防汛抗旱知识竞赛考试近5年真题附答案
- 2025年公务员考试模拟题库考试模拟题库及答案
- 2025年6月四级真题及答案
- 创业指导师技能巩固考核试卷及答案
- 2025年档案管理师考试试卷及答案
- 浦江初一英语试卷及答案
- 2025中远海运港口有限公司社会招聘2人笔试历年参考题库附带答案详解
- 2024年无锡工艺职业技术学院公开招聘辅导员笔试题含答案
- 高压氧治疗脑卒中
- 2025年三峡银行考试真题及答案
- 2025年度哈尔滨市平房区纪委监委公开招聘雇员2人考试参考题库及答案解析
- 10KV变电送受电安全作业方案
- 2025年江西省高考化学试卷真题(含答案)
- 海上作业安全培训教学课件
- 2025年ARVR行业研究报告及未来行业发展趋势预测
- 【初中数学】单项式与单项式相乘(课件)+华东师大版(2024)数学八年级上册
- 情绪管理课2025年职场压力释放与心灵成长分析报告
评论
0/150
提交评论