




已阅读5页,还剩52页未读, 继续免费阅读
(教育技术学专业论文)基于数据挖掘的大学生学业预警研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 平均绩点是评价本科生学业表现最重要的标准,但由于平均绩点计算的滞后 性,学生在大四时才能获知自己的平均绩点。一旦平均绩点偏低,会给即将毕业 的学生造成种种不便。 通过对历届学生的成绩分析,可得出学生成绩的普遍发展模式。根据这些模 式建立预测模型后,可根据学生现有课程成绩预测其未来绩点。同时可为学生选 择重修或选课提供建议;也可以帮助专业教师针对不同情况采取不同的策略来引 导学生完成学业。 本文以s 大学教育技术系本科生为研究对象,采集了2 0 0 2 级- 2 0 1 0 级学生 成绩的历史数据,利用m i c r o s o f ts q ls e r v e r 提供的数据挖掘功能,根据历史 数据建立模型,对在读学生进行绩点预测,从而根据学生现在的学业表现预先获 知其毕业时的平均绩点情况,这样学生就可以提前采取措施来避免不达标这种情 况的发生,同时,对于老师而言,针对不同学生的具体情况,也可以采取一些更 有针对性的措施。 为了保证研究能够真实的反映学生成绩的未来表现,并能真正为学生和老师 提供决策支持,提高管理的效度,必须要对这些数据进行更加有目的性的处理。 首先,建立基于学生成绩的数据仓库,包括对学生成绩数据仓库的结构设计,模 型设计及数据的抽取,转化和加载;然后,选择合适的数据挖掘算法,根据历史 学生成绩建立模型,预测在读学生未来的绩点表现;最后,将结果反馈给学生和 老师,使得每个学生能够查询到自己的未来绩点表现,并且由系统给出以后学习 的建议。同时,对于老师而言,可以获得所有学生的数据,对所有学生进行全面 把握,对于一些可以出现问题的学生,及时采取措施,以避免这种情况的出现。 通过该系统使以前的处理问题式的教育方式转变为现在的预防问题的方式,很好 的体现了大学以学生为本的教育理念。 关键词:数据仓库;数据挖掘;学业预警:决策支持 论文类型:应用研究 a b s t r a c t t h eg r a d ep o i n ta v e r a g ei st h em o s ti m p o r t a n tt ot h ee v a l u a t i o no f u n d e r g r a d u a t e a c a d e m i cp e r f o r m a n c es t a n d a r d s ,b u td u et ot h el a go f g r a d ep o i n ta v e r a g ec a l c u l a t i o n , s t u d e n t si n t h es e n i o ry e a r , a r ei n f o r m e do ft h e i rg r a d ep o i n ta v e r a g e o n c et h el o w g r a d ep o i n ta v e r a g e ,i tw i l lc a u s e dg r a d u a t i n gs t u d e n t sa l ls o r t so fi n c o n v e n i e n c e b ya n a l y z i n gt h ep e r f o r m a n c eo fp r e v i o u ss t u d e n t s ,w ec a nd r a wf r o mt h eu n i v e r s a l m o d e lo fd e v e l o p m e n tf o rs t u d e n ta c h i e v e m e n t b a s e do nt h e s ep a t t e r n s ,w ec a nk n o w i t sf u t u r er e s u l t sp o i n t , t o g e t h e r 谢ms t u d e n t s c u r r e n tc o u r s eg r a d e a tt h es a m et i m e i tc a n p r o v i d ea d v i c ef o rs t u d e n t st oc h o o s ew h i c hc o u r s et or e p a i ro re l e c t i v ea n dc a n a l s oh e l pt h ep r o f e s s i o n a lt e a c h e r st ot a k ed i f f e r e n ts t r a t e g i e sf o rd i f f e r e n ts i t u a t i o n st o g u i d et h es t u d e n t st oc o m p l e t et h e i rs t u d i e s i nt h i sp a p e r , t a k i n gs h a n g h a in o r m a lu n i v e r s i t y , d e p a r t m e n to fe d u c a t i o n a l t e c h n o l o g yu n d e r g r a d u a t ea st h es t u d y , w eh a v ec o l l e c t e dt h e2 0 0 2 2 010s e s s i o n , s t u d e n ta c h i e v e m e n th i s t o r i c a ld a t a b yu s i n go fm i c r o s o f ts q ls e r v e rd a t am i n i n g c a p a b i l i t i e s ,w ec a l lo b t a i nt h es t u d e n t sg r a d ep o i n ti na d v a n c e a n ds ow em a ya v o i d n o tf i n i s h i n gt h ea c a d e m i c i no r d e rt oe n s u r et h a tt h er e s e a r c hc a nb eat r u er e f l e c t i o no fs t u d e n ta c h i e v e m e n t o ff u t u r ep e r f o r m a n c ea n dc a n r e a l l yp r o v i d ed e c i s i o ns u p p o r tf o rs t u d e n t sa n d t e a c h e r s w em u s tb em o r ep u r p o s e f u lp r o c e s s i n go ft h e s ed a t at oi m p r o v et h ev a l i d i t y o f m a n a g e m e n t f i r s t ,w es h o u l dc r e a t ead a t aw a r e h o u s eb a s e do ns t u d e n t a c h i e v e m e n t ,i n c l u d i n gt h es t r u c t u r a ld e s i g no fs t u d e n ta c h i e v e m e n td a t aw a r e h o u s e , m o d e ld e s i g na n dd a t ae x t r a c t i o n ,t r a n s f o r m a t i o na n d l o a d i n g ;t h e n ,s e l e c tt h e a p p r o p r i a t ed a t am i n i n ga l g o r i t h m s ;f i n a l l y , p u tt h er e s u l t sb a c kt ot h es t u d e n t sa n d t e a c h e r s ,s ot h a te a c hs t u d e n tc a nb ea b l et oq u e r yt h e i rf u t u r eg r a d ep o i n t p e r f o r m a n c e ,a n dm a k et h ep r o p e rd e c i s i o n f o rt e a c h e r si nt e r m so fd a t aa c c e s st oa l l s t u d e n t s ,t h e yc a nt a k et i m e l ym e a s u r e st op r e v e n tt h i sf r o mh a p p e n i n g t h es t u d y e n a b l e st h ep r o c e s s i n gs t y l eo fe d u c a t i o ni n t ot h ep r e v e n t i o no f p r o b l e m s ,a n di t r e f l e c t e dt h eu n i v e r s i t ys t u d e n t c e n t e r e de d u c a t i o n a lp h i l o s o p h y k e y w o r d s :d a t aw a r e h o u s e ;d a t am i n i n g ;g r a d ep o i n tw a r n i n g ;d e c i s i o ns u p p o r t t y p e :a p p l i c a t i o nr e s e a r c h 图表索引 图索引 图2 1 数据挖掘步骤示意图1 2 图3 1 决策树算法原理1 7 图3 2 聚类分析算法原理1 9 图4 1 学生对平均绩点值的预估情况2 5 图4 2 学生对是否能拿到学位证书的预估情况2 5 图4 3 学生是否选择重修情况2 6 图4 4 数据库总体设计方案2 8 图4 5 事实维度结构。2 9 图4 - 6 雪花型结构3 0 图4 7 数据仓库设计3 0 图4 8 数据处理软件界面3 3 图4 9 训练数据与预测数据表3 9 图4 1 0 不同数据挖掘模型情况4 0 图4 1 1 提升图4 0 表索引 表3 1 决策树算法与逻辑回归算法特点对比2 1 表3 2 不同算法特性比较一2 2 表4 1 百分制成绩与绩点值对应表;2 4 表4 2 数据仓库各表设计情况3 0 表4 3 历年计算绩点课程情况表一3 5 表4 4 学生成绩数据结构( 按学号和课程) 3 5 表4 5 数据结构( 按学号) 3 5 表4 6 对实际绩点值的处理3 7 表4 7 不同模型对比情况4 1 表4 8 预测结果结构4 1 表4 9 预测表为n o r m a l 一2 0 0 8 ( 大二上) 的部分结果4 2 表4 1 0 预测表为n o r m a l 一2 0 0 8 ( 大二下) 的部分结果4 3 表4 _ 1 1 预警学业出现问题同学的情况4 4 v 上海师范大学硕士学位论文 第一章绪论 第一章绪论弟一早殖比 1 1选题背景及问题的提出 1 1 1 选题背景 计算机技术的迅速发展使得各行业信息化程度不断提高,作为信息化应用的 重要领域,教育信息化也进行的如火如茶,而高校教育信息化工作更是首当其冲。 华东师范大学校长俞立中教授在接受采访时说:“信息化不是一个技术,也不是 一个技术的推广,而是一种管理理念1 。”这一观点为我们在信息化时代转变教育 管理方式指明了方向。 在高校信息化进程中,学生成绩信息化工作作为一项重要的内容逐渐得到越 来越多的重视,成绩信息化也开始代替了以纸质文件记录成绩的方式,并且随着 计算机在高校中应用的深入,历届学生的成绩得以完整保存。高校教学管理人员 可以很方便查找到在读的以及已经毕业学生的成绩情况,这也极大的方便了教学 管理工作。然而,由于不同阶段的信息化程度不同,以及信息技术的快速更迭, 记录学生成绩的手段也不断更新,这导致不同年级学生成绩存在于不同的系统中, 无法做到统一。假如教学管理人员希望把现在学生的成绩和以往学生成绩进行对 比,就需要做大量的数据处理工作,这不仅非常麻烦,同时也给教学管理人员提 出了更高的要求。另外,在将近1 0 年左右的信息化进程中,各类信息系统中积 累了大量的数据,然而这些数据并没有产生相应的应用价值,这造成了很大的资 源浪费。 数据挖掘技术的迅速发展为从海量数据中挖掘出有价值的信息提供了技术 保障。越来越多的i t 公司看到了历史数据中的价值,纷纷跻身数据挖掘行业, 这不仅促进了各类数据挖掘产品的诞生,同时也促成了各类商用。其中最典型的 案例是美国加州的一个超市,通过对顾客购买记录进行分析,发现每天下班后来 店里买婴儿尿布的男性顾客一般情况还会购买啤酒,发现这一情况后,经理当即 决定重新布置货架,在婴儿尿布货架附近放置啤酒以及一些佐酒食品,最后这一 举动直接带动了上述几种商品的热卖。这正说明了数据挖掘技术在现实生活中的 巨大作用。然而在教育领域,数据挖掘目前还没有特别多的应用案例。实际上, 在许多高校以及研究机构中已经有越来越多的研究人员开始把目光投向这一领 1 俞立中:推进“数字大学”教学改革i d 8 o l 】h t t p :w w w e d u c n g d _ 6 5 3 4 2 0 1 1 0 2 1 5 t 2 0 1 1 0 2 1 5 _ 5 7 7 0 5 6 s h t m l 1 上海师范大学硕士学位论文第一章绪论 域,因为随着高校里数据量的增加,从数据库中获取信息无疑是未来教育管理工 作发展的趋势。除了使用传统的统计技术来实现数据挖掘外,越来越多的教育研 究者开始研究各类数据库产品,利用内置的各类挖掘模型很方便获取所需信息, 这也是目前研究的热点。 1 1 2 问题的提出 各类信息化系统虽然很方便的可以记录保存历届学生的成绩信息,但教学 管理者还停留在只从其中获取一些基本的已有信息的阶段,面对海量的数据,并 没有利用这个巨大的知识宝库,从中挖掘出有价值的信息,这无疑造成了巨大的 资源浪费。例如,对于学生而言,他们只能查询到自己的当前成绩,无法获知自 己目前成绩是否合格,以及未来成绩的走势,或者如果成绩出现了问题,难以判 断如何采取有效的措施来规避风险。而教学管理者也只能是通过自己的经验对有 潜在问题的学生进行指导,没有数据进行支持,无法保证建议的有效和合理,也 就无法保证最后的效果。作为教学管理者,在看到学习者出现问题时,不能坐视 问题的发生,要及时采取有效措施避免问题的发生,这样才符合我们教育的理念, 而不是等问题发生后在采取措施进行补救,而学业预警方面的研究正是一个为解 决此问题的方案,采用特定的数据挖掘模型,根据历史数据和当前学生的成绩预 测学生未来可能出现的状况,并根据历史数据给出合理化的建议,从而避免问题 的发生。这样,无论对于学生或者教学管理者而言,他们都可以从这个系统获得 自己需要的数据,从而对其进行决策提供数据支持,这对于只靠经验并进行判断 而言无疑也是一个重大的创新,并且数据的支持也会使得决策更加客观和有说服 性。 1 2 国内外研究现状 1 2 1国外研究现状 从1 9 8 9 年举行的第十一届国际联合人工智能学术会议上首次出现数据库中 知识发现( k d d ) 一词开始2 ,国外便开始对数据挖掘进行一系列的研究,同时这一 课题也逐渐得到越来越多的认可和兴趣,到在1 9 9 9 年时,亚太地区在北京召开的 第三届p a k d d 会议共收到了1 5 8 篇论文,对知识发现( k d d ) 的研究空前热烈。利用 现代信息系统中储存的大量数据获取有价值的信息不仅取得了很大的商业成就, 同时也创造了很多有意义的社会价值。这些研究应用首先获得重视的是在商业领 2 姜树听面向中考成绩的数据挖掘关联方法研究与应用【j 】北京工业大学,2 0 0 9 2 上海师范大学硕士学位论文 第一章绪论 域,一些大型的i t 公司纷纷投入大量的力量进行研究,并开发出许多有实用价值 的工具。这些数据挖掘工具可以分为两类:一类是基于统计分析的软件,如:s a s 、 s p s s 等;另一类是应用与新技术如模糊逻辑、人工神经网络、决策树理论的工具 如:c b re x p r e s s 、e s t e e m 、k a t e c b r 、f u z z yt e c hf o rb u s i n e s s 、a r i a 、n e u r a l n e t w o r kb r o w s e r 、s p s sc l e m e n t i n e 等软件。 在这些数据挖掘工具的支持下,一些研究机构和公司都取得了许多可喜的成 就,有很多经典的案例可以说明这一问题。如加州理工学院喷气式推进实验室与 天文学家合作开发的s k i c a t 系统,使用了决策树方法构造星体分类器,对星体进 行分类,结果使能分辨的星体的数量较以前的方法在亮度上要低一个数量级,而 新方法比以往方法的效率要高4 0 倍以上;芬兰赫尔辛基大学计算机科学系开发的 t a s a 系统,帮助预测网络通信中的警报;i b m 公司的a d v a n c e d s c o u t 系统针对n b a 的数据,帮助教练优化战术组合,一度在数据库界被传为佳话3 。最近i b m 公司的 另一个研究很值得一提,该公司将与加州交通局合作开发堵车预警系统,就是根 据每一台车辆的g p s 定位数据判断目前道路拥堵情况,从而提前预测出未来一段 时间某条道路是否拥堵,从而使人们提前做出判断,如果这一系统得以成功实现, 那么这一研究可能会给交通极其拥堵的加州带来巨大的社会价值,极大方便人们 的出行,最大程度的减小道路拥堵问题。但是这一系统同时也存在一些问题,比 如如果所有人都获得同样的道路信息,那么有可能会造成新的拥堵,这就要求该 系统有更智能的学习能力,目前i b m 公司也正在就这一问题做进一步的研究。 从上面可以看出,外国许多公司和研究机构已经将数据技术作为一项重要的 技术来研究,也取得了很多研究成果。这将是信息技术领域不可逆转的一个趋势, 根据已有数据来获取更多的信息是各行各业在未来几年都迫切需要的能力。未来, 会有越来越多关于此方面的研究,而数据挖掘技术也会造福人类的方方面面。 1 2 2国内研究现状 我国的数据挖掘技术较国外起步较晚,始于9 0 年代中期,到9 0 年代中后期才 形成知识发现和数据挖掘技术的基本理论框架4 。实际上,到目前为止,许多研 究还都停留在理论阶段,实际应用方面的研究还处于探索阶段。 虽然起步较晚,但我国许多研究人员也注意到数据挖掘技术可能会产生的巨 3 姜树昕面向中考成绩的数据挖掘关联方法研究与应用【j 】北京工业大学,2 0 0 9 4 刘浏数据挖掘在兵器试验管理系统中的应用【j 】长春理工大学,2 0 0 9 3 上海师范大学硕士学位论文 第一章绪论 大价值,有越来越多的研究者开始投身这一领域。如中国人民大学统计系数据挖 掘中心、台湾辅仁大学管理学院创新育成中心近几年均从事数据挖掘的研究工作。 从事数据挖掘研究的代表性专家有:谢邦昌教授、张尧庭教授、朱世武教授、韦 端博士、陈江教授、赵民德教授等。5 另外,中国的一些i t 公司也在实用方面做 了大量的工作,对一些数据量巨大的领域提供一整套数据挖掘解决方案。但是, 所有的这些研究也大部分集中在金融,互联网行业,对于教育行业方面的研究很 少有具有实用价值的成果。其实,在近几年,国内的研究者已经开始关注数据挖 掘技术在教育领域的应用,尤其是在高校成绩和课程方面的应用。同时也涌现出 大量的论文。通过分析研究得知,许多研究者关注利用关联规则算法获取课程之 间的内在联系;利用过贝叶斯k 近邻算法实现分类即职业方向预测;利用a p f i o f i 关联规则算法挖掘出某门课程的优秀与否对其它课程的影响程等等。6 这些研究 掀起了一股研究数据挖掘的热潮,也在教育领域应用数据挖掘技术做出了有益的 探索,但是这些研究普遍存在考虑因素不够全面,结果有待考证的问题。 1 3研究的内容、目标和意义 1 3 1 研究内容及目标 据笔者调查,了解到s 大学教育技术系自2 0 0 0 年左右开始使用信息技术手 段记录学生成绩信息,1 0 年期间存储了大量的成绩信息,然而这些学生成绩数 据只是闲置在一边,我们并没有从中获取价值,这造成了很大的资源浪费。 查阅历年的课程计划表,发现不同年份师范类和非师范类学生教学计划有微 小变化,大部分是没有变化的,因此它们之间的成绩数据是可以进行对比的。通 过对各种技术手段进行比较,笔者决定采用建立数据仓库,将数1 0 年的成绩整 合到数据仓库中,然后对这些数据进行统一处理。然而,这在实际操作过程还是 出现了一些问题。主要是1 0 年间随着信息技术的发展,记录成绩的手段在不断 发生变化,从开始的e x c e l 表格到后来的专门的学生成绩管理系统,不仅如此, 记录成绩的e x c e l 表格在格式上也千差万别,这就给实际的数据处理工作带来了 很大的困难。最后通过对不同格式进行分类,然后在v i s u a ls t u d i o 中编写不同 的程序进行控制,最终将2 0 0 2 级至2 0 1 0 级所有教育技术专业学生的成绩整合到 数据仓库中来。 5 马玉会数据挖掘技术在c d n 网络中的应用研究【j 1 北京邮电大学,2 0 0 9 6 李庆香数据挖掘技术在高校学生成绩分析中的应用研究【d 1 西南大学,2 0 0 9 4 上海师范大学硕士学位论文第一章绪论 本文就是以这些成绩数据为依据,根据历史数据并结合当前学生的成绩表现 最终来预测学生最后的平均绩点。这样可以使得大二或大三的学生提前获知自己 的平均绩点,如果离平均绩点还有差距,那就要采取措施比如重修或补考的方式 来拉高自己的平均绩点。最终能够避免在即将毕业的时候因平均绩点不达标而影 响正常毕业。 1 3 2 研究意义 大学生学业预警的研究提供了这样一个解决方案,使得每一个学生可以根据 历史学生成绩数据和自己已考课程的成绩水平预测自己在毕业时可能获得的平 均绩点,这对于平均绩点计算的滞后性是一个很大的补充。 据笔者调查,许多学生在毕业前有许多门课程不及格,或成绩没有达到平均 绩点要求,但大多数同学没有参加重修,这直接会影响最后平均绩点的水平。很 多同学在大三下半学期还忙于重修,补考,这对于正在忙于毕业论文和找工作的 学生来说,无疑增加了他们的压力和负担,而对平均绩点进行预警可以提前告诉 学生平均绩点的大小,或者根据历史水平,当前的课程成绩将在最后的平均绩点 计算中处于哪一个阶段。因此这一信息对于学生来说非常有价值,可以使得他们 提前采取措施,为他们的决策提供了重要依据。 对于教务员和其他教学管理者而言,这一信息同样有价值。帮助学生顺利完 成学业,拿到毕业证书可以说是所有教务管理的核心。提前采取措施而不是坐视 问题的发生,如果能通过这一研究提前获得学生最后可能取得的平均绩点,这样 教务管理人员也可以提前采取措施,以帮助那些遇到困难的同学及时解决问题。 除此之外,学科教师也可以从该研究中获取学生学习情况,从而可以采用更 好的教学方法。 1 4研究思路与方法 1 4 1 研究思路 为了能够顺利完成论文的研究,同时,使研究结果具备一定的实用价值,本 文从以下几个方面来保证研究的顺利完成。 l 、前期调研 论文创作前期笔者阅读了大量的国内外相关文献,主要包括知识发现,数据 仓库以及数据挖掘相关的理论和技术,同时还有对国内外研究者在数据挖掘应用 方面的研究进行了详细的了解。另外,对各种数据挖掘的产品进行了解,最后选 5 上海师范大学硕士学位论文第一章绪论 择s q ls e r v e r2 0 0 8 作为数据挖掘的产品。最重要的是针对学生的问卷调查和针 对一线教学管理人员的访谈都为论文研究方向的界定提供了宝贵的意见。 2 、建立数据仓库和e t l ( 数据抽取,转换,加载) 整理近1 0 年教育技术系学生成绩发现,数据格式差异很大,没有一个统一 的格式,因此必须构建一个统一格式的数据仓库,对所有数据进行重新整理并加 载到数据仓库中。本系统采用s q ls e r v e r2 0 0 8r 2 作为数据库平台进行设计, 通过合理设计事实表和维度表,然后进行相关的分析和数据挖掘。由于一个统一 的数据仓库是后面进行数据分析和数据挖掘的基础,所以建立一个符合要求的数 据仓库极其重要。由于数据量大,且格式各异,所以e t l 过程也变得非常复杂, 这部分工作将会占整个系统开发过程的6 0 左右时间。 3 、数据分析和数据挖掘 采用微软公司的s s a s 产品不仅可以完成对数据进行多维分析,同时可以选 择内置的数据挖掘算法进行数据预测。这样就可以根据往届学生和在读学生在同 学期的学业表现,预测出在读学生大四可以获得绩点。从而据此对学生决策提供 支持。 通过上面的步骤基本完成了平均绩点的预测研究,同时也基本实现绩点的预 测功能,但是为了检验结果的准确度,笔者将留取2 年的数据作为测试数据,以 验证预测结果。根据检测结果可以重新对数据仓库和数据挖掘算法模型进行调整, 直至符合实验的预期,最后投入到真实的环境中进行使用,真正为学生和教学管 理人员提供帮助。 1 4 2 研究方法 本文在系统开发过程中,主要使用了以下几种研究方法: 1 、文献研究 本论文通过查阅大量的文献,阐述了国内外数据挖掘技术在其他领域中的应 用情况,重点了解了在教育中尤其是在学生成绩管理中的应用,并认真分析目前 研究的进展,从而确定了本文的研究方向,同时,也为完成绩点预测提供了理论 支持和实践基础。 2 、问卷调查法 为了能够更加充分的了解大学生的真实想法,本文精心设计了一些问题,通 过问题了解学生在本科学习阶段想要获取但目前无法得知的信息。问卷主要针对 6 上海师范大学硕士学位论文第一章绪论 在读的s 大学教育技术系本科生进行,通过问卷的调查和研究,发现学生对评价 自己学业表现的绩点并不知情,同时当出现某门课程不合格的情况时也都不知道 是否对自己毕业造成影响。本文要完成的研究正好填补了这方面的空白,不仅能 够预测绩点,同时能够使其作为学生和教师决策的依据。 3 、行动研究法 本论文在搜集2 0 0 2 级至2 0 1 0 级学生成绩的基础上,设计了统一标准的数据 仓库,并最后将数据导入到数据仓库,然后选择合适的数据挖掘算法,进行数据 预测和处理。操作过程中将2 0 0 2 级至2 0 0 7 级学生数据作为训练数据用以训练数 据模型,然后将2 0 0 8 级学生成绩( 已知部分数据) 作为测试数据使用,最后对 其进行平均绩点预测,并与实际的绩点值进行比较,根据结果再对数据模型或数 据结构进行修改,从而使预测结果能够相对正确的反应对在读学生的成绩绩点, 并最终成为学生和教学管理人员的决策依据。 1 5论文研究结构 第一章绪论。介绍选题背景,并提出研究问题,然后详细阐述了国内外使 用此方法解决同类问题的研究情况,接下来进一步说明研究内容和研究意义,最 后阐述了对该问题的研究思路和研究方法。 第二章数据挖掘理论与技术。详细介绍了数据挖掘和知识发现的理论知识, 并详细说明了数据仓库的概念和特点,由于该研究主要基于建立的数据仓库进行 数据挖掘,因此数据仓库建立的合适与否直接决定研究成败,为了保证数据的准 确性,该研究还采用了特定的e t l 过程,并对e t l 过程进行了详细的介绍,最后 对数据挖掘的算法进行了简单的介绍。 第三章数据挖掘预测算法研究。为了能确保本研究的有效性,笔者没有采 用单一的算法进行数据挖掘预测,而是采用了微软内置的4 种数据挖掘算法,因 此本章节对这4 种算法的原理和应用进行了介绍。 第四章学业预警的实现。本章节主要实现对历届学生( 2 0 0 2 级- 2 0 1 0 级) 原始成绩数据进行整理,并加载到已经设计好数据仓库中,同时对数据仓库中的 数据准确性进行测试,清洗错误数据;然后采用特定的数据挖掘算法,依据数据 仓库中的数据进行绩点预测,并将结果用于指导学生学习,同时对教务老师的工 作给予指导,使其可以据此结果对学生的学习进行提前干预,以避免学生最后拿 不到学位证书情况的出现。 7 上海师范大学硕士学位论文 第一章绪论 第五章总结和展望。对全文进行了总结,指出该研究的优点和不足,并进 一步说明下一步的研究思路和方向。 8 第二章数据挖掘理论与技术上海师范大学硕士学位论文 第二章数据挖掘理论与技术 2 1 数据仓库技术 2 1 1 数据仓库概念 数据仓库( d a t aw a r e h o u s e ,d w ) 并不是一个新概念,j o h n s t o n ( 2 0 0 1 ) 追溯最 早的关于数据仓库的研究是从1 8 5 4 年开始的。2 0 世纪9 0 年代以来,数据仓库 作为一种有效提高商业计划和决策水平的手段,一直位于信息技术应用的前沿。 1 9 9 3 年,公认的数据仓库之父w h i n m o n 博士提出了数据仓库的概念,他在 ( b u i l d i n gt h ed a t aw a r e h o u s e ) 一书中提出数据仓库的定义是:“面向主题的、 集成的、相对稳定的、反映历史变化的数据集合,用以支持经营管理中的决策制 定过程”。7 与操作数据库不同的是数据仓库更像是对数据按照某种需求重新进行 处理的一种过程,即对分布在对象内部各处的业务数据的整合、加工和分析的过 程,而不是一种可以购买的产品。这个定义可以从两个方面来理解,首先,我们 需要注意的是数据仓库是用于支持决策的,并且面向分析型数据处理,在这一点 上,它并不等同于操作型数据库;其次,数据仓库需要不断的进行数据清理、数 据变换、数据集成和定期数据刷新,并包含历史数据,这些数据一般不再进行修 改。 与传统的数据库系统相比,数据仓库主要提供数据分析和决策支持方面的功 能。为了能够从历史数据中提取出有用的信息,需要对原有数据进行重新整理, 并设计数据仓库,得出对我们有价值的关键知识( 规律) ,最后为决策者提供决策 支持。 2 1 2 数据仓库特点 1 ) 面向主题性 相对于操作型数据库,数据库侧重于联机事务,各项数据应用逻辑相互组 合,分离度不高。同时数据也是分散在不同的数据库模式中,抽象程度不高。针 对具体工作需要,对数据仓库中的各项数据进行组织,这种组织方式区别于原有 的操作型数据库。它对数据进行了完整的和一致的描述,可以更全面的刻画出各 数据项及其之间的联系。 7 荣碧兰基于高校复杂科研信息的数据仓库与知识发现应用研究【d 】大连海事大学,2 0 1 0 9 第二章数据挖掘理论与技术上海师范大学硕士学位论文 在本课题的研究中,为了更好的刻画各数据项之间的关系,所以主题可以选 下列属性,比如:学生成绩、课程计划等等。这样,我们可以根据学生的成绩计 算出平均绩点,并可以说明学生在不同时期各科成绩对最后平均绩点的影响。 2 ) 集成性 集成性是数据仓库的特性之一。数据仓库是对单位的有机整合,可以有效的 减少以往各种自身数据与外部环境数据分类所产生的矛盾,将各种渠道所反馈的 数据按统一规则进行编码,体现了数据仓库中所有数据的整体性。 在本课题的研究中,学生成绩数据库中用到多个表,比如学生基本信息表、 学生成绩表和课程计划表等等,所以在建表时可能在各个属性字段设置上出现不 一致。由于各个表中的字段编码不规范,我们需要对这些表中的属性字段进行统 一编码。例如从原始e x c e l 表格中提取学生成绩时,有大学英语4 个成绩( 因为 有大学英语要上4 个学期的课程) ,但表格中只显示了课程名称为大学英语,并 没有对这4 个成绩进行区分( 实际上,数据仓库中也没有对其进行时间上的区分) , 所以在学生成绩表中,s t u l d ,c o u r s e n a m e 和t i m e k e y 的组合键无法作为主键, 需要重新增加一个字段i d 来标识主键以确保数据仓库记录的唯一性。 3 ) 数据非易失性 非易失性是指数据在某个存储周期内,保持相对不变。通过对数据仓库各项 数据的集成整合,数据具有极高的稳定性和持久性,不会在短时期内产生任何变 化,避免了随机处理所产生的变化。在业务数据库中,数据库中的数据往往是实 时更新变化的以应对业务的需要。在对数据仓库进行数据的分析和决策时,并不 是对某个时间点信息的反映而是对相当长一段时间内的历史数据内容的分析。 在本课题的研究中,由于学生成绩数据库中的相关数据是要反映学生的历史 信息的,因此需要永久保存。如果要对数据仓库中的数据进行更新,应该是批量 进行的。 4 ) 数据变化性 数据仓库为了适应不断变化的决策分析需要,会将已往保存数据中的最早日 期的相应记录进行删除,并将近期的数据变化进行集成整合,添加到数据库中, 生成为新的记录。所以数据仓库是随着时间不断删除陈旧的数据。同时由于业务 的不断增长,也不断添加新的数据进入数据仓库。 在本研究中,由于数据仓库中的数据都是历史数据,反映的是某几届学生的 】0 第二章数据挖掘理论与技术 上海师范大学硕士学位论文 成绩在一段时间内的变化,但并不是说它进入到数据仓库之后就永远不变,随着 新入学学生的增加,数据仓库中的数据会随时间而定期地被删除和更新。主要体 现在如下几个方面: 第一,随着时间的变化,每一届新生的入学,数据仓库中会不断增加新的学 生基本数据、学生成绩数据和课程安排信息。 第二,随着时间的变化删去已毕业多年的无用的学生成绩数据和学生基本信 息数据。数据仓库中的学生基本信息数据也有存储期限,对研究没有用处的数据 将会被删除。 2 2数据挖掘技术概要 2 2 1 数据挖掘概念 数据中蕴藏着知识,人们可以通过对数据的分析来获取有价值的信息。然而, 随着数据库技术的发展,数据量的急剧膨胀开始大大超出了人为处理的能力,但 实际上人们对所获知识的需求越来越高,于是需要一种自动分析和获取海量数据 并进行处理得到信息的技术。随着数据库技术、机器学习等计算机技术的发展, 利用计算机自动分析数据获取知识成为可能。1 9 8 9 年8 月,在美国底特律召开的 第1 1 届国际人工智能联合会议的专题讨论会上,首次提出了数据库中的知识发现 这一新技术。数据库中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 是一个从数据库中挖掘有效的、新颖的、潜在有用的和最终可理解的模式的复杂 过程。8 其实,数据挖掘也可称为数据库中的知识发现( k d d - - - k n o w l e d g ed i s c o v e r y i nd a t a b a s e ) 。对数据挖掘与知识发现的一个比较公认的定义是:从存储于数据 库的数据集合中或从大型数据库或数据仓库中识别和提取也隐含的、未知的、非 平凡的及有潜在应用价值的信息或模式的高级处理过程9 。由于许多学者在研究 数据挖掘和知识发现时对这两个概念并不做详细区分,因此在本研究中这两个概 念也不做区别。 数据挖掘技术具有强大的数据处理能力,能从大量的数据中发现有用的规律、 规则、联系、模式等知识,其方法包括聚类分析、分类与预测、相似模式分析、 关联分析以及回归分析等。不同于传统的数据分析及联机分析处理,传统的数据 分析师采用基于验证的方法,通过少量的数据,了解已经发生了什么;联机分析 。高宏宾基于频繁项集特性的a p r i o r i 算法的改进【j 】计算机工程与设计,2 0 0 7 9 李岩数据仓库和数据挖掘在高校成绩分析中的应用【d 】大连理工大学,2 0 0 9 1 1 第二章数据挖掘理论与技术上海师范大学硕士学位论文 处理是从不同角度,不同维度观察分析数据;而数据挖掘时采用基于发现的方法, 通过大量的数据分析,了解已经发生了什么,分析发生的原因并预测未来将发生 什么。 本研究正是利用数据挖掘的特点,通过构造合适的学生成绩数据结构,并 选择恰当的数据挖掘算法模式,最终能够根据学生历史成绩数据挖掘出大学生平 均绩点水平。 2 2 2 数据挖掘步骤 数据挖掘过程其实是个反复迭代的人机交互过程,从宏观上可以分为4 个阶 段:确定主题、数据预处理、数据挖掘和模式解释评估与应用1 0 。其中数据的预 处理又可以分为:数据抽取( d a t ae x t r a c t ) 、数据转化( d a t at r a n s f o r m ) 、数 据清洗( d a t ac l e a n i n g ) 和数据加载( d a t al o a d i n g ) 。数据挖掘的步骤如下图 所示: 磕定毋宽主是: 明确要求我撂: 一- _ ( 1 ) 确定研究主题 数据预处理 i 数据挖捌l 结果评价 l i - - - - - - - 5 一i - 一 图2 1 数据挖掘步骤示意图 确定研究主题是进行任何一项研究的首要任务,对于数据挖掘来说也是如此, 只有知道自己要研究的内容,才可以根据研究主题确定所需要的数据,最后选择 自己所需要的数据源进行处理,这从开头就避免了研究的盲目性。 ( 2 ) 数据预处理 数据预处理是数据挖掘( 知识发现) 过程中非常重要的步骤,尤其对于数据 胡海峰基于b p 神经网络的数据挖掘技术的研究【j j 平顶山学院学报,2 0 0 8 1 2 同 第二章数据挖掘理论与技术 上海师范大学硕士学位论文 源特别复杂的数据而言,更要首先进行数据预处理工作。对于那些数据种包含大 量噪声、不完整、甚至出现数据不一致的情况时,要首先对数据进行处理以提高 数据挖掘对象的质量。对本研究而言,由于面临数据源的多样性,因此数据预处 理格外重要,事实上,研究的大部分时间都是在进行数据的预处理工作。所以对 数据预处理的理论部分下面会详细论述。 ( 3 ) 数据挖掘 在数据挖掘阶段,首先必须明确我们要挖掘的任务和目的,如数据分类、预 测、关联规则发现等,确定挖掘任务后,就要决定选择什么挖掘算法,然后应用 特定的数据结构,最终获取有用的模式。 ( 4 ) 模式解释评估与应用 经过数据挖掘之后,我们会得到数据挖掘的结果,但这一结果并不能直接展 示出来,需要进一步评估,并剔除可能存在的冗余或无关的模式。并且还需要对 结果进行准确性测试,如发现此模式不满足用户要求,这时可以退回到之前的步 骤,如重新选取数据或进行数据预处理。总之,整个挖掘过程是一个不断反馈的 过程。最后得出有意义的模式后,既可应用与新的数据,指导或成为决策的依据。 2 2 3 数据的e t l 过程 e t l 是建立数据仓库的一个关键部分,该部分实施的好坏,直接影响到数据 的正确性和有效性。e t l 就是对数据的抽取、转化和加载。具体来讲,e t l 包括: 数据抽取( d a t ae x t r a c t ) 、数据转化( d a t at r a n s f o r m ) 、数据清洗( d a t ac l e a n i n g ) 和数据加载( d a t al o a d i n g ) 。 ( 1 ) 数据提取 由于数据库中的数据量巨大,包含了数据的方方面面,但并不是所有的数据 都是数据仓库分析所必需的数据,所以要按照数据仓库的设计需要对数据库和其 他形式的原始数据进行提取。从数据仓库的角度来看,并不是操作数据库中的全 部数据都是进行决策所必须的。通常情况下,数据仓库根据需求分析的结果来抽 取数据,只需要提取进行分析所必需的那一部分数据即可。一是按照用户所使用 的数据进行抽取。由于用户所关心的内容不同,所以抽取的数据也不同。比如教 务系统只抽取学生的成绩信息,而学生管理部门可能只抽取学生的基本情况信息。 二是按照某个主题来抽取相关的数据。在抽取过程中,可以通过手动、半自动或 】3 第二章数据挖掘理论与技术上海师范大学硕士学位论文 自动的方式进行,也可以三种相结合。 对于本系统而言,我们要分析的是历届( 2 0 0 2 级一2 0 1 0 级) 学生的成绩,并 根据成绩计算绩点,因此我们需要提取学生的成绩,以及每一门课程的绩点数据。 ( 2 ) 数据转化 数据转化也是数据仓库建立过程中重要的一部分。需要我们将数据库中不同 类型的数据进行统一规范,避免不同行业由于业务不同,而产生的不一致性。目 前市场上的数据库产品由于类型不同,因此可能出现数据库类型不一致性的情况, 比如i b md b 2 ,o r a c l e ,s q ls e r v e r ,e x c e l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课件显示备注
- 2025年中国双层炉排立式蒸汽锅炉数据监测研究报告
- 口语内容考试题及答案
- 植物检疫工岗位操作技能考核试卷及答案
- 溶剂油装置操作工操作考核试卷及答案
- 酒吧经理考试题及答案
- 景泰蓝点蓝工异常处理考核试卷及答案
- 禁止超车考试题及答案
- 2025年中国复盖件数据监测报告
- 偏钨酸铵制备工岗前考核试卷及答案
- 一年级看图写话专项练习及范文20篇(可下载打印)
- 2024年上海市行政执法类公务员招聘笔试参考题库附带答案详解
- (高清版)DZT 0208-2020 矿产地质勘查规范 金属砂矿类
- 建设项目安全设施“三同时”(直接使用版)课件
- 《食安南京品牌建设指南》
- 2024年湖南交通职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 媒介文化与休闲异化
- 精神障碍社区康复服务投标方案技术标
- 初级电工技能培训一-电工常用工具
- 婚姻家庭咨询师(三级)电子教材
- 平凉市崆峒区大寨乡柳沟村地热水矿产资源开发利用方案
评论
0/150
提交评论