已阅读5页,还剩74页未读, 继续免费阅读
(计算机软件与理论专业论文)基于多策略的学生成绩挖掘与分析系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于多簧略的学生成绩挖掘l j 分析系统的研究弓实现摘要 摘要 随着高校招生规模的扩大,在校学生人数急剧增加,这使得原有教务管理系统中 存在的问题日益突出。尤其是其中的学生成绩分析模块,往往只有简单的一些功能, 而隐藏在海量数据中的大量有用信息不能得到有效地利用。如何将这些数据信息转化 为知识表示,为学校决策者提供决策依据,科学指导教学,提高教学管理水平,是目 前高校中值得研究的问题。 数据挖掘技术在分析大量数据中具有明显优势,并已成功地应用到了多个研究领 域,但它在教育领域中应用还不够深入。本文通过对数据挖掘技术的相关分析与比较, 提出了多策略的设计思路,将数据挖掘技术与统计分析相结合,从海量成绩数据中提 取出隐藏于其中的有用信息。这里多策略主要是指:采用基于决策树的分类挖掘方法, 对学生成绩库中数据进行分析,生成学生成绩决策树,能直观显示出某一成绩在不同 等级计算方式中所处的位置,为教学部门提供评价信息;同时采用基于总结规则的统 计分析方法,完成不同情况下的成绩查询、预测及对比分析,实现学生成绩分析报告、 试卷质量评价报告及质量分析表的自动生成。对教师改进教学,提高试卷质量将起到 积极作用。在此基础上,完成了应用系统的开发,达到了预期设计目的。 最后,对本文所做的工作进行总结,并对其他挖掘方法在成绩分析中的应用进行 了展望。 关键词:多策略,数据挖掘, 决策树,统计分析,分类 作者:王兵 指导教师:徐汀荣 a b s t r a c t w i t ht h ee n r o l l m e n te x p a n s i o no fm o s tu n i v e r s i t i e s ,t h en u m b e ro ft h es t u d e n t s i n c r e a s e ss h a r p l y , w h i c hm a k e st h ep r o b l e m so f p r e s e n te d u c a t i o n a la d m i n i s t r a t i o ns y s t e m s m o r es e r i o u s e s p e c i a l l y , t h em o d u l eo fs t u d e n t s g r a d ea n a l y s i so n l yd o e ss u c hs i m p l e t h i n g sa ss t a t i s t i c sa n a l y s i so rd a t as o r t i n g a sar e s l l l lag r e a td e a lo fu s e f u li n f o r m a t i o n h i d d e ni nm a s sd a t ac a n tb eu t i l i z e de f f i c i e n t l y t h e r e f o r e i td e s e r v e sf o rf u t t h e rr e s e a r c h o fu n i v e r s i t yt h a th o wt or e p r e s e n tt h e s ei n f o r m a t i o na sk n o w l e d g ei no r d e rt os u p p o r t s c h o o ld e c i s i o n - m a k e r s d e c i s i o na n di n s t r u c t t e a c h i n g a n d i m p r o v ee d u c a t i o n a l a d m i n i s t r a t i o n d a t am i n i n gt e c h n o l o g yf u n c t i o n sp r o m i n e n t l yi nm a s sd a t aa n a l y s i sa n dh a sb e e n a p p l i e ds u c c e s s f u l l yi nm a n yf i e l d s a f t e ra n a l y z i n g a n dc o m p a r i n gt h ed a t am i n i n g t e c h n o l o g yd e e p l y , t h i sd i s s e r t a t i o nc o m e su pw i t hm u l t i s t r a t e g ya n a l y s i sm e t h o da n d c o m b i n ed a t am i n i n gt e c h n o l o g yw i t hs t a t i s t i c sa n a l y s i st oe x t r a c tu s e f u li n f o r m a t i o nf r o m m a s sg r a d ed a t a m u l t i s t r a t e g ym e a n sa sf o l l o w s :u t i l i z i n gc l a s s i f y i n gd a t am i n i n g m e t h o d sb a s e do nd e c i s i o nt r e et oa n a l y z et h ed a t ai ng r a d ed a t a b a s e ag r a d ed e c i s i o n 慨 i sg e n e r a t e dt os h o wd i r e c t l yap o s i t i o no fg r a d ea c c o r d i n gt od i f f e r e n tc o m p m i n gm e t h o & a n dt os u p p o r te s t i m a t e a tt h es a i n et i m e ,u t i l i z i n gc l a s s i f i c a t i o nm e t h o db a s e do n s n m m i n g u pp r i n c i p l e s t od os u c ht h i n g s a s 伊a d eq u e r ya n a l y s i sa n dp r e d i c t i o na n d c o n t r a s ta n a l y s i st or e a l i s ea u t o m a t i cg e n e r a t i o no fg r a d ea n a l y s i sr e p o r t , t e s tp a p e r s q u a l i t ya s s e s s m e mr e p o r ta n dq u a l i t ya n a l y s i st a b l ew h i c hp l a y sa na c t i v er o l e i n i m p r o v i n gt e a c h i n ga n dt e s tp a p e r sq u a i l 够as y s t e m i s d e v e l o p e dw h i c hr u n s e x p e d m e n t a l l yt oa n t i c i p a t e de f f e c t a tl a s t ,as u m m a r i z a t i o ni sm a d ea n do t h e rd a t am i n i n gm e t h o d s f u t u r ea p p l i c a t i o n i n t og r a d ea n a l y s i si sp r o s p e c t e d k e y w o r d s :m u l t i - s t r a t e g y ,d a t am i n i n g ,d e c i s i o nt r e e ,s t a t i s t i c sa n a l y s i s ,c l a s s i f i c a t i o n i i w r i t t e nb y w a n gb i n g s u p e r v i s e db yx u h n g - m 翌9 5 7 0 1 7 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名: 王曩 日期: 2 。d 6 5 2 0 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名: 导师签名: 三戛日期:竺! :三:兰? 羞箜堕蔓 日期:! :! :1 2 基于多策略的学生成绩挖掘q 分析系统的研究与实现第一章绪论 1 1 研究背景 第一章绪论 从九十年代丌始,国内高校教育体制进行了大规模的改革,校与校之间合并,学 校规模不断扩大,专业设胃同趋多样化,招生人数逐年增加,这使得原有教务管理系 统中存在的问题日益突出,高校原有的教学管理模式在新的环境下正面临挑战【” 学生成绩是衡量学生是否掌握所学知识的重要标志,也是评估教学质量的重要依 据。随着教学管理模式的变化,学生成绩分布越来越复杂。从表面上看,考试成绩仅 仅是数字,但是,从这些似乎毫不相关的数字中却可以提炼出对学生学习效果进行评 价的信息。通常方法是先对成绩和试卷作定量分析,在此基础上结合教学工作的各个 环节再进行定性分析,从而综合评定考试的结果。量化分析是考试综合评价的前提与 基础,有助于整个考试结果分析与评定的客观化、科学化。 现有的教务管理信息系统已经不能适应某些管理的要求,尤其是学生成绩分析模 块,往往只有一些简单的功能,由于海量数据以不同的形式存储于不同的计算机上, 从而使隐藏在其中的大量有用信息无法得到有效的利用。上述问题直接导致教学管理 部门无法进行有效的评估,任课教师无法进行有效的教学改进。而如何将这些数据信 息转化为知识表示,为学校决策者提供决策依据,科学指导教学,提高教学管理水平, 将是高校迫切需要解决的问题。 将数据信息转化为知识表示,即从数据中发现模式,有多种提法:知识发现 ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 、知识提取、数据挖掘( d a t am i n i n g , d m ) 、数据采集等。自1 9 8 9 年8 月第1 届国际联合人工智能学术会议上首次提出知 识发现这一概念以柬,数据挖掘日益受到人们的关注鳓,并已经成为当前计算机领 域的一大热点。 k d d 被认为是从数据中发现有用知识的整个过程,它用专门算法从数据中抽取 模式,主要研究发现知识的各种方法和技术。k d d 研究的的主要问题有:( 1 ) 定性 知识和定量知识的发现:( 2 ) 知识发现方法:( 3 ) 知识发现的应用。k d d 过程被定 义为:从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高 级过程 2 1 。通常k d d 包括数据准备,数据挖掘及结果的解释和评价三个阶段。k d d 第一章绪论 基于多策略的学生成绩挖掘与分析系统的研究与实现 过程如图1 1 所示。k d d 方法应用于信息、决策支持、查询过程。各种不同的方法 应用于发现不同的知识,从而需要选择不同的技术。所有这些知识都可以在不同的概 念层次上被发现,随着概念树的提升,从微观到中观,再到宏观,以满足不同用户、 不同层次决策的需要。 一 数据准备一;一数据挖掘- 一一一结果评价一 图1 1k d d 过程图 数据挖掘,比较公认的定义是:从大量的、不完全的、有噪声的、模糊的、随机 的数据集中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知 识的过程,提取的知识表示为概念、规则、规律、模式等形式【3 】。 其中的数掘集,是指一个有关事实f 的集合,如学生成绩数据库中有关学生相 关情况的各条记录。它是用末描述事物有关方面的信息,是我们进一步发现知识的原 材料。 模式,对于集合f 中的数据,可以用语言来描述其中数据的特性。表达式 e e l ,e 所描述的数掘是集合f 的一个子集而。只有当表达式e 较列举出凡中 所有元素这种描述方法更为简单时,才可以称之为模式。如:“如果成绩在8 1 9 0 之 间,则成绩优良”可称为一个模式,而。如果成绩为8 1 、8 2 、8 3 、8 4 、8 5 、8 6 、8 7 、 8 8 、8 9 、或9 0 。则成绩优良”就不能称之为一个模式。 数据挖掘是根据决策需要,确定数据挖掘的目的任务,并采用具体的数据挖掘算 法从数据集中挖掘出有用知识的过程实际上,数据挖掘仅是k d d 过程中的一个特 定步骤,是知识发现中的核心工作,同时也是它技术难点所在 4 1 。数据挖掘包括特定 的数据挖掘算法,具有可接受的计算效率,生成特殊的模式。因为数据挖掘算法的好 坏将直接影响到k d d 所发现知识的准确性,而且目前k d d 研究大部分集中在数据 挖掘算法和应用的技术上,因此k d d 与数据挖掘经常不加区分地使用。 数掘挖掘是对庞大的数据集或数据库进行分析,目的是发现未知的关系和以数据 拥有者可以理解并对其有价值的方式来总结数据。数据挖掘技术可以帮助人们从数据 2 基于多策略的学生成绩挖掘与分析系统的研究与实现 第一章绪论 库,特别是数据仓库的相关数据集中提取出感兴趣的知识、规则或更高层次的信息, 并可以帮助人们从不同程度上去分析它们,从而可以更加有效地利用数据库或数据仓 库中的数据。数据挖掘技术不仅可以用于描述过去数据的发展过程,还可以进一步预 测未来趋势。 1 2 数据挖掘研究现状 近十年来,数据挖掘研究不仅在理论上取得了许多成果,而且也出现了很多成功 的应用实例,如已经出现了许多优秀的数据挖掘工具。国外对数据挖掘技术的研究较 为深入,推出许多优秀的数据挖掘工具。数据挖掘工具通常分为两类:类是基于统 计分析的,如s a s 、s p s s 等;另一类是应用新技术如模糊逻辑、人工神经网络、决 策树理论的,如c b re x p r e s s 、e s t e e n 、k a t e c b r 、f u z z y t e c hf o rb u s i n e s s 、a r i a 、 n e u r a ln e t w o r kb r o w s e r 等。但这些工具并不是都能应用于所有的数据挖掘应用领域, 而是各有侧重。由于数据挖掘技术可以为企业构筑竞争优势,并带来巨大的经济效益, 因此,数掘挖掘的应用具有巨大的前景。已经有一些国际知名公司纷纷加入数据挖掘 技术研究的行列,如美国的m m 公司于1 9 9 6 年研制了智能挖掘机,用来提供数据 挖掘解决方案;s p s s 公司开发了基于决策树的数据挖掘软件s p s s c h a i d 挖掘 系统;此外s a s 公司的e n t e r p r i s em i n e r , s g i 公司的s e t l v l i n e r ,s y b a s e 公司的 w a r e h o u s es t u d i o ,r u t e q u e s tr e s e a r c h 公司的s e e s 等也是比较成熟的产品嘲。 1 在数掘挖掘的理论研究中,取得了许多成果,主要的研究在以下方面: ( 1 ) 数据关联、相关以及因果关系 寻找频繁项集的a p r i o r i 算法和f p g r o w t h t 6 1 算法,针对不同情况和要求设计了多 维关联规则挖掘方法,多层关联规则挖掘方法,强关联规则的兴趣度的研究,面向查 询和基于约束的关联分析等。 ( 2 ) 数据分类 数据分类是一个两步过程:第一步,根据给定的训练集,找到合适的映射函数, 建立模型;第二步,使用该模型对数掘集中每一类别进行描述,形成分类规则【7 】。有 多种分类方法和算法:决策树分类方法、贝叶斯分类方法、神经网络分类方法、k - 最临近分类方法、遗传分类方法、粗糙集分类方法、基于案例的分类等。 决策树分类算法常用的有:i d 3 、c 4 5 算法、以及决策树分类的可伸缩性算法: s e e 5 、s l i q 、s p r i n t 等。 第一章绪论基于多策略的学生成绩挖掘弓分析系统的研究与实现 用关联规则进行分类的方法:聚类关联规则进行分类的方法、基于关联的分类方 法、聚集显露模式分类法,以及文档资料分类、w e b 文档分类技术。 ( 3 ) 聚类和孤立点分析 基于划分的聚类方法:代表性的算法是k - m e a n s 、k - m c d o i d s 和c l a r a ,基于 层次的聚类方法:代表性的方法是凝聚层次聚类a g n e s 算法和分裂的层次聚类 d i a n a 算法。基于密度的聚类方法:其中代表性的算法是d b s c a n i s ,o p t i c s 9 | , d e n c l u v o l 。基于模型的聚类方法:代表性的方法是统计学方法、a u t o e c l a s s 和神经 网络方法。基于约束的聚类方法:基于对象选择的约束,基于参数的约束,基于聚类 集合大小的约束,有障距离聚类( c l u s t e r i n gw i t ho b s t r u c t e dd i s t a n c ec o d ) 川和用户 自定义约束的聚类。 孤立点的探测和分析:基于统计的孤立点分析、基于距离的孤立点分析、基于偏 离的孤立点分析。 ( 4 ) 顺序数据和时序数据 趋势分析:在数据周期变化、季节变化、随机波动情况下的趋势分析。在时序数 据库中进行相似搜索:调整处理相似匹配中存在的间隙、偏移、振幅差异。索引法和 时序查询语言。顺序模式挖掘:用变通的a p d o r i 挖掘算法进行顺序模式挖掘,其改 进算法有g s p ( g e n e r a l i z e ds e q u e n t i a lp a t t e r n s ) 算法和p r e f i x s p a n ( p r e f i x - p r o j e c t s e q u e n t i a lp a t t e r n m i n i n g ) 算法t 1 2 1 。用变通的a p f i o d 挖掘算法进行周期性分析:挖掘全 周期模式、挖掘半周期模式、挖掘循环或周期关联规则。 ( 5 ) 相似搜索 针对各种数据类型有多种相似搜索,如相似曲线搜索、相似趋势搜索、相似图像 和相似文本搜索。 根据图像内容搜索相似图像的技术:基于图像样本的搜索:基于图像特征标识的 搜索,如颜色直方图标识、纹理标识、多种特征标识。 搜索具有相似文本的文档资料:基于相似关键字的搜索,主要解决同义词和多义 词的问题。 基于词频矩阵的搜索技术,用潜在的语义标引减小词频矩阵的大小的方法。 ( 6 ) 文本数据库 文本数掘库中存储最多的数据是半结构化数据,文本挖掘是利用基于关键字的关 联和文档分类的方法从半结构化数掘中发现知识。 4 摹于多镱略的学生成绩挖掘o j 分析系统的研究实现第一章绪论 文本数据库的挖掘已可实现文档特征的抽取、文档聚集、文档自动分类和文档信 息检索。 ( 7 ) 现代数据库 主要是针对:空间数据库中的数据挖掘;多媒体数据库中的数据挖掘;科学数据 库中的数掘挖掘。 ( 8 ) 针对w e b 的数据挖掘研究 主要包括:w e b 内容挖掘、w e b 结构挖掘0 3 1 、w e b 使用记录( 日志) 挖掘【1 4 1 。 + ( 9 ) 针对数据挖掘工具与工作环境集成的研究 数据挖掘与数掘库、o l a f ) 的集成;不同数据挖掘方法的集成;数据挖掘与专门 领域知识的集成;隐性数掘挖掘;将挖掘技术隐藏于信息系统中,使用户不知不觉的 使用挖掘技术。 ( 1 0 ) 关于数据挖掘查询语言和数据挖掘可视化的研究 研究标准化数据挖掘查询语言,挖掘结果的可视化、挖掘过程的可视化。 2 数据挖掘如今已应用于许多领域,并取得了较好的效果。数据挖掘的应用领 域主要包括如下方面: ( 1 ) 科学研究 在天文学、分子生物学、气象等有着巨大信息数据的研究工作中,数据挖掘技术 应用较为广泛,并己取得了一些重要成果。如加州理工学院喷气式推进实验室与天文 学家合作开发的s k i c a t 系统,使用了决策树方法构造星体分类裂”,对星体进行分 类,结果使能分辨的星体的数量较以前的方法在亮度上要低一个数量级,而新方法比 以往方法的效率要高4 0 倍以上。 ( 2 ) 市场营销 在该行业的应用可分为两类:数据库市场营销和货篮分析。前者可以通过交互式 查询、数据分割和模型预测等方法来选择潜在的顾客以便向他们推销商品;后者可通 过分析市场销售数据,以识别顾客的购买行为模式。 ( 3 ) 会融投资 主要是进行投资评估和股票交易预测,分析方法一般采用模型预测法。这方面的 系统国外的有f i d e l i t ys t o c ks e l e c t o r 、l b sc a p i t a lm a n g c m e n t s l ;国内的有:神光、 r a r 等股票分析系统。 ( 4 ) 欺诈甄别 5 第一章绪论摹于多策略的学生成锁挖掘孑分析系统的研究与实现 银行或商业上经常发生诈骗行为,如恶性透支等。这方面应用成功的系统如: f a l c o n ,是h n c 公司开发的信用卡欺诈估测系统,已被相当数量的零售银行用于 探测可疑的信用卡交易。f a i s 是一个用于识别与洗钱有关的金融交易系统,它使用 的一般是政府数据表单。 ( 5 ) 客户关系管理 主要是客户利润率分析。客户细分,客户流失分析,客户响应率的分析【l s 】。挖掘 与分析潜在的客户。 ( 6 ) w e b 挖掘 就是从w w w 的资源和行为中抽取感兴趣的、有用的模式和隐含的信息【1 6 1 。主 要应用包括三种:在搜索引擎上对文档进行自动分类、帮助寻找用户感兴趣的内容以 及利用数据挖掘技术设计电子邮件过滤系统。 ( 7 ) 网络入侵检测 在网络入侵检测的应用中,数据挖掘是指从大量的数据中自动提取出模型的过 程。它可以实现在建立入侵检测系统的过程中尽量消除人为因素和特定因素,使检测 过程更加系统化【1 7 1 。因此基于数据挖掘的网络入侵检测系统采取以数据为中心的观 点,并且把入侵检测看作是一个数据分析的过程。 ( 8 ) 高校教育管理 高校教育管理中也存在大量的可挖掘数据信息,如人事关系管理、教学效果评价 等方面,都可以应用到数据挖掘技术,但目前在国内这一应用领域仍以理论研究为主, 真正应用数掘挖掘技术形成产品不多。 国内对数据挖掘技术的研究稍晚,且前重点已从发现方法转向系统应用,并且注 重多种发现策略和技术的集成以及多种学科之间的相互渗透,但仍以学术研究为主, 实际应用尚处于起步阶段。1 9 9 3 年国家自然科学基金首次支持该领域的研究项目。 目前国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,如 清华大学、复旦大学、中科院计算技术研究所、空军第三研究所、中国人民大学统计 系数据挖掘中心等。北京系统工程研究所对模糊方法在知识发现中的应用进行了较深 入的研究;北京大学丌展了对数据立方体代数的研究;华中科技大学、复旦大学、浙 江大学、中国科技大学、中科院数学研究所、吉林大学等单位丌展了对关联规则挖掘 算法的优化和改造;南京大学、四川大学和上海交通大学等单位探讨研究了非结构化 数据的知识发现以及w e b 数据挖掘;浙江大学使用关联规则发现技术对高校的人事 6 、 基于多策略的半生成绩挖掘j 分析系统的研究与实现第一章绪论 信息库进行挖掘【1 蜘,试图找到影响学科发展的因素,发现如何评价一个学科,以及影 响学科发展的各个要素之i 、日j 的关系。 1 3 选题依据和意义 数据挖掘技术在分析大量数据中具有明显优势,基于数据挖掘的分析技术在金 融、保险、电信等有大量数据的行业已有着广泛的应用。随着数据挖掘技术的逐步成 熟及应用领域的不断扩展,一些高校研究人员已开始研究将数据挖掘技术应用于高校 的教学、管理中,比如,运用关联规则研究相关专业课程开设的先后关系【堪】【1 9 1 1 2 0 , 研究英语六级成绩与四级成绩的相关关系【2 l 】等。其研究成果对提高学校教学管理水平 起到了很好的指导作用。 数据挖掘技术在国内教育领域应用起步相对较晚阎例,尤其关于数据挖掘技术 在学生成绩数据的分析处理中应用的文献报道不多,而传统的学生成绩分析方法一般 仅有数据备份、查询、统计和排序等。考试成绩数据中包含了很多有用的信息,如果 不加以利用,容易造成数据的浪费1 2 4 】。目前,所高校的学生人数少则几千人,多至 几万人,考试成绩数据轻易就达几百万条甚至上千万条,这就使得传统的成绩分析方 法较难满足评价的需要。 通过对数据挖掘常用方法与技术的比较,在系统开发时采用了决策树分类方法作 为成绩数据挖掘的主要方法之一。把数据挖掘与统计分析方法相结合,该方法不但可 以获得传统的学生成绩分析方法得出结论,而且还可以发现一些有用的信息,找出影 响学生成绩的一些原因,从而帮助教师制定相应的措施,有利于提高教学质量,增 强教学效果1 2 ”。 本课题束源于我校的教务管理信息系统的子系统。我校教务管理目前应用的是 2 0 0 1 年丌发的基于c s 和b s 混合模式的信息管理系统口q ,该系统目前运行性能比 较稳定,尤其在学生学籍管理、课表安排、教室日常借用管理、学生考试管理、毕业 生离校管理等方面,发挥着非常重要的作用。 由于原系统对考试结果进行分析的功能不完善,不能对班级成绩进行定量的对比 分析,不方便教学管理部门对学生考试整体结果的掌握。为此,本文把重点放在了对 学生考试成绩的管理、统计和挖掘分析上,采用基于多策略的数据挖掘与分析方法, 设计了一个考试成绩挖掘与分析系统,应用后对促进教学管理和增强教学效果将会起 到一定的推动作用 7 第一章绪论皋十多策略的学生成绩挖掘j 分析系统的研究与实现 1 4 研究内容 本文以我校教务管理系统成绩数据库为研究主体,提出了多策略的设计思想,将 数据挖掘技术与统计分析相结合,从海量成绩数据中提取出隐藏于其中的有用信息。 本文主要研究内容如下: ( 1 ) 对学生信息数据进行分析抽取,转换为学生成绩挖掘库。 ( 2 ) 采用基于决策树的分类挖掘方法,对学生成绩挖掘库中数据进行分析,生 成学生成绩决策树,能直观显示出某一成绩在不同等级计算方式中所处的位置,为教 学部门进行等级评价提供依据。 ( 3 ) 采用基于总结规则的统计分析方法,完成不同情况下的成绩查询分析、预 测及对比分析,实现学生成绩分析报告、试卷质量评价报告及质量分析表的自动生成。 对教师改进教学,提高试卷质量将起到积极作用。 ( 4 ) 对本文所做的工作进行总结,并对其他挖掘方法在成绩分析中的应用进行 了展望。 1 5 本文的组织结构 根据上述的研究工作,本文内容分为七章,每章内容具体如下: 第一章绪论,主要阐述选题的研究背景、选题依据和意义,介绍了国内外的研究 现状,并在此基础上提出了本文的主要研究内容及实现目标。 第二章多策略成绩挖掘与分析方法,提出了多策略的思想方法,介绍了数据挖掘 中决策树理论和算法,以及统计分析方法和相关参数。 第三章系统分析与设计,讨论了系统的需求分析,提出了考试成绩分析系统的基 本框架,指出了系统分析中要用到的主要数据源,并给出了用于建立成绩挖掘库的各 个数据库的表结构,讨论了主要挖掘方法在系统中的应用目标,最后说明了采用的系 统结构及开发工具的选择。 第四章数据挖掘技术应用,提出了应用决策树方法和统计分析方法对学生成绩进 行挖掘与分析的设计方案。重点说明了决策树分类挖掘方法的属性归纳、处理及决策 树构造过程,重点讨论了其在高校考试成绩数据挖掘中的应用。 第五章成绩分析与试卷质量报告的生成,重点讨论了学生成绩分析报告和试卷质 量评价报告及试卷质量分析表的自动生成,通过相应指标的定量计算,结合经典理论 8 基于多镱略的学生成绩挖掘0 分析系统的研究与实现第一章绪论 数据,判定出相应的分布层次,给出了规范的、合理的分析评价。 第六章系统主要模块的设计与实现,着重讨论了:( 1 ) 成绩挖掘库的建立,成绩 的输入、导入与导出;( 2 ) 基础信息维护方法;( 3 ) 成绩按不同条件进行查询分析设 计方法,并讨论了学生成绩的预测方法:( 4 ) 从不同角度的成绩对比分析的设计与实 现;( 5 ) 成绩的挖掘分析;( 6 ) 权限管理的设计与实现。使用基于决策树的挖掘方法 和基于总结规则的统计分析方法,完成了系统设计的预期目的。 第七章总结与展望,对本文所做的工作及贡献进行了总结,并对需要进一步的研 究方向进行了分析和展望。 9 第二章多策略成绩分析方法研究基于多麓略的学生成绩挖拥与分析系统的研究与实现 第二章多策略成绩挖掘与分析方法 2 1 数据挖掘 2 1 1 数据挖掘的分类 数据挖掘算法的输入是数据库中的数据,算法的输出是发现的模式,算法的处理 过程则涉及具体的算法。根据不同的分类标准,可以有以下几种分类方法 3 1 : 根据数据挖掘的任务可以分为:分类或预测模型发现、总结规则、聚类规则、关 联规则发现、序列模式发现、偏差分析、依赖关系或依赖模型发现、异常和趋势分析 等。 根据数据挖掘的对象类型分类,有如下几种数据库或数据源:关系型数据库、事 务型数据库、面向对象型数据库、主动型数据库、空间型数据库、时态数据库、文本 数据库源、多媒体数据库、异质数据库,遗产数据库以及w e b 等。 根据采用的数据挖掘方法分类,可分为:统计方法、机器学习方法、神经网络方 法和数据库方法。统计方法中,可以细分为:回归分析( 多元回归、自回归等) 、判 别分析( 贝叶斯判别、费歇尔判别、非参数判别等) 、聚类分析( 系统聚类、动态聚 类等) 、探索性分析( 主元分析法、相关分析法) 等。机器学习中,可以细分为:归 纳学习法( 决策树、规则归纳等) 、基于范例学习、遗传算法等。神经网络方法中, 可以细分为:前向神经网络( b p 算法等) 、自组织神经网络( 自组织特征映射、竞争 学习等) 等。数据库方法主要是多维数据分析或o l a p 方法,另外还有面向属性的归 纳方法。 2 t 2 数据挖掘的过程 数据挖掘的过程可以粗略地分为:问题定义、数据收集和预处理、数据挖掘算法 执行,以及结果的解释和评估。 ( 1 ) 问题定义阶段:要求定义出明确的数据挖掘目标。目标定义是否适度将影 响到数据挖掘的成败,因此往往需要具有数据挖掘经验的技术人员和具有应用领域知 识的专家以及最终用户紧密协作,一方面明确实际工作中对数据挖掘的要求,另一方 l o 基于多策略的学生成绩挖掘与分析系统的研究与实现 第二章多策略成绩分析方法研究 面通过对各种学习算法的对比进而确定可用的算法。 ( 2 ) 数据收集和预处理阶段:数据准备在整个数据挖掘过程中占的比例最大。 这个阶段又可以迸一步划分成三个子步骤:数据选取( d a t as e l e c t i o n ) ,数据预处理 ( d a t ap r o c e s s i n g ) 和数据变换( d a mt r a n s f o r m a t i o n ) 。数据选取主要指从已存在的 数据库或数据仓库中提取相关数据,形成目标数据( t a r g e td a m ) 。数据预处理对提 取的数据进行处理,使之符合数据挖掘的要求,主要包括有消除噪声,检查拼写错误, 去掉重复的记录,补上不完全的记录,推导计算缺失数据,完成数据类型转换等。数 据变换的主要目的是消除数据维数或降维,即从初始特征中找出真正有用的特征以减 少数据挖掘时要考虑的特征或变量个数。 ( 3 ) 数据挖掘阶段:这一阶段进行实际的挖掘工作。首先是根据目标定义阶段 明确挖掘任务或目的,即决定采用何种类型的数据挖掘方法,如数据总结、分类、聚 类、关联规则发现或序列模式发现等。然后,针对该挖掘方法选择一种算法,这时要 考虑两种因素:不同的数据有不同的特点;用户或实际运行系统的要求算法的 选择直接影响着所挖掘模式的质量。 ( 4 ) 结果解释和评估阶段:根据最终用户的决策目的对提取的信息进行分析, 把最有价值的信息区分出来。对于数据挖掘阶段发现的模式还要经过用户或机器的评 估,对于存在冗余或无关的模式要将其删除;对于不能满足用户要求的模式,则需要 退回到上一阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至 采用其他的数据挖掘算法。另外,数据挖掘最终面对的是人类用户,因此要尽可能对 发现的模式进行可视化,或者把结果转换为用户易懂的其他表示方式。 为了进行有效的数据挖掘,还要考虑研究与应用中面临的诸多挑战【3 】f 2 7 】【2 硼: ( 1 ) 处理不同种类的数据,遗漏的噪声数据; ( 2 ) 挖掘算法的效率和可扩展性; ( 3 ) 挖掘结果的可理解性、可用性和确定性; ( 4 ) 各种数据挖掘结果的表达及和其他系统的集成; ( 5 ) 多抽象层交互挖掘知识; ( 6 ) 从不同数据源上挖掘信息,包括互联网上的知识发现; ( 7 ) 数据的保护和数据安全性。 第二章多策略成绩分析方法研究基于多策略的学生成绩挖掘与分析系统的研究与实现 2 1 3 数据挖掘的方法 在实际应用中,常常需要根据实际任务来选择合适的数据挖掘算法。本文通过 对一些常用数据挖掘方法进行分析、比较,从中选择了一种适合的数据挖掘算法一 决策树分类方法。 ( 1 ) 数据分类 数据分类是目前重点研究的方向。从采用的技术上看,分为信息论方法和集合论 方法。 信息论方法是利用信息论的原理建立决策树。在知识工程领域,决策树是一种简 单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观 的,因而比较易于理解。该类方法的实用效果好,影响较大。由于该方法最后获得的 知识表示形式是决策树,故一般称它为决策树方法。这种方法一般用于分类任务中。 信息论方法中较有特色的方法有:i d 3 ,c 4 5 ,m l e 方法例。 集合论方法是丌展较早的方法。近年来,由于粗集理论的发展使集合论方法得到 了迅速的发展。这类方法中包括:覆盖正例排斥反例方法( 典型的方法有a q 系列方法) 、 概念树方法和租糙集方法。主要有c a r t 、s l i q 、s p r i n t 算法1 3 1 。 决策树是一种常见且有用的归纳学习算法 3 0 1 3 ”,此外还有神经元网络、k 邻近、 l i s d 、支持向量机( s v m ) 和贝叶斯( b a y e s i a n ) 分类等方法。决策树方法是本文重 点研究并应用的数据挖掘方法,通过决策树分类方法,对学生成绩库中数据进行分析, 生成成绩决策树,找出学生成绩的相应分布情况。 ( 2 ) 关联规则 关联规则用来发现一组项目之间的关联关系和相关关系。它们经常被表达为如下 形式的蕴含或规则形式:x = y ,可以解释为满足x 的数据库元组也很可能会满足y 。 关联规则广泛用于交易数据分析,通过分析结果来指导销售、目录设计及其他市场决 策的制定。目前,常采用的主要关联规则挖掘算法有a p r i o r i 及其改进算法、f p g r o w t h 算法等。从事务数据中发现关联规则,对于改进零售业等商业和活动的决策十分重要。 在教学中的应用,主要用来研究课程开设的先后关系,或者课程成绩的相关性等。 关联规则分析分为下面两步:第一步是找一个支持度大于给定值的大数据项集; 第二步是用这个大数据项集产生关联规则。在这两步中,第一步是算法的关键,一旦 找到了数据项集,关联规则的产生是自然的。许多算法的研究也是致力于快速准确地 1 2 基于多策略的学生成绩挖掘与分析系统的研究与实现第二章多策略成绩分析方法研究 寻找数据项集。 ( 3 ) 聚类规则 聚类主要是把一组个体按照相似性归纳成若干类别。其目的是属于同一类别的个 体之间的距离尽可能的小,有较高的相似度,而不同类别上的个体问的距离尽可能的 大。与分类不同的是,聚类没有预先定义好的类别和训练样本存在,所有记录都根据 彼此的相似程度来加以归类。在开始聚类之前不知道要把数据分成几组,也不知道怎 么分。很多情况下一次聚集得到的分组对业务来说可能并不好,这时需要删除或增加 变量以影响分组的方式,经过几次反复之后才能最终得到一个理想的结果。聚类分析 的方法很多,其中包括层次聚类、基于划分的聚类、基于密度的聚类和基于网格的聚 类方法等。其中采用的主要算法的k - m e a n s 、d b s c a n 以及自组织映射等。 ( 4 ) 可视化 可视化就是把数据、信息和知识转化为可视表示形式的过程。可视化技术为人类 与计算机之间提供了一个接口。通过它可以快速地与大量的数据交互,以发现其中隐 藏的特征、关系、模式和趋势等。 可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。例如 把数据库中多维的数据变成多种图形,这对于揭示数据中的状况,内在本质以及规律 性起到很强的作用。可视化数据挖掘的目的是使用户能够交互地测览数据及挖掘过 程,提高数据挖掘效果。可视化技术在数据挖掘的各个阶段都扮演着重要角色。如在 数据准备阶段,使用散点图、直方图等统计可视化技术显示源数据,可以对数据有个 初步的了解,为更好的选取数据打下基础。在挖掘阶段,用可视化形式描述各种挖掘 过程,从中用户可以看出数据从哪个数据仓库或数据库中抽取出来,怎样抽取以及怎 样预处理,怎样挖掘等。在表示结果阶段,用可视化技术使发现的知识更易于理解。 ( 5 ) 统计方法 统计分析既是- - f l 独立的学科,也是最基本的数据挖掘方法。统计分析方法,主 要用于完成总结知识和关联知识采掘。利用统计学、概率论的原理对表中各属性进行 统计分析,找到它们之间存在的关系。在表的属性之间一般存在两种关系:函数关系 ( 能用函数公式表示的确定性关系) 和相关关系( 不能用函数公式表示的关系) ,对 它们可采用统计分析方法,包括有:常用统计( 如求大量数据中的最大值、最小值、 总和、平均值等) 、相关分析( 求相关系数来度量变量间的相关程度) 、回归分析( 求 回归方程来表示变量间的数量关系) 、差异分析( 从样本统计量的值得出差异,来确 第二章多策略成绩分析方法研究基于多镱略的学生成绩挖掘与分析系统的研究与实现 定总体参数之间是否存在差异) 、判别分析( 建立一个或多个判别函数,并确定一个 判别标准) 。这也是本文主要应用的数据挖掘方法之一。 ( 6 ) 其它方法 在数据集另外还有仿生物技术中的神经网络和遗传算法,模糊数学方法、时间序 列模式等。 2 2 多策略的提出 多策略主要是运用多种挖掘方法,包括数据挖掘中的多种方法和数理统计等相关 的分析技术和手段,在宏观与微观上多侧面、多角度、多层次地对学生考试成绩的当 前和历史数据进行综合评价,分析结果能够传递考试成绩中隐含的信息,使得教学双 方能够从中受益。 本文中的多策略主要包括:采用基于决策树的分类挖掘方法,对学生成绩库中数 据进行分析,生成成绩决策树,找出学生成绩的相应分布:采用基于总结规则的统计 分析方法,完成不同情况下的成绩查询分析、预测及对比分析,实现学生成绩分析报 告、试卷质量评价报告及质量分析表的自动生成。 本文采用决策树分类法作为挖掘策略之一进行研究,基于以下几点考虑: ( 1 ) 决策树方法能够生成人们容易理解的规则。决策树是以树型结构表示最终 分类结果的,而且还可以生成i f - t i - 也n 形式的规则,这样接近于人们对现实世界事 物的认知和表示方式。 ( 2 ) 决策树方法实现简单,计算量相对来说不太大。本系统主要是实际应用, 而不是数据挖掘的算法研究,因此工作效率比较重要。决策树方法的计算量相对其他 方法来说比较小,这样可以大大地缩短计算时间,提高系统的执行效率。 ( 3 ) 成绩库的数据涵盖面比较广,包含的种类较多。决策树方法可以处理连续 和离散数据。 ( 4 ) 决策树可以清晰的显示出属性的重要程度。决策树是通过计算信息熵选择 分裂属性的,而信息熵正是该属性重要性的度量标准。从直观上看,决策树结点所在 的层次越高,该结点所代表的属性就越重要,相反结点所代表的属性对此次分类的作 用就越小。 本文采用基于总结规则的统计方法对学生成绩进行挖掘分析,是策略之二: 主要是从用户指定的数据库中以不同的角度或从不同的层次上挖掘出一系列的 4 基于多策略的学生成绩挖拥分析系统的研究与实现第二审 多策略成绩分析方i 盍研究 结果,如分布情况、关系,对比分析等,挖掘结果用交叉表,特征规则,统计的曲线、 图表等表示,所以采用统计分析方法具有简单、方便、直观等优点。 2 3 决策树分类方法 2 3 1 决策树的概念 决策树是一个类似于流程图的树结构,是一棵有向、无环树。树中的每一个结点 代表数据集中的一个属性,从根结点起除叶结点以外每个结点都是对所代表属性的一 次判断,根据判断的结果进入该结点的不同分技,叶结点代表的是分类的结果。决策 树分类算法是应用最广的归纳推理算法之一。它是一种逼近离散值函数的方法,对噪 声数据有很好的健壮性并且能够学习析取表达式。在这种方法中学习到的函数被表示 为一棵决策树。学习得到的决策树也能再被表示为多个i f - t h e n 的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 激光钻石纸行业深度研究报告
- 高周波焊结机行业深度研究报告
- 热力设备定期检修与检测方案
- 建筑环境与人性化设计方案
- 年产30万套护风圈焊接部件、30万套管件项目环境影响报告表
- 水库枢纽工程水力学分析与优化方案
- 天然气管道施工现场安全监督方案
- 人防工程地质勘察与设计方案
- 买贷款车的合同范本
- 代领培训补贴协议书
- 建筑企业管理制度大全-精品完整版
- 锚杆工程隐蔽验收记录
- 2020年汽车物流企业组织结构及部门职责
- 一句话营销技巧培训课件
- 批评话语分析
- 幼教培训课件:《家园共育体系建构与实施策略》
- 突发公共卫生事件健康教育与健康促进课件
- 2023版北京协和医院重症医学科诊疗常规
- (北师大版)六年级数学上册课件比赛场次公开课获奖课件
- 初中物理人教九年级(2022年更新)第十五章 电流和电路连接串联电路和并联电路教学设计
- CFRP板条加固钢筋混凝土梁在结构改造工程中的应用
评论
0/150
提交评论