(计算机应用技术专业论文)数据挖掘在计算机等级考试预测系统中的应用技术.pdf_第1页
(计算机应用技术专业论文)数据挖掘在计算机等级考试预测系统中的应用技术.pdf_第2页
(计算机应用技术专业论文)数据挖掘在计算机等级考试预测系统中的应用技术.pdf_第3页
(计算机应用技术专业论文)数据挖掘在计算机等级考试预测系统中的应用技术.pdf_第4页
(计算机应用技术专业论文)数据挖掘在计算机等级考试预测系统中的应用技术.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘在计算机等级考试预测系统中的应用技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要 通过设置数据问卷调查表及走访上该门课的教师,对广西工学院大一新生及 教师进行全国高校计算机等级一级考试情况详细调查,由此获取大量抽样数据。 经过反复推敲,筛选出:学号、教师姓名、文理科、电脑基础、学生对教师上课 质量评价、笔试模拟题、机试模拟题、上机意外因素、学生努力程度、教师责任 心、教师经验、试题难度、班级通过率、学生过级情况等属性,建立数据挖掘数 据库,将问卷调查表及教师情况表中的数据经过处理后转换到相应的数据库,完 成对数据的收集 数据挖掘数据库表建立好之后,从数据库表中随机抽取大约8 0 的数据放到 一个临时的数据库,从中抽取2 3 的数据作为训练集,1 3 的数据作为测试集。利 用贝叶斯分类法在训练集中建立学生过级预测模型,然后用测试集来进行评估精 度,只要其准确率达到8 7 以上,则认为导出的分类法是可行的,可以对学生过 级情况进行预测,否则重新抽取数据、建模、评价。可由数据统计分析方法建立 教师教学评价模型。 针对教师、学生在计算机文化基础这门课的教与学等方面所反映出来的 情况建立数据分析模型,用数据挖掘分析方法对计算机文化基础这门课程的 教学质量和学生学习情况进行科学的综合分析,以便对今后的教学和学生学习提 出指导性建议,同时也为评价学生的计算机基础知识和应用能力及评价教师对计 算机文化基础的教学水平等提供依据。 关键词;数据挖掘,预测,贝叶斯分类,建模,评价 华中科技大学硕士学位论文 a b s t r a c t s e tl l pd a t at 1 1 :r o u g haq u e s t i o o n a l r es u r v e y t h ec o n r s ea n dv i s i t e dt h et e a c h e r s , o u s n g x iu n i v e r s i t yo ft e c h n o l o g yf r e s h m e na n dt e a c h e r sa tt h en a t i o n a lc o m p u t e r r a n ke x a m i n a t i o nl e v e lo fd e t a i l e di n v e s t i g a t i o n 憾a c c 蹒t oal a r g en u m b e ro f s a m p l ed a t a a f t e rm u c hd e l i b e r a t i o n , s e l e c t e dn o :s c h o o l , t h ed a m o so ft e a c h e r s , h b e r a la r t sa n ds c i e n c e , c o m p u t e rb a s e de v a l u a t i o no ft h eq u a h t yo fat e a c h e rb ya s t u d e n tc l a s s e s w 矗h e nt h a ts i m u l a t i o n , s i m u l a t i o nt e s tm a c h i n ep r o b l e m so nt h ep l a n e a c c i d e n t , t h es t u d e n t s , t h ed e g r e eo fr e s p o n s i b i l i t yo ft e a c h e r s ,t e a c h e re x p e r i e n c e , d i f f i c u l tq u e s t i o n s p a s sg a t ec l a s s e s , s t u d e n t sa n do t h e ra t t r i b u t e so fc l a s s , ”t h e e s t a b h s h m e n to fd a t a m i n i n gd a t a b a s e n cs i t u a t i o n w i l lb e i n v e s t i g a t e db y q u e s t i o n n a i r ea n dt e a c h e r sr e a dt h ed a t ac o r r e s p o n d i n gt ot h ed a t a b a s ea f t e rc o n v e r s i o n t oc o m p l e t et h ec o l l e c t i o no f d a t a b u i l du pag o o dd a t a b a s ed a t am i n i n g , r a n d o ms a m p l eo fa b o u t8 0 o ft h e d a t a b a s et a b l e sf i o mt h ed a t ai nat e m p o r a r yd a t a b a s e , t w o - t h i r d so ft h ed a t ac o l l e c t e d f m mt h et r a i n i n gs e t , a sat h i r do ft h et e s td a t as e t u s i n gb a y e s i a nc l a s s i f i c a t i o n f o c u s e do nt r a i n i n gs t u d e n t si nt h ec l a s sp r e d i c t i o nm o d e la n dt h e nu s et h et e s ts u i t et o a s s e s st h ea c c u r a c y , 雒l o n ga st h e i ra c c u r a c yr a t eo fm o r et h a n8 7 。t h a t t h e c l a s s i f i c a t i o ni sd e r i v e df e a s i b l e , t h el e v e lo fs t t i d c n 协f o r e c a s t , r e - c o l l e c t e dd a t a , m o d e l i n ga n de v a l u a t i o n s t a t i s t i c a la n a l y s i so fd a t af r o mt e a c h i n gm e t h o d st oe s t a b l i s h e v a l u a t i 蛆m o d e l , t a r g e t i n gt e a c h e r s , s t u d e n t si nt h e ”c o m p u t e rc u l t u r e ”t h i sc o b 站eo ft e a c h i n ga n d l e a r n i n ga n do t h e ra s p e c t sa r er e f l e c t e di nt h es i t u a t i o ns e tu pud a t aa n a l y s i sm o d e l u s i n gd a t am i n i n ga n a l y s i so nt h e 。c o m p u t e rc u l t u r e ”t h i sc o u r o ft h eq u a l i t yo f t e a c h i n ga n dl e a r n i n gs i t u a t i o ns c i e n t i f i c a l l yc o m p r e h e n s i v ea n a l y s i ss oa st ot h ef u t u r e o ft e a c h i n ga n dl e a r n i n gt op r o v i d eg n i d a n c ep r o p o s a l s ,b u ta l s of o ra s s e s s i n gs t u d e n t s o i lb a s i cc o m p u t e rk n o w l e d g ea n da b i l i t ya n de v a l u a t i o no ft e a c h e r sf o rt h e ”c o m p u t e r c u l t u r eb a s i s ”s t a n d a r do f t e a c h i n g p r o v i d e b a s s k e y w o r d s :d a t am i n i n g , f o r e c a s t i n g , b a y e s i a nc l a s s i f i c a t i o n , m o d e l i n g , e v a l u a t i o n 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集 体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:盈皋,t 日期:o ,口6 年f p 月) ;日 关于论文使用授权的说明 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口 本论文属于 不保密团 ( 请在以上方框内打“”) 在年解密后适用本授权书。 学位论文作者签名:要书f l 指导老师 日期:d ,口( 年f o 月z 弓日 , 日炒r 唧日 f 华中科技大学硕士学位论文 1 1 选题背景 1引言 1 1课题来源 进入2 l 世纪这个信息时代,社会经历了一次重大的变革,信息化的社 会是学习的社会,掌握基本的计算机技能引起了当前人们足够的重视。 计算机文化基础是工科院校所有非计算机专业必修的一门专业基础 课程,是国家教委所要求的计算机基础教学三个层次中的第一个层次教学, 主要是使学生掌握计算机基础知识和基本操作技能,培养学生的计算机文化 意识。 计算机文化基础是全国高校联考统考课程广西教育厅对各高校的 考试成绩要进行排队,成绩的好坏直接影响到学校的荣誉,也关系到学生是 否能拿到该门课学分的问题高校非计算机专业的学生必须通过全国高校计 算机等级一级考试,才能得到计算机文化基础 这门课的成绩,否则拿不 到本科毕业证书 本课题通过学生参加全国高校计算机等级一级考试,达到检查、推动、 促进高校非计算机专业的计算机基础教育的开展,加强高校计算机师资队伍 建设和计算机实验室建设,提高高校计算机教育水平,使学生掌握专业学习, 科研和计算机后继课程学习所需要的计算机基础知识、基本理论和基本技 能,提高学生的综合素质,培养适应信息化社会需要的专门人才,为评价学 生的计算机基础知识和应用能力及评价教师对该门课的教学水平等提供依 据但对该门课的教学同时也普遍存在下面几个问题:对师资队伍建设重视 不够,忽视新教师的培养,造成新教师由于缺少教学经验而上课不够理想; 对学生考前的实训工作重视不够,虽然新生第一次参加等级考试通过率在全 广西位于前列,但当前,广西工学院计算机教学体系的建设还只是处于起步 华中科技大学硕士学位论文 阶段,所以还是不够理想的。如何充分利用现有教学资源,使教学水平更上 一个台阶;怎样利用现有的技术,建成符合该课程标准的一套完整的计算机 评价教学系统,正是目前急需考虑和解决的重要问题。 1 1 2 课题目的和意义 数据挖掘分析方法是目前数据分析的一种新方法,这种方法多数根据商 业数据建立数据挖掘分析模型进行数据分析,而根据学生的计算机等级考试 过级情况建立一个数据挖掘分析系统,对教学质量和学生工作质量进行分析 还未见报道。计算机评价教学系统最为突出的一点是:利用现有的技术手段, 对影响学生考试成绩的各方面信息建立一个数据挖掘分析模型,由此得到对 教学质量和学生工作质量评价的新办法。针对学生等级考试情况建立数据挖 掘分析模型是数据挖掘分析方法的一个应用,为教学质量和学生工作质量提 供一套科学评价的新方法,有利于克服单凭经验来对学生考级作一些简单分 析的缺点,使学生个性化的自主学习与交互协调学习相结合,充分发挥学生 和老师的主动性和创造性。可见,这项工作对教学质量和学生工作质量的科 学评价等方面有其重要的实际意义。 1 1 3 课题应解决的问题 在学习计算机文化基础这门课程中,人们经常看到这样的情景:教 师盲目填鸭式的教学,根本不了解学生的所需;而学生不知道如何去学习该 门课程。大家都在忙碌,而学校更看重的是临时解决问题,而不是让问题不 再发生。学校经常要面对以下这些问题: ( 1 ) 教学技术的不断改革,教师如何适应教学不断变化的状况: ( 2 ) 学生情况不断变化,教师如何面对学生的个性发展; ( 3 ) 教学目的不明确,如何密切联系各方面的教学资源; ( 4 ) 如何调动学生的积极性 针对计算机教学的特点及所面对的问题,本文中提出了以下切实有效的 解决办法: 华中科技大学硕士学位论文 ( 1 ) 通过对影响通过计算机等级考试因素的分析,较准确的预测学生在 将来过级考试中的通过率通过改进影响过级的各个因素,较大限度地提高 教学水平,从而增强学生学习的主动性,适应不断变化的教学改革。 ( 2 ) 通过对学生过级信息的收集、整理及模拟演示,使学校及时掌握各 种决策信息,同时可向教师提供一些合理化的教学建议及对学生的学习提出 一些指导性的建议 ( 3 ) 本文工作成果同时也可作为一个评价系统,通过对教师信息的整 合,实现对教师的综合评价,加强学校的内部管理,提高教学质量。 ( 4 ) 本系统提供系统接口,支持多种数据库 本系统框架见图1 1 。 图1 1 系统框架图 1 1 4 达到的技术要求 1 数据挖掘数据库的建立 利用数据库o d b c a p i 技术,实现动态链接后台数据库,本课题包括了 学生的学号、教师代号、教师姓名、文理科、电脑基础、学生对教师上课质 量评价、教师经验、笔试模拟题、机试模拟题、试题难度,学生努力程度、 上机意外因素、班级过级率、教师责任心、过级等诸多属性。 2 数据挖掘预测模型的建立 ( 1 ) 数据挖掘分析模型的建立 数据挖掘算法的工作方法是通过分析已知分类信息的数据给出一个预 测模型。把收集到的数据随机抽取8 0 的数据到一个临时数据库,把这个临 3 华中科技大学硕士学位论文 时数据库中的数据分为两个集合;用于建立模型的数据称为训练集,另一个 用于测试所建模型的准确率的数据称为测试集,通常是已经掌握的数据训 练和测试数据挖掘模型把已知数据分成两部分:一个用于模型的训练,这部 分占整个数据的2 ,3 ;另一个用于模型测试,占整个数据的1 3 注意一定要 保证数据选择的随机性,使所建模型具有代表性并且该模型确实能反映其本 质 ( 2 ) 模型评价的方法 用训练集把模型建立出来之后,可以先对测试集数据进行测试,此模型 在测试集上的预测准确率就是一个很好的指导数字。若准确率大于8 7 ,则 说明在该训练集上建立的模型是可行的,可用此模型预测其它的数据,并给 出其预测结果为正确的百分比。 1 1 5 本课题在国内外的发展概况 数据挖掘是数据分析的一种新方法,这种方法在商业上的应用很广泛,而根 据学生参加一级考试的过级情况建立数据挖掘分析模型,对教师的教学评价和学 生的过级等情况进行分析还未见报道。 1 研究开发现状 利用传统的数据库开发技术,简单地进行一些数据分析,如对教师的评价, 由于数据量大,其模型未建立,综合评价的能力低,可信度不高;而对学生的学 习情况只能进行一些简单的问卷调查,没有形成相应的数据挖掘数据库,未能对 有趣的数据进行分析,从而较难得出对我们有用的规则,也不可能提出一些令人 信服的对教学、学生学习有着指导意义的、合理化的建议。 2 发展趋势 传统的计算机信息处理系统中使用最广泛的技术是数据库,不可否认,它曾 在计算机信息统计的发展中发挥了巨大的作用,但它们的局限性也是有目共睹的。 随着教育技术的不断更新,一些新兴技改技术必然在基础教育中起着越来越重要 的作用但这些新技术并不会即刻取代传统技术;相反,它们以一种相互补充、 相互融合的方式,在传统技术局限性的所在领域,逐渐显示其优越性。从目前的 4 华中科技大学硕士学位论文 发展趋势来看,以下新兴技术将融合到计算机信息处理和计算机基础教育中f l l : 预测技术,它可以解决对当前教学情况的把握程度。 决策技术,它可以解决学校对当前教育所做出的决策问题,以及教学的改 革问题和方向 人工智能技术,解决主动性学习及面向学生个体和教师的诸多问题。 1 1 6 设计指导思想 随着社会信息技术的高速发展,为了适应日趋激烈的就业形势,报考并 参加计算机等级一级考试已经成为了各高校学生必备的一个基本技能之一 如何才能够顺利通过计算机等级一级考试,各高校学生迫切急需了解。针对这个 问题,课题通过运用数据挖掘中的贝叶斯分类技术,对计算机一级考试通过 的高校学生、和没能通过一级考试的高校学生存在的普遍特性进行挖掘,从 中挖掘出哪些因素起主导作用,哪些因素对过级所起的影响较小,此外,还 提供一个平台,让用户针对自身的情况对能否过级进行预测这种方法是科 学的、有理论依据的、可依赖的此外,还运用权重统计分析方法,对教师 的教学质量进行科学的综合评价本课题可以从不同的角度给予教师和学生 科学性的指导,从而进一步提高广西工学院的计算机一级考试过级率。 整个系统追求功能齐全,界面友好,操作简单,符合软件开发的思想。 1 2 贝叶斯分类与数据挖掘 数据挖掘就是从大型数据集的数据中提取人们感兴趣的知识。这些数据是大 量的,不完全的、有噪音的、模糊的、随机的,要提取的知识是隐含的、事先未 知的潜在有用信息f 2 1 ,这些知识表示为概念、规则、规律、模式等形式。还有很多 和这一术语相近似的术语,如从数据库中发现知识、数据分析、数据融合以及决 策支持i 撕噜。人们把数据看作是形成知识的源泉,就像从矿石中采矿一样原始 数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、 图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法是数学的, 5 华中科技大学硕士学位论文 也可以是非数学的,可以是演义的,也可以是归纳的【7 。1 0 1 发现了的知识可以被用 于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护 因此,数据挖掘是一门广义的交叉学科1 1 1 l ,它汇聚了不同领域的研究者,尤其是 数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员 数据挖掘所发现的知识有以下几种:概念型知识,反映同类事物共同性 质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不 同事物之间属性差别的知识;关联型知识,反映事物之间关联或依赖的知识; 预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事 物偏离常规的异常现象 数据挖掘可以发现基于以下类型的知识,归根到底集于一点就是,通过 预测未来趋势及行为,做出前瞻的、基于知识的决策【1 2 1 数据挖掘的目的是从数据集中发现隐含的、有意义的知识,主要有以下 几类功能: ( 1 ) 自动预测趋势和行为; ( 2 ) 关联分析: ( 3 ) 分类; ( 4 ) 聚类; ( 5 ) 概念描述; ( 6 ) 偏差分析。 1 2 2 贝叶斯分类及其挖掘背景 托马斯贝叶斯( t h o m a sb a y e s i a n ) 是英国数学家,他对贝叶斯方法奠基 性的工作是他的论文“关于几率性问题求解的评论”由于当时贝叶斯方法 在理论和应用中还存在很多不完善的地方,因此在很长一段时间并未被普遍 接受。后来随着统计决策理论、信息论和经验贝叶斯方法等理论和方法的创 立和应用,贝叶斯方法很快显示出它的优点,成为十分活跃的一个方向。随 着人工智能的发展尤其是机器学习、数据挖掘的兴起,贝叶斯理论的发展和 应用也获得了更为广阔的空间。近年来,贝叶斯学习理论方面的文章更是层 6 华中科技大学硕士学位论文 出不穷,内容涉及到人工智能的大部分领域,如因果推理、不确定性知识表 达、模式识别和聚类分析等f ”l ,同时出现了专门研究贝叶斯理论的组织 i s b a ( i n t e r n a t i o n a ls o c i e t yo fb a y e s i a na n a l y s i s ) 贝叶斯学习理论将先验知识与样本信息相结合、依赖关系与概率表示相 结合,是数据挖掘和不确定知识表示的理想模型与数据挖掘中的其它方法 相比,如规则表示、决策树、人工神经网络等,贝叶斯学习理论1 1 1 5 i 具有较 明显的优点 贝叶斯学习能够方便的处理不完全数据。例如考虑具有相关关系的多个 输入变量的分类或回归问题【1 昏1 7 1 ,对标准的监督学习算法而言,变量间的相 关性并不是它们处理的关键因素,当这些变量中有某个缺值时,它们的预测 结果就会出现很大的偏差。而贝叶斯学习则提供了较为直观的概率关联模 型。 贝叶斯学习能够学习变量间的因果关系。因果关系是数据挖掘中的极为 重要的模式原因有二:在数据分析中,因果关系有利于对领域知识的理解; 在干扰较多时,便于做出精确的预测【埔五1 1 。 贝叶斯网络与贝叶斯统计相结合能够充分利用领域知识和样本数据的 信息f 2 2 彩1 任何从事过实际建模任务的人都会知道,先验信息或领域知识在 建模方面的重要性,尤其是在样本数据稀疏或数据较难获得的时候,一些商 业方面的专家系统完全根据领域专家知识来构建就是一个很好的例证。贝叶 斯网络【2 岳2 9 l 用弧表示变量间的依赖关系,用概率分布表来表示依赖关系的强 弱,将先验信息与样本知识有机结合起来 贝叶斯方法正在以其独特的不确定性知识表达形式、丰富的概率表达能 力、综合先验知识的增量学习特性等成为当前数据挖掘众多方法中最为引入 注目的焦点之一。 1 2 3 数据挖掘的过程 完整的数据挖掘过程一般可以分成以下5 个步骤f 3 m 3 4 1 ,见图1 2 。 7 华中科技大学硕士学位论文 图1 2 完整的数据挖掘过程的流程概图 1 问题定义:了解相关领域的有关情况,熟悉背景知识,弄清用户要求, 定义要挖掘的目标 2 数据提取:根据要求从数据库中提取相关的数据 3 数据预处理:主要对前一阶段产生的数据进行再加工,检查数据的 完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填 补。 4 知识获取:运用选定的数据挖掘算法,从数据中提取用户所需要的 知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式 5 评估;将以用户能理解的方式呈现,例如某种规则,在根据实际执 行情况对知识发现过程中的具体处理阶段进行优化,直到满足用户要求。 具体工作流程t 2 】1 1 3 l 见图1 3 。 1 3 设计原理 1 3 1 贝叶斯定理 设z 是类标号未知的数据样本。设日为某种假定,如数据样本工属于 某特定的类c 。对于分类问题,我们希望确定e ( x 1 日) 给定观测数据样 8 华中科技大学硕士学位论文 本x ,假定h 成立的概率 e ( x 1 日) 是后验概率( p o s t e r i o r p r o b a b i l i t y ) ,或条件日下z 的后验概率 以日) 是x 的先验概率 3 5 1 ,则贝叶斯定理是有用的,它提供了一种由 p 弘) ,p ( 日) 和p ( x i h ) 计算后验概率e ( x 1 日) 的方法贝叶斯定理是: e ( u l 跏警 图1 3 数据挖掘的具体工作流程 3 2 分类预测原理 朴素贝叶斯分类或简单贝叶斯分类的工作过程【2 】f 3 6 1 如下: 1 每个数据样本用一个珂维特征向量石一x l ,z 2 ,以) 表示,分别描述 对i t 个属性4 ,4 ,4 样本的阼个度量。 2 假如有m 个类c l ,c :,c _ 给定一个未知的数据样本x ( 即没有类标 号) ,分类法将预测工属于具有最高后验概率( 条件工下) 的类。即是说, 朴素贝叶斯分类将未知的样本分配给类c ,当且仅当 v ( x l c i ) p ( i 1 ) e ( x i c ,) p ( c j ) ,1 ,小,一 这样,最大化p ( qi z ) 。其p l j ) 最大的类q 成为最大后验假定根 据贝叶斯定理有: 华中科技大学硕士学位论文 删玲警 3 由于p 仁) 对于所有类为常数,只需要r ( x l c 艄) 最大即可如果 类的先验概率未知,则通常假定这些类是等概率的,即 p ( c o h 巴) 一一p ( q ) 。并据此只对p 晒i j ) 最大化否则,最大化 p ( x i c a p ( c , ) 注意,类的先验概率可以用尸( c 1 ) 一墨,$ 计算,其中屯是类q 中的训练样本数,而5 是训练样本总数。 4 给定具有许多属性的数据集,计算p ( x i c ) 的开销可能非常大。为降 低计算p ( x i q ) 的开销,可以做类条件独立的朴素假定。给定样本的类标号, 假定属性值相互条件独立。印在属性问,不存在依赖关系这样, e ( x i c , ) 一p 瓴l g ) 嗍 概率p 瓴l q ) ,p ( k ic j ) ,雕。i c j ) 可以由训练样本估值,其中 ( 1 ) 如果a k 是分类属性,则雌。i g ) - 5 a i s 。其中5 。是在属性以上具有 值屯的g 的训练样本数,而墨是c l 中的训练样本数。 ( 2 ) 如果4 是连续值属性,则通常假定该属性服从高斯分布【3 引因此, 鱼1 9 芏 尸瓴i q ) - g ( x , ,“q ,) - 荔1 i 8 2 0 c l a 其中,给定类q 的训练样本属性4 的值,g ( x ;,) 是属性4 的高斯密度 函数,而,分别为平均值和标准差 5 对未知样本置分类,对每个类c ,计算p ( x ic i ) p ( c f ) 。样本x 被指派 到类c ,当且仅当e ( x i c ,) p ( c l 卜e ( x i c j ) p ( c j ) ,1 ,m ,一f ,换言之,x 被 指派到其e ( xl q ) p ( c j ) 最大的类g 。 华中科技大学硕士学位论文 1 4 小结 阐述了本课题的来源、目的、意义及应解决的问题,介绍了本课题在国 内外的发展概况、解决本课题所用到的设计原理及数据挖掘知识,详细分析 了本系统应达到的技术要求,包括:数据挖掘数据库的建立,数据挖掘预测 模型的建立,预测模型评价的方法等。 1 l 华中科技大学硕士学位论文 2 1问题定义 2 系统分析 通过对全院上计算机文化基础 这门课的学生进行调查及对历年该门 课程的过级率等数据的分析,充分考虑影响计算机等级考试过级的各种因 素,形成数据挖掘所用到的数据库。该系统可实现:对某教师教学水平进行 评价;分析影响学生过级率的因素:对比分析当年与历年学生过级率情况; 根据往年的考试经验、当年的考试题目难易程度、教师的教学及学生的学习 等情况,预测新生第一次参加等级考试过级情况,还可以对教师的教学进行 评价。 主要研究的内容有:数据采集,适合数据挖掘的数据库建立过程,预测 模型的建立与评价,预测及决策的实现,教师的教学评价等。 2 2 需求分析 2 2 1 数据描述 1 原始数据的整理收集 设计计算机基础教育问卷调查表,通过访问、发放数据调查问卷表等形 式,对广西工学院大一新生( 数据量超过4 0 0 0 条) 进行了计算机等级一级 考试的相关信息的详细调查,让学生填好表并回收该表走访上计算机文化 基础的教师,填写教师情况表。 2 输入数据 把计算机基础教育问卷调查表及教师情况表分别输入到计算机,形成相 应的数据表:学生信息表和教师情况表。 学生信息:包括学生的学号、教师姓名、文理科、电脑基础、笔试模拟 题、机试模拟题、学生努力程度、上机意外因素、教师责任心、教师经验、 华中科技大学硕士学位论文 学生对教师上课质量评价、是否过级等。 教师情况信息:包括教师代号、教师姓名、所教班级及班级过级率等 试题难度情况的输入:根据全省计算机等级考试本次通过率而定,若全 省通过率7 5 :容易;6 0 4 全省通过率 8 7 ,则说明该模型是可行的, 输入一学生的相关信息及某教师情况,可以对该学生参加计算机等级考试过 级情况进行预测。 ( 4 ) 教师教学质量的评价 通过试题难度、班级过级率、教师责任心、学生对教师上课质量评价等 情况,运用权重的方法对每一个教师的教学质量进行综合评价。 4 输出数据 ( i ) 数据表中所有的数据。 ( 2 ) 训练集数据。 ( 3 ) 测试集数据。 ( 4 ) 预测模型的准确率。 华中科技大学硕士学位论文 ( 5 ) 预测学生过级情况:利用所建立的预测模型,根据所输入某学生 及教师的数据,输出该学生是否过级。 ( 6 ) 影响过级程度的对比分析图;数据库表中的数据对学生过级的影 响程度 ( 7 ) 某教师教学质量评价情况。 2 2 - 2 功能需求 计算机等级考试预测系统分为五大模块,各模块的主要功能为: 1 数据维护模块 ( i ) 学生信息的输入:包括学生的学号、教师姓名、文理科、电脑基础、学 生对教师上课质量评价,教师经验、笔试模拟题、机试模拟题、试题难度,学生 努力程度、上机意外因素,教师责任心、过级等上计算机文化基础这门课的教 师情况输入:教师代号、教师姓名、授课班级、上课经验、班级过级率等。试题 难度的输入:根据全省考试情况的通过率确定试题难度。 ( 2 ) 根据学生信息表及教师情况表,建立适合数据挖掘的数据库表。可 以实现动态数据库链接,要求数据格式符合系统运行标准 ( 3 ) 输出数据表中的所有信息。 2 预测模块 ( 1 ) 随机从所选择的数据库表中抽取8 0 的数据放入临时库 ( 2 ) 随机从临时库中抽取2 3 的数据,作为训练集,在训练集中运用贝叶斯分 类方法建立预测模型。 ( 3 ) 临时库中剩下的1 3 数据,作为测试集。利用测试集对所建立的预测模型 进行准确性评估,并显示其准确精度,如果准确率 1 8 7 ,则说明可用该预测 模型对学生是否过级进行预测。 ( 4 ) 使用饼图直观显现预测结果比例。 ( 5 ) 给出影响学生过级的因素。 5 小时:努力,1 每周用于该门课的时间4 9 小时:一般,每周用于 该门课的时间1 小时:不努力) 、上机意外因素( 上机时是否出现异常情 况:有,无) 、班级过级率、教师责任心( 从讲课,改作业、辅导、答凝等 情况综合进行考虑:优、良、中、及格,不及格) 、个人过级情况等 从已建立好的数据库信息表中随机抽取大约8 0 的数据放到一个i 临时 数据库,为了得到更随机的数据,采用了系统自带的r a n d 0 的随机函数及取 得系统时问秒数的函数g c t s e c o n d 0 进行相乘,避免了只用r a n d 0 在每次程 序运行时得到同样的数据。 4 2 预测模块 预测模块的流程图见图4 4 ,盒图见表4 4 所示。 华中科技大学硕士学位论文 图4 4 预测模块的流程图 表4 4 预测模块的盒图表 连接数据库 随机抽取8 0 的数据建立临时数据库 从临时数据库中随机抽取1 3 数据形成测试集、2 1 3 数据形成训练集 对训练集数据,利用贝叶斯分类法求出p ( 过级:过砷、p ( 过级:不过砷、 p ( x1 c 过级i 过 及p ( x i 过级:不过为建模。仪为未知样本) 运用生成的分类法对测试集数据进行预测,算出准确率 准确率8 7 预测 显示结果 华中科技大学硕士学位论文 4 2 1 随机抽取数据 1 建立与后台数据库的连接 本系统能与数据库建立一种动态的连接,改变了以往那种以静态连接数 据库,只能对一个数据源且只能对一个特定名称的表进行访问的弊端和缺 点动态连接数据库的运行情况见图4 5 图4 5 弹出动态连接数据库的对话框 动态连接数据库算法如下: 仓4 建会话对象 i f ( r e _ s e s s i o n o p e n ( r ec o n n e c t ) i 趾0 目 a f x m c s s a g c b o x o r ( ”不能刨建会话对象! ”) ) ; r e t u r ni c i l s e : 由属性得到所数据源的名字 c c o m v a r i a n tv a t - ;, m _ c o n n c c t g e t p r o i 圮r t y ( d b p r o p s e t _ d a t a s o u r c e i n f o , d b p r o p _ d a t a s o u r c e n a m e , & v a r ) ; m _ s t r c o n n e , c t = o l e 2 t ( v a r b s t r v a l ) ; 华中科技大学硕士学位论文 ,连接数据库 c s t r i n gs t r ;, s i r f o r m a t ( ”d s n = s ;p r o v i d e r = m s d a s o l , m _ s t r c o n n e c t ) ; i f ( f a i l e d ( :c o i u i f i a l i z e ( n u l l ) ) ) a f x m e s s a g c b o x ( ”a d oi n i tf a i l e d ”) ; i c u h df a l s e ; ) t r y a d o c o n n c r e a t e l n s t a n c c c _ u u i d o f ( c o n n e 斌i o n ) ) ; a d o c o n n - o p e n ( ( _ b s t r _ t ) s t r , ”s a ”,“”,a d c o n n c c t u n s p e c i f i e d ) ; ) ,捕捉例外 c a t c h ( c o r n _ e r r o r 力 c s t r i n ge r r ; e r r f o r m a t ( ”s “,( c h a r 。x c d e s c r i p t i o n o ) ) ; a f x m e s s a g e b o x ( e r r ) ; ) c a t c h ( ) a f x m e s s a g e b o x ( ”u n k n o w ne r r o r 飞 2 动态选择数据表 建立起与数据库的连接之后,在工具框中的组合框中便列出了数据源中 所有的表。系统默认是读取第一个表的数据,根据需要,用户可以动态地选 择不同的表,程序也跟着动态地读取所选择的表中的数据。见图4 6 所示。 华中科技大学硕士学位论文 图4 6 动态选择数据库中的表 3 随机抽取数据 建立了与数据库的连接之后,从数据库中随机抽取大约8 0 的数据出来 放到一个临时的数据库中,为了得到更随机的数据,采用了系统自带的r a n d 0 的随机函数及取得系统时间的秒数的函数g e t s e c o n d 0 进行相乘,避免了只 用r a n d 0 函数在每次程序运行时得到同样的数据获得临时数据库后,从临 时数据库中抽取大约2 3 的数据作为训练集,大约1 3 的数据作为测试集 采用贝叶斯算法并使用训练集导出分类法,也就是我们所说的建模,然后用 测试集来对所建预测模型进行精度评估,只要其准确率达到8 7 以上,则认 为导出的分类法是可行的,就可以用此模型对学生过级情况进行预测。否则, 重新抽取数据进行建模。 随机抽取函数描述:g e t r a n d d a t a 0 目的:得到一些随机数 参数: m a x随机数中最大的数 返回值:保存随机数数据组的首址 算法:随机产生一个数; 该数已存在,重新产生,否则保存; 直到随机抽得的数的个数满足要求 整个随机抽取数据的算法流程见图4 7 华中科技大学硕士学位论文 图4 7 随机抽取数据流程图 在程序中随机抽取得到的数据集见图4 8 4 1 0 。 图4 8 显示全部学生8 0 的数据表格 华中科技大学硕士学位论文 图4 9 显示训练集数据的表格 图4 1 0 显示测试集数据的表格 随机抽取函数算法实现如下: w h i l e ( i - a l l n u m ) 力抽取训练集数据 t i m e = c t i m e :g e t c u n - e n t t i m e o ; r a n d n u m f ( r a n d 0 t i m e g e t s e c o n d 0 ) c o u n t ;得到随机数 f o r ( i n ti = 0 ;埘;i + + ) i f ( a l l i 0 l = = r a n d n u m ) ,判断是否出现重复随机数 f l a g = t r u e ; b r e a k ; e l s e f l a g = f a l s e ; ) 诋! f l a g ) 华中科技大学硕士学位论文 a l l 【j 】【0 】- - r a n d n m n ; a l l d 】【1 】= 0 ; j + + ; ) j = o ; w 】m c ( 1 中的。过”和。不 过”给定一个未知的数据样本z ( 即没有类标号) ,分类法将预测属于具有 最高后验概率( 条件z 下) 的类也就是说,分别求出啦级:过i z ) , p ( 过级:不过l 工) 这两个后验概率,并取其中最大那个为最大后验概率如果 p ( 过级:过i z ) d 过级:不过i 工) ,那么过级= 。过”; 否则过级= 。不过” 根据贝叶斯定理 p ( hix ) p ( x i h ) p ( h ) p t x 、 即可求出后验概率,要后验概率为最大,由于叫工) 对所有的类来说都 是常数,只要p ( x i h ) p ( h ) 最大即可。先验概率,) 可通过 p ( 过级:过i z ) - s 。s ,及p ( 过级:不过l j ) - j :s 来计算。黾为。过”的总数, j ,为。不过”的总数,s 为训练集样本总数。 刀p ( 过级一过”) - 过的人数总人数 p n - 以过级一不过”) - 不过的人数总人数 接下来,求出曰闭 ) 与p 0 1 过级;不过) 。给定样本的类标 号,假定属性值相互独立,这一假定简化了计算。当假定成立时,朴素贝叶 斯分类是最精确的。当属性相互独立时, p ( x i c ) - p ( x 。) p 僻:i g ) p ( 以l c ) 也就是说,曩| 过级:过) 一尸g ,陋级:过) 尸仁2 | 过级:过) x ,僻| 过级:过) , 在这里n 1 0 。同理 华中科技大学硕士学位论文 p ( x i 过级:不过) - 户( 邑j 过级:不过) x p 暖:i 过级:不过) x x 尸( 以l 过级:不过) 而p i 过) i 过) 及p i 不过) 可以由训练样本估值。 ( a ) 如果a k 是分类属性p ( z 。瞄) - s a - ,其中s a - 是属性4 上具有值以 的类的训练样本数,而而是g 中训练样本数比如: p ( l ) 一理科的人数,过级的人数 ( b ) 如果4 是数值型属性,则该属性为 堕当兰 眠f c 1 ) 。g 瓴,n q ,) 。面i i c 2 0 c t : 其中,暑纯,) 是属性4 的高斯分布密度函数,而,分别是平均值 和标准差具体在程序中计算如下: p ( i l i 过级:不过 - 文科的人数,不过的人数 p ( 电脑基础:有 i ) = 有的人数过的人数 p ( l ) = 有的人数不过的人数 p ( 电脑基础:无) i ) = 无的人数,过的人数 p ( f 过级:不过 ) = 无的人数不过的人数 p ( i i ) = 良的人数不过的人数 p ( l 过级:过 ) = 良的人数过的人数 p ( i ) - 良的人数不过的人数 学生对教师上课的评价:中 i ( 过级;过 ) = 中的人数过的人数 p “学生对教师上课的评价:中 i i ) = 不及格的人数,不过的 人数 依次类推,分别计算出教师责任心、教师经验、笔试模拟题、机试模拟 题、试题难

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论