(教育技术学专业论文)数据挖掘技术在测试信息分析中的应用.pdf_第1页
(教育技术学专业论文)数据挖掘技术在测试信息分析中的应用.pdf_第2页
(教育技术学专业论文)数据挖掘技术在测试信息分析中的应用.pdf_第3页
(教育技术学专业论文)数据挖掘技术在测试信息分析中的应用.pdf_第4页
(教育技术学专业论文)数据挖掘技术在测试信息分析中的应用.pdf_第5页
已阅读5页,还剩90页未读 继续免费阅读

(教育技术学专业论文)数据挖掘技术在测试信息分析中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

m a s t e r st h e s i s ,2 0 1 0i 二埘:1 二嬲嬲蚴 s t u d e n ti d :51 0 7 0 1 0 4 0 0 3 e a s tc h i n an o r m a lu n i v e r s i t y a p p l y i n gd a t am i n i n gi nt e s t i n g 1 1 1 一 i n f o r m a t i o n a n a l y s i s d e p a r t m e n t : e d u c a t i o n a li n f o r m a t i o nt e c h n o l o g y s p e c i a l i z a t i o n : 基血曼垒! i q 坠墅业望q ! q 毂一一 o r i e n t a t i o n :e d u c a t i o n a li n f o r m a t i o np r o c e s s i n g s u p e r v i s o r : s t u d e n t :f a ny u n h u a n f i n i s h e di na p r i l ,2 0 1 0 华东师范大学学位论文原创性声明 郑重声明:本人呈交的学位论文数据挖掘技术在测试信息分析中的应用,是在 华东师范大学攻读弓壬博士( 请勾选) 学位期间,在导师的指导下进行的研究工作及取 得的研究成果。除文中已经注明引用的内容外,本论文不包含其他个人已经发表或撰写 过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中作了明确说明并 表示谢意。 作者签名: 日期:矽年j 月邵日 数据挖掘技 导师指导下完成的 息分析中的应用系本人在华东师范大学攻读学位期间在 请勾选) 学位论文,本论文的研究成果归华东师范大学所 有。本人同意华东师范大学根据相关规定保留和使用此学位论文,并向主管部门和相关 机构如国家图书馆、中信所和“知网送交学位论文的印刷版和电子版;允许学位论文 进入华东师范大学图书馆及数据库被查阅、借阅;同意学校将学位论文加入全国博士、 硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、 缩印或者其它方式合理复制学位论文。 本学位论文属于( 请勾选) ( ) 1 经华东师范大学相关部门审查核定的“内部 或“涉密 学位论文, 于年月日解密,解密后适用上述授权。 ( ) 2 不保密,适用上述授权。 导师签名本人签名芤秋欢 本人签名主坠丛整 伽矽年岁月鄙日 “涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的学位 论文( 需附获批的 对学习者的个性化练习试题的推荐和组卷 运用c e m c n t m e 中关联规则分析模型和数据处理的选择、抽样节点,对学 习者试题答题数据进行关联规则挖掘。然后,运用得到的试题间的相关性结论, 对学习者进行个性化的试题推荐:根据学习者答错的试题进行同类型试题的推 荐;根据试题间的关联规则对学习者可能出错的试题进行推荐。通过对学习者的 个性化试题推荐帮助学习者消除学习中存在的障碍,更好地掌握知识单元、达到 学习目标。 辅助教师进行试题、试卷分析 根据试题的关联规则分析结果,可以了解学习者是由于哪些知识点或试题存 在学习障碍而导致某个测试知识点或试题的学习失败,并且根据试题的关联规则 得到的试题相关性作为教师组卷的参考。 辅助教师进行学习者一试题特质分析 运用c | e m e m m e 中的聚类分析模型,以学习者的试题答题数据为依据对学 习者进行聚类分析,将答题情况相近的学习者聚为一类。之后运用e x c e lv b a 2 第1 章绪论 编程对每一个聚类的学习者进行s p 表分析,使得教师对于学习者和试题的特质 既有整体的了解,也能够进行个别分析,辅助教师对存在异质性的学习者或试题 进行有针对性的分析。 一 1 3 研究意义 中国有个成语叫“对症下药,治病需要找到症结所在。其实教育与此是相 通的,好的教育也需针对每位学习者学习中存在的问题,给予个性化的诊断和指 导,并给予教师关于试卷、试题和学习者情况的有效反馈信息。测试是了解学习 者和教学情况的一种重要途径,通过测试信息的分析能够了解和分析学习者和试 题存在的问题。 学习者和教师是测试过程的主题,测试信息的数据挖掘能够指导和帮助学习 者和教师的学习和教学。在学习者维度,从其测试试题答题数据入手,根据学习 者的答题情况在其存在学习障碍的试题上进行个性化试题练习推荐,能够帮助学 习者更好地掌握知识点、达到教学目标。在教师维度,通过测试数据的分析能够 帮助教师从无序的测试数据中得到试卷、试题和学习者的信息与情况,为教师教 学的改进提供有效的反馈信息。具体地说,笔者运用数据挖掘技术对测试信息的 分析主要包括以下两个方面功能: ( 1 ) 在对于学习者的指导上,测试数据分析可以帮助学习者改进学习情况, 达到教学目标。每一位学习者都是不同的,其学习情况、学习风格与学习习惯也 存在差别。论文通过对学习者测试数据的分析与挖掘,希望能够找到隐藏在测试 数据中的信息,为学习者提供“个性化教育,对学习者给予个性化诊断、个性 化指导。个性化诊断和个性化指导之间是一脉相承,密切相关的:经过个性化测 试,对学习者有一个全面、深入、详细的了解;在此基础上得到相应的诊断报告, 对学习者在各方面的指标和相对位置做出一个客观的评价:在个性化诊断报告的 基础上,为学习者提供针对性地提高指导。 ( 2 ) 在对于教师的帮助上,从数据中挖掘信息为教师教学上提供指导,帮 助教师了解测试的试卷和试题的情况和教学情况。在测试的数据是学习者的反馈 信息,反馈给了教师学习者的学习情况、教学情况,教师可以利用测试信息加深 对学习者的了解。 3 华东师范大学硕士学位论文 1 4 论文结构 论文的结构安排根据要解决的问题和所涉及的内容共分为五章。 第一章介绍了论文的研究背景,阐述了研究思路与研究意义,并介绍了论文 结构。 第二章介绍了数据挖掘和测试的定义,以及在测试信息分析中用到的方法和 进行分析的数据挖掘工具的选择和使用简介。 第三章讨论了测试信息的分析对于学习者的指导。首先,运用关联规则分析 了试题间的相关性,之后运用分析得到的试题间的关联规则对学习者进行试题推 荐,帮助学习者消除学习中存在的障碍、达到教学目标。 第四章讨论了运用测试信息的分析的结果对教师的教学给予帮助。一是通过 试题关联规则的分析结果帮助教师进行试题、试卷分析,找到存在问题试题的前 障试题,并将试题关联规则作为组卷参考。二是通过学习者的聚类分析后对同类 学习者进行s p 表分析,帮助教师了解学习者和试题的特性。 l数据格式化处理 怒嚣餮蕊i 露联璎罾暮麓 l试题关联规则挖掘 i 囊鬣蠢恧夏量季t :盈甄夏i 琵瑟 l同类试题推荐 可能出错的试题推荐 前障知识点分析 教师组卷参考 学习者聚类分析 l 同类学习者s p 表分析 翰鞠糍臻凌糍翰嬲暖嬲搿端露蕊翰糍翰凇藏嬲翰霸 豁汹黝溯嘲; 图1 - 1 论文结构图 第三章和第四章为论文的核心部分,运用数据挖掘技术在测试信息对于学生 的个性化指导和对于教师的帮助两方面进行了分析。测试信息的分析设计如图 1 - 1 所示。 第五章是研究的总结与展望,总结研究的结果,分析存在的不足之处并提出 进一步研究的设想与展望。 4 第2 章数据挖掘与测试信息分析 2 1 概念界定 第2 章数据挖掘与测试信息分析 2 1 1 数据挖掘 数据挖掘( d a t am i n i n g ) 是2 0 世纪8 0 年代末期新崛起的- - 1 3 学科,它是目 前国际上信息决策领域的前沿研究方向之一,引起了学术界的极大地关注,并被 广泛应用于各个领域。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随 机的数据中,提取隐含在其中的、人们所不知道的但又是潜在有用的信息和知识 的过程【2 】。知识发现、数据分析和决策支持等一些术语与“数据挖掘相似,也 是从大量的数据中挖掘能够支持决策的信息与知识,在人工智能领域习惯称为知 识发现,而数据库领域习惯将其称为数据挖掘。 数据挖掘技术并非仅仅是通过算法的提出与改进就能够解决问题,而是需要 许多知识与技术的融合与贯通,如统计科学、人工智能、基因算法等,将沉睡的 数据中的信息转变为活的知识,进而成为决策的智慧。数据挖掘是从看似无规律 的数据中提取出能够为人所用的信息,进一步挖掘出帮助决策的知识。数据、信 息与知识三者问的关系如图2 1 所示。 数据 信息 知识 图2 - 1 数据、信息与知识的关系 数据挖掘和常用的统计都是从已有数据中发掘信息,但他们还是存在区别 的。统计是先进行假设再对假设进行检定,母体的参数未知,数据量不可太大。 而数据挖掘没有事先假设,多数状况下母体参数已知。数据挖掘的数据量是越大 越好,数据量较小的也可进行分析但所得结论的可信度不够高。 【2 1 陈京民数据仓库原理、设计与应用【m 】中国水利水电出版社2 0 0 4 :2 2 5 华东师范大学硕士学位论文 2 1 2 测试信息分析 测试是用以测量个体的行为或作业的工具。它通常由许多经过适当安排的项 目( 问题、任务等) 构成,学习者对这些项目的反应可以记分,分数被用于评估 个体的情况【3 j 。根据测试的目的,测试可以分为效果测试和资格测试。效果测试 是检测考试者对某方面知识或技能的掌握程度;资格测试是检验考试者是否已经 具备获得某种资格的基本能力。 在试卷信息分析中,测试信息分析中常用的指标有信度、效度、难度和区分 度等。信度是指测量结果的可靠性或一致性;效度是指测量的有效性。信度与效 度指标用于试卷整体的分析,分别表示了此次测试或试卷整体的可靠性与有效 性。难度与区分度指标是针对试题而言的,难度是指试题的难易程度,区分度是 指试题对学习者实际能力的区分程度。 在学习者信息分析中,常用的指标有学习者特征、学习风格和初始能力分析 等。目前试卷信息分析的研究主要是从较宏观的层面上进行的分析。本论文侧重 从试题与学习者个体这两个较小的角度对测试信息进行分析,对测试信息进行微 观层面的分析。 2 2 测试信息分析中的方法 数据挖掘在测试信息分析中常用的算法有粗糙集、神经网络、关联规则算法、 聚类算法、决策树算法,通过各种算法对试卷、试题与学习者信息进行分析,得 到教育相关的信息辅助决策。本论文通过对试题进行关联规则分析、对学习者的 聚类分析和s p 表分析以达到测试数据分析并获取决策与分析信息的目的,在分 析过程中用到的方法主要有关联规则分析、聚类分析和s p 表分析法。以下分别 介绍关联规则挖掘、聚类分析和s p 表分析的基本概念和基本原理。 2 2 1 关联规则法 1 关联规则挖掘的涵义 关联规则挖掘是数据挖掘中重要的分支之一,着重研究大量数据中项集之间 【3 】邵瑞珍教育心理学( 修订本) 【m 】上海:上海教育出版社2 0 0 4 :5 6 3 - 5 6 4 6 第2 章数据挖掘与测试信息分析 有趣的关联或相关关系【4 】。通过关联规则挖掘能够发现数据集中项集之间的关联 性或相互联系,寻找在同一个事件中出现的不同项目的相关性。关联规则挖掘的 结果是一系列有意义的规则,它揭示了数据中蕴含的关联特征。 、 设i - 冬。,f :,f 。 是项( i t e m ) 的集合,设4 、b 都是一个项集,关联规则是 形如a 净b 的蕴涵式,其中aci ,bci ,并且a nb 。【5 】。a 称为前项,口 称为后项。 关联规则挖掘常用的算法有a p d o r i 算法、f p - g r o w t h 算法和c a r m a 算法等。 a p d o d 算法是经典的关联规则算法;f p - g r o w t h 对不同长度的规则具有很好的适 应性,同时在效率上较之a p r i o r i 算法有很大的提高;c a r m a 允许多个结果的规 则并且比较灵活、高效。 、 2 关联规则分析的指标 目前对于分析得到的一条关联规则的评价指标主要分为两类,一类是客观性 指标,另一类就是主观性指标。 ( 1 ) 客观性指标 客观性指标主要有支持度、置信度和提升度( 也称为相关度、后项支持度) 。 关联规则的理论体系是建立在数理统计上的,支持度置信度模式是关联规则的 基础。 支持度( s u p p o r t ) 支持度是描述项集在整体事务集合中所占的比率,即前项彳出现的可能性。 支持度是用来测度所发掘规则的普遍性,若支持度太低,则说明规则不具有一般 性。设i 一 ! f ,f :, 是项( i t e m ) 的集合,d 是整体事务r 的集合,关联规则彳兮b 具有支持度s ,s 是d 中事务包含au b 的百分比【6 】。支持度的计算公式如下: s o 郇) l j p o - 皆 其中,例表示数据库中事务的总数。 置信度( c o n f i d e n c e ) 置信度是描述前项在项集中的比率,即出现么的事务中出现b 的比例。置 信度描述了关联规则前项与后项间的相关性指标,或者说是描述前项与后项之间 t 4 】朱喜梅关联规则挖掘综述【j 】电脑知识与技术:学术交流,2 0 0 6 ( 0 2 ) :3 6 3 7 【5 】易明,邓卫华客户关系管理【m 】武汉:华中师范大学出版社2 0 0 8 :1 6 8 【6 】王丽珍,周丽华,陈红梅数据仓库与数据挖掘原理及应用【m 1 北京:科学出版社2 0 0 5 :1 8 5 1 8 6 7 华东师范大学硕士学位论文 的独立程度,用来衡量规则的精确度,即可信度。 关联规则彳毒b 具有置信度c ,c 是包含彳项集的同时也包含b 项集的百 分比,如下式: c o 刊一p 伍陋) 一皆 其中,阻l 表示数据库中包含项集彳的事务个数。 例如:i f at h e n b 则它的置信度是:c p ( aa n db ) p ( a ) = 5 1 5 = o 3 3 。 关联规则产生支持度和置信度分别大于用户给定的最小支持度和最小置信 度的规则,即找出那些可信且有代表性( 普遍) 的规则。 提升度( i j f i 【) 提升度( 后项支持度) 表示在没有任何条件影响下,后项y 出现的可能性。 计算时为置信度与期望置信度的比,即: s ( b ) = i t ( b i b i 提升度反映了彳项的出现对b 项出现的影响程度,一般大于1 才有意义, 意味着a 的出现对b 的出现有促进作用。 之所以将支持度、置信度和提升度这三个指标称为客观性指标,是因为他们 都有明确的数学模型和定义,且支持度、置信度及提升度的理解和实现相较而言 较为简单。可以这样地理解,支持度是概率,置信度是条件概率。支持度可在关 联规则生成的第一步,频繁项集的生成中获得,具体的获得过程因算法的不同而 各异。如a p r i o r i 算法中在剪枝的过程中生成,f p g r o w t h 算法中在对f p 树遍历 生成频繁项集时生成。客观性指标都有一个明确的度量可计算,较易实现。 ( 2 ) 主观性指标 主观性指标有新颖度、简洁度和用户感兴趣度。 新颖度。新颖度是指通过与已经建立起的规则库中的规则进行一系列比对 来判定一个规则的新颖程度。可以通过对比规则的频繁项集、规则的前项、规则 的后项、规则的前项子集等与已经建立的规则库中的信息通过指定的算法进行 系列比较从而得出一个综合指标值。新颖度的应用需要涉及到一定的人工智能, 其应用的领域一般在科研领域( 如专家库等) 。 简洁度。简洁度是用来衡量关联规则的最终可理解程度的指标。它表现在 两个方面:一方面表现在规则的个数上,如果规则项数很多将不利于对这条规则 的理解,规则的项数越少,规则的简洁性越好:另一方面表现在规则所包含的抽 第2 章数据挖掘与测试信息分析 象层次上,规则包含的抽象层次越高,它对应的解释力越强。关联规则的本质是 为了反映事物或者属性间的联系,从哲学的范畴来讲,事物是普遍联系的。分析 的目标就是从众多的联系中找出有用的联系,也就是目标逐步缩小的过程。简洁 度的概念就是为了更加明确地指定缩小的程度和范围而引入的一个指标。因此, 影响规则集简洁度的主要指标有:规则的个数和规则的长度。规则的个数多了, 容易造成信息泛滥;规则的长度大了,容易造成理解上的混淆。 用户感兴趣度。用户感兴趣度指标是为了满足用户只想看包含自己想看的 项的规则而设定的指标,比如用户在业务进行中对某个项比较感兴趣,他就可以 指定计算与这个项相关的规则。用户感兴趣度在数据一信息的过程已经可以实 现,但信息一知识的抽取过程仍不完善。 主观性指标因为掺杂了较多的个人和业务的因素在其中,在运用中较难实 现,因此论文中的试题的关联规则分析中以客观性指标为主。 3 最小置信度和最小支持度阈值确定 在数据挖掘的“数据一信息一知识过程中,每一步都需要舍弃一部分数据, 关联规则产生支持度和置信度分别大于用户给定的最小支持度和最小置信度的 规则,即找出那些可信且有代表性的规则。最小置信度和最小支持度即用来过滤 关联规则的指标阈值,可以帮助用户缩小范围、舍弃数据,是数据挖掘提供信息 的一种筛选方式。 然而,在关联规则分析中设定什么样的阈值才能挖掘出有用的规则? 为什么 0 6 可以、0 5 9 就不行? 会不会丢失一些有用的规则? 解决这些问题的确是一项 复杂的工作,太大太小都可能影响最后的挖掘结果,这是基于支持度和置信度的 关联规则分析框架所决定的。最小支持度和最小置信度对于所生成规则的规模影 响很大,两个阈值的选择可以由用户或领域专家设定,也可以根据经验、直觉, 或利用以往进行挖掘的结果设定。 例如,一些数据计算出以下关联规则的置信度:( 1 ) 1 2 5 ,置信度= 3 3 3 3 ; ( 2 ) 2 1 5 ,置信度= 3 0 ;( 3 ) 5 1 2 ,置信度= 6 0 ;( 4 ) 1 ,2 5 ,置信度= 5 0 ; ( 5 ) 1 ,5 2 ,置信度= 1 0 0 ;( 6 ) 2 ,5 1 ,置信度= 7 5 ;f 7 ) 1 3 6 ,置信度= 3 3 3 3 ; ( 8 ) 3 1 ,6 ,置信度- - 3 7 5 。若设置最小置信度的阈值为5 0 ,则( 3 ) ( 4 ) ( 5 ) ( 6 ) 都是 强规则;若设置最小置信度的阈值为8 0 ,则只有( 5 ) 是强规则。最小置信度和 最小支持度的值还要根据分析目标特性值误判所出现的风险来决定,比如说飞机 故障的风险值和普通产品的风险应该是有很大差异的。 9 华东师范大学硕士学位论文 2 2 2 聚类分析法 聚类分析是指将物理或抽象对象的集合分组成为由类似的对象组成的多个 类的分析过程,是种重要的人类行为阴。聚类分析算法中常用的有神经网络聚 类分析、k 均值聚类分析和二阶聚类分析等。 1 神经网络聚类分析模型 神经网络聚类( k o h e n e n 聚类) 分析节点用于创建和训练一类被称作k o h e n e n 网络、k n e t 或者自组织映像的特殊类神经网络。当刚开始并不知道聚类对象包 括哪些群体时,可采用这种网络将对象聚合成差别明显的不同群体。与绝大多数 算法不同,神经网络聚类并不使用目标字段。这种没有目标字段的学习被称作无 监督的学习。神经网络聚类并不尝试去预测某一结果,而是试图揭示输入字段中 的特征。记录被分成群体,这样同一群体或者类别中的记录彼此相似,而不同群 体中的记录截然不同。 一个神经网络由一个输入单元层和一个处理单元的二维输出网组成。在训练 过程中,每个单元都与其它单元竞争获得每个记录。当一个单元获得了一个记录, 其权值( 同样包含那些邻近的单元) 调整为更加匹配该记录的预测所属类别。随 着训练的进行,网格上单元的权值不断调整以形成一张聚类的二维映像( 自组织 映像由此而得) 。 2 k 均值聚类分析模型。 k 均值( k - m e a n s ) 聚类分析模型较常用,通过找到聚类对象的平均值作为 聚类中心,再计算与中心间的距离作为聚类依据。k - m e a n s 聚类需要自己定义分 类的数目。得到的聚类结果中同一类中成员相似度较高;不同聚类的对象相似度 较小。 k 均值算法的工作过程说明如下:首先从1 1 个数据对象任意选择k 个对象作 为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度 ( 距离) ,分别将它们分配给与其最相似的( 聚类中心所代表的) 聚类;然后再 计算每个所获新聚类的聚类中心( 该聚类中所有对象的均值) ;不断重复这一过 程直到标准测度函数开始收敛为止【引。一般都采用均方差作为标准测度函数。k 1 7 1 王吉吉,陆楠基于决策树归纳的聚类方法与实现川吉林大学学报:信息科学版,2 0 0 3 ( 0 2 ) :1 3 2 - 1 3 7 【8 】陈晓红,王艳娟,高永胜基于g i s 的数据挖掘技术在动态路径诱导系统中的应用川仪器仪表用户, 2 0 0 7 ( 1 4 ) 0 0 2 ) :7 1 - 7 2 1 0 第2 章数据挖掘与测试信息分析 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开 在c l e m e n t i n e 中,当使用者执行一个包含形成的k 均值节点的数据流时, k - m e m s 节点将加入两个包括聚类成员和该记录的类中心距的新字段。这些新字 段元名称将从模型名称中衍生,分类成员将以“$ l ( m 为前缀,类中心距以 “$ k m d ”为前缀。 3 二阶聚类分析模型。 二阶聚类模型( t w os t e pc l u s t e r ) 是一种新型的分层聚类算法( h i e r a r c h i c a l a l g o r i t h m s ) ,目前一般应用在数据挖掘与多元统计的交叉领域模式分类中,其算 法适用任何尺度的变量。该算法的优势是能够处理非常大的数据,可自动确定类 的数目,能够处理连续变量和分类变量的混合数据。 在c l e m e n t i n e 中生成的二阶群集节点代表了由二阶聚类节点创建的聚类模 型。当使用者执行一个包含生成的二阶群集节点的数据流时,该节点将在对应记 录中添加一个包含分层成员资格的新字段,由模型名称加前缀“$ t 一衍生而成。 2 2 3s p 表分析法 扩 学习者一试题特性分析( s t u d e n t p r o b l e mc h a r t ,以下简称s p 表) 是利用学 习者的问题得分表进行教学情况分析的一种信息处理方法,使用这种方法既可评 价学习者个体的学习状况,又能对班级整体的学习倾向及整个问题的妥当程度做 出衡量【9 1 。一个s p 表如表2 - 1 所示。 【9 】沈霄风现代教育信息处理【m 】上海:现代教育出版社2 0 0 8 :2 5 8 2 6 6 1 1 华东师范大学硕士学位论文 表2 - 1 测试的s - p 表 p 2p :5p 3p 6p 7 p 4p 8p l op 1p 9总分 c s s 91111 1 111111 01 0 0o 0 0 s 7111111l11099 00 0 0 s 311101111088 00 j 6 * s 5l111l10l1088 00 3 3 s 1 3l11111o111 88 0 o 4 4 s 1 51111l1lo0188 0o 2 2 s 4111111100 o7 7 0 0 0 0 s 8o101111l10 7 7 0 1 1 7 # s 1 21 1 1 1 1 0lo0177 0o 4 2 s 111 1 10o 1 00 1 66 00 5 4 * s n110111o10 o 66 00 4 6 s 1 0111100 0010 55 00 3 6 s 211l0o1o00 044 00 0 8 s 1 411l010 000 044 00 0 0 s 6101000100 0 33 00 4 5 总分 1 41 41 3nn1 0 9765 9 b 够 8 77 37 36 7回4 74 0 努 c s 量量鑫暑晷蠡暑裘墨 注:实线为s 曲线,虚线为p 曲线 注意系数由一个数据项的变量模式与完全变量模式的差异程度所表示。例 如,学习者得分模式的注意系数应由学习者得分模式与学习者得分的完全模式之 间的差异所表示。 第i 号学习者的注意系数c 为 f 学生f 位于酬自线左侧应答结果为0 1 一f 学生位于s 曲线右侧应答结果为1 、 c 4 - 的问题的正答人数之和ji的问题的正答人数之和 ,学生f 位于s 曲线左侧、,学生f 、,每个学生的、 i 问题正答人数之和厂l 的总分j i 平均正答数j 第j 个问题的注意系数c p i 为 f 问题f 位于p 曲线上侧应答结果为o 一f 问题,位于p 曲线下侧应答结果为1 c 弓n 的学生的总成绩之和ji的学哼的总成绩之和 f 问四位于p 曲线上面f 问田的1 每个学生的、 i 学生总分之和 厂l 正答人数j x i 平均分j 根据经验注意系数超过了0 5 的学习者或问题应引起注意。 2 3 数据挖掘工具 在数据挖掘技术日益发展的同时,加入数据挖掘开发行列的软件供应商也 越来越多,出现了更多数据挖掘的商业软件工具。这使得现有的挖掘工具的性能 得到进一步的增强,使用更加便捷,也使得其价格门槛迅速降低,为应用的普及 带来了可能。 第2 章数据挖掘与测试信息分析 2 3 1 数据挖掘工具分类 数据挖掘工具主要分为两类:通用的数据挖掘工具和特定领域的数据挖掘工 具。 通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常 见的数据类型【1 0 l 。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用 什么来挖掘都由用户根据自己的应用来选择。 特定领域的数据挖掘工具一般针对性较强,是为某个特定领域的问题提供解 决方案,在设计算法的时候,充分考虑到数据、需求的特殊性,并作了优化【1 1 l , 在各行业各领域中都可以开发特定的数据挖掘工具。 2 3 2 影响数据挖掘工具选择的因素 在选择数据挖掘工具的时候,要全面考虑多方面的因素,主要包括以下几点: ( 1 ) 可产生的模式种类的多少; ( 2 ) 解决复杂问题的能力。数据量的增大,对模式精细度、准确度要求的 增高都会导致问题复杂性的增大; ( 3 ) 易操作性,即工具的用户友好度; ( 4 ) 数据存取能力。通过通用的接口直接从d b m s 中读取数据,可以简化 数据准备工作,并且可以充分利用数据库的优点( 比如平行读取) ; ( 5 ) 与其他产品的接口。有很多别的工具可以帮助用户理解数据,理解结 果。这些工具可以是传统的查询工具、可视化工具、o l a p 工具。数据挖掘工具 是否能提供与这些工具集成的简易途径会影响到分析的效率。 在选择数据挖掘工具时,用户可以根据自身的需求来确定合适的工具。 2 3 3 常用数据挖掘工具及其特性 具有代表性的数据挖掘工具有d b m i n e r 、q u e s t 、s a se n t e r p r i s em i n e r 、 s p s sc l e m e n t i n e 等,都能够提供常规的数据挖掘过程和挖掘模式。 d b m i n e r 是加拿大s i m o nf r a s e r 大学开发的一个多任务数据挖掘系统,它的 【1 0 】朱玉全,杨鹤标,孙蕾数据挖掘技术【m 】南京:东南大学出版社2 0 0 6 :1 0 【1 1 】黄松英一种数据仓库工具集的设计与实现【j 】电脑与信息技术,2 0 0 5 ( 0 3 ) :1 0 - 1 4 1 3 华东师范大学硕士学位论文 前身是d b l e a r n ,该系统设计的目的是把关系数据库和数据开采集成在一起,以 面向属性的多级概念为基础发现各种知识【1 2 1 。 q u e s t 是m m 公司a l m a d e n 研究中心开发的一个多任务数据挖掘系统,目 的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。 s a se n t e r p r i s em i n e r 数据挖掘工具在我国的企业中得到了较广泛的运用。 s a s 按照“抽样一探索一转换一建模一评估的方法进行数据挖掘,其结果可以 与s a s 数据仓库和o l a p 集成,实现从提出数据、处理数据到得到解答的“端 到端 知识发现【1 3 1 。 s p s sc l e m e n t i n e1 2 0 ( 以下简称c l e m e n t i n e ) 是一个开放式数据挖掘工具, 它支持整个数据挖掘流程从数据获取、转化、建模、评估到最终部署的全部过程。 c l e m e n t i n e 的可视化数据挖掘使得“思路 分析成为可能,即将集中精力在要解 决的问题本身,而不是局限于完成一些技术性工作( 比如编写代码) 【1 4 1 。 c l e m e n t i n e 具有优良的数据挖掘设计思想,符合c r i s p d m 所订定的标准化 流程、具有处理大量数据的执行效能、具有丰富、可靠的m o d e l i n gt e c h n i q u e s 、 完整的模型评估能力和良好的部署应用等,因此本论文选择c l e m e n t i n e 来进行 相关分析。 2 3 4s p s sc l c m e n t i n e 简介 c l e m e n t i n e 中数据的处理是以数据流的方式进行的,通过数据流中加入与设 置各种功能不同的节点,实现数据处理。 1 c l e m e n t i n e 中的数据流 在c l e m e n t i n e 中使用者通过建立数据流( s t r e a m ) 来完成对数据的处理、建 模和分析。数据流是由一系列的节点组成,当数据通过每个节点时,节点可执行 已定义好的操作。数据流就像脚本( s c r i p t s ) ,用户能够保存它们,还可以在不 同的数据文件中使用它们。用户对数据流的操作通常遵循以下四步:向数据流 区域中增加新的节点;连接这些节点形成一个数据流; 设定数据节点或数据 流的选项;运行这个数据流。 0 2 王鑫,王洪国聚类分析方法及工具应用研究川计算机科学,2 0 0 6 ( 0 2 ) :1 9 7 - 2 0 0 【1 3 】李逸波,于吉红,白晓明合理选择数据挖掘工具川计算机与信息技术,2 0 0 5 ( 6 ) :6 2 - 6 3 【1 4 】朱德利s o l s e r v e r2 0 0 5 数据挖掘与商业智能完全解决方案【m 】北京:电子工业出版社2 0 0 7 :3 4 2 1 4 第2 章数据挖掘与测试信息分析 图2 - 2 在数据流区域上的一个完整数据流 图2 2 是在数据流程区上的一个完整数据流。数据流中的各种节点代表了对 数据不同的目标和操作,把节点连接成数据流并执行后,用户可以清晰地看到它 们之间的联系并得出结论。图2 2 中的数据流包括四个节点:一个变量文件节点, 用来从文件中读取数据;一个导出节点,向数据中增加新的、通过计算得到的字 段;一个选择节点,用来建立选择标准,从数据流中去除记录;一个表节点,用 来显示用户操作后得到的结果。 2 c l e m e n t i n e 的操作界面 c l e m c n t i n e 基于图形化的界面为用于认识、了解、熟悉这个软件提供了方便。 c l c m e n t i n c 的工作界面见图2 - 3 。 华东师范大学硕士学位论文 数据流程区:用来建构数据挖掘 流程的所有的动作、设定属性的 区域 操作管理区:管理操作时 期产生的数据流,输出, 模型 雷翟琵磁 :l 连t直彻 - l _ 菇 证捌i 疆年嘲西 i 由q c ( o )啊舯i 岫o 锄偏 谶 ;国仓 画固回 t 辩雌捕。 一 t hh拼5i m a mt 赠 艄h _ - 4r - t_ 憎 图2 - 3c l e m e n t i n e 操作界面 ( 1 ) 数据流程区 c l e m e n t i n e 在进行数据挖掘时是基于数据流形式的,从读入数据到最后的结 果显示都是由流程图的形式显示在数据流程区内。数据的流向通过箭头表示,每 一个节点都定义了对数据的不同操作,将各种操作组合在一起便形成了一条通向 目标的路径。数据流程区是整个操作界面中最大的部分,整个建模过程以及对模 型的操作都将在这个区域内执行。我们可以通过f i l e - - n e ws t r e a m 新建一个空白 的数据流,也可以打开已有的数据流。 ( 2 ) 节点选项面板 在c l e m e n t i n e 系统窗口底部的选项板( p a l e t t e ) 中包含了用来建立数据流的 所有可能的节点。选项面板横跨于c l e m e n t i n e 操作界面的下部,它被分为收藏 夹、数据源、记录选项、字段选项、图形、建模、输出和导出八个类( t a b ) , 见图2 - 4 ,其中每个类包含了具有相关功能的节点。 lq 收藏夹回 o 数据渥o 记黜项l 字j 受i 基顶| 断够( g ) i 麟l lm m 输出( o ) f 一导出( e ) 仓岔台 i 元分菽嚣神缝曩謦c 6 皂c & r t ,q u e s t 。 c h a r d 丧鼻一麓i o h 。n ,e ,k m 鸺 一步 升m 序一勇譬,峰一。一 。曩l 蠢 图2 - 4 在节点选项板上的建模节点类型 设置不同的类是为了将不同功能的节点分组,节点选项板每一个类包含了一 系列相关的节点用于一个数据流操作的不同阶段,例如: 1 6 裂翥掣销 第2 章数据挖掘与测试信息分析 收藏夹( f a v o r i t e s ) :该类放置了用户经常使用的节点,方便用户操作。 用户可以自定义其收藏夹中的节点。 数据源( s o u r c e s ) :用来将存储数据的文件读进系统的节点,该类包含 了各种能读入数据到c l e m e n t i n e 的节点。例如“可变文件 节点读取自由格式 的文本文件到c l e m e n t i n e :“s p s s 文件节点用来读取s p s s 格式的文件到 c l e m e n t i n e 。 记录选项( r e c o r do p s ) :用来在资料记录上进行操作的节点,例如选择、 合并和增加。该类包含的节点能对数据记录进行操作。例如筛选出满足条件的记 录( s e l e c t ) 、将来自不同数据源的数据合并在一起( m e r g e ) 、向数据文件中添加 记录( a p p e n d ) 等。 字段选项( f i e l do p s ) :用来在数据域上进行操作的节点,例如过滤、导 出新字段和确定给出字段的数据类型。该类包含了能对字段进行操作的节点。例 如过滤节点( f i l t e r ) 能让被过滤的字段不作为模型的输入,导出( d e r i v e ) 节点 能根据用户定义生成新的字段,还可以定义字段的数据格式。 图形( g r a p h s ) :用于在建模前或建模后将数据以可视化图形形式输出。 图形节点包括点图、直方图、w c b 节点和评估图表。 建模( m o d e l i n g ) :在c l e m e n t i n e 系统中可用的代表有效建模算法的节点, 例如类神经网络、决策树、聚类算法和资料排序。该类包含了各种已封装好的模 型。 输出( o u t p u t ) :该类提供了许多能输出数据、模型结果的节点,用户不 仅可以直接在c l e m e n t i n e 中查看输出结果,也可以输出到其他应用程序中查看, 例如s p s s 和e x c e l 。 ( 3 ) 操作管理区 操作管理器中共包含了数据流( s t r e a m s ) 、输出( o u t p u t s ) 、模型( m o d e l s ) 三个面板。“数据流 面板中放置了运行期内打开的所有数据流,可以通过右键 单击数据流名对数据流进行保存、设置属性等操作。所有在一个运行期内打开的 数据流都将保存在操作管理区的流( s t r e a m ) 栏下。“输出 面板中包含了运行 数据流时所有的输出结果,可以通过双击结果名查看输出的结果。“模型 面板 中包含了模型的运行结果,可查看模型结果,也可将模型结果加入到数据流中。 ( 4 ) 项目管理区 项目窗口含有两个选项栏,一个是c r i s p d m ,一个是类( c l a s s e s ) ,如图 1 7 华东师范大学硕士学位论文 2 - 5 所示。 露西澍试数据分析 臼商业理麓 ;固数据理謦 + ,臼数据准备 b 臼建梗 。,2 梗基评售 乞,r 口结粟部署 图2 - 5 项目管理区界面 c r i s p d m ( c r o s s i n d u s t r ys t a n d a r dp r o c e s s f o rd a t am i n i n g ) ,即“跨行业数 据挖掘过程标准 。此过程模型于1 9 9 9 年欧盟机构联合起草,通过近几年的发展, c r i s p d m 模型在各种知识发现过程模型中占据领先位置,采用量达到近6 0 。 过程模型图见图2 - 6 。 图2 - 6c r i s p - d m 标准 图2 - 5 中c l e m e n t i n e 的c r i s p d m 的设置是基于c r i s p d mm o d e l 的思想, 它方便用户存放在挖掘六个阶段形成的文件。由右键单击阶段名,可以选择生成 该阶段要拥有的文件,也可以打开已存在的文件将其放入该阶段。这样做的好处 是使用户对数据挖掘过程一目了然,也有利于对它进行修改。 类窗口具有周c r i s p d m 窗口相似的作用,它的分类不是基于挖掘的各个 过程,而是于存储的文件类型。例如数据流文件、节点文件、图表文件等。 】r 第3 章数据挖掘的学习指导应用 第3 章数据挖掘的学习指导应用 本章运用数据挖掘中的关联规则挖掘技术,对试题进行相关性分析,找出学 习者答错的试题间的关联性,为学习者改进学习情况提供参考。在分析时为使每 道试题相互区分并有结构化的编号,首先对试题进行格式化处理;之后,通过在 e x c e l 中对数据进行预处理、运用c l e m e n t i n e 进行试题的关联规则挖掘,获取试 题的相关性信息;最后,通过得到的试题相关性信息来为学习者更好的达到教学 目标提供帮助。 为使试题间相关性具有代表性并使结果的分析更简便,在试题分析时按科目 分类来对试题进行分析。本论文以浙江省温岭市某高级中学的物理学科为例,对 物理学科试题的答题数据进行关联规则分析。 3 1 挖掘数据的格式化处理 试题数据格式化处理的目的是统一格式标示试题,便于检索和查找,使试题 在相关性分析中能够具有唯一区分标识,故试题编号应具有唯一性,是一个精确 概念。通常一道完整的试题数据在试题库中存储时,应包括题目和答案两个部分, 这两部分分别包括正文和插图。但为了使试题信息在见算计中有效存储和利用, 还需要给每条试题添加各种不同的属性,以便更好地识别、分类和运用不同类型 的试题。 试题属性通常包括试题标号、最后使用日期、内容、认知分类、参数、答案、 难度试题代号、试题编码、参数、试题内容、答案或选项、评分标准的录入等信 息。试题常用的参数标注属性及其所用的数据类型见表3 一l 。 1 9 华东师范大学硕士学位论文 表3 - 1 试题的参数标注 属性名数据类型编写说明 一:,: 试题编号 n u m b e r ( 1 0 ) 试题的唯一标识 题类 b o o l e a n 客观题月乍客观题 试题类型 c h a r ( 1 5 ) 试题的类型,如填空、计算、选择等,编码类型 知识点 c h a r ( 1 5 ) 这道试题在这个学科的教学大纲中所属的知识点,编码类型 难度 n t t m b e r ( 1 ,2 )试题的难易程度,分五级,难:1 0 8 ;较难:0 8 0 6 ;中: 0 6 0 4 ;较易:0 4 o 2 ;易:0 2 - 0 区分度 n u m b e r ( 1 ,2 ) 对学习者学科能力的鉴别力,分五级:优:1 加8 ;良:0 8 加6 ; 中:0 6 加4 ;较差:o 4 加2 ;差:0 2 加 认知分类 c h a r ( 1 5 ) 学科的教学目标分类,分类依据建立题库的学科大纲,编码 类型 考试要求 c h a r ( 1 0 0 ) 该试题的考试要求说明 试题正文m e m 0 试题的具体内容 参考答案 m 匝m o 试题的参考答案 评分标准 c h a r ( 2 0 0 ) 试题的评分细则 建议的考试 n u m b e r ( 4 ) 做完本试题,需要多长时间,以秒计 时间 建议的考试 n u m b e r ( 2 ) 本试题在百分制的试卷中的建议得分 得分 出题人结构类型素材编著者姓名、单位、联系信息等 出题日期 d a t e 本试题的出题日期,格式为尸事,如1 9 9 9 0 1 1 2 审订人结构类型审订本道试题的审订人姓名、单位等信息 审订日期 d a t e 审订本道试题的日期,格式为严幸幸,如1 9 9 9 0 1 1 2 题库运行时要生成如下参数: :j ,。,:,j 。, 、: 使用次数 n u m b e r ( 6 ) 本道试题的正式使用次数 最后曝光时d a t e 本道试题的最后使用时间,格式为奉严,幸,如1 9 9 9 0 1 1 2 间 实测难度 n u m b e r ( 1 ,2 ) 经过抽样测试和试题库的实际运行,实测的试题难度 实测区分度 n u m b e r ( 1 ,2 )经过抽样测试和试题库的实际运行,实测的试题区分度 本论文对试题进行编号时,为了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论