基于知识空间的自适应测试方法研究及实现论文.pdf_第1页
基于知识空间的自适应测试方法研究及实现论文.pdf_第2页
基于知识空间的自适应测试方法研究及实现论文.pdf_第3页
基于知识空间的自适应测试方法研究及实现论文.pdf_第4页
基于知识空间的自适应测试方法研究及实现论文.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

基于知识空间的自适应测试方法研究及实现论文.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南大学 硕士学位论文 基于知识空间的自适应测试方法研究及实现 姓名:刘艳花 申请学位级别:硕士 专业:软件工程 指导教师:杨贯中;杨志新 20100420 基于知识窄问的自适应测试方法研究及实现 摘要 随着计算机科学技术的迅速发展,计算机网络的应用越来越广泛,计算机测 试应运而生。它利用计算机的优点,作为一种测试工具而不只是传统测试的呈现 器,具备公正、安全、高效的特点。基于知识空间理论的计算机自适应测试在得 到学生知识结构的同时,还可以得到学生的认知缺陷,从而在后续学习中更快的 提高,所以我们以知识空间理论为基础进行自适应测试。 在当前知识空间理论下,依据试题间前提关系建立一个结构良好的测试用知 识结构,无论对教师还是领域专家来说都是一件非常复杂及困难的事情。在后续 的研究中发现,基于知识点的知识结构,对计算机自适应测试十分有用。因此, 本文将当前基于试题的知识空间理论扩展为基于知识点的知识空间理论,以知识 点为知识表达的最基本元素,建立了基于知识点的知识空间。依据知识点之间的 祖先关系、依赖关系、兄弟关系以及平行关系,构建了试题间的与关系和或关系。 最后,形成了试题关系树,为进一步自适应测试构建良好的知识结构奠定了基础。 另一方面,现有的基于知识空间理论的自适应测试过程中,选题策略大多数 采用的是“二分法 。这种方法具有严密的数学逻辑,正因为如此,它缺少了一 定的适应性,因为人作为测试主体,有很多不定的因素会影响测试过程。本文中, 将知识状态的边界应用到测试中,提出了一种新的自适应测试选题策略。该方法 使自适应测试更适合每个学生的知识特点,能够以更少的试题,更快的速度测试 出学生的知识水平和认知缺陷,更好的体现了“因人而异”的自适应测试过程。 测试的最终目的是为了得到学生某些方面的能力及认知缺陷,而基于知识空 间理论的测试最后得到的是以某些试题为参考的知识状态,没有普遍意义。本文 利用知识点与技能的联系,建立了技能函数、问题函数,并完成了它们之间的相 互转换。还定义了用来联系知识结构和技能结构的技能状态函数,完成了从知识 结构到技能结构的映射,从而实现了对学生技能水平的测试。 关键词:知识空间理论;自适应测试;知识结构;技能结构 i i a b s t r a c t w l t ht h er a p i dd e v e l o p m e n to ft h ec o m p u t e rs c i e n c e t e c h n o l o g y ,t h ea p p l i c a t i o n o l c o m p u t e r 耳e t w o r ki si n c r e a s i n g l y , a n dt h e nt e s t i n gu s eo fc o m p u t e rc o m e t ot h e w o r l d , w h l c ht a k eu s eo ft h e a d v a n t a g eo fc o m p u t e r i t sn o to n l yt h e v i e w e ro f c o n v e l l t i o n a lt e s tb u ta l s oa t e s t i n gt o o l ,h a v i n gf e a t u r e so ff a i r e r s a f e ra n dm o r e e ,f f i c i e n t k n o w l e d g e s p a c et h e o r yc a np r o v i d eb 。t ht h ek n o w l e d g es t r u c t u r ea n d t n ec o g n l t l v ed e f e c t so ft h e s t u d e n t ,a c c e l e r a t i n gl e a r n i n ge f f i c i e n c yi ns u b s e q u e n t s u d y 金s ar e s u l t w ec h 。s ek n o w l e d g es p a c e t h e 。r y 1 tl sn o t e a s yf o rt e a c h e r so r e x p e l st ob u i l daw e l l k n o w l e d g es t r u c t u r e ,c c o r d l n g t ot h e r e l a 1 0 n s h i pb e t w e e nq u e s t i o n s i nf u r t h e r s t u d yw e 丘n dt h a t k n o w l e d g es t r u c t u r eb a s e do nk n o w l e d g ep o i n t si sv e r yh e l p f u lf o r c o m p u t e ra d a p t i v e t e s t i n g s o , w ee x t e n d e dt h ep r e s e n tk n o w l e d g e s p a c et h e o r yb a s e do nq u e s t i o n st oa :1 e w k n o w l e d g es p a c et h e o r yb a s e d o n k n o w l e d g ep o i n t s ,a n de s t a b l i s h e da ? 0 w 1 。d g 争p 0 i 小乇鸽酣k n o w l e d g e s p a c e ,i nw h i c hk n o w l e d g ep o i n t si s t h e b a s i c e l e m e n t , a n dt h e nt h ea n dr e l a t i o n s h i pa n do r r e l a t i o n s h i pb e t w e e nq u e s t i o n sw e r e p r o p o s e da c c o r d i n gt ot h ea n c e s t o r r e l a t i o n s h i p ,r e l yr e l a t i o n s h i p ,b r o t h e rr e l a t i o n s h i d a n dp a r a l l e l r e l a 1 0 n s h i pb e t w e e nk n o w l e d g ep o i n t s i nt h e e n d ,t h er e l a t i o n s h i pt r e : o j q u e s t i o n s w a sb u i l d , a n di ti sf o u n d e do faw e l lg r a d e dk n o w l e d g e s t r u c t u r eu s e di n u nt h eo t h e rh a n d , a tp r e s e n t ,m o s to fs e l e c t i o n s t r a t e g yi nc o m p u t e ra d a p t i v e t e s tb a s e do n k n o w l e d g es p a c et h e o r yi sd i c h o t o m o u sm e t h o d t h i sm e t h o dh a sa r l g o r o u sm a t h e m a t i c a ll o g i c ,b u th a sl e s ss u i t a b l e p e r s o n i si no nat e s t ,t h e r ea r e m a n yu n c e r t a i nf a c t o r st h a t w i l la f f e c tt h e t e s t i n gp r o c e s s i nt h i s d i s s e r t a t i o l l - n e i g h b o r so fk n o w l e d g es t a t e sw e r e b r o u g h ti na d a p t i v et e s t ,a n dp r o p o s e dan e w s e l e c t l o ns t r a t e g y t h i sm e t h o dm a k e sa d a p t i v et e s t t of i tf o rk n o w l e d g ef e a t u r e so f t h es t u d e n t , a n di tc a np r o v i d et h ek n o w l e d g es t r u c t u r ea n d t h ec o g n i t i v ed e f e c t so f :h e s t u d e n “a s t e r w “h l e s sq u e s t i o n s i tc a nb e t t e rr e f l e c t e dt h e a d a p t i v et e s t p r 0 c e s s t h ef i n a ld e s t i n a t i 。n 。ft e s ti st 。o b t a i ns o m e k i n d 。fa b i l i t i e sa n dt h ec o g n i t i v e d e f e c t so ft h es t u d e n t ,b u tw e 。n l yg e tak n o w i e d g e s t a t ef o rr e f e r e n c ea tt h ee n d 。f t e s t t h ek n 。w j e d g es t a t ei sc 。m p 。s e d 。f s 。m ec e r t a i nq u e s t i 。n st h a th a v en 。c o m m 。n m e a n i n g i n t h i s d i s s e r t a t i 。n ,w eu s e 。ft h er e l a t i 。n 。fk n 。w l e d g ep 。i n t sa n d s k i l l s , g i v et h em e t h o dt ob u i l ds k i l l f u n c t i 。n ,q u e s t i 。nf u n c t i 。na n dt h ec 。n v e r s i 。nb e t w e e n i i i 基于知识空间的白适应测试方法研究及实现 t h e m f u r t h e r m o r e ,w ea l s od e f i n es k i l ls t a t ef u n c t i o nt h a tc a nc o n n e c tk n o w l e d g e s t r u c t u r ea n ds k i l ls t r u c t u r eu s e di na d a p t i v et e s t t h a ti st o s a y ,w ec o m p l e t et h e m a p p i n go fk n o w l e d g es t r u c t u r eo n t os k i l ls t r u c t u r e ,a n di nt h ee n dw ec a ng e tt h e s k i l l l e v e lo ft h es t u d e n t k e yw o r d s :k n o w l e d g es p a c et h e o r y ;a d a p t i v et e s t ;k n o w l e d g es t r u c t u r e ;s k i l l s t r u c t u r e i v t 程硕上学位论文 插图索引 图1 1 知识空间理论研究主题关系一2 图1 2 自动测评过程3 图2 1 项目特征曲线1 1 图2 2 基于三参数l o g i s t i c 模型的i c c 曲线图1 2 图2 3h a s s e 图与学习路径图15 图3 1 知识点间的祖先关系1 8 图3 2 知识点间的依赖关系1 8 图3 3 知识点间的兄弟关系1 9 图3 4 知识点间的平行关系1 9 图3 5 “方程式”领域的知识树2 0 图3 6 试题间与关系2 1 图3 7 试题间或关系2 2 图3 8 试题关系树2 5 图3 9 知识点与技能的映射2 8 图4 1 一般的自适应测试过程3 5 图4 2 改进的自适应测试过程4 3 图5 1 系统工作流程4 6 图5 2 数据库表关系图一4 7 图5 3 示例试题的试题关系树5 1 图5 4 知识点与技能的录入5 1 图5 5 试题录入5 2 图5 6 自适应测试界面5 2 图5 7 自适应测试结果一5 3 v i i 附表索引 表3 1 例3 5 中可能的答题情形及对应的知识状态一2 6 表4 1 测试出题序列4 2 表5 1 数据表名称及功能4 7 表5 2 需要考察的知识点4 9 表5 3 需要考察的技能4 9 v i i i 工程硕上学位论文 第1 章绪论 1 1 课题背景及研究意义 在教育领域,测试占有比较重要的地位。如何通过学生提供的信息来获取需 要了解的信息是一个比较难于解决的问题,因为学生接受测试后所提供的信息与 学生希望接受测试后能提供的信息是不同的,前者是后者的外化。保证两者的一 致,使学生接受测试后提供的信息是学生希望提供信息的真实状态,成为教育测 试领域中的一个重要课题【lj 。 计算机自适应测试是由适应性测验( t a i l o r i n gt e s t ) 发展而来的。适应性测 验是w i l l i a mw t u r nb u l l 于19 51 年提出的。2 0 世纪7 0 年代以后,计算机科学 技术的发展对社会各行各业都带来了巨大变革,同样也促使适应性测验的研究迈 进了一个新台阶。1 9 7 1 年,美国的教育测量家劳德( l o r d ) 依据当时计算机技术 的发展,在前人对适应性测验理论研究的基础上深入研究,首先提出了计算机自 适应测试( c o m p u t e ra d a p t i v et e s t ,c a t ) 这一概念【2 j 。其特点是利用计算机的 优点,使其成为一种测试工具,具备公正、安全、高效的特点。目前国际上最新 的研究成果是基于项目反应理论的测试以及基于知识空间理论的测试,它们都是 在传统纸笔测试的基础上发展起来的,但又克服了纸笔测试的缺点,有着广泛的 应用前景。 项目反应理论( i t e mr e s p o n s et h e o r y ,i r t ) 的基本思想是:学生的某种潜 在特质与他们对项目的反应( 正确作答的概率) 之间存在一定的关系,并且这种 关系可以通过数学模型表示出来【3 4 】。i r t 通过数学模型建立起了学生能力、项目 参数以及正确作答的概率之间的关系,它不仅可以有效的缩短测试时间,还能够 用最少的测试试题来估计学生的能力。基于项目反应理论的自适应测试中主要考 虑的是试题的信息函数,即测量的精确度。但是,每道试题都能考察学生对相应 知识的掌握情况,这些知识之间的关系形成了一种知识结构,项目反应原理对这 种知识结构重视不够,因此导致基于项目反应理论的测试对学生知识结构的考察 无能为力。一个良好的测试系统既要考察学生的能力水平,还要考察学生的知识 结构和认知缺陷。d o i g n o n 和f a l m a g n e 提出的知识空间理论( k n o w l e d g es p a c e t h e o r y ) 提供了一种表达知识结构的方法,它是一种测试学生知识水平、知识结 构的心理学理论【5 j 。基于知识空间理论的测试可以根据学生当前知识状态选择适 合学生特点的测试试题,实现对学生的能力水平进行测量,同时也考察了学生的 知识结构和认知缺陷【6 】。 基于知识空间的自适应测试方法研究及实现 文献 7 】把知识空间理论和i r t 作了比较,得出基于i r t 的自适应测试适用范 围为能力型测试,典型的如英语g r e 考试,其目的是尽可能的将不同水平的学生 区分开来。而基于知识空间理论的自适应测试适用于知识型测试,它不仅可以提 供学生的知识水平还可以提供其认知缺陷,应用范围比较广泛。基于上述原因, 我们选择知识空间理论作为本文自适应测试的基础理论。 1 2 国内外研究现状 知识空间理论经过2 0 多年的发展,已经成为自适应教学和测试系统中最有效 的知识表示语言,并成为数学心理学的重要组成部分,其理论框架日趋成熟并在 自适应测试系统中发挥着越来越大的作用。当前知识空间理论的研究主题主要集 中在两方面:第一,知识结构的建立;第二,以自适应测试为主的理论应用。图 1 1 显示了各个研究主题以及参与主体之间的关系: 图1 1 知识空间理论研究主题关系 从图1 1 中可以看出,以知识空间理论为指导的自适应测试一般需要经过以 下几个环节: 首先由教师或领域专家根据测试需要建立反应学生知识水平的试题集合,并 确定各试题之间的关系;然后建立知识结构,并根据试题间前提关系确定知识状 态;最后实行测试,根据知识结构迅速地让学生收敛到某一个知识状态上。 下面将介绍相关文献在以上两方面的研究成果,并分析总结出知识空间理论 在自适应测试中存在的不足。 当前知识空间理论下,随着知识域中试题数量的增多,以及试题之间前提关 系的进一步复杂化,知识状态的数量急剧增加。对于这样一个巨大的知识空间, 需要大量的时间和内存来计算知识状态,显然将影响到整个测试的运行效果。文 献【8 】中,作者基于知识空间理论的基底理论,提出了一种快速自适应测试过程。 该过程可以根据学生的答题情况白适应的选择符合学生知识特点的试题进行下一 2 工程硕士学位论文 步测试。文献 9 在知识空间理论下提出了试题空间的概念,给出一种基于最短 路径的最优测试原理。在此基础上,提出了种新的,更为有效的测试方法,通 过基于i d 3 算法的决策树生成方法对之进行了算法实现。这种快速自适应测试方 法,显著减少了计算下一题所需要的计算时间和存取内存,提高了效率,达到了 快速测试的目的。 知识空间理论提供了一种描述给定知识域知识结构的方法,它被看作是有效 评估学生知识程度的一个基础,但它是一种基于试题的知识空间理论。在文献 10 中对已有的知识空间理论进行了改进,利用超文本结构和知识空间结构相似的特 性,将知识点超文本结构转换为超文本知识空间,并在此超文本知识空间上利用 自动机原理实现对学生知识结构的自适应测试。 图1 2 是基于自动机的自适应测试过程图: d ) 图1 2 自动测评过程【l 卅 对应于图1 2 中的知识空间k = , a , b ) , b ,d , a ,b ) , a ,c , a , b ,d ) , a ,b ,c , ) ( 其 中6 为文献 1 0 中定义的自动机的转换函数) ,由于n s l _ a ,c ) ,则可以通过c 推测出该学生已掌握了知识a ;然后选择d 进行测试,设该学生也已掌握,则自 动机进入下一状态s 3 = 8 ( s 1 ,d ) = k d a s l = a ,c ,d ) , a ,b ,c ,d ) ) ;最后测试b , 设该学生没有掌握,则自动机进入状态s 10 = 6 ( s 3 ,b ) = k in s 3 = “a ,c ,d ) ) ,此 基于知识空间的白适应测试方法研究及实现 时没有多余的知识点进行选择,测试过程结束,该学生的知识状态为 a ,c ,d 。 该测试过程经历了从根结点s o 经历s l s 3 到叶子结点s l o 的过程。该测试过程是一 个动态的过程,需要根据学生掌握知识点的情况确定下一状态,且不需对所有知 识点进行测试,只测试那些不能从已掌握的知识点推测出来而又未测试的知识点。 尽管基于知识空间理论的自适应测试有很多优点,但也存在它自身无法克服 的不足,表现在以下几个方面: 第一,知识空间理论是基于试题的,随着测试范围的扩大,试题的数量也会 增大,试题间的关系将变得很复杂。领域专家或教师在这么庞大的试题库中建立 测试用的知识结构不是一件容易的事情。 第二,随着测试理论的发展,对学生技能水平进行测试是当前研究的热点, 而当前知识空间理论下,定义了技能函数和技能结构,但是并没有对知识结构与 技能结构的映射做详细介绍,无法完成对学生技能的测试。所以要对知识空间理 论进行扩展以完成对技能的测试。 第三,当前基于知识空间理论的自适应测试,大都采用“二分法”选题策略, 虽然能体现一定的自适应性,但是不能很好的体现“因人而异”这一特点,测试 过程比较机械、单调。所以要对自适应测试的选题策略做进步改进,使其更能 体现学生各自的特征。 1 3 研究内容 随着测试范围的扩大,知识领域中试题的增多,试题间的前提关系变得越来 越复杂,要建立一个结构良好的测试用知识结构不是一件容易的事情。在后续的 研究中发现,基于知识点的知识结构,对于计算机自适应测试中知识结构的建立 十分有用。因此,本文主要研究的内容之一就是将当前基于试题的知识空间理论 扩展为基于知识点的知识空间理论。本文中所用到的知识空间已经不是当前知识 空间理论下的知识空间,后者是基于试题的,前者是我们对后者进行的扩展,是 基于知识点的。在基于知识点的知识空间理论中,表达知识最基本的元素是知识 点,每个试题由一个或几个知识点构成,根据知识点之前的祖先关系、依赖关系、 兄弟关系及平行关系,我们可以建立试题间前提关系,并用试题关系树来描述试 题与关系和或关系。在构建了试题关系树之后,我们可以构造测试用的知识结构, 为下一步自适应测试奠定基础。 当前知识空间理论下,定义了知识结构和技能结构,但并没有对技能结构本 身及其建立过程作深入的研究工作,我认为这对测评过程是极其重要的。知识结 构和技能结构的建立是整个自适应测试过程中最重要也是工作量最大的一个环 节。因此,本文另一个主要研究内容就是,利用知识点和技能之间的关系,建立 技能结构,并完成自适应测试。 4 工程硕十学位论文 现有的基于知识空间理论的自适应测试过程,大多数采用的是“二分法选 题策略。这种选题方法的基本思路为:每次当学生答对某道试题时,删除知识结 构中不包含该试题的知识状态;当学生答错某道试题时,删除知识结构中包含了 该试题的知识状态,直到知识结构中剩下唯一的知识状态时,结束对该学生的测 试。这种方法,具有科学的严密性,但是缺少了灵活性。本文中,我们将知识状 态的边界应用到选题策略中,提出了一种新的自适应测试选题策略,使自适应测 试更适合每个学生的知识特点。该方法能够以更少的试题,更快的速度测试出学 生的能力水平和认知缺陷,更好的体现了“因人而异”的自适应测试过程。 为检测选题方法的可行性,需要构建真实的测试系统。因此,本文设计并实 现了一个自适应测试系统,系统采用了在学生当前知识状态的边界中选择下一道 被提出的试题这一选题策略。测试结束时,学生的知识状态被映射为技能状态, 完成了对学生技能水平的测试,达到了预期的效果。 1 4 本文主要工作 本文主要研究基于知识点的知识空间理论下的自适应测试,主要工作包括以 下几个方面: ( 1 ) 介绍了教育测试领域中的三种代表性的测试理论;描述了i r t 理论的基 本原理,基本参数模型及其在计算机自适应测试中的应用;讨论了知识空间理论 及其扩展;分析了基于知识空间理论的自适应测试研究现状,总结了各种测试理 论的优点和缺点。 ( 2 ) 当测试范围扩大,知识领域中的试题增多时,试题间的关系变得越来越 复杂,领域专家或教师建立测试用的知识结构比较困难。而知识领域内知识点之 间的关系是确定的,知识点的数量也是相对稳定的,本文提出了基于知识点的知 识空间理论,将知识点组合与试题相联系;讨论了知识点之间的祖先关系、依赖 关系、兄弟关系以及平行关系,形成了领域知识树,并利用知识点之间的关系, 建立试题间前提关系,构造了试题关系树,建立了测试用的知识结构,为自适应 测试的进行建立了良好的数据模型。 ( 3 ) 对当前知识空间理论没有对技能测试做深入的工作,无法对学生的技能 水平进行测试这一现状,本文我们利用知识点与技能的关系,定义了技能函数、 问题函数,以及用来联系知识结构和技能结构的技能状态函数,并给出了每个函 数的计算方法。通过这些函数完成了从知识结构到技能结构的映射,从而实现了 对学生能力水平的测试。 ( 4 ) 为了提高测试的效率,更好的体现因人而异的自适应测试过程,我们对 选题策略进行了改进,提出了在学生当前知识状态的边界中选择下一道将被提出 的试题这一选题策略。当学生的答题状况不同时,其当前知识状态不相同,当前 基于知识窄问的自适应测试方法研究及实现 知识状态的边界也不相同,同样,所选试题的范围也不相同,这种方法可以更好 的体现了学生的知识特点。 ( 5 ) 在v i s u a lc + + 6 0 中实现了上述选题算法,并基于d r e a m w e a v e r 平台设计 了一个自适应测试系统,实现了对学生技能水平的测试。介绍了系统的工作流程 和数据库设计,并以初中数学中的“方程式”章节为例,演示了系统对学生的技 能水平进行自适应测试的过程。 1 5 本文的组织结构 本文分为五个部分,各部分的主要内容安排如下: 第一章绪论 主要内容包括:介绍基于知识空间理论的白适应测试的研究背景及研究意义、 本文的研究内容、主要工作及组织结构。 第二章测试理论研究综述 主要内容包括:测试理论的发展概述,i r t 理论的基本思想,一般参数模型, 及其在计算机自适应测试的应用、优点、缺点,知识空间理论的主要概念、优点, 基于知识空间理论的自适应测试研究现状及测试过程的特点和不足。 第三章自适应测试系统的数据模型 主要内容包括:讨论了基于知识点的知识空间理论,给出了知识点的定义, 知识点之间的组合关系、依赖关系、兄弟关系以及平行关系,试题之间的与关系 和或关系,给出了知识结构的建立过程;讨论了技能的相关概念与定义,给出了 知识点与技能之间的映射,提出了技能函数,问题函数,以及技能状态函数的求 解方法。最后,给出了技能函数,问题函数,以及技能状态函数的计算过程。 第四章自适应测试过程 主要内容包括:讨论了一般自适应测试过程的四个关键步骤,简单介绍了每 个步骤的解决方法。然后详细介绍了知识状态的邻居和边界的求解过程,给出了 改进的选题策略下新的自适应测试过程。最后,对学生的知识状态做了技能映射, 实现对学生技能水平的测试。 第五章自适应测试系统的设计与实现 主要内容包括:介绍了测试系统的模块设计与开发平台及工具,介绍了系统 的工作流程以及数据库设计,最后对自适应测试过程进行了演示。 6 工程硕十学位论文 2 1 引言 第2 章测试理论研究综述 对现代科学尤其是社会科学而言,研究方法的发展在很大程度上能够起到推 动整个学科发展的作用,研究方法的落后必然会限制学科的发展。在教育领域, 测试是学习过程的重要步骤,其目的是为了得到学生当前的学习成效和学习的障 碍【l 。一般的测试活动是由学生考试得到的分数来决定的,老师无法针对学生的 成绩给予不同的建议。自适应测试,是针对学生各自的知识特征提供个性化的测 试内容,准确获得他们的知识结构和知识掌握状况的过程 1 2 , 1 3 】。自适应测试过程 中以什么测试理论为指导,以什么选题策略为依据是教育测试研究领域应该着重 研究的问题。 2 2 测试理论发展概述 目前在教育测试领域代表性的测试理论有:经典测试理论( c l a s s i ct e s t t h e o r y ,c t t ) 、概化理论( g e n e r a l i z a b i l i t yt h e o r y ,g t ) 和自适应测试理论( 项 目反应理论( i t e mr e s p o n s et h e o r y ,i r t ) 和知识空间理论( k n o w l e d g es p a c e t h e o r y ,k s t ) ) 0 4 , 1 5 】。每一种理论都是基于不同的假设建立了各自的测试模型, 为了实现各自的测试,它们都定义了不同的参数和测试方法。 2 2 1 经典测试理论 经典测试理论,又称真分数理论,是应用最广泛的一种测量理论。它起始于 1 9 世纪末,源于早期高尔顿关于个体差异的测量和皮尔逊关于统计学的研究,后 经斯皮尔曼、瑟斯顿、比纳和西蒙等人的工作而初步系统化【1 6 , 1 7 】。经过几十年的 发展,到2 0 世纪3 0 年代逐渐成熟,5 0 年代便形成了一套相当完整的理论体系。 它在测试发展中有着特殊的地位,它既是历史上的第一个测试理论,也是测试的 最一般、最基本的理论。 经典测试理论是心理学研究者所熟悉的,由基本假设、信度和效度概念组成, 以真分数模型为基础,其基本思想是把测试的得分看作真分数和误差分数的线性 组合,可用简单数学模型x = t + e 表示,其中x 是观测分数,t 是真分数,e 是 误差分数【l 引。传统信度效度项目分析的原理与方法均建立在这一模型上。真分数 理论认为,测量中的误差来源于三个方面:测试工具引起的误差、测试过程引起 的误差及学生引起的误差。 经典测量理论建立自己的方法学体系:项目( 试题) 分析和标准化。经典测 7 基于知识空间的白适应测试方法研究及实现 量理论具有自己的优点,它是以弱假设为基础的,这些弱假设条件容易被绝大多 数测验数据资料所满足【l9 1 。经典测量理论经过几十年的发展,形成了一套以真分 数理论作为基础的,较为完善的测量理论以及对项目和测验进行统计分析的方法。 这些统计方法在计算上较为简单,意义上也明了直观,易于教育工作者理解和掌 握,促进了它应用的普遍性,在我国的测验领域中大多是以经典测量理论作为指 导的。 随着时代的发展,它明显地显露出自身的局限性及不足,主要表现在:( 1 ) 考生能力参数严重依赖于试题样本。在c t t 的体系中,考生的水平被定义在一套 试题上。试题难,考生得分就低,反之则得分高。( 2 ) 缺乏预测力。经典测量理论 不能提供不同能力水平学生如何对试题做出反应的信息。( 3 ) 估计测量信度所依赖 的经典平等测验假设在现实中无法满足,无法构造出两个真正平行的测验。( 4 ) 试题的难度参数和考生的能力参数定义在不同的量表上,不利于改进测验,也不 利于实现测验的预定目标【2 们。在c t t 中,试题难度定义在考生样本上,而考生 的能力参数又定义在试题样本上,二者无法统一,我们无法判断哪一道试题的难 度值恰好接近考生的能力水平。 2 2 2 概化理论 概化理论( g e n e r a l i z a b i l i t yt h e o r y ,g t ) 的基本观点形成于2 0 世纪6 0 年代末、 7 0 年代初。克龙巴赫行为测量的可靠性的出版标志着概化理论的诞生【2 。其 后,r b r e n n a n ,s h a v e l s o n 和w e b b 等人对有关概化理论研究框架进行了分析和介 绍,加速了概化理论的发展。概化理论是一种能够同时达到区分学生与评估学生 真正实力的目的,并可以较好地控制测评误差的现代测量理论,是经典测量理论 与方差分析相结合的产物。它把因素实验设计、方差分量模型等统计工具应用到 教育与心理测量学,对经典测量理论中的一个重要概念信度进行推广,即结 合测量的情境关系对c t t 给出的笼统误差进行探查和分解,辨明误差的不同来 源,并且在一定范围内变动测量的情境关系,考察这种变动引起误差的相对变化, 从而达到对误差方差进行控制,对于测验的编制、实施过程中的误差控制、测验 的评价等提出了一整套新的方法【22 1 。 概化理论的基本原理是:首先运用实验设计的思想,分析影响测验分数变异 的各种来源( 如学生水平的差异、题目的难度、评分者的评分标准等) ;其次,运 用方差分析的技术,分别估计各种变异来源对分数总变异所作的贡献( 通常用方 差分量作为指标) ;然后,根据不同的研究目的需要,分别考察研究目标在测验总 分变异中所占的比重【2 3 。一般地,当测量目标引起的分数变异所占比重较大时, 测量被看做是具有较高信度的。概化理论的一个突出特点是:对同一次测量,可 以根据研究目的的不同提供多个测量信度。 8 工程硕士学位论文 与经典测量理论相比,概化理论具有自己的特点和优势:( 1 ) 在理论假设上, g t 以“随机平行测试假设 取代了经典测试理论的“经典平行测试假设”,从而 使分析问题的条件较容易得到满足。( 2 ) 在具体方法上,g t 利用方差分析技术, 将测试变异分成几个部分,每个部分对应于特定的误差来源,从而更便于测试误 差的控制。( 3 ) 在测验设计上,不仅能够对各种测量条件下引起的信度变化分别给 予考察,而且能够将多种测试条件共同引起的信度变化反映出来。( 4 ) g t 最显著 的特点是强调测试的具体情境【2 4 1 。我国g t 理论主要应用在高考,标准性参照性 测试,心理测试,普通话测试,教学评价,评分者一致性等方面。 但是概化理论本身也具有其局限性:( 1 ) 在基本思想上,概化理论注重所测心 理特质的单维性,因此在实际应用中同样要强调保持试题样组的同质性。 ( 2 ) 在 计量方法上,概化理论对各类误差源的考察是以方差分析为基础,通过方差分量 的估计来实现的。由于数据结构的复杂性,方差分量估计有时还会出现负值。( 3 ) 在测量应用上,概化理论对实测数据的事后分析比较理想,但用在事先指导时, 就要逊色一些。因为概化分析基于随机抽样模型,由于抽样的易变性,一次抽样 数据的分析结果,仅是测验统计规律的描写,其可靠性严重依赖于实测数据的完 备性【25 1 。 2 2 3 自适应测试理论 传统的测试对于学生学习的评价都集中在成就性的测试,即只给出一个测试 分数或能力分数,但对于具有相同分数或相同能力的学生却具有不同的知识状态 及不同认知过程这一现象无法做出解释,相同分数的学生间差异也无法区分【2 6 1 。 这种现象在大规模统一考试条件下,显得尤为突出。当今,人们已不满足于给学 生一个简单的测试分数或能力分数,而希望测试可以提供学生的知识结构和认知 缺陷,为下一步的学习提供参考。在这种背景下,产生了自适应测试,并出现了 相应的理论依据。 当前比较流行的两种自适应测试理论分别是:项目反应理论和知识空间理论。 在第四章自适应测试过程的初始试题选择时,我们用到了项目反应理论的研究成 果,所以本小节简单介绍项目反应理论的发展、理论基础及相关模型,在2 3 节 重点介绍知识空间理论,它是本文自适应测试的理论基础。 2 2 3 1 项目反应理论的发展 项目反应理论是当前国际上最先进的教育和心理测量理论之一。它是为了克 服经典测试理论中项目参数等指标的变异性而发展起来的一种新兴的教育和心理 测量理论【2 。i r t 的诞生标志是美国测量专家洛德于1 9 5 2 年在他的博士论文中首 次提出了项目反应模型,即双参数正态卵形模型,并提出了与此相关的参数估计 方法,使得i r t 可被用来解决实际的二值记分的测验问题。这是i r t 发展史上的 9 基于知识空间的自适应测试方法研究及实现 里程碑,标志着这一理论的正式诞生 2 8 】。 项目反应理论又称题目反应理论、潜在特质理论,它采用非线性模型,建立 了学生对项目的反应( 观察变量) 与其潜在特质( 潜变量) 之间的非线性关系,使对学 生能力的估计不依赖于特定的测验项目。项目反应理论将学生能力和试题难度放 在同一量尺上进行估计,无论测验的难易,学生能力估计值不变,不同的测验结 果可直接比较、难度和区分度的估计值与学生能力无关,同一测验项目,高能力 和低能力学生的反应拟合同一条项目特征函数曲线( i c c ) 。同一条i c c 所对应的项 目参数是唯一的、测量误差的估计因考生程度不同而不同、为多种形式测验的实 施提供了更为完整的理论和方法【2 9 1 。目前一些大型的考试t o e f l 、g r e 等,都 相继采用了以项目反应理论为基础的计算机化适应性测验( c a t ) ,一些传统的智 力测验如比奈测验、韦氏智力测验、瑞文测验等也使用项目反应理论作为分析的 理论依据。 2 2 3 2i r t 的理论基础 项目反应理论是通过建立特定的数学模型来描述学生对试题正确反应概率与 其能力之间关系的,而数学模型的建立往往离不开一组假设。 1 特质空间维度性假设 项目反应理论用“特质”( t r a i t ) 来描述学生的智力水平等不可直接观察,只 能间接推论的内部心理结构【3 0 】。“潜在特质空间”( l a t e n tt r a i ts p a c e ) 是指对于人 的某种任务行为起制约作用的若干潜在特质的集合。在潜在特质空间中,相互独 立的潜在特质的个数称为潜在特质空间的维度【3 1 1 。单维度假设就是指学生的某一 测试结果只取决于一种潜在特质。在这种假设下,许多问题的处理比较简单。 2 局部独立性假设 所谓局部独立性假设是指能力参数0 一定时,学生对各个项目的应答在统计 上是独立的。设x i 表示学生对项目i 的应答二值变量,当学生作答正确时,x i _ l , 反之,x i = 0 。这时,局部独立性的假设可由下式表示: p ( x i = 11 0 ) = p ( x i 。11 0 ,x l ,x 2 ,x 3 ,x i 1 ,x i + l ,x n )( 2 1 ) 当测试满足局部独立性假设时,测试的结果仅由学生的能力0 决定。即学生 对某一测试项目的反应不受其它测试项目反应情况的影响,只与测试项目本身的 性质有关,完全由学生的能力水平来决定。 3 项目特征函数假设 如果一个测试模型能够模拟学生的测试行为,就必须用数学函数揭示学生与 特质之间的关系,而且这种解析式能够被参数化,能够用函数曲线描述出来。 4 自变量和因变量的取值 项目反应模型的自变量( 如能力) 在理论上取值范围是( o o ,+ 0 0 ) ,但在实际测 1 0 工程硕十学位论文 试中的范围一般假定在 3 ,+ 3 ,因变量( 答对的概率) 的值域在 0 ,1 区间单 调递增。如图2 1 所示: 3 - 21 ol 23 图2 1 项目特征曲线【3 2 1 2 2 3 3i r t 的基本模型 目前,应用比较广泛的是逻辑斯蒂( l o g i s t i c ) 模型。该模型是1 9 5 7 年至1 9 5 8 年,由伯恩鲍姆( a b i r n b a u m ) 将洛德( l o r d ) 的正态肩形曲线模型改换而成的。根据 参数个数不同,分为单参数l o g i s t i c 模型、双参数l o g i s t i c 模型和三参数l o g i s t i c 模型三种,其中三参数l o g i s t i c 模型是目前应用最多的模型【3 2 1 。各参数l o g i s t i c 模型的数学模型如下所示: 1 单参数l o g i s t i c 模型 单参数l o g i s t i c 模型最初是由丹麦数学家拉希( r a s c h ) 在19 6 0 年提出的,其数 学模型如下所示3 2 】: 1 1 p ( p ) 2 鬲而 ( 2 2 ) 0 :能力值,表示个体的某个潜在特质,通常用测验项目的个体反应来估计。 b :项目的难度系数,理论上b - o o ,+ o o ) ,但实际应用上通常只取b ( - 3 , + 3 ) 。 p ( 0 ) :能力值为0 的个体对项目作出正面反应的概率。 2 双参数l o g i s t i c 模型 双参数l o g i s t i c 模型的数学模型如下所示【3 2 】: 1 p ( p ) 2 而蒜 ( 2 3 ) 0 :能力值,表示个体的某个潜在特质,通常用测验项目的个体反应来估计。 a :项目的区分度,用来描述项目所具有的区分能力大小。 b :项目的难度系数,理论上b ( 一o o ,+ ) ,但实际应用上通常只取b ( 3 , + 3 ) 。 o 9 8 7 6 5 4 3 2 l 1 o o o o 0 o o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论