(计算机软件与理论专业论文)绝对值等值准则及求解算法的应用.pdf_第1页
(计算机软件与理论专业论文)绝对值等值准则及求解算法的应用.pdf_第2页
(计算机软件与理论专业论文)绝对值等值准则及求解算法的应用.pdf_第3页
(计算机软件与理论专业论文)绝对值等值准则及求解算法的应用.pdf_第4页
(计算机软件与理论专业论文)绝对值等值准则及求解算法的应用.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(计算机软件与理论专业论文)绝对值等值准则及求解算法的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

绝对值等值准则及求解算法的应用 7 1 2 2 3 1 摘要 计算机智能组卷和计算机自 适应测验是都需要大型测验题库。 题库建设离不 开测验等值。本文在分析己 有项目 反应理论 ( i t e m r e s p o n s e t h e o r y简称工 r t ) 等值 方法基础上, 提出 两 种更为 稳健的 等值方法: 普通绝对值 等值方法和平方根 绝对值等值方法。 已有的i r t 等值准则都具有较好的数学性质,通常采用于n -r 迭代算法求 解。而n -r 算法无法处理新的等值准则,为此,我们引入两种现代启发式搜索 算法一一模拟退火( s i m u l a t e d a n n e a l i n g ,简称s a ) 和进化策略 ( e v o l u t i o n a r y s t r a t e g y , 简 称e s ) ,以 求 解 新等 值 准则下 的 等 值 系数。 经过统计检验, m o n t e c a r l o 模拟试验表明:新的等值方法比几个常用等值 方法更为稳健。 关健润:测脸铃位: 项目 反应理论; n -r 迭代算法; 模拟退火; 进化策略: 绝对位等值 绝对值等值准则及求解算法的应用 ab s t r a c t c o m p u t e r i z e d i n t e l l ig e n t c o n s t r u c t i o n o f t e s t p a p e r a n d c o m p u t e r i z e d a d a p t i v e t e s t ( c a t ) r e q u i r e a h u g e i t e m b a n k . i t e m b a n k i n g n e c e s s a r i l y n e e d s t e s t e q u a t i n g . b y a n a l y z i n g t h e s u b s i s t e n t m e t h o d s f o r t e s t e q u a t i n g b a s e d o n i t e m r e s p o n s e t h e o r y ( i r t ) , t w o n e w e q u a t i n g m e t h o d s , c o m m o n a b s o l u t e v a l u e e q u a t i n g m e t h o d a n d s q u a r e r o o t a b s o l u t e v a l u e e q u a t i n g m e t h o d , a r e in t r o d u c e d i n t h e p a p e r . t h e a c k n o w l e d g e d c r i t e r i a o f t e s t e q u a t in g h a v e g o o d m a t h e m a t i c a l p r o p e r i t i e s a n d w e g e n e r a l l y a d o p t t h e n e w t o n - r a p h s o n a l g o r i t h m w h i c h c a n n t d e a l w i t h t h e n e w c r i t e r i a . t h e r e f o r e , t w o k i n d s o f m o d e rn h e u r i s t i c a l g o r i t h m s , s i m u l a t e d a n n e a l i n g ( s a ) a n d e v o l u t i o n a r y s t r a t e g y ( e s ) , a r e p r o p o s e d t o g a i n t h e c o e f f i c i e n t s . b y s t a t i s t i c a n a l y s i s , t h e r e s u l t o f mo n t e c a r l o s t i m u l a t i o n s t u d y s h o w s t h a t t h e n e w m e t h o d s f o r t e s t e q u a t i n g m e t h o d a r e m o r e r o b u s t t h a n s u b s i s t e n t o n e s i n c om m on k e y w o r d s : s i m u l a t e d a n n e a l i n g ; e v o l u t i o n a r y s t r a t e g y ; i t e m r e s p o n s e t h e o r y ; t e s t e q u a t i n g ; a b s o l u t e v a l u e e q u a t i n g m e t h o d ; n e w t o n - r a p h s o n a l g o r i t h m 绝对值等值准则及求解算法的应用 第一章 引论 1 . 1 题之 论文研究背景和意义 i r t 等值即基于项目 反应理论的测验等值, 是计算机化测验要解决的关键问 随着计算机技术的进步, 计算机辅助教学有了蓬勃发展。 在各种形式的计算 机辅助教学中, 越来越多的计算机脱离了只作为媒体工具的单一角色,逐渐成为 具有一定思考能力和决策能力的教学助手。 计算机化测验, 作为计算机技术在教 育教学应用的一个方面, 也发生了很大变化。 早期的机存单份测验和机存卷库再 随机抽卷的测验己 非常少见, 取而代之的是计算机智能化组卷然后施测的测验和 计算机自 适应测验 ( c o m p u t e r i z e d a d a p t i v e t e s t , c a t ) ,它们是计算机化测验 的两种主流形式, 代表着“ 无纸化” 测验的智能化发展方向。 这两种形式的测验 有一个共同的 特点: 基于测验题库。 题库不是普通试题的集合, 而是大量性能业 己查明的合格试题的有序序列, 对于每个进入题库的试题都要求在试题内容和测 试功能上优良。 保证每个试题优良的测试功能, 必须在试题录入题库之前, 进行 参数估计和测验等值。 题库是一个有机整体,内容和结构具有相对稳定性, 试题 一旦入库, 其性能参数在很长一段时间内不会改变。 要获得试题的性能参数,先 要组织被试完成特定的测验, 再针对被试在测验项目 上的表现数据, 进行参数估 计得到各个试题的参数值, 再进行测验等值。测验等值是指将测量同一心理特质 的多个测验形式上的测验分数 ( 或潜特质水平) 或项目 参数实现单位系统转换, 达到相互间对应指标可比的过程。 因此, 参数估计和测验等值, 直接影响着题库 的质量,关系到计算机化测验的成败。 参数估计和测验等值,是以测验理论为基础的。由于经典测验理论 ( c l a s s i c a l t e s t t h e o r y , c t t ) 存在测验分数的测验依赖性、 信度估计的不精 确性和能力量表与难度量表的不一致性等缺陷, 不利于指导测验编制活动。 项目 反应理论 ( i t e m r e s p o n s e t h e o r y , i r t)克服了 经典测验理论的局限,以 项目 反应理论为基础进行参数估计和等值, 更科学合理, 更加有利于入库试题优良测 试功能的实现。 基于项目 反应理论的测验等值( 以后简称i r t 等值) , 许多专家进行了大量的 研究, 提出了多种等值方法。 但分析这些等值方法, 我们发现, 各种等值方法在 等值系数的不同取值范围等值结果相差较大,比 如,s t o k i n g _ l o r d等值方法在 绝对值等值准则及求解算法的应用 第一章 引论 1 . 1 题之 论文研究背景和意义 i r t 等值即基于项目 反应理论的测验等值, 是计算机化测验要解决的关键问 随着计算机技术的进步, 计算机辅助教学有了蓬勃发展。 在各种形式的计算 机辅助教学中, 越来越多的计算机脱离了只作为媒体工具的单一角色,逐渐成为 具有一定思考能力和决策能力的教学助手。 计算机化测验, 作为计算机技术在教 育教学应用的一个方面, 也发生了很大变化。 早期的机存单份测验和机存卷库再 随机抽卷的测验己 非常少见, 取而代之的是计算机智能化组卷然后施测的测验和 计算机自 适应测验 ( c o m p u t e r i z e d a d a p t i v e t e s t , c a t ) ,它们是计算机化测验 的两种主流形式, 代表着“ 无纸化” 测验的智能化发展方向。 这两种形式的测验 有一个共同的 特点: 基于测验题库。 题库不是普通试题的集合, 而是大量性能业 己查明的合格试题的有序序列, 对于每个进入题库的试题都要求在试题内容和测 试功能上优良。 保证每个试题优良的测试功能, 必须在试题录入题库之前, 进行 参数估计和测验等值。 题库是一个有机整体,内容和结构具有相对稳定性, 试题 一旦入库, 其性能参数在很长一段时间内不会改变。 要获得试题的性能参数,先 要组织被试完成特定的测验, 再针对被试在测验项目 上的表现数据, 进行参数估 计得到各个试题的参数值, 再进行测验等值。测验等值是指将测量同一心理特质 的多个测验形式上的测验分数 ( 或潜特质水平) 或项目 参数实现单位系统转换, 达到相互间对应指标可比的过程。 因此, 参数估计和测验等值, 直接影响着题库 的质量,关系到计算机化测验的成败。 参数估计和测验等值,是以测验理论为基础的。由于经典测验理论 ( c l a s s i c a l t e s t t h e o r y , c t t ) 存在测验分数的测验依赖性、 信度估计的不精 确性和能力量表与难度量表的不一致性等缺陷, 不利于指导测验编制活动。 项目 反应理论 ( i t e m r e s p o n s e t h e o r y , i r t)克服了 经典测验理论的局限,以 项目 反应理论为基础进行参数估计和等值, 更科学合理, 更加有利于入库试题优良测 试功能的实现。 基于项目 反应理论的测验等值( 以后简称i r t 等值) , 许多专家进行了大量的 研究, 提出了多种等值方法。 但分析这些等值方法, 我们发现, 各种等值方法在 等值系数的不同取值范围等值结果相差较大,比 如,s t o k i n g _ l o r d等值方法在 绝对值等值准则及求解算法的应用 等值系数a 从小于1 变化到大于1 时, 等值结果与真值之间的偏差有逐渐增大的 趋势。 现有等值方法的这一特性, 使得找出一种更为稳健, 在等值系数的不同取 值域都较为准确和可靠的等值方法成为现实的需要。 现有 工 r t 等值方法的另一个特性是实际求解过程大多采用牛顿一拉夫逊迭 代算法。 由于这种算法要求目 标函数具有二阶导数, 并且在用计算机编程实现等 值之前要先完成繁琐复杂的人工求导计算, 这样增加了t r t 等值方法之间模拟比 较与新等值方法探索的难度。 然而,在人工智能领域,己经出现了多种具有较为完备理论基础的现代启发 式搜索算法, 例如进化计算、 模拟退火等。 这些算法对于解决数值优化问题具有 很强的通用性, 根据目 标函数, 设置合理的参数,能够达到有效求解的目的。 这 就为克服牛顿一拉夫逊迭代算法的局限提供了可选对象, 有助于工 r t 等值方法的 探索与研究。 1 . 2 本文研究内容 在分析现有常见i r t 等值方法的基础上, 提出经典优化算法无法处理的绝对 值工 r t 等值方法, 并用模拟退火、 进化计算这两种启发式搜索算法对它进行求解。 在实际研究工作中,我们做了大量的探索、试验和分析。通过在 v c + + 集成开发 环境下, 编制算法代码, 修改和完善算法结构,反复模拟实践,我们取得了一些 结果。 本文主要创新点是: 第一、 给出了新的等值方法绝对值等值方法。 其目 标函数为: 普通绝对 值等值目 标函数和平方根绝对值等值目 标函数。 第二、 将模拟退火、 进化计算算法运用到工 r t 等值过程中, 在新的评价函数 基础上进行等值运算时, 通过反复试验, 较为合理地确定了模拟退火和进化策略 这两种现代启发式搜索算法各个参数。 在开展研究中,我们运用了m o n t e c a r l o 方法。 通过大量的重复实验和对数 据统计分析,我们发现,绝对值等值方法比几种常用的等值方法更稳健。此外, 模拟退火、 进化计算算法都具备全局寻优的能力, 并且对目标函数没有特殊要求, 通用性很强, 与等值方法的数值特性相结合, 能为工 r t 等值方法研究提供很好的 工具模块。 在本文中,我们探讨的项目反应理论等值,假定测试已经进行过等值设计, 绝对值等值准则及求解算法的应用 等值系数a 从小于1 变化到大于1 时, 等值结果与真值之间的偏差有逐渐增大的 趋势。 现有等值方法的这一特性, 使得找出一种更为稳健, 在等值系数的不同取 值域都较为准确和可靠的等值方法成为现实的需要。 现有 工 r t 等值方法的另一个特性是实际求解过程大多采用牛顿一拉夫逊迭 代算法。 由于这种算法要求目 标函数具有二阶导数, 并且在用计算机编程实现等 值之前要先完成繁琐复杂的人工求导计算, 这样增加了t r t 等值方法之间模拟比 较与新等值方法探索的难度。 然而,在人工智能领域,己经出现了多种具有较为完备理论基础的现代启发 式搜索算法, 例如进化计算、 模拟退火等。 这些算法对于解决数值优化问题具有 很强的通用性, 根据目 标函数, 设置合理的参数,能够达到有效求解的目的。 这 就为克服牛顿一拉夫逊迭代算法的局限提供了可选对象, 有助于工 r t 等值方法的 探索与研究。 1 . 2 本文研究内容 在分析现有常见i r t 等值方法的基础上, 提出经典优化算法无法处理的绝对 值工 r t 等值方法, 并用模拟退火、 进化计算这两种启发式搜索算法对它进行求解。 在实际研究工作中,我们做了大量的探索、试验和分析。通过在 v c + + 集成开发 环境下, 编制算法代码, 修改和完善算法结构,反复模拟实践,我们取得了一些 结果。 本文主要创新点是: 第一、 给出了新的等值方法绝对值等值方法。 其目 标函数为: 普通绝对 值等值目 标函数和平方根绝对值等值目 标函数。 第二、 将模拟退火、 进化计算算法运用到工 r t 等值过程中, 在新的评价函数 基础上进行等值运算时, 通过反复试验, 较为合理地确定了模拟退火和进化策略 这两种现代启发式搜索算法各个参数。 在开展研究中,我们运用了m o n t e c a r l o 方法。 通过大量的重复实验和对数 据统计分析,我们发现,绝对值等值方法比几种常用的等值方法更稳健。此外, 模拟退火、 进化计算算法都具备全局寻优的能力, 并且对目标函数没有特殊要求, 通用性很强, 与等值方法的数值特性相结合, 能为工 r t 等值方法研究提供很好的 工具模块。 在本文中,我们探讨的项目反应理论等值,假定测试已经进行过等值设计, 绝对值等值准则及求解算法的应用 采用的是锚测验非等组设计。 主要讨论两参数的逻辑斯蒂克o - l 评分模型等 值系数的求解技术。 文中提到的各种等值方法指的是在不同目 标函数下的等值准 则,实际求解过程我们用求解算法来加以描述。 全文的章节安排如下: 第一章引言 第二章 i r t等值方法概述,介绍了求解等值系数的一般过程和常用的儿种 i r t 等值方法。这些等值方法包括:h a e b a r a 等值、s t o c k i n g _ l o r d 等值、 对称 相对嫡等值、加权 h a e b a r a 等值、平方根检验等值口 第三章 常见现代启发式搜索算法, 主要介绍搜索算法的基本内容和两种现代 启发式搜索算法模拟退火和进化计算。 结合在工 r t 等值中的应用, 进化计算 中比较详细介绍了 进化策略的算法思想。 第四章 搜索算法在工 r t 等值方法中的应用。 提出了新的工 r t 等值方法, 介绍 该方法的目 标函数及求解算法。 即围绕新提出的目 标函数, 详细讨论两种现代启 发式搜索算法一一s a 和e s 的应用。 第五章 等值方法的结果分析以及诸方法的比较。 通过m o n t e c a r l o 模拟, 分 析各种等值方法的优劣。 第六章 问题与展望。 绝对值等值准则及求解算法的应用 第二章 ! r t 等值方法概述 2 . 1项目 反应理论 ( i r t )等值 测验等值1 6 7 是指将测量同一心理特质的多个测验形式上的测验分数 ( 或潜特 质水平) 或项目 参数实现单位系统转换, 达到相互间对应指标可比的过程。 项目 反应理论等值以项目反应理论( i t e m r e s p o n s e t h e o r y , 简称 i r t ) 为指导,相对 于经典理论等值来说,i r t等值思想更为科学。 2 . 1 . 1 项目反应理论 ( i r t ) 项目 反应理论( i r t ) 是一种心理与教育测验理论, 将被试特质水平与被试 在项目 上的行为关联起来并且将其参数化、模型化的测验理论。工 r t 最突出的特 性是将不可观察的被试的潜在特质通过观察其对项目的反应用函数关联起来。 这 种关联的思想是以认知领域的测量为例, 沿着被试总分的由低到高, 对试题正确 作答的概率形成一条单调上升的曲线, 这就是试题正确作答率对测验总分的回归 曲线。 但由于被试总分是一个很不稳定的被试水平描写量,因此,人们用能稳定 反映被试水平的潜在特质量表分数代替被试卷面总分作为回归曲线的自 变量, 这 样就得到了项目特征曲线( i t e m c h a r a c t e r i s t i c c u r v e , 简称 i c c ) o i r t 研究中 的一项重要工作就是确定项目 特征曲线的形态,然后给出这条特征曲线的解析 式, 称之 为 项目 特 征函 数( i t e m c h a r a c t e r i s t i c f u n c t i o n : i c f ) . 根据所测特质的数量不同,有单维和多维之分。在这里,我们的研究限制在 单维特质空间假设前提下。根据在项目评分上的不同,有 0 -1 记分和多级记分 两种模型,由于本文讨论的是在 0 -1记分模型下的等值。因此,这里只介绍在 0 -1 评分模型下的项目 特征函数。 1 ) 单参数的逻辑斯蒂克( l o g i s t i c ) 模型( 1 p l m ) : p ; ( 0 ) 一 1 / 1 + e x p - d ( 0 一 b ; ) l 2 ) 双参数的逻辑斯蒂克模型( 2 p l m ) : p i ( 0 ) = 1 / 1 + e x p - d a f ( 0 一 b , ) 1 3 ) 三参数的逻辑斯蒂克模型( 3 p l m ) : 绝对值等值准则及求解算法的应用 第二章 ! r t 等值方法概述 2 . 1项目 反应理论 ( i r t )等值 测验等值1 6 7 是指将测量同一心理特质的多个测验形式上的测验分数 ( 或潜特 质水平) 或项目 参数实现单位系统转换, 达到相互间对应指标可比的过程。 项目 反应理论等值以项目反应理论( i t e m r e s p o n s e t h e o r y , 简称 i r t ) 为指导,相对 于经典理论等值来说,i r t等值思想更为科学。 2 . 1 . 1 项目反应理论 ( i r t ) 项目 反应理论( i r t ) 是一种心理与教育测验理论, 将被试特质水平与被试 在项目 上的行为关联起来并且将其参数化、模型化的测验理论。工 r t 最突出的特 性是将不可观察的被试的潜在特质通过观察其对项目的反应用函数关联起来。 这 种关联的思想是以认知领域的测量为例, 沿着被试总分的由低到高, 对试题正确 作答的概率形成一条单调上升的曲线, 这就是试题正确作答率对测验总分的回归 曲线。 但由于被试总分是一个很不稳定的被试水平描写量,因此,人们用能稳定 反映被试水平的潜在特质量表分数代替被试卷面总分作为回归曲线的自 变量, 这 样就得到了项目特征曲线( i t e m c h a r a c t e r i s t i c c u r v e , 简称 i c c ) o i r t 研究中 的一项重要工作就是确定项目 特征曲线的形态,然后给出这条特征曲线的解析 式, 称之 为 项目 特 征函 数( i t e m c h a r a c t e r i s t i c f u n c t i o n : i c f ) . 根据所测特质的数量不同,有单维和多维之分。在这里,我们的研究限制在 单维特质空间假设前提下。根据在项目评分上的不同,有 0 -1 记分和多级记分 两种模型,由于本文讨论的是在 0 -1记分模型下的等值。因此,这里只介绍在 0 -1 评分模型下的项目 特征函数。 1 ) 单参数的逻辑斯蒂克( l o g i s t i c ) 模型( 1 p l m ) : p ; ( 0 ) 一 1 / 1 + e x p - d ( 0 一 b ; ) l 2 ) 双参数的逻辑斯蒂克模型( 2 p l m ) : p i ( 0 ) = 1 / 1 + e x p - d a f ( 0 一 b , ) 1 3 ) 三参数的逻辑斯蒂克模型( 3 p l m ) : 绝对值等值准则及求解算法的应用 p j ( 8 ) 二 c 1 + ( 1 一 c j ) / 1 + e x p - d a j ( b 一 b ; ) ) 其 中d = 1 . 7 , 参 数 。 ; 为 项目 的 区 分 度, 参 数 气 为 项目 的 难 度 , 参 数 c , 为 项目 猜 测 度 , 。 为 被 试的 能 力, 只沪 ) 表 示 能 力 为b 的 被 试 在 项目j 上 正 确 作 答的 概 率。 2 . 1 . 2测验等值 等值是一项科学、 公正的考试所必备的工作。 比较和解释同一学科不同试卷 的考试分数;比较同一学科不同形式的试卷、试题参数,都必须进行测验等值。 当前许多考试正经历着由传统的“ 纸笔考试”向“ 无纸化”施测的转变。在这种 转变中, “ 无纸化” 施测智能化较高的是基于题库的计算机测验。 它有两种形式, 一种是计算机智能化组卷后再施测的测验, 这种形式的与早期机存卷库的抽卷测 验完全不同, 它要求计算机能够识别管理员对测试试卷的要求, 根据测试内 容目 标, 结合题库中各试题的性能参数, 高效成批生成具有指定性能的优良 试卷, 有 利于测验的保密、客观、公正。 而后者只仅仅起到简单媒体工具的作用; ,另一 种智能化程度更高的形式是计算机自 适应测验 ( c o m p u t e r i z e d a d a p t i v e t e s t , 简称 c a t ) ,在这种测验中,计算机根据被试能力调出与被试能力相适应试题, 像 “ 因材施教” 那样 “ 因人施测” ,提高测验的信度和效度。 这两种测验是计算 机测试的发展方向, 它们都基于测验题库, 题库建设离不开等值的应用。 显而易 见,等值是计算机辅助教学 ( c o m p u t e r a i d e d i n s t r u c t i o n , 简称 c a i ) 、 考试 现代化和科学化的重要环节。 测验等值要满足一定条件, 如对称性、 同规格性、 公平性、 观察分数等值性、 群体不变性等。 2 . 2 二参数l o g i s t i c 模型 ( 2 p l m ) i r t 等值基本关系式 设进行了测验x 和y , x 与y 中含有m 个锚题 ( a n c h o r i t e m ) 。记锚题中第 j ( j - m ) 个测验项目 在测验上x 与y 中估出的各个项目 参数为a, b , ; , a , ; , b. 由i r t 知,同一测验项目 在两个不同测验中估出的项目 参数值之间有如下关系: a y, 一 a j 1 a气. a 气十 b ( 2 . 1 ) 记 同 一 被 试 在 两 个 不 同 测 验 上x 与y 中 估 出 的 能 力 参 数 分 别 为 氏 。和气 。 , 则 b - 和0 ,。 有 关 系 式 绝对值等值准则及求解算法的应用 p j ( 8 ) 二 c 1 + ( 1 一 c j ) / 1 + e x p - d a j ( b 一 b ; ) ) 其 中d = 1 . 7 , 参 数 。 ; 为 项目 的 区 分 度, 参 数 气 为 项目 的 难 度 , 参 数 c , 为 项目 猜 测 度 , 。 为 被 试的 能 力, 只沪 ) 表 示 能 力 为b 的 被 试 在 项目j 上 正 确 作 答的 概 率。 2 . 1 . 2测验等值 等值是一项科学、 公正的考试所必备的工作。 比较和解释同一学科不同试卷 的考试分数;比较同一学科不同形式的试卷、试题参数,都必须进行测验等值。 当前许多考试正经历着由传统的“ 纸笔考试”向“ 无纸化”施测的转变。在这种 转变中, “ 无纸化” 施测智能化较高的是基于题库的计算机测验。 它有两种形式, 一种是计算机智能化组卷后再施测的测验, 这种形式的与早期机存卷库的抽卷测 验完全不同, 它要求计算机能够识别管理员对测试试卷的要求, 根据测试内 容目 标, 结合题库中各试题的性能参数, 高效成批生成具有指定性能的优良 试卷, 有 利于测验的保密、客观、公正。 而后者只仅仅起到简单媒体工具的作用; ,另一 种智能化程度更高的形式是计算机自 适应测验 ( c o m p u t e r i z e d a d a p t i v e t e s t , 简称 c a t ) ,在这种测验中,计算机根据被试能力调出与被试能力相适应试题, 像 “ 因材施教” 那样 “ 因人施测” ,提高测验的信度和效度。 这两种测验是计算 机测试的发展方向, 它们都基于测验题库, 题库建设离不开等值的应用。 显而易 见,等值是计算机辅助教学 ( c o m p u t e r a i d e d i n s t r u c t i o n , 简称 c a i ) 、 考试 现代化和科学化的重要环节。 测验等值要满足一定条件, 如对称性、 同规格性、 公平性、 观察分数等值性、 群体不变性等。 2 . 2 二参数l o g i s t i c 模型 ( 2 p l m ) i r t 等值基本关系式 设进行了测验x 和y , x 与y 中含有m 个锚题 ( a n c h o r i t e m ) 。记锚题中第 j ( j - m ) 个测验项目 在测验上x 与y 中估出的各个项目 参数为a, b , ; , a , ; , b. 由i r t 知,同一测验项目 在两个不同测验中估出的项目 参数值之间有如下关系: a y, 一 a j 1 a气. a 气十 b ( 2 . 1 ) 记 同 一 被 试 在 两 个 不 同 测 验 上x 与y 中 估 出 的 能 力 参 数 分 别 为 氏 。和气 。 , 则 b - 和0 ,。 有 关 系 式 绝对值等值准则及求解算法的应用 p j ( 8 ) 二 c 1 + ( 1 一 c j ) / 1 + e x p - d a j ( b 一 b ; ) ) 其 中d = 1 . 7 , 参 数 。 ; 为 项目 的 区 分 度, 参 数 气 为 项目 的 难 度 , 参 数 c , 为 项目 猜 测 度 , 。 为 被 试的 能 力, 只沪 ) 表 示 能 力 为b 的 被 试 在 项目j 上 正 确 作 答的 概 率。 2 . 1 . 2测验等值 等值是一项科学、 公正的考试所必备的工作。 比较和解释同一学科不同试卷 的考试分数;比较同一学科不同形式的试卷、试题参数,都必须进行测验等值。 当前许多考试正经历着由传统的“ 纸笔考试”向“ 无纸化”施测的转变。在这种 转变中, “ 无纸化” 施测智能化较高的是基于题库的计算机测验。 它有两种形式, 一种是计算机智能化组卷后再施测的测验, 这种形式的与早期机存卷库的抽卷测 验完全不同, 它要求计算机能够识别管理员对测试试卷的要求, 根据测试内 容目 标, 结合题库中各试题的性能参数, 高效成批生成具有指定性能的优良 试卷, 有 利于测验的保密、客观、公正。 而后者只仅仅起到简单媒体工具的作用; ,另一 种智能化程度更高的形式是计算机自 适应测验 ( c o m p u t e r i z e d a d a p t i v e t e s t , 简称 c a t ) ,在这种测验中,计算机根据被试能力调出与被试能力相适应试题, 像 “ 因材施教” 那样 “ 因人施测” ,提高测验的信度和效度。 这两种测验是计算 机测试的发展方向, 它们都基于测验题库, 题库建设离不开等值的应用。 显而易 见,等值是计算机辅助教学 ( c o m p u t e r a i d e d i n s t r u c t i o n , 简称 c a i ) 、 考试 现代化和科学化的重要环节。 测验等值要满足一定条件, 如对称性、 同规格性、 公平性、 观察分数等值性、 群体不变性等。 2 . 2 二参数l o g i s t i c 模型 ( 2 p l m ) i r t 等值基本关系式 设进行了测验x 和y , x 与y 中含有m 个锚题 ( a n c h o r i t e m ) 。记锚题中第 j ( j - m ) 个测验项目 在测验上x 与y 中估出的各个项目 参数为a, b , ; , a , ; , b. 由i r t 知,同一测验项目 在两个不同测验中估出的项目 参数值之间有如下关系: a y, 一 a j 1 a气. a 气十 b ( 2 . 1 ) 记 同 一 被 试 在 两 个 不 同 测 验 上x 与y 中 估 出 的 能 力 参 数 分 别 为 氏 。和气 。 , 则 b - 和0 ,。 有 关 系 式 绝对值等值准则及求解算法的应用 9 ,二 a 0 , , + b 这里 a , b 称为等值系数。 ( 2 . 若 用 p ( 9 , a , b ) 表 示 能 力 为 b 的 被 试 答 对 区 分 度 为 难度为b 的项目 的概率, 根据在锚题组中同一被试在同 一项目 上的真分数相等 同一被试在同一个项目 上正确作答的概率相等。即有 p ( b , ; , a f , b , ) = p ( 9 y , , a yj , b yf ) 则只要a* 0 , 便有恒等式 p ( b , , , a y1 b y; ) 一 p ( a a , a + b , a i i a , a b j + b ) ( 2 . 3 ) 由 于 a y 一 a 6 , , + b , 故 由( 3 . 3 ) 有 p ( 9 y j , a yi b yi ) 一 p ( 6 y ; , a ; i a , a b , + b ) ( 2 . 4 ) 若 p ( i a 一 b i a , a , , 气)( 2 . 5 ) 的形式, 而且改写成 ( 2 . 5 )的形式往往计算起来更方便。不妨记 凡一 p ( 9 a b ) ( 2 . 6 ) 几 二 p ( a 9 , ; + b , a yj , b y, ) 注意到 ( 2 . 5 ) 左右两边0 , a , b 皆为估计值,故只能近似相等,通常从技术 一上 讲, 等 值 便 是 寻 找 等 值 常 数a , b , 使 得 对 每 个i , j , 只 。 与气之间 差 距 尽 量 地 小, 即 对 一 个目 标函 数f ( a , b ) , 寻 找( a , b ) , 使 得 对 于 任 意( a , b ) 有 f 叼 , b ) f ( a , b )。 2 . 3常用 1 r t 等值方法及一般求解过程 现在在 工 r t 等值实际应用中, 通常都使用含有l o g i s t i c 模型的表达式作为 目 标函数,以此来求得等值系数a , b . 最常见且使用最广泛的两种测验等值准则就是h a e b a r a 的项目 特征曲 线等 值法 ( h c r i t ) 和s t o c k i n g _ l o r d 的测验特征曲 线等值法 ( s l c r i t ) , 这两种等值 方法的目 标函数为: h a e b a r a 等值目 标函 数m i f ( a , b ) ( p j 一 p ,j ) 2 ( 2 . 7 ) 材勺台 n习石t-l 一一 s t o c k i n g 少o r d 等值目 标函数涌 : 绝对值等值准则及求解算法的应用 9 ,二 a 0 , , + b 这里 a , b 称为等值系数。 ( 2 . 若 用 p ( 9 , a , b ) 表 示 能 力 为 b 的 被 试 答 对 区 分 度 为 难度为b 的项目 的概率, 根据在锚题组中同一被试在同 一项目 上的真分数相等 同一被试在同一个项目 上正确作答的概率相等。即有 p ( b , ; , a f , b , ) = p ( 9 y , , a yj , b yf ) 则只要a* 0 , 便有恒等式 p ( b , , , a y1 b y; ) 一 p ( a a , a + b , a i i a , a b j + b ) ( 2 . 3 ) 由 于 a y 一 a 6 , , + b , 故 由( 3 . 3 ) 有 p ( 9 y j , a yi b yi ) 一 p ( 6 y ; , a ; i a , a b , + b ) ( 2 . 4 ) 若 p ( i a 一 b i a , a , , 气)( 2 . 5 ) 的形式, 而且改写成 ( 2 . 5 )的形式往往计算起来更方便。不妨记 凡一 p ( 9 a b ) ( 2 . 6 ) 几 二 p ( a 9 , ; + b , a yj , b y, ) 注意到 ( 2 . 5 ) 左右两边0 , a , b 皆为估计值,故只能近似相等,通常从技术 一上 讲, 等 值 便 是 寻 找 等 值 常 数a , b , 使 得 对 每 个i , j , 只 。 与气之间 差 距 尽 量 地 小, 即 对 一 个目 标函 数f ( a , b ) , 寻 找( a , b ) , 使 得 对 于 任 意( a , b ) 有 f 叼 , b ) f ( a , b )。 2 . 3常用 1 r t 等值方法及一般求解过程 现在在 工 r t 等值实际应用中, 通常都使用含有l o g i s t i c 模型的表达式作为 目 标函数,以此来求得等值系数a , b . 最常见且使用最广泛的两种测验等值准则就是h a e b a r a 的项目 特征曲 线等 值法 ( h c r i t ) 和s t o c k i n g _ l o r d 的测验特征曲 线等值法 ( s l c r i t ) , 这两种等值 方法的目 标函数为: h a e b a r a 等值目 标函 数m i f ( a , b ) ( p j 一 p ,j ) 2 ( 2 . 7 ) 材勺台 n习石t-l 一一 s t o c k i n g 少o r d 等值目 标函数涌 : 绝对值等值准则及求解算法的应用 n m f ( “ , b ) 一 菩 i; (p a 一 只 。 ” zp y ) ( 2 . 8 ) 在上 面两个表达式中, n 表示被试的人数,m 表示锚题的数目,p ,= p ( 8 . . , a, b . ) , pj= p ( a * 9 , ,+ b , a , b , ; ) 。 表达式( 2 . 7 ) 和表达式( 2 . 8 ) 分别是h a e b a r a 和s t o c k i n g _ l o r d 等值准则在0 - 1 评分项目 上的目 标函数。表达式 ( 2 . 8 ) 表示的 是对于同一个被试工 在同一批项目上真分数相等。 在国内, 对于l o g i s t i c 模型,一些专家提出了多个新的等值准则,其中 包括 对数对比等值准则、 对称相对嫡准则( s r e c r i t ) 、 平方根检验等值准则( s q r c r i t ) , h a e b a r a 加权等值准则,它们的目标函数列为: 对数对t 匕 in l 6 s u f ( a , b , 一 i n i i 二 1a , (9 ri 一 b y ) 一 a , (a 6 + b 一 b,;) 对称相对嫡2 1 2 7 f ( a , b , 一 叉 ni-1 叉 戈 p7 7 ln (p j “) + ln (p ,j / p e ) 平方根检验 f ( a , b , 一 )l n , 累1 r i.i j m .il( j 一p j ) z + ( i q- : !- 一 k , ) z h e a b a r a 加权: f ( a , b ) 一 , n - , m 压军立十 (几二 逆十 (旦 y1 二 9 竺 犷 十 二 侧 自 )- 1 、 p ij p yl ()-p ( q x ijq y ij 现有的工 r t 等值方法还有不少, 但求解等值系数a , b 的思路基本是一样的, 如果不能直接用代数的方法计算获得结果, 则围 绕目 标函数, 用牛顿一拉夫逊迭 代方法求解。 i r t 各种项目 特征曲 线转化等值方法实现等值一个最基本依据就是同一个人 在两个不同 测验x 和y 中的同一个 ( 或同一批,例如: s t o k i n g _ l o r d 等值准则) 题目上答对或答错的概率 ( 或概率之和)相等。因此,当转化成目 标函数f ( a , b )后,工 r t等值问题就成了一般的求解最大值最小值问题。对于具有二阶导数 的连续函数,求解的过程一般如下: 目标函数f ( a , b ) 对a 和b 分别求偏导,并令其为0 。记对a的偏导为f b 的偏导为 f 2 ,即构成方程组: 绝对值等值准则及求解算法的应用 f= a f ( a , b ) a a 二0 ; f , = o f ( a , b ) a b =0 ; 1 r t各种项目 特征曲线转化法的目 标函数都含有l o g i s t i c 模型的表达式, 通常由f , =0 和f 1 =0 联立构成非线性方程组,无法用解线性方程组的各种方法 直接计算结果, 此时通常选用牛顿一拉夫逊迭代算法求解。 用这种迭代方法则要 求知道 f . 和 f : 关于 a , b的导数。若: a 2 f ( a , b ) . a a 2 兰胡 一一 记 9 ,一 器 , 则 有 g ig= 记 9 11一 器 , 则 有 g ,z= a 2 f ( a , 丑 )a 2 f ( a , b ) a aa b a f , 。 ., 、护f ( a , b ) lc g 22 = a , x 9 a 9 22 = 一a b 2 采用上面列出的f f l , g. 9 12 1 g 二 符号,求解等值系数a , b的一次牛顿 一拉夫逊迭代算式为: ( a ) 又 b ) s * , 其中5一 ( a )b : 一 (911 912912 922)一/11f2)a-a ,。 ( 2 . 9 ) =0 , 1 , 2 , , 表示第s 次迭代。 s =o , 表示迭代的初值。 从定义f l , f 2 , g 1 1 , 9 1 2 , 9 2 2 符号的过程我们知道, 这5 个符号代表的是含有等值系数a , b 的函数表达式, 迭代式 ( 2 . 9 ) 中的f l , f 2 , g 1 1 , 9 1 2 , g 2 2 个含有的a , b 取 值是a b 、 。 对于牛顿一拉夫逊迭代求解,最终能否搜索求得最优解 a , b ,与初值的选 取有很大的关系。工 r t 等值系数a , b的 初始值一般都选用均数标准差方法? s 7 计 算, 也可以 用对数对比等值准则求出。 在模拟试验中, 我们采用均数标准差方法 获取a , b 的迭代初值,公式如下; a a , b = b 二 一 鸡b , 其中b s . 一m/ , ” 一) b 州 m 材勺间 ax=( b , 一 b , ) z 。 , 二 了 m (b、 一 by)z/ m 绝对值等值准则及求解算法的应用 工 r t 等值的各种项目 特征曲线转化法区别在于目标函数,实际求解过程都运 用牛 顿 一拉夫 逊迭代算 法。 因此 有人2 3 5 0 7 专门 作了 研究, 提出 在牛顿 一拉夫 逊迭 代算法具体实现中采用统一的求解格式来提高算法的计算效率。 统一求解格式主 要是 ( 2 . 9 )中的f l , f 2 , g 1 1 , g 1 2 , g 2 2 的表示,具体描述如下: / 一 afa s 一 y n 8 ; 4o_, ; : 二 _afaa 一 y an j; a 2 f 9 1 1 - a z a 2 f 8 2 , 一 a b z 9 1 2一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论