(基础心理学专业论文)侦查作答抄袭的两种新指标的比较研究.pdf_第1页
(基础心理学专业论文)侦查作答抄袭的两种新指标的比较研究.pdf_第2页
(基础心理学专业论文)侦查作答抄袭的两种新指标的比较研究.pdf_第3页
(基础心理学专业论文)侦查作答抄袭的两种新指标的比较研究.pdf_第4页
(基础心理学专业论文)侦查作答抄袭的两种新指标的比较研究.pdf_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 心理测验中有许多干扰因素会影响测验分数,影响考试的有效性和公平性。 作弊是一个比较常见的因素,而在众多的作弊方法中,作答抄袭是较难侦查的一 种。作答抄袭指的是一个作答者从另一个作答者那里得到部分或者全部答案。为 了侦查作答抄袭,研究者提出了很多方法。作答抄袭统计量是一种主要的侦查作 答抄袭的方法。作答抄袭统计量应用于侦查作答抄袭可以追溯到上个世纪二十年 代,随后,研究者们提出了大量作答抄袭统计抄袭量指标。 本文介绍了早期的几种主要的用于侦查作答抄袭的统计量指标: ,g 一。 在此基础上,详细地介绍了两种侦查作答抄袭的新统计量指标:k a p p a 抄袭统计 量指标和基于变换二项式的统计检验量指标的原理。本文采用称名反应模型进行 数据模拟,考察了k a p p a 抄袭统计量和基于变换二项式的统计检验量这两种指标 在测验长度、作答者人数、项目抄袭率三个因素的不同水平上的侦查效果,比较 两种指标侦查作答抄袭时侦查率和i 型错误率的异同。 研究表明:( 1 ) 怀疑的抄袭者c 抄袭怀疑的被抄袭者s 的项目达到一定数量 时,两种指标对于作答抄袭的侦查率都非常高。抄袭率为2 0 时,k a p p a 抄袭统计 量指标的侦查率已高达0 9 ;抄袭率为3 0 时,基于变换二项式的统计检验量指 标的侦查率也高达0 9 。( 2 ) 测验长度,作答者样本量,项目抄袭率对于两种指 标的侦查率都有相同的影响趋势。测验长度越长,项目抄袭率越高,侦查率越高。 而作答者样本量对侦查率则无明显影响。( 3 ) k a p p a 抄袭统计量的高侦查率以高 i 型错误率为代价。错误侦查率为理论i 型错误率的3 5 倍。基于变换二项式 的统计检验量的错误侦查率则控制良好,均在理论工型错误率值左右。 关键字:作答抄袭;作答抄袭统计量;k a p p a 抄袭统计量;基于变换二项式的统 计检验量 a b s t r a c t p s y c h o l o g i c a lt e s t sh a v em u c hi n t e r f e r e n c ef a c t o r st h a tm a y a f f e c tt h et e s ts c o r e s a n dt e s tv a l i d i t ya n df a i r n e s s c h e a t i n gi sar e l a t i v e l yc o m m o nf a c t o r , a n di nm a n y c h e a t i n gm e t h o d s ,a n s w e rc o p y i n gi sm o r ed i f f i c u l tt od e t e c t a n s w e rc o p y i n g m e a n st oa n s w e rq u e s t i o n sb yc o p y i n gs o m eo ra l lt h ea n s w e r sf r o mt h eo t h e r r e s p o n d e n t s i no r d e rt od e t e c ta n s w e rc o p y i n g ,t h er e s e a r c h e r sm a d eal o to f m e t h o d s a n s w e rc o p y i n gs t a t i s t i c sa r e m a j o rm e t h o d st od e t e c ta n s w e rc o p y i n g t h et i m eu s i n ga n s w e rc o p y i n gs t a t i s t i c st od e t e c ta n s w e rc o p y i n gc a i lb et r a c e db a c k t ot w od e c a d e si nl a s tc e n t u r y , t h e nal a r g en u m b e ro fa n s w e rc o p y i n gs t a t i s t i c sw e r e p r o p o s e d t h i sa r t i c l ed e s c r i b e ss o m em a j o ri n d i c e so fa n s w e rc o p y i n gs t a t i s t i c se a r l yf o r t h ed e t e c t i o no fa n s w e rc o p y i n g :k ,g ,w o nt h i sb a s i s ,t h i ss t u d yi n t r o d u c et w o n e wi n d i c e st od e t e c ta n s w e rc o p y i n gi nd e t a i l s :k a p p aa n s w e rc o p y i n gs t a t i s t i c s i n d i c a t o ra n db a s e do nt h es h i f t e db i n o m i a ls t a t i s t i c a lt e s ti n d i c a t o r i nt h i sp a p e r , t h e s t u d yu s e sn o m i n a lr e s p o n s em o d e lf o rd a t as i m u l a t i o n ,i n v e s t i g a t i n gd e t e c t i n gr a t e a n di - e r r o rr a t eo fk a p p aa n s w e rc o p y i n gs t a t i s t i c sa n ds t a t i s t i c sb a s e do ns h i f t e d b i n o m i a ls t a t i s t i c a lt e s ti nt h et e s tl e n g t h ,t h en u m b e ro fi t e m sc o p y i n gf r o mo t h e r s a n dt h er a t eo fs t u d e n t sw h oc o p i e sa n s w e r sa n dc o m p a r i n gt h et w om e t h o d s s t u d ys h o w st h a t :( 1 ) i ft h en u m b e ro fi t e m scc o p i e sf r o msr e a c h e sac e r t a i n n u m b e r ,d e t e c t i o nr a t eo ft h et w om e t h o d sf o rd e t e c t i n ga n s w e rc o p y i n gi sv e r yh i g h i fc o p y i n gr a t ei sh i g h e rt h a n2 0 ,d e t e c t i o nr a t eo fk a p p aa n s w e rc o p y i n gs t a t i s t i c s c a nb ea sh i g ha s0 9 ;i fi ti sh i g h e rt h a n3 0 ,d e t e c t i o nr a t eo fb a s e do nt h eb i n o m i a l s h i f t e ds t a t i s t i c a lt e s to ft h es t a t i s t i c a lt e s tc a nb ea sh i g ha s0 9 ( 2 ) t e s tl e n g t h ,s a m p l e s i z ea n dc o p y i n gr a t ec o p i e dh a v et h es a m ei m p a c to nt h ed e t e c t i o nf o rt h o s et w o m e t h o d s t h el o n g e rt h el e n g t ho ft h et e s t ,t h eh i g h e rd e t e c t i o nr a t ei s t h es a m p l e s i z eo fr e s p o n d e n t sh a dn os i g n i f i c a n te f f e c to nd e t e c t i o nr a t e ( 3 ) k a p p as t a t i s t i c p l a g i a r i s md e t e c t i o nr a t eo fh i g h h i g h ie r r o rr a t ef o rt h ep r i c e m i s j u d g m e n tr a t eo f t h et h e o r e t i c a li - e r r o rr a t eo f3 5t i m e s c o n v e r s i o nb i n o m i a ls t a t i s t i c a lt e s t b a s e d r a t ec o n t r o lm i s ju d g m e n tg o o da b o u ti nt h et h e o r e t i c a lv a l u e k e yw o r d s :c h e a t i n g ;a n s w e rc o p y i n g ,k a p p as t a t i s t i c s ;s t a t i s t i c sb a s e do ns h i f t e d b i n o m i a l i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含 为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表 示谢意。 学位论文作者签名:识秘 学位论文版权使用授权书 本学位论文作者完全了解江西师范大学研究生院有关保留、使用 学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印 件和电子稿,允许论文被查阅和借阅。本人授权江西师范大学研究生 院可以将学位论文的全部或部分内容编入有关数据库进行检索,可以 采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:朔明洒 签字日期:1 年月多1 日 幺吼月 2 砂众 房年 辩1 名期 签 日 师字 导签 侦查作答抄袭的两种新指标的比较研究 第一部分文献综述 一个人从上学丌始直到走上社会,一生要经历无数场考试。在学校里,有各 种测验、期中期末考试和升学考试。走上社会,考试也不轻松。既有自学考试、 研究生考试、计算机等级考试等学历水平考试,也有司法考试、会计师、经济师 考试、职称外语考试等职业资格考试,考试仍然是竞争和淘汰的主要手段。所以, “考试人生”的说法也许并不过分。由于升学、就业、求职,都离不开考试,考 试越来越重要。 我国是一个考试传统悠久的国家,只要有考试,却总有一些人抱着不劳而获 的心态去面对,作弊愈加屡见不鲜。考试作弊,可以说是古已有之。在封建社会 科举考试中,做着当官梦的古人们也在想方设法地作弊。比如有一件清朝末年的 小坎肩,上面用蝇头小楷抄满了四书五经,足有四五万字,并且“关键词”都用 红笔标注。创造出“四大发明 的文明古国,考试作弊的智商当然也不会低了。 古代科举考试中的作弊手段大多为夹带、抄小抄、传卷子、偷改答卷、冒名顶替 等,形式较为单一。 在当今的高科技社会,考场成了一个新技术的竞技场,各种作弊的新“发明 层出不穷,大有“道高一尺、魔高一丈”的趋势。据报导,2 0 0 4 年以前,在研 究生入学考试中出现的违纪、作弊方式无非三种:替考、帮考和夹带文字小抄; 2 0 0 5 年通过手机短信发送答案成为作弊的主要手段;2 0 0 6 年无线耳机开始在研 究生入学考试中得到应用,2 0 0 7 年成为主流作弊方式。而2 0 0 8 年发现了高科 技作弊工具电子手表,该手表具有接收信息和呈现信息的功能,其显示屏不 仅能够显示客观题的字母信息,还能显示汉字,包括客观试题的选择题答案,主 观题的翻译和写作在内的整张试卷的答案,在该手表的显示屏上可一览无余。在 现代大规模的考试中,作弊方式有专业集团作弊、枪手等,不胜枚举,参见文献 【1 。近年来,不仅作弊方法各式各样,而且考试作弊呈高发势态,并不是个 偶然的现象。以我国的公务员考试为例,据国家公务员局考试录用司有关负责人 介绍,2 0 0 5 年之前,当中央机构及直属机构公务员考试规模在3 6 万余人时,作 弊仅仅属于个别现象;2 0 0 6 年,考试规模攀升至5 3 万余人时开始,作弊呈现抬 头趋势,当年度查处作弊考生2 0 0 余人;而在刚结束的最新一次7 7 万余人参加 的公务员考试中,作弊人数也创下了过1 0 0 0 人的历史纪录。近年执业医师资格 考试、司法考试等其他考试作弊也屡有发现。 硕十学位论文 如果说考试是种竞争的程序,作弊则是对这种程序的破坏。公平竞争是考 试制度的灵魂,作弊是对这种平等竞争的破坏。作弊之风助长了考生的投机取巧 之风,因为可以作弊,有的学生就不上课,只在考前复印一下笔记,再到考场上 去“发挥”,长此以往,将会动摇教育制度的根基。可以看出,考试作弊危害极 大,它既违背了“公平、平等、竞争、择优”的考试原则,也使考试的公信力和 权威性大打折扣,甚至失去了它应有的价值。正因为如此,防范控制考试作弊则 显得尤为重要。要防范作弊,必须要有一定的技术手段。即使在中国古代科举考 试中,也有相关的防范措施【2 1 。如明朝时,考生必须填写三代的姓名、籍贯,入 场要进行“搜检”,进场之后要锁门,还实行巡逻制,交卷后要糊名,考场由军 士看守等等。 在考试作弊的手段呈现出多样化、现代化,隐蔽性更强的今天,主要有两大 类措施:一类是防范于未然,在考试前便严格把关,运用科学的方法和手段来防 止作弊,如:电子照相、指纹采集比对;身份查核;考前抽签决定监考教室;加 强监考人员的培训;事先禁止可能运用到的通讯工具;使用通信干扰器。一类是 事后识别技术口3 ,所谓事后识别是指作弊发生后,采用定的技术手段,来测量 和识别作弊。这类技术主要是采用统计方法。 统计方法应用于侦查考试作弊可以追溯到2 0 世纪2 0 年代,主要针对的作弊 方式为作答抄袭。作答抄袭( a n s w e rc o p y i n g ) 是众多作弊方法中的一种,是 最难识别的一种作弊方法h 1 。作答抄袭是指一个作答者( c o p i e r ) 从另一个 作答者( s o u r c e ) 那罩得到全部或者部分答案哺3 。为了提高考试的有效性和 公平性,各国研究者致力于侦查作答抄袭的方法的研究。目前,侦查作答 抄袭的统计方法有两种:个人拟合统计量如3 ( p e r s o n - f i ts t a t i s t i t s ,p f s ) 和作答抄袭统计量h 1 ( a n s w e r c o p y i n gs t a t i s t i c s ,a c s ) 。其中,p f s 在侦 查作答抄袭时存在较多的干扰因素,对结果的解释存在多样性,所以应用较少。 a c s 是专门用于侦查作答抄袭的统计方法,近3 0 年来,大量的作答抄袭统 计量指标提出来并得到广泛的研究和应用阳1 引。从2 0 世纪2 0 年代美国高等教育 考试机构就开始使用统计方法侦查作答抄袭。e t s 曾资助过许多抄袭统计量的研 究,e t s 已在s a t 测验中引入k 指数作为抄袭识别统计量。此后w o l l a c k 将c o 统 计量用于m b e ( m u l t i s t a t eb a re x a m ) 和m p r e ( m u l t i s t a t ep r o f e s s i o n a l r e s p o n s i b i l i t y e x a m i n a t i o n ) 考试中作答抄袭行为的识别。 1 作答抄袭统计量的原理 作答抄袭统计量是根据被怀疑抄袭者和被抄袭者实际的得分模式的 相似的概率来侦查作答抄袭。作答抄袭统计量的原理是在没有抄袭的虚无 2 侦查作答抄袭的两种新指标的比较研究 计量用于m b e ( m u l t i s t a t eb a re x a m ) 和m p r e ( m u l t i s t a t ep r o f e s s i o n a l r e s p o n s i b i l i t y e x a m i n a t i o n ) 考试中作答抄袭行为的识别。 1 作答抄袭统计量的原理 作答抄袭统计量是根据被怀疑抄袭者和被抄袭者实际的得分模式的 相似的概率来侦查作答抄袭。作答抄袭统计量的原理是在没有抄袭的虚无 假设的前提下,建立作答者的反应概率的模型,由此可以得到作答者之间 存在相似作答模式的概率,从而侦查出不寻常的相似作答模式,有这种情 况发生的作答者就被认为是可能的作答抄袭者u 4 j 。 任何两个独立的被试都会存在一些相同的反应。选择相同的正确答案是非常 普遍的,尤其是高能力被试。即使对低能力被试,他们也非常有可能正确回答一 些比较简单的项目。相似地,任何两个被试都可能做出一致的错误反应,每个项 目一般都会有一些错误选项来吸引能力比较低的被试。尤其是那些比较难的项 目,作答者更容易选择错误选项而不是正确选项。因此两个被试选择共同的错误 选项也是正常的。不同的作答者在同一项目上选择相同的选项称之为匹配回答。 虽然在一些项目上做出匹配回答是可以接受的,但某种类型的匹配回答却是异常 的。两个能力比较高的被试是不可能选择相同的低频错误选项,相似地,低能力 被试也不可能同时正确回答非常难的项目,也就是说,如果低能力被试在较简单 的项目上答错,那么他在难项目上就不容易答对,这种较难的项目,错误选项要 比正确选项更容易被选择。这种匹配回答少时并没有统计意义,但如果有许多这 样的匹配回答发生,就有了统计学意义。在这个假定的基础提出作答抄袭统计 量来侦查测验中的作答抄袭。作答抄袭统计量定义了抄袭者( c o p i e r ,c ) 和 被抄袭者( s o u r c e ,s ) 。抄袭者指的是受怀疑的抄袭答案的作答者。c 被怀 疑从s 那罩抄袭答案。根据怀疑的抄袭者和被抄袭者的实际作答来计算抄 袭统计量。在没有抄袭的虚无假设的条件下,大部分的抄袭统计量指标都 服从某个己知的分布。把受到怀疑的抄袭者和被抄袭者的匹配回答与已知 的理论分布进行比较7 l ,从而判断作答抄袭有无发生。 2 作答抄袭统计量指标发展介绍 作答抄袭统计量提出至今,发展出了多个作答抄袭统计量指标。所有 的作答抄袭统计量指标都是以c 和s 作答者匹配回答的项目数为基础8 2 们。 由于c 和s 作答者在项目上的匹配回答可以是c 和s 选择了同样正确的选 项,也可以是c 和s 选择了同样错误的选项,研究者在匹配回答的关注重 心上开始有了分歧:有的研究者仅以c 和s 作答者在项目上错误类的匹配 回答数为基础侦查作答抄袭,有的研究者则同时以c 和s 作答者在项目上 硕1 :学位论文 正确和错误两类的匹配回答数为基础侦察作答抄袭。于是,所有的作答抄 袭统计量指标又可以分成两大类:一类是以错误的匹配回答数为基础的抄 袭统计量;一类是同时以错误的匹配回答数和正确的匹配回答数为基础的 抄袭统计量。 2 1 以错误的匹配回答数为基础的指标 对于正确的匹配回答数比较大的两个作答者,有两种可能的解释:一 是这两个作答者的能力水平都比较高,因而做对的项目比较多,自然正确 的匹配回答数就比较多;二是一个较低能力的作答者从一个较高能力的作 答者那里抄袭了答案心。由于不能确定是哪种原因,因此,对错误的匹配 回答数关注更多的研究者主张,作答抄袭统计量应以错误的匹配回答数为 基础来侦查作答抄袭。以错误的匹配数为基础的抄袭统计量指标包括: e s a ,k ,k ,琏,s 2 2 2 4 】。 早期研究者提出的作答抄袭统计量指标多数根据经验,统计量指标的 概率分布不确定,参数估计准确性不强,侦查作答抄袭的效果并不好,于 是h o ll a n d 提出了k 指数乜引。该指标假定:在一个( 0 ,1 ) 记分的测验中, 有,个项目,t 厂个作答者作答。根据作答者错误作答反应的项目数,把了个 作答者分成多个组。与怀疑的抄袭者c 具有相同的不j 下确得分的作答者分 为一组,记为c 。确定作答者集合c 中每个作答者_ ,与怀疑的被抄袭者s 的错误的匹配回答数,记为向量嗨。哆的分布构成经验一致性分布。 k 指标被定义为:与c 具有相同错误得分数目的作答者- ,与s 的错误 匹配回答数大于等于c 与s 匹配的错误匹配回答数的比率乜引。表示为: k = = ,z c y _ - , l = 1 nc 其中t y 是一个指标变量,当集合中的作答者歹与s 错误的匹配回答 数大于等于c 和s 的错误的匹配回答数时,它的值为1 ,反之为0 。h c 表示 4 侦查作答抄袭的两种新指标的比较研究 集合c 的元素个数,即为所有作答者中与c 具有相同错误得分的作答者的 人数。如:在一个测验长度为5 0 的测验中,有1 0 0 个作答者,测验为( o ,1 ) 记分,怀疑的抄袭者c 的错误得分为2 0 ,c 与s 的错误匹配数为l5 ;有 4 0 个作答者与c 的错误得分相同,其中有1 6 个作答者与s 的错误匹配数 大于等于15 ,则可以计算出k = 1 6 4 0 = 4 。 k 指标越小,表明作答抄袭越有可能发生。由于k 指标受样本量影 响大等缺点,在k 指标的的基础上,其他的研究者提出了改进的k ,k 2 ,s 指 标,。其中,我们又把k ,k ,称为k 系列指标。改进的方法主要在指 标的分布、参数估计方法方面进行了修正。 2 2 以正确和错误的匹配回答数为基础的指标 上述几种抄袭统计量指标把焦点集中在错误的匹配回答数上。而有的 研究者则认为如果只关注于错误的匹配回答数会丢失部分信息,一些作答 抄袭的信息也可以从正确的匹配回答数上得出妇9 1 。于是,f r a r y 等人提出 了g :0 3 作答抄袭统计量指标,w o ll a c k 提出了引3 1 3 作答抄袭统计量指标, s o t a a r i d o n a 等人对k 指标进行了修改提出了6 2 阳2 1 作答抄袭统计量指标, b a y 提出了b m 阳3 1 作答抄袭统计量指标。其中,g z ,国指标的研究和应用较 多。 1 9 7 7 年f r a r y 等人提出了g z 作答抄袭统计量指标,以作答者的相同的 作答反应为基础,得到由随机产生的一致性作答反应数的期望和方差。9 2 定义为怀疑的抄袭者c 和被抄袭者s 之间实际匹配回答数与期望匹配回答 数的差异的标准化。其表达式为: g z = 聊c j e ( m c si u s ) 万( 卅。i 【,) ( 2 ) 其中,表示c 与s 之间一致性回答数,以l 配) 表示在s 的项 硕士学位论文 目作答反应v 条件下的期望值,眇表示的标准差。 & 作答抄袭统计量指标是基于经典测验理论,用经典测验理论来估计 7 唿的期望值。w 0 1 1 a c k 提出的国作答抄袭统计量指标与指标很相似, 主要的不同是国建立在项目反应理论的基础上,设定了反应模型为称名 反应模型,在该模型下进行各种参数的估计。国是实际的一致作答反应和 期望的匹配回答数的差异的标准化。其表达式为: 国= 亿一e ( 呢i 包,u s ,乡) 吒 ( 3 ) 其中,瓦表示两个作答者的一致作答数 眈表示c 的能力水平 玑为s 的作答反应 孝为项目参数 当测验长度较大时,国指标服从近似的标准正态分布,用标准正态分 布检验其统计显著性。国越大,表明c 就越有可能从s 那里抄袭答案。国 指标的问题在于如果c 抄袭了s 较多的项目,会影响对于c 的能力的估计, 从而影响到国值。而且,使用i r t 下的模型时,对作答者的人数要求比较 大,在一定程度匕限制了这种指标的使用。 2 3 两种新的抄袭统计量指标 近几年来,又有侦查作答抄袭的新的统计指标提出来2 0 0 4 年,w i mj v a nd e rl i n d e n 和l e o n a r d os o t a r i d o n a 提出了一种侦查作答抄袭的新指标: 基于变换二项式的统计检验量( s h i f t e db i n o m i a l ) m 。2 0 0 6 年,l e o n a r d os s o t a r i d o n a ,w i mjv a nd e rl i n d e n 和r o brm e i j e r 也提出另一种新指标: k a p p a 抄袭统计量5 1 。基于变换二项式的统计检验量是以错误的匹配回答数为基 础的作答抄袭统计量指标,而k a p p a 抄袭统计量则是以正确和错误的匹配回答数 6 侦查作答抄袭的两种新指标的比较研究 为基础的作答抄袭统计量指标。 2 3 1 基于变换二项式的统计检验量 基于变换二项式的统计检验量指标的提出者仍然把关注的焦点放在 错误作答反应的匹配上。该方法基于这样的思想,一个接触了s 答案的作答 者可以通过三种不同的途径写出他她的答案:( 1 ) 知道( 2 ) 猜测( 3 ) 抄袭。 而没有接触s 答案的作答者只能通过前两种方式对项目进行作答。其具体的解释 为:首先,如果一个作答者知道一个项目,他她就给出一个正确的答案。这个 假定暗含如果一个作答者接触了s 的答案,但是发现s 的答案是错误的,他她 就不会抄袭这个错误的答案而给出他她自己的答案。第二,如果一个作答者不 知道这个项目但有接触s 的答案,他她就会接受s 的答案并且抄袭。第三,如 果一个作答者不知道一个项目且没有接触到s 的答案,他她就会盲目地在反应 选项间进行猜测。因此对于一个s 错误作答的项目,c 可能是三种情况当中的一 种:每种情况都有一个不同的概率。 令f = 1 ,2 i 表示测验中的项目数,口= l ,2 戈表示项目的反应选项。此外, j 和,分别用于被抄袭者和抄袭者。这两个作答者在项目f 上的作答反应用随机 变量和u 来表示。s 作答错误的项目组表示为形。s 错误作答项目组的项目 数为。最后,指示变量1 埘用于确定在某项目上s 和歹是否选择了同样的选项。 也就是: f1 i j s i 2 o l 若uj i = u | i 萋uj i 季us i 抄袭者在项目组形中的项目选择和s 相同选项的三种概率如下: prc声;=t,=;-1 若抄袭者知道答案( f 彬) 若抄袭者盲目猜测答案( f 彬) 若抄袭者抄袭答案( i 彬) 检验虚无假设:要检验的假设是歹没有抄袋彬当中的任何项目。 表示在项目组彬中知道的项目数, 7 ( 4 ) ( 5 ) 硕i :学位论文 表示在项目组彬中从s 抄袭的项目数 在项目组形的水平上,要检验的假设可以表示为: 、f 0 对于j 知道的项i f lk 声形 矾:p r ( 厶,2d 2 1 尼一一对于项目心一彭声谚 f 0对于项目茁豇彬, h j v r ( i i ,f = 1 ) = 七q对于项目嵋一一形, 1 1对于项目如彬 兵甲, k 0 7l s 0 k j s 七7j s 冬w s 后为每个项目的选项数 m 弘表示和s 在项目组彬中的项目上错误的匹配回答数, m j s = i i w j 的分布的概率函数为: ( 9 ) 其中: 从佩w ,动= o 聊 o ( 1 8 ) 统计量是尼的样本估计值,用7 r o = p 。和,乞= 肛代替表达式( 1 4 ) 中的 ,r c e 脯u 其中: ( 1 9 ) ( 2 0 ) 岛,尼+ ,n ,g = 1 , 2 v , j = 1 , 2 - - d 分别表示单元格( f ,) 和行f ,y l j j 的经验比 例。 k 统计量近似符合正态分布( ag r e s t i ,1 9 9 0 ,p 3 6 6 ) ,它的平均数为: 心= 后 方差为: 1 2 ( 2 1 ) 侦查作答抄袭的两种新指标的比较研究 = 专 帮0 其中,a ,b 的表达式分别为: b := 2 ( 1 一) ( 2 瓦一( 巧+ + 缉,) ) ( 1 一乃) 3 ( 1 - 7 r o ) 2 ( 妻魏瓴+ + ) 2 一铌2 ) ( 1 一砭) 4 n 为项目数 对k 进行标准化,公式如下: 7 :一k p t z l ;c = 二上 o 心和唾在公式( 2 1 ) 和( 2 2 ) 中分别给出,由( 1 7 ) 的虚无假设可得: 心= 0 同时k 的方差( 2 2 ) 可简化为: ( 2 2 ) ( 2 3 ) = 丽g o - g ) 嘻挚溉玩+ 舀罗赫玩帆) ) ( 2 4 ) 为了得到假设在( 1 7 ) 和( 1 8 ) 中的统计量,习惯于用它的样本估计值来代替( 2 4 ) f 0 ;- z 。,i 。 汁量: 硕士学位论文 气表示( 2 4 ) 中的样本值的平方根, 假设检验为右侧检验, 么近似服从标准正态分布a d厶近似服从标准正态分布u y pr ( z z 奉) = a z 的值越大,表示越有作答抄袭的可能。 3 作答抄袭统计量指标的相关研究 ( 2 5 ) ( 2 6 ) 各作答抄袭统计量指标的研究,主要集中在对其性能及与其他统计量 指标的比较研究上。现有的相关研究主要可分为两大类:一是模拟研究。 模拟研究一般采用计算机程序生成作答者正常反应的数据,然后选择一定 比例的作答者,将其部分项目作答反应改成与其他作答者( s ) 相同的作答, 这些比例的作答者即为抄袭者c ;二是真实数据研究。真实数据研究则是 采集现实测验中的数据,将其中的一定比例的作答者的部分项目的作答反 应改成与其他作答者( s ) 相同,这些比例的作答者即为抄袭者c 。实际上, 这两类研究都是人为地产生抄袭者。对于真实抄袭者的研究则非常少,目 前国内只见过赵世明的研究中使用过6 l ,没有看到国外的相关的基于真实 抄袭数据的研究。 现有的研究表明,各种作答抄袭统计量指标在不同的条件下对作答抄 袭的侦查能力是不同的。在作答抄袭统计量指标的性能的研究中,研究者 设置不同的实验条件,研究不同条件下各指标的统计性能。在s o t a r id o n a 等人关于k ,国统计量指标的模拟研究 3 7 1 中,研究设置了四个因素:项目抄 袭率( 抄袭者从被抄袭者那抄袭的项目占测验总长度的比例) : l o ,2 0 ,3 0 ,4 0 ;样本量( 作答者人数) :1 0 0 ,5 0 0 ,2 0 0 0 ;项目数:4 0 ,8 0 : s 的能力水平:6 0 百分等级,9 0 百分等级。在他的另一个实验中则把样本 量设计为2 个水平,s 的能力水平只有一个。在b a y 的真实数据的研究引 中,则加上了另一个因素:作答抄袭者的比率( 抄袭者占所有作答者的比 例) 。 1 4 一吒 = 忌z 侦查作答抄袭的两种新指标的比较研究 研究中以i 型错误率和侦查率作为评价的标准。在模拟研究中,侦查率 是指在实际生成的抄袭者中,能够通过作答抄袭统计量指标侦查出来的抄袭者与 实际模拟的抄袭者的比值。而i 型错误率则指的是被错误判定为抄袭行为发生的 作答者与没有被指定生成为抄袭者的作答者的比值。没有模拟抄袭却被判定为抄 袭行为发生即为误判。现有的研究结果圹4 2 1 表明:( 1 ) k 系列指标的i 型错 误率一般都能控制在理论值之下;在各种条件下,k 系列指标中的a z 的侦 查率是最好的,k 系列指标的侦查率随抄袭项目数的增加而增加,且受样 本量的影响比较大。( 2 ) 在各种实验条件下,g :指标的i 型控制率都不好; g z 指标的侦查率随着抄袭量的增加影响并不大;g :指标只有在样本量为 8 0 时,它的理论值才得以控制,且侦查率较高;( 3 ) 综合来说c o 指标是所 有的指标中最好的指标。彩指标在各种条件下i 型错误率都控制在理论值 内;各种等同的情况下,彩指标比k 系列指标和g z 指标的侦查率高;样本 大小对c o 指标的影响不大,但受测验长度影响,随项目数的增加侦查率提 b 局o : 基于变换二项式的统计检验量和k a p p a 抄袭统计量是近几年的提出的 新指标,国内外相关的研究很少。s o t a r id o n a ,v a nd e rl in d e n 研究了 基于变换二项式的统计检验量指标对作答抄袭的侦查效果h3 。研究设计了 不同的项目选项数( k = 2 ,3 ,4 ,5 ) ,s 错误回答的项目数( 2 0 ,3 0 ,4 0 ,5 0 ) 。研究表明 基于变换二项式的统计检验量指标的侦查率比较高。随着选项数目的增加,侦查 率也随之提高。当怀疑的被抄袭者s 错误回答数为2 0 个,c 抄袭数目接近一半, 或者s 错误回答数为5 0 ,c 抄袭接近三分之一时,即使是三个选项的测验,识别 抄袭答案的侦查率也还是比较高。而且该检验的实际的i 型错误率低于理论值。 s o t a r i d o n a ,m e i j e r 和v a nd e rl i n d e n 通过模拟研究检验了k a p p a 作答抄 袭统计量指标的统计性能h 钔。研究设计了不同的项目数( 3 0 ,6 0 ) ,项目选项数设定 为5 个选项,研究该指标在s 和c 的能力处于不同的能力水平段的作答抄袭的侦查 表现。研究发现:( 1 ) 除了oc ,os 同时是非常极端的值外,大部分情况下其i 型 错误率接近理论水平,也有很好的检验力。( 2 ) 当。为一1 5 ,一0 5 ,0 5 、1 5 , 项目数3 0 ,抄袭率为4 0 以上,或6 0 个项目,抄袭率为3 0 以上时,k a p p a 抄袭 统计量的检验力很高。 硕i 二学位论文 第二部分两种新指标的模拟比较研究 1 问题的提出 从现有的研究结果看,基于变换二项式的统计检验量指标和k a p p a 作答抄袭 统计量指标的侦查作答抄袭的侦查效果较之于早期的抄袭统计量的侦查效果要 优良许多。但,s o t a r i d o n a ,v a nd e rl i n d e n 在他们的研究中,只研究了基于 变换二项式的统计检验量指标对作答抄袭的侦查效果;s o t a r i d o n a ,m e i j e r 和 v a nd e rl i n d e n 也只通过模拟研究检验了k a p p a 抄袭统计量指标的统计性能。 设置的实验条件单一,亦无这两种指标的比较研究。因此,本研究将在不同的实 验条件下,对基于变换二项式的统计检验量指标和k a p p a 抄袭统计量指标的侦查 作答抄袭的性能进行比较。 前人对各种作答抄袭统计量指标的侦查效果的研究发现,有的指标过于保 守:i 型错误率控制的很低,相对地能够被检测出来的抄袭者也很少,侦查效果 不佳;有的指标又过于放纵:侦查率高达百分之百,同时被误判为抄袭者的情况 也很多,i 型错误率的控制非常地差。先行者们建议,在研究中应选择恰当的i 型错误率,当然这个错误率的接受程度看测验的实施者能够接受的程度。在i 型 错误率的控制下,尽量地提高侦查率。当然比之于放纵的统计指标,我们更容易 接受保守的统计指标。 前人研究还发现,每一种统计指标的效果并不是固定不变的,其主要原因在 于每一种统计指标都会受到各种各样的无关因素的影响,首先,测验长度影响侦 查效果。如在其他的条件相同的情况下,a ,缈指标的侦查率都随测验长度的增 加而提高。其次,侦查效果也随样本量的变化而变化。同时,侦查效果还会受到 作答者抄袭的项目数的影响。 在认知测验中,多数试题都是采用多选项的题型。在多选题的作答抄袭中, 我们要关注的就不再仅是两个作答者在某个项目上是不是都对还是都错,而是要 关注两个作答者是否选择了同一个选项。这样参数l o g i s t i c 模型已经不能满足 对数据的模拟要求,因为参数l o g i s t i c 模型只能模拟作答者在项目上的得分, 而无法模拟作答者在项目上的具体选择。而称名反应模型在这方面能够达到要 求,称名反应模型仍然是一种( o ,1 ) 记分的模型,基于该模型下模拟的作答者在 1 6 侦查作答抄袭的两种新指标的比较研究 项目上的作答反应不再是表示对错的1 、0 ,而是k ( 在一个四选项的测验中, k = l ,2 ,3 ,4 ) ,表示作答者在某个项目上选择了选项尼。 称名反应模型( b o c k ,1 9 7 2 ) m 3 能够估计能力水平为g 的作答者在每个项目i 上选择任一选项k 的概率,其中每个项目的选项数为镌。称名反应模型的函数表 达式为: p ( 口一) p i k ( 秒) = 二一 y e a i k ( o - h i , ) 豇= 1 ( 2 7 ) 其中,a 表示项目区分度,b 表示项目难度。 计算作答者够在每个项目的每个选项上的选择概率,同一个项目上哪个选项 的选择概率最大,则该作答者在该项目上的作答反应即为该选项,选项用 l ,2 来表示。 本研究将以四选项多选题测验为背景,在测验长度,样本量,抄袭率三个因 素不同水平的不同组合下,比较k a p p a 抄袭统计量和基于变换二项式的统计检验 量这两种指标之,间的性能异同。 2 模拟设计 本研究采用w i n g e n 软件h 刚第二版,模拟作答者的作答反应矩阵。w i n g e n 软 件是基于蒙特卡洛方法的数据模拟软件,是一个专门用于生成i r t 项目参数和作 答反应的w i n d o w s 软件。w i n g e n 软件不似以往的数据模拟软件,以往的数据模 拟软件基于d o s 操作系统下,操作不便,而w i n g e n 软件则基于w i n d o w s 操作系 统下,提供了一个可视化的操作界面,使用者可以指定作答者人数、项目数、i r t 模型、作答者的能力分布和项目的参数分布。本研究在称名反应模型下,模拟作 答者在四选项多选题上的作答反应数据。 2 1 模拟生成项目参数和被试能力参数 w i n g e n 模拟数据包括两个部分的模拟:项目参数模拟和作答者能力参数模 拟。本研究中,模拟时项目参数设置和作答者能力参数的设置如下: ( 1 ) 项目参数:模拟两种不同的测验长度:5 0 ,1 0 0 。测验中采用四选项多选 1 7 硕上学位论文 题,每个项目生成 4个区分度,区分度的分布服从 a i 口l o g n o m a l ( o ,1 ) ( 汪1 ,2 ,3 ,4 ) 。同时每个项目生成4 个难度,难度的分布服从 岛口n ( 0 ,1 ) ( i = 1 ,2 ,3 ,4 ) 。 ( 2 ) 作答者能力参数:模拟三个不同样本量的作答者数据:1 0 0 ,5 0 0 ,1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论