(教育技术学专业论文)计算机语言程序设计自动测评系统的研究与实现.pdf_第1页
(教育技术学专业论文)计算机语言程序设计自动测评系统的研究与实现.pdf_第2页
(教育技术学专业论文)计算机语言程序设计自动测评系统的研究与实现.pdf_第3页
(教育技术学专业论文)计算机语言程序设计自动测评系统的研究与实现.pdf_第4页
(教育技术学专业论文)计算机语言程序设计自动测评系统的研究与实现.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(教育技术学专业论文)计算机语言程序设计自动测评系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 二十一世纪的人类已进入信息时代,能否掌握并熟练应用信息技 术己成为衡量人才的一个标准。考试是计算机教育中一个非常重要的 环节,传统的笔试不能检验考生的计算机实际运用能力,而纯人工阅 卷因其效率太低也不能适应计算机考试大规模化的开展,因此,计算 机考试的自动化测评( c o m p u t e rt e s ta s s i s t e da s s e s s m e n t ,简称 c t 从) 已成为计算机教育领域一个亟待解决的问题。目前国内外对 c t a a 的研究主要集中在客观题的自动测评上,对主观题特别是计算 机语言程序设计的自动测评的研究不多,本文以c 语言这种典型的程 序设计语言为例,研究了c 语言程序设计的自动阅卷技术,并开发了 一个可用的测评系统。 本研究开发的测评系统综合软件测试中的黑盒测试方法、白盒测 试方法和编译原理技术提出了结果对比分析、动态分析、静态分析三 种阅卷方法,能从多角度分析考生程序,并给出合理分数。 文章首先分析了c t a a 的研究背景与国内外现状,给出了它的理 论依据、特点和应用优势,其次结合c 语言程序设计的教学考核 要求,分析了阅卷系统的功能需求,介绍了三个子系统及相关数据库 设计和实现的关键技术,设计了“流程图一程序 新的测评方式;然 后详细阐述了自动阅卷系统的实现,给出了其关键代码和操作界面; 最后总结了本系统的特点并对今后的工作进行了展望。 关键词c t a a ,程序设计,自动阅卷,软件测试,编译原理 a bs t r a c t a sh u m a ns o c i e t yh a sm o v e di n t ot h el n f o r m a t i o na g e ,t h em a s t e ro f i ta n di t sp r o f i c i e n ta p p l i c a t i o nh a sb e e nr e g a r d e da sac r i t e r i o no fa t a l e n t e dp e r s o n t e s t i n gp l a y sa ni m p o r t a n tr o l eo nc o m p u t e re d u c a t i o n , h o w e v e r , t r a d i t i o n a lw r i t t e ne x a m sc a n tt e s ts t u d e n t s p r a c t i c a lo p e r a t i n g a b i l i t ye f f i c i e n t l y , a n dt h ea s s e s s m e n ts y s t e mt h a tg r a d i n gs t u d e n t s t e s t s o n l yb yt e a c h e r - e x a m i n e r sc a n tm e e tt h er e q u i r e m e n to fi n c r e a s i n g e x t e n s i o no fl a r g e s c a l ec o m p u t e re x a m sb e c a u s eo fi t sl o we f f i c i e n c y t h e r e f o r e ,i t su r g e n tt ot a k ec o m p u t e rt e s ta s s i s t e da s s e s s m e n t ( c t a a ) i n t o c o m p u t e re d u c a t i o n a l f i e l dt oo f f s e tt h ed e f a c t so ft r a d i t i o n a l a s s e s s m e n ts y s t e m s t u d i e so nc t a ab o t ha th o m ea n da b r o a dm a i n l y f o c u so nt h ea u t o m a t i cm a r k i n go fo b je c t i v ei t e m s ,a n daf e wr e s e a r c h e s o nm a r k i n gs u b je c t i v ei t e m sw i t hc t a ah a v eb e e nf o u n d t h i sp a p e rh a s i t sf o c u so np r o g r a m m i n ga u t o m a t i cm a r k i n gs y s t e mw i t hcl a n g u a g e a n dd e v e l o p sau s a b l ea s s e s s m e n ts y s t e m t h eb l a c k b o x ,w h i t e b o xa n dc o m p i l i n gp r i n c i p l ef r o mi n t e g r a t e d s o f t w a r et e s t i n gs y s t e mp r o p o s et h r e em a r k i n gm e t h o d s ,i e c o m p a r e a n a l y s i s ,d y n a m i ca n a l y s i s a n ds t a t i c a n a l y s i s ,w h i c hc a na n a l y z e e x a m i n e e sp r o g r a mf r o md i f f e r e n ta s p e c t sa n dt h e ng i v et h e mr e a s o n a b l e m a r k s t h i sp a p e rf i r s te x p l o r e st h er e s e a r c hb a c k g r o u n do fc t a aa n di t s r e l e v a n tr e s e a r c h e sb o t ha th o m ea n da b r o a d ,a n dd i s c u s s e si t st h e o r e t i c a l s u p p o r t s ,c h a r a c t e r i s t i c sa n da d v a n t a g e s b e s i d e s ,t a k i n gt h er e q u i r e m e n t o fcl a n g u a g ep r o g r a m m i n ga n df u n c t i o n a ln e e d so fm a r k i n gs y s t e m , t h i sp a p e ra l s od i s c u s s e st h ek e yt e c h n o l o g yo fd e s i g n i n ga n dr e a l i z i n g t h ed a t a b a s eo ft h r e es u b s y s t e m sa n dp r o g r a m e san e wa s s e s s m e n t s y s t e m n o w c h a r r tp r o g r a m ,a n dt h e ne x p o u n d st h ei m p l e m e n t a t i o no f c t a as y s t e ma n di t sk e yc o d e sa n do p e r a t i n gi n t e r f a c e i nt h ee n d ,t h e c h a r a c t e r i s t i c so fc t a aa r es u m m a r i z e d a g a i n ,a n dm e a n w h i l e , s u g g e s t i o n sa r ea l s op u tf o r w a r df o ri t sf u t u r er e s e a r c h k e yw o r d s c t a a ,p r o g r a m m i n g ,a u t o m a t i c a lm a r k i n g ,s o f t w a r e t e s t i n g ,c o m p i l i n gp r i n c i p l e 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特另l j ) j t j 以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均己在在论文中作了明确的说 明。 作者签名:二湃醐:珥年! 日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名: 聊签寝嫩日期:埤年蝴 目 硕士学位论文 第一章绪论 第一章绪论 随着科学技术的发展,人类正由工业化时代步入信息化时代,计算机技术 已被广泛应用于生产技术的各个领域。计算机考试是计算机教学过程中的一个 重要环节,计算机考试自动化测评( c t 从,c o m p u t e rt e s ta s s i s t e da s s e s s m e n t ) 因较传统的测评方式具有测评速度快,公正性好,节省人力、物力等特点而成 为国内外计算机教育和教育技术领域内的一个研究热点。本章首先介绍了c t a a 研究的意义及发展现状,最后阐述了论文的组织结构。 1 1 研究背景与意义 在信息技术高速发展的今天,计算机技术已普遍应用于我国各个生产领域, 为了适应知识经济和信息产业发展的需要,操作和应用计算机已成为人们必须 掌握的一项基本技能。许多单位和部门都已把掌握一定的计算机知识和应用技 能作为干部录用、职务晋升、职称评定、上岗资格的重要依据之一。针对上述 情况,作为培养人才主力军的各高等院校都开设了信息技术类基础课程,同时 鉴于社会对计算机技术人才的客观需求,经原国家教委批准,原国家教委考试 中心于1 9 9 4 年面向社会推出了全国计算机等级考试( n a t i o n a lc o m p u t e rr a n k e x a m a t i o n ,简称n c r e ) ,其目的都在于向学生传授计算机知识,同时培养他 们应用计算机的能力。 教育测量是教学过程的重要环节,它对学生的知识增长、能力发展、兴趣 爱好、思想品德、以及教育措施等按一定法则进行数量化测定乜1 。它可以分为对 理论知识和对技能的测评,对于信息技术类课程特别是程序设计学科,技能的 测评则更为重要。 对理论知识的测评,目前其相关理论和技术已都比较成熟,对它的测评主 要采用客观题的形式,因其答案较为单一,易用与标准答案相比较的方式得出 测评结果,在技术上也容易实现。”,而对技能的测评,无论是在理论还是实践方 面对它开展的研究都比较薄弱。目前各高等院校大都采用传统的方式对计算机 程序设计进行测评,即采用卷面考试的方式,这种以理论测试为主的考试方式 只能检验学生对知识的掌握程度,它并不能反映学生掌握计算机及应用计算机 解决实际问题的能力,同时这种考试方式也会导致学生重理论、轻实践的现象 发生。针对这一问题,全国计算机等级考试系统采用笔试与上机考试相结合的 方式对考生进行考核,在考查考生对知识掌握程度的时候也检验了其实际动手 硕+ 学位论文第一章绪论 能力,这在一定程度上促使考生加强计算机上机操作实践与编程演练,但其测 评系统在计算机语言程序设计的测评方面方式比较单一,未能解决学生程序的 不确定性与标准答案确定性的矛盾,测评结果的不准确性会将丧失部分考生对 学习的兴趣。 计算机程序设计是普通高校大多数专业的一门重要基础课,各校每年都要 对该课程的考评投入大量人力。传统的做法是各系或各专业甚至各个小班的教 师各自命题进行笔试,然后各自评卷。这种考评方式不但阅卷周期长、误差大、 受评价者主观影响大、公正性不强、需要众多教师付出大量的劳动、而且其客 观性也受到任课教师水平、经验、个性甚至道德水准的影响h 1 。因此,如何实现 对程序设计的自动阅卷就成了各高校迫切需要解决的问题。 在现有的一些已投入使用的计算机语言程序设计考试系统中,客观题已经 可以实现由计算机自动阅卷,主观考试部分多数由人工进行阅卷,部分题型也 实现了计算机评阅啼儿6 | 。这种方式虽然在一定程度上减轻了阅卷人员的工作量, 而且也提高了阅卷效率和增强了其公正性,但随着考试人数的不断增加,阅卷 人员的负担也越来越重,尤其对于程序设计题的评阅,所给的答案只能作为一 个参考,这就要求阅卷人员要熟悉所评阅题目中所用到的编程语言,另外由于 这类题目对考生来说有相当大的自由度,同一题目选用不同的算法和程序语句 去实现,答案可能极多,答案的随意性很大,造成程序设计题的阅卷工作量很 大。因此,为了提高阅卷效率,同时保证考试结果的公正性,实现对计算机语 言程序设计题的计算机自动阅卷应是大势所趋盯8 1 。 课程测评一般的测试方法是教师命题,学生在试卷纸上答题,教师再进行 逐一的批改,最后才能得到学生的成绩。这样的测试方法流程长,需要花费很 多的时间,另外,考试中会有作弊现象,试卷批改中也受教师的主观性影响。 自动阅卷系统具有随机抽取试题、考试和自动评阅三大功能,它实现了学生上 机测试和计算机自动批阅的目标。不仅缩短了测评的流程,节省了教师的阅卷 时间,而且可以减少作弊现象的发生,批改中不带有主观因素,学生的测评成 绩能够真实地反映学生对所学知识的掌握程度和教师的教学情况阳1 。 利用计算机技术实现无纸化考试取代传统的手工考试方式,是近年来计算 机应用技术的一个非常活跃的研究领域。自动阅卷作为计算机测评系统的一部 分,以计算机的高效、自动的阅卷取代教师的效率、机械的手工阅卷,将教师 从繁重的机械劳动中解放出来。在考试结束后,可立即进行自动阅卷,给出考 试成绩。同时,阅卷结果易于保存、查询、可对学生的成绩做出更客观公正的 测评训1 。利用无纸化考试计算机自动处理系统,既可完成对计算机类课程测 试的要求,同时也更加突出了计算机技能测试的特点n 引。 2 硕十学位论文第一章绪论 从宏观层面上看,研究计算机辅助测评有以下意义: ( 1 ) 是当前教育界对考试改革的需要 现行的教学评价存在三大缺陷:一是测评内容的片面性,往往局限于知识 维度的的考核,而舍弃或忽略了技能维度的测评;二是测评方法单一、手段落 后,用纸和笔来考实验、考实际动手能力的怪现象长期存在;三是为了方便测 评的实施而降低对评价目标的要求,例如对知识维度的评价一般只停留在识记 与理解这类较低水平的认识目标上( 而忽视分析、综合、评价这类较高水平的 认识目标) :技能测评则常常采用客观题的形式( 少用甚至不用非客观题形式) , 尽管利用计算机的应用研究可以通过多媒体来描述和表现实验过程,但仍无法 考核被试者在实验环境中的实际操作技能和即时反应能力。正是这些缺陷的长 期存在,导致学生死读书、读死书、其结果只能是高分低能,这与培养学生创 新精神和实践动手能力的素质教育目标是完全相悖的。 如果计算机辅助测评( c o m p u t e ra s s i s t e da s s e s s m e n t ,简称c a a ) 研究能 在技能性非客观题的自动测评上取得突破,就有可能改变计算机辅助测评的单 一局面,从而建构起“知识一技能双维度测评”的新模式,这对当前教育界j 下在 关注的考试改革,无疑具有重要的实践意义。 ( 2 ) 是当前国家实施远程教育工程的需要 就传统的远程教育来说,对学生进行评价是一直是件比较困难的事情。由 于要耗费大量的人力,物力,因此很少进行形成性评价。目前国家正在大力推 行“远程教育工程”,计算机已开始进入教学评价领域,从而会使上述情况得到 逐步改观。通过网络题库和远程自动测评系统,学习者可以及时得到关于自己 学习状况的确切评价,并获取有针对性的反馈信息,从而调整自身的学习方式 与计划。可见,在远程教育中通过技术手段有可能弥补由于师生时空分离而造 成的不便,有利于提高学习者的学习效率。 ( 3 ) 是目前中小学普及信息技术教育的需要 国家教育部于2 0 0 0 年1 0 月在北京召开了“全国中小学信息技术教育工作 会议”,会后发布了重要文件关于在中小学普及信息技术教育的通知。通知 要求将“信息技术教育”作为一门必修课在全国中小学普遍开设。众所周知,“信 息技术教育 是一门知识性与技能性相结合的课程,应用性与实践性是信息技 术教育的基本属性,技能训练是该课程的主要目标之一。而且在课程的指导纲 要中也明确指出,信息技术课程的考核评价方式主要采用技能考核和作品评价, 所以c a a 也是当f j 中小学信息技术教育界非常关注的热点问题。不仅如此,研 究计算机辅助测评并将其应用于中小学信息技术教学,对于逐步实现信息技术 课程学习模式、评价模式和管理模式的变革,为我国中小学信息技术教育的跨 硕士学位论文 第一章绪论 越式发展具有重要意义。 计算机辅助测评特别是计算机语言自动评卷技术( 无纸化考试系统) 的研 究、推广和应用,可以推进教育改革,加快教学现代化,推动考核方式改革, 实现考评手段的现代化,确保考试的高效、科学、公正、实现教学管理现代化n 3 。 1 2 国内外研究状况 目前,国内外的计算机语言自动阅卷系统已经能很好地完成对常见客观试 题的自动评阅工作,但是对于一些主观性很强的问题,尤其是程序设计的问题, 还没有很好的解决方案。自动阅卷功能大致通过以下四种方式来实现n 4 1 5 1 。 ( 1 ) 构造一个被测试软件的仿真环境,这要求仿真系统不仅能模拟该软件 的环境界面,而且能够记录考生的操作步骤,然后通过分析考生的操作步骤来 进行自动阅卷。 ( 2 ) 在被测试软件环境中记录考生的操作步骤,然后通过分析考生的操作, 以判定考生的操作是否正确,典型应用是通过宏代码序列对o f f i c e 系列w o r d 、 e x c e l 、p o w e r p o i n t 办公软件的操作进行测评6 j 。 ( 3 ) 通过分析考生操作的结果:分析特定格式的文件,来判定考生的操作 结果是否正确1 。 ( 4 ) 利用程序相似度原理,将考生程序源文件转化为等价源程序,然后与 标准答案相比较,计算得出其相似度,此相似度即为考生程序的得分。 如全国计算机等级考试( n c r e ) 就是通过第三种方式实现自动评卷的。它 所基于的判断程序的标准是认为没有通过编译或者不能运行的程序是属于完全 错误的,然后从运行的结果是否符合要求来进行程序的评阅。 北京师范大学的许骏、柳泉波博士近年来在技能测评自动化方面做了一些 研究,i t a s 是技能测评自动化研究项目系统成果之一。它涵盖了计算机基础教 育的全部内容,包括w i n d o w s 9 8 、w o r d 9 7 2 0 0 0 、e x c e l 9 7 2 0 0 0 、 p o w e r p o i n t 9 7 2 0 0 0 、i n t e r n e t 和浏览器i e 5 0 以及网页设计等8 1 。但是i t a s 是应用于计算机基础教育的操作技能考核问题的而不是程序测评。 英国诺丁汉大学开发的c o u r s em a s t e r 系统,是迄今为止较为成功的计算 机程序设计测评辅助教学系统,它的特点是能够对学生提交的计算机程序进行 自动测评并给出反馈意见。但是此系统中比较成熟的部分是静态测试,而静态 测试并非程序设计自动测评的重点9 。 英国东英格兰大学信息系统学院的r o yd o w s i n g 、s t e w a r d 和r o m a ns l e e p 等人于1 9 9 2 年起在英国高等教育基金会的资助下,开展了应用计算机辅助测评 4 硕士学位论文第一章绪论 对字处理和电子表格的使用进行测评的项目研究,项目的全称是“基于计算机 的可迁移技能测评”( c o m p u t e r b a s e da s s e s s m e n to ft r a n s f e r a b l es k i l l s , c a t s ) ,项目于1 9 9 6 年结束m 。项目的主要成果是开发了对文字处理和电子表 格使用进行测评的c a a 系统:w o r d t a s k 和s p r e a d t a s k ,每一个系统均由三部分 组成:导师模块、在线测评器和离线测评器。导师模块的主要作用是供教师设 置新练习,并对其他两个组成部分的大量选项进行设黄;在线测评器的作用是 对在线提交的字处理或者电子表格使用练习做出测评;离线测评器则可以对学 生提交的练习进行批量或者单独的测评。 从实际应用情况看,其效果还是不错的,在英国每年都有十几万人应用该 系统进行i t 技能测评。但是,c a t s 研究存在一些不足。首先,搜集与被试绩效 相关的证据采用是字符串比较的方法,凭借的完全是结果信息,对于大多数技 能测评并不适用。其次,项目提出的方法过于简单,缺乏一般性,对于其他类 型的技能测评借鉴意义不大。 英国利物浦大学研制的一个系统能利用计算机对学生编写的程序在正确 性、效率、风格、复杂性及容错性方面进行自动测评,并且可以对给定的程序 产生对应的测评报表,对程序进行评分瞳小2 刳。 美国测试系统有限公司( a t a ) 开发了一种基于动态仿真技术的、专门用于 i t 技能考核的自动测评系统,它提供了虚拟的交互测试环境,很容易获取与操 作过程相关的信息乜驯。但是,由于很难对w o r d 、e x c e l 等应用软件从功能到操 作方式进行完全仿真,因而在一定程度上影响系统的测试信度和效度,而且系 统对测评内容的适应性较差,考试内容要事先提交给公司去制作,用户不能够 自己命题。 在国内,广东工业大学的樊敏开展了利用程序相似度对程序作业进行自动 测评的研究,它采用源码特征比较的方案,将考生程序与存储在题库中的模板 程序集依次比较,然后根据相似度概念的评分规则得出对考生程序完成程度和 质量的测评结果乜4 】。 综合国内外情况来看,尽管目前对程序设计题自动阅卷技术的研究正在不 断深入,但就现在来说还没有个在程序设计题动态测试或正确性检验方面比 较成熟的程序设计自动测评系统。可见,在这一领域的研究有着广泛的前景。 1 3 本研究的主要工作和论文的组织结构 1 3 1 本研究的思路和方法 在广泛文献资料研究和实际调查高校对程序设计自动测评系统的现状和需 硕士学位论文第一章绪论 求的前提下,参照其它一些程序设计测评系统的成功经验,提出程序设计的智 能化识别与自动测评思路,编程并基本实现此系统。 1 3 2 本研究的主要工作 c 语言是目前计算机程序设计中应用最广泛的程序语言,在各类高等院校的 计算机及相关专业中,c 语言均被列为必修的基础课。由于其使用的广泛性,本 文以c 语言为例,研究计算机考试自动化测评技术。 ( 1 ) c t a a ( 计算机考试自动化测评) 理论研究 计算机考试自动化测评是指在计算机考试中,利用计算机自动实现计算机 考试结果的分析和测评,完成利用计算机对计算机考试结果的测评工作,并自 动得出测评结果。课题对c t a a 的研究现状进行了阐述,通过对比传统测评方式 分析了c t a a 在计算机语言程序设计课程中的应用优势,剖析了c t a a 在计算机 语言程序设计中应用的重要性及其必要性。 ( 2 ) 软件测试技术、编译原理技术及自动测评系统的实现流程 结合软件测试技术和编译原理,分析了软件测试技术在其中的应用,对计 算机语言( c ) 程序设计源程序的词法分析、语法分析程序结构识别的原理其及 实现流程进行了说明。 ( 3 ) “计算机语言( c ) 程序设计”设计中的智能化改错与评卷技术 智能改正计算机语言( c ) 程序设计中出现的错误,使其能编译运行,根据 其知识得分点对程序进行测评,使测评更全面,更科学。 1 3 3 论文的组织结构 本文共分为六章。 第一章为绪论,介绍了计算机考试自动测评系统的意义和发展现状,并描 述了本研究的背景及研究内容。 第二章介绍了计算机考试自动测评的理论基础及其应用模式。 第三章首先通过对程序设计( c 语言) 自动测评的内容要求进行需求分析, 从而进行系统的整体设计,得出系统总体设计思想和技术方案,然后对系统进 行详细设计,划分出子系统,最后描述了子系统流程及数据库设计。 第四章介绍了软件测试技术、编译原理等与系统实现的相关技术。 第五章为程序设计( c 语言) 自动测评系统的实现,按系统设计,具体陈述 各个子系统的实现过程。其中最关键的是题库系统和评分系统。列举出部分典 型的操作界面,并给出相关的核心实现代码。 第六章对所做的工作进行总结并对未来的研究工作进行了展望。 6 硕士学位论文 第二章计算机考试自动化测评研究 第二章计算机考试自动化测评研究 计算机考试自动化测评是计算机辅助测评的一个新领域,也是计算机应用 的一个重要研究方向,由于计算机考试的特殊性,对它的研究有利于提高计算 机考试测评的效率与质量。本章首先介绍了计算机辅助测评及其分类,其次阐 述了计算机考试自动化测评及其应用的一般原则,最后给出了计算机考试自动 化测评的一般模型。 2 1 计算机辅助测评概述 计算机辅助测评最早始于英国,上世纪9 0 年代就已成立有关的研究组织 ( h t t p :c a a c e n t r e a c u k ) ,并召开了五届有关计算机辅助测评的国际学术会 议。与国外的研究热况相比,国内有关c a a 的研究与应用的成果还不多,与之 相关的文章与论著比较零散且也不系统。计算机辅助测评指的是将计算机应用 于教育测试和教育评价的全过程,也就是在测试和评价学习者的知识与技能的 过程中引入计算机作为工具或手段乜引。它是一个范围很广的概念,涵盖了计算 机在个人知识、技能和能力测评领域中应用的诸多方面。由于目前计算机技术、 网络技术等信息技术迅速发展,大型的社会化考试( 比如职业资格认证、t o f e l 、 g r e 等) 以及远程教育和网络教育中教学测评活动的开展对计算机辅助测评的需 求也日益扩大口引,因此研究计算机辅助测评具有很强的现实意义。 2 1 1 计算机辅助测评的特点 众所周知,评价具有以下特点: ( 1 ) 评价是重复性的工作 ( 2 ) 对评价可以给出确切的定义 ( 3 ) 评价要求尽快提供反馈 ( 4 ) 有时人类不一定是最好的评价者。这是因为不同的阅卷者对主观题的 理解不完全相同,这将导致评价标准的不一致。 实践表明,计算机参与教学测量与评价过程,可提供快速、准确和一致的 评价,可自动对评价结果进行统计分析、因而能有效地促进教育测量与评价的 量化研究。所以计算机是实施教学评价的一种理想工具,并有可能引发评价形 式、评价方法和评价内容的深刻变革。 7 硕十学位论文第二章计算机考试自动化测评研究 2 1 2 计算机辅助测评的优势 表2 - 1 计算机辅助测评的优势 角度优势 被试者 教学 管理学 通过形成性评价,使被试了解自己的学习进度 通过总结性评价,使被试可以进行分阶段的学习 可以确认当前的教学方法是否有效 c a a 使得人范围地区的评价更加迅速,节省时间和人力耗费 节省时间,使进行其它更有针对的评价活动成为可能 通过形成性评价,可以了解被试的学习进展情况 在自适应测试过程中,发现学生整体的弱点,从而调整教学方法 减少了在监督管理、监考和评分上面花费的时间 减少了在评分过程中囚为人为因素而山现的错误 处理不同地点的学习同时进行评价时,节省了财力和人力 进行无纸化考试,减少在印刷上面的费用 可以成功的对测试结果进行分级,并且自动的记录进被试档案 数据库随机抽取题目,有效避免作弊 结合表2 - 1 可以得出,研究c a a 在教育测评中的应用具有以下重要意义: 对于解决现代远程教育中师生分离状态下的交互与反馈问题尤其具有应用价 值;有利于教师监测学生的学习过程,可对学生进行与其能力相匹配的自适应 测试;对于某些学科,可实现测评与评价的自动化,这对于提高评价的质量、 保证评价的一致性和公正性、降低评价代价,都具有重要的意义;c a a 得到的各 种相关数据可自动生成诊断分析报告,这对促进教育评价的量化研究,也具有 极为深远的意义晗7 1 。 2 1 3 计算机辅助测评的分类体系 从现有的文献资料来看,对计算机辅助测评的分类比较混乱,究其原因, 主要是一些学者采用的分类标准不太科学。为了统一认识,我们认为,给出如 表2 2 所示的分类体系是有必要的。 8 硕士学位论文第二章计算机考试自动化测评研究 表2 - 2 计算机辅助测评( c a a ) 的分类体系 分类标准内容 传递测评内容的手段 理论依据 测评内容 测评题型 基于试卷的( p a p e r - b a s e d ) 测评 基于计算机的( c o m p u t e r - b a s e d ) 测评 基于w e b 的在线测评 基于经典测试理论的测评 基于项目反应理论的测评 对知识水平的测评 对技能水平的测评 使用客观题的测评 使用非客观题的测评 在上述c 从分类体系中: ( 1 ) 按传递测评内容的手段分类 由于只涉及测评的形式而不涉及测评的内容,对于测评理论与方法的研究 意义不大。 ( 2 ) 按测评所依据的理论分类 目前的实际测评系统绝大多数仍是基于经典测试理论,但在这种测试理论 基础上引入了计算机化自适应测试的新形式;国外在自适应测试的理论研究和 应用系统开发方面已有很多值得借鉴的成果,而国内还很少有成功实施大规模 自适应测试的案例。 ( 3 ) 按测评的题型分类 客观题测试的理论和方法都很成熟,也不存在技术上的困难( 例如,客观 题的自动阅卷问题就很容易解决) ,其重点在于试题的编制和题库的建设,相比 之下,操作题和主观题的自动测评仍是c a a 研究的难点。 ( 4 ) 按测评的内容分类 c a a 大体上可分为知识测评和技能测评两大类,它们共同构成能力素质测评 的基础。但目前国内外对c a a 的研究主要集中在知识维度的客观题测试,而对 技能测评的研究与相当薄弱,尤其缺乏一般性的理论与方法。技能又包括操作 技能和心智技能两大类。 操作技能的测评,要求考生在真实或仿真环境下完成特定的技能任务,这 也是所谓的操作题。一般意义上的操作技能测评,考生与考核者的比例理论上 的1 :1 在实际上是行不通的,更何况不同的考核者对错误的解释不完全一样, 很容易导致评分标准的不一致。解决此问题的根本出路在于实现技能测评的自 动化,即实现技能性非客观题的自动测评。 9 硕士学位论文 第二章计算机考试自动化测评研究 心智技能测评,一般要通过语言表述来完成,这必然涉及到对自然语言的 理解问题。限于目前的技术水平,完全解决心智技能类的自动测评是不现实的。 程序设计能力本来属于心智技能的范畴,但由于程序设计语言与一般的自然语 言相比,具有严格得多的约束和限制,因此程序设计能力的自动测评有可能成 为“心智类技能类非客观题自动测评”研究的突破口。 综上所述,技能性非客观题特别是程序设计的自动测评是目前c 从研究的 重点和难点,它们构成了c 从研究的新领域。显然,这是一个多学科交叉的研 究课题。 2 2 计算机考试自动化测评的理论基础及其应用的一般原则 计算机考试自动化测评( c t 从) 是c 从研究的一个新的领域,其实质是结 合计算机无纸化考试在对考试结果进行评价的过程中引入计算机,充分利用计 算机高效、准确的特性对考试结果进行测评,在完善计算机考试无纸化的同时, 客观准确地评价和反映考生对计算机知识的掌握程度。 严格地讲,c t 从的定义为:在计算机考试中,利用计算机自动实现计算机 考试结果的分析和评价,完全利用计算机完成对计算机考试结果的测评工作, 并自动得出测评结果瞳8 | 。 2 2 1 理论基础 c t ! i a 的指导理论主要是项目反应理论( i t e mr e s p o n s et h e o r y ,缩写为i r t ) , 它采用的是非线性概率模型。 i r t 认为,被试对测验的反应受某种心理物质支配,测验的结果和这种物质 之间所存在的关系可用“项目反应特性曲线来描述。在i r t 研究的过程中, 人们提出了多种项目特征曲线的数学函数,目前应用较广的是伯恩鲍于1 9 7 5 年 提出的单维逻辑斯蒂型。简单描述维逻辑斯蒂型的“项目特性曲线”可以用p j ( q ) = f ( q ,a ,b ,c ) 来表述啪1 。其中q 表示被试的能力特质,a 、b 、c 标识 项目的质量参数,分别是区分度参数、难度参数和猜测参数,p j ( q ) 表示被试 关于第j 题的正确反应概率。项目的质量参数值都不能由直接测量得到,必须 通过对被试的反应数据进行估计来求出,估计过程中采用的是极大似然估计法。 项目反应理论对于测量误差的处理是通过信息函数加以实现的。就某个试 题j 而言,其质量指标a 、b 、c 是一定的,信息函数值只与被试能力素质水平 有关,它的大小直接反映出该题对被试能力特质的估计精度,信息函数值越大, 这种估计就越精确。信息函数的引入,提供了测验精度的确切信息,从而可以 针对不同水平上的能力特质更好地控制测量误差。 i o 硕士学位论文第二章计算机考试自动化测评研究 项目反应理论虽然克服了经典测试理论的一些缺点,但是目前还存在着许 多问题没有解决。比较突出的是项目参数、被试能力特质、答对概率三者之间 的关系模型的确定尚无标准;测试仪依赖于大量的、预先准备好的、高质量的 试题,而这在现实普通教育领域中很难完全做到,但是项目反应理论还是代表 了今后测试理论和实践探讨的发展方向。 2 2 2 一般原则 技术与能力的测评必须在特定的情境下进行。一般说来,应让被试在实际 情境下完成给定的任务,这样的考核可信度最高。但基于实现代价、安全性或 评判难度等因素的考虑,某些内容的技能测评只能在模拟环境下进行。 要对考生的操作技能能做出准确的评价,关键在于获取足够的相关信息, 包括操作进程信息和操作结果信息。一般原则是:如果结果可以完全反映操作 是否正确,则只需获取结果信息,否则就要通过自动跟踪和监测操作过程获取 过程信息,并将二者结合起来作为评判的依据。显然,与真实情境相比,在模 拟情境中获得信息更容易,但要求实现其外观、过程以及行为都要接近真实环 境,这并不容易做到。 通过对获取的相关信息进行分析、归类和预处理,再与标准答案( 评价标 准) 进行比较和匹配,从而对被试的技能给出综合评价。但要注意到,这里的 匹配不一定是精确的,很多情况下必须采取最大近似匹配的方法。 2 3 计算机考试自动化测评的一般模型 实践性是技能的一个重要特点,因此,对各种操作技能指标进行测量,必 须考察技能在实践中涉及到的各个实体及其相互作用,测评系统由被测主体及 其在完成技能问题过程中涉及到的各个实体组成。 系统建模一般包含两方面的内容。首先是理论建模,通过深入分析技能自 动测评的信息加工过程,形成如图2 1 所示的理论模型。 图2 - 1 信息模型 由上述模型可以看出,测评系统的主要组成组成部分是:交互过程信息的 硕士学位论文第二章计算机考试自动化测评研究 获取,交互过程信息的形式化表示,相关知识库的建造,推理机制及评价部件。 其次是行为建模,为操作者完成技能训练任务而创设具有很强交互性的虚 拟仿真环境。 不同类型的技能测评,获取交互过程信息的技术不同的。从原则上说,技 能测评环境是建立在仿真系统上、还原真实系统的成本,将取决获取交互信息 的难度。通常情况下,在真实系统下的技能测评,需要开发获取交互过程信息 的部件并把它嵌入到已有的系统中,其难度很大;相反,仿真系统是开发者根 据测评的需要自行开发的,其系统内的任何操作都可由系统监测与记录,所以 获取交互过程信息不会有任何困难,当然,这要增加开发仿真系统的成本作为 代价。 硕士学何论文 第三章c 语言程序设计自动测评系统分析与设计 第三章c 语言程序设计自动测评系统分析与设计 针对c 语言程序设计课程的测评内容要求,本章首先给出了系统的功能需 求分析,把整个系统分为三个子系统:题库管理子系统、测试子系统和自动阅 卷子系统。然后描述了自动阅卷子系统的流程,最后给出了各子系统的数据库 设计。 3 1 系统需求分析 3 1 1 c 语言程序设计测评内容要求 c 语言程序设计不仅是计算机专业的必修课,同时也是理科非计算机专 业的必修课或选修课程。本课程的任务是使学生了解c 语言的基础知识,掌握c 语言程序设计方法以及c 语言灵活丰富的函数和数据类型,为学生以后的学习 和工作打下坚实的基础四1 。根据c 语言程序设计课程考核的要求,考核分为 程序设计基础知识与程序设计能力两方面的考核,前者主要考查考生对c 语言 基础知识的掌握情况,属于识记方面的要求,而程序设计能力的考核则是检验 考生是否理解程序设计并能将之应用于实际解决现实问题。 根据课程考核要求,对c 语言程序的考查主要集中在以下几个方面:了解c 语言的结构、数据类型及其运算、基本语句、选择结构程序设计、循环结构程 序设计、数组的定义和使用、函数、指针、结构体( 即“结构”) 与共用体( 即 “联合”) 、位运算、文件操作;对实践能力的考核主要是:熟悉t u r b oc 集成 环境;熟练掌握结构化程序设计的方法,具有良好的程序设计风格;掌握程序 设计中简单的数据结构和算法;在t u r b oc 的集成环境下,能够编写简单的c 程序,并具有基本的纠错和调试程序的能力。 对于c 语言基础知识的考查,可利用选择、判断、填空等题型来测试,考 生答案与标准答案均分别以特定的字段保存在考生相应的试题库和系统的标准 答案库中。由于每题的标准答案都具有唯一性( 仅填空题在大、小写上有所区 别) ,因此对它们的评分采用一一对应的完全匹配策略,这在技术上比较容易实 现,在此不多述,文章主要研究c 语言程序设计能力的自动测评。 3 1 2 系统功能要求分析 根据传统的测评方式流程,系统应先由教师添加试题,考生使用个人帐号 登录,成功登录后由系统自动随机抽取试题进行考试,考完之后保存答题信息, 最后由测评系统进行测评。根据上述流程本系统可以分为三个子系统,各自的 硕士学位论文第三章c 语言程序设计自动测评系统分析与设计 功能如下: ( 1 ) 题库管理子系统 题库管理子系统包括对各种试题的添加、删除、修改和查询等。 ( 2 ) 用户管理子系统 考生管理子系统包括对教师及考生信息的添加、删除、修改等。 ( 3 ) 自动阅卷子系统 考生答题信息收集后能自动进行判卷,测试成绩保存至数据库并能够进行 汇总。 系统模块结构图如图3 1 所示。 图3 - 1 系统模块结构图 3 2 系统整体设计思想及开发环境选择 本系统的设计目标是:通过自动阅卷系统的实现使计算机考试工作系统化、 规范化、自动化,以达到提高评卷工作效率的目的。 本系统设计的基本思想是:对程序设计题采取黑盒测试与白盒测试相结合 的方法进行评阅,即用计算机尽量模拟人工阅卷,以得到一个比较准确的评分 结果,所以程序题评分的目标是: ( 1 ) 根据程序运行结果判定考生程序是否完成题目要求。 ( 2 ) 对于存在语法错误的考生程序,能够找出其错误并尽量对其进行改正。 ( 3 ) 使修改正确的考生程序在系统的控制下运行,获取其运行结果,验证 其正确性。 ( 4 ) 编译、运行考生程序时能避免由于死循环引起系统崩溃。 1 4 硕士学位论文 第三章c 语言程序设计自动测评系统分析与设计 ( 5 ) 经修改仍有错误的程序应能根据逻辑合理性给出较合理的分数。 由于系统是对汇总后的考生的源程序进行自动阅卷,这是一种集中式的处 理,需要在短时间内得出评卷结果,所以系统采用了单机程序构架。 基于以上考虑,本系统选择的开发工具是v i s u a ls t u d i o2 0 0 5 ,采用的编 程语言是v i s u a lb a s i c2 0 0 5 ,数据库采用的是s q ls e r v e r2 0 0 5 ,开发所使用 的操作系统是w i n d o w ss e r v e r2 0 0 3 企业版。v i s u a ls t u d i o2 0 0 5 具有以下优 势: ( 1 ) 所有的v i s u a ls t u d i o n e t 语言都共享相同的开发环境,程序员可以 根据自己喜好和系统特点选择相应的编程语言并可以将它们很好的集成到一个 系统中去。 ( 2 ) 帮助系统有了很大的改变,大多数索引主题通过命名空间和命名空间 中定义的类型组织,极大地方便了开发人员的查询。 ( 3 ) v i s u a ls t u d i o n e t 引入了一些新的控件。有一些控件能够访问诸如 系统消息r 志数据的w i n d o w s 服务,另有一些控件能够通过a d o n e t 访问数据 库。 ( 4 ) v i s u a ls t u d i o n e t 允许创建不同类型的应用程序。例如,可以创建 a s p n e t 和w e bs e r v i c e s 等程序和应用服务。 ( 5 ) v i s u a ls t u d i o n e t 依赖于可扩展标记语言( e x e n s i b l em a r k u p l a n g u a g e ,x m l ) 来通过w e b 保存、发送和接收数据,并且在应用程序之间通信。 ( 6 ) 微软公司添加了一些新的调试窗口和调试工具,使得错误检测更加容 易。 ( 7 ) v i s u a ls t u d i o n e t 开发工具为开发者提供了让用户在其目标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论