成就测验不完整作答反应推估之研究.doc_第1页
成就测验不完整作答反应推估之研究.doc_第2页
成就测验不完整作答反应推估之研究.doc_第3页
成就测验不完整作答反应推估之研究.doc_第4页
成就测验不完整作答反应推估之研究.doc_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊另在研究者设定的缺失比例部分,缺失作答反应在占总题数5%以下,即作答题数为38题以上者,经热卡法插补完整后所得的试题难度参数为-1.0290;而当缺失作答反应占总.啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊成就测验不完整作答反应推估之研究啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊成就測驗不完整作答反應推估之研究林曉芳嶺東技術學院應用外語科助理教授 E-mail:.tw摘要本研究主要目的在估計學生成就測驗中的未作答反應,研究者嘗試運用統計插補方法,企圖根據受試者的部分作答反應,推論出受試者的能力參數估計,並討論一般統計插補法運用在成就測驗上的可行性與價值意義。基於以上的動機,本研究之目的為:(一)統計插補技術應用於成就測驗之可行性;(二)運用熱卡法於不同缺失比率之成就測驗上進行插補,比較其結果之差異。本研究所使用的工具為研究者自編國一第一冊數學科學習成就測驗,在經過將預試之後,進行試題分析,挑選出具有良好鑑別度、信度,以及適當難度(中等難度)之優良試題,組成一份含有40道試題之國中第一冊數學科成就測驗。本研究程序可分為以下步驟:(一)模擬研究:研究者根據實證資料型態進行模擬作答反應的產生(二)試題準備階段:分別由數位目前任教於國中的數學老師提供試題,且由研究者參酌坊間參考書挑選部分試題後,綜合二者彙編而成;(三)試題分析:收集預試結果,共399份測驗,進行試題分析;(四)進行正式測驗:徵詢自願接受本研究測驗之各校國二學生作答(預試與正式測驗之受試者不重複),回收後得到樣本共1102人;(五)處理與定義未作答反應之缺失值:本研究主要欲進行插補的未作答反應為受試者跳答(omitted)的試題,在收集所有受試者之作答反應組型後,全部作答完整的共有760份測驗,而缺失作答題數佔總題數之5%以下、5%10%、1015%與15以上者,分別各為168人、53人、37與84人;(五)對未作答之缺失值進行統計插補估計:利用一般調查研究所常用的熱卡法來進行資料的插補,另亦嘗試以集群分析,尋找受試者的答題反應模式,藉由依據同類反應組型的受試者作答反應,來推測未作答受試者的缺失資料,並再利用區別分析進行分類的驗證,以及資料插補的正確率。本研究之結果為:(一)熱卡法可應用於成就測驗;(二)缺失比率愈高的資料,影響試題與能力參數估計的正確性;(三)藉由集群分析的作答組型分類結果,再配合應用區別分析的驗證分類效果,可驗證熱卡法的插補正確效果,亦證明熱卡插補法的確對於處理成就測驗缺失作答反應,提供了一個不錯的補救方法。關鍵字:成就測驗、缺失作答反應、熱卡法Key words:achievement test, non-response item, hot deck method成就測驗不完整作答反應推估之研究壹、緒論在一般調查研究的資料蒐集過程中,皆難免會因某些因素而使得資料無法蒐集齊全,而這些被遺漏的資料,如:未回卷、未回答或填答值為不知道、拒答、無意見或無此筆資料者,皆可被視為是不完整的作答反應。因資料類型不同、學者對其定義的差異也有不同的名稱,舉凡:資料遺漏或缺失值(missing value;missing data)、不完整值(incomplete value)、無反應作答(item non-response)等等。目前對於調查研究的缺失值處理方法,主要以插補方式進行事後的統計處理補救,根據目前的研究發現,各插補方法依資料類型多有不錯的補救效果。不完整作答反應的種類,可依下列幾種標準來作分類:(一)以發生對象而言:可以區分為兩大類型:(1)單位無反應(unit non-response);(2)項目無反應(item non-response)。前者之意義為回收問卷中,問卷之全部資訊完全遺失,後者則表示回收之問卷中,有部分資訊遺失。通常對於單位無反應的問卷,分析者多採用加權的方式來彌補因資料缺失而造成的可能誤差;而項目無反應的問卷,則是多採插補方式將缺失資料補齊,以得到完整資料,再進一步去作資料的分析。(二)以發生的機率而言:Rubin(1976)年在Biometrica期刊上發表文章中,首先提出隨機遺失(Missing at random, MAR)與完全隨機遺失(Missing completely at random,MCAR)二個名詞。後來的研究學者對於各種不完整反應值處置措施的差異,主要源自於產生此值的機轉(mechanism)抱持著不同的假設態度,一般而言,可分成三大類(陳信木、林佳瑩,民86):(1)完全隨機遺失:當此缺失值發生的機率與被觀察個案所蒐集到的資料,及未蒐集到的資料之間是獨立的,且是在研究者可控制之下,則此機轉是可忽略的(ignorable)。簡言之,觀測值的取得是隨機抽取(OAR,observed random),和觀測值是無關的。可以下式表示之:,其中:一個長度為的向量,其中Yobs表示可觀測到的值,Ymis表示遺失值:表示第I個觀測值在第j個變項的資料遺失之結構。為一隨機變數,1表示可觀測到的資料=0表示無法觀測到的資料即是此條件分配的參數。(2)隨機遺失:缺失值發生的機率與被觀察個案所蒐集到的資料是有關的,與未蒐集到資料之間關係是獨立的,意指個案特定變項數值遺漏的可能性,取決於其他觀察個案之變項數值。如:教學評量問卷因窗戶未關好,導致有幾份問卷被風吹走而遺失。可以下式表示之:。(3)不可忽略的(non-ignorable):所謂可忽略反應(ignorable response)是指缺失值是隨機出現,而不可忽略即是指缺失值發生的機率與缺失資料之間有相關存在,有違反缺失值隨機出現的條件存在,亦即有資料偏差存在。一般而言,在研究過程中,多數時候發生的缺失值都不是研究者所能掌控的,但又卻產生偏差影響,因此,這是不可被忽略的。例如:高所得受試者傾向於拒絕回答收入問題,此即為變項數值與產生缺失值間有相關性存在。(三)以發生次數而言:根據每個個案被衡量或觀察的次數來區分,缺失值又可被分為兩大類(葉瑞鈴,民89):(1)單一觀察變數:即個案僅接受一次的觀察或記錄,所產生的缺失值。此種觀察變數值的遺漏又可再區分為單變量遺漏或多變量遺漏。(2)時貫性變數:個案在許多時點上被觀察或測量,資料為時貫性變數。對於時貫性變數也可再細分為界遺漏、單變量遺漏或多變量遺漏。(四)以資料型態而言:欲插補變數本身的資料型態可分為兩大類,缺失資料類型不同,選擇的插補方式亦將有所不同,否則將影響插補效果:(1)類別性資料(定性資料,categorical data):如性別、職業、學歷等變項皆屬於類別性資料。(2)連續性資料(定量資料,continuous data):如收入、年齡、國民所得等等,是屬於連續性資料變項。目前多數研究在處理缺失值方面,通常可以下列五種處理方式:(一)完整觀察體分析法(complete observed vectors method);(二)加權法(weighting method);(三)迴歸法(regression method);(四)插補法(imputation method);(五)隨機法(random method)。以上所述這些方法中,最常被使用的就是插補法,在本研究中,則試圖以插補法中的熱卡法做為推估缺失作答反應的估算方法,以下茲將熱卡法的基本概念簡述如下。熱卡插補法(Hot deck imputation method,或稱立即修飾法)是利用最具同質性或同屬性(propensity)的受試者資料,作為缺失值的參考答案,是目前最受青睞的一種插補模式。美國人口普查局(Current Population Survey,CPS)和各種普查資料,廣泛應用熱卡插補法處理缺失值,CPS hot-deck imputation 可說是目前社會科學調查研究處理缺失值中,最成熟的一種方法(Oh & Scheuren,1980;Oh, Scheuren & Nisselson,1980;Welniak & Coder,1980;陳信木、林佳瑩,民86)。熱卡插補法是依照輔助變項的不同條件,將未出現缺失值的觀察體分類成若干的插補空格(imputation cell),每一個出現缺失值的觀察體,依據輔助變項的條件,從相對應的插補空格中找尋一個觀察體,以其觀測所得的變項數值代替缺失值。簡言之,即是將已填答資料劃分為若干區域,再從某一區中抽取一個值替代缺失值。圖1即為熱卡插補法的基本架構圖。在使用熱卡插補法時,隨機抽取乃是根據相同屬性的樣本,而非所有樣本資料皆是抽取對象,若相關屬性變項過多時,可用多元迴歸或其他方法將屬性變項依其量表和量表作答資料之相關程度予以加權,並計算得出一個屬性分數(propensity score),且每一個樣本都有一個屬性分數,屬性對照即是將和問題有關的屬性變項加以分層(stratify),根據屬性分數相近的樣本資料進行熱卡插補(劉長萱、蔡政豐,民86)。當缺失值為類別資料時,可根據屬性變數,將完整觀察值分為若干區,再根據缺失資料的屬性變數,檢查應落入哪一區中,並從中抽取一值做為插補值;而當缺失值非類別資料時,可將插補所得之值,和現有資料中的完整觀察值作比較,檢查此插補值與何者較接近,並以最接近者做為此缺失值的新插補值(曹志弘,民89)。在此所指的輔助變項通常是人口變項或社會學變項,如:年齡、性別、種族、教育與社經地位等,而由輔助變項所形成的插補空格,彼此之間必須是周延的(exhaustive)、互斥的(exclusive)與同質的(homogeneous)(陳信木、林佳瑩,民86)。a b c e A B C E E 圖1 熱卡插補法的基本架構熱卡插補法的利弊為:(1)允許完整資料分析方法。(2)在分配及聯合方面優於平均數插補法。(3)假定可忽略未回答反應。由針對熱卡插補法的利弊分析,瞭解熱卡插補法雖可以正確估計原始問題答項的單元次數分配(marginal frequency distribution),但是隨機插補的資料樣本誤差較大,而原問題之間的結構關係可能在插補過程中無法完全保留,這樣的結果可能導致於後續研究無法探討量表的結構與更深入的多元分析。因此,為了彌補這樣的缺失,熱卡插補法中的屬性對照(propensity matching)成了不可或缺的步驟(Little,1988;Rubin,1986)。由研究者歸納發現,一般而言,受試者可能出現的作答反應大致可分為以下四種:(一)全部填答、(二)未填答部分試題答案-omitted response(如:12423.4323.44)、(三)作答反應組型呈現規則反應(如:1234123412341234)與(四)自某一題之後即呈現連續試題未作答者-not reached(如:1432.)。在進行試題分析時,對於作答未完全的受試者,分別有不同的處裡方式,許多學者多贊同跳答某幾題的這種類型(如上述的類型二),是我們所必須要特別關心的,有可能是基於某些因素而在閱讀完題目之後,選擇不回答。另對於作答反應呈現規則狀與一連串空白未答者,有可能是受試者作答時間不及,願意猜測者會隨意猜測填答,不願意猜測者則將其空白未答,亦或者是受試者根本無心填答該測驗,不是拒絕作答,就是故意亂寫,針對這種情況,研究者或施測者很難能去推論出受試者的真實能力表現,而在目前評閱的研究報告中,學者們多持刪除該筆資料的態度。在本研究中,研究者主要關心的未作答反應(non-response)是指少數跳答(omitted)之試題反應,研究探討的目標與插補試題亦僅限於少數跳答(omitted)之試題反應。Ludlow 與 OLeary(1999)認為教育評量發生缺失值的原因,主要有兩種:一是受試者跳過(omitted)試題未填答,二是因為時間來不及(not-reached)而未作答。當學生搞錯題意或讀過之後跳過該題,而決定不作答時,就產生含有遺漏值的作答反應;其次,因為時間因素,導致學生沒有機會繼續作答,而產生遺漏的作答反應,只是,對於作答時間不夠而導致遺漏的這個問題,必須再定義何謂來不及作答。Lord(1974,1983)在多年前即談到,假如受試者在充分的時間內完成測驗,那將缺失值視為答錯或者忽略該作答反應,這是不對的處理方式。Mislevy與Wu(1988,1996)亦提到缺失作答反應的結構若是故意跳答形式者,應是不可忽略的,亦即是研究者必須關心注意的,否則將會使估計結果與其他相關的分析報告中產生偏差結論。DeAyala, Plake &與Impra(2001)在探討缺失值對於IRT能力估計精確性研究中發現,將跳過未答(omit)視為錯誤答案者,會出現最糟糕的分析結果;相對的,若以0.5取代未作答試題的答題反應進行能力估計,則出現幾乎與完整作答資料分析之結果一樣精確。Lord(1980)在分析受試者的答題反應時,他認為那些來不及回答(not-reached)的試題在能力估計時,是可以被忽略的,因為它並未包含關於受試者能力估計的大量訊息;反之,在進行能力估計時,跳過未作答(omitted)的試題是不能被忽略的,因為他認為受試者知道IRT的能力估計計算。因此,受試者可能或傾向於表現他有把握的試題來回答,而放棄可能填答錯誤的試題。同樣的結果在Wang, Wainer 與 Thissens(1995)的研究中亦得到支持。由以上文獻可發現,教育測驗研究學者對於跳答之試題是相當關心,且在進行試題與能力分析時,對該類試題的處理是必須更加謹慎小心的。目前對於此應用性的實證研究並不太多,Liou 與 Cheng(1995a;1995b)、姚穎吉(民86)、陳政川(民86)皆曾建議以共通題(或稱定錨試題,anchor item)的等化技術來處理不完整資料(Incomplete-data),亦即分派兩組考生進行部分試題的測驗,而兩份測驗中包含定錨試題,再將兩份試卷利用定錨試題進行測驗等化,兩份測驗完成等化後,藉由此來推估另一部份未作答試題之反應組型。De Ayala, Plake與Impra(2001)對缺失值在IRT的受試者能力估計精確性影響研究中,嘗試使用三種方法來進行能力估計:(一)二元權重(biweight estimation);(二)期望後驗法(expected a posteriori,EAP);(三)最大概似估計法(maximum likelihood estimation,MLE)。而Huisman 與 Molenaar(2001)提出插補技術在對於缺失作答反應處理上,是最普遍被使用的方式,而且也是一種好的處理方式。插補法是一種預測的形式,必須根據缺失值的預測分佈,而給予一個觀察值,在插補方式的選擇上亦必須多加注意,不正確的插補方式將會產生更大的誤差。在Huisman 與 Molenaar(2001)研究中,即藉由不完整測驗設計,利用Hot deck nearest neighbor(HD)、corrected item mean imputation(CM)以及OPMISS multiple draws imputation等三種插補技術來估計受試者的潛在特質。其中的平均數插補法(mean imputation)和熱卡插補法(Hot deck imputation)可視為是一種隨機模式下的調整方式(randomization-based adjustments)。Huisman與Molenaar(2001)的研究結果指出,在所有的插補技術中,並沒有最佳的方法,而一般認為估計效果不錯的Hot deck imputation,在這個研究中則是有最高的均方誤根(RMSD,root mean-square deviation),且隨著缺失結構愈複雜,均方誤根的值快速激增;此外,若以模型假設之估計方法,發現以IRT模型為基礎的插補結果較佳。目前,在教育測驗研究方面,較少有學者採用直接插補的方式來進行為作答反應的推估,較普遍使用的多是透過模型理論作推論,因為,教育測驗試題之題幹,彼此之間是相互獨立的,而選項間的關係也是相互獨立的。因此,在對未完整作答測驗的受試者能力推估上,實在無足夠的訊息與證據去說明與推論前一題答對,與後一題未作答之間有何關係存在。這也是一般插補法難以處理成就測驗中不完整作答反應的限制。本研究主要目的在探討成就測驗中學生的未作答反應估計,研究者嘗試運用統計插補方法,企圖根據受試者的部分作答反應,推論出受試者的能力參數估計,並討論一般統計插補方式運用在成就測驗上的可行性與價值意義。基於以上的動機,本研究之目的可簡述如下:(一)統計插補技術應用於成就測驗之可行性;(二)運用熱卡法於不同缺失比率之成就測驗上進行插補,比較其結果之差異。貳、研究方法(一) 研究工具本研究使用之工具為分別由數位目前任教於國中的數學老師所提供之成就測驗,並由研究者參酌坊間參考書挑選部分試題後,綜合彙編而成的國一第一冊數學科成就測驗。在經過預試之後,進行試題分析,挑選出具有良好鑑別度,以及適當難度(中等難度)之優良試題,編製成一份含有40道試題的參數化數學科成就測驗。(二) 研究對象本研究對象之取得,乃是研究者發函徵詢自願接受本研究測驗之學校,在經得學校同意之後,再郵寄給各校之負責教師,由國二學生接受測驗。回收後得到有效的正式測驗樣本共1102人;經過整理、分析之後,得到受試學生作答題數的統計結果,如表1所示,由此表可得知僅有760份測驗是作答完整的,約佔總樣本數之69%,換言之,在本研究中,高達31的測驗都是含有缺失資料的,其中更包含將近8%的測驗作答反應是缺失15%以上。表1 作答反應統計資料作答題數次數百分比累積次數百分比3-104.4.411-155.5.916-20111.01.921-25161.53.426-30232.15.5318.76.2328.76.9339.87.734141.39.035232.111.136211.913.037322.915.938494.420.33911910.831.14076069.0100.0Total1102100.0(三) 研究程序本研究程序可分為兩大部分,其包含以下步驟:1.模擬研究部分:利用S-PLUS2000程式模擬,仿照實證資料型態,產生符合均勻分配(Discrete Uniform Distribution)的受試者作答反應。本研究以符合IRT假設的最小樣本數:1,000為模擬研究之樣本數;此外,另又設定不同的缺失比例,包含10%、30%、50%等三種。根據研究者詢問任課教師在一般評量時的缺失比例經驗,缺失比例並無不一定數據,需視測驗科目、測驗目的,以及測驗題型等等因素而定。因此,研究者假定三種缺失比例條件,討論不同缺失比例下資料差補後的分析效果為何。2.在實證資料部分:研究者將經過預試之試題進行試題分析,而成為正式施測用之測驗。透過立意取樣方式,由研究者發函徵求有意願接受施測之國中數學教師協助,給予台灣地區國二學生進行預試。回收測驗之後,根據本研究所定義之未作答反應,進行樣本的篩選。得到本研究之全部樣本數為1102人,而缺失題數太多(缺失超過6題以上者),或是有連續缺失未答完(not-reached)之試題,皆排除在本研究分析之外。作答完整的共有760份測驗,而缺失題數佔總題數之5%以下(作答38題以上)、5%10%(作答3637題)、1015%(作答3435題)與15以上(作答少於34題)者,分別各為168人、53人、37與84人。3.最後,對模擬資料與實證資料之未作答反應進行熱卡插補估計,並討論其分析結果。參、研究結果與討論一、 在不同缺失比率下,利用熱卡插補法所得之試題參數估計結果(一) 鑑別參數模擬資料在樣本數為1000,隨著缺失比例高達50%時,在經過插補運算之後,重新獲得的作答反應資料,經試題分析之後,最大與最小的鑑別參數值已不同於其他組別,且各參數的標準差相較於其他組別,有明顯增高的趨勢。表2與表3分別為在不同缺失比例下,鑑別參數及其標準差之描述統計分析結果。發現無論在平均數、標準差,或是偏態、峰度等指標,皆顯示在缺失比例15%以下的資料,較具有一致性的結果,而高於30%缺失比例的資料,經過插補技術的處理後,描述統計結果顯示與原始資料、以及缺失比例較少各組之分析訊息有差異,尤其在標準差這項指標上,當缺失比例達50%(0.272234)時,與其他各組的標準差(5.08230E-02;5.34125E-02;6.84049E-02)相較,有更明顯的差異存在。表2 不同缺失比例所估計之鑑別參數的描述統計(n=1000)1000a10%a30%a50%aN40404040Mean.242500.244350.257450.282300Std. Deviation5.08230E-025.34125E-026.84049E-02.272234Skewness.868.893.184.952Kurtosis.379.385.496-1.042Range.2160.2230.3280.7080Minimum.1720.1680.1170.0760Maximum.3880.3910.4450.7840表3 不同缺失比例所估計之鑑別參數標準差的描述統計(n=1000)e1000ae10%ae30%ae50%aN40404040Mean6.08250E-026.12500E-026.31750E-024.10750E-02Std. Deviation1.19355E-021.25836E-021.50416E-022.13930E-02Skewness.734.763-.226.776Kurtosis.022.067.158-1.118Range.0500.0520.0700.0620Minimum.0430.0420.0300.0190Maximum.0930.0940.1000.0810在實證研究部分,如表4所示。以第1道試題為例,經過預試所編製的正式測驗,其鑑別度值為1.517,而進行正式測驗後,發生約31%缺失作答反應,經試題分析後得到鑑別參數為1.1890。而在利用熱卡插補法,將其缺失作答反應補齊之後,得到試題鑑別參數為1.2980。若刪除全部缺失作答反應,僅以完整作答反應資料(每位受試者皆填答40道試題)進行試題分析者,得到鑑別參數為1.3200。另在研究者設定的缺失資料比例部分,缺失作答反應在佔總題數5%以下,即作答題數為38題以上,包含作答完整者,經熱卡法插補完整後所得的試題鑑別參數為1.3330;而當缺失作答反應佔總題數之10%以下時,即作答題數為36題以上,包含作答完整者,經熱卡法插補完整後所得的試題鑑別參數為1.3240;當缺失作答反應在佔總題數15%以下,即作答題數為34題以上,包含作答完整者,經熱卡法插補完整後所得的試題鑑別參數為1.3100。根據以上數據意義之說明,研究者發現在實證資料中,缺失比例在15%以下的情形,插補之作答反應資料經過試題分析之後的結果,並未有明顯的差異性存在。換言之,在各類不同缺失比例模式設定下之鑑別參數值的差異都不大。各組資料在經過ANOVA後,亦發現無顯著差異存在,而造成各組平均數無顯著差異存在的原因,乃是因為能力參數是個對稱性的數值,在各種情況下,能力參數以0為起點,以受試者的作答表現情形,分別朝兩邊取其差異間距。因此,這是一個正負對稱的數值,處於相對的概念。故使用ANOVA考驗各組平均數的差異,即會顯現出無差異性存在的結果,這亦是本研究之所以並未對各組分析資料作差異性考驗之因。為了能求得較精確的分析,單就研究者個人的主觀判斷無法說明其差異性是否存在與否,由表5可看出各群體在各項指標上的表現情形,發現對原始作答反應進行插補,以及刪除所有未作答反應後所估計的鑑別參數,在各項指標上的表現較其他組別稍有不同,在偏態係數與峰度係數部分,這兩組的數據與原始作答反應所得出的數據有較大的差異。在估計標準差部分,表6為各組別的鑑別參數標準差值之描述統計分析結果,就全部受試樣本而言,以熱卡插補後的估計標準差值較小,且有較穩定的趨勢表現,明顯與未進行插補之作答反應有差異,而直接刪除未作答反應者進行參數估計者,其標準差值亦是不穩定的。因此,綜合以上討論歸納得知以BILOG程式進行試題鑑別參數之估計時,缺失作答反應的存在與否將會影響估計結果。就理論上而言,當缺失作答反應愈多,缺失比例愈高,則所估計之鑑別參數較不準確,而當透過熱卡插補後,由估計值的標準差結果顯示,較不插補之資料或直接刪除資料等處理方式有更加穩定的表現。表4 實證資料與熱卡插補估計後之鑑別參數itemAll(a)HD(a)hdms5(a)Hdms10(a)Hdms15(a)Full(a)11.18901.28901.33301.32401.31001.320021.03701.01401.03701.03301.04901.047031.31901.36601.41601.37701.35801.466041.37001.34401.46001.43101.41201.509051.53601.52501.56701.54701.53901.68706.7430.7110.7300.7210.7050.776071.12901.06201.15001.10601.10001.195081.13801.22401.22501.23401.21001.31209.4440.4350.4650.4560.4510.517010.8350.8100.8940.8510.8440.893011.8020.8530.9090.8460.8380.9370122.29302.01202.26602.29502.29802.2880131.19001.13501.16801.15001.12701.208014.8690.8900.9410.8740.8720.9380151.47601.48401.52901.52801.51201.6480161.08401.00901.06301.05001.03801.0740171.11801.04101.13801.12301.06701.245018.9380.8880.8840.8710.8740.913019.8430.8550.8940.8800.86401.058020.8540.8070.8430.8180.8140.8630211.62701.61201.65101.65101.62801.6690221.21401.15501.19401.16801.16101.141023.9070.8480.9010.8720.8730.970024.9130.8450.8930.8780.8680.932025.7440.7370.7490.7310.7300.7990261.35401.26101.34701.32801.32101.383027.7590.6910.7240.7040.6990.7730281.35601.32601.37401.35101.34301.4060292.02401.94702.06602.04802.01602.1600301.0070.9550.9630.9780.98101.000031.8810.8310.9150.8660.8460.9470321.37101.35001.45401.44401.38401.583033.7200.6860.7230.7050.7060.802034.9970.9090.9680.9620.94201.0450351.0580.98901.04501.04701.02801.096036.5780.5490.5920.5890.5920.623037.7910.7450.7800.7560.7640.835038.4070.3670.4140.4020.3900.445039.8600.8910.9460.9350.8960.949040.9830.96701.0240.9980.98901.0450註:Item指的是試題編號;All(a) 指的是所有回收樣本(1102份)試題分析後之鑑別參數;HD(a) 指的是所有回收樣本(1102份)透過Hot Deck插補後所得之完整資料,再經過試題分析後之鑑別參數;hdmis5(a)hdmis10(a)hdmis15(a)指的是分別在缺失5%、10%、15%以下的所有作答資料,經由Hot Deck插補後所得之完整資料,再經過試題分析後之鑑別參數;fullans(a)指的是所有完整作答樣本(760份)試題分析後之鑑別參數。表5 實證資料與熱卡插補估計後之鑑別參數的描述統計ALLAHOTAHDMISS5AHDMIS10AHDMIS15AFULLANSAN404040404040Mean1.0689501.0353751.0908751.0732001.0609751.137425Std. Deviation.378220.360238.385681.390575.386413.393862Variance.143051.129771.148750.152549.149315.155127Skewness1.132.7961.0051.0731.118.999Kurtosis2.247.8561.5891.7591.9811.358Range1.88601.64501.85201.89301.90801.8430Minimum.4070.3670.4140.4020.3900.4450Maximum2.29302.01202.26602.29502.29802.2880表6 實證作答反應與不同比例之熱卡插補後的試題鑑別參數標準差統計表All(a)Hd(a)Hd-mis5%(a)Hdmis10%(a)Hdmis15%(a)full(a)N404040404040Mean7.71250E-027.64750E-028.55500E-028.25250E-028.06250E-029.62250E-02Std. Deviation3.00155E-022.66227E-023.39366E-023.34196E-023.28374E-023.73895E-02Skewness3.0512.2372.8412.9653.0472.650Kurtosis12.5847.20311.19012.00412.5819.843Range.1740.1440.1930.1910.1900.2090Minimum.0450.0440.0490.0480.0460.0550Maximum.2190.1880.2420.2390.2360.2640(二) 難度參數模擬資料樣本數為1000時,發現隨著缺失比例高達50%時,經插補運算之後,重新獲得的作答反應資料,經試題分析所得之最大與最小的難度參數值,與其他組別有較明顯的差異存在,且各參數標準差值亦明顯增高。表7與表8分別為在不同缺失比例下,難度參數及其標準差之描述統計分析結果。發現無論在平均數、標準差,或是偏態、峰度等指標,皆顯示在缺失比例15%以下的資料,較具有一致性的結果,而高於30%缺失比例的資料,經過插補技術的處理後,描述統計結果顯示與原始資料、以及缺失比例較少各組之分析訊息有差異,尤其在平均數與標準差這兩項指標上,當缺失比例達50%(5.9221、3.733855)時,與其他各組的標準差(3.20475、1.0245;3.206425、1.053616;3.0976、1.031135)相較,有更明顯的差異存在。表7 不同缺失比例所估計之難度參數的描述統計(n=1000)1000b10%b30%b50%bN40404040Mean3.2047503.2064253.0976005.922100Std. Deviation1.0245001.0536161.0311353.733855Skewness.088.117-.137-.578Kurtosis-1.071-1.074-1.281-1.237Range3.60003.74903.671011.5770Minimum1.61901.55401.2410.4360Maximum5.21905.30304.912012.0130表8 不同缺失比例所估計之難度參數標準差的描述統計(n=1000)e1000be10%be30%be50%bN40404040Mean.805350.805500.7629251.546600Std. Deviation.275165.284242.2631991.030623Skewness.357.376.197-.555Kurtosis-.820-.821-1.163-1.237Range.99701.0400.93503.1750Minimum.3970.3790.3550.0620Maximum1.39401.41901.29003.2370在實證研究部分,以表9之第1題為例,經過預試所編製的正式測驗,其難度值為-1.171;進行正式測驗後,發生約31%缺失作答反應,經試題分析後得到難度值參數為-1.0360;而在利用熱卡插補法,將其缺失作答反應補齊之後,得到試題難度參數為-1.0580;若刪除全部缺失作答反應,僅以完整作答反應資料(每位受試者皆填答40題)進行試題分析者,得到難度參數為-0.9820。另在研究者設定的缺失比例部分,缺失作答反應在佔總題數5%以下,即作答題數為38題以上者,經熱卡法插補完整後所得的試題難度參數為-1.0290;而當缺失作答反應佔總題數之10%以下時,即作答題數為36題以上者,經熱卡法插補完整後所得的試題難度參數為-1.0440;當缺失作答反應在佔總題數15%以下,即作答題數為34題以上者,經熱卡法插補完整後所得的試題難度參數為-1.0560。以上的缺失作答反應亦皆排除連續未作答之反應組型,以及故意造假之作答反應組型。根據以上數據意義之說明,研究者發現在實證資料中,缺失比例在15%以下的情形下,插補之作答反應資料經過試題分析之後的結果並未有明顯的差異性存在。換言之,在各類不同缺失比例模式設定下之難度參數值的差異都不大。各組難度參數之所以無顯著差異存在,必須要注意的原因是因為難度參數的產生是處於相對的概念,因此,在進行各組差異性的考驗時將無法顯現出其差異性效果,這樣的情形在鑑別度分析中亦有討論。此外,由表10可看出各群體在各項指標上的表現情形,發現刪除所有未作答反應後所估計的難度參數,在標準差指標上的表現有較穩定的趨勢,且全距較其他各組小,反之,經過熱卡插補後的資料估計結果出現較大的標準差。就各組資料而言,在不同缺失比例、不同樣本數,以及不同插補方法下的估計結果並未出現太大的差異,亦即其差異效果並未達顯著差異,唯完全未處理的原始資料部分有標準差較大、全距較大的情形出現。在估計標準差部分,表11為難度參數之標準差描述統計分析結果,就全部受試樣本而言,經熱卡插補後的難度估計標準差值較未進行插補時的估計標準差小,而直接刪除未作答反應所得出之難度參數標準差估計值是最小的,因此可知,經由插補估計後標準差值較小且具穩定效果。因此,綜合以上討論歸納得知以BILOG程式進行試題難度參數之估計時,再次驗證缺失作答反應的存在與否將會影響估計結果,而在不同缺失比例下,利用熱卡插補法所得之試題參數估計結果,在本研究中發現有、無缺失資料對參數估計的確有影響,這與之前學者(陳信木、林佳瑩,民86;葉瑞鈴,民89;趙世倩,民87;賴柔伶,民89;Little & Rubin, 1987)所做的研究發現有相同結果。就理論上而言,當缺失作答反應愈多,缺失比例愈高,則估計參數較不準確,在此亦得到證實。而當透過資料插補後,對於估計的標準差結果,較不插補之資料處理方式有更加穩定的表現。而不適當的插補技術,對於資料的處理與估計上,有較大的標準差存在。表9 實證作答反應與不同比例之熱卡插補後的試題難度參數itemAll(b)HD(b)hdm5(b)hdm10(b)hdm15(b)Full(b)Orig(b)1-1.0360-1.0580-1.0290-1.0440-1.0560-.9820-1.1712-.2840-.3410-.3530-.3670-.3720-.3330-0.9023-.7010-.7270-.7070-.7170-.7240-.6830-0.8424-.8110-.8360-.8260-.8390-.8400-.7820-0.8245-1.0150-1.0400-1.01

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论