




已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
莁袈膀芁螀袇羀肄蚆袆肂荿薂袆膅膂蒈袅袄莈莄袄羇膁蚂羃聿莆薈羂膁腿蒄羁袁莄莀羁肃膇蝿羀膅蒃蚅罿芈芅薁羈羇蒁蒇薄肀芄莃薄膂葿蚂蚃袂节薈蚂羄蒈蒄蚁膆芀蒀蚀艿膃螈虿羈荿蚄蚈肁膁薀蚈膃莇蒆蚇袃膀莂螆羅莅蚁螅肇膈薇螄艿莃薃螃罿芆葿螂肁蒂莅螂膄芅蚃螁袃蒀蕿袀羆芃蒅衿肈蒈莁袈膀芁螀袇羀肄蚆袆肂荿薂袆膅膂蒈袅袄莈莄袄羇膁蚂羃聿莆薈羂膁腿蒄羁袁莄莀羁肃膇蝿羀膅蒃蚅罿芈芅薁羈羇蒁蒇薄肀芄莃薄膂葿蚂蚃袂节薈蚂羄蒈蒄蚁膆芀蒀蚀艿膃螈虿羈荿蚄蚈肁膁薀蚈膃莇蒆蚇袃膀莂螆羅莅蚁螅肇膈薇螄艿莃薃螃罿芆葿螂肁蒂莅螂膄芅蚃螁袃蒀蕿袀羆芃蒅衿肈蒈莁袈膀芁螀袇羀肄蚆袆肂荿薂袆膅膂蒈袅袄莈莄袄羇膁蚂羃聿莆薈羂膁腿蒄羁袁莄莀羁肃膇蝿羀膅蒃蚅罿芈芅薁羈羇蒁蒇薄肀芄莃薄膂葿蚂蚃袂节薈蚂羄蒈蒄蚁膆芀蒀蚀艿膃螈虿羈荿蚄蚈肁膁薀蚈膃莇蒆蚇袃膀莂螆羅莅蚁螅肇膈薇螄艿莃薃螃罿芆葿螂肁蒂莅螂膄芅蚃螁袃蒀蕿袀羆芃蒅衿肈蒈莁袈膀芁螀袇羀肄蚆袆肂荿薂袆膅膂蒈袅袄莈莄袄羇膁蚂羃聿莆薈羂膁腿蒄羁袁莄莀羁肃膇蝿羀膅蒃蚅罿芈芅薁羈羇蒁蒇薄肀芄莃薄膂葿蚂蚃袂节薈 古典測驗理論一、測驗理論之發展趨勢測驗是一門新興的科學,其發展歷程不過百年歷史。測驗主要可分為兩大領域,一是心理測驗;另一則為教育測驗。不過,無論是何種的測驗內容,測驗理論可統整稱為解釋測驗資料間實證關係(empirical relationships)之有系統的理論學說(余民寧,民80),它的發展,迄今已邁入不同的新紀元,隨著測驗理論的不斷發展與創新,依提出時間與內容可區分為兩大里程:一為古典測驗理論(classical test theory),以真實分數模式(true score model) (Gullikson, 1987; Lord & Novick, 1968)為骨幹;另一為現代測驗理論(modern test theory),是以試題反應理論(item response theory) (Hambleton & Swaminathan, 1985;Hambleton, Swaminathan, & Rogers, 1991;Lord, 1980)為架構。歐美測驗理論的發展起源於現代心理學的研究,乃需要對人類行為加以測量與觀察,其產生的時代背景可由下列四項研究中窺知:(一) 法國智能不足兒童的研究:法國對智能不足兒童的分類與訓練,奠定了智力測驗發展的基礎,比奈(Binet)受教育部之委託,於1905年發展出比西智力量表,而成為近代的智力測驗之父。(二) 德國實驗心理學的研究:德國因實驗心理學的研究,而奠定了測驗程序標準化的基礎,實驗心理學之父馮德(Wundt)於1879年在德國的萊比錫(Leipzig)大學創立了第一個心理實驗室,致力於實驗研究,提供了日後重視測驗程序標準化與精確測量的依據。(三) 英國個別差異的研究:英國對於個別差異的研究,提供了測驗資料分析的統計方法,生物學家高爾登(Galton)致力於個別差異的研究,現今吾人所使用之評定量表、問卷方法與自由聯想技術,可說高登是其先驅者。此外,他又創用座標圖表示兩變項之間的相關,之後由其同僚皮爾遜(Pearson)發展成為積差相關法,而成為現代重要的統計分析工具與測量工具編製之基礎。(四) 美國測驗運動的推展:心理測驗萌芽於歐洲,但卻於美國發揚光大,影響美國測驗發展的功臣首推卡泰爾(Cattell),心理測驗(mental test)一詞為其在1890年發表論文中首先被使用;此外,桑代克(Thorndike)乃為測驗理論迅速散佈全美的另一關鍵人物,其第一部論及教育評量的教科書,影響了美國的教育學家與心理學家,成為美國推展測驗運動的主要力量。我國對於測驗的應用則始於二千餘年悠久的文官考試制度,遠在漢朝時代(西元前206年),即創用科舉制度,採用口試與筆試方式拔擢優秀人才,科舉考試成為平民才俊躍升官人的一大機會,二千餘年來,文人士子無不寒窗苦讀,以求得天下功名利祿,而此方法不僅為當時政府選賢與能的良好制度,更為我國今日的考試制度奠下深厚基礎。二、古典測驗理論簡介(一) 意義古典測驗理論又稱為傳統測驗理論(conventional test theory),或古典真分數理論(classical true score theory)。其主要源自於英國Charles Spearman所創相關概念的延伸,目前廣被使用的複本信度、再測信度、折半信度、庫李信度、斯布預測公式、同時效度、預測效度、測量標準誤等等概念皆為古典測驗理論的貢獻。此外,目前我們使用的測驗編製仍是以古典測驗理論為基礎(陳新豐,民88)。古典測驗理論的基本假定主要著重於觀察分數(observed score)、真實分數(true score)與測量誤差(error of measurement)之間的關係論述,其主要的假定有六點(Allen & Yen, 1979):1. 觀察分數(X)是真實分數(T)與測量誤差(E)之和,即。2. 觀察分數的期望值等於真實分數,即,而由此結論又可推論出測量誤差的期望值為0,亦即。3. 誤差分數與真實分數之間無相關存在,即。4. 不同測驗間之測量誤差與真實分數的相關為0,即。5. 不同測驗間之測量誤差的相關為0,即。6. 若有兩測驗,其中T相等,且,則稱兩測驗為平行測驗(parallel test)。(二) 限制由於古典測驗理論是依據弱勢假設(weak assumption)而來,所以儘管理論簡單易明瞭、淺顯易懂,但仍有以下幾項的限制(Allen & Yen,1979;Hambleton & Swaminathan,1985):1. 試題參數(難度(difficulty)、鑑別度(discrimination)受樣本依賴(sample dependent)限制:古典測驗理論中的難度與鑑別度值受到考生平均能力,及能力分散程度的影響。換言之,考生的能力將會影響試題難度值的大小;而考生母群體的同質性程度,亦會影響試題的鑑別度值,同質性高的受試群,其鑑別度將高於同質性低的受試群。2. 不同測驗中不易比較不同受試者能力的差異:根據古典測驗理論,受試者間能力的比較必須仰賴平行測驗或相同測驗的使用,而一般的成就測驗與性向測驗都只是針對中等能力學生所設計,對於能力較高或能力較低之受試者,其估計誤差較大。3. 平行測驗的建構有其困難:根據古典測驗理論觀點,信度乃是建立在平行測驗之理論上,但實質上,平行測驗的編製有困難。因為受試者有可能因為遺忘、學習、焦慮與動機等因素影響下,而難以在兩份測驗上都能達到相同的測驗結果。4. 假設相同的測量標準誤(standard error of measurement)與事實不和:古典測驗理論假定所有受試者的測量標準誤皆相等,這是與事實不合的,因為每位受試者在接受測驗時,其表現能力之穩定狀況並不相同。5. 缺乏題目訊息:古典測驗理論無法提供一個受試者可能答對個別試題機率的題目訊息,而這個訊息在於對某些受試群題設計某種特性之測驗時,卻是必要的。而其所提供的難度與鑑別度指標並非是針對某能力考生所得,僅是當下的受試群體表現情形。古典測驗理論中,對於試題分析指數的意義則解釋為:難度指數值(P)指的是通過率,表示受試者答對此題的機率,其值介於0至1之間,值愈大表示試題愈容易,此數值的解釋意義恰巧與IRT的難度參數b值完全相反。一般而言,在常模參照測驗中,試題的難易度旨在區別受試者的能力,故難度指數以接近0.5為最適當;鑑別指數(D)目的在於瞭解試題是否具有區辨受試者能力高低的作用,指數愈高,表示區辨力愈強。一般而言,可接受的最低標準為0.3,美國測驗學者伊博(Ebel)提出一套鑑別度的評鑑標準(郭生玉,民74):表2-1 鑑別度的評鑑標準(引自郭生玉,民74,271頁)鑑別指數試題評鑑.40以上非常優良.30-.39優良,但需要修改.20-.29尚可,但通常需要修改.19以下劣,需淘汰或修改古典測驗理論除了以上所述的五項限制外,對於試題的偏誤,測驗等化,以及目前廣泛被關注的適性測驗等等問題,都是無法解決的。鑑於此,1950年代之後,心理計量學者開始投入測驗理論的改革研究,而提出不同於古典測驗理論觀點的新測驗理論,一般對此新理論稱為試題反應理論(item response theory),下節將對此理論作更深入的探討,此理論亦是本研究所使用之研究分析方法的核心基礎。試題反應理論一、簡介試題反應理論的假定不同於古典測驗理論假定,而是強勢假定(strong assumption),其相較於古典測驗理論而言,具備多項優勢(Hambleton & Swaminathan,1985):(一)題目乃是測量單一特質,故當相同題目對不同群體施測時,受試者能力的估計亦是獨立的。(二)不同量尺參數的轉換具備線性關係的邏輯基礎,亦即不同量尺之間的結果,可透過線性轉換過程,而轉至同一單位量尺上,以利相互比較。(三)能力與試題參數是建立在同一量尺上,且具備等距特質,提高應用的方便性。(四)受試者的能力估計是獨立的,不會因接受不同試題的影響,而產生不同的估計結果。(五)能力估計的精確性是已知的。試題反應理論的發展已有數十年的歷史,相關的代表性作者與著作,以及配合時代發展的相關科技與文獻,整理如表2-2所示。由表的內容可得知試題反應理論的發展脈絡,以及近百年來電腦相關軟體的發展概況。表2-2試題反應理論之相關代表性文獻資料作者(年代)代表作及其貢獻Binet & Simon(1916)首創以圖形方式表示兩變項之間的關係,如年齡與答對機率。兩位亦是首先應用ICC的心理學者。Richard(1936)導出現代測驗理論理論參數與古典測驗項目指標間的關係,為IRT參數估計的最早方法。Lawley(1943,1944)提出新的參數估計方法,且對未來的Lord影響甚深。1945電腦誕生。Tucker(1946)第一位提出試題特徵曲線(ICC)概念的學者。Gulliksen(1950)提出真實分數(true score)模式概念,為古典測驗理論之濫觴。Lazarsfeld(1950)專攻態度測量,可能為最早使用潛在特質(latent trait)一詞的學者。Cronbach(1951)提出信度係數概念。Lord(1952)第一位導出兩個參數常態肩形模式(two parameter normal ogive model)的參數估計公式(),為第一位從事試題反應理論應用性的學者。其著作被視為是IRT的起源。Birnbaum(1957,1958)提出對數型模式(logistic model)的統計基礎。Rasch(1960)試題反應理論中Rasch模式的創始者。Wright(1967)在美國教育測驗服務中心(ETS)的測驗研討會上,演講Rasch Model編製而大受矚目,成為1970年代Rasch Model在美國測驗發展史上的催生者與領導者。Lord & Novick(1968)其著作為介紹古典測驗與當代測驗理論模式的經典作品,引發學者對潛在特質概念的重視與研究,並對現代測驗理論研究具有啟發作用。Wright &Panchapakesan (1969)美國地區第一篇介紹Rasch模式的參數估計法,並發展有名的BICAL電腦程式,此程式為Rasch Model應用時最重要的電腦程式。Samejima(1969)發表一系列作品描述新的試題反應模式及其應用,其中包含處理多分法與連續性資料的模式,甚至擴展到多向度的試題反應模式,為一艱澀難懂的重要著作。Bock(1972)提供許多估計模式參數的重要新概念,如:估計連續性類別資料的概念。Cronbach, Glaser, Nanda & Rajartnam(1972)提出推論力理論。Andersen(1973)歐洲地區談論測驗模式的重要著作。Lord(1974)發展新參數估計法。Fisher(1974)提出線性對數型模式(linear logistic model)。Bashaw, Lord, Marco, Rentz, Urry & Wright (1977)在教育測量季刊(Journal of Educational Measurement)第四季出版一冊專門探討試題反應理論的專輯。Baker(1977)第一篇評論試題反應模式參數估計法的文獻探討。Wright & Stone(1979)第一本描述各種Rasch模式理論及其應用的專書-最佳測驗設計(Best Test Design)。Lord(1980)出版試題反應理論在測驗的應用(Applications ofItemResponse Theory to Practical Testing Problems),此書為第一本以試題反應理論命名的專書,介紹IRT的發展與三參數模式的應用,是現代測驗理論發展的里程碑。Weiss(1980)第一本論電腦化適性測驗的論文集,專談試題反應理論的實際應用課題。Andersen(1980)對測量模式參數估計法有貢獻的方法學專論。Bock & Aitkin(1981)提出邊緣的最大近似值估計法EM估計程序,對參數估計法的改進貢獻不少。Masters(1982)第一位發表部份知識計分模式,對改進Likert式評定量表的計分與次序反應資料的計分貢獻不小。Wright & Masters(1982)闡述Rasch模式的各種模式成員,證明皆與部份計分模式相通,對Likert式評定量表與次序反應資料的計分方式改進不少。Mislevy & Bock(1982)發表另一有名的電腦程式:BILOG,可進行EM、JEM估計。Lord et al.(1982)修改完成第二版的LOGIST電腦程式,在使用上更加便捷。並於應用心理測量(Applied Psychological Measurement)期刊第四季,出版一冊專門探討試題反應理論及其應用的進階專輯。Wainer &Messick(1983)編輯而成的論文集,以表揚Lord一生對試題反應理論的貢獻,並兼論該理論的應用與未來。Weiss(1983)編輯而成的論文集,專談試題反應理論的應用與未來,並介紹它在電腦化適性測驗上的應用。Hambleton(1983)編輯而成的論文集,專談試題反應理論的模式與應用。Hulin, Drasgow, & Parsons(1983)為一本試題反應理論的教科書,增加對適合度測量概念的說明與應用。Embretson(1985)編輯而成的論文集,專談試題反應理論的未來發展。Baker(1985)為一本導論性的試題反應理論教科書,專為沒有數學訓練基礎的讀者而作,並附有CAI的電腦教學磁片。Hambleton & Swaminathan(1985)為一本進階的試題反應理論教科書。Crocker & Algina(1986)談論與比較古典與當代測驗理論的導論性教科書。Wainer & Braun(1988)專談有關效度方面的論文集,也談試題反應理論在效度上的應用。Linn(1989)負責主編第三版的教育測量(Educational Measurement),其中增加一章專門介紹並評論試題反應理論。Freedle(1990)專談人工智慧及其在當代測驗理論上應用之論文集。Suen(1990)介紹各種測驗理論方面的教科書。Wainer et al.(1990)專談電腦化適性測驗方面的入門書,也談試題反應理論在電腦化適性測驗上的應用。Hambleton, Swaminathan, &Rogers(1991)試題反應理論方面的入門書,解說淺顯易懂,適用於非數學主修的初學者閱讀。1991網路的誕生,此時的網路資訊僅靠文字傳輸。1994WWW(World Wide Web)誕生,使得資訊格式的傳輸突破限制,可傳輸文字、圖片與動態影音等檔案。網路化測驗的理念開始被實踐。(整理自Hambleton & Swaminathan,1985;余民寧,民80a;王寶墉,民84)二、基本假定相較於古典測驗理論的假定,試題反應理論亦有其不同的假定,以下就試題反應理論中的四項假定加以介紹(Hambleton & Swaminathan,1985):(一)單向度(unidimensionality):即試題是在測量某單一特質或能力,試題反應理論假定此潛在特質是單向度的。其意義可由圖2-1(1) 表示之,圖中平滑上升曲線為測驗成績對考生真實能力表現的迴歸線,能力愈高,成績也愈高,而曲線上的三個條件分配分別設定在、三個能力水平上,此分配意義表示相同能力學生,成績仍有高或低的不同,就整體受試者而言,試題之間為相互關連,故僅有一條迴歸線,亦即表示該測驗只有一個特質存在。而圖2-1(2)中的A、B、C分別位於不同的迴歸線上,可知皆分為測量不同的特質,顯然已是違反單向度的假定條件。圖2-1 單向度假定圖與非單向度假定圖(引自Hambleton & Swaminathan,1985,頁18)(二)局部獨立(local independence):指同一受試者在同一份測驗中,不同試題的作答反應是彼此相互獨立的,亦即受試者對於每道試題的作答情形不受他題影響。可以下列數學式表示:(三)知道-正確假設(”know-correct” assumption):在古典測驗理論和試題反應理論中皆假設受試者若知道試題答案,則必定會作答。(四)非速度測驗(nonspeedness):試題反應理論假設受試者作答是無時間限制的,亦即受試者在測驗中的未作答表現是因為不會作,而非時間因素所致。三、試題參數對數型模式與試題參數估計根據測驗資料的計分方式不同,其模式亦不相同,主要可分為三大類(Hambleton & Swaminathan,1985),如表2-3所示:表2-3 一般常用單向度模式之摘要資料特性模式二元計分資料潛在線性模式(Latent Linear Model)完全量尺模式(Perfect Scale Model)潛在距離模式(Latent Distance Model)單參數、雙參數、三參數常態肩形模式(One-, Two-, Three- Parameter Normal Ogive Model)單參數、雙參數、三參數、四參數對數模式(One-, Two-, Three-, Four- Parameter Logistic Model)多元計分資料名義反應模式(Nominal Response Model)等級反應模式(Graded Response Model)部分給分模式(Partial Credit Model)連續資料連續反應模式(Continuous Response Model)(整理自Hambleton & Swaminathan,1985,35頁)針對二元計分資料,常被使用的對數型模式可分為以下四類:(一)單參數對數型模式丹麥數學家George Rasch於1960年代設計出一種用以測驗分析(test analysis)的機率模式(probabilistic model),此模式又被稱之為Rasch Model其理論著重於考慮兩個因素的效應:1.考生能力,其值愈大表示考生能力愈佳;2.試題難度,值愈大表示試題愈難,故此模式被稱為單參數對數型模式,僅有難度參數(b),可以公式一表示之: 或 (公式一)其中:隨機取樣能力為之受試者答對第i題的機率:題目難度 D(scaling factor)1.7Rasch Model具有下列特性(王文中,民86),而這些特性僅是Rasch Model所獨有的,而二參數與三參數模式所沒有特性:1. Rasch Model所獲得的量尺具有等距特性。2. 明確客觀性:即試題難度與受試者能力彼此獨立,不相干擾,換言之,明確客觀性必須具備兩個條件:(1)若甲大於乙,則甲答對任何試題的機率都將高於乙;(2)若試題1比試題2困難,則對任何受試者而言,答對試題1的機率必定低於答對試題2的機率。任何的模式都能符合條件一,但是僅有Rasch Model能符合條件二的期望。(二)二參數對數型模式此模式除有難度參數(b)外,又加入鑑別參數(a),此模式乃是美國學者Birmbaum修改自F. M. Lord的原始雙參數肩型模式(normal ogive model)而來(Birmbaum,1968),其模式可以公式二表示之: 或 (公式二)其中:隨機取樣能力為之受試者答對第i題的機率:題目鑑別度 :題目難度 D(scaling factor)1.7(三)三參數對數型模式此模式除有難度參數(b)、鑑別參數(a)外,還有猜測度參數(c),大多用於選擇題型的測驗分析,因為選擇題容易發生猜測現象。其模式可以公式三表示之: 或 (公式三)其中:隨機取樣能力為之受試者答對第i題的機率:題目鑑別度 :題目難度:題目猜測度 D(scaling factor)1.7圖2-2為典型三參數模式之試題特徵曲線,當ICC斜率最大時,對應到能力量尺上的數值即為b值,由b點對應到曲線上的切線斜率為0.425ai(1-ci),而a表示試題之鑑別參數。由圖中可得知當受試者能力值為bi時,答對此道試題的機率為0.6。圖2-2 三參數模式之試題特徵曲線(資料引自:Hambleton & Swaminathan,1985,39頁)在試題反應理論(IRT)中,難度參數又稱為b參數,一般而言,b參數介於 - 之間,試題難度愈高,其b值則愈大,表示受試者答對此題的機率愈小,因此,題目的難度愈高,受試者所需的能力亦期望愈高。換言之,難度參數就是在能力量尺上的落點,故難度參數亦又稱為落點參數(location parameter);而鑑別參數可稱為a參數,理論上a參數亦介於- 之間,但負鑑別度值無意義,一般皆以0至2之間較多,其意義表示ICC(item characteristic curve)陡峭的程度,ICC愈陡,表鑑別度愈高,反之,則愈低,因此,鑑別參數又被稱為量尺參數(scale parameter);猜測參數又稱為c參數,是指試題反應曲線(ICC)落在左下方的漸近線,即為受試者在能力極低時,仍能答對試題的機率。c參數只出現於三參數理論中,而在單參數模式與二參數模式中皆假設受試者猜測力為0,即假設受試者的作答反應組型是不受猜測因素影響的。一般而言,c值愈小,試題愈能有效測出受試者的真實能力,多以0.3以下為選題目標(王寶墉,民84)。(四)四參數對數型模式高能力的受試者,並非總是能在每次測驗中都正確答對試題,有時候會因為一些不小心誤解題意或粗心,因而使得作答的答案出現錯誤,因而使得真正的答對機率無法達到原本期望中的1.0。因此,McDonald在1976年與Barton和Lord(1981)將此天花板效應納入模式中,修改三參數對數型模式為四參數對數型模式,亦即加入了 ,以取代三參數中的(1-c),如公式四所示(Hambleton & Swaminathan,1985):或 (公式四)綜合以上四種對數型模式分析,研究者在參酌本研究的目的下,考慮應用於成就測驗方面,單純僅以鑑別參數衡量測驗內容的優劣,以及做為能評斷受試者能力方面的考量,似乎無法提供充分訊息。若以三參數對數型模式為其分析模型,在猜測度參數部分,雖考量到受試者在填答選擇題時,不免受到猜測因素干擾作答反應,但本研究因基於受試者將誠實表現真實能力,不會填答者將以未作答方式呈現的假設前提下,故不需再考慮猜測因素對於本研究模型的影響。因此,決定採用二參數對數模式為本研究之理論基礎,其模式理論內容與公式,已於試題參數對數型模式理論中介紹,故不再贅述內容。四、試題參數估計IRT將試題視為是測量受試者能力的基本單位,並以試題參數來描述試題的特性(陳麗如,民87)。IRT的參數估計法有數種,包括:聯合最大概似估計法(joint maximum likelihood estimation,JMLE)、條件最大概似法(conditional maximum likelihood estimation,CMLE)、邊際最大概似法(marginal maximum likelihood estimation,MMLE)、貝氏估計法(Bayesian parameter estimation,BME)、概略法(approximation procedure or heuristic estimation)、最大後驗法(Bayesian modal or maximum a posteriori estimation,MAP)、期望後驗法(Bayesian mean or expected a posteriori estimation,EAP)、連續貝氏法(sequential Bayesian estimation)、加權概似法(weighted likelihood estimation)。綜合以上方法,最常被使用的就是最大概似法(MLE)和貝氏估計法(BME)(Lord,1980)。在進行試題參數估計時,若受試者的能力值為已知,則可使用最大概似估計法(maximum likelihood estimation,MLE)與貝氏估計法(Bayesian parameter estimation,BME)(Owen,1975)來估計試題參數;若受試者的能力參數與試題參數都是未知時,則可使用聯合最大概似估計法(joint maximum likelihood estimation,JMLE)、邊際最大概似法(marginal maximum likelihood estimation,MMLE)、最大後驗法(Bayesian modal or maximum a posteriori estimation,MAP)、期望後驗法(Bayesian mean or expected a posteriori estimation,EAP)等方法來同時估計(Hambleton & Swaminathan,1985)。JMLE的估計程序是先將試題參數a,b,c的起始值當成已知,用來估計能力值,再將估計出的能力值當成已知值,去估計試題參數,不斷進行疊代計算,直至估計值收斂至已知值為止。而MMLE則是將受試者的能力值設定為某項分配,經由積分計算得出試題參數,能力估計部分,則是在積分過程中以邊際概似函數(marginal maximum likelihood function)來表示其邊際值,求得此函數方程式的解,得到邊際最大概似估計值與試題參數值,該計算過程亦是不斷進行疊代計算,直至估計值收斂為止。Lord(1980)並針對以上估計方法結果提出比較說明,當試題約為40題,受試者人數在10002000之間時,MMLE與JMLE的估計結果是無差異的,但若當試題數為1015題時,MMLE的估計結果會較為精確。貝氏估計法、MAP與EAP皆是應用Thomas Bayes所提出的先驗分佈機率與後驗分佈機率的概念而來。Bayes的基本觀點是指任一未知參數都可視為隨機變量,可以用一個機率分布來描述,而這個分佈稱為先驗分佈,這些非樣本訊息主要來自於經驗和歷史資料。以上所述三種方法的主要差異在於分別採最大概似估計值、邊際最大概似估計值與期望值做為參數估計值。此外,貝氏估計法有常態後驗能力機率分佈的假定,另二者則無此限制。在Mislevy & Stocking(1989)研究中發現以貝氏估計法進行參數估計時,EAP會有較精確的估計結果。五、能力量尺參數估計在IRT模型中,最重要的就是對各項參數進行估計,除上述之試題參數外,還有受試者的能力參數待估計,當試題參數資料配合受試者反應組型的函數運算之後,即可推估受試者的能力參數。一般對於受試者量尺分數的估計多採用最大概似法(MLE)與貝氏估計法(EAP),一般被用來進行試題與能力參數估計的BILOG程式即內建三種方法(Mislevy & Bock,1993),以下茲將作簡單介紹:(一) 最大概似估計法(Maximum Likelihood Estimation,MLE)最大概似法將受試者的作答反應組型代入概似函數公式中,並以牛頓法(Newton-Raphson)進行疊代計算,以求得能力值的最大概似估計值。最大概似法對於第i個受試者的最大能力估計算式為:其中,是對第j道試題的最適反應函數由概似方程式解得:而由MLE估計所產生的誤差為:MLE雖然已於使用,且常被使用,但是必須注意在下列情況下,有使用上的限制(Hambleton & Swaminathan,1985;Hambleton, Swaminathan & Rogers, 1991):1. 當受試者的作答反應組型為全對或全錯時,此估計法將產生估計值無法收斂的情形,導致無法產生估計值;2. 當受試者的作答反應組型呈現異常情形時,疊代計算亦會產生無法收斂狀況;3. 當施測題目過少時,會產生較大的估計誤差。(二) 貝氏估計法(Bayes Estimation,或稱expected a posteriori,EAP)貝氏估計法的基本概念為能力值的後驗(posterior)機率分配是最大概似函數與能力值之先驗(prior)機率分配下的乘積(Owen,1975)。主要在觀察反應型態下,求得後驗分配的平均值,它能夠精確的估計猜測率(3PL中之c值),其對能力估計的公式如下:其中,是根據假設分配下的權重(weight)而由EAP估計產生的誤差稱之為後驗標準誤(posterior standard deviation,PSD),其估計值為:採用貝氏估計法的一大優點,在於可以解決受試者作答反應因全對或全錯而產生無法估計的情況,但是,它亦有不可避免的偏差存在,即雖可估計能力參數,但是會有迴歸效應(regression effect)產生,受試者的能力參數估計會有偏向先驗分配之平均數的趨勢,因而導致估計效果產生偏差(Weiss,1982)。而Ho & Hsu(1989)提出因貝氏估計法而產生的迴歸效應在試題愈少時,情況將會特別明顯。(三) 貝氏模型估計法(Bayes Model Estimation,或稱maximum a posteriori,MAP)此法類似於貝氏估計法,用於伴隨有某些較大平均誤的貝氏模型下,其對的最大估計為:其中,是的連續母體分配之密度函數求得的方程式為:而由EAP估計所產生的誤差為:六、試題作答反應資料的機率分配型態(一)Bernoulli Distribution & Binomial Distribution在教育測驗中,每一位受試者的每一道試題作答反應會有兩種結果,一是答對,另一是答錯,這樣的資料分佈型態可說是白努利分配(Bernoulli Distribution),即如: 改寫成機率型態即為:若將受試者能力定義為,則在第j道試題答對的機率為:反之,在第j道試題答錯的機率為:定義一:當在這種情況下,一個隨機變數(random variable)是白努利分配(Bernoulli Distribution)。根據以上的定義,則可說每位受試者在每份測驗中,所有試題的作答反應即為二項式分配(Binomial Distribution)。定義二:當在這種情況下,某些正整數
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业互联网平台网络安全态势感知技术安全态势感知与安全防护技术创新报告2025
- 2025年六盘水市重点中学八年级英语第二学期期中复习检测模拟试题含答案
- 制造业数字化转型数据治理策略与能源管理的优化报告
- 2025年元宇宙社交平台隐私保护与用户体验研究报告
- 社交媒体舆情监测与2025年危机公关技术应用研究指南与实践案例分析指南报告001
- 2025年单身经济下小型家电市场消费者购买偏好研究报告
- 2025年医药行业市场准入政策与监管趋势报告
- 2025年医药企业研发外包(CRO)与临床试验结果转化报告
- 2025年短视频平台内容监管与网络素养提升策略报告
- 2025年医药流通行业供应链优化与成本控制中的供应链协同效应提升策略报告
- 校长在2025暑假前期末教师大会上的讲话:静水深流脚踏实地
- 2025春季学期国开电大本科《理工英语3》一平台在线形考综合测试(形考任务)试题及答案
- 新22J01 工程做法图集
- 2024秋期国家开放大学本科《经济学(本)》一平台在线形考(形考任务1至6)试题及答案
- 2022-2023学年安徽省阜阳市高一下学期期末教学质量统测数学试卷(解析版)
- 消防改造工程技术标书模板
- 磷化膜质量评定项目与方法
- 贷款申请表(标准模版)
- 合理应用喹诺酮类抗菌药物专家共识精品课件
- 中医内科试题及答案 400题-高级职称(七)(过关必做)
- 在挫折中成长(课堂PPT)
评论
0/150
提交评论