测验与评量-嘉义大学

上传人：n*** IP属地：天津上传时间：2023-09-26 格式：DOC 页数：92 大小：4.56MB 积分：118 举报 版权申诉

已阅读5页，还剩87页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

測驗與評量重點總整理第一節測驗的基本概念壹、測驗的發展一、比奈(Binet)．近代智力測驗之父．奠定智力測驗編製的基礎。公認第一份智力測驗設計者。二、馮德(Wundt)．實驗心理學之父．創立第一個心理實驗室．奠定測驗程序標準化的基礎。三、高爾登(Galton)．個別差異的研究．相信感覺辨別可做為測量個人智力的方法。四、卡泰爾(Cattell)．美國人，創立「心理測驗」一詞五、桑代克(Throndike)．出版第一本教育測量的教科書．開創基本的測量理論與技術．首先運用成就測驗與普通能力測驗於大學入學評量．教育心理學之父。《題目補充》1. 下列何者在測驗上提出「萬物皆存於量中，存在於量中者都能測量」的說法？ (A)弗洛依德(S.Freud)(B)霍爾(G.S.Hall)(C)馮德(W.Wundt)(D)桑代克(E.L.Thorndike) (ANS：D)貳、測驗、測量、評定、評量一、測量(measurement)(一) 定義：根據量尺，用數字描述個人特質的歷程。(二) 方式：多半使用量化的數字來描述特質。如：身體 175公分、IQ130二、測驗(test)(一) 定義：狹義 –測量的工具；廣義 –測量的程序或歷程。三、評定(assessment)(一)定義：蒐集、統整和解釋訊息，以幫助教師所做成決定的一種歷程。(二)目的：蒐集訊息幫助教師做成如何診斷、回饋、安置學生或進行教學等決定。四、評量(evaluation)(一)定義：根據一項標準，對所測量到的數量做價值的判斷。(二)舉例：如80分，這數字本身無意義，但依據其能力，80分可列為優秀。參、測驗的種類一、認知測驗、情意測驗與動作技能測驗(一)認知測驗：綜合成就測驗、特殊成就測驗、診斷測驗(二)情意測驗：態度測驗、人格測驗(三)動作技能測驗：採實作測驗，輔以觀察、檢核表、評定量表二、標準化測驗與非標準化測驗(一)標準化測驗：有一定的編製程序，如試題取樣、計分標準、信度、效度、常模(二)非標準化測驗：依自己教學需要而編製，主觀，能考慮教學目標和班級個別差異，又稱：教師自編測驗三、選擇反應測驗與結構反應測驗(一) 選擇反應測驗：選擇題、是非題、填充題、配合題、解釋性習題。又稱客觀測驗。大部分的心理測驗均採此一類型(二) 結構反應測驗：簡答題、限制反應題、申論題、問答題。又稱補充型試題測驗、論文測驗。採用者有：主題統覺測驗、羅夏克墨漬測驗、托倫斯創造性測驗１四、常模參照測驗與標準 (效標)參照測驗 (依葛拉塞 Glasser分類)(一) 常模參照測驗 (NRT)：1、定義：測驗結果，根據測驗分數在團體中的相對位置而加以解釋的一種測驗。2、目的：目的在區別學生間的不同成就水準，並給予學生學習成就等第，強調鑑別力。3、優點：測驗範圍較廣，可做行政決策之用，如分班。4、缺點：無法知道學生那些會，那些不會。5、類別：月考、期末考、學科成就競試、大學聯考6、適合總結性評量、差異性大的團體(二) 標準參照測驗 (CRT)：1、定義：參考教學在教學前所訂定的標準，來解釋個別測驗分數是否達成這項既定標準的一種測驗。2、目的：瞭解學生已學會什麼?考驗學生的精熟程度，是否達到教師所期望的成就水準?而不是在與他人做比較。3、優點：能提出學生會那些及精熟成度。最適精熟學習法的測驗。4、缺點：測驗範圍較小5、類別：平時考、隨堂測驗、小考、診斷性評量6、適形成性評量、同質性高的團體7、此時，信度對於測驗的重要性很低。(要考慮的是否有效!!)《題目補充》2. 有關效標參照或標準參照測驗的敘述何者為正確？ (A)信度對測驗的重要性很低 (B)以團體平均分數作為比較基準(C)題目難度為中等偏難 (D)強調效標效度 (ANS：A)解析：A(1)理論上，信度係數受到團體的變異性所影響，團體的個別差異愈大，測驗的信度係數愈高。 (2)標準參照測驗只在區分精熟與非精熟，故變異性不會存在。既然變異性不存在，代表團體的個別差異不大，相對地信度係數愈低。這就是信度為什麼對測驗的重要性很低的原因團體平均分數應改成事前就訂好的標準中等偏難要改成中等偏易效標關聯效度指用測驗分數與效標之間的相關係數來表示測驗效度的高低，效標的意思是足以顯示測驗想測量的特質之參照標準，例如一項數學測驗，我們可以以學生平時的數學表現作為效標，再求學生在數學測驗的分數與其平時表現的相關，相關愈高就表示此數學測驗的效標關聯效度愈高。但標準參照測驗只在區分精熟與非精熟，所以可以看出標準參照測驗並不強調效標效度3.下列有關「標準參照測驗」的敘述，何者正確？(A)可以區分學生的成就水準(B)題目通常維持在中間難度(C)解釋結果的標準於教學前決定(D)測驗分數有較廣的範圍。(ANS：C)4.關於「常模參照測驗」和「標準參照測驗」的比較，下列何者為非？(A)前者多用於調查性的測驗，後者多用於精熟性的測驗(B)前者著重測量成就的個別差異，後著在描述個體能做的工作(C)前者涵蓋的內容較為有限，後者相較之下可評量廣大的各種知識和技能(D)前者多用來和別人的成就相比較，後者和具體明確的效標做比較。(ANS：C)5.下列何者是常模參照和標準參照測驗的主要區分依據？(A)答案計分的方式(B)作答反應的形式(C)測驗實施的安排(D)測驗結果的解釋(ANS：D)6.題目的鑑別度指數，若是標準參照測驗，那應該採取那一種檢驗的方式？(A)以高分組的答對率減去低分組的答對率(B)計算在答對與答錯的人與其個人總分的二系列相關(C)統計答對與答錯的人數及通過與未通過（以60分為準，分成「通過」與「未通過」）的人數，再求ψ相關(D)以精熟組的答對率減去未精熟組的答對率２(ANS：D)(選項(A)：鑑別度指標(D)＝高分組答對率－低分組答對率為常模參照測驗的鑑別度分析方式。至於標準參照測驗因為每題考生答對率通常在75%以上，若以「鑑別度指標(D)＝高分組答對率－低分組答對率」，則會造成鑑別度通常會很低，會被誤判為試題不良。所以考生所提的公式只適合常模參照測驗，不適合標準參照測驗。)7.下列哪一種測驗考試的性質是屬於「常模參照測驗」？(A)全民英檢(B)美語托福(C)汽車駕照(D)丙級技術士(ANS：B)8.下列關於常模參照測驗與標準參照測驗的比較，何者正確？(A)常模參照測驗強調學生能力比較，標準參照測驗強調學生能力描述。(B)常模參照測驗的內容範圍較窄，標準參照測驗的內容範圍較廣。(C)常模參照測驗需要測驗藍圖，標準參照測驗不用。(D)常模參照測驗的評量目標較具體，標準參照測驗多採用較抽象的評量目標。(ANS：A)9.下列何種測驗結果屬於常用在效標參照測驗？(A)答對百分比(B)百分位置(C)百分等級(D)標準九(ANS：A)五、個人測驗與團體測驗(一)個人測驗：同一時間內，只對一個人施測。(比西量表、魏氏智力測驗)(二)團體測驗：同一時間內，對多人施測。六、文字測驗與非文字測驗(一)文字測驗：以文字、語言來進行施測與回答。(二)非文字測驗：以實體操作來進行，如實作測驗。適合不同文化差異。七、最大表現測驗與典型表現測驗(由克朗巴哈Cronbach提出)(一)最大表現測驗：測量個人最佳反應或成就，如智力測驗、性向測驗、成就測驗。其結果受先天能力、實際能力、動機等三因素影響。(二)典型表現測驗：正常情況下所表現的行為，如人格測驗、興趣測驗、態度測驗、適應測驗。其結果與受試者是否誠實作答有關。八、速度測驗與難度測驗(一)速度測驗：題簡單，題數多，時間有限。(二)難度測驗：時間充裕，約90%的人能完成。九、客觀測驗與非客觀測驗(一)客觀測驗：計分有標準、有正確答案可遵循，如是非題、選擇題(二)非客觀測驗：無標準答案可遵循，主觀，如口試、投射測驗、論文測驗肆、測驗的功能一、教學評量的功能(一)瞭解學生的起點行為(二)確定教學目標達到的程度(三)做為改進教學的參考(四)評定學生的學習成果二、落實輔導諮商效能三、行政決定的功能(一)選擇決定的功能：大學聯考(有的人通過，有的人被拒絕)(二)安置決定的功能：分班(與選擇功能不同的是，安置決定，沒有拒絕任何人)(三)分類決定的功能：如性向測驗(四)課程與教育計畫決定的功能伍、良好測驗的特徵：效度、信度、常模、實用性一、效度３(一)指測驗的正確性，亦即指測驗能夠測量到它所欲測量之特質的程度，或是指測驗能達到其目的的程度。(二)在選擇測驗或自編測驗時，首先應考慮測驗的效度是否良善。(三)效度係數介於0到1之間，最好是大於0.8。二、信度(一)指測驗的可靠性，包含測驗分數的穩定性與測驗內容的一致性。(二)信度係數介於0到1之間，最好是大於0.8。(三)信度是效度的必要條件。三、常模(一)測驗的結果，需藉助常模來加以解釋才有意義。(二)基本界說：指某特定團體在某一測驗上得分的平均數。四、實用性(一)經濟：易於取得所需的測驗。(二)容易實施(三)容易計分、解釋和應用《題目補充》1.有關「最大表現測驗」與「典型表現測驗」的陳述，以下那一個正確？(A)成就測驗屬典型表現測驗(B)興趣測驗屬典型表現測驗(C)人格測驗屬最大表現測驗(D)態度量表屬最大表現測驗。(ANS：B)2.下列哪一個測驗屬於最大表現測驗？(A)柯氏性格量表(B)語文性向測驗(C)職業興趣量表(D)幼兒人格量表。(ANS：B)3.將測驗分成最大表現測驗與典型表現測驗(A)克朗巴赫(B)奧斯古德(C)里克特(D)莫雷(ANS：A)4.「最大表現測驗」指的是：(A)人格測驗(B)職業興趣測驗(C)學業成就測驗(D)認知風格測驗(ANS：C)5.下列的測驗何者屬於「典型表現測驗」(typicalperformancetest)?(A)工作價值觀量表(B)比西量表(C)區分性向測驗(D)創造思考測驗(ANS：A)6.有關信度、效度關係之敘述，下列何者正確？(A)信度高，則效度也高(B)無信度，亦可能有效度(C)信度是效度的充分條件(D)信度不高，則效度亦不高。(ANS：D)7.效度是測驗的最重要特徵，有關效度的特性，何者有誤？(A)效度無法直接測量，但可從其他資料推論(B)效度的判斷主要是依據測驗方法(C)效度是程度上的差別，而非全有或全無的問題(D)效度在使用的目的和情境方面具有特殊性。(ANS：B)8.信度與效度是測驗的特徵，下列信度與效度的關係何者正確？(A)信度低，效度不一定低(B)信度高，效度一定高(C)效度高，信度一定高(D)效度低，信度一定低(ANS：C)9.以下有關信度的敘述，何者錯誤?(A)信度係指測量結果的一致性(B)信度是效度的充分條件(C)測驗題數越多，信度愈高(D)再測信度高於複本信度(ANS：B)４第二節測驗的基本原理○當測驗是有效的、可信的而且是精確時，我們才需要認真地考慮使用測驗的結果。壹、信度一、信度的涵義(一)一致性：多次測驗，結果趨近一致。(二)誤差性：誤差比例小，真實特質所占比例高。(三)在實得分數的變異量中，有多少百分比的變異數是可以被真實分數的變異數所解釋得到。如當信度係數0.90時，可解釋為在測驗實得分數中，有90%的變異量是由於測驗所欲測量的真實特質所造成，10%是由測量誤差所造成的。(四)沒有一個測驗是「完全」可靠的，也就是說沒有完全的信度。信度只是程度上的差別而已。(五)一分優良的教育測驗至少應該具有.80以上的信度水準。二、信度的原理(一)實得分數=真實分數+誤差分數1、實得分數變異量=真實分數變異量+誤差變異量2、真實分數變異量=有效變異量+無關變異量3、誤差變異量：因情緒變化、猜答、筆誤、計時不正確而造成的成績誤差。隨機產生，無法預測。4、無關變異量：與測驗目的無關，如因受試者對題目及作答方式的不熟悉，所造成的誤差。5、真實分數又稱為普遍性分數(二) 誤差：1、系統誤差：學生的學習、訓練、遺忘與生長，是一種固定、一致的方式影響測驗分數高低的測量誤差。稱為偏誤(biasederror)2、非系統誤差：隨機、沒有規則、不可預測的方式，在不同情境中，隨時影響不同學生的測驗分數，如：學生的身心狀況(動機、情緒、態度、意願)、施測情境(光線、噪音)和測驗試題(抽樣、計分、解釋)。稱為隨機誤差。(三) 公式1、信度 =真實分數變異量 /實得分數變異量2、信度係數沒有負值。三、信度的類型：極常考 !請注意!○ 測量標準誤：相同的測驗重覆測驗單一受試者多次，分析受試者本身內在的變異。例：某生在一智力測驗上得到 IQ130，該測驗的信度為 .96，標準差為 15，則某生的真實 IQ有95.44%的機會落在下列哪一項分數之間？ (A)118-141(B)121-139(C)124-136(D)127-133()測量標準誤=測量標準差×=15×=3按照常態分配，95.44%的範圍剛好是平均值上下各兩個標準差所以此題下限=130-3*2=124，上限=130+2*3=136○相關係數：使用相同的測驗測驗一群受試者二次，根據他們的分數在團體中的相對位置，分析受試者相互間的變異量。(一) 常模參照測驗的信度分析 (再測法、複本法、內部一致性法、評分者法 )1、再測信度：估計測驗分數是否穩定最直接的方法定義：同一份測驗在不同時間對相同學生前後重複測量兩次，並根據這兩次測量分數求得相關係數，這係數即稱作重測信度係數。５別稱：穩定係數、重測信度(3)誤差來源：時間誤差，相隔時間越長，信度愈低，相隔時間越短，信度越高。(1-2週最為恰當)優點：A、適合動作技能方面的測驗B、沒有內容抽樣誤差缺點：A、所估計的信度偏高，通常比複本信度高B、受「練習效應」和「累積性的成長」影響，分數有提高的傾向。C、不適合認知和情意方面的測驗。2、複本信度：定義：兩份在試題格式、題數、難度、指導語說明、施測時限和例題等方面均相當，並且都用來測量相同潛在特質或屬性，但試題內容卻不相同的測驗。特點：A、常根據雙向細目表，於同一時間分別獨立編製而成。B、同一份測驗可以有好幾份複本。C、誤差來源：內容抽樣誤差。施測方式：A、同一時間連續施測：又稱等值係數，誤差來源：內容抽樣誤差。B、隔一段時間施測：又稱穩定且等值係數，誤差來源：時間誤差、內容抽樣誤差。是估計信度最嚴謹的方法之一。缺點：A、複本測驗的編製不易，費時、成本高，所以多數的測驗沒有複本。B、測量易受練習影響，即使採用複本法，影響只能減少，但無法完全避免。重測與複本的差異重測信度複本信度主要誤差來源時間誤差內容抽樣誤差內容抽樣、時間誤差別稱再測信度、穩定係數複本連續施測複本隔一段時間施測等值係數穩定且等值係數使用時機做長時間的預測推論某人在某一領域具有的知識程度3、內部一致性信度：以題目與總分的相關為指標折半法(折半信度)A、定義：利用單獨一次測驗結果，以隨機方式將其分成兩半，再求出這兩半測驗結果間的相關係數，這種相關即稱為折半相關。B、誤差來源：內容抽樣C、缺點：a、低估原來長度的測驗信度，想要了解未折半之信度，將題目倍數 n設為2，代入公式即可。b、對於難度偏低的試題，所求得之信度會偏高，需啟用重測法D、校正方法(Spearman–Brown)：斯布公式例題：若某一心理測驗共有 20個項目，其信度是 0.6，要增加多少項目，才能使測驗信度變為 0.75６rxx =重新估計後的信度=原先的信度=增加題目的倍數故本題的解，是增加為原來兩倍的題目，即再增加20題。庫李法(K–R法)：庫德和李查遜提出A、定義：依據學生對所有試題的反應後，分析試題間的一致性，以確定測驗中的試題是否都測量到相同特質或相同單一能力的一種信度估計方法。B、基本假設：a、試題的計分是使用「對或錯」的二元化計分方式 (是非題)b、試題不受作答速度的影響c、試題都是同質的，亦即都測量到一個相同的因素。C、誤差來源：內容抽樣誤差D、同質性與異質性：a、同質性：題目中只含一種概念，如僅測加法。b、異質性：題目中，含多種概念，如加減乘除的四則運算。c、同質性越高的題目，所測得的信度將越高。E、最常用的為庫李 20及庫李 21號公式。a、KR-20如果假設測驗題目的每題的困難度都相同，亦即測驗中每題答對與答錯人數百分比的乘積都相等，則可以用庫李 21號公式求得信度係數。b、KR-21庫李20與21號公式的差別就是對題目困難度的假設不同，當所有題目的困難度都相等，則兩個公式所計算出來的信度係數相同，如果題目困難度不一，則庫李 21號公式所計算的信度係數會比 20號公式要來的低 (Crocker&Algina,1986) 。(3) Cronbach α係數(克朗巴賀提出 )A、適用於多元計分方式的評量，如選擇題。B、誤差來源：內容抽樣的誤差C、是所有信度估計的下限，亦即真正的信度，一定比它高。D、庫李法與α法的基本限制a、僅適用於難度測驗而不適於速度測驗，因有高估的傾向。b、無法反映時間取樣對測驗分數的影響，而只能指出內容取樣和內容差異的誤差。4、評分者信度：(1)屬主觀判斷的，缺乏客觀的評分標準。(2)誤差來源：評分者誤差(3)評分者信度的估計方法：A、從測驗中抽樣，單獨由兩位評分者 (或若干位)對每一位試卷評分。B、根據所評分數求相關a、等級、等第分數：如甲、乙、丙，採用 Spearman等級相關係數。b、連續性分數：如 85分，、90分，採用 Pearson積差相關。７c、等級分數，評分者超過二位：採Kendall和諧係數。d、連續性分數，評分者超過二位：採Hoyt變異數分析。評分者人數二名二名以上名斯皮爾曼(等級資料)評次肯德爾和諧係數等級相關係數分法方分皮爾遜變異數分析(等距資料)式數(Hoyt法)積差相關係數法估計評分者信度可用的統計方法《補充評分者的各種效應》評分者因素常見者為：評分標準不一、分數分配不同及分數的變異程度大。造成這些因素的常見原因為：1.月暈效應：學生在其他方面的表現，會影響閱卷者對他寫作能力的評分判斷2.項目間的遺留效應：考生前一題的作答情形，會影響評分者對他下一題的評分3.試卷間的遺留效應：在連續低劣試卷之後被評分，分數往往較高；在連續優良試卷之後被評分，分數往往較低。4.次序效應：評分者給分會出現溜滑梯效應，較早批閱的分數較高，晚批閱的分數較低。5.文字操作效應：教師評分時無法單就內容評分，會受到錯別字、標點、文法、筆跡、字數的影響，如果錯字連篇、筆跡潦草、篇幅過短都不易獲得高分。教師在批閱論文題時，常因學生在第一題的表現而影響第二題的評分。下列何者最符合這種效應？(A)月暈效應(haloeffect)(B)溜滑梯效應(slideeffect)(C)文字操作效應(languagemechanicseffect)(D)遺留效應(carryovereffect) (ANS：D)當評分者對受試者進行評定時，由於受到與評定特質無關之印象，影響到給分的判斷，係屬下列何種效應？ (A)月暈效應(B) 遺留效應(C)次序效應(D) 苛刻效應 (ANS：A)《題目補充》1.計算評分者信度的統計方法中，當評分方式是採名次法，且評分者人數在2名以上時，下列何種方法較為合適?(A)Hoyt法(B)肯德爾和諧係數(C)皮爾遜積差相關係數(D)斯皮爾曼等級相關係數(ANS：B)2.林老師想了解學生成績及格與否和學生兩種不同入學方式(申請與基測)的關係，則應以何種相關係數表示?(A)績差相關(product-momentcorrelation)(B)等級相關(rank-ordercorrelation)(C)Phi相關(phicorrelation)(D)直線相關(linearcorrelation)(ANS：C)(Phi相關(phicorrelation)：適用於兩變項都是二分名義變項)3.如果兩個評分者評出來的分數資料都是等級的，那麼求信度係數時應該求什麼相關？(A)積差相關(B)等級相關(C)二系列相關(D)肯德爾和諧係數。(ANS：B)4.測驗手冊中所呈現的再測信度和複本信度之係數為：(A)類別相關係數(B)二序列相關係數(C)等級相關係數(D)積差相關係數(ANS：D)(重測跟副本都是兩份測驗(只是相同或不同測驗的分別)，計算"兩份"測驗之間的相關，而且每一份的分數都是連續的(例如1~100)，既然是兩份又是連續，當然符合積差相關的定義)5.如果兒童智商與數學成就測驗分數的積差相關係數r=.80；則智商對數學學習成就的預測力大約是(A)40(B)20８(C)80(D)60(ANS：D)6.某教授為了驗證其「自編憂鬱量表」之效度，採用已經廣泛使用的「貝克憂鬱量表」總分與「自編憂鬱量表」得分之皮爾森積差相關係數來驗證，此作法稱為下列何者？(A)區辨效度(B)聚斂效度(C)內容效度(D)效標關聯效度(ANS：D)7.比較適合用傳統求Pearson積差相關的方法，做信度估計的是(A)效標參照測驗(B)常模參照測驗(C)各項技能檢定測驗(D)各項事實普查測驗。(ANS：B)8.在考驗研究工具的信度時，如果填答方式是採用李克特式填答方法，必須採用哪一種考驗方式？(A)庫李信度(B)克朗巴赫(Cronbach)α係數信度(C)重測信度(D)複本信度。(ANS：B)(在教育測驗中，有許多測驗的計分是屬於多元計分的方式，尤其是情意方面的測量，測驗學者常用「李克式五點評定量表」，像類似此種方式計分的測驗，就必須採用克朗巴賀(Cronbach)所發表的α係數)最常用來估計態度量表的信度係數之方法為何？(A)Rulon信度(B)Cronbach信度(C)Kuder-Richardson信度(D)Flanagan信度(ANS：B)10.教師編一份測驗，如果是以李克特(Likert)五點計分的方式來計分，那在求信度係數時會採用那一種方法？(A)庫李法(B)折半法(C)Cronbachα係數(D)相關法(ANS：C)11.多重記分的測驗，如態度量表，其信度證據宜以何種方式評估？(A)庫李信度(B)克朗巴賀α係數(C)複本信度(D)重測信度(ANS：B)12.哪一種方法最適合檢測羅夏克墨跡測驗的信度？(A)重測法(B)折半法(C)庫李法(D)評分者相關。(ANS：D)13.必須利用斯布公式校正的信度方法是哪一種？(A)重測法(B)複本法(C)折半法(D)庫李法(ANS：C)14.估計測驗信度的各種方法中，哪一種最容易受練習和記憶的影響？(A)折半方法﹙B﹚庫李方法(C)評分者方法(D)複本方法(ANS：D)15.下列何者不是一份測驗經施測一次資料所求的信度？(A)重測信度(B)庫李信度(C)折半信度(D)α係數信度。(ANS：A)下列哪一個信度「不屬於」內部一致性方法？(A)複本方法(B)折半方法(C)庫李方法(D)alpha係數(ANS：A)陳老師接受學校要他辦理以國小四年級為主要參加對象的奧林匹克資優學生自然科學營活動，試問陳老師在甄選學生時所選用的測驗應優先考慮哪一信度？(A)內部一致性係數(B)庫李係數(C)評分者間信度(D)再測信度(ANS：D)(穩定性量數為再測信度，適用於動作技能測驗及性向測驗上)18.以折半法估計信度，是為了顯示信度測量的哪一種性質？(A)穩定性(B)等值性(C)一致性(D)正確性(ANS：C)19.速度測驗的信度適合用何種信度的估計方式？(A)α係數(B)複本信度(C)折半信度(D)庫李信度。(ANS：B)20.Cronbachα係數在建立下列何種信度時最常被使用？(A)內部一致性係數(B)複本信度(C)評分者信度(D)再測信度(ANS：A)21.動作與人格測驗比較適合何種信度？(A)重測信度(B)複本信度(C)折半信度(D)庫李信度。(ANS：A)22.下列哪一種信度所計算出來的係數，又可稱為「穩定係數」？(A)複本信度(B)折半信度(C)庫李信度(D)再測信度(ANS：D)23.下列有關信度的敘述何者不正確？(A)在其他條件相同的情況下，一份測驗的題目愈多，信度愈高(B)複本延宕的信度係數會比再測信度的係數來的低(C)團體的異質性小，即每個人的表現大致相同，信度愈低(D)想要有可比較的測驗應該使用折半信度。(ANS：D)24.下列哪一個信度「不屬於」內部一致性方法？(A)複本方法(B)折半方法(C)庫李方法(D)alpha係數９(ANS：A)25.在編製標準化測驗工具求信度係數時，下列那一個信度係數是可以以一次測驗即可求得的？(A)重測信度係數(B)穩定係數(C)等值與穩定係數(D)庫李信度係數(ANS：D)26.某教師自編數學科測驗20題，信度係數.50，如果該學科測驗再增加40題，信度係數變成多少?(A)0.55(B)0.65(C)0.75(D)0.85(ANS：C)(有60題，為原來的三倍，所以n=3。3*0.5/(1+(3-1)*0.5)=3/4=0.75)27.若某一心理測驗共有20個項目，其信度是0.60，要增加多少項目才能使測驗信度變成0.75?(A)40題(B)10題(C)30題(D)20題(ANS：D)(r=20+20/20=2，2*0.6/1+(2-1)0.6=0.75，所以D=20是答案)28.評分者間信度適合用下列何種指標表示？(A)α係數(B)肯德爾和諧係數(C)庫李20係數(D)庫李21係數(ANS：B)29.在目前電腦科技發達的時代，下列哪一種信度係數不應該被用來作為主要的信度證據？(A)α係數(B)折半信度(C)KR20(D)KR21(ANS：D)30.如果一份包含40個題目的測驗，其信度為0.70﹔若欲將其信度提高為0.78，則新的測驗將會有幾題？(A)20(B)40(C)60(D)80(ANS：C)31.在傳統的測驗理論中，一個測驗的信度若為0.8，則測量誤差之變異量占總變異量的多少百分比？(A)20(B)40(C)64(D)80。(ANS：A)32.一研究者如欲了解其研究工具所測量之結果在時間上是否具有穩定性，下列何種信度係數應是她最關心的？(A)兩個半測驗分數的相關，再經由斯布公式校正後所得到的折半信度係數(B)庫李信度係數(C)同實施測得到的複本信度係數(D)重測信度係數。(ANS：D)33.在變項之關聯上，下列哪一個積差相關係數代表變項間之關係最為密切？(A).90(B).10(C).10(D).80。(ANS：A)(相關係數數字越大代表變像關係越密切，+或-表示的是正相關或負相關而已)若一份測驗的信度係數為.80，該測驗原來的題數是30題，現在擴增為60題，依據斯布公式(Spearman-Brownformula)校正，則信度係數會變成多少？ (A).85(B).87(C).89(D).91 。 (ANS：C)5、各種信度係數及其誤差來源信度類型信度的涵義主要的誤差來源再測信度同一份測驗的兩次測量結果間的相關係數時間抽樣複本信度兩份複本測量間的測量結果的相關係數，連續施測。內容抽樣兩份複本測量間的測量結果的相關係數，隔一段時間。時間抽樣與內容抽樣內部一致性信度同一測驗的測量結果內各試題間的相關係數內容抽樣與內容異質折半信度測驗試題分成兩半，這兩半間的相關係數內容抽樣庫李信度試題間的同質性或反應一致性程度的關聯性指標。內容抽樣與內容異質α係數試題間的同質性或反應一致性程度的關聯性指標。內容抽樣與內容異質評分者信度各評分者間或各評分者內之評分結果的相關係數評分者誤差6、計算題舉例：(1) 某成就測驗提供下列心理計量訊息：等值穩定係數 0.75、α係數 0.80、評分者信度 0.70、折半信度0.90，則時間取樣之誤差來源的比率為多少 ?解：１０a、等值穩定係數即複本信度之一種，誤差來源為：時間誤差、內容抽樣誤差b、折半信度的誤差源源：內容抽樣誤差c、1–0.75=0.25，即時間誤差及內容抽樣誤差的比例d、1–0.90=0.10，即內容抽樣誤差的比例e、0.25–0.10=0.15，即時間抽樣的誤差比例。(2)某成就測驗提供下列心理計量訊息：等值穩定係數0.80、α係數0.85、評分者信度0.70、折半信度0.90，則內容取樣之誤差來源的比率為多少?解：a、折半信度的誤差源源：內容抽樣誤差b、1–0.90=0.10，即為內容抽樣誤差(二)效標參照測驗的信度分析，驗證的方法如下：1、百分比一致性指標(簡稱P，100年中區考過!!)定義：指分析前後兩次分類決定結果是否為一致的一種統計方法，並以百分比的和來表示。缺失：常有高估的現象。(3)範例：針對50名學生施測英文，採甲、乙二複本，或同一分測驗分前後測。並以正確率80%做為精熟的標準。測驗甲(或前測)精熟非精熟精熟30a3b33(a+b)測驗乙2c15d17(c+d)非精熟32(a+c)18(b+d)50因為是要評斷是否一致，所以選一開始就精熟，後來也精熟的30人，及一開始不精熟，後來也不精熟的15人。30+15=45，45/50=90%。所以一致性達90%，即信度為.90。2、K係數定義：評分者實際評定為一致的次數百分比，與評分者在理論上評定為一係的最可能次數百分比(經校正誤差後)的比例。須與PA搭配使用《題目補充》苗栗縣進行國語文競賽，要從參賽者當中選出最優秀的前三名，大會請來兩位裁判評分，請問對參賽者而言，兩位裁判哪一種評分者的信度指標較為重要？(A)相關(B)符合度(C)Kappa係數(D)可靠性係數。(ANS：A)2.效標參照測驗的信度適合下列何者表示之？(A)折半信度(B)百分比一致性(C)再測信度(D)預期表(ANS：B)3.根據下表資料，請問百分比一致性係數計算結果為何？(A)0.8(B)0.85(C)0.86(D)0.9(ANS：A)(PA=48/100（精熟）+32/100（非精熟）=0.8)精熟非精熟（甲卷）（甲卷）精熟（乙卷）(A)48(B)1260非精熟（乙卷）(C)8(D)3240(E)56(F)44100１１四、影響信度的因素(一) 試題題數(測驗的長度)：題數越多，信度越高。(二) 樣本能力分配 (團體分數的變異程度 )：異質性越高，信度越高。(三) 試題難易程度：難度適中，測驗分數分佈大，信度較高。(四) 測驗評分的客觀性：評分越主觀，信度越低。(五) 信度的估計方法為確定所有試題是否都有測量到相同的潛在特質，有兩項方法：○用不同方法所估計出來的信度係數，因為所含的誤差變異量來源不同，所以不能互相比較。○ 信度分析是建立在所有試題均測量相同潛在特質的假設。1、因素分析法：分析測驗是否具有–單向度因素；因為單向度因素最足以解釋測驗變異數總量，使測驗分數最具有可信度。2、鑑別度分析：教師可以求個別試題和測驗總分間的相關係數，反應出試題與測驗的作用是否為同方向，亦即，該試題是否與該測驗均測量同一個潛在特質。○當教師自編測驗信度偏低時的補救方法：增加試題或刪除不良試題、校正相關係數五、信度係數的解釋與應用(一) 理想的信度係數1、信度高低的比較：α係數是最下限，評分者信度是最上限，內容一致性較複本高。2、各測驗適用信度類別：性向測驗：穩定性係數(重測信度)成就測驗：等值係數(複本信度)人格測驗：內部一致性係數興趣測驗：穩定係數(重測信度)(二) 測量標準誤1、測量標準誤的意義用同一個測驗測量一個人無限多次，這無限多次的成績形成一常態分配，此一常態分配的標準差：測量標準誤。用在解釋個人測驗分數的可靠性。測量標準誤的大小受此測驗信度係數及測驗標準差的影響信度係數不變時，測驗分數標準差愈大，則測量標準誤便愈大。當測驗標準差固定時，信度係數愈高，測量標準誤便愈小。(6) 當信度係數為 1時，測量標準誤等於 0，當信度係數為 0時，測量標準誤等於測驗分數的標準差。2、測量標準誤的應用用他來解釋個人測驗分數的意義：分數的可信範圍。(2) 用他來比較不同測驗分數的差異： IQ100與IQ103因在測量標準誤內， 103未必比100來得高。《題目補充》1. 根據古典測驗理論，真實分數與誤差分數之間，一般均假設成下列何者？ (A)零相關(B)1(C)-1(D)常態分配(ANS：A)１２2.測驗觀察分數及誤差分數的變異數分別是150及30，那該測驗的信度是多少?(A)0.25(B)0.50(C)0.60(D)0.75(E)0.80(ANS：E)(信度=(有效變異數+無關變異數)/總變異數=(總變異數-誤差變異數)/總變異數，150-30/150=0.8)3.在測驗分數的解釋上，若要推測個人真實分數的可信範圍，則須加以計算(A)重測信度(B)評分者信度(C)測量標準誤(D)估計標準誤。(ANS：C)4.表示某一測驗真實分數與觀察分數間關係程度的相關數值為下列何者?：(A)信度指數(B)信度係數(C)效度係數(D)效度指數(ANS：A)(信度指數=主要關心真實分數與實得分數的符合程度，二者間相關。信度係數=真實分數的變異量佔實得分數的總變異百分比)5.測量標準誤的主要用途為(A)推測真實分數的可能範圍(B)瞭解測驗結果的一致性(C)分析測驗內容的偏差(D)推估測驗結果的預測力。(ANS：A)6.表示某一測驗的真實分數與觀察分數間關係程度的相關數值，為下列何者？(A)信度係數(B)信度指數(C)效度係數(D)效度指數(ANS：B)7.萱萱接受數學標準化成就測驗後獲得的分數為82分，已知此份測驗的測量標準誤為5，萱萱的真實分數為77～87分的可能性有多少？(A)68%(B)75%(C)95%(D)99.7%(ANS：A)8.有關影響信度的因素，下列說明何者正確？(A)測驗的長度並不會影響信度(B)在其他條件相等的情形下，團體的變異性愈大，其信度愈低(C)難易適中的測驗，可使測驗分數的分佈範圍變大，而提高測驗的信度(D)論文式的試題比選擇題型式的試題，信度較高。(ANS：c)9.下列有關信度的敘述何者錯誤？(A)試題的數量會影響信度的大小(B)受試者得分異質性會影響信度的大小(C)試題的難度會影響信度的大小(D)不同的信度估算方法不會影響信度的估計值大小(ANS：D)10.系統誤差會造成何種影響?(A)對效度有影響，但不影響信度(B)對信度有影響但不影響效度(C)對信度效度都有影響(D)對信度效度都沒影響(ANS：A)11.下列何者不會影響動作測驗的重測信度？(A)受試者生病(B)測驗情境的變化(C)受試者的情緒(D)測驗題目的難度。(ANS：D)測驗實施過程中，以下何者『不』是影響信度的因素(A)測驗的實施程序(B)測驗的長度(C)測驗的難度(D)團體的變異性。(ANS：A)13.下列哪一種誤差不是信度所關心的？(A)試題對男生比較有利(B)運氣好而猜對(C)考場環境吵雜影響測驗表現(D)睡眠不足考試時無法集中注意力。(ANS：A)14.受試團體在測驗分數的差異越大，其信度越如何？(A)越高(B)越低(C)不一定(D)沒有影響(ANS：A)15.某教師自編數學科測驗20題，信度係數.50，如果該學科測驗再增加40題，信度係數變成多少?(A)0.55(B)0.65(C)0.75(D)0.85(ANS：C)(有60題，為原來的三倍，所以n=3。3*0.5/(1+(3-1)*0.5)=3/4=0.75)16.不同類型信度的區別為何？(A)測驗對象(B)內容結構(C)誤差來源(D)抽樣方法(ANS：C)17.以標準化測驗而言，以下哪一種因素不會降低測驗結果的效度？(A)給予不必要的說明(B)計分錯誤(C)主試者未按測驗指導手冊之規定來實施測驗(D)測驗的長度不足。(ANS：D)18.下列信度係數估計方法中，何者性質與其他三者最為不同？(A)重測信度(B)Hoyt的信度係數(C)庫李信度(D)數。(ANS：A)貳、效度一、效度的涵義１３(一)測驗分數的正確性：指測量能夠正確地測量到它所想要測量的潛在特質的程度。(二)效度無法直接測量，但可從其它資料推論。(信度可直接測量)(三)效度的判斷，主要依據測驗分數的使用目的，或測驗結果的解釋。(四)效度是屬於測驗的結果，而非測驗工具本身。(信度則是工具本身)(五)效度是程度問題，非有無的問題(六)是特殊性的，非普遍性的。二、效度的原理(一) 變異數分解中，共同因素的變異量占總變異數的比率，即為效度。(二)效度即指某個測驗和其它測驗(外在效標)所共同分享的變異數部分，占該測驗總變異數的比率。三、效度的類型(一) 內容效度(又稱：取樣效度、邏輯效度 )1、涵意：測驗的試題能否適切地測到此測驗編製目的上，所要測的內容或行為。(2)檢驗一份成就測驗的題目，是否涵蓋整個教材，可用：內容效度。(成就測驗最適合內容效度)(3)確定學生目前對於測驗中所呈現的代表性樣本的表現程度。如：給學生做一個英語成就測驗，教師可以確定學生目前的英語成就水準。欲逹此目的，所關心的效度為內容效度。2、驗證內容效度的方法(1) 邏輯的分析方法：使用雙向細目表(2) 實證的分析方法(3) 雙向細目表的二個向度：教材內容、教學目標 (認知層次)3、用途內容效度最適用於教育測驗，尤其是成就測驗。因為他可解釋：A、測驗是否涵蓋特定的知識或技能的代表性樣本。B、測驗成績是否不受無關因素的影響。C、成就測驗具有獨特的教材內容和學習經驗，測驗內容從中選擇出來，較易從事邏輯的分析和合理的判斷。不適心理測驗。(二) 效標關聯效度1、涵義：實證分析方法研究測驗分數與外在效標間關聯性的一種指標，又稱為「實證效度」或「統計效度」。(拿自己的測驗與外在的效標進行比較，求其相關程度 )2、效標關聯效度的種類 (同時效度、預測效度 )同時效度(與目前現有的測驗結果相比)A、定義：把設計好的題目，和標準工具（同樣的觀念，相同的變項），去算之間的相關。如：測疼痛忍受度，有四題一分鐘可測完的題目，和另一份標準工具的題目， 45題1小時可做完的題目去測，如果 R＝0.92（高相關），表示原題目有同時效度。B、目的：在利用測驗分數估計個人與外在效標方面的相關情形。C、缺點：易發生效標混淆的現象D、舉例：a、測驗公司新編國三數學成就測驗，該公司從台南市隨機抽取 30班國三學生進行施測，並計算測驗分數與學生學校數學月考成績的相關係數，該相關係數屬於下列哪一種的效度証據 ? 同時效度b、某測驗診斷學生的學習問題與該學期老師的判斷相符合，這是這個測驗的哪一類證１４據？同時效度預測效度(未來成就)A、定義：指測驗分數與實施測驗後一段時間所取得的效標之間的相關。B、目的：利用測驗分數預測個人在外在效標方面的未來表現情況。C、舉例：教師甄試的性向測驗。職前性向測驗。3、效標的特徵：效標的特徵：A、適切性：能反映出測驗所欲測量的重要特徵。B、可靠性C、客觀性(評分者受影響而給予低分 –效標混淆。 )D、可用性(2) 常用來做為效標關聯效度考驗的效標A、學業成就B、特殊化的訓練成績 (此成績為中間效標，僅代表工作成功的部分效標 )C、實際工作表現 (此為終點效標，是最理想的效標 )D、對照團體E、相關人員的評定F、精神病學的診斷G、先前的有效測驗：如比西量表常被作為新編測驗的效標，所求得的效度也可稱為同時效度。4、預期表：建立預期表時，人數太少時，誤差更大。5、使用的注意事項留意效標關聯效度產生變化的原因留意外在效標的涵義留意適當的樣本大小：交叉驗證的重要性。留意效度推論的證據：推論力，一局部性樣本所做出的度度研究，能否類推到全體樣本或其它樣局部樣本。(三) 建構效度 (極常考!!重要!!)1、涵義：(1) 推論學生具有某些特質的程度。如：給學生做一個記憶力測驗，而用以推論學生的學業性向。欲逹此目的，所關心的效度為構念效度。測驗能測量理論的概念或特質之程度：建構效度根據某一理論或學說而設計的問卷，其調查結果分析之後可求得：建構效度良好的建構效度，需滿足：收斂效度、區別效度2、驗證方法內部一致性分析：有關分析法、團體對照法實驗研究：計算受測者在經過相關實驗處理前後，其測驗分數是否改變。與外在效標的相關：計算測驗分數與效標分數的相關性因素分析法(考驗建構效度的最佳方法)：使用因素分析法來進行分析，看與原本預期的因素結構是否吻合。多重特質–多項方法分析3、聚斂效度、區別效度１５聚斂效度：一個測驗分數，要與同樣構念的其他測驗分數有高相關。區別效度：前項測驗分數，也要與不同構念的其他測驗分數有低相關。(四) 表面效度：受測者、測驗結果的使用者及一般大眾對於該測驗的試題和形式所作的主觀判斷，判斷此一測驗能否達成其所宣稱的目的。《題目補充》1.使用不同方法測量相同特質，為下列何種效度？(A)聚斂效度(B)同時效度(C)區別效度(D)預測效度(ANS：A)2.以下有關「效度」的敘述，何者正確?(A)不良的測驗即是指該測驗沒有效度(B)建構效度係以雙向細目表的方式檢核(C)學生的考試動機與焦慮會影響該測驗分數的效度(D)同時效度係內在效度的一種(ANS：C)3.關於標準化測驗效度之敘述，下列何者錯誤？(A)複本效度是指某一特定評量工具與既定標準的相關程度(B)內容效度是指測驗內容能周延涵蓋與測驗目的有關內容的程度(C)預測效度是指測驗成績與未來相關能力表現或測驗之間的相關程度(D)同時效度是指測驗成績與另一個現有相似測驗成績之間的相關程度(ANS：A)4.下列有關評量工具「效度」的敘述，何者較為正確？(A)效度係數的數值通常介於-1.00到1.00之間(B)內容效度係指測驗測量理論性概念所達成的程度(C)構念效度係指測驗項目代表的範圍或學習領域上的行為(D)同時效度係指測驗分數能預測一些未來的行為(ANS：A)5.「內容效度」(contentvalidity)係指測驗內容的代表性，一般亦稱為下列何者？(A)建構效度(B)邏輯效度(C)表面效度(D)統計效度(ANS：B)6.內容效度(contentvalidity)最適合用來檢證下列何種心理測驗？(A)人格測驗(B)成就測驗(C)智力測驗(D)性向測驗(ANS：B)7.教師實施學科成就測驗，藉以確定學生目前的學科成就水準，欲達到此目的，所必須關心的效度是(A)效標效度(B)構念效度(C)同時效度(D)內容效度。(ANS：D)8.學校編製段考測驗卷時，請其他科任教師評斷試題是否合適，係為了增加下列何種效度(A)預測效度(B)內容效度(C)建構效度(D)同時效度。(ANS：B)9.下列何者最能反映成就測驗的內容效度？(A)測驗與學校成績的相關為0.60(B)測量標準誤為5(C)測驗的題目與測驗總分有高相關(D)測驗題目反應課程教學目標有關。(ANS：D)為提高數學國中基本學力測驗的效度，因此編製者強調應依據九年一貫課程的能力指標來命題。則編製者所強調者為測驗工具的何種效度？ (A)內容效度(B)同時效度(C)預測效度(D)建構效度 (ANS：A)因素分析(factoranalysis)係屬哪一種效度的檢驗方式?(A)內容效度(B)效標關聯效度(C)建構效度(D)同時效度(ANS：C)12. 把新編測驗與效標測驗一併施測所得的相關，是屬於何種效度？ (A)內容效度 (B)同時效度 (C)表面效度 (D)預測效度 (ANS：B)「為了建立工作職能量表的效度，蒐集受試者在工作滿足、生理壓力以及組織承諾的表現資料，以決定工作滿足、生理壓力及組織承諾是否能由工作職能量表上的分數來預測」。上述情境說明的是何種效度的建立 ?(A)效標關聯效度 (B)構念效度 (C)內容效度 (D)專家效度。 (ANS：A)方老師在國三社會領域的成就測驗中，透過雙向細目表的方式來檢驗每個單元所選取的試題內容，是否能適切測量到所欲測量的概念或通則。這是以下何種測驗概念的意涵？ (A)再測信度 (B)複本信度 (C)內容效度 (D)建構效度 (ANS：C)編製測驗需要雙向細目表作為命題的依據，請問雙向細目表的設計要依據那些資料？甲：教學目標，乙：教學進度，丙：教材內容，丁：學生反應。(A)甲乙(B)甲丙(C)乙丁(D)丙丁。(ANS：B)16.下列何者屬於效標關聯效度？(A)表面效度和內容效度(B)預測效度和表面效度(C)建構效度和同時效度(D)預測效度和同時效度(ANS：D)17.下列何者是屬於同時性的效標關聯效度？(A)讓高中生考大學聯考，追蹤其入學一年後的學業成績與當初大學１６聯考成績的相關。(B)對大學聯考的測驗題進行因素分析，看測驗結構與所測量的能力結構是否符合。(C)對大學聯考的測驗題目內容進行，看各科內容的題數比例與評量目標是否符合。(D)找大學一年級學生來考大學聯考題目，求出他們的學業成績與大學聯考成績的相關(ANS：D)18.依照測驗的用途，有許多不同的效標可用來做為效標關聯效度的考驗，以下說明何者有誤？(A)最常做為智力測驗的效標是學業成就(B)各種專門學校的訓練成績，常用作性向測驗的效標(C)實際的工作成績並不適合當作效標(D)先前的有效測驗可做為新編測驗的效標。(ANS：C)19.求取測驗分數與效標之間的關聯，是著眼於哪一種效度？(A)同時效度(B)表面效度(C)建構效度(D)專家效度(ANS：A)20.有關效標參照或標準參照測驗的敘述何者為正確？(A)信度對測驗的重要性很低(B)以團體平均分數作為比較基準(C)題目難度為中等偏難(D)強調效標效度(ANS：A)(理論上，信度係數受到團體的變異性所影響，團體的個別差異愈大，測驗的信度係數愈高。(2)標準參照測驗只在區分精熟與非精熟，故變異性不會存在既然變異性不存在，代表團體的個別差異不大，相對地信度係數愈低。這就是信度為什麼對測驗的重要性很低的原因 )21. 下列何者最適合採用「效標關聯效度」？(A)數學老師根據學習單元編製一份數學考卷，了解學生數學成績 (B)導師以同班同學的人際關係量表評定分數，做為對個案學生人際關係的了解 (C)心理學家編製人格適應測驗(D)教務主任為一年級學生舉辦核心能力測驗，了解一年級學習成就 (E)輔導老師對個案學生經過輔導諮商後，發現個案學生在考試期間，測得的焦慮分數較平常顯著的高，認為考試焦慮是個案學生壓力的來源 (ANS：B)通常，大學推薦甄選入學委員會假設：入選的學生進大學的學業表現優於被淘汰者。如果，經過推薦甄選的學生入學後的確有較優秀的表現。我們稱此甄選具有：(A)表面效度（facevalidity）(B)內容效度（contentvalidity）(C)建構效度（constructvalidity）(D)效標關聯效度（criterion-relatedvalidity）(ANS：D)23.『效標混淆』現象，最有可能發生在何種效度的考驗上？(A)同時效度(B)表面效度(C)內容效度(D)外在效度(ANS：A)24.人格測驗重視何種效度(A)同時效度(B)內容效度(C)建構效度(D)預測效度。(ANS：C)研究者想藉由建構效度來考驗所發展之測驗工具，是否與文獻探討所獲之學術理論相符合，則應選用下列何種統計方法？ (A)變異數分析 (B)路徑分析 (C)相關分析 (D)因素分析。 (ANS：D)下列何者是考驗心理測驗建構效度的最佳方法？(A)因素分析法(B)相關研究法(C)對照團體法(D)實驗研究法。(ANS：A)27.多重特質多項方法矩陣通常用以驗證一個測驗的那一項特性？(A)標準化(B)內容效度(C)預測效度(D)建構效度(ANS：D)28.美國心理學會將效度依據測驗的目的分為三類，以下何者「不在」此三類中？(A)內容關聯效度(B)效標關聯效度(C)構念效度(D)內部一致性效度(ANS：D)29.以下哪種效度，並「不是」一份好的標準測驗所應具備的效度之一？(A)表面效度(B)預測效度(C)接近效度(D)建構效度(ANS：C)30.一份特殊性向測驗以下列何種效度最重視？(A)建構效度(B)預測效度(C)同時效度(D)內容效度(ANS：B)31.下列何者不是測驗理論中的真正的「效度」？(A)表面效度(B)效標關聯效度(C)內容效度(D)建構效度。(ANS：A)某一個智力測驗被批評看起來像是在測量學生的語文科學習成就，該測驗極有可能在何種效度的面向較為薄弱？(A)表面效度(B)內容效度(C)預測效度(D)效標關聯效度 (ANS：A)效度的種類表１７內容效度測驗的試題能否適切地測到此測驗編製目的上，所要測的內容或行為。(取樣效度、邏輯效度)例：找一群有相關經驗的人來看題目，問他們設計的好不好，有沒有哪裡要修改。同時效度把設計好的題目，和標準工具（同樣的觀念，相同的變項），去算之間的相關。(與現有效如：測疼痛忍受度，有四題一分鐘可測完的題目，和另一份標準工具的題目，45標相比)題1小時可做完的題目去測，如果R＝0.92（高相關），表示原題目有同時效度。效標關聯效度預測效度一個調查，可以預測未來的事件、行為、態度、結果。(與未來的如：手術後，病人對止痛藥的需求，看24個病人的分數，分數越高，手術忍受效標相比)度越高。把24的分數算出，和拿止痛藥量求相關，R＝－0.82，表示高忍痛程度，低止痛藥量。推論學生具有某些特質的程度。測驗能測量理論的概念或特質之程度根據某一理論或學說而設計的問卷，其調查結果分析之後可求得建構效度收斂(幅一個測驗的分數和測量不同構念或特質的其它測驗的分數，有高的相關。合)效度(對某一特質、觀念，用不同的方法去測量，會有有相同的結果。)區別(區一個測驗的分數和測量不同構念或特質的其它測驗的分數，有低的相關。辨)效度(和其他測量不同構面的測驗或量表，是低相關。)受測者、測驗結果的使用者及一般大眾對於該測驗的試題和形式所作的主觀判表面效度斷，判斷此一測驗能否達成其所宣稱的目的。例如：把設計的問卷，拿給親朋好友填，並問他們問卷好不好。四、影響效度的因素(一) 影響實驗之內在效度之因素1、同時事件：在實驗期間，受試者所經歷到實驗處理以外的其他事件。而此可能會影響依變項而干擾實驗結果。2、成熟：受試者在實驗期間，生理或心理產生變化。3、測驗：前測經驗的影響。4、測量的工具：測量工具之不同所產生的影響。5、統計迴歸：指受試者的測量分數在第二次測量時，其分數有向團體平均數迴歸（趨近）的傾向。亦即高分組的受試者在第二次測量時，其分數向平均數迴歸而有降低的趨勢；而低分組的受試者，其分數確有升高的趨勢。6、差異的選擇：採用兩組或多組的實驗研究中，研究者須考慮不同受試者的特質，否則易產生偏差。7、因素間的交互作用：上述因素間的交互作用。(二)影響實驗之外在效度的因素1、測驗的反作用或交互作用效果：前測的經驗會限制研究結果的推論性，有前測的實驗結果只能推測到有前測的情境，不適用其他情境。2、選擇偏差與實驗變項的交互作用效果：研究者選取具有獨特心理特質的受試者做實驗時，這個交互作用效果易於產生。而此種研究結果不適用沒有具備這些特質的受試者。3、實驗安排的反作用效果：即「霍桑效應」，為參加實驗的受試者，覺查到他們正在接受一項實驗研究，而投實驗者所好，改變其正常之表現。4、多重實驗處理的干擾：當同樣的受試者重複接受兩種或多種的實驗處理，由於前面的處理不易完全消失，以致實驗處理間會產生干擾的作用。１８《題目補充》1. 下列何者不是影響內在效度的因素？ (A)統計迴歸(B)成熟度(C)霍桑效應(D)研究期間的事件 (ANS：C)以下何者會影響實驗研究的外在效度?(A)成熟效應(maturation)(B)統計迴歸(statisticalregression)(C)霍桑效應(Hawthorneeffect)(D)同時事件(history) (ANS：C)3. 下列何者不是影響實驗外在效度的因素 ?(A)測驗的反作用與交互作效果 (B)選擇偏差與實驗變項的交互作用效果 (C)因素間的交互作用 (D)實驗安排的反作用效果 (ANS：C)《比較影響信度與效度的因素》※影響信度的因素： ※影響效度的因素：1.試題題數（測驗的長度） 1.測驗編制過程是否得當2.樣本能力分配（團體分數的變異程度） 2.施測程序與情境是否良好3.試題難易程度 3.受試者的身心反應因素4.測驗評分的客觀性 4.外在效標品質5.信度的估計方法 5.樣本能力分配的變異程度五、當教師發現自編成就測驗的效度低時，應如何補救 ?(一) 放棄不用或重新編擬試題(二) 校正相關係數的萎縮六、效度與信度的關係(一) 信度是效度的必要條件而非充要條件(二) 效度與信度的變異數關係1、效度包含在信度之內，信度所涵蓋的範圍比效度所涵蓋的範圍還大。2、一個測驗的信度係數總是大於或等於其效度係數。七、影響信、效度的因素與補救方法(常考!!)影響信度的因素影響效度的因素試題「題數」的多寡(用斯布公式矯正)編製過程是否得當(指導語夠不夠明確0樣本能力分配，亦即樣本的變異程度施測程序與情境是否良好(物理情境，如時間、試題難易度，間接影響樣本能力分配燈光明暗)記分客觀性，容易有評分者誤差產生受試者的身心反應因素(反應心向)信度估計的方法，需考量適用的情境外在效標品質的良窳補救信度的方法補救效度的方法因素分析討論是否外在效標選取不當鑑別度分析檢討有無理論建構不周全增加題數或刪除不良試題放棄不用或重建試題校正相關係數的萎縮校正相關係數的萎縮估計信度的方法確認構念效度常用的技術與方法重測方法複本方法內部一致性方法相關研究團體差異的分析實驗研究折半方法庫李方法α係數內部一致性分析因素分析評分者方法多項特質-多項方法分析參、常模及結果的解釋１９一、常模的意義與功用(一) 常模的意義：是解釋測驗分數的依據，是指特定參照團體在測驗上所獲得的平均數，有時可視為平均數的同義詞。(二) 常模的功用1、表明個人分數在常模團體的相對位置。2、提供比較的量數，以便直接比較個人在不同測驗上的分數。(三) 常模優劣的評斷標準1、新近性：常模應是最新的，而不是落伍的。2、代表性：誤差小，具代表性3、適切性：採用適常的常模為參照。(四) 衍生性分數：經常模參照後轉換過的分數。二、常模的類型(一) 全國性常模：使用最普遍，依全國性代表樣本而建立。(二) 地區性常模：許多心理與教育測驗的解釋，最適當的參照團體是同學校地區的同年級學生，依據這樣的樣本所建立的常模稱之為地區性常模（localnorms）。地區性常模比全國性常模更適用於學校之間或城市之間的比較。一般而言，測驗結果的使用越強調教學方面的，就越需要參照地區性常模解釋分數。易言之，地區性常模適合學校用於選擇的決定與安置的決定。(三) 特殊團體常模：有些測驗也提供特殊團體常模（ specialgroupnorms）。此種常模的建立包括身體與精神機能障礙者、盲人或聾者、特殊職業團體、教會學校 .......等。特殊性向測驗（ specificaptitudetest），如機械性向、文書性向、音樂性向 ......等。都非常需要建立特殊團體常模。如果智力測驗是為盲人或聾者所設計，很明顯的，它需要有特殊團體常模。(四) 學校平均數常模：如果一個學校的校長，想要比較自己學校五年級的學生，在測驗上的平均數是否和其它學校同年級學生一樣或不同，他必須參照學校平均數常模。全國性樣本。會低估平均數以上的學校，高估平均數以下的學校。三、常模的建立方法(一) 發展性常模：把個人表現和許多不同發展層次的平均表現去比較，然後說明此人相當於那一個層次的表現。1、年齡當量(年齡常模)意義：在不同年齡階層上，各階層原始分數的平均數。功用：經比較後，可推出其心理年齡、教育年齡、社會年齡適用於隨年齡而繼續生長的特質，如身高、體重、智力、閱讀能力年齡常模的誤用：如6歲兒童的心理年齡8歲，只代表他有優秀的心理能力，不表示他如一般8歲兒童一樣可以處理相同的心理工作。2、年級當量(年級常模)依據各個不同年級的標準化樣本，在測驗上所得的平均數而建立。(2) 年級當量由 2個數字表示，如算數的年級當量 5.6，代表其能力相當於 5年級6個月。適用於隨年級而逐漸增加的特質或教育成就測驗。限制：A、不適用只上一年或二年的科目。B、年級常模單位不相等，因此，不同年級常模有不同的意義。２０C、所得到的年級等值並不代表具有該年級的相同能力D、年級常模易被視為成就表現的標準。3、順序量表：接近年齡量表，專為幼兒設計的。4、發展商數：心理年齡與真實年齡比較後的解釋分數。5、家長或教師利用發展性常模知識，形成對孩子的期待時，應考慮：個別差異。(二) 團體內(組內)常模：把個人表現和與他相同身分特徵的人相比較，然後說明此人在此團體中所佔的相對位置。1、百分等級(1)意義：在一常模樣本中，位於某一原始分數以下的人數的百分比。(0–99)比較：百分等級是代表所佔的等第，而百分位數是代表所得的分數。較常被應用之原因：A、易於計算也易於瞭解。B、適用各種測驗C、適用兒童與成人D、不管原始分數的分配為何，使用百分等級均可正確解釋測驗分數。注意事項：A、不同於「百分比分數」：百分比分數為答對題數的百分比，是原始分數的一種。B、只適合解釋個人分數，不能拿來做進一步的分析。C、百分等級的單位不相同，是「順序量尺」，而非等距量尺D、以1-代表0–1之間；99+的意思是介於 99–100之間2、標準分數：相對地位量數。(1) 直線標準分數A、Z分數：a、平均數為 0，標準差是 1b、有負數及小數點，上下全距不超過三個標準差。B、T分數：a、平均數 50，標準差 10b、沒負數、小數C、ETS分數(CEEB分數)：a、平均數 500，標準差 100b、美國教育測驗服務社廣泛使用D、AGCT分數：a、平均數 100，標準差 20b、美國陸軍普通分類測驗E、離差智商a、魏氏智力量表：平均數100，標準差15b、斯比智力量表：平均數100，標準差16c、單位相等，易於轉換成其它分數。F、直線轉換分數的特性a、轉換後，分配型態和原來一樣，如常態轉換後仍為常態，偏態轉換後仍為偏態。b、使用直線標準分數比較不同測驗的分數時，需符合二條件分數必須是相同學生在不同測驗上的分數，或是二團體在相同測驗上的分數。２１兩個測驗的分數或兩團體在相同測驗的分數，在分配的形態方面必須一樣。常態化標準分數(不同分配型態的轉換)A、標準九 (美國空軍)a、除1與9外，所有標準九在量尺上的寬度是半個標準差b、平均數 5，標準差 2c、其1到9的比例：4、7、12、17、20、17、12、7、4d、分派標準九需注意：同樣的分數必須得到相同的標準九實際分派的次數必須盡量接近理論次數e、優缺點：把精細的分數粗略化，不適做進一步分析。簡單又合乎常態分配的特性B、C量表分數 (吉爾福 Guilford)a、11個單位，由 0到10(1、3、7、12、17、20、17、12、7、3、1)b、算法和標準九一樣C、Sten分數：和標準九、 C分數一樣D、常態化轉換 (T量表分數)–麥格爾創用a、最為普遍使用的常態化轉換標準分數b、先將原始分數轉為百分等級，依查表找出 Z值，利用轉換公式而得。c、T量表分數一定是常態分配， T分數不一定。E、常態分配全國性常模依類型分地區性常模特殊團體常模常模學校平均數常模年齡常模發展性常模依方法分年級常模團體內常模百分等級標準分數四、測驗分數的解釋(一)解釋測驗分數的類型(三向度)1、解釋的類型：敘述的解釋：描述個人的心理特徵或狀態溯因的解釋：追溯過去以解釋個人目前的發展情況。預測的解釋：推估個人未來的可能發展情形。評斷的解釋。做價值判斷或做決定。2、資料處理的方式：機械的 (統計的處理 )、非機械的 (臨床診斷的處理 )２２3、資料種類：測驗、非測驗(二)解釋測驗分數應注意的原則1、解釋測驗者應瞭解測驗的性質與功能2、測驗分數應為學生保密：採個人解釋，不宜團體解釋或公告3、解釋分數應參考其它有關資料4、解釋分數應避免只給數字5、對低分者的解釋應謹慎小心6、解釋分數時應設法瞭解學生的感受7、解釋分數只做建議，而勿做決定8、應以一段可信的範圍解釋《題目補充》1.下面何者並非常模之用途？(A)表示測驗分數在團體中的相對位置(B)可以避免零或負數的出現(C)可用來比較同測驗間之分數(D)常模可以用來解釋分數的依據。(ANS：B)2.鑑定特殊學生所用測驗之常模必須注意：甲、恆常性乙、代表性丙、新近性丁、適切性戊、差異性己、精確性(A)甲乙丙(B)丙丁己(C)甲丙己(D)乙丙丁(ANS：D)3.測驗結果的使用愈強調教學方面的，如數學資優班、閱讀障礙班等，就愈需要應用以下哪一種常模來解釋分數？(A)全國性常模(B)地區性常模(C)特殊團體性常模(D)學校平均數常模(ANS：B)4.發展英語聽力測驗時，由台南市國中三年級學生隨機抽取的1000名學生所建立的常模，是屬於下列哪一種常模？(A)全國性常模(B)地區性常模(C)特殊團體常

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

测验与评量-嘉义大学

文档简介

温馨提示

最新文档

评论

测验与评量-嘉义大学

文档简介

温馨提示

最新文档

评论

相关文档