心理与教育测量课件_第1页
心理与教育测量课件_第2页
心理与教育测量课件_第3页
心理与教育测量课件_第4页
心理与教育测量课件_第5页
已阅读5页,还剩803页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

心理與教育測量第一章心理與教育測量概論第一節一般測量概述第二節心理與教育測量的性質第三節心理與教育測量的種類及其功能第四節心理與教育測量工作者的素質要求及道德準則第一節一般測量概述

心理與教育測量在心理科學、教育科學的基礎學科和應用學科之間起著一種仲介作用。一、測量及其種類二、測量的基本要素三、測量的量表第一節一般測量概述一、測量及其種類

1.測量(Measurement)的定義測量就是依據一定的法則使用量具對事物的特徵進行定量描述的過程。第一節一般測量概述一、測量及其種類1。定義:法則→量具→事物(屬性)→定量描述物理、社會和心理測量共性

一定的法則:任何測量都要建立在科學規則和科學原理基礎之上,並通過科學的方法和程式完成測量過程。事物的特徵:是指所要測量的事物的特定屬性。量具:測量中所使用的工具定量描述:對事物特徵的量的確定。2。測量的精確度決定於測量對象本身的性質與測量工具的精密性。3.測量的分類(根據測量對象的性質和特點)

物理測量:長度、重量、面積、速度等。生理測量:化學成分、生理機能等。社會測量:人口普查、經濟統計、民意調查等。心理測量:智力、人格、成就、職業興趣、態度等。單位意義明確單位等距參照點絕對參照點相對參照點全無人為二、測量的基本要素

二、測量的基本要素參照點(ReferencePoint)

採用相對參照點為測量起點的測量結果只能進行加減運算,而不能進行乘除運算。比如,智商,攝氏溫度等。三、測量量表按標準化樣本中大量測驗結果制定的、有一定單位和參照點的、

標度由低到高排列的連續體。含義

三、測量的量表能夠使事物的特徵數量化的具有特定單位和參照點的數字的連續體就是量表。

(1)命名量表

命名變數只說明某一事物與其他事物在名稱、類別或屬性上的不同,並不說明事物與事物之間差異的大小、順序的先後及質的優劣。應用例子:牌照號碼,人名,地名,足球運動員的號碼。局限性:不能說明類別的數量差別

(2)順序量表順序量表是指可以就事物的某一屬性的多少或大小按次序將各事物加以排列的變數,具有等級性和次序性的特點。應用例子:軍銜、比賽中的名次排列局限性:不考慮差異的絕對量,只考慮相對差別。(3)等距量表等距量表除能表明量的相對大小外,還具有相等的單位。應用例子:溫度局限性:比率是無意義的,零點是任意規定的。(4)比率量表比率量表除了具有量的大小、相等單位外,還有絕對零點。應用例子:距離,重量

種類

基本特徵

功能

運算

舉例命名屬性、類別分類或描述性別、民族職業、⋯順序無相等單位無絕對零點1+等級不能+-×÷品德、能力、愛好⋯等距有相等單位無絕對零點2+差異決策和比較可+-溫度⋯比率有相等單位有絕對零點3+比值決策和比較可+-×÷身高、體重、投資⋯不同水準的量表0攝氏度-273.151020釐米090180考試成績心理量表屬於什麼水準?第二節心理與教育測量的性質一、心理與教育測量的定義依據一定的心理學和教育學理論,使用測驗對人的心理特質和教育成就進行定量描述的過程。

心理與教育測量的特點:

1。所依據的很大程度上只是一種理論典型例子——智力理論:(1)抽象的思維能力。斯皮爾曼認為,所謂智力是認識事物關係的能力。(2)學習能力。如蓋茨認為,所謂智力,是關於學習能力的合成力。(3)對環境的適應能力。如斯滕認為,智力是對生活的新課題和條件的一般性心理適應力。(4)作為媒介變數。如弗裏曼認為,智力是智力測驗所測定的東西。智力結構的構成成分:(1)斯皮爾曼強調智力二因素論,一般因素和特殊因素比內量表和韋氏量表都是按照二因素論編制,主要用來測G因素。(2)桑代克強調多因素論,社會智力、具體智力、抽象智力(3)瑟斯頓強調群因素理論(4)卡特爾又強調流體智力和晶體智力(5)加德納則強調多元智力理論

2。對象是人的心理特質和教育成就——間接測量

3。量具是由有關領域的專家編制的標準化測驗——客觀性

4。精確度遠不及物理測量的高二、心理與教育測量的理論基礎凡客觀存在的事物都有其數量——桑代克凡有其數量的事物都可以測量——麥柯爾三、心理與教育測量的量表

1。從所使用的參照點來看,教育與心理測量領域的參照點均為相對參照點。智力測驗成就為零,智商一定為零嗎?

2。從所使用的單位來看,教育與心理測量的單位遠沒有其他單位成熟和完善。“分”

從本質上講,心理與教育測量的量表屬於順序量表通過標準分數的轉換,把次序量表轉換成以標準差為單位的等距量表。四、心理與教育測量中的測驗

測驗是一個或一群標準的刺激,用以引起人們的行為,根據此行為以估計其智力、品格、興趣、學業等。

——陳選善所謂測驗,是對一個行為樣組進行測量的系統程式。

——Brown

心理測驗實質上是對行為樣本的客觀的和標準化的測量

——阿娜斯塔西

1。行為樣本從人的大量行為中抽取與欲測量的心理特質直接相關的一組行為進行測量,並依據對這一組行為的測量結果推斷其心理特質和教育成就。這一組被抽取出來的、作為直接的測量對象的行為就是行為樣本。

2。標準化測驗的標準化就是指測驗的編制、實施、記分以及測量分數解釋的程式的一致性。

3。難度或應答率

4。信度和效度標準化測驗內容施測條件評分規則測驗常模信度:一個測驗的可靠性,即用同一測驗多次測量同一團體所得結果之間的一致性程度。效度:一個測驗的有效性,即一個測驗在多大程度上能夠測到它所要測量的心理特質。心理測驗和心理測量區別心理測驗:工具心理測量:活動第三節心理與教育測量的種類及其功能一、心理與教育測驗的種類1。以測驗的對象來分2。以測驗的方式來分3。以測驗的內容來分4。以測驗的功能來分5。按評價參照的標準分類1。按測驗對象所作的分類智力測驗:一般能力水準能力傾向測驗:潛能或發展傾向成就測驗:學業成就人格測驗:非認知性的特徵2、按測量方式所作的分類

個體測驗團體測驗

3。按測驗內容的形式所作的分類

文字測驗非文字測驗(圖形,儀器,工具,實物)4。按測驗內容所作的分類(1)成就測驗與預測測驗(2)難度測驗與速度測驗(3)描述測驗與診斷測驗5。按評價所參照的標準分類(1)常模參照測驗(2)目標參照測驗(3)潛力參照測驗二、心理與教育測驗的功能1。理論研究功能(1)收集研究資料(2)建立和檢驗理論假設(3)實驗分組2。實際應用功能(1)選拔人才美國二戰飛行員選拔(2)人員安置沒有無用的人,只有放錯地方的人。(3)心理診斷(4)描述評價(5)心理診斷心理測驗在心理診斷中的應用

智力測驗吳天敏:中國比內智力量表龔耀先韋氏成人智力量表(WAIS-RC)韋氏兒童智力量表(C-WISC)韋氏幼兒智力量表(C-WYCSI)林傳鼎:韋氏兒童量表(WISC-CR)張厚粲:瑞文標準型測驗(SPM)李丹:聯合型瑞文測驗(CRT)

人格測驗艾森克人格問卷(EPQ)卡特爾16項人格因素問卷(16PF)明尼蘇達多項人格調查表(MMPI)

心理評定量表精神病評定量表躁狂狀態評定量表抑鬱量表,焦慮量表,恐怖量表

案例明尼蘇達多相人格問卷(MMPI)

背景:1942年首發。新版MMPI-2,1989年發行。新版

MMPI-A用於青少年。設計:標準記分鍵,個人回答模式與已被診斷歸入某一臨床人群者比較。出自8個臨床量表分數加男子氣—

女子氣和社交內向性及三個效度量表。題目:原版550題,“是”,“否”或“不肯定”回答。新版替換了約100題。計分:分數剖析圖。現測驗解釋按高分模式,產生編碼描述不同的剖析圖。有電腦測驗解釋。應用:臨床評估,為臨床篩選設計。子版本:加州心理問卷從中抽取一半題目,用於正常人;

5000多已發表研究用了MMPI。第四節心理與教育測量工作者的素質要求及道德準則

案例:

1959年6月,休士頓(德克薩斯州)獨立學區投票表決燒毀了5000份問卷,原因是家長們認為在一個對9年級學生進行的全國大調查中包含有所謂的個人隱私問題(Netter,1959)。這份問卷問學生是否同意下列表述:一個在約會中遇到麻煩的女孩只能責備她自己有時我會講低級的笑話,但事實上我並不願意說。我喜歡在浴缸中浸泡如果你不和一群人飲酒,他們的反應會使你覺得自己是一個膽小鬼爸爸總是看起來很忙,不能與我結為好友

6年後,美國心理學會(APA)被很多市民包圍,他們拿著傳單和旗幟,上面寫著“別讓博士強行灌輸思想,去見你們的牧師或醫生”、“給你們的議員或代表寫信,讓他們立法,要求在學校、公共機構和私人公司裏停止使用性虐待的心理測驗”(APA,1965)一、心理與教育測量工作者的素質要求

1。心理與教育測量工作的知識結構(基礎知識、專業知識)

2。對心理與教育測驗的科學態度錯誤觀測驗萬能論——20世紀20年代測驗無用論:測驗遭到的最強烈的批評是:測驗為宿命論和種族歧視提供心理學依據。

“美國黑人和其他美國人的平均智商之間的差異,幾乎完全可以用從胎兒起直至整個一生的處境不利來說明。”

——歐文·戈茨曼正確觀(1)重要的研究方法之一——輔助工具(2)尚不完善二、心理與教育測量工作者的道德準則

1。測驗的保密和控制原則

2。測驗中個人隱私的保護“我可以要一份斯坦福——比納測驗空白卷嗎?我的侄子想進某學校,下個星期參加斯坦福——比納測驗,我很想讓他練習一下,他就能通過了。“為了改進學校的閱讀課程,我們需要一個排除文化影響的智力測驗來測量每個兒童的潛力。”“昨晚我回答一本雜誌上所發表的智力測驗問題,IQ得了80分,我認為心理測驗是無聊的。”“我的室友正在學習心理學。她讓我做了一個人格測驗,結果是我有神經症。自此,我心煩意亂,不能上學。”“去年你處於研究目的讓我們員工做了一個新編人格測驗,我們想把分數歸入他們的個人檔案。”對心理測量的評價第二章心理與教育測量的產生與發展

現代心理測量和測驗作為心理科學的一個重要分支,是在19世紀的歐洲才發展成熟起來的,其直接動因乃是源於人們對心理特徵的個別差異進行評定的需要。心理特徵的個別差異是客觀存在的,人們在日常生活中創造了豐富的語彙來描述這種差異。但是,對科學的心理研究來說,定性的描述是遠遠不夠的,必須尋找到有效的方法對之加以定量的刻畫,於是心理測驗這一工具性的實用技術在各種關於心理實質的理論的指導下應運而生了。它與對變數加以嚴格控制的實驗方法構成心理學實證研究的兩大範式,並且近來有相互融合的趨勢。

心理測驗的發展史歷史時期先驗期時間:20世紀以前特點:重實用,缺理論,主觀性強科學期時間:20世紀初~至今階段經典測驗理論:50′前現代測驗理論:50′後特點測驗理論形成測驗工作系統化

孔子

孟子中人、中人以上、中人以下“中人以上可以語上也、中人以下不可語上也”權,然後知輕重;度,然後知長短。物皆然,心為甚,王者度之。第一節中國古代的心理與教育測量中國是心理與教育測量技術的最早故鄉。一、能力測量

劉劭“觀其感變,以審常度”。“應贊”

劉勰思《人物志》J.K.Shryock《人類能力的研究》使左物畫方,右的畫圓,無一時俱成《新論·專學篇》由心不兩用則物不並運也。

民間七巧板九連環等顏氏家訓《風操篇》周歲試兒第一節中國古代的心理與教育測量一、能力測量

1。孔子在教育實踐中將人的智力分成三個等級,即中上之人、中人和中下之人。“中人以上,可以語上也;中人以下,不可以語上也。”

2。董仲舒一手畫方,一手畫圓,莫能成。這無疑是世界上最早的注意測驗。

3。劉劭《人物志》,“觀其感變,以審常度。”可以說是一本研究力的專門著作。他把人的才能劃分為12種類型,即清節、法家、術家、國體、器能等。1937年,美國學者瑞奧克將本書翻譯後,名為《人類能力之研究》

4。民間,周歲試兒在現在看來,即嬰幼兒的動作測量

5。出現於清代的九連環、七巧板可以被認為最早的創造力測驗。美國心理學家伍德沃斯對九連環及其讚賞,把它視為“中國式的迷津”。二、人格測量

1。孔子不僅論及學生智力水準的評定,同時也提出了性格類型的觀點。孔子把人分成三種類型:狂者、狷者、中行

2。劉劭根據陰陽、五行和形體的關係及其人的行為表現,把人的性格劃分成12種類型。三、教育測量最早的教育測量出現於中國西周奴隸制時期——國學漢武帝初年制定歲考制,並首開筆試先河。

描述性,不定量,分類的;心理特點與道德觀念相結合;

科舉考試3千年前六藝取士及隋唐科舉制起源特點四、對測驗理論的最初探索

孟子提出了測量人類心理的必要性和可能性。“權,然後知輕重;度,然後知長短;物皆然,心為甚。”

劉劭八觀,五視八觀是:觀其奪救,以明間雜;觀其感變,以審常度;觀其志質,以知其名;觀其所由,以辯依似;觀其愛敬,以知通塞;觀其情機,以辨恕惑;觀其所短,以知所長;觀其聰明,以知所達”。五視是:居,視其所安;達,視其所舉;富,視其所由;窮,視其所為;貧,視其所取。

中國古代心理與教育測量的特點:

1。描述性,非定量的;

2。分類式的;

3。注重對人做整體的評價,並傾向於何人的道德品質聯繫起來;

4。與教育中的因材施教和人才使用有著密切聯繫,具有強烈應用性質。三國時期的諸葛亮在其《心書》一文中講到如何知人時,提出了七條途徑:其一,“問之以是非而觀其志”,即從其對是非的判斷來考察其將來的志向,看看是否胸有大志;

其二,“窮之以辭辯而觀其變”,即提出尖銳的問題對其詰難,看其觀點有什麼變化,能否隨機應變;

其三,“咨之以計謀而觀其識”,即就某方面的問題諮詢其看法和對策,看其知識經驗如何,具不具備分析問題和解決問題的能力

其四,“告之以禍難而觀其勇”,即觀察其在困難面前的表現,看其有沒有知難而進的勇氣和處世不驚的良好心理素質;

其五,“醉之以酒而觀其性”,即以美酒款待,看其個人品德如何,是否兩面三刀,陽奉陰違;

其六,“臨之以利而觀其廉”,即觀察其在金錢財富面前的表現,看其是否能經得住物質利益的誘惑,是否能保持良好的心態;

其七,“期之以事而觀其信”,即託付其辦事以視其信用如何,是一諾千金,還是信口開河。第二節現代心理與教育測量在西方國家的產生和發展

《舊約全書》中,基列山人用於偵察逃亡的以色列人的測驗產生了相當驚人的結果:基列山人利用約旦河的淺灘來對付以色列人。當以色列的逃亡者中有人說:“讓我過去!”基列山人就對他說:“那麼請說Shibboleth。”(譯者注:《聖經》中考驗的詞,看某人能否正確地發此詞的音,以判斷他是否是逃亡者)如果逃亡者不能正確發出“Shibboleth”的音,他們就會把他抓住並殺死在約旦河的淺灘裏。在那裏他們殺死了42000個以色列人。[譯者注:士師記《舊約全書》第一卷]

這是個帶有報復性的測試,幸好並非所有的教育或心理測驗都會有如此極端的影響。

現代心理與教育測量的理論和技術是產生於工業革命後的西方國家。一、現代心理與教育測量的起源(1)西方科學家最初發現人的心理的個別差異的重要性——天文學上的一個事件(馬斯林基、金內布魯克、貝塞爾)(2)實驗心理學的誕生是心理測驗產生的另一個重要原因。實驗心理學的誕生和發展,還給心理測量帶來了另一個副產品:嚴格的標準化程式。標準化是現代心理測驗的重要評價指標。(3)社會發展的需要原因社會需要個別差異研究實驗心理學鑒別智殘和精神障礙專才訓練和職業指導早期嘗試E.G.Boring(美)19世紀80年代是高爾頓的十年,90年代是卡特爾的十年,20世紀頭十年是比奈的十年二、心理與教育測量的早期探索者1、高爾頓

堪稱直接推動測驗運動發展的第一人,也是最早實際從事測驗活動的學者。

第一個研究智力測驗的人研究個體之間心理活動的差異

1884,倫敦國際健康展覽會,“人體測量實驗室”;13項心理生理特徵:反應時間,視聽靈敏度,色彩分辨能力,長度判斷能力,拉力,呼吸力量等等。他的這一舉動是心理測驗史上第一個大規模系統地測量個體差異的嘗試。發明了大量心理測驗儀器:高爾頓棒,高爾頓笛創始:評定量表,自由聯想法、問卷法統計學研究方面的貢獻:學生Pearson完善了相關概念的計算方法

“(優生學是)改善血統的科學,它……認識到各種影響力的作用,而這些影響力傾向於以無論多麼渺小的程度給予更合適的種族或者血統以更好的快速發展的機會,而不是給予那些不那麼合適的種族以否則也會很快的速度發展的機會。”“我看不出,等級制度的蠻橫之處,怎麼可能會妨礙有天賦的社會階層,因為他們有能力用慈愛對待同胞,只要他們保持住自己的獨身生活。可是,如果這些人還接二連三地生出一些道德感、智力和生理素質都很差的孩子,很容易相信,這些人被視為國家的敵人,並且使許多仁慈之舉前功盡棄的一天也許就會到來。”

——高爾頓高爾頓的10年

F.Galton,英,1822測驗運動首倡者第1個研究智力測驗者;第1個大量系統測量個別差異者;1884-1890,“人類測量實驗室”,測9337人。應用評定量表和問卷法的先驅;統計學家、生物學家、業餘心理學家;優生學的創始人;反應時間,拉力和擰力,吹氣的力量,身高,體重,臂長,呼吸力量,肺活量,視力和聽力的靈敏度,色彩分辨能力,判斷長度的能力“人體測量研究室”測量內容2。卡特爾1890年發表《心理測驗與測量》一文於《心理》雜誌上,這是在心理學文獻中首次出現“心理測驗”一詞。心理學只有立足於實驗與測量,才能達到如同自然科學的準確性;心理測量只有建立普遍的統一標準,並要與常模相比較,才能充分地實現其科學價值和實用價值。卡特爾的10年CattellJ.M.,美,1861實驗心理與測驗運動結合;“心理測驗”首次在心理學文獻出現(《心理測驗與測量》);創立心理測驗公司;培養優秀學生:桑代克,佛朗茲等;握力,動作速度,觸覺兩點閾,重量辨別,聲音反應時,痛感受性說出四種混雜顏色名稱的速度,時間判斷力,平分線段的精確性復述聽過一次字母數目的能力卡特爾智力測驗內容1891-1901:學生成績與人體測驗無明顯相關,各測驗間相關性也極差。

馮特的學生,德國萊比錫大學博士畢業英國劍橋受到高爾頓的影響,對個體差異研究感興趣

19世紀末返回美國,賓夕法尼亞大學,建立實驗室,傳播心理測驗

1890年在《心理》上第一次提出“心理測驗”的概念測驗內容:運動速度,痛感,視聽,反應時,記憶力,重量辨別,肌力(但它們與學習能力無關)科學期3。比內的10年A.Binet,法,1857-19111898年,《人格心理學中的測量》,近代思想1903年,《智力的實驗研究》,廣義智力概念;1905年,B-S量表;第一個正式智力量表。經典測驗理論階段三、心理與教育測量運動的發展(20世紀20年代——至今)特點20’—狂熱,40’—頂峰,50’—CCT趨於成熟、平穩,60年代以後測量理論出現新的動向。1、智力測驗的發展(1)1916推孟修訂斯坦福-比內量表首次使用了比率智商,簡稱為IQ,是心理年齡和實際年齡的比值。(2)團體智力測驗的發展

Otis陸軍甲種測驗(1917)Otis陸軍乙種測驗(1927)

(3)對智力本質及其結構的統計學研究應運而生。斯皮爾曼首次運用因素分析研究智力結構,提出智力結構的二因素論,為編制新的智力測驗奠定了理論基礎。(4)瑞文推理測驗和韋克斯勒智力測驗2。能力傾向測驗的發展3。成就測驗的發展

桑代克編制第一個標準化的教育成就測驗,被公推為教育測量的鼻祖。1923年,凱利、魯奇、推孟合作編制了第一個成套成就測驗——斯坦福成就測驗斯坦福成就測驗(1923)美國教育測驗中心(ETS,1947)成立;(可以參考百度)4。人格測驗的發展

最早進行人格測量的是克雷培林,最早採用自由聯想法診斷病人自陳人格問卷:1917年武德沃斯設計的“個人資料調查表”。由哈撒韋和麥金利編制的目前影響最大的MMPI-明尼蘇達多相人格調查表。16PF,EPQ

投射測驗:1921年問世的羅夏克墨蹟圖測驗(RIT),TAT四、心理與教育測量的當代趨勢

1、資訊加工測驗

2、紙筆測驗逐漸被電腦程式測驗所取代

3、專案反應理論和概化理論心理測量發展近代歷史簡表1905,比奈-西蒙發表第一個智力測驗量表(中國廢止科舉)1908,比奈修訂比奈-西蒙智力測驗量表,提出“智力年齡”概念1916,推孟發表斯坦福-比奈量表1917,陸軍甲、乙種測驗應用(最早的能力傾向測驗)武德沃斯發表第一個標準化人格測驗1920,羅夏發表墨蹟測驗1923,斯坦福成就測驗1927,斯特朗男性職業興趣量表1937,斯坦福-比奈量表年在首次引入“比率智商”概念(德國漢堡大學LWStern教授最先提出“智商”概念)1939,韋氏智力測驗研製和試用1942,明尼蘇達多項人格測驗1949,韋氏兒童智力測驗,提出“離差智商”概念1955,韋氏成人智力測驗1967,韋氏幼兒智力測驗1980,考夫曼兒童成套評估量表第三節現代心理與教育測量在中國的發展一、現代心理與教育測量建國前的發展(1)1916年,樊炳清先生首先介紹了比內-西蒙智力量表。

(2)1920年,北京高等師範學校和南京師範學校建立了我國最早的兩個心理學實驗室,廖世承和陳鶴琴先生在南京高等師範學校開設心理測驗課。1921年,他倆正式出版《心理測驗法》一書。

(3)1922年夏天,中華教育改進社聘請美國教育心理測驗專家麥考爾來華講學。

(4)1924年,陸志韋先生發表了《訂正比內西蒙智力測驗說明書》,30年代又與吳天敏再次做了修訂。

(5)1931年由艾偉、陸志韋、陳鶴琴、蕭孝嶸等倡議,組織並成立了中國測驗學會。

(6)1932年《測驗》雜誌創刊。

(7)至抗戰前夕,由我國心理學工作者制定或編制出的合乎標準的智力測驗和人格測驗約20種,教育測驗50多種。二、現代心理與教育測量建國後的發展(1)1936年,蘇聯在批判“兒童學”時擴大化,心理測驗也被一概禁止。

(2)從1978年北京大學首建心理系開始,心理測驗才重新得到恢復。

(3)1979年,林傳鼎、張厚粲等以國外資料為參考,編制了少年兒童學習能力測驗。

(4)1980年初,北師大心理系開設了心理測量課。1984年,在北京召開的第五屆全國心理學年會上,成立了心理測驗工作委員會,加強了測驗工作的指導和監督。1、智力測驗龔耀先修訂“韋克斯勒成人智力量表”林傳鼎、張厚粲修訂韋克斯勒兒童智力量表吳天敏出版“第三次修訂中國比內測驗”龔耀先修訂韋克斯勒幼兒智力量表張厚粲修訂瑞文標準推理測驗李丹修訂瑞文測驗(聯合型)戴忠恒修訂了“一般能力傾向測驗”。2、人格測驗宋維真修訂MMPI劉紹衣修訂16PF,遼寧常模戴忠恒、祝蓓裏制定了16PF全國常模。龔耀先、陳仲庚分別修訂EPQ張明園修訂生活事件量表吳文源修訂SCL-901979年來國內現有主要智力測驗1978丹佛發展篩選測驗宋傑,朱月妹1980比內-西蒙量表Ⅲ修訂吳天敏1981韋氏兒童智力量表林傳鼎,張厚粲1981韋氏記憶量表龔耀先1982韋氏成人智力量表龔耀先1983韋氏幼兒智力量表郭迪,汪梅先1984韋氏幼兒智力量表龔耀先1984臨床記憶量表許淑蓮1987標準型瑞文測驗張厚粲國內參考書目戴忠恒《心理與教育測量》江蘇,87《教育測量》餘嘉元《教育測量》王孝玲華東師大,88)《心理測量》鄭日昌湖南,88淩文輇,濱治世《心理測驗法》科學,88淩文輇,方俐洛.心理與行為的測量.02心理測驗彭凱平華夏,90心理與教育測量張厚粲浙江教育,97教育測量學張敏強人教,98心理與教育測量戴海崎暨大,99心理測量車宏生北師大,00教育測量與評價黃光揚華東師大,02心理測驗的原理與應用郭慶科人民軍醫,02專案反應理論及其應用研究漆書青戴海崎著(江西高校,92)國外參考書心理測驗分數的統計理論(美)M.羅德葉佩華譯人教,85心理與教育測量和評價(美)R.L.桑代克葉佩華譯福建教育,92)心理測驗安娜期塔西,厄比納著(97)繆小春等譯(浙江教育,01)PsychologicalTestingA.Anastasi(A,88-6)Criterion-ReferencedMeasurement》W.J.Popham(A,78)UsingPsychometricsR.Edenborough(B,99)

EssentialsofPsychologicalTeatingLee,J.Cronbach(A,90)教育測量綱要羅伯特·L·艾伯爾著漆書青等譯(江西師大高教室,84)專案反應理論——在心理測量中的應用(美)查爾斯·L·赫林,弗裏茨·德雷斯哥,查爾斯·K·帕森斯華東師大教育諮詢中心譯(湖北教育,90)第三章經典測驗理論的基本假設第一節心理特質及其可測性假設一、心理特質(Trait)的含義

定義:表現在一個人身上所特有的相對穩定的行為方式如何理解:(1)一組內部相關的行為概括,具有一定的抽象性;(2)一種一般的神經心理系統,可以綜合不同的刺激,使人對這些刺激做出相同的反應;(3)一個人身上比較穩定的特點;(4)一個人的精神面貌是由多種特質多層次有機結合而成的;(5)特質決定一個人對特定刺激的反應傾向。第三章經典測驗理論的基本假設第一節心理特質及其可測性假設二、心理特質的可測性凡客觀存在的事物都有其數量——桑代克凡有數量的東西都可以測量——麥柯爾請列舉一些你所使用過或接觸過的量表思考:量表的作用是什麼?你如何解釋下述現象?

一個很聰明的孩子,測得智商是80分一個學習很好的學生,考試成績為60分一個人緣很好的人,人際關係測量低於常模值量表幫助我們瞭解心理現象(心理特質),就像尺子幫助我們測量身高。

思考:我們如何知道我們有多高?有兩個工具:尺子/秤

尺子的數據與我們的目測更一致,而秤盤的數據則與我們的目測不一致。因此,尺子是測量身高的有效工具——效度。什麼材料的尺子?——鋼鐵(熱脹冷縮)涉及到一致性的問題。——信度物理不等於數學1.70與1.7的關係總結:量表是我們用來瞭解心理特質的工具,但這個工具是有誤差的。誤差要控制在一個許可的範圍內。回顧什麼是誤差?誤差的種類?誤差是在測量中與目的無關的變因所產生的不准確或不一致的效應。誤差分為隨機誤差和系統誤差。第二節測量誤差及其來源一、測量誤差的含義在測量過程中由那些與測量目的無關的變化因素所產生的一種不准確或不一致的測量效應。二、測量誤差的种类隨機誤差:那種與測量目的無關的、偶然因素所引起的一種恒定而有規律的效應。

系統誤差:那種與測量目的無關的變因所引起的一種恒定而有規律的效應。

系統誤差只影響測量的準確性,不影響穩定性。而隨機誤差既影響穩定性又影響準確性。第二節測量誤差來源及其控制一、測量誤差的來源(1)來自測量工具。心理測量量表是否穩定,是否測到了我們所要測得東西是測量工具造成誤差的主要原因1、測驗的專案過少或缺乏代表性2、複本不同,測驗結果不同第二節測量誤差來源及其控制一、測量誤差的來源(2)來自測量對象。受測者真正水準是否得到真正發揮1、應試焦慮2、應試經驗3、應試動機4、學習、發展和訓練5、練習效應6、反應傾向7、生理因素(3)來自施測過程。物理環境,主試者方面,評分計分環節。第二節測量誤差來源及其控制一、測量誤差的來源(3)來自施測過程。最易控制和檢驗1、測試環境2、測試時間3、主試因素4、意外干擾5、評分計分

第二節測量誤差來源及其控制二、測量誤差的控制(1)題目等值(2)題目編制(3)相同施測條件(4)評分客觀--相同評分標準(5)結果解釋標準化—建立參照標準測量誤差的估計:SX2=ST2+SE2

ST2=SV2+SI2

SX2=SV2+SI2+SE2SV2SI2SE2SX2ST2

第二節真分數及其有關的假設一、真分數的含義反映被試某種心理特質真正水準的那個數值一個理論構想出來的抽象概念,在實際測量中是很難得到的。第三節真分數及其有關的假設二、數學模型及其假設

經典測驗理論假定,觀察分數X與真分數T之間是一種線形關係,並只相差一個隨機誤差E,即

X=T+E

根據這一模型,我們可以引申出3個相關聯的假設公理:(1)若一個人的某種心理特質可以用平行測驗反復測量足夠多次,則其觀察分數的平均值會接近於真分數。即

ε(X)=T或ε(E)=0

(2)真分數和誤差分數之間的相關為零。即

ρ(T,E)=0

(3)各平行測驗上的誤差分數之間相關為零。即

ρ(E1,E2)=0如何理解CTT數學模型及其假設:首先,在問題研究範圍之內,反映個體某種心理特質水準的真分數是假定不會變的,測量的任務就是估計這一真分數的大小其次,觀察分數與真分數之間是線性關係。再次,測量誤差是完全隨機的,並服從均值為零的正態分佈。思考:如何應用CTT模型?平行測驗兩個題目不同的測驗測得是同一特質,並且題目形式、數量、難度、區分度以及測查等值團體後所得分數的分佈都是一致的用多個平行測驗反復測量同一個人的同一種心理特質的做法往往難以實現,所以CTT模型假設僅僅是理論上的描述。為什麼CTT模型能用?

如果按照CTT模型的描述,要用多個彼此平行的測驗反復測量同一個人的同一種心理特質是很難實現的。但是事實上,我們在實施一個標準化測驗時,並不是用許多平行測驗來反復測查同一批被試,而是用一個測驗來同時測查許多被試。由於每個人的誤差都是隨機的,且服從均值為零的正態分佈,所以,當被試團體足夠大時,團體內的各種隨機誤差會相互抵消,整個團體的觀察分數的均值會趨近於該團體真分數的均值。這裏,多個被試接受同一個測驗相當於多個平行測驗反復測查一個具有團體真分數均值水準的一個個體。因此,CTT的理論模型和假設便派上了用場。

根據CTT模型和假設推導出:根據CTT模型和假設,我們很容易推導出如下關係:S2X=S2T+S2E

即:在一次測量中,被試觀察分數的方差等於其真分數方差與誤差分數方差之和。

上面公式中只涉及到了隨機誤差的變異,系統誤差的變異包含在真分數的變異之中。即:真分數還可以分為兩部分:與測量目的有關的變異和與測量目的無關的變異

S2T=S2V+S2I(系統誤差)

S2X=S2V+S2I+S2E經典測量理論的局限:信度估計精度不高,平行測驗難以實現;誤差指標籠統單一、不精細;各種參數估計對樣本的依賴性太大,參數指標之間的匹配性較差;真分數與觀測分數間存在線性關係的假定不合理。經典測量理論的優點:直觀易懂適用性廣測驗結果可信經典測試理論&專案反應理論經典測試理論形成:出現於20世紀初,到了50年代形成了完整的體系。基本思想:把測試的得分(observedscore)看作是真分數和誤差分數的線性組合。數學模型:X=T+E(X為觀測分數,T為真分數,E為誤差分數)經典測試理論_專案分析指標1.平均分(meanscore)_最常用的一種集中量數(反映分數集中位置,代表一批分數,反應一批分數的典型情況)2.標準差_差異量數,即分數的離散程度。標準差是最重要的差異量數。經典測試理論_專案分析指標3.難度_試題的難易程度4.區分度_測試專案對考生的區分程度經典測試理論_專案分析指標5.信度_測試結果的一致或者穩定程度。換句話說,有信度的試題在任何時間、地點下通過測試都能得到一致的結果。測試方法:再測法_同一份試卷,在不同的時間內對同一組受測者實測兩次,根據兩次測試分數計算得到的相關係數成為再測信度。(受間隔時間影響)經典測試理論_專案分析指標複本法_編制兩套題目不同,形式相同的試卷,在最短時間內用兩套試卷測試同一個群體,所得結果的相關係數成為複本信度。分半法(奇偶分半)經典測試理論_專案分析指標庫理法(只適用於客觀性測試)經典測試理論_專案分析指標用克倫巴赫係數公式估測主觀性測試信度:經典測試理論_專案分析指標6.效度_測試的有效性或測試結果的正確程度,是指測試在多大程度上測量到了所要測的東西。內容效度_測試內容與所要測量的內容之間的一致性程度。經典測試理論_專案分析指標效標關聯效度:效標:衡量測試有效性的參照標準,效標關聯效度也就是該參照標準有關的效度。結構效度:測試能測量理論上的結構或心理特性的程度。經典測試理論_優缺點優點:直觀形象;數學模型簡單;對數據的假設比較弱。缺點:1、試卷的特徵指標樣本相關。(能力高低,所測難度係數不同;能力相似程度不同,區分度不同)

2、被測試者的能力水準“測試相關”。(測試難易不同,所反映出相同被試者能力不同)

專案反應理論形成:1.雛形在本世紀四十年代中期出現,由丹麥學者拉什(GeogeRasch)提出。2.但直到60-70年代,由於電腦的廣泛應用和普及,電腦程式BICAL的出現,才使得專案反應理論的應用成為現實。

專案反應理論基本思想:在心理測驗中尋找一個相對“恒定”的度量標準,從而更加客觀的描述和評價測試手段中被測試對象的特徵。特質:被測驗者的某種相對穩定的支配其對相應的測驗做出反應,並造成這種反應的一致性的內在特徵,用希臘字母表示。(通常在-3到+3之間討論)專案反應理論基本原理:通過一定的數學模型,在測得的原始數據或其等價形式和被測試者的“特質”之間建立某種函數關係,利用測得的原始數據確定被測試者的值以及用相同的R度得出試卷或實體的各種特徵值。IRT是對被試能力的一種估計,並將被試對單個測驗專案的某種反應概率與此專案的一定特徵聯繫起來。專案反應理論_四條基本假設1.潛在特質空間的單維性假設:指測驗只測量考生的某一種能力,而可以忽略其他能力對測量能力的影響。(閱讀)2.局部獨立性假設:考生在測驗中對某題目上的正確反應概率不依賴於他在其他題目上的正確反應概率。專案反應理論_四條基本假設3.專案特徵曲線假設:考生對專案所作反應的概率遵循一定的函數關係,這種函數關係可以用項目特徵曲線形式表示出來。(知道-正確假設,即被試知道某一專案的正確答案,他必然答對。反之,亦然。)4.非速度限制假設測驗的進行是在沒有時間限制的條件下完成的,被試在專案反應上不理想,是能力不足引起的,而不是時間不夠所致。專案反應理論_模型專案反應理論由許多數學模型組成,每種模式都是建立在一定假設基礎之上的,是反映考生在測試中觀察不到的能力水準和觀察不到的反應之間的數學函數關係。構成模式的元素稱為專案參數(專案難度參數,專案區分度參數,猜測參數)專案反應理論_模型專案反應理論中模式的共性:1.模式是單維的,函數反應的可能性僅依賴於個體的能力水準,並隨能力水準的增加而增加;2.專案之間存在有條件的獨立;3.大多數專案反應理論模式採用二記分法。專案反應理論_模型單參數模型三參數邏輯斯蒂模型(threeparameterlogisticmodels)專案反應理論_模型三參數模式的特徵曲線:專案反應理論_模型第三章測驗信度

教學要點:通過本章的學習,掌握信度的意義,信度係數的計算,瞭解影響信度的主要因素以及提高信度的常用方法等內容。教學內容:

一、信度的意義1. 信度指實測值和真值相差的程度2. 信度指統計量與參數之間的接近程度3. 信度是指一種測驗對相同的應試者再次測驗時引起同樣反應的程度二、信度係數的計算1.穩定性係數2.等值性係數3.等值穩定性係數4內部一致性係數5.評分者的信度係數例題1。在一次測驗中有些學生得80分,這是否反映了他們的真實水準?如果再測一次他們的分數將改變多少?已知該次測驗的標準差為5,信度係數為0.84。2。某班期末考試,張生語文、數學的成績轉換成了T分數(平均數為50、標準差為10)分別為65和70,由此我們知道張生的數學比語文好一些,但二者之間的差異是否有意義(語文考試與數學考試的信度係數分別為0.84、0.91)。三、提高測驗信度的方法1. 信度係數以多大為宜2. 影響信度的因素3. 提高測驗信度的方法考核要求:

1.信度的意義2.信度係數的計算識記:穩定性係數,等值性係數,等值穩定性係數,內部一致性係數,評分者的信度係數3.提高測驗信度的方法請列舉一些你所使用過或接觸過的量表思考:量表的作用是什麼?你如何解釋下述現象?

一個很聰明的孩子,測得智商是80分一個學習很好的學生,考試成績為60分一個人緣很好的人,人際關係測量低於常模值量表幫助我們瞭解心理現象(心理特質),就像尺子幫助我們測量身高。

思考:我們如何知道我們有多高?有兩個工具:尺子/秤

尺子的數據與我們的目測更一致,而秤盤的數據則與我們的目測不一致。因此,尺子是測量身高的有效工具——效度。什麼材料的尺子?——鋼鐵(熱脹冷縮)涉及到一致性的問題。——信度物理不等於數學1.70與1.7的關係總結:量表是我們用來瞭解心理特質的工具,但這個工具是有誤差的。誤差要控制在一個許可的範圍內。回顧什麼是誤差?誤差的種類?誤差是在測量中與目的無關的變因所產生的不准確或不一致的效應。誤差分為隨機誤差和系統誤差。高爾頓的智力觀比奈的智力觀判斷題、選擇題和問答題SX2=ST2+SE2

ST2=SV2+SI2

SX2=SV2+SI2+SE2SV2SI2SE2SX2ST2

信度信度:測量結果的穩定性程度

若能用同一測量工具反復測量某人的同一種心理特質,則其多次測量的結果間的一致性程度,或測量的可靠性。定義1信度乃是一個組測驗分數的真分數的變異數與總變異(實得分數的變異數)之比。rXX=ST2/SX2信度的定義2定義2信度乃是一個被測團體真分數與實得分數的相關係數的平方。rXX=P2TX思考:相關係數的平方?信度的定義三定義3信度乃是一個測驗X與它的任意一個平行測驗X'的相關係數。rXX=PXX'

第二節信度的估計方法一、重測信度二、複本信度三、分半信度四、同質性信度五、評分者信度一、重測信度(Test-RetestReliability)定義:同一量表,同一被試群體,在不同時間,兩次施測,求其相關。實質:表示測驗結果的穩定性。故稱之為穩定性係數(CoefficientofStability)形式:施測—適當時間—再施測時間間隔的把握間隔時間越長,穩定性係數越低。適宜時間間隔依照測驗目的、性質及被試特點而定。幾分鐘至幾年。年幼兒童,間隔要小;年長群體,間隔可大。智力測驗的間隔不能太短,成就測驗的間隔不能太長。一般間隔時間不超過六個月。(即不能讓被試記住上一次測驗的內容,又不能讓其特質發生變化,或對所學知識產生遺忘)重測信度的優缺點優點:能夠提供有關測驗結果是否隨時間而變異的資料,可作為預測受測者將來行為表現的依據。缺點:易受練習和記憶的影響,前後兩次施測間隔的長短務須適度。二、複本信度(Alternate-formraliability)因為任何測驗只是所有可能題目中的一份取樣(行為樣本),所以可編制許多平行的等值測驗,叫做複本。複本等值要符合下列條件:

各份測驗測量的是同一種心理特性。各份測驗具有相同的內容和形式。各份測驗的題目不應重複。各份測驗題目數量相等,難度和區分度大體相同。各份測驗的分數分佈(平均數和標準差)大致相等。複本編好後,應再測一次,以確保各份測驗的等值。定義:兩個複本施測同一被試群體,求其相關。1.等值性係數:同時連續施測,反映內容變異。形式:複本A—同時—複本B2.穩定性與等值性係數:時間間隔施測,內容變異+重測信度誤差形式:複本A—適當時間—複本B複本信度的優缺點優點:可以在一定程度上避免重測法的缺點缺點:

(1)只能減少而不能排除練習和記憶的影響。(2)第二個測驗只改變了測驗的具體內容,已經掌握的解題原則,可以很容易地遷移到同類問題。(3)對於許多測驗來說,建立複本十分困難。三、分半信度(Split-HalfReliability)定義:在測驗沒有複本且只能實施一次的情況下,可將測驗專案分成對等的兩半,根據被試在這兩半測驗中所得的分數計算相關係數,即得分半信度。計算分半信度先要對測驗分半。不同的分半法可能會得到不同的信度值。分半信度(Split-HalfReliability)為了使兩半基本等值,可將專案按由易到難的順序排列編號,然後按奇數和偶數序號將專案分半。要注意使那些性質相同、聯繫緊密的專案分在相同的一半,否則會使信度值偏高。由於分半信度實際上只是半個測驗的信度,測驗越長、專案越多,兩半分數的相關就越高。計算時注意校正:

兩半方差同質:

斯皮爾曼-布朗公式:

r=2rhh/(1+rhh),

rhh:兩半分數間的相關係數

前提條件:一次施測,沒有副本,測驗可分成兩半。

特點:同一測驗可以有多個分半信度值。不適合用於速度測驗。適用於難度測驗。

四、同質性信度(HomogeneityReliability)同質性指測驗的所有題目測量的是同一種心理特質,表現為各個題目得分之間有較高的相關,相關越高則同質性越強。同質性信度,也叫內部一致性係數,它是指測驗內部所有題目間的一致性程度。同質性信度就是一個測驗所測內容或特質的相同程度。存在問題優點:測驗只施測一次,可排除記憶和練習的效果缺點:1、只可在單一特質的測驗上使用。2、不適用於速度測驗,不能單一使用,需和重測信度、複本信度配合使用。五、評分者信度(ScorerReliability)評分者信度是指不同評分者之間在測驗結果計分上的一致性。在心理測驗中,評分者信度的計算,通常是隨機抽取若干份試卷,由至少兩位受過訓練的評分者按計分規則分別判分,然後計算它們的相關。幾個評分者的評分越一致,評分者信度越高。

五、評分者信度(ScorerReliability)最簡單的估計方法就是隨機抽取若干份答卷,由兩個獨立的評分者打分,再求每份答卷兩個評判分數的相關係數。這種相關係數的計算可以用積差相關方法,也可以採用斯皮爾曼等級相關方法。如果評分者在三人以上,而且又採用等級記分時,就需要用肯德爾和諧係數來求評分者信度。估計信度的方法與測驗複本的數目

以及施測次數的關係所需要施測的次數所需要複本的數目一二一分半信度同質性信度評分者信度複本信度(連續施測)二再測信度複本信度(間隔施測)在一般情況下,間隔施測的複本信度最低,因為很多因素有機會影響到分數。相反,校正過的分半相關,因為影響的因素少,所得的信度估計為最高。各種信度係數相應誤差變異的來源信度係數的類型誤差變異的來源再測信度複本信度(連續施測)複本信度(間隔施測)分半信度同質性信度評分者信度時間取樣內容取樣時間與內容取樣內容取樣內容的異質性評分者間的差異

估計信度的方法遠不止上面談的幾種.實際上,有多少種誤差來源,便有多少種估計信度的方法。一個測驗哪種誤差大,便應該用哪種誤差估計。有時一個測驗需要有幾種信度係數,這樣我們就把總分數的變異數分成不同的分支。

例題假設對100個六年級學生以兩個月的時間間隔先後施測一個創造力測驗的A\B兩個複本,所得的等值性與穩定性係數為0.70。我們還根據被試對每個複本的反應計算出分半信度為0.80(先計算每個複本的分半相關係數。將二者平均後再用斯皮爾曼-布朗公式校正)。同時,我們讓另一個評分者隨機抽取50份卷子另外評分,得到評分者信度為0.92。然後,我們對這三種方法所產生的誤差變異進行分析。一個假想測驗的誤差變異來源分析信度類型誤差變異量誤差變異來源複本信度(間隔施測)1-0.70=0.30時間與內容取樣分半信度1-0.80=0.20內容取樣上述二者差異0.30-0.20=0.10時間取樣評分者信度1-0.92=0.08評分者差異誤差變異總和0.20+0.10+0.08=0.38真實變異1-0.38=0.62一個假想測驗的誤差變異來源分析真實變異誤差變異時間上的穩定性,複本之間的一致性,評分者之間的一致性內容取樣誤差時間取樣誤差評分者間差異62%20%10%8%第三節提高測量信度的方法一、影響測量信度的主要因素二、提高測量信度的常用方法三、幾點說明一、影響測量信度的主要因素1。被試方面2。主試者方面3。施測情景方面4。測量工具方面5。兩次施測得間隔時間例題

1.假設有一個包括10個題目的測驗,信度為0.50,若把測驗增加到50個題目,其信度將增加到多少?雖然增加題目可以提高信度,但並非多多益善。增加測驗長度的效果遵循報酬遞減率,測驗過長是得不償失的,有時還會引起被試的疲勞和反感而降低可靠性。還要注意一點,只有當新題目是與原題目選自同一總體,即與原題目具有同質性時,增長測驗才能改進信度。二、提高測量信度的常用方法1、適當增加測驗的長度2、使測驗中所有試題的難度接近正態分佈,並控制在中等水準。3、努力提高測驗試題的區分度4、選取恰當的被試團體,提高測驗在各同質性較強的亞團體上的信度。5、減少無關因素的影響。三、幾點說明1、提高測驗信度的方法很多,以上只是常用幾種2、本章所用方法僅適用於常模參照測驗3、目標參照測驗的信度問題必須以測量的概化理論為基礎才能進行較好的處理速度測驗4、幾個一般性參照標準

思考一個信度係數必須多高才算“足夠高”?0.7-0.8基本滿足基礎研究中的多數目的。智力測驗、標準化學績測驗:0.9人格測驗:0.8自編測驗:0.6

第四章測驗的效度

第一節效度概述一、什麼是效度二、效度與信度的關係一、什麼是效度效度是指一個測驗或量表實際能測出其所要測的心理特質的程度。1。效度是針對測驗結果的2。效度是針對某種特定測量目的的3。效度只有程度上的差異

效度=S2V/

S2X=r2xy

效度是相對的,在特定人群、特定時間和特定使用條件下是有效的。二、效度與信度的關係

效度驗證和效度概化1、效度驗證要確定測驗在解決某方面問題時的效度,需要收集充分的客觀事實材料和證據,這種收集大量資料和證據來檢驗測驗效度的工作過程就叫效度驗證。內容效度的重點是確定測驗內容與某個行為領域的一致性,而該行為領域往往是已經被明確界定了的,效標效度著重於測驗分數是否與效標測量有高度相關,構想效度的重點則是測驗編制所一句的心理特質理論和測驗測量到該理論構想或特質的相關程度。2、效度概化指在某一情境中所做的效度研究能否推廣到其他情境。(特定時間、特定情境、樣本的局限性)預測源效標施測情境被試團體建立效度的方法第二節效度的估計比較常見的解釋效度的角度:1。用測量的內容來說明目的——內容效度2。用心理學上某種理論結構來說明目的——結構效度3。用工作實效來說明目的——實證效度以上分類是相對的,有些專家認為,效度就是多方尋找證據來證明一個測驗有效性的過程。第二節效度的估計1966年美國心理學會在《教育心理測驗值標準》中將效度分為三大類:1. 內容效度(ContentValidity)內容效度指測驗實際測到的內容與所要測量的內容之間的吻合程度。2. 結構效度(ConstructValidity)結構效度是指測驗對於被稱作構想的某一理論概念或特質測量的程度。3. 實證效度(CriterionrelatedValidity)實證效度是指一個測驗對處於特定情景中的個體的行為進行估計的有效性一、內容效度定義:內容效度指測驗實際測到的內容與所要測量的內容之間的吻合程度。適用於成就測驗、選拔和分類的職業測驗,不適於能力傾向測驗和人格測驗。方法:邏輯分析法注意與表面效度的區分內容效度與表面效度的區別

(1)表面效度是由外行對測驗做表面上的檢查確定的,而內容效度是由夠資格的判斷者(專家)詳盡地、系統地對測驗評價而建立的。(2)這兩者都是根據測驗的內容作出的主觀判斷,但判斷的標準不同。前者只考慮題目與測量目的之間明顯的、直接的關係,後者則同時考慮到題目與測量目的和內容之間邏輯的微妙關係。常常有這種情況,外行人認為無效的題目,實際上並不一定無效。例如,MMPI中有這樣的題目:“我的喉嚨裏總好象有一塊東西堵著似的。”表面上看來這種題目似乎與個性無關,但在臨床上,回答“是”的人很可能為癔病或神經衰弱患者。表面效度不是效度的客觀指標,但能對受測者的動機產生影響,因而也會影響到效度。(3)最高行為測驗要求有較高的表面效度,典型行為測驗卻要求較低的表面效度。雙向細目表(舉例)一、教學目標(以橫軸表示)

以Bloom所提的認知領域六個教學目標為依據:知識、理解、應用、分析、綜合、評鑑。

(此次編製成就測驗的歷程,可將分析、綜合、評鑑,統合成「高層次思考」)二、教材內容(以縱軸表示)

以出題的範圍,表示出包含幾個不同的單元。以臺灣學校教育文科為例知識理解應用分析綜合評鑑總和唐詩88442228文言文64642224新詩86442226散文64622222總和2822201488100內容效度的評價

內容效度不但是評價學績測驗的最適合的方法,而且編制任何測驗都要加以考慮的方面。內容效度既具有一定的優點,也有一定的局限。它的主要缺點是缺乏理想的數量指標,因而妨礙了資訊交流和各測驗間的相互比較。二、結構效度定義:結構效度是指測驗對於被稱作構想的某一理論概念或特質測量的程度。例如:智力、性向、動機、社會性、社經地位等。主要用於智力測驗、人格測驗方法:1。測驗內部尋找證據法(1)確定內容效度作為結構效度的證據(2)分析被試的答題過程(3)通過計算測驗的同質性信度來檢驗結構效度2。測驗之間尋找證據法(1)相容效度(2)區分效度(3)因素分析3。考察測驗的實證效度法4。多種特質——多種方法矩陣法1。測驗內部尋找證據法(1)確定內容效度作為結構效度的證據例如,編制語文能力測驗時,編制者將總體內容描述為對辭彙下定義、對語言做類比推理、以及在句子中正確運用文字的能力,這在實際上就是給“語文能力”的構想下了定義。(2)分析被試的答題過程例如,在人格測驗上有這樣一些題目:“當事情不順我意時,我時常動怒。”“我總避免批評別人的言行。”(3)通過計算測驗的同質性信度來檢驗結構效度2。測驗之間尋找證據法(1)相容效度(與權威測驗的相關係數)斯坦福——比奈量表是世人公認有效的智力測驗,後人編的智力測驗大多與此量表作比較,如果相關高,便說明新編測驗有效。(2)區分效度(3)因素分析因素分析一、探索性因素分析如果測驗要自編時,則採用探索性因素分析。採用SPSS或SAS統計分析軟體即可。二、驗證性因素分析若要採用別人以編好的測驗,則需採用驗證性因素分析,驗證是否具有其宣稱的因素。需採用LISREL或AMOS統計軟體。多種特質——多種方法矩陣法坎貝爾和費司克(1959)A:同方法測同特質B:不同方法測同特質C:同方法測不同特質D:不同方法測不同特質相關係數的高低應為:A>B>C>D多種特質——多種方法矩陣法多種特質——多種方法矩陣法表明,測驗的信度實際上是用最相似的方法(例如再測法或複本法)對同一特質進行測量所得結果間的一致性;效度實際上是用極不相同的方法對同一特質進行測量所得結果間的一致性。可見,信度與效度的基本區別在於測量方法的相似性。對構想效度的評價構想效度是個有爭議的概念。優點:其貢獻在於把著眼點放在提出假設、檢驗假設上,因此使心理測驗不再只是作實際決定的輔助工具,同時還成為發展心理學理論的重要工具,從而使測驗有了更廣闊的發展前景。缺點:三、實證效度定義:實證效度是指一個測驗對處於特定情景中的個體的行為進行估計的有效性。也稱為效標關聯效度。根據效標資料搜集的時間差異,實證效度可以分成同時效度和預測效度兩種。方法:1。相關法最常用來建立實證效度的方法是求測驗分數與效標測量間的相關(積差相關法、等級相關法、二列相關法、四分相關法)2。分組檢驗法3。命中率4。功利率

U=B(NS)-C(NU)-SU代表功利率,B代表用一個成功的工人所產生的平均利潤,C代表錄用一個不合格的工人所造成的損失,NS和NU分別代表所錄用的人中成功和不成功的人數,S代表整個選人程式的費用。其他效度1、表面效度對測驗原理不熟悉的人表面上看一個測驗是否有效。表面效度會影響被試測驗動機區別效度用以檢驗職業測驗效標關聯效度的一種指標。3、內部效度和外部效度內部效度(內部一致性效度)反應了測驗的結構效度。本質上是對同質性的考量。對測驗效度的解釋有限。外部效度指將研究結果概化到其他情境和總體的程度。影響一項研究應用價值的大小。效度概化提高外部效度的方法之一。2、合成效度和區別效度合成效度以職業表現為效標,根據工作分析的結果確定該職業中不同工作專案所占的比重,分別求出測驗分數與各工作專案之間的相關係數,再按不同的比重加權計算,即可。用以預測整個工作績效。第三節提高測量效度的方法一、影響測量效度的因素測驗本身的因素1。測驗的長度記住公式,並注意與信度的相應公式相區分:r(Kx)y=Krxy/√K(1-rxx+Krxx)rkk=Krxx/[1+(k-1)rxx]2。測量的信度效標因素1、效標的選擇2、測驗結果與效標之間的關係類型

是否是線性相關3、效標測量的信度

效標係數校正公式樣本代表性干涉變數二、提高測量效度的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论