信赖区间与信心水准的解读.ppt_第1页
信赖区间与信心水准的解读.ppt_第2页
信赖区间与信心水准的解读.ppt_第3页
信赖区间与信心水准的解读.ppt_第4页
信赖区间与信心水准的解读.ppt_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信賴區間與信心水準的解讀,一、從常態分配談起,為何成績單只要有個人成績加上平均數、 標準差,就足夠估計學生大約的名次? 例:A 生成績(全班 40 人) 由資料可知,A 生平均分數距離全班平均分數約 個標準差。 由 68-95-99.7 的法則可知,A 生的百分等級約為 68+(100-68)/2=84,全班排名約為 40(100-84)% 6 名,為何可以如此估算?,我們假設全班成績分佈為一常態分佈,設常態分配的期望值為m、變異數為s 2,則常態分配的機率分配函數是,標準常態分配,標準常態分配累積機率表,上面的標準常態累積機率表,是由平均值為 0、標準差為 1 的標準常態分配機率密度函數(上圖中的 f (x)),計算從-到 zp 曲線下的面積而得,通常記作F(zp),因此上表可以寫成 F(zp) = p。,以 z = 1.96 為例, F(1.96)0.975, 所以在平均值前後 1.96 個標準差的機率為0.9750.025 = 0.95。,標準常態分配累積機率表,大學聯考的統計資料,已知 X54.63 s 13.73,某生國文成績為 24.7 分 這個分數距離平均值 個 標準差。 利用常態分配表推知他的百分等級是 2.5%, 但由大考中心資料得知他實際的百分等級是 4% 上述兩個例子是用常態分配去近似班級考試分配及大學指考分配,但只是近似,顯然不可能完全正確推算名次。,二、信賴區間的簡介,某次民意調查發表之記者會特安排在十月四日世界動物日當天,以凸顯對解決流浪狗問題的迫切性,在 1111 份回收問卷中,其中的一個問題為: 您願不願意以實際行動來照顧住家附近的流浪狗/貓? 願意 140 (12.6%) 不願意 971 (87.3%) 以樣本比例 來代表母體的真正比例 p 合理嗎? 願意照顧流浪動物的民眾真的是 12.6% 嗎?,區間估計,92年7月19日,某報就成年人對公立大學學費是否太貴的議題進行調查,於20日報導:成功訪問了871位成年人。在百分之九十五的信心水準下,有46% 民眾認為學費太貴,抽樣誤差在正負 3.3% 之內,而該調查是以台灣地區住宅電話為母體作尾數兩位隨機抽樣。 這並不代表認為公立大學學費太貴的民眾比例在(0.427,0.493)這個區間範圍內 我們每次做抽樣調查時都可以做出一個區間估計,而每次做出區間會涵蓋實際比例的機率為95%。 但是,這些區間與 95% 如何求出?,信賴區間的實驗,老師為全班每個同學各準備一籤筒,事先不讓學生知道籤筒裡放了幾支籤,內含若干有獎籤,然後做一次實驗:每個同學在籤筒內抽取一支籤,記錄是否為有獎籤後放回,連續抽取 20 次。記錄內容必為下列表格其中一列:,區間公式對照表(n =20)區間半徑 =,舉例:若一學生抽 20 次得到 9 次有獎籤,則中籤比例為 9/20 = 0.45,區間半徑為 區間為 0.45-0.218, 0.45+0.218 ,即 0.232, 0.668 ,0.6,0.7,0.8,0.9,1.0,0.5,0.4,0.3,0.2,0.1,0,信賴區間圖,右圖中,全班 40 個學生每個人都得到一個區間,如果老師事先知道 p = 0.6,那麼從圖中可知,有 35 個區間包含真實的 p 值。 全班 40 個學生包含 p 值區間個數的期望值為 40 0.95 = 38 個,的公式是如何得來的?,首先, 1.96 的由來是因為在平均值前後1.96 個標準差所佔比例約為 95%。 單獨一次抽籤的標準差是 , 平均 n 次抽籤的標準差是 。 所以 是指在 p 前後 1.96 個標準差的範圍 。,以真實中獎機率 0.6 為例,20 次抽籤抽中有獎籤的比率必為 0, 0.05, 0.1, , 1.0 其中之一,舉例:抽中 9 次的中獎比率為 0.45,此事件發生機率為 0.071。(上圖左邊第二條綠色長條) 上圖將每一種中獎比率與其發生機率作成直方圖,而綠色區域是 0.6 前後 1.96 個標準差的區域。,現在用常態分配去近似二項分配,每個同學 20 次抽籤的結果,抽中有獎籤的比率必為圖中 x 坐標之一,且此比率落在綠色區域的機率為 0.95。 每個同學 20 次抽籤抽中有獎籤比率的結果好比是在擲一枚出現正面機率是 0.95 的銅板,成功擲出正面(抽中有獎籤比率落在綠色區域)的機率是 0.95。,樣本平均 落在 區間的樣本點, 也就是期望值 p 會落在 區間的樣本點。,區間公式對照表(n =50)區間半徑 =,信賴區間圖,右圖中,全班 40 個學生每個人都得到一個區間,如果老師事先知道 p = 0.6,那麼從圖中可 知,有 37 個區間包含真實的 p 值。 全班 40 個學生包含 p 值 區間個數的期望值為 40 0.95 = 38 個 n = 50 時,區間半徑成為 因此區間長度變短了。,區間比較圖,n =20 n = 50,信賴區間的解讀,全班依照這樣的區間公式求出的 40 個區間,不論 n =20 或 n = 50 的模擬實驗結果,可以發現並非一定有 95% 的區間會涵蓋實際值 p。 全班執行這個實驗,正如 40 個學生每人都在擲一枚出現正面機率為 0.95 的硬幣,我們只知道此實驗出現正面個數的期望值為 40 0.95 = 38 個,並不能保證一定出現 38 個正面。 每個學生做出的區間,只可能有兩種情形:包含真實 p 值,或不包含真實 p 值。因此一旦做出區間後,並不能說真實 p 值在此區間的機率為 95%,n = 20 與 n = 50 的區間估計的差異,因區間半徑等於 , 所以較大的 n 值具有較小的區間半徑,也意味著有較佳區間估計的效果。 較大的 n 值會導致此抽樣分配會較近似常態分配。,休息一下 做個例題,某校 1000 人一起做實驗,每個人均從已知籤筒(內有 5 支籤,其中 2 支是有獎籤)抽籤 n 次,每次取出一支籤,取出後須放回。下面第一圖是 n = 50 時,每人抽中有獎籤比率與人數的分佈圖,第二圖則是 n =100 的分佈圖。試以此兩圖回答下面三題:,下列敘述何者正確: (1)在 n = 50 的實驗裡,一學生抽中有獎籤比率正好是 0.4 的機率為 。 答:()一學生抽中有獎籤比率正好是 0.4 是指他抽 50 次籤中得有獎籤 20 次,因此這個事件的機率為 。,(2) 比較 n = 50 與 n = 100 的實驗,發現抽中有獎籤比率在 0.280.52(含此兩值)之間的學生人數,在 n = 100的實驗裡學生人數較多。 答:() n = 50 的實驗裡,抽中有獎籤比率小於 0.28 的學生數為 15+8+3+1+1 = 28,大於 0.52 的學生數為 15+8+4+2+1 = 30,因此在 0.280.52 之間的學生人數為1000-28-30 = 948。同理, n = 100 的實驗裡,在 0.280.52 之間的學生人數為1000-2-1-1-3-1-1 = 991。,(3) 在 n = 50 的實驗裡抽中有獎籤比率在0.380.42(含此兩值)之間的學生人數較 n = 100 的實驗裡抽中有獎籤比率在0.380.42(含此兩值)之間的人數多,也就是說 n = 50 的圖形較 n = 100 學生人數分佈更往 0.4 集中。 答: ( ) n = 50 的實驗裡,抽中有獎籤比率在 0.380.42 之間的學生人數為111+115+109 = 335。同理, n = 100 的實驗裡,在 0.380.42 之間的學生人數為77+80+81+79+74 = 391,因此 n = 100 學生人數分佈更往 0.4 集中。,(4) 在 n = 100 的實驗裡,全校抽中有獎籤比率在 0.310.49(含此兩值)之間的學生數為 950 人。 答:()n = 100 的實驗裡,抽中有獎籤比率小於 0.31 的學生數為 10+6+4+2+1+1 = 24,大於 0.49 的學生數為 10+7+4+3+1+1 = 26,因此在 0.310.49 之間的學生人數為1000-24-26 = 950。,(5) 當 n = 10000 時,我們可以預期抽中有獎籤比率在 0.310.49(含此兩值)之間的學生數大於 950 的機率會很大。 答:() n = 50 的實驗裡,抽中有獎籤比率在 0.310.49 之間的學生人數為1000-96-96 = 808,顯示 n 值越大時,可預期抽中有獎籤比率在 0.310.49 之間的學生數會越大。 提示:此實驗的標準差為,若已知信心水準 90% 的區間半徑公式是 (其中 是每人抽中有獎籤的比率),我們將 n = 50 的區間半徑列表如下:(其中區間半徑值是四捨五入至小數點後第四位的近似值) 利用下表,每個學生均可做出一個信心水準為 90% 的信賴區間,試問下列敘述何者正確?,(1) 在 n = 50 的實驗裡,抽中有獎籤比率是 0.5 的學生所做出的區間半徑一定大於其他抽中比率的學生做出的區間半徑。 答:()從表中即可看出或由 可看出,(2) 若有一學生抽取 50 次後抽中有獎籤比率是 0.3,那麼 90% 的信心水準的意義是指,真實中獎機率 0.4 落在此學生得到的信賴區間內的機率是 0.90。 答:( )雖然該生所做出的區間為 0.3-0.1069, 0.3+0.1069 ,即 0.1931, 0.4069 ,已經知道此區間涵蓋真實的中獎機率 0.4,因此我們不能再說 0.4 落在此學生得到的信賴區間內的機率是 0.90 。,(3) 90% 的信心水準的意義是指全校 1000人在 n = 50 的實驗裡,一定會有 900 人的信賴區間涵蓋真實中獎機率 0.4。 答:( )90% 的信心水準的意義是指全校 1000 人在 n = 50 的實驗裡,在 1000 個信賴區間中,涵蓋真實中獎機率 0.4 區間個數的期望值為 900 個。正如投擲一枚公正銅板 1000 次,得到正面次數的期望值為 500 次,但不是一定正好得到 500 次正面。,(4) 若在 n = 50 的實驗裡要求信心水準提高時,我們必須將區間半徑增大。 答:()要求信心水準提高是指,在期望值前後取更大的區間範圍,才能使抽中有獎籤比率落在此區間的機率變大,這也是說,我們必須將區間半徑增大。舉一例,若信心水準是 95%,區間公式須變為 。,(5)在 n = 100 的實驗裡,因區間半徑 較 n = 50 實驗的區間半徑 小,所以信心水準隨著下降。 答:( )這是錯誤的觀念,由於這兩個公式都是指期望值前後 1.65 個標準差的範圍,此區域占全部約 90%,因此信心水準均為 90%。,從 n = 50 實驗的結果(第一圖)及區間公式表可知,這次實驗每個學生所做的信賴區間可以涵蓋真實中獎機率 0.4 的人數有 個。 答:(890 個)從區間公式表可知,抽中比率是 0.30 的區間為 0.1931, 0.4069 ,抽中比率是 0.50 的區間為 0.3833, 0.6167 。再由第一圖知,抽中比率在0.30 0.50 的人數為 1000-54-56 = 890,三、簡介中央極限定理,首先介紹隨機變數 X : 定義 X 的期望值 變異數 (亦即 ) 舉例:若 X 是一中獎機率為 p 的二項分配: 可得 E(X) = p1+(1-p)0 = p, Var(X) = p(1-p)2+(1-p)(0-p)2 = p(1-p)。,中央極限定理:,設 X1, , Xn 是獨立且具相同分配的隨機變數,其中 E(X1) = m,Var(X1) = s 2,則 當 n 時,隨機變數 的分配會趨近於標準常態分配 , 也就是說隨機變數 的分配會趨近於標準常態分配,討論定理中的隨機變數 前,首先介紹兩個小引理:,引理一:若 X、Y 是隨機變數且 a、b 為常數,則 E(X+Y) = E(X) + E(Y)且 E(aX+b) = a E(X) + b,引理二:若 X、Y 是獨立的隨機變數且 a、b 為常數,則 Var (X+Y) = Var (X) + Var (Y)且 Var (aX+b) = a 2 Var (X),引理的說明,引理一可導出 引理一的隨機變數若加上獨立的條件,則有 所以,若 X、Y 是獨立的隨機變數,,計算 n 次二項分配平均的期望值與標準差,用機率為 0.6 的二項分佈說明中央極限定理,執行抽到有獎籤機率為 0.6 的實驗 20 次,設抽到有獎籤 k 次,則此機率為 而此實驗中籤機率的期望值為 0.6 ,變異數為 引進函數 ,而將此兩機率函數畫圖於下:,介於期望值 0.6 前後 1.96 個標準差是指中籤比例在 之間,因二項分配是一離散型的隨機變數,所以更正確的說法是中籤比例在 0.40.8 之間,且發生此事件機率為 經計算此值約為 0.963,與常態分配的 0.950 僅差距0.013,每個同學 20 次抽籤的結果,有獎籤的比率必為圖中 x 坐標之一,且當此比率 落入綠色區域時,其所擁有的區間 也正涵蓋真實的 p 值,而此事件的機率為 0.963。,樣本平均 落在 區間的樣本點, 也就是期望值 p 會落在 區間的樣本點。,討論一、上述例子指出 n = 20 時,二項分配在期望值前後 1.96 個標準差的機率(0.963)與常態分配的機率(0.95)差距很小,而且我們期待當 n 越大時,差距會越小。 討論二、當每個學生抽籤 20 次時,其中獎比例 是 0.40.8 之間的機率約為 0.963,意指 事件發生的機率約為 0.963。同一式子也表示 事件發生的機率約為 0.963。,上述討論若用常態分配去近似二項分配,96.3% 將近似成 95%,而每次實驗所得 可作出區間 而真實 p 值落在此區間的機率約為 0.963(用常態分配近似時,會宣稱此機率約為 0.95),此區間我們稱為信賴區間,此機率我們稱為信心水準。,執行抽到有獎籤機率為 0.6 的實驗 50 次,設抽到有獎籤 k 次,則此機率為 而此實驗中籤機率的期望值為 0.6,變異數為 引進函數 ,而將此兩機率函數畫圖於下:(截取部分),介於期望值 0.6 前後 1.96 個標準差是指中籤比例在 之間,因二項分配是 一離散型的隨機變數,所以更正確的說法是中籤比例在 0.480.72 之間,發生此事件機率為 經計算此值約為 0.941,與常態分配的 0.950 僅差距0.009,討論一、上述例子指出 n = 50 時,二項分配在期望值前後 1.96 個標準差的機率(0.941)與常態分配的機率(0.95)差距很小,而且我們期待當 n 越大時,差距會越小。 討論二、當個學生抽籤 50 次時,其中獎比例 是 0.480.72 之間的機率約為 0.941,意指 事件發生的機率約為 0.941。同一式子也表示 事件發生的機率約為 0.941。,上述討論若用常態分配去近似二項分配,94.1% 將近似成 95%,而每次實驗所得 可作出區間 而真實 p 值落在此區間的機率約為 0.941(用常態分配近似時,會宣稱此機率約為 0.95),此區間我們稱為信賴區間,此機率我們稱為信心水準。,比較一般的情形是:已知抽籤的真實中獎機率為 p,只要給定正數 z,則當 n 時,p 值落在實驗所得區間 的機率會趨近於 F(z) - F(-z) 此處 是指標準常態分配的累積機率函數:,此外 F(z) - F(-z) 的值可化簡成 2 F(z) - 1: 若要求信心水準 2 F(z) - 1 = 0.95,則解出 F(z) = 0.975,查下表知 z 值約為 1.96 若要求信心水準 2 F(z) - 1 = 0.90,則解出 F(z) = 0.95,查上表知 z 值約為 1.65,圖形說明由 95% 改成 90%,信心水準由 95% 改成 90%,95% 的信賴區間 90% 的信賴區間,現在要求信心水準 2 F(z) - 1 = 1 - a,解得F(z) = 1 a/2 ,查表可得 z 值,用 表示 信賴區間為 其中 (通常我們會將 a 取成較小的數字) 此外,若 1 - a 越大,則區間半徑就越大; 而若固定 1 - a 的值,取樣數 n 越大則區間半徑越小。,信心水準為 1 - a 的信賴區間,但我們這個實驗每個學生用的區間是 其中 (k 是抽中有獎籤的次數) 因此區間半徑會隨著抽中有獎籤次數而改變 於是必須解不等式 得 8 k 15,發生機率為 經計算約為 0.928,即實際信心水準為 92.8%,區間公式對照表(n =20)區間半徑 =,真實的信心水準,實驗 n 值為 20 及 50,如果區間取 則實際的信心水準是 96.3% 及 94.1%。 但是本次實驗中,區間為 則實際的信心水準是 92.8% 及 94.1%。,實驗成功了嗎?,n = 20 的實驗中,每個同學所擁有的區間,我們只能知道它涵蓋 p 的機率是 0.928,也就是說,每個同學的區間涵蓋 p(成功)的機率是 0.928,不涵蓋 p(失敗)的機率是 0.072。 當 40 個同學做此實驗時,計算涵蓋 p 的區間數正好是 38 個的機率為 ,經計算約為 0.236 !,n = 50 的實驗中,每個同學所擁有的區間,每個同學的區間涵蓋 p(成功)的機率是 0.941,不涵蓋 p(失

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论