统计学专业教授讲座(续2)_第1页
统计学专业教授讲座(续2)_第2页
统计学专业教授讲座(续2)_第3页
统计学专业教授讲座(续2)_第4页
统计学专业教授讲座(续2)_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

授 課 目 錄 第1章 導 論第2章 統計資料的整理與描述第3章 機率導論第4章 常用的機率分配與統計分佈第5章 描樣方法與描樣分佈第6章 統計估計第7章 統計檢定第8章 變異數分析第9章 相關分析與迴歸模式第10章 無母數統計檢定第11章 類別資料分析-列聯表與卡方檢定課前補充-系統、線性、與線性系統系統的定義:相互作用以達到某一目的之元件組合。過程 H輸出Y(t)輸入X(t)以符號表示:X(t) Y(t)以運算子(Operator)或函數符號H表示:Y(t) = H X(t)何謂線性、線性系統(Linear System)?X1(t) Y1 (t)and X2 (t) Y2 (t)ThenaX1(t) + bX2 (t) aY1 (t) + bY2 (t)-SuperpositionWhere a、b = Constant符合上述重疊原理(Principle of Superposition)即線性。HaX1(t) + bX2(t) = a HX1(t) + b HX2(t) = a Y1(t) + b Y2(t)符合上述重疊原理之系統即線性系統。第九章 相關分析與迴歸模式小時候胖,是不是胖?,龍生龍、鳳生鳳、老鼠生的兒子會打洞?,日常生活中,常發某些現象與其他現象有相關性(Correlation)。本章係探討變數之間的相關程度,並用統計方法建立一合適的迴歸模式。迴歸模式分為單變數(簡單)迴歸與多變數(複)迴歸。9.1 資料散佈圖與相關程度研究資料相關與迴歸之步驟搜集資料繪出其散佈圖(x, y)求出相關係數以散佈圖建立y(x)之迴歸模式估計與檢定建構迴歸模式一般而言,任兩變數之間存在某種關係,包括正相關、負相關、或統計無關。相關係數(Correlation Coefficient)以 r 表示,即兩個變數X與Y的相關程度,其定義為:r = sX,Y / sXsY = Cov(X, Y) /sXsY(9.1)式中:s2Xs2Y分別為X與Y為變異數; sX,Y = Cov(X, Y)為X與Y為共變異數。當r 0時X與Y之間為正相關;當r 0時X與Y之間為負相關;當r = 0時X與Y之間為沒有關係存在,或統計無關。在實務應用上,常以樣本相關係數來估計r,即(9.2)其中, (xi , yi)為第i對樣本值,i =1, 2,n; 分別為其各對變數之樣本平均值。 r 僅能用來衡量”直線相關程度,至於非直線的情況而言,r 就無任何代表意義。相關係數的解釋(1) 有相關並不表示有因果關係。(2) 相關係數必須經過假設檢定。(3) 絕對值相等的正負號相關係數代表兩變數的關連強度是一樣的,只是方向不同。(4) 即使相關係數等於0,與其說是兩變數無關,寧可說是此兩變數沒有線性。相關係數 r 的檢定當隨機變數X與Y之聯合分佈服從二元常態分配時,欲檢定H0 : r = 0, vs. H1 : r 0時,其檢定統計式:tn-2=(9.3)當欲檢定相關係數是否等於不為0的某特定值時,即檢定H0 : r = r0 , vs. H1 : r r0 (r0 0)時可使用費雪轉換(Fisher Transformation),其檢定統計式:(9.4)在統計假設H0為真時,NZ0 , 1/(n-3) Z0 = 1/2 ln(1+ r0)/(1- r0)範例、抽10人,發現8歲體重和20歲體重的相關係數為0.8,但說不定母體的相關係數 r 是0,但因抽樣誤差,而產生樣本關係數為0.8,因此要進行相關係數相關係數的假設檢定。SOL:統計假設為:H0:r = 0, vs. H1:r 0a = 0.05 下之雙邊檢定tn-2= 0.8(10-2)1/2/(1-0.82)1/2= 3.77Critical Value = /=tinv(0.025*2,8)/= 2.3 (Two-sides)Critical Value = /=tinv(0.05*2,8)/= 1.86 (One-side)3.77值大於顯著水準0.05之臨界值Reject H0 8歲體重和20歲體重的相關係數為0.8之假設。範例、財金系研究指出台灣地區加權股票指數漲跌X與成交量Y有關,其相關係數為0.7。工管系為驗證此結果,隨機抽取去年39筆資料,得到 為0.6。SOL:統計假設為:H0:r = 0.7, vs. H1:r 0.7a = 0.05 下之雙邊檢定=1/2 ln(1+0.6)/(1-0.6)= 0.69/=fisher(0.6) = 0.69/(=0.6,transform, 0.69)Z0 = 1/2 ln(1+ r0)/(1- r0)= 1/2 ln(1+0.7)/(1-0.7)= 0.87/=fisher(0.7) = 0.87/(r= 0.7,transform, 0.87)= 6|0.69-0.87| = 1.081.08值小於顯著水準0.05之臨界值(=1.96)Accept H0 接受台灣地區加權股票指數漲跌X與成交量Y有關,其相關係數為0.7之假設。9.2 單變數迴歸模式單變數迴歸模式與相關係數都是採討兩個變數間之關係。在相關係數分析中,並無考慮到此兩個變數X、Y間之統計關聯。若變數Y(依變量或稱應變數)和變數X(自變數)之間存在有線性迴歸關係,則可建構一合適之迴歸模式,此稱之為單變數迴歸模式(Simple Linear Regression)。其迴歸統計模式如下:Yi = b0 + b1 Xi + ei, i =1, 2,., n(9.5)式中 : i : 樣本個數, n :共有n組樣本;(Xi , Yi ):第i組樣本的自變數與應變數;b0 , b1:參數(常數值);ei:樣本中第i個隨機誤差項。此迴歸模式有以下的基本假設:1、隨機誤差ei是互相獨立、且均服從常態分配N(0, s2)。2、Xi為常數,Yi為b0+b1Xi與ei之和,故互相獨立、且Yi N(b0+b1Xi, s2)。3、ei與Xi為無關,即Cov(ei , Xi) = 0。即Eei = 0 EYi | Xi = xi = b0+ b1 xiVarei = s2 VarYi | Xi = xi = s2Regression Linex1x2b0+b1 x1b0+b1 x2y1 N(b0+b1x1, s2)y2 N(b0+b1x2, s2)EY | x = b0+b1 x由上圖知,Xi視為一常數, Yi則為一隨機變數。EYi= b0+b1Xi受到自變數Xi的影響,且此影響呈直線走向。此直條EYi= b0+b1Xi稱之迴歸函數(Regression Function),參數b0 , b1分別為直線之截距與斜率,此二未知參數須進行估計與檢定。一般估計b0 , b1用最小平方法。應用最小平方法估計b0 , b1(樣本觀點)eeey1x1b0 + b1x1最小平方法概念是根據n組資料(xi , yi),找出一條樣本迴歸或稱配適線(Fitted Line)= b0 + b1xi , ,其中b0 , b1分別代表b0 , b1之估計值。使得各資料值yi與迴歸線上所對應的配適值之差異最小。所謂最小,是以各個差異的平方總和(SSE, Sum of the Squared Error)最小為標準:SSE = (9.6)欲計算出b0 , b1而使SSE值最小,則須將SSE分別對b0 , b1做偏微分並令其為0,則(9.7)(9.8)SSESSTSS解(9.7)(9.8)二式:= SSxy / SSxx(9.9)(9.10)用= b0+b1xi 來估計迴歸函數EYi= b0+b1Xi時,中b0 , b1分別是b0,b1之不偏估計量,即Eb0= b0且Eb1= b1。在計算估計值時,先算出b1再根據b1計算b0 , b1。五種主要的迴歸線迴歸分析係以X來預測Y,亦即算出Y = f (X)此函數,將X值帶入其中,預測Y值。基本上,此Y = f (X) 函數即是迴歸線,其形狀有六種:1、一次函數(直線): = b0+b1x (單變數迴歸模式)2、對數函數:= b0+b1ln x3、高次函數:= b0+b1x +b2x2+ bnxn4、乘冪函數:= axb5、指數函數:= aebx如何檢定b1在大多數的迴歸分析中,主要目的是為了要探討迴歸函數的斜率b1;其代表自變數X增加一單位時,應變數Y改變的情況。斜率愈大,代表自變數X雖只些微改變,卻會導致應變數Y產生劇烈的變動。當迴歸模式之誤差項ei服從常態分配(N(0, s2)時,Eb1= b1,Varb1 = s2/Sxx之常態分配(Sxx =ni=1(xi-)2);即b1 N(b1, s2/Sxx)。由於s2通常是未知的,常以均方誤差MSE= ni=1 ( yi -)2/(n-2)作為s2的估計值。因此Varb1的估計值為MSE/Sxx。令S(b1) = (MSE /Sxx)1/2,稱S(b1)為b1的估計標準誤(Standard Error of Estimation)。另(b1-b1)/ S(b1) tn-2(9.11)檢定b1的統計量與檢定程序:1、統計假設:H0: b1= 0 ; H1: b1 02、檢定統計量:t= (b1-b1)/S(b1)= (b1-0)/S(b1)= b1/ S(b1) 3、在顯著水準a = 0.05時,若| t | ta/2,n-2,則拒絕H0;即自變數X和應變數Y之間有迴歸關係。範例、欲研究某商品之廣告支出與銷售量?廣告支出462576385315銷售量197272100228327279148377238142662391、統計假設:H0: b1= 0 ; H1: b1 02、檢定統計量:t = (b1-b1)/S(b1)= (b1-0)/S(b1)= b1/ S(b1) Sxx = 46.9;MSE=( yi -)2/(n-2)= SSE /(n-2) = 336.9/10 =33.69t = b1/ S(b1) = 44.4/(33.69/46.9)1/2 = 52.43、在顯著水準a = 0.05時,若| t | ta/2,n-2= t0.025,10= 2.22,Then Reject H0自變數X和應變數Y之間有迴歸關係,即廣告支出此因子應引入模式中。9.3 多變數迴歸模式考慮一個應變數和多個自變數之形式時,即為多變數迴歸(Multiple Regression)。二變數線性迴歸模式為:Yi = b0 + b1 Xi1 + b2 Xi2+ ei, i =1, 2,., n(9.12)其中, EYi= b0 + b1 Xi1 + b2 Xi2;迴歸函數為EY= b0 + b1 X1 + b2 X2。如何估計b0 , b1 , b2 此三個迴歸參數仍應用最小二乘法估計,找出一條樣本迴歸或稱配適線= b0 + b1 xi1+ b2 xi2,其中b0 , b1 , b2 分別代表b0 , b1 , b2 之估計值。令總平方差SSE為:SSE = (9.13)欲計算出b0 , b1 , b2而使SSE值最小,則須將SSE分別對b0 , b1 , b2做偏微分並令其為0,則(9.14)(9.14)可利用解聯立方程式得到b0 , b1 , b2。如何檢定b1 , b2 在多變數迴歸中,檢定二個自變數與因變數之間是否有關係存在的概念與單變數迴歸相同,亦是用t 分配的方式進行檢定。當迴歸模式之誤差項ei服從常態分配時,b1 N(b1 , )、b2 N(b2,),由於,通常是未知的,常以S2(b1),S2(b2)作為,的估計值。則(bi - bi)/S(bi) tn-3,i= 1, 2(9.15)檢定b1的統計量與檢定程序:1、統計假設:H0: b1= 0 ; H1: b1 02、檢定統計量:t = (b1-b1)/S(b1)= (b1-0)/S(b1)= b1/ S(b1) 3、在顯著水準a = 0.05時,若| t | ta/2,n-3,則拒絕H0;即自變數X1和應變數Y之間有迴歸關係。檢定b2的統計量與檢定程序:1、統計假設:H0: b2= 0 ; H1: b2 02、檢定統計量:t = t = (b2-b2)/S(b2)= (b2-0)/S(b2)= b2/ S(b2) 3、在顯著水準a = 0.05時,若| t | ta/2,n-3,則拒絕H0;即自變數X2和應變數Y之間有迴歸關係。如何同時檢定b1與b2:在多變數迴歸分析中,研究X1與X2此二自變數是否會同時對Y造成影響,亦即是檢定b1= b2= 0是否成立,倘成立,即此二自變數不會對Y造成影響。其檢定可以ANOVA進行:變異來源平方和SS自由度df均方和MSF迴歸SSR=( -)22MSR=SSR/2MSR/MSE誤差(殘差)SSE=( yi -)2n-3MSE=SSE/(n-3)總和SS=( yi -)2n-19.4 迴歸模式的診斷最常用的迴歸模式診斷的方法有二1、判定係數(Coefficient of Determination):用衡量自變數X與應變數Y之間直線關係強度,有助於了解所建構之迴歸模式的適切性。2、殘差分析(Residual Analysis):檢視所建構之迴歸模式,是否符合迴歸模式的基本假設。單變數迴歸模式之判定係數判定係數用來衡量單變數迴歸模式之配適程度。依單變數迴歸模式(9.5)Yi = b0 + b1 Xi + ei, i =1, 2,., n其樣本迴歸或稱配適線(Fitted Line)為= b0 + b1 xi其中:總平方和SS = ( yi -)2迴歸平方和 SSR = ( -)2殘差平方和 SSE = ( yi -)2SS = SSR + SSE(9.16)判定係數r2= SSR / SS = 1- SSE / SS = S2xy /SyySxx = b21 Sxx /Syy(9.17)r2的分佈範圍0 r2 1。若樣本大多集中於迴歸直線周圍,形成一種強烈的直線走勢,則r2會接近1。若樣本點隨機的散佈在四周圍,資料的走勢無形成一種趨勢,則r2會接近0。r是具有方向性,若樣本迴歸直線的斜率為正,則r亦為正;若樣本迴歸直線的斜率為負,則r亦為負。例如:r2= 0.9964,即y 受到x影響程度有99.64%,而有0.36%的未知原因尚可能影響y,如隨機變動或有其他變數(動)未被列入考慮。殘差分析依單變數迴歸模式(9.5)Yi = b0 + b1 Xi + ei, i =1, 2,., n此迴歸模式有以下的基本假設:1、隨機誤差ei是互相獨立、且均服從常態分配N(0, s2)。2、Xi為常數,Yi為b0 + b1 Xi與ei之和、故互相獨立、且Yi N(b0 + b1 Xi, s2)。Yi | Xi= xi )。3、ei與Xi為無關,即Cov(ei,Xi) = 0。即Eei = 0 EYi | Xi= xi = b0 + b1 xi Varei = s2 VarYi | Xi= xi = s2令X=時,殘差ei = yi- 其中來自於樣本迴歸模式: = b0 + b1 xi 。殘差分析就是檢視所建構之迴歸模式,是否符合迴歸模式的基本假設,亦可偵測出可能的異常觀測值(Outliers)。(a) 殘差值獨立性ei -可用連串檢定(Run Tesst)法或自相關分析。(b) 殘差值獨立性ei-可用Kolmogorov-Smirnov檢定法或卡方適合度檢定法。(c) X與Y之間是否呈直線走勢,即是是符合EYi|X=xi= b0 + b1 xi-可依殘差圖分析之,倘X與Y之間確實呈直線走勢,則殘差圖應是均勻地散佈ei = 0於此線線上下。(d) 不論X為多少,Y之變異數均為常數VarYi|X=xi= b0 s2-倘殘差圖的圖點分佈有擴張(或縮減)之趨勢,則資料不符迴歸模式之假設,其變異數並不是常數,是會隨著X增加而增加,或隨著X增加而減少。當由殘差分析圖視出資料不符合線性迴歸的假設時,可考慮轉換(Transformation)的投巧(Y, X)(logY, X) or (Y, X)(logY, X2)習題1. 某公司的年資和每月薪資的關係,以下是調查所得的資料(單位:仟元)年資51015202530月薪39.549.058.568.077.587.0請依據上述的資料回答以下的問題:(a) 若以統計迴歸來分析這個問題,你認為年資和月薪何者應作為自變數?何者應作為因變數? 年資(自變數),月薪(因變數)。(b) 請畫出年資和月新的資料散佈圖:(c) 根據所畫出散佈圖,你認為年資和月薪是呈現怎樣的迴歸型式?(直線回歸、曲線迴歸、無迴歸關係)。2. 某公司的研發部認為生產機器的保養費用(X)和機器的的產能(Y)之間應有所關聯。所是他們對六部機器進行調查,以下是調查所得的資料:保養費X809095100110125產能Y5508001200170022002900(a) 請根據以上的資料畫出散佈圖:(b) 根據所畫出散佈圖,你認為保養費用和產能事呈現什麼樣的回歸形式?(直線回歸、曲線迴歸、無迴歸關係)。3. 研究原住民文化習俗的社會學者,前往烏來山區作田野研究,其中有一項是對他們的夫妻婚姻年齡作調查。以下是六對夫妻的年齡資料,其中X為妻子的年齡,Y為丈夫的年齡。妻子X182025283032丈夫Y392225372834(a) 請根據以上的資料畫出散佈圖:(b) 根據所畫出散佈圖,烏來山區原住民妻子和丈夫的年齡之間呈現什麼樣的迴歸型式?(直線回歸、區線迴歸、無迴歸關係)。4. 有一迴歸模式Yi= -61.3Xiei ,ei N( 0,16 ),試求(a) P(-5 i 5)=?P(-5 i 5)= P(-5 /4i /4 5/4)=P(-1.25Z1) =?Xi =6 , Yi N(1.8, 16), P(Yi 1)=P(Z (1-1.8)/4)=P(Z -0.2)=0.5832。5. 假設某地每年的農產品輸出量Y和農產品出入量為X符合以下的線性迴歸模式:Y3200.4Xe其中單位為高噸;所以迴歸模式為EY3200.4X。(a) 若某年的農產品輸入X為380萬噸,則該年農產品輸出Y的期望值會是多少? E(Y) = 320+0.4Xi = 320+0.4*380=472萬噸。(b) 如果某年的農產品輸入為X為600萬噸,且e35,則該年的農產品輸出Y會是多少? Y = 3200.4Xe = 320+0.4*600+35=595萬噸。6. 某汽車公司想要研究旗下各車型轎車重量與汽車的效能關係。令X為汽車的重量(單位:千磅),Y為每公升汽油車子所能行進的車程(單位:公里)。現有八種款市汽車接受測試,所得資料如下。X2124232122182026Y3527313836403728(a) 請畫出資料散佈圖(b) 請將這個問題代入直線迴歸中,請求出b0,b1和樣本迴歸模式:b0= 72.8,b1=-1.772,樣本迴歸模式:Y(hat) = 72.8-1.772 X。(c) 請解釋b1的意義b1=-1.772,表示汽車重量每增加一仟磅,車程則減少1.772公里。(d) 若汽車的重量為19仟磅,則車程期望值的估計值為多少Y(hat) = 72.8-1.772 X= 72.8-1.772 *19 =39.12公里。(e) 請寫出變異分析表(ANOVA)變異來源平方和SS自由度df均方和MSF迴歸134.721134.7231.97誤差(殘差)25.2864.21總和160.07(f) 求出r 2=134.72/160.0=84.2%。(g) 求出s2y的估計值=25.28/6=4.21。(h) 令a=0.05, 檢定b1=0是否成是立,並解釋你所得的結論。F=31.97F0.05, 1,6 (=5.99)Reject H0 ,即汽車的重量是會影響到車程。7. 桃園一家有線電視公司想要研究廣告對於產品銷售影響,研究人員針對某種產品製作了一支廣告,分別在10個縣市播放,但每個縣市廣告播放的次數X是不同的。研究人員記錄下這10個地區的產品銷售量Y,以下便是所得的資料:X3140240312Y2.661.293.021.092.013.640.553.211.852.50(a)請畫出資料散佈圖。(c) 將這個問題代入直線回歸中,求b0、b1和樣本迴歸模式;b0= 0.905,b1=0.639,樣本迴歸模式:Y(hat) = 0.905+0.639X。(c)請解釋b1的意義;b1=0.639,表示每多播放一次廣告,可增加0.639單位的銷售量。(d) 請寫出變異數分析(ANOVA);變異來源平方和SS自由度df均方和MSF迴歸8.15318.15376.55誤差(殘差)0.85280.106總和9.0059(e)求出求出r 2=8.153/9.005=90.5%(f)求出s2y的估計值=0.852/8=0.106。(g)令a0.05, 檢定b10是否成是立,並解釋你所得的結論。F=76.55F0.05, 1,8 (=5.32)Reject H0 ,即廣告次數是會影響到產品的銷售量。8. 垃圾焚化爐使用一段時間後,須經整修才能再度使用。以下是九座焚化爐的使用時間X(單位:月)和整修成本Y(單位:十萬)。X2.21.82.92.51.62.92.73.11.9Y5.04.36.25.13.65.85.96.14.1 試回答以下問題:(a) 請畫出資料散佈圖。(b) 將這個問題代入直線回歸中,求b0、b1和樣本迴歸模式;b0= 1.048,b1=1.697,樣本迴歸模式:Y(hat) = 1.048+1.697 X。(c) 請解釋b1的意義;b1=1.697,表示焚化爐每多使用一個月,則整修成本會增加16.97萬。(d) 若焚化爐已使用二個月,則整修成本期望值的估計值為多少?Y(hat) = 1.048+1.697 X= 1.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论