般线性回归模型(GLM.ppt_第1页
般线性回归模型(GLM.ppt_第2页
般线性回归模型(GLM.ppt_第3页
般线性回归模型(GLM.ppt_第4页
般线性回归模型(GLM.ppt_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,一般線性迴歸模型 (GLM),資料: (yi , x i1 , , x ip ) i=1,.,n 模式: Yi = 0+ 1X i1 +.+ pX ip+ i, i=1,.,n 其中 Yi 為依變數 (dependent var.) 0 為截距 (intercept) 1, , p 為係數 Xij 為預測變數 (independent var.) ij 為隨機誤差項 (error),註解 : 線性迴歸模型意指其對參數為線性的方程式,有 p 個預測變數 , 可為數量或質性變數 。 E(Y) = 0+ 1X 1 +.+ p X p 估計式:Y= b0+ b1X 1 +.+ bp X p,第十八章 迴歸分析,特殊模式 兩個自變數的一階模式; 如: E(Y) =0+1X1+2 X2 若 X1 對平均反應的效應和X2 無關, 而 X2 對平均反應的效應和 X1 無關, 則稱此兩自變數無交互作用 (no interaction), 即自變數對反應變數的效應是可加的 , 或無交互作用的。 迴歸係數的意義 參數1:經過 X2 調整,平均反應(Y)隨 X1 之每一單位增加而改變的量。 參數2:經過 X1 調整,平均反應(Y)隨 X2 之每一單位增加而改變的量。,兩個自變數含交互作用項的一階模式; 如: E(Y) =0+1X1+2 X2 + 3X 1 X2,二次完全迴歸式; 如: E(Y)=0+1X1+ 2 X12 +3 X2 + 4 X22 + 5X 1 X2 E(Y)為一曲面, 稱為 regression surface 或 response surface 多項式迴歸式; 如: E(Y) =0+1X1+ 2 X12 轉換變數迴歸式; 如: E(log(Y) =0+1X1+2 X2 E(Y) =0+ 1 log(X1) + 2 X22,變異來源 SS df MS F p-value 迴 歸 SSR p MSR F*=MSR / MSE p 誤 差 SSE n-p-1 MSE 合 計 SSTO n-1,註: F* 值用於檢定 Y 與 X 諸變數是否有迴歸關聯,p , 則結論為迴歸式不顯著。 p , 則結論為迴歸式顯著。,變異數分析表,決定係數 (coef. of determination, R2),說明 : 1. R2表示 Y 之總變異中由 X1,Xp 解釋的比例 2. 0R21 3. R2 值的大小通常代表迴歸式解釋程度的多少。,評論 : 增加 X 變數個數 , 一定使 R2 值增加 。 高的 R2 值並不一定表示配套的模式適合 。 有些學者建議以 X 變數個數調整後的校正判定係數( Ra2) 為比較標準 。,由簡單相關係數矩陣可以看出變數間相關性之強度。 由檢定 H0 : = 0 vs. Ha : 0 決定變數間是否相關; 若 p-值 ,結論為顯著相關。 兩預測變數的簡單相關係數相當大時,則其迴歸結果有共線性的現象存在,此時迴歸式的不準度性很高,應做修正。(p483),相關係數與決定係數: 相關係數量測兩變數間單純的相關性強度。 決定係數量測一變數與其他多個變數間的相關性強度。 在一個自變數問題上,決定係數是相關係數的平方值。,預測變數相關性的影響:,見例18.3b,檢定第 i自變數(Xi)對依變數 (Y) 影響之顯著性: H0 : i = 0 Ha : i 0 由 t-test 得到 p-值,若 p-值 ,結論為經由其它變數的調整後,Xi 對 Y 影響顯著。,係數之顯著性與區間估計:,係數之區間估計: i 估計範圍在 bi t/2;n-p-1 SEbi,【例 18.3b】 研究某林區樹木之年齡(X1),株高(X2),以及單位面積上株數(X3) 對樹木直徑(Y)的影響。 Data : p481,SAS_相關性: Analysis Descriptive Correlation Columns:指定 Correlations variables Correlation: Pearson SAS_迴歸: Analysis Regression Linear Columns:指定 Dependent variables Explanatory variables,SPSS_相關性:分析 相關 雙變數 選擇 Pearson相關係數 SPSS_迴歸:分析 迴歸方法 線性 指定 依變數 自變數,變數間相關性,.,age, high 對 diam的影響較強;treeno 與 diam相關性不顯著, age與 high 相關性很強,可能有共線性影響 。,考慮三個自變數的迴歸分析,high 的部分貢獻顯著 age 與treeno 的部分貢獻不顯著,high 的部分貢獻顯著 age 的部分貢獻不顯著,考慮 age,high 自變數的迴歸分析,最終迴歸式: 直徑 = 3.59 + .0535 (株高) ,R2 = 0.589 (.0124) 每增高一單位,直徑平均增加0.0535單位。括號內為標準誤。,high 對 Diam 的迴歸分析,Root MSE 0.42695 R-Square 0.5889 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr |t| Intercept Intercept 1 3.59373 0.60940 5.90 .0001 high 株高 1 0.05350 0.01240 4.32 0.0008,註:可由 Model selection method 中的 Stepwise 法選擇自變數,此例由 stepwise 法將得到相同結果。,以考慮的模式做預測之前 , 應先檢查模式對資料的適當性,在迴歸 上稱為診斷 (Diagnostics) ;診斷方法分為殘差圖分析及殘差檢定。,模式是否適當 ?,殘差 (residual),殘差 , ei ,可視為觀測的誤差 , 用於估計真實誤差 , i = Yi - EYi 若模式適合 ,則殘差應反映出 i 的特性.,t 化殘差 以 MSE 估計 ei 的標準差, 將 ei 標準化得到的值。,殘差的特性 : 1. 殘差的平均數 = 0。 2. 殘差的樣本變異數定義為 MSE,是 2 的不偏估計量。 3. ei* 應介於 -3 與 3 之間。,例18.3b 之殘差圖 (Forest Study p481),迴歸的模式配適性的檢定 - Lack-of-Fit F Test,.,判斷X與Y的關係式是直線或非直線。 檢定前提一:對一或多個 X 水準有重複觀測值 (replicates),H0:Yi =0 + 1Xi + i (呈直線關係) H1:Yi 0 + 1Xi + i (未呈直線關係),檢定前提二: 對觀測值 Y 的假設:1、獨立,2、服從常態分佈, 3、有相同變異數。,ANOVA 表,註 : SSE = SSLF + SSPE, SSTO = SSR + SSE,使用 SAS 軟體執行欠合性檢定: 在data內增加一分組序號的變數 lof = 1 2 3 Type I lof 的檢定即是缺失性的檢定,若檢定 結果是直線模式適合,可以迴歸得到估計的直線。,Lack-of-Fit Data for SAS,【Exp 18.6.b】研究年齡與血壓之關係 (p428),Sum of Source DF Squares Mean Square F Value Pr F Model 5 6305.705797 1261.141159 68.27 F age 1 6228.709640 6228.709640 337.19 .0001 lof 4 76.996157 19.249039 1.04 0.4146,Root MSE 4.31514 R-Square 0.9409 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr |t| Intercept 1 85.50938 2.67183 32.00 .0001 age 1 0.97989 0.05358 18.29 .0001,由 Lack-of-fit test 得到 F = 1.04,p-value = .4146 0.05, 結論為在=.05 下,直線模式適合。 由迴歸得: 血壓 = 85.5 + 0.98 (年齡),R2 = 0.94, (.0536) 年齡增加一歲,估計血壓增加 0.98。,ANOVA 表,Model: Yi = EYi + i,此 Model 稱為 logistic regression model,邏輯迴歸模式(Logistic Regression model) - 以影響變因預估某狀況發生之機率 ( p487) 特性:依變數(Y) 為二分類的反應數,以 1及 0 代表。,可由最大概似估計法估計0 及1,迴歸式之圖可能如下。,【Exp 18.6.1】研究年齡與患CHD之關係 (p489),由年齡估計患病率,SAS_邏輯迴歸: Analysis Regression Logistic Columns:指定 Dependent variables (可選擇目標項) Quantitative variables Classification variables Frequency variabl Statistics : logit,SPSS_邏輯迴歸:分析 迴歸 二元 Logistic 指定 依變數 共變數,或選項中的類別變數,Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr ChiSq Likelihood Ratio 29.7851 1 ChiSq Intercept 1 -4.6486 0.9775 22.6171 .0001 age 1 0.0881 0.0185 22.6152 .0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits age 1.092 1.053 1.132,SAS 報表,(3) 勝算比(odds ratio,OR ) 或相對危險率之估計: OR = exp(0.0881) = 1.092 . 年齡增加一歲患CHD之勝算(風險)是原來的1.09 倍,(1) 適合性測驗: Wald test 得 p-值 0.05,年齡的影響顯著。 (2) 由最大概似估計得到由迴歸分析得到 z = - 4.65 + 0.0881 (年齡) 58歲患病率估計,42歲患病率估計為 0.279,Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr ChiSq Likelihood Ratio 24.3214 2 ChiSq Intercept 1 -9.5083 3.2208 8.7150 0.0032 air 1 3.8737 1.4229 7.4112 0.0065 trans 1 2.6402 0.9113 8.3942 0.0038 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits air 48.120 2.959 782.573 trans 14.016 2.34

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论