下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、授课目录第1章导论第2章统计资料的整理与描述第3章机率导论第4章常用的机率分配与统计分布第5章描样方法与描样分布第6章统计估计第7章统计检定第8章变异数分析第9章相关分析与回归模式第 10章 无母数统计检定第 11章 类别资料分析 - 列联表与卡方检定课前补充 - 系统、线性、与线性系统系统的定义:相互作用以达到某一目的之元件组合以符号表示:X(t) à Y(t)以运算子 (Operator) 或函数符号 H表示:Y(t) = H X(t)何谓线性、线性系统 (Linear System)X1(t) à Y1 (t)and X 2 (t) à Y2 (t)Then
2、aX1(t) + bX2 (t) àa Y1 (t) + bY2 (t)-SuperpositionWhere a 、b = Constant即线符合上述重叠原理 (Principle of Superposition) 性。HaX1(t) + bX 2(t) = a HX1(t) + b HX2(t)= a Y 1(t) + b Y 2(t)符合上述重叠原理之系统即线性系统。第九章 相关分析与回归模式小时候胖,是不是胖 ,龙生龙、凤生凤、老鼠生的儿 子会打洞 ,日常生活中, 常发某些现象与其他现象有相关 性 (Correlation) 。本章系探讨变数之间的相关程度,并用 统计方法
3、建立一合适的回归模式。回归模式分为单变数( 简单) 回归与多变数 (复) 回归。资料散布图与相关程度研究资料相关与回归之步骤搜集资料绘出其散布图 (x, y)求出相关系数以散布图建立 y(x) 之回归模式估计与检定建构回归模式一般而言, 任两变数之间存在某种关系, 包括正相关、 负 相关、或统计无关。相关系数 (Correlation Coefficient) 以 r 表示,即两个变数 X 与 Y 的相关程度,其定义为:r = s X,Y / s XsY = Cov(X, Y) /s XsY式中:s2Xs2Y分别为 X 与 Y 为变异数;sX,Y = Cov(X, Y) 为 X与 Y为共变异数
4、。当 r > 0 时 X 与 Y 之间为正相关;当 r < 0 时 X 与 Y 之间为负相关;当 r = 0 时 X与 Y之间为没有关系存在, 或统计无关。在实务应用上,常以 样本相关系数 ?来估计 r ,即n(xi x)(yi y)?n i 1 i n ii 1(xi x)2 i 1(yi y)2其中,(x i , y i)为第 i 对样本值, i =1, 2, ,n;x,y 分别为其各对变数之样本平均值。 r 仅能用来衡量”直线相关程度,至於非直线的情况而言, r 就无任何代表意义。相关系数的解释(1) 有相关并不表示有因果关系。(2) 相关系数必须经过假设检定。(3) 绝对值
5、相等的正负号相关系数代表两变数的关连强 度是一样的,只是方向不同。(4) 即使相关系数等於 0,与其说是两变数无关, 宁可说 是此两变数没有线性。相关系数 r 的检定当随机变数 X与 Y之联合分布 服从 二元常态分配 时,欲检定 H0 : r= 0, vs. H 1 : r 1 0 时,其检定统计式: t = ? n 2t n-2=n-2 1 ?2当欲检定相关系数是否等於不为 0 的某特定值时,即检定 H0 : r = r 0 , vs. H 1 : r 1 r 0 (r 0 1 0) 时可使用费雪转换(Fisher Transformation),其检定统计式:Z?1ln1在统计假设 H0
6、为真时,Z?NZ0 , 1/(n-3)Z0 = 1/2 ln(1+ r0)/(1-r 0)范例、抽 10 人,发现 8岁体重和 20岁体重的相关系数 ?为, 但说不定母体的相关系数 r 是 0,但因抽样误差,而 产生样本关系数为, 因此要进行相关系数相关系数的假 设检定。SOL:统计假设为:H0:r = 0, vs. H 1:r 1 0a = 下之双边检定t= (10-2)1/2 /1/2Critical Value = /=tinv*2,8)/= (Two-sides)Critical Value = /=tinv*2,8)/= (One-side)值大於显着水准之临界值Reject H 0
7、 TT8 岁体重和 20 岁体重的相关系数为之假设范例、 财金系研究指出台湾地区加权股票指数涨跌X与成交量 Y 有关,其相关系数为。工管系为验证此结果,随机 抽取去年 39 笔资料,得到 ?为。SOL:统计假设为:H0:r = , vs. H 1: r 1a = 下之双边检定1 1 ?Z? ln =1/2 ln(1+/=? 2 1 ?/=fisher = ( ?=, transform,Z0 = 1/2 ln(1+ r0)/(1- r 0)=1/2 ln(1+/=/=fisher =(r= , transform,= 6| =1/(n 3)值小於显着水准之临界值 (=Accept H 0 TT
8、接受台湾地区加权股票指数涨跌 X与成交量 Y有关, 其 相关系数为之假设。单变数回归模式单变数回归模式 与 相关系数 都是采讨两个变数间之关系。 在相关系数分析中,并无考虑到此两个变数X、Y 间之 统计关联 。若变数 Y(依变量或称应变数 ) 和变数 X(自变数 ) 之间 存在有线性回归关系,则可建构一合适之回归模式,此称之 为 单变数回归模式 (Simple Linear Regression)。其回归统计模式如下:Yi = b 0 + b 1 X i + e i , i =1, 2, ., n式中 : i :样本个数, n : 共有 n 组样本;(Xi , Yi ):第 i 组样本的自变数
9、与应变数;b0 , b1:参数(常数值 ) ; ei :样本中第 i 个随机误差项。此回归模式有以下的基本假设:1、随机误差 ei 是互相独立、 且均服从常态分配 N(0, s2)。2、Xi 为常数, Yi 为 b0+b1Xi 与 ei 之和,故互相独立、且 Yi N(b 0+b1Xi , s2) 。3、ei 与 Xi 为无关,即 Cov(e i , X i) = 0即 Eei = 0TTEYi | X i = x i = b 0+ b 1 x iVare i = s 2 TTVarY i | X i = x i = s2由上图知, Xi 视为一常数, Yi 则为一随机变数。 EYi = b0
10、+b1Xi 受到自变数 Xi 的影响,且此影响呈直线走向。 此直条 EY i = b 0+b1Xi 称之回归函数 (Regression Function) ,参数 b0 , b 1分别为直线之截距与斜率,此二未知参数须进行估计 与检定。一般估计 b0 , b 1 用最小平方法。应用最小平方法估计 b0 , b 1(样本观点 )最小平方法 概念是根据 n 组资料 (x i , yi ) ,找出一条样本回归或称配适线 (Fitted Line)y?i= b0 + b1xi , ,其中 b0 , b 1分别代表 b0 , b1之估计值 。使得各资料值 yi 与回归线上所对 应的配适值 y?i 之差
11、异最小。所谓最小,是以各个差异的平方 总和 (SSE, Sum of the Squared Error)最小为标准:nnnSSE = e2(yi y?i)2(yi (b0 b1xi )2i 1i 1i 1欲计算出 b0 , b1 而使 SSE值最小,则须将 SSE分别对 b0 , b1 做偏微分并令其为 0,则nnyi nb0 b1 xii 1 i 1解二式:i1xiyinnb0xib1 xi2i 1 i1yb1n(xi x)(yi y)i1n(xi x)2i1= SS xy / SS xxb0y b1x用 y?i = b0+b1xi 来估计回归函数EYi = b0+b1Xi 时,中 b0
12、, b1分别是 b0,b1 之不偏估计量,即Eb 0= b0且 Eb 1= b1。在计算估计值时,先算出 b1 再根据 b1计算 b0 , b 1五种主要的回归线回归分析系以 X来预测 Y,亦即算出 Y = f (X) 此函数, 将 X 值带入其中,预测 Y 值。基本上,此 Y = f (X) 函数即 是回归线,其形状有六种:1、一次函数 (直线): y? = b 0+b1x (单变数回归模式 )2、对数函数:y?= b 0+b1ln x3、高次函数:y?= b 0+b1x +b 2x2+ bnxn4、乘幂函数:b y?= ax5、指数函数:bxy?= ae如何检定 b1在大多数的回归分析中,
13、 主要目的是为了要探讨回归函数 的斜率 b1;其代表自变数 X增加一单位时,应变数 Y 改变的 情况。斜率愈大,代表自变数 X 虽只些微改变,却会导致应 变数 Y 产生剧烈的变动。当回归模式之误差项ei 服从常态分配 (N(0, s2) 时,Eb 1= b 1, Varb 1 = s 2/S xx之常态分配 (Sxx =? ni=1(x i- x)2); 即 b1 N(b 1, s 2/S xx) 。由於 s2 通常是未知的,常以 均方误差 MSE=?ni=1 ( y i - y?) 2/(n-2) 作为 s2 的估计值。因此 Varb 1 的估计值为 MSE/Sxx。令 S(b1) = (M
14、SE /S xx) 1/2,称 S(b1)为 b1 的 估计标准误 (Standard Error of Estimation)。另(b 1-b 1)/ S(b 1) t n-2检定 b1 的统计量与检定程序:1、统计假设: H0: b 1= 0 ; H 1: b 1 1 02、检定统计量:t= (b 1-b 1)/S(b 1)= (b 1-0)/S(b 1)= b 1/ S(b 1)3、在显着水准 a = 时,若 | t |3 t a/2,n-2 ,则拒绝 H0;即 自变数 X 和应变数 Y 之间有回归关系。范例、欲研究某商品之广告支出与销售量广告支出462576385315销售量19727
15、2100228327279148377238142662391、统计假设: H0: b 1= 0 ; H 1: b 1 1 02、检定统计量:t = (b 1-b 1)/S(b 1)= (b 1-0)/S(b 1)= b 1/ S(b 1)Sxx = ;MSE=?( yi - y?) 2/(n-2)= SSE /(n-2) = 10 = t = b 1/ S(b 1) = 1/2 =3、在显着水准 a = 时,若 | t |3 t a/2,n-2 = ,10Then Reject H 0TT自变数 X和应变数 Y 之间有回归关系, 即广告支出此因子应引入模式中多变数回归模式考虑一个应变数和多个
16、自变数之形式时, 即为多变数回归 (Multiple Regression) 。二变数线性回归模式为:Yi = b 0 + b 1 Xi1 + b 2 Xi2+ e i, i =1, 2, ., n 其中,EY i= b 0 + b 1 Xi1 + b 2 Xi2;回归函数为 EY= b 0 + b 1 X1 + b 2 X2。如何估计 b0 , b 1 , b 2此三个回归参数 仍应用最小二乘法估计 ,找出一条样本回归 或称配适线 y?i= b 0 + b 1 x i1+ b 2 x i2,其中 b0 , b 1 , b 2 分别 代表 b0 , b 1 , b 2 之估计值。令总平方差 S
17、SE为:nnnSSE = e2(yi y?i )2(yi (b0 b1xi1 b2xi2)2i 1i1i 1欲计算出 b0 , b 1 , b 2而使 SSE值最小,则须将 SSE分别对 b0 , b 1 , b 2 做偏微分并令其为 0,则nyii1nb0nb1xi1i1nb2 xi 2 i1nnnnxi1yi b0xi1b12x i21 b2xi1xi2i1i1i1i1nnnnxi2yi1i b0xi2i1b1xi1xi2i1b2 xi22 i1可利用解联立方程式得到b0 , b 1 ,b 2 。如何检定 b1 , b 2在多变数回归中, 检定二个自变数与因变数之间是否有 关系存在 的概念
18、与单变数回归相同, 亦是用 t 分配的方式 进行检定。当回归模式之误差项 ei 服从常态分配时, b1 N(b1 ,2b1)、b2 N(b2, 2b2) ,由於 b21, b22通常是未知的, 常以 S2(b1), S2(b2) 作为 2b1, 2b2的估计值。则(bi - b i )/S(b i) t n-3,i = 1, 2检定 b1 的统计量与检定程序:1、统计假设: H0: b 1= 0 ; H 1: b 1 1 02、检定统计量: t = (b 1-b 1)/S(b 1)= (b 1-0)/S(b 1)= b 1/S(b1)3、在显着水准 a = 时,若 | t |3 t a/2,n
19、-3 ,则拒绝 H0;即自变数 X1和应变数 Y 之间有回归关系检定 b2 的统计量与检定程序:1、统计假设: H0: b 2= 0 ; H 1: b 2 1 02、检定统计量: t = t = (b2-b 2)/S(b 2)= (b 2-0)/S(b 2)= b2/ S(b2)3、在显着水准 a = 时,若 | t |3 t a/2,n-3 ,则拒绝 H0;即 自变数 X2和应变数 Y 之间有回归关系。如何同时检定 b1 与 b2:在多变数回归分析中,研究 X1 与 X2 此二自变数是否会同 时对 Y造成影响,亦即是检定 b1= b2= 0 是否成立,倘成立,即此二自变数不会对 Y 造成影响
20、。其检定可以 ANOVA进行:变异来源平方和 SS自由度 df均方和 MSF回归SSR=2MSR=MSR/MSE?( y?i -2y)2SSR/2误差 ( 残差 )SSE=n-3MSE=?( y i -2y?i)2SSE/(n-3)总和SS=n-1?( y i- y) 2回归模式的诊断最常用的回归模式诊断的方法有二1、判定系数 (Coefficient of Determination):用衡量自变数 X 与应变数 Y之间直线关系强度, 有助於了解 所建构之回归模式的适切性。2、残差分析 (Residual Analysis):检视所建构之回归模式,是否符合回归模式的基本假设。单变数回归模式之
21、判定系数 判定系数用来衡量单变数回归模式之配适程度。依单变 数回归模式Yi = b 0 + b 1 X i + e i , i =1, 2, ., n 其样本回归或称配适线 (Fitted Line) 为y?i = b 0 + b 1 x i其中:总平方和 SS = ?( yi - y)回归平方和SSR = ?(y?i - y)残差平方和 SSE = ?( yi - y?i )SS = SSR + SSE判定系数 r2= SSR / SS = 1- SSE / SSxy /S yySxx = b21 Sxx /Syyr2 的分布范围 0 r 2 1。若样本大多集中於回归直线 周围,形成一种强烈
22、的直线走势,则 r 2会接近 1。若样本点 随机的散布在四周围,资料的走势无形成一种趋势,则r 2会接近 0。r 是具有方向性,若样本回归直线的斜率为正,则 r 亦为 正;若样本回归直线的斜率为负,则 r 亦为负。 例如:r 2= ,即 y 受到 x 影响程度有 %,而有 %的未知原因尚可 能影响 y,如随机变动或有其他变数 ( 动)未被列入考虑。 残差分析依单变数回归模式Yi = b 0 + b 1 X i + e i , i =1, 2, ., n此回归模式有以下的基本假设:1、随机误差 ei 是互相独立、 且均服从常态分配 N(0, s2)2、Xi 为常数, Yi 为 b0 + b 1
23、Xi 与 ei 之和、故互相独立、 且 Yi N(b 0 + b 1 Xi, s2) 。Yi | X i= x i ) 。3、ei 与 Xi 为无关,即 Cov(e i ,Xi ) = 0 。即 Eei = 0 TT EY i | X i= x i = b 0 + b 1 x iVare i = s 2 TT VarY i | X i= x i = s 2令 X=xi时, 残差 ei = yi- y?X x 其中 y?X x 来自於样本回归模 式: y?i= b0 + b 1 x i 。残差分析就是检视所建构之回归模式, 是否符合回归模式的基本假设, 亦可侦测出可能的异常观测 值 (Outli
24、ers) 。(a) 残差值独立性 ei - 可用连串检定 (Run Tesst) 法或 自相关分析。(b) 残差值独立性 ei - 可用 Kolmogorov-Smirnov 检定法 或卡方适合度检定法。(c) X与 Y之间是否呈直线走势, 即是是符合 EYi |X=x i = b0 + b 1 x i- 可依残差图分析之,倘 X与 Y 之间确实 线上下。(d) 不论 X为多少, Y之变异数均为常数 VarY i|X=x i= b0 s2- 倘残差图的图点分布有扩张 (或缩减 ) 之趋势, 则资料不符回归模式之假设,其变异数并不是常数, 是会随着 X 增加而增加,或随着 X增加而减少。当由残差
25、分析图视出资料不符合线性回归的假设时,可 考虑转换 (Transformation) 的投巧(Y, X)TT(logY, X) or (Y, X)TT(logY, X2)习题1. 某公司的年资和每月薪资的关系,以下是调查所得的资料(单位:仟元 )年资51015202530月薪请依据上述的资料回答以下的问题:(a) 若以统计回归来分析这个问题,你认为年资和月薪何者应作为自变数何者应作为 因变数 年资(自变数 ),月薪(因变数 )。(b) 请画出年资和月新的资料散布图:(c) 根据所画出散布图,你认为年资和月薪是呈现怎样的回归型式(直线回归 、曲线回归、无回归关系 ) 。2. 某公司的研发部认为生
26、产机器的保养费用 (X) 和机器的的产能 (Y) 之间应有所关联。所是 他们对六部机器进行调查,以下是调查所得的资料:保养费 X809095100110125产能 Y5508001200170022002900(a) 请根据以上的资料画出散布图:(b) 根据所画出散布图,你认为保养费用和产能事呈现什麽样的回归形式 ( 直线回归、 曲线回归 、无回归关系 ) 。3. 研究原住民文化习俗的社会学者,前往乌来山区作田野研究,其中有一项是对他们的夫 妻婚姻年龄作调查。以下是六对夫妻的年龄资料,其中 X 为妻子的年龄, Y 为丈夫的年 龄。妻子 X182025283032丈夫 Y392225372834
27、(a) 请根据以上的资料画出散布图:(b) 根据所画出散布图,乌来山区原住民妻子和丈夫的年龄之间呈现什麽样的回归型 式( 直线回归、区线回归、 无回归关系 )。4. 有一回归模式 Yi= -6 ei ,ei N( 0,16 ), 试求(a)P(-5 <i < 5)=P(-5 <i < 5)= P(-5 /4< i /4 < 5/4)=P<Z<=;(b)如 果 Xi=且 ei = 4, 则 Yi 之值会是多少Yi = -6 ei = -6 * 4=;(c)如 果 Xi=6, 则 E(Yi) =E(Yi) =-6 = -6 *6=;(d)如 果 Xi
28、=6, 则 P(Yi >1) =Xi =6 ,Yi N, 16), P(Y i >1)=P(Z > /4)=P(Z >5. 假设某地每年的农产品输出量 Y 和农产品出入量为 X符合以下的线性回归模式: Y320 e其中单位为高吨;所以回归模式为 EY 320。(a) 若某年的农产品输入 X为 380 万吨,则该年农产品输出 Y 的期望值会是多少 E(Y) = 320+ = 320+*380=472 万吨。(b) 如果某年的农产品输入为 X为 600万吨,且 e 35,则该年的农产品输出 Y会是多 少 Y = 320 e = 320+*600+35=595 万吨。6. 某
29、汽车公司想要研究旗下各车型轿车重量与汽车的效能关系。令 X为汽车的重量 ( 单位: 千磅 ),Y 为每公升汽油车子所能行进的车程 (单位:公里 ) 。现有八种款市汽车接受测 试,所得资料如下。X2124232122182026Y3527313836403728(a) 请画出资料散布图(b) 请将这个问题代入直线回归中,请求出b0,b1 和样本回归模式:b0= , b1=,样本回归模式: Y(hat) = X 。(c) 请解释 b1 的意义 b1=,表示汽车重量每增加一仟磅,车程则减少公里。(d) 若汽车的重量为 19 仟磅,则车程期望值的估计值为多少 Y(hat) = X= *19 =公里。(
30、e) 请写出变异分析表 (ANOVA)变异来源平方和 SS自由度 df均方和 MSF回归1误差 ( 残差 )6总和7(f) 求出 r 2=%。(g) 求出 s2y 的估计值 =6=。(h) 令 a=, 检定 b1=0 是否成是立,并解释你所得的结论。F=>, 1,6 (=TReject H 0 ,即汽车的重量是会影响到车程。7. 桃园一家有线电视公司想要研究广告对於产品销售影响,研究人员针对某种产品制作了 一支广告,分别在 10 个县市播放,但每个县市广告播放的次数 X是不同的。研究人员记录下这 10 个地区的产品销售量 Y,以下便是所得的资料:X3140240312Y(a) 请画出资料
31、散布图。(c) 将这个问题代入直线回归中,求 b0、 b1和样本回归模式;b0= , b1=,样本回归模式: Y(hat) = + 。(c) 请解释 b1 的意义; b1=,表示每多播放一次广告,可增加单位的销售量。(d) 请写出变异数分析 (ANOVA);变异来源平方和 SS自由度 df均方和 MSF回归1误差 ( 残差 )8总和92(e) 求出求出 r 2=%(f) 求出 s2y 的估计值 =8=。(g) 令 a, 检定 b10 是否成是立,并解释你所得的结论。F=>, 1,8 (=TReject H 0 ,即广告次数是会影响到产品的销售量。8. 垃圾焚化炉使用一段时间後,须经整修才能再度使用。以下是九座焚化炉的使用时间 X(单位:月 ) 和整
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大学《统计思想综述》题库试题附加答案
- 病理学基础-历年高考试题专项汇编(试题及答案)
- 化水培训考试题及答案
- 黑龙江鸡西市高职单招英语考试试卷及答案
- 湖北鄂州市高职单招英语考试题库(附含答案)
- 2025年山东(专升本)物理历年真题及答案
- 2026年度执业药师中医真题试卷+答案
- 民俗体验项目策划技师(中级)考试试卷及答案
- 历史街区业态规划师岗位招聘考试试卷及答案
- 老年帕金森康复训练师岗位招聘考试试卷及答案
- 7.2《“白山黑水”-东北三省》课件-人教版地理八年级下册
- 燃气管道施工工序安排
- 矿山各类安全标识牌规范及设计标准
- 2025年大学《法医学-法医毒物分析》考试模拟试题及答案解析
- 大学藏语考试题目及答案
- 2026届潍坊市中考联考英语试题含答案
- 中国海洋石油有限公司油气田跟踪经济评价:体系构建与实践应用
- 黄酒培训课件
- 销售业绩统计图表模板(销售数据)
- DLT 593-2016 高压开关设备和控制设备
- 20以内三连加减混合口算练习题13
评论
0/150
提交评论