2022年线性回归方程中的相关系数r_第1页
2022年线性回归方程中的相关系数r_第2页
2022年线性回归方程中的相关系数r_第3页
2022年线性回归方程中的相关系数r_第4页
2022年线性回归方程中的相关系数r_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精品资料欢迎下载线性回来方程中的相关系数rr= xi-x的平均数 yi-y平均数 / 根号下 xi-x平均数 2* yi-y平均数 2r2 就是相关系数的平方,r 在一元线性方程就直接是因变量自变量的相关系数,多元就是复相关系数判定系数 r2也叫拟合优度、可决系数;表达式是:r2=ess/tss=1-rss/tss该统计量越接近于1,模型的拟合优度越高;问题:在应用过程中发觉,假如在模型中增加一个说明变量,r2 往往增大这就给人一个错觉:要使得模型拟合得好,只要增加说明变量即可;但是,现实情形往往是,由增加说明变量个数引起的r2 的增大与拟合好坏无关,r2 需调整;这就有了调整的拟合优度:r1

2、2=1-rss/n-k-1/tss/n-1在样本容量肯定的情形下,增加说明变量必定使得自由度削减,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其中: n-k-1 为残差平方和的自由度,n-1 为总体平方和的自由度;总是来说,调整的判定系数比起判定系数,除去了由于变量个数增加对判定结果的影响;r = r接近于 1 说明 y 与 x1, x2 , , xk 之间的线性关系程度亲密; r 接近于 0 说明 y 与 x1, x2 , , xk 之间的线性关系程度不亲密相关系数就是线性相关度的大小,1 为( 100% )肯定正相关, 0 为 0% ,

3、 -1 为( 100% )肯定负相关相关系数肯定值越靠近1 ,线性相关性质越好,依据数据描点画出来的函数-自变量图线越趋近于一条平直线,拟合的直线与描点所得图线也更相近;假如其肯定值越靠近0 ,那么就说明线性相关性越差,依据数据点描出的图线和拟合曲线相 差越远 (当相关系数太小时,原来拟合就已经没有意义,假如强行拟合一条直线,再把数据点在同一坐标纸上画出来,可以发觉大部分的点偏离这条直线很远,所以用这个直线来拟合是会显现很大误差的或者说是根本错误的);分为一元线性回来和多元线性回来线性回来方程中 , 回来系数的含义一元:y=bx+ab 表示 x 每变动(增加或削减)1 个单位 ,y 平均变动(

4、增加或削减)b 各单位多元:y=b1x1+b2x2+b3x3+a在其他变量不变的情形下,某变量变动1 单位,引起 y 平均变动量以 b2 为例: b2 表示在 x1 、 x3 (在其他变量不变的情形下)不变得情形下,x2 每变动 1单位, y 平均变动 b2 单位就一个 reg 来说 y=a+bx+ea+bx 的误差称为 explained sum of squaree 的误差是不能说明的是residual sum of square总误差就是 tss所以 tss=rss+ess判定系数也叫拟合优度、可决系数;表达式是该统计量越接近于1,模型的拟合优度越高;问题:在应用过程中发觉,假如在模型中

5、增加一个说明变量,r2 往往增大这就给人一个错觉:要使得模型拟合得好,只要增加说明变量即可; 但是,现实情形往往是,由增加说明变量个数引起的r2 的增大与拟合好坏无关,r2需调整;这就有了调整的拟合优度在样本容量肯定的情形下,增加说明变量必定使得自由度削减,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其中: n-k-1 为残差平方和的自由度,n-1 为总体平方和的自由度;总是来说,调整的判定系数比起判定系数,除去了由于变量个数增加对判定结果的影响;顺便补充一下:一般做回来的时候要求拟合优度 (实际值与拟合值相关系数的平方) 越高越好, 可以

6、通过增加说明变量来实现, 可是说明变量多了后许多说明变量的系数 t 检验不显著了, 而且增加许多变量后模型的自由度就削减了, 这些情形狂的存在往往使得模型猜测不精确; 修正拟合优度就是将残差平方和跟总离差平方和分别除以各自的自由度, 这样就剔除了变量个数对其影响了;第一有一个恒等式: tss = ess + rss即总偏差平方和= 回来平方和 + 残差平方和通常情形, 我们都是争论说明变量对总效应的奉献,使用一个叫 “拟合优度 ”(或者叫 “判定系数”)的指标其定义为:回来平方和 / 总偏差平方和=ess/tss = tss-rss/tss =923-325/923假如说随机误差对总效应的奉献

7、,那可以直接rss/tss由于1 - tss-rss/tss就可以化为rss / tssspss 中 pearson(皮尔逊相关系数)看 r 值仍是 p 值,确定相关性两个值都要看, r 值表示在样本中变量间的相关系数,表示相关性的大小;p 值是检验值, 是检验两变量在样原来自的总体中是否存在和样本一样的相关性;spss 回来系数 sig在 spss 软件统计结果中,不管是回来分析仍是其它分析,都会看到“sig”, sig=significance,意为 “显著性 ”,后面的值就是统计出的p 值,假如 p 值 0.01<p<0.05,就为差异显著,假如p<0.01, 就差异极

8、显著sig 是指的的显著性水平,就是 p 值,一般来说接近 0.00 越好,过大的话只能说不显著, sig 是 f 检验的结果, <0.01 代表方程通过检验,进行回来分析是有效的f 表示数据的方差, sig 表示显著性,也就是对f 检验的结果,假如 sig>0.05就说明模型受误差因素干扰太大不能接受;r 是复相关系数, 表示观测值和模型描述值之间的线性相关系数,越大越好; r 方通俗的说就是说明率,就是说你的自变量能够说明多少因变量的变化;详细到你这个就是模型不能接受,自变量说明了22.1%, 剩下的只能用误差说明;spss 软件的线性回来分析中,输出了一个anova表,表中的

9、回来、残差、平方和、df 、均方、 f、sig 分别代表什么回来是方法残差是实测与估量值的差值平方和有许多个,不同的平方和的意思不一样df 是自由度均方是方差除以自由度f 是 f 分布的统计量sig 是 p 值anova 表中的 “回来平方和 ”表示反应变量的变异中的回来模式中所包含的自变量所能说明的部分; “残差平方和 ”代表反应变量的变异中没有被回来模型所包含的变量说明的部分;这两个值与样本量及模型中自变量的个数有关,样本量越大,相应变异就越大;df 是自由度, 是自由取值的变量个数,f 为 f 检验统计量,用于检验该回来方程是否有意义,当sig 对应的值小于 0.05(当显著性水平为0.

10、05 时)时,说明所建立的回来方程具有统计学意义,即自变量和因变量之间存在线性关系;多元线性回来分析中, t 检验与 f 检验有何不同t 检验常能用作检验回来方程中各个参数的显著性,而f 检验就能用作检验整个回来关系的显著性; 各说明变量联合起来对被说明变量有显著的线性关系,并不意味着每一个说明变量分别对被说明变量有显著的线性关系f 检验主要是检验因变量同多个自变量的整体线性关系是否显著,在 k 个自变量中, 只要有一个自变量同因变量的线性关系显著,t 检验就是对每个回来系数分别进行单独的检验,以判定每个自变量对因变量的影响是否显著;运算结果肺活量例子对数据标准化 ,即将原始数据减去相应变量的

11、 均数后再除以该变量的标准差, 运算得到的 回来方程 称为标准化回来方程,相应得回来系数为标准化回来系数;标准化回来系数( beta 值)在多元回来中被用来比较变量间的重要性b 是指回来系数, beta 是指标准回来系数, beta=b/sb,beta 是用来比较各个系数之间的肯定作用或者奉献的大小,b 值是不能判定的肯定奉献的;t 值是对该回来系数b 做假设检验的结果, p 值小于 0.05 才可以认为有意义,但是详细问题要详细分析,有的时候要考虑交互作用等常数项为负p 值 0.04 ,拒绝常数项为0 的假设,统计显著,没问题beta coefficient 就是标准回来系数, 它是第一把各

12、个自变量进行 z 转换(数据值 -数据平均值然后除以标准差)之后再进行回来,此时得出的回来系数称为标准化回来系数; z 转换可以把各个自变量的数级、 量纲统一标准化, 也就可以依据标准化回来系数的大小比较出各个自变量在回来方程中的效应大小;标准 回来系数standardizedregressioncoefficient 或 standardregressioncoefficient排除了因变量 y 和自变量 x1 , x2, xn 所取单位的影响之后的 回来系数 ,其肯定值的大小直接反映了 xi 对 y 的影响程度运算方法对数据标准化, 即将原始数据减去相应变量的均数后再除以该变量的标准差,运

13、算得到的回来方程称为标准化回来方程,相应得回来系数 为标准化回来系数 ;公式如假定回来方程的形式如下:y=b0+b1x1+b2x2+ +bjxj+ +bjxjy 是估量值 其中,回来参数 b0,b1, ,bj通过最小二乘法求得;就标准化回来系数 bj'=bj*xj的标准差 /y 的标准差 懂得方法标准化回来系数 ( beta 值)在多元回来中被用来比较变量间的重要性;但是由于重要性这一词意义的模糊性,这一统计常被误用;有时人们说重要性,是指同样的条件下,哪一个东西更有效;在提高教学质量上,是硬件条重要仍是师资更重要?假如是师资更重要,那么同样的物力投在师资上就可以更快地提高教学质量;但

14、是这里要比较的两者必需有同样的测量单位,如成本(元);假如变量的单位不同, 我们不能肯定地说那个变量更重要;不同单位的两个东西是不能肯定地比出高低轻重来;要想进行肯定地比较,就需要两个东西有着共同的测度单位,否就无法比较;而标准化回来系数 说的重要性就与上面的意义不同,这是一种相对的重要性, 与某一特定的情形下, 自变量间的离散程度有关;比如说, 虽然我们不能肯定地说出训练和年资在打算收入上那一个肯定是重要的,但假如现在大家的训练程度比较相像,那么在收入的打算上, 工作年数就是打算因素;反之,假如工作年数没有太大区分,那么训练就成为了重要缘由;这里的重要性是相对的,是依据不怜悯形而转变的;再举

15、一个通俗的例子, 争论者争论的是遗传因素和后天因素对于人成长的影响;那么在一个社会境遇悬殊庞大的环境中,有人在贫民窟成长, 有人在贵族学校上学,那么我们会发觉人格的大部分差异会从后天环境因素得到说明, 而遗传的作用就相对较小;相反,假如儿童都是在一个相差不大的环境中长大的,你会发觉, 遗传会说明大部分的人格差异;这种意义上的重要性, 不仅与这一自变量的 回来系数有关系, 而且仍与这个自变量的波动程度有关系:假如其波动程度较大, 那么就会显得较为重要; 否就, 就显得不太重要; 标准化回来系数 正是测量这种重要性的;从标准化回来系数的公式中也可看出, beta 值是与自变量的标准差与成正比的,自

16、变量波动程度的增加,会使它在这一详细情形下的重要性增加;但是假如将两种重要性混同,就会得到误导性结论;如环境因素的beta 值比遗传因素的 beta 值大,就认为在个体的人格进展上应更留意环境因素,而轻视遗传因素,在目前对于 beta 值的错误观念特别流行,甚至是一些高手中;标准化回来系数 的比较结果只是适用于某一特定环境的,而不是肯定正确的, 它可能因时因地而变化;举例来说,从某一次数据中得出,在影响人格形成的因素中,环境因素的beta 值比遗传因素的 beta 值大,这只能说明数据采集当时当地的情形,而不能加以任何不恰当的推论,不能肯定地不加任何限定地说,环境因素的影响就是比遗传因素大;事

17、实上,假如将来环境因素的波动程度变小,很可能遗传因素就显得更为重要;数据的情形千差万别, 变量的相对重要性也可能完全不同但都符合当时的实际情形;f 是组方差值,sig 是差异性显著的检验值,该值一般与0.05 或 0.01 比较,如小于0.05 或者 0.01就表示差异显著df 是自由度一般的 sig没有特殊注明的都是指双侧检验,假如特殊注明有单侧,那就是单侧的所谓双侧的意思是有可能在大于,有可能小于的,而单侧的意思是只有一边或者大于,或者小于的关于求法仍是看相关统计学教材吧里面讲起来比较复杂你的分析结果有 t 值, 有 sig 值, 说明你是在进行平均值的比较;也就是你在比较两组数据之间的平

18、均值有没有差异;从具有 t 值来看,你是在进行t 检验; t 检验是平均值的比较方法;t 检验分为三种方法:1. 单一样本 t 检验( one-sample t test),是用来比较一组数据的平均值和一个数值有无差异;例如,你选取了5 个人,测定了他们的身高,要看这五个人的身高平均值是否高于、低于仍是等于1.70m ,就需要用这个检验方法;2. 配对样本 t 检验( paired-samples t test),是用来看一组样本在处理前后的平均值有无差异;比如,你选取了5 个人,分别在饭前和饭后测量了他们的体重,想检测吃饭对他们的体重有无影响,就需要用这个t 检验;留意,配对样本 t 检验要

19、求严格配对, 也就是说, 每一个人的饭前体重和饭后体重构成一对;3. 独立样本 t 检验( independent t test),是用来看两组数据的平均值有无差异;比如, 你选取了 5 男 5 女,想看男女之间身高有无差异,这样,男的一组,女的一组,这两个组之间的身高平均值的大小比较可用这种方法;总之,选取哪种 t 检验方法是由你的数据特点和你的结果要求来打算的;t 检验会运算出一个统计量来,这个统计量就是t 值,spss 依据这个 t 值来运算 sig 值;因此,你可以认为t 值是一个中间过程产生的数据,不必理他,你只需要看sig 值就可以了; sig 值是一个最终值,也是t 检验的最重要

20、的值;sig 值的意思就是显著性( significance),它的意思是说,平均值是在百分之几的几率上相等的;一般将这个 sig 值与 0.05 相比较,假如它大于0.05 ,说明平均值在大于5% 的几率上是相等的,而在小于 95% 的几率上不相等;我们认为平均值相等的几率仍是比较大的,说明差异是不显著的,从而认为两组数据之间平均值是相等的;假如它小于 0.05 ,说明平均值在小于 5% 的几率上是相等的,而在大于 95% 的几率上不相等;我们认为平均值相等的几率仍是比较小的, 说明差异是显著的, 从而认为两组数据之间平均值是不相等的;总之,只需要留意sig 值就可以了;t 值表示的是 t

21、值检验 sig 是检验值一般不用看t 值,只看 sig 的值是否小于0.05. 假如是,说明通过检验了,说明两者在总体中存在相关关系;假如你是做论文用下这样的统计,只需明白这些就可以了;t 值是 t 检验得出来的检验结果,t 检验是一种差异性的检验,用于二组正态分布的数值形变量的检验,是一种差异性检验,检验二组是否存在差别;其值越大,差异越显著;sig 是统计中用的p 值,是依据 t 值的大小查表得出来的数值,他一般与0.05 进行比较,小于 0.05 认为二组的差别显著,大于0.05 就差别不显著;r 表示的是拟合优度 ,它是用来衡量估量的模型对观测值的拟合程度;它的值越接近1 说明模型越好

22、;但是,你的r 值太小了;t 的数值 表示的是对回来参数的显著性检验值,它的肯定值大于等于ta/2n-k (这个值表示的是依据你的置信水平,自由度得出的数值)时, 就拒绝原假设, 即认为在其他说明变量不变的情形下,说明变量x 对被说明变量 y 的影响是显著的;f 的值是回来方程的显著性检验,表示的是模型中被说明变量与全部说明变量之间的线性关系在总体上是否显著做出推断;如f>fak-1,n-k,就拒绝原假设,即认为列入模型的各个解释变量联合起来对被说明变量有显著影响,反之,就无显著影响;单尾双尾检测通常假设检验的目的是两总体参数是否相等,以两样本均数比较为例, 无效假设为两样本所代表的总体

23、均数相等;备择假设为不相等(有可能甲大于乙,也有可能甲小于乙)既两种情形都有可能发生而争论者做这样的假设说明()他没有充分的理由判定甲所代表的总体均数会大于乙的或甲的会小于乙的; () 他只关怀甲乙两个样本各自所代表的总体均数是否相等?至于哪个大不是他关怀的问题这时争论者往往会采纳双侧检验假如争论者从专业学问的角度判定甲所代表的总体均数不行能大于(或小于) 乙的, 这时一般就采纳单侧检验例如: 要比较常常参与体育锤炼的中学男生心率是否低于一般中学男生的心率, 就属于单侧检验 由于依据医学学问知道常常锤炼的中学男生心率不会高于一般中学男生, 因此在进行假设检验时应使用单侧检验单尾检验和双尾检验的

24、区分在于他们拒绝h0 的标准; 单尾检验答应你在差异相对较小时拒绝 h0 ,这个差异被规定了方向;另一方面,双尾检验需要相对较大的差异,这个差异不依赖于方向;全部的争论者都同意单尾检验与双尾检验不同;一些争论者认为,双尾检验更为严格,比单尾检验更令人信服;由于双尾检验要求更多的证据来拒绝h0 ,因此供应了更强的证据说明处理存在效应; 另一些争论者倾向于使用单尾检验,由于它更为敏锐, 即在单尾检验中相对较小的处理效应也可能是显著的,但是,它可能不能达到双尾检验的显著性要求;那么我们是应当使用单尾检验仍是双尾检验?通常,双尾检验被用于没有剧烈方向性期望的试验争论中, 或是存在两个可竞争的猜测时;例

25、如,当一种理论猜测分数增加,而另一种理论猜测分数削减时,应当使用双尾检验; 应当使用单尾检验的情形包括在进行试验前已经有方向性猜测,或剧烈需要做出方向性猜测时;ho假设检验 ( hypothesis testing)假设检验 是用来判定 样本 与样本, 样本与 总体 的差异是由抽样误差 引起仍是本质差别造成的统计推断 方法;其基本原理是先对总体的特点作出某种假设,然后通过抽样争论的统计推理,对此假设应当被拒绝仍是接受作出推断;生物现象的 个体差异 是客观存在, 以致抽样误差不行防止, 所以我们不能仅凭个别样本的值来下结论;当遇到两个或几个样本均数(或率)、样本均数(率)与已知总体均数(率)有大

26、有小时,应当考虑到造成这种差别的缘由有两种可能: 一是这两个或几个样本均数 (或率)来自同一总体,其差别仅仅由于抽样误差即偶然性所造成;二是这两个或几个样本均数 (或率)来自不同的总体, 即其差别不仅由抽样误差造成, 而主要是由试验因素不同所引起的; 假设检验的目的就在于排除抽样误差的影响,区分差别在 统计 上是否成立,并明白大事发生的概率;在质量治理 工作中常常遇到两者进行比较的情形, 如选购 原材料 的验证, 我们抽样所得到的数据在目标值 两边波动,有时波动很大,这时你如何进行判定这些原料是否达到了我们规定的要求呢?再例如, 你先后做了两批试验, 得到两组数据, 你想知道在这两试试验中合格

27、率有无显著变化,那怎么做呢?这时你可以使用假设检验这种 统计方法 ,来比较你的数据, 它可以告知你两者是否相等,同时也可以告知你,在你做出这样的结论时,你所承担的 风险 ;假设检验的思想是, 先假设两者相等,即: 0,然后用统计的方法来运算验证你的假设是否正确;1. 小概率原理假如对总体的某种假设是真实的,那么不利于或不能支持这一假设的大事a(小概率大事) 在一次试验中几乎不行能发生的;要是在一次试验中a 竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设;2. 假设的形式h 0 原假设, h 1 备择假设双尾检验: h 0: = 0,单尾检验:,h1 : < 0 ,h1 : >0 假设检验就是依据样本观察结果对原假设( h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论