版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
复杂抽样设计下的回归分析任莉颖什么是回归分析?回归分析有什么用?怎么做回归分析?2“回归”是什么意思?19世纪80年代英国统计学家弗朗西斯·高尔顿(Francis
Galton)在亲子身高的研究中首次提出“回归”一词。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。3回归分析是一种理解数据的方法元数据:变量名:SALES变量标签:营业额(单位:万元)174.4164.4244.2154.6181.6207.5152.8163.2145.4137.2241.9191.1232.0145.3161.1209.7146.4144.0232.6224.1166.5统计量:平均值:181.9中位值:166.5标准差:36.19最大值:244.2
最小值:137.24元数据:变量名:SALES变量标签:营业额(单位:万元)变量名:TARGTPOP变量标签:本市16岁以下少儿人数(单位:万人)统计量:相关系数:0.9437检验:p<0.0000SALES
TARGTPOP174.4
68.5164.4
45.2244.2
91.3154.6
47.8181.6
46.5207.5
66.1152.8
49.5163.2
52.0145.4
48.9137.2
38.4241.9
87.9191.1
72.8232.0
88.4145.3
42.9161.1
52.5209.7
85.7146.4
41.3144.0
51.7232.6
89.6224.1
82.7166.5
52.35统计量:相关系数SALES TARGTPOP
DISPOINC174.4
68.5
16.7164.4
45.2
16.8244.2
91.3
18.2154.6
47.8
16.3181.6
46.5
17.3207.5
66.1
18.2152.8
49.5
15.9163.2
52.0
17.2145.4
48.9
16.6137.2
38.4
16.0241.9
87.9
18.3191.1
72.8
17.1232.0
88.4
17.4145.3
42.9
15.8161.1
52.5
17.8209.7
85.7
18.4146.4
41.3
16.5144.0
51.7
16.3232.6
89.6
18.1224.1
82.7
19.1166.5
52.3
16.0元数据:变量名:SALES变量标签:营业额(单位:万元)变量名:TARGTPOP变量标签:本市16岁以下少儿人数(单位:万人)变量名:DISPOINC变量标签:本市人均可支配收入(单位:万元)6SALESTARGTPOPDISPOINC174.468.516.7164.445.216.8244.291.318.2154.647.816.3181.646.517.3207.566.118.2152.849.515.9163.252.017.2145.448.916.6137.238.416.0241.987.918.3191.172.817.1232.088.417.4145.342.915.8161.152.517.8209.785.718.4146.441.316.5144.051.716.3232.689.618.1224.182.719.1166.552.316.07回归模型:观测项=结构项+随机项SALES
=
F(TARGTPOP,
DISPOINC)
+
eYi
=
b0
+
b1Xi1
+
b2Xi
2
+
eiY
:因变量X
:自变量b
:回归系数e:误差项SALESi
=
-68.85
+
1.45(TARGTPOPi)
+
9.37(DISPOINCi)
+
ei回归分析有什么用?8描述性:观测项=概括项+残差项目的:概括数据的基本特征预测性:观测项=预测项+误差项目的:应用新的数据给出有用的预测回答因果性:观测项=机制项+干扰项目的:发现数据产生的机制“统计模型的主要目标在于用最简单的结构和尽可能少的参数来概括大量数据所包含的主要信
息。”理解回归分析的误区31使用调查数据的权重39建构回归模型的步骤23怎么做回归分析?10一元线性回归分析11一元线性回归分析模型:
Y
=
b0
+b1X
+
eY
:因变量
X
:自变量
b0
:截距
B1:斜率b0
+b1X
:Y值中与X值相关的部分e:Y值中与X值无关的部分。。。。。。。。xy0。。yi要找一条直线,使2i
i(y
-yˆ
)最小。。yˆixi最小二乘法(Ordinary
Least
Squares,OLS)示意图一元线性回归分析一元线性回归分析13OLS回归模型的基本假定:2、正交假定误差项和X不相关误差项的期望值为03、独立同分布假定任何两个误差项之间都不相关所有误差项的方差都相同4、正态分布假定误差项为正态分布1、线性假定- Y的条件均值是自变量X的线性函数:mi=
b0
+
b1xi一元线性回归分析OLS回归直线的特性:1、残差之和为0:2、因变量观测值之和等于其预测值之和:3、自变量值与残差乘积之和等于0:4、因变量预测值与残差乘积之和等于0:=
0
eii
Yi=
Yˆ=
0
Xieii
i
Yˆe
=
05、自变量和因变量的均值(X
,Y
)一定在回归直线上。1415一元线性回归分析16一元线性回归分析例:“明天影楼”是一家针对16岁及以下少儿的专业摄影工作室。该公司已在全国21个中等城市设立了连锁影楼,正在计划在其他中等城市开拓业务。方差分析参数估计SALES
(Y):去年各连锁影楼的营业额(万元)TARGTPOP(X):去年各影楼所在城市16岁及以下少儿的人数(万人)N:21个城市模型检验一元线性回归分析140160180200220240405060
708090targtpopsales Fittedvalues1回归参数估计值:(x
-
x
)2bi=
(xi
-
x
)(yi
-
y
)b0
=
y
-
b1xSALES=68.28+1.83TARGTPOP17Y
=
b0
+
b1X一元线性回归分析ˆ
)残差均方:1回归参数估计标准误:220n
-
2(y
-
yMSE
=(x
-
x
)2S
=
MSE
/x
2n
+
(x
-
x
)iiib1iSb
=
MSE11
1置信区间:t(21-2)分布下,大于12.44的概率为0.000所以,拒绝零假设。回归参数检验:Tb
=
(b1
-
0)/Sb
=
1.8327
/
0.1473
=
12.44b1
–
t(1
-
a
/
2;n
-
2)Sb零假设H0
:
b1
=
0
备择假设
H1
:
b1
„
018一元线性回归分析方差分析(ANOVA)来源
平方和(SS)自由度(df)均方(MS)回归模型(Model)SSR
ൌ
ሺ
𝑌
െ𝑌തሻଶ1MSR
ൌ𝑆𝑆𝑅1残差(Residual)SSE
ൌ
ሺ
𝑌
െ𝑌
ሻଶn-2MSE
ൌ𝑆𝑆𝐸n
െ
2所有(Total)S𝑆TO
ൌ
ሺ
𝑌
െ𝑌തሻଶn-1计算该统计量时,独立取值的数值个数SSTO
=
SSR
+SSE模型能够解释的变异模型未能解19释的变异一元线性回归分析150.7981模型检验:23331.0462= =
154.72MSEMSR=F
*零假设H0
:
b1
=
0
备择假设
H1
:
b1
„
0表示该模型能够解释营业额总变异中的88.49%。F(1,21-2)分布下,大于154.72的概率为0.000所以,拒绝零假设。判定系数:a=
0.8906=
1
-=
=
0.8849n
-
p
SSTO=
1
-
n
-
1
SSER
2SSTOSSESSTOSSRR
220一元线性回归分析211、明天连锁影楼的营业额受到本市16岁及以下的少儿人数的显著影响;2、城市中16岁及以下的少儿人数越多,该市明天连锁影楼的营业额越高;3、城市中16岁及以下的少儿人数每增长1万人,该市明天连锁影楼的营业额增长1.83万元;4、明天连锁影楼营业额在不同城市间的差异88.5%的原因归结于本市16岁及以下少儿人数的不等。还有别的原因吗?22多元线性回归分析23一元线性回归分析多元线性回归分析Y
=
b0
+b1X
+
eY
=
b0
+b1X1
+
b2X2
+
e多元线性回归分析例:“明天影楼”是一家针对16岁及以下少儿的专业摄影工作室。该公司已在全国21个中等城市设立了连锁影楼,正在计划在其他中等城市开拓业务。SALES
(Y):去年连锁影楼的营业额(万元)TARGTPOP(X1):去年连锁影楼所在城市16岁及以下少儿的人数(万人)DISPOINC
(X2):去年连锁影楼所在城市居民人均可支配收入(万元)N:21个城市24多元线性回归分析模型:SALES
=-70.24
+1.45TARGTPOP
+9.47DISPOINCt(21
- 3)分布下,大于所以,拒绝零假设。256
.
820
.
000回归参数检验:b
1置信区间:b
1
–
t
(
1=
1
.
45 /
0
.
21
=6.82
的概率为=
(
b
1
-
0)/S-
a
/
2;
n
-
3
)S
b1H
0
:
b
1
=
0H
1
:
b
1
„
0Tb126多元线性回归分析122.48联合检验:MSEMSR
11995.78=
= =
97.94F
*H1
:
b1
„
0或b2
„
0H0
:
b1
=
b2
=
0表示该模型能够解释营业额总变异中的90.65%。F(1,21-3)分布下,大于97.94的概率为0.000所以,拒绝零假设。判定系数:a=
0.9158=
1
-=
=
0.9065n
-
p
SSTO=
1
-
n
-
1
SSER
2SSTOSSESSTOSSRR
2一元线性回归分析1、明天连锁影楼的营业额受到本市16岁及以下的少儿人数及本市居民人均可支配收入的显著影响;2、在16岁及以下的少儿人数相同的情况下,该市居民人均可支配收入越高,明天连锁影楼的营业额越高;3、在16岁及以下的少儿人数相同的情况下,该市居民人均可支配收入每增长1万元,该市明天连锁影楼的营业额增长9.47万元;4、明天连锁影楼营业额在不同城市间的差异90.65%的原因归结于本市16岁及以下少儿人数及居民人均可支配收入的不等。27多元线性回归分析A城市TARGTPOPDISPOINC65.417.6明天影楼希望知道根据这个模型,在A城市开设连锁影楼预计的年营业额是多少?A城市的数据信息如下:ˆ22h
hh'
'
-1=
MSE(1
+
X
(X
X
)
X
)h其中s
{pred
}
=
MSE
+
s
{Y
}ˆ2hh2t(1
-
0.05
/
2;21
-
3)
=
2.101A城市:167.3
£
Yh(new
)£
214.9+
s
{Y
}
=
122.48
+
7.656
=
130.136s
{pred
}
=
MSEs{pred
}
=
11.41Yˆ
–
t(1
-
a
/
2;n
-
p)s{pred
}
Yˆ
=
191.26模型:SALES
=-70.24
+1.45TARGTPOP
+9.47DISPOINCSALES(A)
=
-70.24
+
1.45TARGTPOP
+
9.47DISPOINC=
-70.24
+
1.45x65.4
+9.47x17.6=
191.26左右28理解回归分析的误区误区一、判定系数R2
越高说明模型拟合越好。R2
=
0.6871R2
=
0.0013681012y1248106x1468101214y224810296x2理解回归分析的误区误区二、判定系数R2
越高预测越准确。ˆ2
2hhs{pred
}
=
11.41t(1
-
0.05
/
2;21
-
3)
=
2.101A城市:167.3
£
Yh(new
)£
214.9s
{pred
}
=
MSE
+
s
{Y
}
=
122.48
+
7.656
=
130.136Yˆ
=
191.26表示该模型能够解释营业额总变异中的90.65%。判定系数:a=
0.9158=
1
-=
=
0.9065n
-
p
SSTO=
1
-
n
-
1
SSER
2SSTOSSESSTOSSRR
230理解回归分析的误区误区三、可以通过标准化回归系数来比较自变量的作用大小。其数值含义为:在控制了其他变量的情况下,自变量每变化一个标准差,因变量的平均变化(以因变量标准差数为单位)。1、自变量之间的相关程度会影响到标准化回归系数的计算2、自变量取值的间距也会影响到标准化回归系数的计算y
k
k
ksb
=
bY
=
b1X
1
+
b2
X
2s21211
-
rry
1
-
r12
ry
2b
=3132建构回归模型的步骤23怎么建构回归模型呢?33建构回归模型的步骤34建模 诊断 补救建构回归模型的步骤35建构回归模型的步骤1、根据理论选择研究变量如:一个人的收入水平受到其性别、年龄、受教育程度、工作年限、职业、居住地区的影响。理论假设:环境保护中的公众参与行为会受到公众的环境意识、环境知识,以及个人社会经济状况的影响操作化假设:排除其他因素的影响,对环境问题越关注的人对环境保护的参与层次越高;排除其他因素的影响,环境知识越丰富的人对环境保护的参与层次越高;排除其他因素的影响,收入水平越高的人对环境保护的参与层次越高;……36建构回归模型的步骤2、自变量和因变量应为定距/定比变量。如果自变量中包括定类变量,需将其转换为虚拟变量使用。如:一个人的收入水平受到其性别、年龄、教育程度、工作年限、职业,居住地区的影响。定距/定比变量:年龄、工作年限;定类变量:性别、职业“受教育程度”是哪种变量?定距测量:正规教育的年限;定序变量:文盲/半文盲、小学、初中、高中、大专、大学本科、硕士、博士定类变量:是否接受过大学教育37建构回归模型的步骤2、(续)如何转换为虚拟变量?以编码“1”和“0”表示案例的类别归属。原变量虚拟变量性别1
男;2
女2个虚拟变量:男:1
是;0
否女:1
是;0
否职业1
农民;2
工人;3
公务员;4公司职员;5
其他5个虚拟变量:农民:1
是;0
否工人:1
是;0
否公务员:1
是;0
否公司职员:1
是;0否其他:1
是;0
否居住地区1
东部;2中部;3
西部3个虚拟变量:东部:1
是;0
否中部:1
是;0
否西部:1
是;0
否虚拟变量的个数=原变量的类别数38建构回归模型的步骤2、(续)居住地区东部不是东部中部不是中部西部“居住地区”两个虚拟变量纳入回归模型:1
东部;2
中部。对比地区为西部如何在回归模型中使用虚拟变量?纳入回归模型的虚拟变量个数=原变量的类别数-139建构回归模型的步骤3、考虑自变量之间是否理论上存在交互作用如理论上假定,随着工作年限的增加,男性的收入比女性的收入增长速度要快。(Y:收入;X1:性别;X2:工作年限)无交互作用:E{Y}
=
1000
X1+500X2有交互作用:E{Y}
=
1000
X1+500X2+300X1X2020004000600080001000012000140001
2
3
4
5
6
7
8
9
10
11
1213
1415
16
1718
1920男性:E{Y}=2000+500X2女性:E{Y}=1000+500X2200001800016000140001200010000800060004000200001
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20男性:E{Y}=2000+800X2女性:E{Y}=1000+500X2建构回归模型的步骤4、考虑自变量与因变量之间是否存在非线性关系如理论上假定,年龄与收入呈现倒U型,即青年人和老年人收入比中年人收入要低。(Y:收入;X3:年龄)E{Y}
=
-5000+600X3-7X3290008000700060005000400030004010203040506070建构回归模型的步骤i41piP(YiP(Yilog(5、自变量和因变量应为定距/定比变量。如果因变量中为定类变量,可以转换为虚拟变量使用逻辑斯蒂回归或其他定类数据的
分析方法。逻辑斯蒂回归:1
i0=
1)
=
pi=
0)=
1
-
pi1
-
p)
=
b
+
b
X建构回归模型的步骤1、检查因变量和自变量的无应答情况;2、检查数据频数分布情况变异情况奇异值频数过小的类别3、检查因变量和自变量的线性关系targtpop42dispoincsales6040100804060801001716191816171819150200250150200250建构回归模型的步骤1、模型选择的标准;标准公式应用调整后的判定系数𝑅ଶ,1
െ
𝑀𝑆𝐸𝑆𝑆𝑇𝑂𝑛െ
1越大越好𝐴𝐼𝐶𝑛ln𝑆𝑆𝐸
െ
𝑛𝑙𝑛𝑛
2𝑝越小越好𝐶𝑆𝑆𝐸
െ
ሺ𝑛
െ
2𝑝ሻ𝑀𝑆𝐸ሺ𝑋ଵ,…
,
𝑋ିଵሻ越小越好𝑃𝑅𝐸𝑆𝑆ሺ𝑌
െ
𝑌
ሻଶିଵ越小越好43建构回归模型的步骤44run;1、模型选择的标准(续);ObsModelpdfAdjrsqAICCpPress1x12440.6103220.538.355569.562x22440.3491244.1342.119254.493x32440.4022240.2135.258451.434x1x23430.6389217.975.605235.195x1x33430.661215.062.814902.756x2x33430.4437237.8530.258115.917x1x2x34420.6595216.194.005057.89SAS:procreg
data=dataset;model
y=x1
x2
x3/
selection=adjrsq
press
cp
AIC;STATA:reg
y
x1
x2
x3estat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 手术人员定期考核制度
- 银行员工上班考核制度
- 押运公司效益考核制度
- 危货监控人员考核制度
- 电商客服部门考核制度
- 现场改善5s考核制度
- 立体停车库建设投资与市场分析报告
- 大学规划请假制度怎么写
- 海大业务员薪酬制度表
- 安全防范设施制度
- 2026年南京交通职业技术学院单招职业倾向性测试题库带答案详解(新)
- 2024版2026春新版三年级下册道德与法治全册教案教学设计
- 2026年郑州澍青医学高等专科学校高职单招职业适应性测试模拟试题及答案详细解析
- 第五单元达标练习(单元测试)2025-2026学年二年级语文下册统编版(含答案)
- 劳务实名制管理培训课件
- 2026年及未来5年市场数据中国铁路车辆检修市场全面调研及行业投资潜力预测报告
- 2026春译林8下单词表【Unit1-8】(可编辑版)
- 2026年郑州市高三语文一模作文题目解析及范文:从容非彼岸工夫是舟楫
- 2026年渤海船舶职业学院单招职业技能测试题库及参考答案详解
- 学校采购内控管理制度
- 《酿酒微生物讲》课件
评论
0/150
提交评论