




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课后练习:计算鱼塘的另一个重要指标“
感”后的period2阶段,感(happiness2)是否存在感(happiness2)是否显著的高于6?差异?如果存在,这个差异是显著的么?时的
感(happiness1)是否有显著差异?如果有,是显著的1.t检验鱼在进入鱼的鱼现在
感(happiness2)与刚入高了,还是低了?感(happiness2)是否受到
(sex)的影响?感(happiness2)是否t同时受到(sex)、(sex)、(age)的影响?(age)、刚入2.ANOVA/F检验鱼在阶段二的鱼在阶段二的鱼在阶段二的 感(happiness2)是否t同时受到(happiness1)的影响?时的感////*practises*/////*one-samplettest
happiness2
==6parison
test(单样本t检验)*//* parisontest(单样本分组均值比较)*/ttest
happiness2==sex/*two-sample
mean
comparison
test(双样本均值比较)*/ttest
happiness1==happiness2,
unpaired
unequal
welch/* ysis
of
variance*/anova
happiness2
sexanova
happiness2
sex
ageanova
happiness2
sex
age
happiness1STATA
DO文件中
令Lesson
5.
用STATA建模鱼子民的 感呢?感的“ ”——普通最小二乘法5.1
建立模型的标准:我该用什么模型来分析5.2
为连续变量建模:以鱼居民的体重为(ordinary
least
square
(OLS))5.3
为分类和等级变量建模5.3.1
等级逻辑回归(ologit):以鱼居自曝的
感(1—10等)为5.3.2
二元逻辑回归(logistics):以鱼居民是否“离塘出走”为感的“感的“
””5.3.3
多元逻辑回归(mlogit):鱼们的拥有什么不同特征导致出走不同的目的地5.1建立模型的标准:我该用什么模型来分析鱼子民快不 呢?、困惑举个例子:社会经济地位的测量。社会资本的测量。人力资本的测量1
确立研究问题:2获得数据。研究者个人收集一手数据;使用组织/机构收集的数据问卷设计影响数据质量:选择偏差+答率;使得结果整体发生偏离;比如多重共线性、对回归结果影响很大的值等等,就算 的模型也是无计可施的。员偏差:来自不同社会背景的人对问题有不一样的理解3模型设定:解释变量选择不当、测量误差、函数形式不妥等,则会出现较大的测量误差(specification
error)。5.1.1模型设定中的问题以及解决策略遗漏变量。加入尽可能多的控制变量/使用“实验与自然实验。变量”/工具变量/使用面板数据/随机无关变量。致使估计值方差变大。参考相关研究理论的指导。多重共线性。不必理会(仅考虑整体模型的解释,不影响关注的解释变量)/增大样本容量、剔除导致共线的变量、进行模型重新设定。数据。画散点图以矫正或剔除/
个案背景,必要时剔除个案/输出“全样本”和剔除 值的“子样本”,让读者来判断。解释变量个数的选择。使用信息准则AIC、BIC(越小越好,说明建模损失的信息越好)。函数形式检验。Ramsey’s
RESET
检验,是否遗漏非线性的变量。建模策略——“从大到小”还是“从小到大”。折中两种方案。休息片刻继续下一节内容5.1.1模型设定中的问题以及解决策略遗漏变量。加入尽可能多的控制变量/使用“实验与自然实验。变量”/工具变量/使用面板数据/随机无关变量。致使估计值方差变大。参考相关研究理论的指导。多重共线性。不必理会(仅考虑整体模型的解释,不影响关注的解释变量)/增大样本容量、剔除导致共线的变量、进行模型重新设定。数据。画散点图以矫正或剔除/
个案背景,必要时剔除个案/输出“全样本”和剔除 值的“子样本”,让读者来判断。解释变量个数的选择。使用信息准则AIC、BIC(越小越好,说明建模损失的信息越少)。函数形式检验。Ramsey’s
RESET
检验,是否遗漏非线性的变量。建模策略——“从大到小”还是“从小到大”。折中两种方案。5.1.2“好模型”的特征节省性(parsimony):相对精确而简单的反应现实。可识别性(identifiability):给定一组数据,估计的参数有唯一确定值。高拟合性(goodness
of
fit):模型整体的解释力以及主要研究变量的解释力。理论一致性(theoreticalconsistency):即使模型拟合性很高,但是如果模型中出现变量的系数的估计值与现实不符合,那么这个模型还是失败的。能力(predicative
power):“对假设的真实性唯一有效的检验就是将
值与经验值相比较”——
。5.1.3经典线性回归模型的基本假设:模型的数学表达:y=b+a1x1+a2x2+...+anxn
+ε线性性和可加性线性性:X1每变动一个单位,Y相应变动a1个单位,与X1的绝对数值大小无关。可加性:X1对Y的影响是独立于其他自变量(如X2)的。自变量之间相互独立若不满足这一特性,(3)误差项(ε)独立若不满足这一特性,称模型具有多重共线性性(Multicollinearity)。称模型具有自相关性(Autocorrelation)。(4)误差项(ε)的方差为常数若满足这一特性, 称模型具有同方差性(Homoskedasticity),若不满足,则为异方差性(Heteroskedasticity)。往往需要重点关注一(5)误差项(ε)呈正态分布如果误差项不呈正态分布,意味着置信区间会变得很不稳定,些异常的点(误差较大但出现频率较高),来得到更好的模型。5.1.4
两类线性回归模型介绍一般线性回归(普通最小二乘法):因变量是定比、定距变量逻辑回归:因变量是分类(包括二分类、多分类)、等级变量我研究问题是:我鱼子民的
感是受到什么因素影响的呢?议题感什么因素操作化体重自曝的
感(受社会渴望影响)是否离家出走线性模型选择多元线性回归(OLS)等级逻辑回归(Ologit)逻辑回归(logistics)5.2
以鱼居民的体重为
感的“
”——普通最小二乘法(ordinary
least
square
(OLS))被解释变量:体重解释变量: 、入池模型选择:OLS、入池时长及入池时长的平方项、种类OLS回归模型的基本假设线性性、可加性自变量之间互相独立。cov(x1,x2)=0误差项(ε)独立。cov(
εi
,εj
)=0误差项(ε)的方差为常数。误差项(ε)服从正太分布,ε~N(0,σ2)Stata5.2
以鱼居民的体重为 感的“
”——普通最小二乘法(ordinary
least
square
(OLS))kdensity
weight2//*anova
testto
see
if
the
variables
involved
in
themodel
are
statistically
related
to
thedependent
variable*//anova
weight2
i.sex
age
period2
species//OLSregression*//xi:reg
weight2
i.sex
age
period2
i.species//*test
whether
the
model
setting
*///*lingk
test*/linktest/*Ramsey's
RESET
test_test
whether
the
model
needs
quadratic/cubic
term*//estatovtest
/*使用被解释变量的2次,3次以及4次项作为解释变量加入到模型中*/estatovtest,rhs
/*使用解释变量的幂次作为非线性项*/xi:reg
weight2
i.sex
age
age2
period2
i.specieslinktestestat
ovtest休息片刻继续下一节内容Stata5.2
以鱼居民的体重为 感的“
”——普通最小二乘法(ordinary
least
square
(OLS))kdensity
weight2//*anova
testto
see
if
the
variables
involved
in
themodel
are
statistically
related
to
thedependent
variable*//anova
weight2
i.sex
age
period2
species//OLSregression*//xi:reg
weight2
i.sex
age
period2
i.species//*test
whether
the
model
setting
*///*lingk
test*/linktest/*Ramsey's
RESET
test_test
whether
the
model
needs
quadratic/cubic
term*//estatovtest
/*使用被解释变量的2次,3次以及4次项作为解释变量加入到模型中*/estatovtest,rhs
/*使用解释变量的幂次作为非线性项*/xi:reg
weight2
i.sex
age
age2
period2
period2_square
i.specieslinktestestat
ovtest//*choosing
the
number
of
explaining
variables
the
lowerAIC/BIC,
the
better
the
model
is*//qui
xi:reg
weight2
i.sex
age
period2
i.speciesestat
icqui
xi:reg
weight2
i.sex
age
period2
i.species
weight1
happiness1estat
ic/*multiple
collinearity_smaller
than
10,
there
is
no
collinearity*/qui
xi:reg
weight2
i.sex
age
period2
i.species
weight1
happiness1vif/*extrme
values*/qui
xi:reg
weight2
i.sex
age
period2
i.species
weight1
happiness1predict
lev,leveragegsort
-
levsum
levdisr(max)/r(mean)gsort
-
levlist
lev
in
1/5/*normal
distribution
test
of
residuals*/xi:reg
weight2
i.sex
age
period2
i.species
weight1
happiness1predict
resid,residualssktest
resid/*heteroskedasticity
test*/qui
xi:reg
weight2
i.sex
age
period2
i.species
weight1
happiness1hettestWeight2=b+
α1sex+
α2age
+
α3period2
+
α4species_2
+
α5species_2
+
α6species_3+
α7species_4+α8weight1
+α9happiness1+ε我研究问题是:我鱼子民的
感是受到什么因素影响的呢?议题感什么因素操作化体重自曝的
感(社会渴望)是否离家出走线性模型选择多元线性回归(OLS)等级逻辑回归(Ologit)逻辑回归(logistics)休息片刻继续下一节内容我研究问题是:我鱼子民的
感是受到什么因素影响的呢?议题感什么因素操作化体重自曝的
感(社会渴望)是否离家出走线性模型选择多元线性回归(OLS)等级逻辑回归(Ologit)二元逻辑回归(logistics)5.3.0
离散选择模型/定性反应模型最常见:二值选择模型(binarychoices):考研或不考研;通过/不通过;成功/失败;工作或待业;出国或不出国; 或者和平;生或者死;“离塘出走或不离塘出走”。又可以被称为“线性概率模型”(Linear
Probability
Model,LPM),logistics多值选择模型(multiple
choices),可以理解为二值选择模型的自然推广,其中可分为无等级的和有等级的。无等级,只有类别的差异(multiple
logit,mlogit);如:出门可以是走路、骑自行车、坐
车、开车等可以穷尽的选择。有等级(ordered
logit,ologit):社会声望/教育水平可分为高中低;
感分为1-10类,也可以分为高中低。ቊ𝑃
𝑦
=
1
𝑥 =
𝐹(𝑥,
𝛽)𝑃
𝑦
=
0
𝑥 =
1
−
𝐹
𝑥,
𝛽Logistic
分布函数P(y=1|x)=F(x,β)=
∧
𝑥′β =
exp
𝑥′β
/1+
exp
𝑥′βp=exp
𝑥′β
/(1+
exp
𝑥′β
);1-p=1/(1+
exp
𝑥′β𝒑
𝒑𝟏−𝒑
𝟏−𝒑=
𝐞𝐱𝐩
𝒙′𝜷
;
odds
ratio
=e^β
;
𝜷
=ln(
)Odds=pr/(1-pr)ln(odds)=logit
转化5.3.2
二元逻辑回归(logistics):以鱼居民是否“离塘出走”为
感的“
”𝒚ෝ=𝑎+𝑥1𝑖𝑏1
+𝑥2𝑖𝑏2+…𝑥𝑛𝑖𝑏𝑛转化为logit模型后为:ln(𝒚ෝ)
=
ln(𝑎)
+
ln(𝑥1𝑖
𝑏1)+
ln(𝑥2𝑖
𝑏2)+…
ln(𝑥𝑛𝑖𝑏𝑛)被解释变量:是否离家出走(是=1vs.否=0)解释变量: 、入池 、入池时长及入池时长的平方项、种类(与扰动项不相关)模型选择:logisticsLogistics
回归模型的基本假设线性性、可加性自变量之间互相独立。cov(x1,x2)=0误差项(ε)独立,cov(εi
,εj)=0;服从两点分布,而非正态分布;存在异方差,应使用稳健回归。Statahist
leavexi:logistic
leave
i.sex
age
period2
period2_squar
i.species
,rxi:logistic
leave
i.sex
age
period2
period2_squar
i.species
happiness2
weight2,r5.3.2
二元逻辑回归(logistics):以鱼居民是否“离塘出走”为
感的我研究问题是:我鱼子民的
感是受到什么因素影响的呢?议题感什么因素操作化体重自曝的
感(社会渴望)是否离家出走线性模型选择多元线性回归(OLS)等级逻辑回归(Ologit)二元逻辑回归(logistics)5.3.1Ologit(等级逻辑回归):以鱼居自曝的幸福感(1—10等)为 感的“
”𝒚ෝ=𝑎+𝑥1𝑖𝑏1
+𝑥2𝑖𝑏2+…𝑥𝑛𝑖𝑏𝑛转化为logit模型后为:ln(𝒚ෝ)
=
ln(𝑎)
+
ln(𝑥1𝑖
𝑏1)+
ln(𝑥2𝑖
𝑏2)+…
ln(𝑥𝑛𝑖𝑏𝑛)被解释变量:自曝的解释变量:
、入池模型选择:ologit感(1-10等级)、入池时长及入池时长的平方项、种类(与扰动项不相关)ologit回归模型的基本假设线性性、可加性自变量之间互相独立。cov(x1,x2)=0误差项(ε)独立,cov(
εi
,εj
)=0Stata5.3.1
Ologit(等级逻辑回归):以鱼居自曝的幸福感(1—10等)为
感的“
”//////*order
ologit ysis
of
happiness2*//////kdensity
happiness2xi:
anova
happiness2
i.sex
age
period2
i.speciesxi:ologit
happiness2
i.sex
age
period2
i.species//*test
whether
the
model
setting
*///*lingk
test*/linktest//*choosingthe
number
of
explainingvariables
the
lower
AIC/BIC,
the
better
the
model
is*//xi:ologit
happiness2
i.sex
age
period2
period2_squa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论