如何学习统计研究方法最终版PPT课件.ppt

上传人：优*** IP属地：广东上传时间：2020-03-19 格式：PPT 页数：38 大小：817.50KB 积分：35 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

如何学习统计研究方法和传媒大学同学的一次交流祝迎春2006 5 1 引言个人的介绍主题分享学习统计的一些心得理论方法的知识地图回归应用的问题个案学习 2 统计是一门致力于研究收集数据抽样理论分析数据统计算法解释数据背景知识与理论的学科我个人的心得外加计算机操作研究什么经过数据计算后产生出有意义的信息事物之间的相关关系包括因果关系事物之间的差异先找出它们的差异然后再找出它们的共性事物的结构层次水平统计是以帮助描述验证思想的工具性学科统计是什么 3 统计的两个应用领域思维过程领域研究方法领域生活学术数字背后的心理活动过程普通人做统计问题时的思维过程处理随机事件的能力数字背后的心理活动过程研究者做学术研究时逻辑的推理过程关于随机性规律观察数据调查数据抽样数据试验数据统计中的形象思维使看不见的随机性被看见的意义赋值和建立描述相关关系 4 基本知识回顾总体的描述随机变量的数字特征 X 与样本的描述样本分布的数字特征 s 之间连接点是随机变量的分布估计量的性质无偏性 Unbiasedness 样本均值在真值附近摆动而没有系统误差有效性 Efficiency 在所有的不同估计量中的方差最小一致性 Consistency 当n 估计量在真值附近的概率接近1 最小离差平方 MeanSquareError 离差最小or方差最小如果估计量是无偏时此标准等价于有效性对估计量的检验假设检验 5 统计学习分三个部分 6 学习归纳统计方法的一个案例 2 相关独立样本 1 差异非独立样本组类相关系数Intraclasscorrelationcoefficient Pearson相关系数独立样本t检验配对样本t检验在同一对象上两个重复测量值之间的相关系数 Pearson相关系数研究的是不同变量之间产生的 7 研究中要注意的一些问题假定 Assumption 在研究中被人为控制设定定义的变量或者常量针对的是一个变量常量是特殊的一种变量假设 Hypothesis 可验证性的陈述两个或多个数个变量间的可能关系为一种假设性陈述变量产生操作化 operationaldefinition 用变量代替概念验证过程数据管理数据分析数据呈现数据收集数据格式的转换储存位置抽样设计研究设计问卷设计执行管理变量选择加权统计模型的选择统计量的含义检验标准显著性水平报表表格符号公式文字图形 8 客观的世界主观的世界观察解释理论和现象的关系物理活动声光机械化学变化无机物变化生物活动新陈代谢心理活动意识与认知社会变化文化人际阶层传播不具有运算功能的符号绘画音乐具有运算功能的符号逻辑文字数字随机变量的分布随机性估计变量分布的特征 9 我们在做什么科学本质试验性包含了证伪性的命题在错误中不断求真广泛的解释性和高度一致的预测性理论是怎样产生的呢波普尔认为科学只能从问题开始理论是为解决问题而做出的尝试是对问题的猜测波普尔说一种科学理论一种解释性理论只不过是解决一个科学问题的一种尝试因此理论是大胆的猜测即使是那些己经充分确认的科学理论也终究还是一种猜测一种假说正因为理论是猜测它们就具有不确定性和暂时性最终会被推翻被新理论所替代我们是一群问题提出者和企图解答者波普尔认为衡量一个理论真的程度的标准即看该理论是否具有高解释力和高预测力而这又是由理论所包含的信息量来决定的一般说来理论所包容的信息量越多其可解释的范围越广其预测的力度便越强但与此同时科学理论所包容的信息愈多它接受的范围愈广其可错性或被证伪的概率便越高也就是说科学理论真的概率增大的过程也是科学理论被证伪的可能性增大的过程换言之它是科学理论中可错成分逐渐增多的过程 10 理想的理论回答现象为什么机制可验证性及可以证伪和重复的与相关之既有知识或理论一致不宜抵触不是孤立理论简约若为统计模型参数要尽量少对应研究之问题量化形式不仅是文字建模也是可以数字建模和图形建模具相当广度有助推论具有普适性一个好的社会学理论实证性解释控制变量的产生原因明确指出解释现象的产生原因和结果以及因果关系的方向性没有大小why 连续性条件变化后结果的变化即预测功能 11 StawandSutton 1995 Whattheoryisnot 1 参考文献不是理论不要被文献驾驭2 数据不是理论3 变量的列表或建造不是理论4 图表不是理论不要用AMOS5 假设或预言不是理论周雪光的见解什麼是有力的理論理論應該回答為什麼的問題泛泛描述性的研究沒有深度理論關心的是現象之間的關係即我們觀察到的行為事件結構或思想為什麼產生的因果關係在我們看來理論的任務是深入地探討解釋導致某一事件或行為發生的內在過程從而幫助我們理解這一現象產生的系統的原因 378頁實證研究的設計應該為這個基本目的服務集中在因果關係上研究的深入性系統性 12 统计学习的路径基础统计社会统计多元统计不懂统计原理胡乱调用些proc 得出的P值不是屁才怪呢不教写原理只教技术菜谱式学习只能是制造数据垃圾和伪实证的理论 clxia 计算机和软件只是辅助思维的工具不是思维本身在使用某一种方法之前应该认真读一下有关的统计书籍对所用方法的目的对象和条件有所了解一些有用的统计观点统计学家发展了许多测量变量关联强度大小的方法一定条件下某种方法的选择依赖于所含变量的多少所使用的量表及关联的本质等等但大多都遵守一条基本原则都试图通过与这些特定变量间最大可能关联比较来估计实际关联强度的大小从统计学上讲估计关联的常用方法是观察变量值的差异然后计算所研究的两个或多个变量含有共同差异时解释总差异的比例通俗地说就是将变量中共同部分比成如果变量完全相关时应潜在相同的部分注意研究中的随机性现象的影响计量经济学家在无偏性和一致性的取舍上一般要求一致性 13 一些有用的统计观点 SPSS14 STATA9 统计学习的老师向谁学学什么统计软件统计专著论文交流 14 方差齐性线性关系效应累加变量无测量误差变量服从多元正态分布观察独立模型完整没有包含不该进入的变量也没有漏掉应该进入的变量误差项独立且服从 0 1 正态分布第二部分回归技术的学习为什么要学习回归模型是实证分析中最广泛使用的工具作业答案回归的8个假设 15 最小二乘法的本质点估计统计意义回归技术就是估计回归系数及其标准误的点估计回忆一下回归的一些基础知识复习回归一词的由来父亲和儿子的身高关系起源 1889年F Gallton和他的朋友K Pearson收集了上千个家庭的身高臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式后来发展为从误差平方和最小平方乃二乘也出发改称为最小二乘法 16 共线性无法估计 17 最小二乘法的性质 1 拟合残差之和等于零2 Y的真实值和拟合值的均值相等3 拟合残差与自解释变量不相关4 残差与拟合值不相关不存在自相关高斯马尔可夫定理最好线性无偏 18 2020 3 19 19 高斯马尔可夫定理 Gauss Markovtheorem 在给定经典线性回归的假定下最小二乘估计量是具有最小方差的线性无偏估计量当模型参数估计完成需考虑参数估计值的精度即是否能代表总体参数的真值或者说需考察参数估计量的统计性质一个用于考察总体的统计量可从三个方面考察其优劣性 1 线性性 linear 即是否是另一随机变量的线性函数 2 无偏性 unbiased 即它的均值或期望值是否等于总体的真实值 3 有效性 efficient 即它是否在所有线性无偏估计量中具有最小方差 20 关于经典回归模型的假定1 21 关于经典回归模型的假定2 22 关于经典回归模型的假定3 23 关于经典回归模型的假定4 24 随机扰动项垂直波动 VerticalErrorJumps 关于随机扰动项的古典假设其数据生成过程叫变量误差模型 25 残差分布均值为零 ZeroMeanErrorDisplacement 关于随机扰动项的古典假设使用最小二乘法一定会保证这个假设满足 26 随机扰动项的方差为同方差 Homoskedasticity 关于随机扰动项的古典假设异方差 Heteroskedasticity 同方差假定的意义是指每个 i围绕其零平均值的变差并不随解释变量X的变化而变化不论解释变量观测值是大还是小每个 i的方差保持相同即 27 异方差关于随机扰动项的古典假设 Homoskedastic Heteroskedastic 28 后果出现异方差之后最小二乘法的最优性就失效在社会科学中是必然的识别 Goldfeld Guandt检验这种检验的思想时如果整个总体或经济过程在研究期间都是同方差的这意味着报研究期间划分为两个时期来考虑和研究总体或经济过程所得到的误差项方差的差异不应该是显著的 Breuch Pagan检验如果异方差的形式不与某个解释变量的观测值或观测次数有关而是与一组解释变量有关此时无法使用Goldfeld Guandt检验 White检验处理交互回归加权回归稳健回归似然法异方差 29 共线性当两个或两个以上解释变量之间高度但非完全相关时乘模型中出现多重共线性多重共线性的后果使参数估计值的标准误差增大导致参数估计值的t统计量减少从而使参数估计值无法通过t检验整体拟合很好但个体估计很差其含意是整体的拟合有度R2很大但个体参数估计值的t统计量却很小并且无法通过检验此时我们称模型中出现多重共线性相关矩阵自变量之间回归按照实际理论意义删除自变量看模型设定问题忽略增加样本未必减少标准误反而增加变量相关主成分回归社会科学中不可取偏最小二乘法岭回归后果识别处理 30 自相关后果相关会导致用最小二乘法求出的参数估计值不是线性估计中方差最小的估计值识别 Durbin Watson检验处理通过广义差分变换消除异方差计算 31 模型设置自变量存在随机误差非线性和不可相加性遗漏变量或者添加不相关的变量自变量的选择问题过度设定对我们的参数估计没有影响 OLS仍然是无偏的但它对OLS估计量的方差有不利影响遗漏变量将违反零条件均值 E u xp 0 OLS估计是有偏的遗漏X2偏误方向二元特例谨慎使用逐步回归信息准则 eg AIC 32 问题完了吗你确定你会回归了回顾以上其实我们只是讨论了模型设定除了问题的情况模型的元素不仅是模型的模型的形式还包括了样本本身如果样本并不完备又如何样本不完备包括 1 存在测量误差 2 存在分组情况 3 样本存在缺失值 33 存在测量误差变量误差方程误差模型模型变了更加广义了处理对误差的设定彼此独立为均值为0的正态分布且不存在自相关也独立与回归的随机扰动项 1 工具变量估计寻找一个Z替代X使得与不相关仅与相关越高越好 2 组平均法 1的一种特例识别 3 加权回归必须知道自变量和因变量的误差方差比值为常数 34 存在分组情况变量不是来自同一总体的情况变量存在分组按一个变量来标定分类叫单向分组数据按两个变量来标定分类叫双向分组数据带有虚拟变量的模型 35 样本存在缺失值极大的一个课题不是我现在可以讲的极大似然法EM算法期望步极大化步使用迭代直至达到收敛贝叶斯统计多重插补 Eg 零回归估计使用缺失值的样本均值内插估计是有偏的处理 36 我对建立回归模型的建议回归是建立在研究者对所有变量的性质关系有很好的把握的基础之上变量的选择和要

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

如何学习统计研究方法最终版PPT课件.ppt

文档简介

温馨提示

最新文档

评论

如何学习统计研究方法最终版PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档