




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计分析方法汇总统计分析方法汇总 目录目录 基本统计分析基本统计分析 1 正态性检验 2 单变量均值检验 3 两独立样本的均值检验 2 配对 成对 总体均值检验 2 回归分析 2 方差分析 2 列联表检验 2 多元统计分析多元统计分析 4 主成分分析 5 因子分析 5 聚类分析 5 判别分析 5 基本统计分析基本统计分析 正态性检验正态性检验 许多计量资料的分析方法要求数据分布是正态或近似正态 因此对原始独立测 定数据进行正态性检验是十分必要的 正态性检验主要有三类方法正态性检验主要有三类方法 一 计算综合统计量 如动差法 夏皮罗 威尔克 SHAPIRO WILK 法 W 检验 达戈斯提诺 D AGOSTINO 法 D 检验 SHAPIRO FRANCIA 法 W 检验 二 正态分布的拟合优度检验 如皮尔逊 2 检验 对数似然比检验 柯尔莫哥洛夫 KOLMOGOROV SMIROV 法 检验 三 图示法 正态概率图 NORMAL PROBABILITY PLOT 如分位数图 QUANTILE QUANTILEPLOT 简称 QQ 图 百分位数 PERCENT PERCENT PLOT 简称 PP 图 和稳定化概率图 STABILIZED PROBABILITY PLOT 简称 SP 图 等 SPSS CLASS 分类变量 VAR 变量 RUN 解释 第一部分为基本统计量 第二部分为 2 样本 T 检验的结果 第一行是假 设方差相等使用 POOLED 方法得出的结果 第二行是方差不等使用 SATTERTHWAITE 方法得到的近似 T 检验结果 第三部分为两独立样本 2 组 方 差是否相等 方差齐性 的检验结果 首先第三部分 P 值 0 2994 0 05 方差 齐 相等 再看第二部分 UQUAL 部分的结果 P 值 0 1814 0 05 我们可以说 均值相等 配对 成对 总体均值检验 配对样本的配对 成对 总体均值检验 配对样本的 T 检验 检验 PAIRED SAMPLE T TEST 检验两个有联系正态总体 样本的均值是否存在显著的差异 如检验某种产品广 告的前后销量是否显著有差异 需要对广告前后销量进行比较 前提 正态分布 SPSSSPSS 过程过程 ANALYZE COMPARE MEANS PAIRED SAMPLE T TEST Paired Samples Statistics 样本基本统计量样本基本统计量 MeanNStd DeviationStd Error Mean var1 12441111 01700 09653Pair 1 var2 2026111 91468 08682 Paired Samples Correlations 配对样本相关分析配对样本相关分析 NCorrelationSig Pair 1var1 VAR ADD RUN 回归分析回归分析 回归分析是统计分析的一项重要内容 可以帮助我们了解变量之间的数量关系 线性回归分析线性回归分析 1 线性回归的假设理论 1 正态性假设 即所研究的变量均服从正态分布 2 等方差假设 即各变量总体的方差是相等的 3 独立性假设 即各变量之间是相互独立的 4 残差项无自相关性 即误差项之间互不相关 COV EI EJ 0 2 线性回归模型的检验项目 1 回归系数的检验 T 检验 2 回归方程的检验 F 检验 3 拟合程度判定 可决系数 R2 4 D W 检验 残差项是否自相关 5 共线性检验 多元线性回归 6 残差图示分析 判断异方差性和残差序列自相关 SPSSSPSS 过程过程 ANALYZE REGRESSION LINEAR SASSAS 过程过程 SAS 提供的回归过程比较多 包含 REG 回归 过程 RSREG 二次响应面回归 过程 ORTHOREG 病态数据回归 过程 NLIN 非线性回归 过程 TRANSREG 变换回归 过程 CALIS 线性机构方程和路径分析 过程 GLM 一般线性回归 过程 GENMOD 广义线性回归 过程等 REG 的一般格式 PROC REG DATA 数据集 选项 VAR 变量列表 MODEL 因变量 自变量列表 SELECTION 回归模型 PRINT 输出结果 PLOT 诊断图形 RUN 使用不同的线性回归模型 SELECTION FORWARD 为顺向选择法 将全模型中的自变项逐一加入至最佳模型 SELCTION BACKWARD 为反向排除法 将全模型中的自变项逐一去除至最佳模型 SELECTION STEPWISE 为逐步排除法 为前二者之合并 例如 PROCPROC REGREG DATA SASUSER SCORE VAR MATH ENGLISH CHINESE MODEL MATH ENGLISH CHINESE RUNRUN 解释 回归结果为第三部分 可以看到 P 都大于 0 05 则 English Chinese 的作用不显著 NLIN 过程 非线性回归 所谓非线性回归就是指因变量的表达式是非线性的 由于非线性回归的模型比 较复杂 为了估计系数而需要进行的计算量也很大 所以在过程中需要指明模 型的表达式且给定系数的初始值 以 STOCK 为例 首先假设模型为 PRICE B0 EPS B1 SCALE B2 EPS SCALE B3 设定 B0 B1 B2 B3 的初始值分别为 1 1 1 10 然后编程如下 PROC NLIN DATA STOCK MODEL PRICE B0 EPS B1 SCALE B2 EPS SCALE B3 PARAMETERS B0 1 B1 1 B2 1 B3 10 PARAMETERS 可缩写为 PARMS RUN 得到结果如下 解释 分析结果包括 5 个部分 ITERATIVE PHASE 主要计算迭代情况 给出每次迭代序号以及每次迭代中的系 数值 在这次回归过程中 用牛顿法 NEWTON 进行了 2 次迭代达到了收敛临 界值 ESTIMATION SUMMARY 回归过程的总结 使用了什么方法 哪些数据 方差分析表 介绍各部分方差的来源 给出回归模型的 P 值 检验回归模型的 是否有效 在这里 回归模型的 P 值为 0 0004 0 05 所以模型是显著的 APPROX 近似系数表 给出系数的估计值 估计标准差 95 置信上下限 APPROXIMATE CORRELATION MATRIX 近似相关系数矩阵 给出模型参数的相关 系数矩阵的估计值 注意 在使用 NLIN 过程的时候不是给定任意一个模型和初始值都能干得到回归 结果 不恰当的初始值和模型很可能无法得到正常的回归模型 这个时候可以 试着调整模型和参数的初值 GLM 过程 GLM 是一般线性模型的缩写 使用的是最小二乘法来回归线性的模型 在 GLM 过程不但可以进行回归分析 还可以进行方差分析 协方差分析 多变量方差 分析 偏相关系数分析 一般格式为 PROC GLM CLASS VARIABLES MODEL DEPENDENTS INDEPENDENTS ABSORB VARIABLES BY VARIABLES FREQ VARIABLE ID VARIABLES WEIGHT VARIABLE CONTRAST LABEL EFFECT VALUES ESTIMATE LABEL EFFECT VALUES LSMEANS EFFECTS MANOVA MEANS EFFECTS OUTPUT KEYWORD NAMES RANDOM EFFECTS REPEATED FACTOR SPECIFICATION TEST E EFFECT 结果在最后一部分 给出了参数的估计值和 P 值 小于 0 05 则模型显著 ORTHOREG 过程 病态数据回归过程 它的数学核心是最小二乘法 当处理一些病态数据的时候 得到的结果比其他的线性回归方法 REG GLM 精确得多 例如 PROCPROC ORTHOREGORTHOREG DATA LONGLEY MODEL EMPLOYMENT PRICES PRICES PRICES GNP GNP GNP JOBLESS JOBLESS JOBLESS MILITARY MILITARY MILITARY POPSIZE POPSIZE POPSIZE YEAR YEAR YEAR RUNRUN 结果略 第一部分为方差分析表 下面是参数的估计值 方差分析方差分析 方差分析 ANOVA 又称变异数分析或 F 检验 其目的是推断两组或多组资料的 总体均数是否相同 检验两个或多个样本均数的差异是否有统计学意义 单因素方差分析 单因素方差分析是最简单的方差分析 指分析一个变量不同情况下的值是否有 差异 方差分析的核心思想是把样本与平均值的方差分解为两部分 一部分来 自不同因素的差异 一部分来自同组之间的差异 如果不同因素之间的差异占 到一个比较大的比例 那么有理由相信各因素之间是有明显差异的 前提 正态性检验 独立性检验 方差齐性 ANOVA 过程一般格式 PROC ANOVA DATA 数据集 CLASS 因素 MODEL 结果 因素 RUN 例如 PROC ANOVA CLASS BRAND MODEL NITROGEN BRAND MEANS BRAND T RUN 除了 ANOVA 过程 GLM 过程也可以进行单因素的方差检验 PROC GLM DATA 数据集 CLASS 因素 MODEL 结果 因素 RUN 多因素方差分析 多个因素交叉作用 常用 ANOVA 要求数目相等 和 GLM 过程 数目可不等 前提 正态性检验 独立性检验 方差齐性 例如 PROC ANOVA CLASS PAINLEVEL CODEINE ACUPUNCTURE MODEL RELIEF PAINLEVEL CODEINE ACUPUNCTURE RUN 其中 A B A B A B 交互作用 例如 PROC ANOVA CLASS PAINLEVEL CODEINE ACUPUNCTURE MODEL RELIEF PAINLEVEL CODEINE ACUPUNCTURE RUN 另外可以在期间添加 MEANS 变量列表 核心思想与接过解释统上单因素方差分析 另附 另附 PROC ANOVA CLASS variables MODEL dependents effects ABSORB variables BY variables FREQ variable MANOVA MEANS effects REPEATED factor specification TEST E effect 列联表检验列联表检验 对于一些离散值的变量要检验它们之间是否独立 只能使用列联表的检验方法 零假设 因素 X 与因素 Y 独立 列联表检验的核心是 X2检验 比较频数与理论均值的差 如果差异达到一定程 度 则说明两个因素之间具有一定的关系 列联表检验是通过在 FREQ 过程中添加 X2检验的选项来实现 一般用法如下 PROC FREQ DATA 数据集 TABLES 因素 A 因素 B CHISQ WEIGHT 试验结果 RUN 例如 PROC FREQ DATA HEART TABLES A B CHISQ WEIGHT F RUN 得到结果如下 第一部分为频数统计表 第二部分为卡方检验的结果 第三部分为 FISHER 精确检验的结果 卡方检验要求每个单元格的频数不少于 5 否则就要看 FISHER 精确检验的结果 另附 PROC FREQ BY variables EXACT statistic options OUTPUT options TABLES requests TEST options WEIGHT variable 多元统计分析多元统计分析 主成分分析主成分分析 主成分就是由原来的 M 个变量生成的 m 个互不相关的 未丢失原有信息的新变 量 通过主成分分析 可以寻找能够理解观测结果本质的因素 并给出这些因 素合理的解释 主成分的基本条件与主成分的基本性质可概括如下 主成分之间互不相关 全部 m 个主成分反映 n 例样本的总信息 等于 m 个原变量的总信息 各个主成分的作用大小是 Z1 Z2 ZM 第 I 个主成分的贡献率为 i m 100 前 P 个主成分的累计贡献率为 i m 100 在观察结果时 如果 前几个主成分的累计贡献率已经达到 70 到 85 以上 那么我们就取它们作 为主成分 SPSSSPSS 过程过程 SASSAS 过程过程 PRINCOMP 过程简介 SAS 中的 PRINCOMP 过程可以完成主成分分析 它的主要功能包括 主成分的个数 名称可以由用户自己定义 主成分得分是否标准化自己 确定 输入的数据集可以是原始数据集 相关阵 协方差阵 计算结果包括 简单统计量 相关阵或协方差阵 从大到小排序的特征 值以及对应的特征向量 各个主成分解释的方差比例以及累计比例 可以解释变量间的相关关系 另附 PROCPROC PRINCOMPPRINCOMP BYBY variables FREQFREQ variable PARTIALPARTIAL variables VARVAR variables WEIGHTWEIGHT variable 举例 PROC PRINCOMP OUT CRIME COMPONENTS RUN 得到如下结果 解释 从特征值表我们可以看到第一个特征值为 4 11495951 它的贡献率 为 58 79 第二个特征值为 1 23872182 累计贡献率 76 48 第三个 0 72581663 了几贡献率 86 85 因子分析因子分析 因子分析是主成分分析的延伸 主成分分析做原 P 个原始变量的 M 个线性组合 这些线性组合在原始变量的所有 M 个线性组合中可以最好地预报原始变量 因 子分析对主成分分析进行了推广 它用潜在的 M 个 因子 来概括原始变量的 信息 这些因子不一定是原始变量的线性组合 SPSSSPSS 过程过程 SASSAS 过程过程 FACTORFACTOR 过程过程 一般格式如下 PROC FACTOR DATA 数据集 选项 VAR 变量 RUN 例如 另附 PROCPROC FACTORFACTOR options VARVAR variables PRIORSPRIORS communalities PARTIALPARTIAL variables FREQFREQ variable WEIGHTWEIGHT variables BYBY variables PROCPROC FACTORFACTOR ExtractionExtraction Options Options METHOD name alpha harris image ml pattern prin prinit score uls PRIORS name asmc input max one random smc CONVERGENCE c COVARIANCE MAXITER n RANDOM n WEIGHT n MINEIGEN n NFACTORS n PROPORTION n HEYWOOD ULTRAHEYWOOD PROCPROC FACTORFACTOR RotationRotation Options Options ROTATE name equamax hk none orthomax procrustes promax quartimax varimax GAMMA n HKPOWER n NORM n POWER n PREROTATE name PROCPROC FACTORFACTOR MiscellaneousMiscellaneous Options Options NOCORR NOINT SINGULAR VARDEF divisor 各种检验的方法和前提 1 正态性检验 大样本用 K S 检验 小样本用 SHAPIRO WILK 检验 具体方 法有两种 一种是使用 DESCRIPTIVE STATISTICS EXPLORE 一种是使用 NON PARAMETIC TEST 1 SAMPLE K S TEST 2 标准化处理 去量纲 即将原有的一组数据转为符合 N 0 1 分布的数 据 从而达到去单位的效果 具体做法是在 DESCRIPTIVE STATISTICS DESCRIPTIVE 下勾选 SAVE STANDARDIZED VALUES AS VARIABLES 即可得到相 应的标准化数据 3 单因素方差分析 1 前提条件 正态性检验 独立性检验 方差齐性 2 数据导入 对于固定效应模型 可以利用 COMPARE MEANS ONE WAY ANOVA 实现 亦可 以用 GLM UNIVARIATE 实现 对于随机效应模型 可以用 GLM UNIVARIATE 实现 如何判定该用固定效应模型还是随机效应模型 因为 HAUSMAN TEST 的原 假设是 采用随机
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位招聘考试预测题及备考策略
- 2025企业职员试用合同协议书模板
- 测试好色指数题目及答案
- 鱼塘挖掘工程施工方案
- 2025年乡镇医保服务岗位招聘考试专业科目模拟试题及答案解析
- 2025年清洁服务项目立项申请报告模板
- 2025年古典名著鉴赏中级课程考试模拟题集含答案
- 众筹方案范本
- 山西抗倍特板施工方案
- 2025年医学领域招聘面试题及答案详解手册
- 2024广西继续教育公需科目(高质量共建“一带一路”)真题
- 上海市内分泌科临床质控手册
- 装饰装修工程施工方案(完整版)
- 燃气市场风险分析报告
- 人教部编版小学五年级语文上册第一、第二单元测试题
- 瓷砖粘贴施工方案
- DL-T325-2010电力行业职业健康监护技术规范
- 目视判读的一般过程和方法与目视判读举例
- 保育员取餐分餐环节培训
- 个人简历模板(空白简历表格)
- 北师大版小学6六年级数学上全套完整课件
评论
0/150
提交评论