




已阅读5页,还剩119页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计分析描述性统计分析 从总体中随机抽取样本 用统计图表或少数统计指标来描述大量原始样本数据的某种现象或特征 常用的内容 集中和离散趋势 峰度和偏度 统计图形分析 推断性统计分析 根据样本资料的特性对总体的特性作估计或推论 常用方法是参数估计和假设检验 1 第五章 SPSS基本统计分析 描述性统计分析 内容提要1 频数分析 重点 统计量含义 相互联系 2 描述统计3 列联表分析 掌握分析适用条件 作用 结果判定 4 多选项问题多选问题赋值方法 重点掌握 定义多选变量集合 重点掌握 多选变量的频次分析 重点掌握 多选变量的列联表分析 重点掌握 5 探索分析 了解分析工作的作用 掌握假设检验的判断 认识茎叶图 6 比率分析 了解 SPSS的主要分析工具 Analyze菜单 报告 Rports描述性统计分析 DescriptiveStatistics菜单表格 Tables均数间的比较 CompareMeans菜单一般线性模型 GeneralLinearModel菜单相关分析 Correlate菜单多元线性回归与曲线拟合 Regression菜单对数线性模型 Loglinear菜单聚类分析与判别分析 Classify菜单因子分析与对应分析 DataReduction菜单信度分析与多维尺度分析 Scale菜单非参数检验 NonparametricTests菜单时间序列分析 Timeseries 4 SPSS基本统计分析 描述性统计分析 的作用 分析数据的基本统计特征 如集中度 离散度等 分析数据的总体分布情况 是下一步的建模和进行正确统计推断的先决条件 5 SPSS的许多模块均可完成描述性分析 但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中 包括 Frequencies 频数分析过程 特色是产生频数表 主要针对分类变量 Descriptives 数据描述过程 进行一般性的统计描述 主要针对定距型变量 Explore 数据探察过程 用于对数据概况不清时的探索性分析Crosstabs 多维频数分布交叉表分析 列联表分析 Ratiostatistics 比率分析 用于两个定距型变量间变量值比率变化分析 6 5 1频数分析 5 1 1频数分析的目的和基本任务1 目的 基本统计分析往往从频数分析开始 通过频数分析能够了解变量取值的状况 对把握数据的分布特征是非常有用的 如 样本是否有代表性 抽样是否存在系统性偏差等 适用对象 主要是定序或分类变量 7 2 基本任务 1 频数分析的第一个基本任务是编制频数分布表 可选项 频数 Frequency 即变量值落在某个区间 或某个类别 中的次数百分比 Percent 即各频数占总样本数的百分比有效百分比 ValidPercent 即各频数占有效样本数的百分比 这里有效样本数 总样本 缺失样本数累计百分比 CumulativePercent 即各百分比逐级累加起来的结果 最终取值为100 8 2 频数分析的第二个任务是绘制统计图条形图 BarChart 用宽度相同的条形的高度或长短来表示频数分布 或百分比 变化的图形 适用于定序和定类变量的分析 饼图 PieChart 用圆形及圆内扇形的面积来表示频数 或百分比 变化的图形 以利于研究事物内在结构组成等问题 直方图 Histograms 用矩形的面积来表示频数分布变化的图形 适用于定距型变量的分析 9 5 1 2频数分析的基本操作 1 选择菜单Analyze DescriptiveStatistics Frequencies 2 将若干频数分析变量选择到Variable s 框中 3 单击Chart按钮选择绘制统计图形 在ChartValues框中选择条形图中纵坐标 或饼图中扇形面积 的含义 其中Frequencies表示频数 Percentages表示百分比 10 5 1 3SPSS频数分析的扩展功能1 计算分位数 PercentileValues 分位数是变量在不同分位点上的取值 分位点在0 100之间 一般使用较多的是四分位点 Quartiles 即将所有数据按升序排序后平均等分成四份 各分位点依次是25 50 75 于是四分位数便分别是25 50 75 点所对应的变量值 此外 还有八分位数 十六分位数等 SPSS提供了计算任意分位数的功能 用户可以指定将数据等分为n份 Cutpointsfornequalgroups 还可以直接指定分位点 Percentile 11 输出百分位数 输出四分位数 显示25 50 75 的百分位数 将数据平均分为所设定的相等等份 可输入2 100的整数 如键入4则输出第25 50 75百分位数自定义百分位数 可输入0 100的整数 离散趋势 分布形态栏 集中趋势栏 输出统计量对话框 12 2 计算其他基本描述统计量SPSS频数分析还能够计算其他基本统计量 其中包括描述集中趋势 CentralTendency 的基本统计量 描述离散程度 Dispersion 的基本统计量 描述分布形态 Distribution 的基本统计量等 13 Format对话框 控制频数表输出的分类数量 默认为10 多变量框中可设定多变量表格输出的格式 设置频数表输出的格式 选择频数表中排列顺序按变量升序排列 此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列 14 2 multiplevariables单选框组 如果选择了两个以上变量作频数表 则comparevariables可以将所有变量的结果在同一个频数表过程输出结果中显示 便于互相比较 organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示 每一个变量一张表 15 3 频数分布表格式 Format 的定义 1 调整频数分布表中数据的输出顺序 Orderby 频数分布表中的内容的输出顺序可以按变量值的升序输出 Ascendingvalues 按变量值的降序输出 Descendingvalues 以上两类适合分类数量较少的情形 按频数的升序输出 Ascendingcounts 按频数的降序输出 Descendingcounts 以上两类适合分类数量较多的情形 16 3 压缩频数分布表 Suppresstableswithmorethanncategories 如果变量取值的个数或取值区间的个数太多 频数分布表将很庞大 此时可以压缩它 SPSS默认 如果变量取值的个数或取值区间的个数大于10 则不输出相应的频数分布表 应用中可以修改该值 17 5 1 4频数分析的应用举例利用居民储蓄调查数据进行频数分析 有以下两个分析目标 目标一 分析储户的户口和职业的基本情况 目标二 分析储户一次存款金额的分布 并对城镇储户和农村储户进行比较 18 分析 目标一 分析储户的户口和职业的基本情况 1 户口和职业两个变量都是定类型变量 可通过基本频数分析实现 2 职业变量的取值 分类 数目较多 为使频数分布表更一目了然 应对内容的输出顺序进行调整 单击Format按钮 选择Descendingcounts按频数的降序输出 3 单击Chart按钮指定输出户口变量的饼图和职业变量的条形图 19 目标二 分析储户一次存款金额的分布 并对城镇储户和农村储户进行比较 1 分析思路 1 由于存 取 款金额数据为定距型变量 直接采用频数分析不利于对其分布形态的把握 因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表 recode frequency 2 进行数据拆分 并分别计算城镇储户和农村储户的一次存 取 款金额的四分位数 并通过四分位数比较两者分布上的差异 20 2 分析过程 1 数据分组 将存 取 款金额重新分成五组 五组区间分布为 少于500元 500 2000元 2000 3500元 3500 5000元 5000元以上 分组后进行频数分析并绘制带正态曲线的直方图 2 利用SPSS的频数分析计算所有样本的存 取 款金额的四分位数 然后 按照户口类型对数据进行拆分 Splitfile 并重新计算分位数 分别得到城镇户口和农村户口的存 取 款金额的四分位数 21 5 2计算基本描述统计量 5 2 1基本描述统计量适用对象 定距数据常见的基本描述统计量有三大类 刻画集中趋势的统计量刻画离中趋势的统计量刻画分布形态的统计量 22 1 刻画集中趋势的描述统计量集中趋势是指一组数据向某一中心值靠拢的倾向 1 均值 Mean 即算术平均数 是反映某变量所有取值的集中趋势或平均水平的指标 如某企业职工的平均月收入 其计算公式为 23 均值适用条件 定距变量 单峰或基本对称分布情况下适用 为什么 24 2 中位数 Median 即一组数据按升序排序后 处于中间位置上的数据值 如评价社会的老龄化程度时 可用中位数 中位数特点 位置平均数 不受极端值影响 适用于任意分布类型数据 定序和定价数据都适用 样本量很小时 中位数不稳定 25 3 众数 Mode 即一组数据中出现次数最多的数据值 如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数 众数特点 出现频数最高的数 不受极端值影响 但是不容易确定 适用于任意类型数据 特别是单峰对称分布 仅使用频数最高这一信息 信息损失较大 26 2 刻画离散程度的描述统计量离散程度是指一组数据远离其 中心值 的程度 如果数据都紧密地集中在 中心值 的周围 数据的离散程度较小 说明这个 中心值 对数据的代表性好 相反 如果数据仅是比较松散地分布在 中心值 的周围 数据的离散程度较大 则此 中心值 说明数据特征是不具有代表性的 27 常见的刻画离散程度的描述统计量如下 1 全距 Range 也称极差 是数据的最大值 Maximum 与最小值 Minimum 之间的绝对离差 特点 易受极端值影响 不能反映中间数据分布 一般是作预备性检查 28 2 方差 Variance 也是表示变量取值离散程度的统计量 是各变量值与算数平均数离差平方的算术平均数 其计算公式为 特点 容易受极端值影响 计算中使用了均值 因此 均值必须能够代表集中度时才能适用 是离散指标中最可靠的 29 3 标准差 StandardDeviation StdDev 表示变量取值距离均值的平均离散程度的统计量 其计算公式为 标准差值越大 说明变量值之间的差异越大 距均值这个 中心值 的离散趋势越大 30 4 均值标准误差 StandardErrorofMean 描述样本均值与总体均值之间的平均差异程度的统计量 其计算公式为 其中 为总体标准差 n为样本单位数 31 3 刻画分布形态的描述统计量数据的分布形态主要指数据分布是否对称 偏斜程度如何 分布陡峭程度等 刻画分布形态的统计量主要有两种 1 偏度 Skewness 描述变量取值分布形态对称性的统计量 其计算公式为 32 当分布为对称分布时 正负总偏差相等 偏度值等于0 当分布为不对称分布时 正负总偏差不相等 偏度值大于0或小于0 偏度值大于0表示正偏差值大 称为正偏或右偏 偏度值小于0表示负偏差值大 称为负偏或左偏 偏度绝对值越大 表示数据分布形态的偏斜程度越大 33 2 峰度 Kurtosis 描述变量取值分布形态陡峭程度的统计量 其计算公式为 当数据分布与标准正态分布的陡峭程度相同时 峰度值等于0 峰度大于0表示数据的分布比标准正态分布更陡峭 为尖峰分布 峰度小于0表示数据的分布比标准正态分布平缓 为平峰分布 34 5 2 2计算基本描述统计量的操作 1 选择菜单Analyze DescriptiveStatistics Descriptives 出现如下窗口 35 2 将需计算的数值型变量选择到Variable s 框中 3 单击Option按钮指定计算哪些基本描述统计量 出现如下窗口 36 Options对话框 基本统计量 当Variables框中有多个变量时 此框确定其输出顺序 按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列 分布 37 在上面窗口中 用户可以指定分析多变量时结果输出的次序 DisplayOrder 其中 Variablelist表示按变量在数据窗口中从左到右的次序输出 Alphabetic表示按字母顺序输出 AscendingMeans表示按均值升序输出 DescendingMeans表示按均值降序输出 至此 SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中 38 5 2 3计算基本描述统计量的应用举例1 利用居民储蓄调查数据 对一次存款金额变量计算基本描述统计量 有以下分析目标 计算存款金额的基本描述统计量 并分别对城镇储户和农村储户进行比较 39 分析思路 首先 由于存 取 款金额数据为定距型变量 可直接采用基本描述统计分析 然后 按照户口对数据进行拆分 Splitfile 然后计算存 取 款金额的基本描述统计量 40 2 分析储户一次存款的数量是否存在不均衡现象 分析 1 假设储户一次存款金额服从正态分布 跟据3原则 异常值通常为3个标准差范围之外的值 可通过对数据的标准化处理来判断 标准化的数学定义为 41 2 计算储户一次存款金额的标准化值 通过标准化可以得到一系列新变量值 通常称为标准化值或z分数 计算标准化值可以通过对话框中的复选框savestandardizedvaluesasvariables来实现 并将结果保存在一个新变量中 该变量的命名规则为字母z 原变量名的前七个字符 3 接下来可对新变量进行排序并浏览其标准化值的取值情况 可以发现z分数值得绝对数大于3的储户是存在的 4 对其分组为三组 za53 5 进行频数分析可以发现存款金额存在不均衡现象 42 思考 频数和基本描述统计量可以描述单个变量的分布情况 能否用于分析多个变量的联合分布情况 43 5 3交叉分组下的频数分析 5 3 1目的和基本任务交叉分组下的频数分析又称列联表分析 1 目的 分析多个分类变量不同取值下的分布 进而分析变量之间的相互影响和关系 即分析两个或两个以上分类变量的分布情况 适用范围 两个或两个以上定类或定序变量 44 2 基本任务 1 根据收集到的样本数据 产生二维或多维交叉列联表 2 在交叉列联表的基础上 对两两变量间是否存在一定的相关性进行分析 45 5 3 2交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析的第一个任务 交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表 例 职工基本情况数据按职称和文化程度编制的二维交叉列联表 见下页表 46 47 上表中的职称变量称为行变量 Row 文化程度称为列变量 Column 行标题和列标题分别是两个变量的变量值 或分组值 表格中间是观测频数 ObservedCounts 和各种百分比 16名职工中 本科 专科 高中 初中的人数分别为4 4 5 3 构成的分布称为交叉列联表的列边缘分布 高级工程师 工程师 助理工程师 无技术职称的人数分别为3 4 6 3 构成的分布称为交叉列联表的行边缘分布 4个本科学历职工中各职称的人数分别是1 1 2等 这些频数构成的分布称为条件分布 即在行变量 列变量 取值条件下的列变量 行变量 的分布 48 在交叉列联表中 除了频数外还引进了各种百分比 例如表中第一行中的33 3 33 3 33 3 分别是高级工程师3人中各学历人数所占的比例 称为行百分比 Rowpercentage 一行的百分比总和为100 表中第一列的25 0 25 0 50 0 分别是本科学历4人中各职称人数所占的比例 称为列百分比 Columnpercentage 一列的列百分比总和为100 表中的6 3 6 3 12 5 等分别是总人数16人中各交叉组中人数所占的百分比 称为总百分比 Totalpercentage 所有格子中的总百分比之和也为100 49 5 3 3交叉分组下的频数分析的基本操作 1 菜单选项Analyze DescriptiveStatistics Crosstabs 出现窗口如下 50 该框中的变量作为分布表中的行变量和列变量 该框中的变量作为控制变量 决定频数分布表中的层 可有多个控制变量 显示每一组中各变量的分类条形图 只输出统计量 不输出多维列联表 Crosstabs对话框 51 2 如果进行二维列联表分析 则将行变量选择到Row s 框中 将列变量选择到Column s 框中 如果Row s 和Column s 框中有多个变量名 SPSS会将行列变量一一配对后产生多张二维列联表 如果进行三维或多维列联表分析 则将其他变量作为控制变量选到Layer框中 多控制变量间可以是同层次的 也可以是逐层叠加的 可通过Previous或Next按钮确定控制变量间的层次关系 52 3 选择Displayclusteredbarcharts选项 指定绘制各变量交叉分组下频数分布条形图 Suppresstables表示不输出列联表 在仅分析行列变量间关系时可选择该选项 4 单击Cells按钮指定列联表单元格中的输出内容 窗口如下 53 Crosstabs的CellDisplay对话框 选择在列联表中输出的统计量 包括观测量数 百分比 残差 输出观测量的实际数量如果行和列变量在统计上是独立的或不相关的 那么会在单元格中输出期望的观测值的数量 输出单元格中观测量的数目占整行全部观测量数目的百分比输出单元格中观测值的数目占整列全部观测量数目的百分比输出单元格中观测量的数目占全部观测量数目的百分比 计算非标准化残差计算标准化残差计算调整后残差 54 SPSS默认列联表单元格中只输出观测频数 Observed 为便于分析 通常还应指定输出Percentage框中的行百分比 Row 列百分比 Column 总百分比 Total Counts框中的Expected表示输出期望频数 Residuals框中的各个选项表示在各个单元格中输出剩余 其中 Unstandardized为非标准化剩余 定义为观测频数 期望频数 Standardized为标准化剩余 又称Pearson剩余 定义为 55 5 单击Format按钮指定列联表各单元格的输出排列顺序 Ascending表示以行变量取值的升序排列 是SPSS默认项 Descending表示以行变量取值的降序排列 6 单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系 窗口如下 其中 Chi Square为卡方检验 56 5 3 4交叉列联表行列变量间关系的分析对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务 为了理解行 列变量之间的关系 可以从分析两个极端的例子出发 1 年龄与工资收入的交叉列联表 一 57 2 年龄与工资收入交叉列联表 二 表一中表示年龄与工资收入呈正相关关系 表二表示年龄与工资收入呈负相关关系 但大多数情况下 观测频数分散在列联表的各个单元格中 不容易直接发现行列变量之间的关系强弱程度 此时就要借助非参数检验方法 通常用的方法是卡方检验 58 交叉列联表的卡方检验 卡方检验属假设检验的范畴 步骤如下 1 建立原假设在列联表分析中卡方检验的原假设为行变量与列变量独立 2 选择和计算检验统计量列联表分析卡方检验统计量是Pearson卡方统计量 其数学定义为 59 其中 r为列联表的行数 c为列联表的列数 为观察频数 为期望频数 ExpectedCount 期望频数的计算方法是 其中 RT是指定单元格所在行的观测频数合计 CT是指定单元格所在列的观测频数合计 n是观测频数的合计 期望频数的分布反映的是行列变量互不相干下的分布 60 61 例如 具有本科学历的高级工程师的期望频数是0 75的计算公式是3 4 16 0 75 这里 期望频数可以理解为 总共16个职工的学历分布是25 25 31 3 18 8 如果遵从这种学历的总体比例关系 高级职称三人的学历分布也应为25 25 31 3 18 8 于是期望频数为3 25 3 25 3 31 3 3 18 8 同理可以理解 总共16个职工的职称分布为18 8 25 37 5 18 8 本科学历4人的期望频数分别为4 18 8 4 25 4 37 5 4 18 8 62 2020 1 15 63 卡方统计量观测值的大小取决于两个因素 第一 列联表的单元格子数 第二 观测频数与期望频数的总差值 在列联表确定的情况下 卡方统计量观测值的大小取决于观测频数与期望频数的总差值 当总差值越大时 卡方值也就越大 实际分布与期望分布的差距越大 表明行列变量之间越相关 反之表明行列变量之间越独立 64 问题 在统计上卡方统计量的观测值究竟达到什么程度才能断定行列变量不独立呢 由于该检验中的pearson卡方统计量近似服从卡方分布 因此可依据卡方理论找到某自由度和显著性水平下的卡方值 即卡方临界值 65 3 确定显著性水平 SignificantLevel 和临界值显著性水平是指原假设为真却将其拒绝的风险 即弃真的概率 通常设为0 05或0 01 在卡方检验中 由于卡方统计量服从自由度为 行数 1 列数 1 的卡方分布 因此 在行列数目和显著性水平确定时 卡方临界值是可唯一确定的 66 4 结论和决策 对统计推断做决策通常有两种方式 根据统计量观测值和临界值比较的结果进行决策 如果卡方观测值大于临界值 则认为实际分布与期望分布之间的差距显著 可以拒绝原假设 断定列联表的行列变量间不独立 存在相关关系 如果卡方观测值小于临界值 接受原假设 67 根据统计量观测值的概率p值和显著性水平比较的结果进行决策 如果p值小于等于 则认为卡方观测值出现的概率是很小的 拒绝原假设 断定列联表的行列变量间不独立 存在依存关系 反之 接受原假设 68 什么是P值 是一个概率值 如果原假设为真 P 值是抽样分布中大于或等于样本统计量的概率 被称为观察到的 或实测的 显著性水平 69 双侧检验的P值 70 左侧检验的P值 71 右侧检验的P值 72 利用P值进行检验 决策准则 若p 值 不拒绝H0若p 值 拒绝H0 73 使用卡方检验应该注意的问题 列联表中有20 以上单元格的期望频数小于5时 要采用似然率卡方检验进行修正 当期望频数T 5 样本数n 40时 直接用Pearson卡方检验 当1 40时 用连续性校正公式 当T 1 或者n 40时 或做卡方检验后所得的P值接近检验水准a时 用确切概率 Fisherexacttest 74 5 3 5交叉分组下的频数分析应用举例对居民储蓄调查数据进行分析 实现以下目标 1 分析城镇和农村储户对 未来收入状况的变化趋势 是否持相同的态度 2 分析城镇和农村储户对 什么合算 的认同是否一致 75 分析 1 该问题列联表的行变量为户口 列变量为未来收入状况 在列联表中输出各种百分比 期望频数 剩余 标准化剩余 显示各交叉分组下频数分布柱形图 并利用卡方检验方法 对城镇和农村储户对该问题的态度是否一致进行分析 2 该问题列联表的行变量为户口 列变量为什么合算 在列联表的基础上进行卡方检验 76 77 78 79 5 3 6SPSS中列联表分析的其他方法对列联表中行列变量的分析 除上述卡方检验方法之外 SPSS还提供了其他测度变量间相关关系的检验方法 包括 适用于两定类变量的方法 Nominal框中列出的方法属该类方法 适用于两定序变量的方法 Ordinal框中列出的方法属该类方法 适用于一定类变量 一定距变量的方法 Nominalbyinterval框中的Eta方法属该类方法 其他方法 80 5 4多选项分析 频数分析和交叉分析 适用对象 问卷调查中的多选项问题 多选项问题 是根据实际调查的需要 要求被调查者从问卷给出的若干个可选答案中选择一个以上的答案 目前 市场研究或许多领域对某事物评价的研究中常常遇到这样的问题 多选项问题可以分为限选和不限选 限选 如在11种工作种类中 选你喜欢的 最多可选4种 Var1 Var4 求所有人喜欢各种工作的频数或频率 不限选 如在所列的20种电器中 你家所拥有的电器 不限选 Var1 Var20 求所有被调查家庭拥有各种电器的频数或频率 81 82 思考 如果要将上述问题在SPSS中表述出来 然后进行分析 该建立何种数据结构呢 一个变量能否存储多选题的全部信息 83 5 4 1多选项问题的分解 多选项二分法及其编码 multipledichotomiesmethod 多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量 每个变量值有0或1两个取值 分别表示选择了该答案和不选择该答案 84 上述问题的二分法编码如下 85 注意 这是一组问题 每个问题均有两个答案 回答者只能选择其中一种 在建立数据文件时 变量名使用相同的变量主名 后面加以不同序号组成 本组问题的5个变量名可以是 购物影响因素1 购物影响因素5 然后添加变量名标签 而答案的编码规则为 回答 是 变量值为1 回答 否 变量值为0 其他值为缺失值 86 多选项分类法及其编码 multiplecategorymethod 多选项分类法 首先应估计多选项问题最多可能出现的答案个数 然后为每个答案设置一个SPSS变量 变量取值为多选项问题中的所有可选答案 87 限选三项 88 上述问题的多选项分类编码如下 89 如果采用多选二分法则有6个选项 故应设6个变量 运用0 1编码方法编码 即 1 0 1 0 1 1 如果采用多选分类法 则编码为1 3 5 6 0 0 1356 90 问题2 择业中考虑的主要因素 多选 1经济收入2专业对口3发展前途4地理区位5个人爱好6风险大小7劳动强度8社会福利9其他 编码应为 1 0 1 1 1 0 1 1 0 或1 3 4 5 7 8 0 0 0 91 136 问题3 您择业中考虑的主要因素有 限选三项 1经济收入2专业对口3发展前途4地理区位5个人爱好6风险大小7劳动强度8社会福利9社会地位10其他 因为限选三项 故应设三个变量 编码依次为1 3 6 92 补充 多选项问题的分析指标 应答次数 count 选择了某选项的人数 应答百分比 percentofcase 应答次数占总人数的百分比 可以反映某个选项的受欢迎程度 percentofresponse 应答次数占总应答次数的百分比 可以比较不同选项的受欢迎程度 例如 购买商业保险的原因 P126 总人数243 总应答数435 3个累加 93 5 4 2多选项分析的基本操作 操作基本思路 1 先将每个多选题的若干答案组成一个综合变量即变量集 Set 只有通过定义多选项变量集 spss才能确定应对哪些变量取相同值的个案数进行累加 2 然后对综合变量的各种取值进行分析 多选项分析操作Analyze MultipleResponse中的各项功能实现的 94 1 DefineSets 1 从左边的变量中将多选变量集的变量选择到variablesinsets框中 建立多选二分变量集或多选分类变量集 2 在variablesarecodedas框中指定多选变量集中的变量是按照那种方法编码的 Dichotomies表示以多选二分法编码 并在countedvalue中输入用哪个数值来表示选中该选项 categories表示以多选分类法编码 并在range框中输入变量取值的最小值和最大值 95 3 为多选项变量集命名 系统会自动在该名字前加字符 4 单击add按钮将定义好的多选项变量集加到multresponsesets框中 Spss可以定义多个多选项变量集 2 Frequencies 对多选变量集进行频数分析 从multresponsesets中把待分析的多选项变量集选择到tablesfor框中 3 Crosstabs 对多选变量集与其他变量集或与原基本变量进行交叉表分析 96 1 选择列联表的行变量并定义取值范围 2 选择列联表的列变量并定义取值范围 3 选择列联表的控制变量并定义取值范围 4 单击option按钮选择列联表的输出内容和计算方法 Matchvariableacrossresponsesets选项表示 如果列联表的行列变量均为多选项变量集时 第一个变量集的第一个变量与第二个变量集的第一个变量作交叉分组 依次类推 结果中 注意PctofResponses 占总回答数的 和PctofCase 占总个案数 的区别 97 5 4 3多选项分析的应用举例 利用保险市场调查数据进行分析 实现以下两个分析目标 1 分析老年人购买商业养老保险的原因 2 分析不同工作单位性质人员购买商业养老保险的原因 98 分析 1 为进行多选项分析 首先定义名为set1的多选项变量集 其中包括q13a q13b q13c三个变量 然后对多选项变量集进行频数分析 2 对不同工作单位性质人员购买商业养老保险的原因进行分析 采用多选项交叉分组下的频数分析 99 练习 利用居民储蓄调查数据进行分析 实现以下两个分析目标 1 分析储户的储蓄目的 2 分析不同年龄段储户的储蓄目的 100 分析 1 为进行多选项分析 首先定义名为cxmd的多选项变量集 其中包括a7 1 a7 2 a7 3三个变量 然后对多选项变量集进行频数分析 2 对不同年龄段储户储蓄目的进行分析 采用多选项交叉分组下的频数分析 101 5 5探索分析Explore 1 分析目的 对数据进行初步考察核实 考察内容为检查数据是否有错误 数据过大或过小都可能是奇异值 影响点或错误数据 找出 分析原因 是否剔除 分布特征 如数据是否来自正态总体 分组数据方差是否相等 2 考察方法 统计量和统计图形 箱式图 茎叶图 QQ图 3 适用对象 一般是考察定距变量 102 4 操作 Analyze DescriptiveStatistics Explore分析变量 DependentList 数值型变量分组变量 FactorList 分类变量标识变量 LabelCasesby 用某变量的值作为观察值的标识如id 103 选择一个或多个变量进入Dependent框作为分析变量 单击OK可获得分析变量的一系列基本统计量和图形 此作为分组变量 可以是字符变量 对分析变量的分析将按该变量的观测值进行分组分析 可有多个分组变量 这时会按多个变量的交叉组合进行分组 该框中的变量作为标识符 在输出诸如异常值时 用该变量进行标识 只允许有一个标识符 可同时输出基本统计量和图形只输出基本统计量只输出图形 Explore主对话框 104 输出基本统计量均值的置信区间 可键入1 99 的任意值 根据该值算出置信区间的上下限 给出中心趋势的最大似然比的稳健估计量 当数据分布均匀 且两尾较长 或当数据中存在极端值时 可给出比均值或中位数更合理的估计 输出最大和最小的5个数 且在输出窗口中加以标明 输出5 10 25 50 75 90 和95 的百分位数 Statistics对话框 105 Statistics子对话框 用于选择需要的描述统计量 descriptives 输出均值 中位数 众数 5 修正均值 估计标准误 方差 标准差 最小值 最大值 全距 四分位差 峰度系数及其标准误 偏度系数及其标准误及指定的均值置信区间 m estmators 做集中趋势的最大稳健估计 该统计量是利用迭代方法计算出来的 受异常值的影响要小得多 如果该估计量离均值较远 则说明数据可能存在异常值 此时宜用该估计量替代均值以反映集中趋势 一共会输出四种m估计量 其中huber适用于数据接近正态分布时 另三种则适用于数据中有许多异常值的情况 outliers 输出五个最大值和五个最小值 percentiles 输出第5 10 25 50 75 90 95 分位数 106 plots子对话框 用于选择需要的统计图 boxplots复选框 确定箱式图的绘制方式 可以分组绘制 factorlevelstogether 也可以不分组绘制 dependentstogether 或者不绘制 none descriptive复选框 可以选择绘制茎叶图 stem and leaf 和直方图 histogram normalityplotwithtest 绘制正态分布图 QQ图 并进行变量是否符合正态分布的检验 107 茎叶图 stem and leaf 1 用于显示未分组的原始数据的分布2 由 茎 和 叶 两部分构成 其图形是由数字组成的3 以该组数据的高位数值作树茎 低位数字作树叶4 树叶上只保留一位数字5 茎叶图类似于横置的直方图 但又有区别 直方图可观察一组数据的分布状况 但没有给出具体的数值茎叶图既能给出数据的分布状况 又能给出每一个原始数值 保留了原始数据的信息6 图的下方会标示出茎宽和实际值的倍数 每行的茎和叶组成的数字再乘以茎宽 即得到实际数据的近似值 同样在图的下方也会标示出每片叶子代表的记录数 108 利用各地区保险业务保费收入数据 对财产保险保费收入进行探索性分析 茎叶图 财产保险保费收
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医疗健康行业人工智能技术应用前景研究报告
- 2025年文化创意产业文化创意产品市场前景分析报告
- 2025年智能化交通系统发展趋势与市场前景研究报告
- 常山县2025年浙江衢州常山县“英才荟”事业单位紧缺急需人才招聘18人(事业编制)笔试历年参考题库附带答案详解
- 2025年区块链技术在物流行业的应用前景研究报告
- 天津市2025天津市地质矿产勘查开发局所属事业单位第二次招聘(含高层次人才)29人笔试历年参考题库附带答案详解
- 国家事业单位招聘2025国家海洋信息中心考察对象笔试历年参考题库附带答案详解
- 国家事业单位招聘2025中国大洋矿产资源研究开发协会(中国大洋事务管理局)招聘应届毕业生拟笔试历年参考题库附带答案详解
- 南宁市2025广西南宁市良庆区经济贸易和信息化局招聘1人笔试历年参考题库附带答案详解
- 2025葛洲坝集团(西藏)建设投资有限公司招聘7人笔试参考题库附带答案详解
- 建筑幕墙知识培训课件
- 人教版高中地理必修第一册第一章宇宙中的地球第一节地球的宇宙环境练习含答案
- 星地激光通信技术-洞察分析
- 诊所中药饮片清单汇编
- 《室外管网工程施工》课件
- 餐饮外卖窗口改造方案
- 糖尿病足报告
- 国有企业战略使命评价制度
- 吊车施工专项方案
- 合规风险管理制度
- 病毒课件教学课件
评论
0/150
提交评论