统计软件的操作与应用讲解课件_第1页
统计软件的操作与应用讲解课件_第2页
统计软件的操作与应用讲解课件_第3页
统计软件的操作与应用讲解课件_第4页
统计软件的操作与应用讲解课件_第5页
已阅读5页,还剩126页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS社会统计软件学习 MARKETINGINVESTIGATION 李彬彬王亮 统计学基本知识 统计学定义 它是关于收集 分析 表述和解释统计数据的方法论科学统计的功能 主要是信息 咨询和监督现代统计学分科 描述统计学与推断统计学 统计方法构成 理论统计学与应用统计学 方法研究与应用 基本概念统计总体 是指客观存在的 在同一性质基础上结合起来的许多个别单位的整体 如上海地区的人口总数样本总体 在统计总体里 按照一定抽样方法抽取的部分个体 这些个体客观地反映总体的特征 如合理抽样100个学生样本进行相关统计指标 反映现象总体数量特征的概念 如样本平均数变量 统计总体个单位所具有的共同特征 如年龄 性别 一基本概念 二统计数据分布特征的描述 1统计变量集中趋势的测定2统计变量离散程度的测定3变量分布偏度与峰度的描述 1统计变量集中趋势的测定定义 统计数据的集中趋势是指数据向其中心值靠近或集中的趋势测定集中趋势的作用1 反映总体各单位变量分布的集中趋势和一般水平2 比较同类现象在不同单位的发展水平3 比较同类现象在不同时期的发展变化趋势或规律4 分析现象之间的依存关系测量集中趋势的度量 位置平均数和数值平均数 位置平均数众数 Mode 总体中出现次数最多的那个变量值 众数在描述数据集中趋势方面有一定的意义 例如 制鞋厂可以根据消费者所需鞋的尺码的众数来安排生产 求某医院当天出生新生儿的体重的众数 数据如表1 1所示 中位数 Median 将总体中的数据按顺序排列后 处于数列中点位置上的那个数据或变量值 它是一种位置代表值 所以不会受到极端数值的影响 具有较高的稳健性 如果N为奇数 那么该数列的中位数就是位置上的数 如果N为偶数 中位数则是该数列中第与第 1位置上两个数值的平均数求某班级学生身高的中位数 数据如表1 2所示 四分位数 将一组个案由小到大 或由大到小 排序后 用3个点将全部数据分为四等份 与3个点上相对应的变量称为四分位数 分别记为Q1 第一四分位数 Q2 第二四分位数 Q3 第三四分位数 其中 Q3到Q1之间的距离的一半又称为四分位差 记为Q 四分位差越小 说明中间的数据越集中 四分位差越大 则意味着中间部分的数据越分散 频数 Frequency 一个变量在各个变量值上取值的个案数 如要了解学生某次考试的成绩情况 需要计算出学生所有分数取值 以及每个分数取值有多少个人 这就需要用到频数分析 变量的频数分析正是实现上述分析的最好手段 它可以使人们非常清楚地了解变量取值的分布情况 例子10个学生在某次数学 语文 化学考试中成绩如表1 3所示 试求学生在3门课程上的频数分布 数值平均数算术平均数 mean 是表现数据的集中趋势和代表性水品 基本形式为总体标志总量比上总体单位总数 例如 学生某门学科的平均成绩 公司员工的平均收入 某班级学生的平均身高等 加权算术平均数 weightedmean 主要用于数据已经分组 并编制出次数分布的条件下 这时必须先将各组标志值乘以相应的次数 得到各组的标志总量 然后再相加得到总体标志总量 三个常用描述性度量比较 2统计变量离散程度的测定集中趋势是统计总体数据特征之一 但由于个体的差异性 总体中的各数据还呈现相分散的离中趋势 因此对数据的统计分析 除了要反映其分布的集中趋势外 还要反映数据的离散程度 以到达对数据变动规律的全面描述 定义 离散程度是度量统计分布离中趋势的指标 同时反映了总体中各个单位标志值的变异程度和平均数的代表水平 测定变量离散程度的作用1 反映现象总体中变量分布的离中趋势2 衡量均值的代表性3 测定现象变动的均匀性或稳定性程度测量离中趋势的度量 极差 平均差 四分位差 方差 标准差 离散系数等 极差 range 又称全距 离散程度的最简单测度值 是最大和最小变量值之间的距离在相同样本容量情况下的两组数据 全距大的一组数据要比全距小的一组数据更为分散 例子 某地农民人均年收入最高是8000元 最地是2600元一年 则该地区农民收入的极差是8000 2600等于5400元 方差 variance 所有变量值与平均数偏差平方的平均值 它是测定离散程度最常用的指标 离散程度最灵敏的指标 标准差 standarddeviation 它是方差的平方根 它表示了一组数据关于平均数的平均离散程度 方差和标准差越大 说明变量值之间的差异越大 距离平均数这个 中心 的离散趋势越大 四分位差 quartiledeviation 分位差是极差的一种改进 四分位差是在数列中剔除最大和最小各四分之一的数据 是第一和第三个分位数之间距离的二分之一 表明中位数到这两个四分位数的平均距离 是说明中位数代表性高低的测量值 平均差 meanabsolutedeviation 是分配数列中各单位标志值与其计算平均数之间离差绝对值的平均数 离散系数 适用于比较不同现象或不同水平数据的变异程度的情况 3变量分布偏度与峰度的描述集中趋势和离中趋势是数据分布的两个重要特征 但是要全面了解数据分布的特点 还要知道数据分布的形态特征 偏度 指分布不对称的方向和程度 偏度指标为 0数列分布为正态分布 0数列分布正 右 偏分布 0数列分布负 左 偏分布 峰度 指分布图形的尖峭程度或峰凸程度 峰度是分布集中趋势高峰的形状 用 表示当 0时 频率分布的峰度为正态分布的峰度当 0时 频率分布的峰度比正态分布的峰度要高 尖态峰 表明集中趋势显著 离中趋势低当 0时 频率分布的峰度比正态分布的峰度要低 平坦峰 表明离中趋势显著 集中趋势低 小结本节主要介绍平均数 中位数 众数 方差 百分位 频数 峰度 偏度等统计学相关基本知识 基本统计知识是进行SPSS统计分析的基础和前提 通过基本统计方法的学习 可以对要分析数据的总体特征有比较准确的把握 从而有助于选择其他更为深入的统计分析方法 希望大家课后多查阅相关资料书籍 以更好的运用SPSS社会学统计软件 欢迎你进入SPSS学习 SPSS简介 一SPSS的产生 发展和应用领域二SPSS13 0的安装 启动和退出三SPSS的窗口简介四SPSS13 0的Help系统 一SPSS的产生 发展和应用领域 社会科学统计软件包 StatisticalPackagefortheSocialScience SPSS 是世界著名的统计分析软件之一 1968年 3位美国斯坦福大学的学生开发了最早的SPSS系统 并基于这一系统于1975年在芝加哥合伙成立了SPSS公司 SPSS的基本功能包括数据管理 统计分析 图表分析 输出管理等 经近40年的发展 在全球已拥有大量的用户 SPSS主要应用于农业 工业 商业 医学 交通运输 公检法 社会学 市场分析 股市行情 军事地理 旅游业等多个领域和行业 是世界上应用最广泛的专业统计软件 SPSS的最新版本为19 0 主要开发为vista使用系统 SPSS13 0的经典版 稳定性比较高 总之 可以这么说 有需要数据分析的地方 就可以用到SPSS 同学们要认真学 请见演示 二SPSS13 0的安装 启动和退出 三SPSS的窗口简介 SPSS主界面主要有两个 一个是SPSS数据编辑窗口 另一个是SPSS输出窗口 数据编辑窗口由标题栏 菜单栏 工具栏 编辑栏 变量名栏 内容区 窗口切换标签页和状态栏组成 见下图 数据编辑窗口 1 菜单介绍File 文件 菜单用于新建SPSS各种类型文件 打开一个已存在的文件 从文本文件或其它数据源读入数据 Edit 编辑 菜单用于撤消操作 剪切 复制 粘贴 查找 改变SPSS默认设置等 View 运用 视图 菜单显示或隐藏状态行 工具栏 网络线 值标签和改变字体 Data 运用 数据 菜单对SPSS数据文件进行全局变化 例如定义变量 合并文件 转置变量和记录 或产生分析的观测值子集等 Transform 转换 菜单在数据文件中对所选择的变量进行变换 并在已有变量值的基础上计算新的变量 Analyze 分析 菜单在以前版本中为 统计 Statistics 可进行各种统计分析 包括各种统计过程 Procedure 如回归分析 相关分析 因子分析等等 Graphs 图表 菜单产生条形图 饼图 直方图 散点图和其它全颜色 高分辨率的图形 以及动态的交互式图形 有些统计过程也产生图形 所有的图形都可以编辑 Utilities 工具 菜单可以显示数据文件和变量的信息 定义子集 运行脚本程序 自定义SPSS菜单等 Window 窗口 菜单用于选择不同窗口和最小化所有窗口 Help 帮助 菜单包含SPSS帮助主题 SPSS教程 SPSS公司主页 统计教练等菜单项 该窗口下方有两个标签 DataView 数据视图 和 VariableView 变量视图 1 一个列对应一个变量 即每一列代表一个变量 Variable 或一个被观测量的特征 例如问卷上的每一项就是一个变量 2 行是观测 即每一行代表一个个体 一个观测 一个样品 在SPSS中称为事件 Case 例如 问卷上的每一个人就是一个观测 SPSS结果输出窗口名为Viewer 它是显示和管理SPSS统计分析结果 报表及图形的窗口 SPSS结果输出窗口 用鼠标双击结果输出窗口中的图形 进入图形编辑窗口 可以对图形进行定义编辑 图形编辑窗口 四SPSS13 0的Help系统 在运行SPSS的任何时候 单击 Help 菜单中的 topics 命令 会弹出帮助主题窗口 在其中选择相关的命令 即可得到所需的各种帮助 Help系统可以为不同级别的用户提供不同阶段的指导 有如入门级用户的tutorial 命令 实例学习 Casestudies 过程 还有手把手的 StatisticsCoach 的过程 小结SPSS是在当前社会经济分析中应用最广泛的软件之一 继SPSS13 0之后 SPSS公司推出了最新的SPSS19 0 这是一个功能强大 设计人性化的统计学软件 SPSS的主界面有两个 一个是SPSS数据编辑窗口 一个是SPSS结果输出窗口 例外还有一个图形编辑窗口 下面让我们进入主题吧 数据输入和整理 一定义变量 SPSS对数据的处理是以变量为前提的 因此本节主要介绍定义变量 输入数据和数据整理 输入数据前首先要定义变量 定义变量即要定义变量名 变量类型 变量长度 小数位数 变量标签 或值标签 和变量的格式 单击数据编辑窗口左下方的 VariableView 标签或双击列的题头 Var 进入如下图所示的变量定义视图窗口 在此窗口中即可定义变量 在上图所示的窗口中每一行表示一个变量的定义信息 包括Name Type Width Decimal Label Values Missing Columns Align Measure等 1 定义变量名 Name SPSS默认的变量为Var00001 Var00002等 用户也可以根据自己的需要来命名变量 SPSS变量的命名和一般的编程语言一样 有一定的命名规则 具体内容如下 变量名必须以字母 汉字或字符 开头 其他字符可以是任何字母 数字或 等符号 变量最后一个字符不能是句号 变量名总长度不能超过8个字符 即4个汉字 不能使用空白字符或其他特殊字符 如 等 变量命名必须惟一 不能有两个相同的变量名 在SPSS中不区分大小写 例如 HXH hxh或Hxh对SPSS而言 均为同一变量名称 图2 3定义变量类型对话框 SPSS的保留字 ReservedKeywords 不能作为变量的名称 如ALL AND WITH OR等 2 定义变量类型 Type 单击Type相应单元中的按钮 弹出如图2 3所示的对话框 在对话框中选择合适的变量类型并单击 OK 按钮 即可定义变量类型 SPSS的主要变量类型如下 Numeric Comma 带逗点的数值型 整数部分每三位数加一逗号 1 200 000 Dot 逗点作小数点的数值型 可定义小数 12345显示12 345 00 Scientificnotation 科学记数法 定义width为10 decimalplaces为3 则1234567 89显示为1 235 E006 Date Dollar Customcurrency String 3 变量长度 Width 设置变量的长度 当变量为日期型时无效 4 变量小数点位数 Decimal 变量小数点位数设置数值变量的小数点位数 当变量为日期型时无效 5 变量标签 Label 变量标签是对变量名的进一步描述 变量标签可长达120个字符 变量标签对大小写敏感 显示时与输入值完全一样 需要时可用变量标签对变量名的含义加以解释 6 变量值标签 Values 变量值标签是对变量的每一个可能取值的进一步描述 当变量是定类或定序变量时 这是非常有用的 7 缺失值的定义方式 Missing SPSS有两类缺失值 系统缺失值和用户缺失值 单击Missing相应单元中的按钮 在弹出的如下图所示的对话框中可改变缺失值的定义方式 在SPSS中有两种定义缺失值的方式 可以定义3个单独的缺失值 可以定义一个缺失值范围和一个单独的缺失值 默认值为 None 8 变量的显示宽度 Columns 输入变量的显示宽度 默认为8 9 变量显示的对齐方式 Align 选择变量值显示时的对齐方式 Left 左对齐 Right 右对齐 Center 居中对齐 默认是右对齐 10 变量的测量尺度 Measure 变量为定距变量或定比变量 则在 Scale 相应单元的下拉列表中选择 Scale 如果变量为定序变量 则选择 Ordinal 如果变量为定类变量 则选择 Nominal Scale 的测量水平最高 能加减乘除 Ordinal 能进行排序测量 只能比较大小或顺序 Nominal 只是一种类别代表 如性别 测量尺度和变量类型一样 都是对变量进行更准确的定义 其在数据分析中不是很明显 变量按测量精度可以分为 1 定性变量 2 定序变量 3 定距变量 4 定比变量 问卷录入时注意的几个问题 1 注意定义不同的数据类型Type各色各样的问卷题目的类型大致可以分为单选 多选 排序 开放题目四种类型 他们的变量的定义和处理的方法各有不同 我们详细举例介绍如下 定义了所有变量后 单击 DataView 标签 即可在出现的数据视图 编辑 窗中输入数据 数据录入时可以逐行录入 也可以逐列 注意 在录入带有变量值标签的数据时 用户手工输入的是实际的变量值 而屏幕上显示的是与该变量对应的变量值标签 二数据的录入和保存 在录入数据时 应及时保存数据 防止数据的丢失 以便再次使用该数据 用户确定盘符 路径 文件名以及文件格式后单击 Save 按钮 即可保存为指定类型的数据文件 SPSS支持的常见的数据文件 一般默认格式SPSS sav 三SPSS数据文件的整理 在建立和输入好数据文件以后 往往还需要进行数据文件的加工 整理 经过整理以后的文件才能更好地满足数据分析的要求 包括观测量排序 数据文件转置 数据文件合并 数据分类汇总 变量计算变量值排序等 一般在菜单Data和Transform中进行操作 由于课程时间原因 这里就不赘述了 大家课下查阅相关资料自学 变量名 Name 变量类型 Type 变量长度 Width 变量小数点位数 Decimal 变量标签 Label 变量值标签 Values 缺失值的定义 Missing 变量的显示宽度 Columns 变量的测量尺度 Measure 小结一下 下一节 是我们的重点 常用数据分析方法 一SPSS的统计图形绘制二常用SPSS数据分析方法 一SPSS的统计图形绘制 统计图是数据最直观的表示 统计工作的服务对象多是非专业的人士 非专业人士通常不明白什么是相关分析 什么是回归分析 什么是因子分析 等等 下面我们先来介绍一下统计图的绘制 主要包括 条形图 线图 面积图 饼图 高低图 箱图 直方图 P P图 Q Q图 散点图等 1条形图 利用宽度相同的条形的长短或高低来表现统计数据大小或变动情况的统计图 条形图分为简单条图 分组条图 分段条图 分组条图 性别对牛奶品牌的选择 分段条图 不同年龄对牛奶品牌的选择 简单条图主要针对观测量的描述 分组条图更侧重于刻画各组之间的比较关系 而分段条图则侧重于刻画各段与整体的关系 2线图 用线段的升降来说明现象变动情况的一种统计图 比较线线图对话框和条图非常相似 都是由定义图形类型和定义图形数据描述方式两部分组成 其实不仅仅是条图和线图对话框类似 在SPSS中几乎所有的图形第一个对话框都是这样的 线图分为简单线图 复式线图 垂线图 3面积图 用线段下的阴影面积来强调现象变化的统计图 4饼图 是以整个圆的面积代表被研究现象的总体 按各组成部分占总体比重的大小把圆面积分割成若干扇形 用以表示现象的部分对总体的比例关系的统计图 即饼图表示部分与整体的关系 5直方图 是常用的描述观测数据频数分布的统计图形 它由一组无间的矩形组成 每一矩形条的宽度表示数据范围的间隔 其高度则表示落入给定间隔内的观测数据频数 利用直方图可以直观反映观测变量的统计分布 6P P图和Q Q图 用来检验数据是否服从某种分布 在P P图中检验数据是否服从某种分布标准有两个 第一 看P P图上的数据点和直线的重合度第二 看P P去势图的点是否关于直线Y 0在较小的范围上波动 7散点图 用来表示两个或两个以上变量之间的相互关系的图形 在统计数据分析中 要选择恰当的统计方法 通常都离不开散点图 1描述性统计分析 单变量描述和均值差异比较 2相关分析与回归分析 变量间的统计关系研究 3其他数据分析方法 二常用SPSS数据分析方法 1变量描述性统计分析 描述性统计分析是基础的统计分析过程 对于整理好的数据 通过描述性统计分析 可以挖掘出很多统计量的特征 常用的描述性统计方法主要包括如下 频数分布表分析 Frequencies过程 最基础的统计量分析 Descriptive过程 探索性分析 Explore过程 列联表分析 Crosstabs过程 频数分布表分析 Frequencies过程 产生变量值的频数分布表 并可计算描述性统计量和绘制相对应的统计图 来获得变量分布的直观特征 为进一步的复杂分析提供重要参考 最基础的统计量分析 Descriptive过程 主要用于输出变量的各类描述性统计量的值 如要描述一个班级学生的身高 描述被试的收入情况 显示次序是多个变量输入结果的排列顺序 探索性分析 Explore过程 定义 可对变量进行更为深入详尽的描述性统计分析 它在一般描述性统计指标的基础上 增加有关数据其他特征的文字与图形描述 显得更加细致与全面 有助于用户思考对数据进行进一步分析的方案 主要包括 1 提供观测数据可能存在的异常值 2 输出观测数据的描述统计量表与统计图形 3 进行观测数据的分布正态性检验 20名10岁少儿的身高 cm 资料 数据如下表所示 试作探索性分析 在结果输出窗口中将看到如下统计数据 1 首先输出如下个案观察量摘要表 如下表所示 3 接着输出如下4个不同权重下作中心趋势的粗略最大似然确定数 4 再接着输出百分位数 也是分组后的百分位数 如下表所示 5 分别输出两个组中的最大5个数和最小5个数 并且包括这些值对应的ID 如下表所示 6 输出方差齐次性检验结果 7 系统还进行数据的茎叶情形描述 8 系统输出箱图 如下图 10 输出身高正态概率图 NormalQ QPlotof身高 如下图 11 输出离散正态概率图 DetrendedNormalQ QPlotof身高 男孩身高和女孩身高如图所示 横坐标是身高 纵坐标是和正态分布的偏离 列联表分析 Crosstabs过程 常用来作变量间交叉分组下的频数分析 用以揭示变量间是否具有独立性或具有一定的相关性 如想分析吸烟习惯和患病率的关系 频数分析注意的几个问题 1频数分析 Frequencies过程可以做单变量的频数分布图 显示数据文件中由用户指定的变量的特定值发生的频数 获得描述性统计量和描述性数值范围的统计量 适用范围 单选题 排序题 多选题2描述分析 可以计算单变量的描述统计量 这些统计量有平均值 算术和 标准差 最大值 最小值 方差等 适用范围 选择并排序题 开放性数值题 3多响应频数分析 也是一种描述性统计方法适用范围 多选题的二分法实现 第一步在MultipleResponse DefinesSet把一道多选题定义了的所有变量集合在一起 给新的变量取名 在DichotomiesCounted中输入1 第二步在MultipleResponse Frequencies中作频数分析 4交叉频数分析 解决多变量的各水平组合的频数分析的问题 适用范围 用于两个或两个以上变量进行交叉分类形成的列联表 对变量之间的关联性进行分析 比如要知道不同工作性质的人上班适用交通工具的情况 可以通过交叉分析得到的一个二维频数表则一目了然 实现 第一步根据分析的目的来确定交叉分析的选项 确定控制变量和解释变量 如上面的例子中不同工作的人是控制变量 适用交通工具是解释变量 第二步选择Descriptivestatistics Crosstabs 均值描述 计算各类描述性统计量 并且分析方差分析结果 1 2均值比较与方差分析 单样本T检验 one SampleTTest 单样本T检验是比较样本均值和总体均值的T检验 如某一个钢铁含铁量服从4 53的正态分布 试检验样本是否服从4 53 独立两样本的T检验 Independent sampleTTest单样本T检验是检验样本均值和总体均值是否相当 二独立两样本的T检验是检验两个独立样本的均值是否相当 如甲乙两种药的治疗效果比较 方差分析 ANOVA过程 两组的均值比较用T检验 为了进行两组以上均数的比较 通常可以使用方差分析方法 在科学实验和生产过程中 影响一事物的因素是多方面的 比如农作物的产量受到品种 肥料 水份 气候等影响 这些因素有的对产量的影响大 有的影响小 方差分析就是采用数理统计方法对所有的结果进行分析 以鉴别各个因素对研究对象的某些特征值影响大小的一种有效方法 单因素方差分析 One wayANOVA过程 单因素方差分析只考虑一个因素对研究对象的影响 此时其他因素都不变或者控制在一定范围内 小结 描述性统计主要有频数分析 最基础的统计量分析 探索性分析 列联表分析 均值描述 T检验和方差分析等 均值描述和T检验是解决两样本均值的比较 方差分析是多个变量均值的比较 描述性统计是进行其他统计分析的基础和前提 利用这些基本统计方法 可以对要分析数据的总体特征有比较准确的把握 同时也为更深入的分析提供了依据 2相关分析与回归分析 变量间的统计关系研究 在实际统计中 常常要研究两个及两个以上变量的 比如 医学统计中研究青少年年龄与身高的关系 经济学中研究利率与股票价格的关系等 研究这些关系主要通过相关分析和回归分析 变量和变量之间的关系可以分为确定关系和不确定关系 所谓确定关系是指变量之间可以用精确的函数来描述 而不精确关系是已知变量之间存在着某种关系 但是这种关系不能用函数来表示 相关分析就是研究变量之间的相互关系的密切程度和变化趋势 并通过适当的统计指标描述 回归分析是把变量之间的关系用函数关系表示出来 2 1相关分析相关分析主要分为 两变量相关分析 偏相关分析 距离分析两变量相关分析 两个连续变量之间的相关和两个等级变量之间的秩相关 偏相关分析 当两个变量的取值受其他变量的影响 则采用偏相关分析的方法控制其他变量的影响 研究两个变量之间的相关关系 距离分析 主要分析同一变量内观测值之间或者多个变量之间的相似或不相似程度 相关系数 相关系数的取值范围在 1和 1之间 即 1 r 1 其中 若0 r 1 表明变量之间存在正相关关系 即两个变量的相随变动方向相同 若 1 r 0 表明变量之间存在负相关关系 即两个变量的相随变动方向相反 对于定距变量的数据 常通过Pearson相关系数值和相关系数的Sig的值来验证 对于定类变量和等级变量的数据 通常使用Spearman和Kendall系数来表示 0 01 Sig 0 05 相关系数用 标记 表示相关性显著 Sig 0 01 相关系数用 标记 表示相关性高度显著 两变量相关分析 偏相关分析在实际问题中 两变量的相关关系往往还要受到其他因素的影响 这些影响有时候会使相关分析的结果变得不那么可靠了 偏相关分析是指研究两个变量之间的相关关系时 将与这两个变量有联系的其他变量控制不变的统计方法 根据控制变量的个数 分为零阶相关分析 一阶相关分析 二阶相关分析 零阶相关分析指没有相关变量的相关分析 一阶相关分析是指有一个控制变量的相关分析 例子 分析品牌倾向与教育程度的偏相关关系 选择职业为控制变量 距离分析 前面介绍的两个样本相关分析和偏相关分析都是研究两样本之间的相关关系 对于两个变量 研究两个变量的近似程度也十分重要 距离分析就是研究变量是否近似的一种相关分析方法 例如 分析各个城市的日照数是否相似 这里不在介绍 感兴趣的同学自己查资料研究 2 2回归分析定义 用一变量作为自变量 另一个变量作为因变量 建立两者之间的数学表达式 从自变量去估计因变量的取值 这个过程叫着回归分析 回归分析和相关分析的区别 相关分析只能大概描述出两个变量之间的相关系数 如正相关或负相关 而回归分析能够通过数学表达式来定量描述变量之间的关系 回归分析的应用 一般在生物统计和医学统计上 如估计各类微量元素的摄入量对人体血红蛋白含量的影响 回归分析能够求出自变量和因变量之间的经验公式 所以回归分析在数据挖掘上有预测和控制功能 譬如在商品流通领域 经常使用回归分析商品价格和商品需要量之间的关系 以便对商品的价格和需求量进行控制 回归分析的应用 一般在生物统计和医学统计上 如估计各类微量元素的摄入量对人体血红蛋白含量的影响 回归分析能够求出自变量和因变量之间的经验公式 所以回归分析在数据挖掘上有预测和控制功能 譬如在商品流通领域 经常使用回归分析商品价格和商品需要量之间的关系 以便对商品的价格和需求量进行控制 分类 线性回归 曲线拟合 二类变量Logistic回归 非线性回归本课程里我们主要探讨线性回归 它主要包括一元线性回归和多元线性回归 其他作为了解 回归分析的步骤 1对数据进行预处理 找到合适的变量进行分析 如研究某地区的商品房价格 则与之相关的变量有面积 地段 住宅风格等2做散点图 观察变量间的趋势 初步选择回归分析方法3进行回归分析 拟合自变量和因变量之间的公式4检验 线性回归分析根据自变量的个数 将线性回归分为一元线性回归和多元线性回归 一元线性回归 是回归分析中处理两个变量线性相关关系最简单的数学模型 设变量Y与X有下述关系 y a bx c 一元线性回归的操作 多元线性回归的操作 除了上面的描述性分析和相关分析 SPSS强大的功能还可以对问卷进行深入的分析 比较常用的有聚类分析 因子分析与对应分析 非参数检验等 由于涉及到很专业的统计学知识 下面只对概念做个简单的介绍 3其他数据分析方法 聚类分析 就是把没有分类的信息的资料按照相似程度归类 并对这些分类进行比例分析 从而明确调研关心的全体 如按消费特征对被调查者进行聚类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论