数据分析第三四讲ppt课件_第1页
数据分析第三四讲ppt课件_第2页
数据分析第三四讲ppt课件_第3页
数据分析第三四讲ppt课件_第4页
数据分析第三四讲ppt课件_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三讲 假设检验与均值比较,假设检验的基本思想,假设检验的思想 反证法及小概率原理。所谓反证法及小概率原理即首先在原假设正确的条件下计算出现该样本或者样本统计量的概率,如果这种事件发生的概率很小,譬如小于5%,那么就拒绝原来的假设,而接受备择假设。,两类错误,“小概率事件在一次试验中几乎不会发生” ,但是小概率事件并非是不可能发生,只是其发生的概率很小,并不能完全排斥其发生的可能性。 因而假设检验有可能犯两类错误: 第一类错误:原假设正确,而错误地拒绝了它,即“拒真”的错误,其发生的概率为犯第一类错误的概率。 第二类错误:原假设不正确,而错误地没有拒绝它,即“受伪”错误,其发生的概率为犯第二类错误的概率。,显著性值,假设检验一般先对总体的比例、均值或分布做出某种假设,称为原假设;然后计算在该假设成立条件下出现该事件的概率,称为p值,或显著性值。 如果小概率事件发生了,即 p ,则表明样本不支持原来的假设,应拒绝原假设而接受备择假设;如果该事件发生的概率(或可能性)较大,即 p ,则不拒绝原假设。我们用 来控制犯第一类错误的概率,即犯该类错误的概率最大为 。,假设检验的步骤,1. 确定恰当的原假设和备择假设; 2. 选择检验统计量; 3. 计算检验统计量观测值发生的概率,即p 值; 4. 给定显著性水平,并作出决策。 如果p,则拒绝原假设,反之,没有理由拒绝原假设。,均值子菜单,均值方法操作,【分析】【比较均值】【均值】,均值:选项,双因素的均值过程分析,在“层1的1”框中,yrsscale; 单击【下一张】,把position变量选入“层2的2”框中。,两因素的均值分析报告,Anova和Eta,由于均值过程只对第一层的自变量进行方差分析和线性相关检验,因此两个因素或者两个以上因素的均值分析过程的方差分析结果和单因素一样。不同的是描述性统计量,多因素的描述性统计量是对于各个交叉组别进行统计。,单样本T检验,单样本T检验即检验某个变量的总体均值和某指定值之间是否存在着显著性差异。 如果是大样本的单样本检验,统计教科书上称为U检验,它采用服从正态分布的U统计量作为检验统计量;如果是小样本并且样本服从正态分布,则采用服从t分布的t统计量进行单样本T检验; 否则,采取非参数检验。T检验稳健性(Robust)较好,如果样本分布偏离正态分布不太严重,也可采用T检验。,T分布和正态分布比较,在大样本情况下,T分布和正态分布密度函数十分接近 在大样本情况下,T检验和U检验是等价的,例子,打开数据文件brakes.sav,该数据为某工厂不同机器生产的刹车片直径,已知符合质量标准的刹车片直径应为322 mm,现在需要知道哪些机器生产的刹车片直径不符合质量标准。,按照机器号拆分文件,需要对各个机器分别进行检验,因此需要根据机器拆分该数据文件。打开数据文件brakes.sav,选择【数据】【拆分文件】,单样本T检验,选择【分析】【比较均值】【单样本T检验】,单样本T检验结果,独立样本T检验,两独立样本是指两个样本所来自的总体相互独立,两个独立样本各自接受相同的测量,研究者或分析者的主要目的是分析两个独立样本的均值是否有显著的统计差异 比较女性和男性的身高,教育从业者和金融从业者的起始工资等,都是两独立样本的例子。,两独立样本T检验的前提条件,独立性:两样本所来自的总体互相独立。 正态性:样本来自的两个总体应服从正态分布。在样本所来自的总体不满足正态性条件时,如果两个样本的分布形状相似,它们的样本量相差不是太大并且样本量较大,仍然可以应用T检验。 方差齐性:待比较的两个样本的方差相同。如果两个组的样本量大致相等,略微偏离了方差齐性对检验结果的精度影响不大。 在T检验中,SPSS提供了方差齐性的Levene检验,当方差齐性不满足时,会提供方差齐性校正后的T检验结果。,案例分析,数据文件creditpromo.sav记录了接受不同促销方案的用户信用卡消费数据,现在需要检验新的促销方法是否能促进信用卡的消费,以此决定是否继续推进这种新促销方式。 目的是比较采用新促销方法的信用卡消费金额均值和标准促销方法的信用卡消费金额均值,看二者是否在统计上有显著的差异。,探索性分析,先对两种促销方式的客户消费数据进行描述性统计分析,初步探索两种不同的促销邮件下的客户花费情况。,正态性检验,设置正态性检验,正态性检验表,T检验,选择【分析】【比较均值】【独立样本T检验】,配对样本T检验,两配对样本T检验用来检验来自两配对总体的均值是否在统计上有显著性差异。常见的配对设计方法有以下几种: 同一受试对象处理前后的数据,例如服用某种药物前和服用之后的血压变化; 同一受试对象两个部位的数据, 同一样本用两种方法测量的数据; 配对的两个受试对象分别接受两种处理后的数据。,两配对样本T检验的前提条件,两样本应是配对的。即受试对象的年龄、性别、体重等非处理因素都相同或相似; 两个样本所来自的总体应服从正态分布(大样本情况下,T检验较为稳健),案例分析,数据文件dietstudy.sav包含对“Stillman diet”的研究结果。医生为检验某种饮食方案是否对有家庭心脏病史的病人有效,对16个病人进行了了试验,记录他们在实行饮食方案前后的体重(磅)以及甘油三酸酯的水平(mg/100ml)。 采用T检验对该饮食方案的效果进行分析。,配对T检验操作,选择【分析】【比较均值】【配对样本T检验(P)】,T检验结果解释,配对T检验注意事项,需要先检查两个样本是否服从正态分布。应用直方图、Q-Q图或者K-S检验等方法来检验差值变量的正态性。 分析变量中是否含有离群值。可以用箱图来检查离群值的情况。 可以先计算配对样本的差值变量,然后进行单样本的T检验。,动手练习,数据文件GSS2004_Mod.sav中记录了男性或者女性每周上网浏览网页的时间(变量WWWHR,单位小时)和每天观看电视的时间(变量TVHOURS,单位小时)。用本章学习的技巧分析男性和女性在观看电视的时间和上网的时间上分别就什么区别。,第四讲 方差分析,方差分析的主要内容,方差分析的基本思想 了解方差分析和比较均值的异同 单因素方差分析的应用条件、方法和结果的解释 多因素方差分析的应用条件、方法和结果的解释 协方差分析的应用条件、方法和结果的解释,t检验应用于研究单样本均值的比较和两个样本均值的比较。在生产活动和科学研究中经常会遇到比较三个或者三个以上样本均值的差异问题。这时,采用的统计方法称为方差分析,简称ANOVA(analasis of variance)。 例如某机构对当前民众的生活状况进行调查,根据被调查者的回答把居民对待生活的态度分为三类:认为生活丰富多彩、生活平平常常和生活乏味三类,它们想知道人们对待生活的态度是否和他们受教育的情况有关系,即这三类人是否在受教育程度上有显著的区别。,方差分析的术语,试验中的实验结果是需要分析的变量,称为响应变量,或者因变量。方差分析的因变量必须为尺度类型的数据(即连续数据)。 影响试验结果的因素即为影响响应变量的变量,称为自变量或者因子。根据试验中这些因素的处理方式,因素可以分为控制因素、随机因素和协变量。 因子的不同取值称为因子的不同水平。 控制因素一般要求为分类变量,而协变量要求为尺度数据。,控制因素:它是试验中可以控制的影响试验结果的因素,因素的不同水平会导致不同的试验结果。 不可控因素:因素的水平与试验结果的关系是随机的,即不确定因素,但是不同于随机因素,可以理解为非研究关心的因素或非处理因素。 随机因素:因素与试验结果的关系是随机的,其水平也是随机出现的。 处理:在试验中,控制因素的一个水平或者几个控制因素的某一水平组合称为一个处理。,方差分析的前提条件,方差分析的自变量是“因子”或者“因素”,它是分类变量;其因变量则为尺度变量,需要满足以下两个基本前提条件: 每个处理的因变量为正态分布(正态性) 每个处理的因变量具有相同的方差(方差齐性),方差分析基本原理,方差分析的前提: 各样本相互独立 各样本来自正态总体 样本所属的总体方差相等,即方差齐性,方差分析基本原理,认为不同处理组的均值间的差别基本来源有两个: (1)随机误差:如抽取样本的随机性造成的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSE (2)系统误差:由控制因素中不同水平造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和表示,记作SSA,方差分析基本原理(续),组内SSE 、组间SSA除以各自的自由度(组内dfE =n-m,组间dfA=m-1,其中n为样本总数,m为组数),得到其均方MSE和MSA 一种情况是处理没有作用,即各组样本均来自同一总体, MSE/MSA1。另一种情况是处理确实有作用,那么, MSA/MSE (远远大于1,足以超过某个临界值)。 F =MSA/MSE,服从F分布。用F值与其临界值比较,推断各样本是否来自相同的总体.,方差分析的假设检验,零假设H0:m组样本均值都相同,即1= 2= m 如果经过计算结果组间均方远远大于组内均方( MSA MSE ),FF0.05(dfA,dfE), p0.05不能拒绝零假设,说明样本来自相同的正态总体,处理间无差异。,F 分布曲线,F 分布曲线下面积与概率,单因素的方差分析,用于研究一个影响因素对试验结果的影响,它用于比较两个或者两个以上的总体之间是否有显著的差异 SPSS的单因素方差分析提供下列分析结果: 试验结果在不同组别的统计 检验各个组别方差是否相等 各个组别的概略图(均值图) 配对多重比较 不同组别组合的对比检验 同类子集,单因素方差分析举例,销售经理想了解新员工培训的最佳方式。目前有三种新员工培训方式:为期一天的培训、为期二天的培训和为期三天培训。现在需要比较用这三种方式培训员工的效果,分析这三种培训方式培训员工的效果是否有显著的差异,如果有差异,哪种培训方式最佳。 打开数据文件salesperformance.sav,它包含两个变量,“组”变量记录了培训方式;“得分”是对员工培训效果的评价。,SPSS实现,选择【分析】【比较均值】【单因素ANOVA】,选择两两比较方法,选择进行方差齐性检验和统计量、图形,点击【选项】,在统计量部分勾选“描述性”和“方差同质性检验”两项,同时勾选“均值图(M)”。,结果解释,两两比较结果及解释,由于Levene检验没有证据说明三种培训方式的方差相等,参照两种不同的两两比较的结果是必要的。 Bonferroni和Tamhane多重比较的结果是一致的。即培训2天和培训3天没有显著的区别,而培训1天与另外两种培训都有显著区别。,同质子集,Tukey B两两比较输出的结果,它把在5%的显著性水平下没有区别的总体放在同一列,作为同类子集。这里,培训2天和培训3天没有显著区别,它们作为一类。而培训1天单独作为1类。,轮廓图,轮廓图为各个总体的均值的折线图,从中可以直观的看出各个总体均值的趋势。,多因素方差分析,如果影响试验结果的因素有两个或者两个以上,是否不同的处理对试验结果有显著性影响,不同的因素是否有交互作用?可以应用SPSS的一般线性模型(GLM)来完成多因素的方差分析。,SPSS GLM过程假设条件,误差之间相互独立,并且也独立于模型中的其他变量。一般好的试验设计都可以避免违反该条件。 不同处理的误差为常数。 误差服从均值为0的正态分布。,举例,一家连锁零售商店对它们客户的购买习惯进行了一项调查,它记录了客户性别,购买模式、上一个月的购买金额等信息。该商店需要了解在控制客户性别的条件下,是否客户购买的频率和花费的金额有关系,以此来决定是否采取相应的促销活动。,打开数据文件grocery_1month.sav。 选择【分析】【一般线性模型】【单变量】,绘制选项,把style选入水平轴,gender选入单图,然后点击“添加”。再把style和gender互相交换,选入不同的框中,单击“添加”。,结果及其解释(1),结果及其解释(2),结果及其解释(3),男性和女性在每周购物和两周一次购物的均值线是平行的,都是男高女低;而在经常购物上,二者差距不大,经常购物均值线和另外两条线有交叉,表明二个因素有交互效应。效应是否显著在“主体间效应的检验”表中标识。,结果及其解释(4),男性的所有消费方式的消费金额均大于女性,男性和女性消费方式的曲线是不平行的,表明二者有交互效应。女性在经常性购物中花费金额最多;而男性则在每周购物方式中花费最多。,动手练习,得克萨斯州的一所大学提出了三种GMAT辅导课程:即3小时复习、1天课程和10周强化班,他们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论