用SPSS作定序数据分析_第1页
用SPSS作定序数据分析_第2页
用SPSS作定序数据分析_第3页
用SPSS作定序数据分析_第4页
用SPSS作定序数据分析_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

引例9好礼来蛋糕店老板研制出一种新型口味的生日蛋糕。为确认市场需求情况,老板专门组织研究人员做了一个试验:随机抽取了6位顾客,请其中3位品尝新型口味蛋糕,请另外3位品尝传统口味蛋糕。6位顾客被告知,品尝结束后根据自己的感觉按下列标准给蛋糕打分:打分结果汇总如下:得分:605040302010感觉:非常好相当好较好一般较差非常差新型口味蛋糕打分(样本1)

304020传统口味蛋糕打分(样本2)

106050对于定序数据,均值不再是确定位置的合适的统计量。此外,均值比较方法的应用,在小样本的情况下,前提条件是总体服从正态分布,在此问题中,我们对两个打分总体的分布状况一无所知。第1页/共38页第一页,共39页。威尔科克森秩和检验符号检验威尔科克森符号秩和检验第2页/共38页第二页,共39页。总体1与总体2位置相同总体1在总体2左侧传统口味打分总体2新型口味打分总体1新口味与传统口味打分总体问题的实质是:无论打分情况在总体中是何种分布,只要两个总体分布的位置相同,就表明两种口味的蛋糕的受欢迎程度相当;如果新型口味蛋糕打分总体的位置在传统口味的左侧,则表明传统口味蛋糕更受欢迎。两个总体位置相同总体1位置在左侧针对新型口味打分总体与传统口味打分总体的位置比较问题,可以提出检验假设:样本1样本2304020106050总体1总体2第3页/共38页第三页,共39页。样本1样本2304020106050

新型口味蛋糕与传统口味蛋糕打分结果赋秩

如果两个总体位置相同的原假设成立,那么两个样本的秩和与就应当非常接近。与之间的差距越大就越是拒绝原假设的证据。任意选定为检验统计量,则较小的意味着大部分较小的观测值在样本1之中。越小,就越是拒绝原假设的证据。问题归结为:要确定一个标准,以衡量“足够小”。这个标准要从秩和的抽样分布中寻找和确定。对两个样本中的6个观测值进行排序,最小的记为1,最大的记为6。通常将这种排序的结果称作秩

234561秩秩912秩和秩和第4页/共38页第四页,共39页。样本1的秩秩和样本2的秩秩和1,2,31,2,41,2,51,2,61,3,41,3,51,3,61,4,51,4,61,5,62,3,42,3,52,3,62,4,52,4,62,5,63,4,53,4,63,5,64,5,66789891010111291011111213121314154,5,63,5,63,4,63,4,52,5,62,4,62,4,52,3,62,3,52,3,41,5,61,4,61,4,51,3,61,3,51,3,41,2,61,2,51,2,41,2,3151413121312111110912111010989876样本容量为3时,两个样本的所有可能的排序方式存在20种排序的可能性,每一种排序出现的概率是相等的,即1/20。其中秩和9、10、11、12各出现3次;秩和为8、13各出现2次;秩和为6、7、1`4、15各出现一次。第5页/共38页第五页,共39页。T的抽样分布TP(T)67891011121314151/201/202/203/203/203/203/202/201/201/20总计10.050.100.150.006891011712141513TP(T)样本容量为3时,T的抽样分布给定显著性水平α=0.05,则有:,于是可在此抽样分布下确定拒绝域为T≤6。因为,所以没有理由拒绝原假设。最终结论为,两个总体的位置相同。两种口味的蛋糕的受欢迎程度相当。第6页/共38页第六页,共39页。不同样本容量下的检验统计量T的抽样分布是不同的,本例中两个样本容量都是3,这是最简单的一种情况。统计学家已经完成了不同样本容量下的T的抽样分布表计算和编制,供使用时查阅。

345678910345678910677899102215172022242729311112131415161718212427303336494216181920222425262932264043465054232526283032333537414650545863673133353739414346465156616671768039424547495254575762677379849095495255576063666968748087939910511160636669737679838018794101107114121127威尔科克森秩和检验的临界值(α=0.05时的单尾检验;α=0.10时的双尾检验)其中和的取值使得:第7页/共38页第七页,共39页。理论上可以得出任何样本容量下的检验统计量的抽样分布,但这一过程过于繁琐。统计学家已经证明,当样本容量大于10时,检验统计量T服从均值为E(T),标准差为的正态分布:标准化的检验统计量第8页/共38页第八页,共39页。某大学经济学院为配合全校经济学课程的教学改革,打算引进一本新版教材。为确认新版教材的优劣,负责教师做了一个试验:随机抽取30名学生,利用假期给其中15名学生研读新版教材,另外15名学生研读传统教材。30名学生被告知,研读教材完成后,根据自己的感受,按照下列标准给教材打分:5=非常好;4=相当好;3=一般;2=较差;1=非常差。开学后,30名学生的反馈结果如表所示。问:在5%的显著性水平下,是否可以认为新版本教材的学生评价要高于传统教材。新版教材(样本1)传统教材(样本2)354325145335554413241342224345比较两个总体位置。定序数据。样本是相互独立的。适合采用威尔科克森秩和检验。两个容量为15的样本数据第9页/共38页第九页,共39页。

:两个总体位置相同。:总体1在总体2的右侧新版教材(样本1)传统教材(样本2)354325145335554413241342224345威尔科克森秩和检验计算表拒绝原假设。结论:新版本教材的学生评价要高于传统教材。如果观测值有相等的情况,应以几个秩的均值赋给每一个观测值。秩122719.512627219.527121227272719.5秩19.5212619.521219.566619.51219.527276.5188.5第10页/共38页第十页,共39页。威尔科克森秩和检验应用条件1.问题的目标:比较两个总体的位置。2.数据类型:定序数据或非正态分布的数值型数据。3.样本特性:独立样本。4.比较的两个总体除了位置不同外,其它方面的特征没有差异。

第11页/共38页第十一页,共39页。某体育用品公司设计出一种新款式的旅游鞋,在一项试验中,研究人员想确定新款式的旅游鞋与旧款式的哪一种穿起来更舒服一些。为此,随机抽选了12位顾客,让他们分别试穿两种旅游鞋,然后,让每位顾客按照下列标准来评价两种旅游鞋的舒服程度:得分:54321舒服感觉:非常舒服比较舒服没有感觉不太舒服很不舒服试穿后所得评价结果如下表所示:

新旧两种款式旅游鞋试穿打分结果试穿顾客旧款式新款式123456789101112424121124133533243453245-1-1+1-1-2-2-3-3+1-1-1-2差值差值符号--+-----+---匹配样本数据不可进行混合排序,不适合威尔科克森秩和检验。可考虑针对每对匹配的观测值计算其差值。当某一对观测值的差值符号为正时,表明该顾客更为偏好旧款旅游鞋;当某一对观测值的差值符号为负时,表明该顾客更为偏好新款旅游鞋。第12页/共38页第十二页,共39页。将正号在样本容量中所占的比率记作。以正号个数做为检验统计量,记作。:两种款式旅游鞋舒服程度打分总体位置相同:两种款式旅游鞋舒服程度打分总体位置不同问题中的原假设为:问题中的原假设也可表述为:原假设为真时,正号个数的抽样分布为,二项比率的二项分布。

第13页/共38页第十三页,共39页。

时正号个数的抽样分布服从二项分布正号个数概率正号个数概率01234560.00020.00290.01610.05370.12080.19340.2256789101112-0.19340.12080.05370.01610.00290.0002-120.100.2011109876543210接受域拒绝域拒绝域拒绝准则:。

,落入拒绝域。所以,拒绝两种款式旅游鞋舒服程度打分总体位置相同的愿望设。结论:顾客更为偏好新款旅游鞋,做出这一推断的把握程度为95%。第14页/共38页第十四页,共39页。在一个试验中,研究人员想确定人们认为乘坐两款车中的哪一种更舒服。挑选了25个人分别乘坐在欧洲豪华车和北美中型车的后座,让每个人按照如下方式来评价乘坐的舒适程度:1=非常不舒适;2=不太舒适;3=模棱两可;4=比较舒适;5=非常舒适。得如表数据。在5%的显著性水平下,能否从这些数据中推断出欧洲豪华型车比北美中型车更舒适?被调查者欧洲车型(样本1)北美车型(样本2)1234567891011121314151617181920212223242512532514423423242453433522142133222231413134123423对舒适度的评价第15页/共38页第十五页,共39页。被调查者欧洲车型北美车型1234567891011121314151617181920212223242512532514423423242453433522142133222231413134123423配对数据差值符号计算表5个差值中,18个正值、5个负值、2个零。

如果原假设成立,正号与负号都应近似等于样本容量的一半。

选择正号个数为检验统计量并记为x。x服从二项分布。若原假设成立,二项比例为p=0.5。

由二项分布的性质我们知道:当n足够大时,x近似服从均值为、标准差为的正态分布。标准化后可得服从标准正态分布的检验统计量:

问题中:x=18、n=25-2=23、p=0.5,统计量值:拒绝原假设。结论:人们认为乘坐欧洲l轿车比乘坐北美轿车更舒适。差值-1+1+1+1+1+2-2+2+20+1+1+1-1+1+1+1+1+1+2+20-1+3-1-+++++-++0+++-+++++++0-+-符号原假设:两种车型同样舒适。第16页/共38页第十六页,共39页。符号检验应用条件1.问题的目标:比较两个总体的位置。2.数据类型:定序数据。3.样本特性:匹配样本。第17页/共38页第十七页,共39页。为研究长跑运动对增强普通高校学生的心功能效果,对某校15名男生进行测试,经过5个月的长跑锻炼后看其晨脉是否减少。锻炼前后的晨脉数据如下表所示。我们想知道长跑锻炼前后学生的晨脉有无显著的差异。锻炼前707656636356586065657566565970锻炼后485460644855544551485648645054长跑锻炼前后晨脉变化分析:问题的原假设是两个总体的位置相同。但这是两个匹配样本数据,不可对两个样本的观测值混合排序,因此不适合采用威尔科克森秩和检验。可考虑算出每对数据的差值,形成单个样本,进而构造检验原假设的统计量。此外,此数据为数值型数据,每对数据差值的大小有实际含义,如果采用符号检验,无疑将会损失差值大小上的有用信息。可考虑将符号检验与威尔科克森检验结合起来,进而构造检验原假设的统计量。第18页/共38页第十八页,共39页。序号锻炼前锻炼后123456789101112131415707656636356586065657566565970485460644855544551485648645054长跑锻炼前后晨脉变化符号秩和计算表

注意:在我们的研究中只考虑正的和负的差值。如果差值为0,该观测则应从进一步的研究中去掉,样本容量也相应减小。此数据中没有出现这种情况。如果原假设为真,那么正的秩和(T+)与负的秩和(T-)应当接近相等。两者之间的差异越大,就越是拒绝原假设的证据。选择两者之中较小者即负的秩和T-为检验统计量T,即T=T-,则负的秩和T-越小就越是拒绝原假设的证据。差值+22+22-4-1+15+1+4+15+14+17+19+18-8+9+16差值绝对值222241151415141719188916秩14.514.53.51.58.51.53.58.57.011.013.012.05.06.010.0符号秩+14.514.5--8.51.53.58.57.011.013.012.0-6.010.0--3.52.5--------5.0--符号秩-T+=110T-=10合计第19页/共38页第十九页,共39页。

单尾或双尾

单尾或双尾6789101112131415161718192021222324252627282930124681114172125303540465259667381909810711712713720263239475564748495106118131144158172187203219235253271289308328246811141721263036414754606875839210111012013014115219243037445261707990100112124136150163178193208224241258276294313威尔科克森符号秩和检验临界值表统计学家根据符号秩和的概率分布编制了威尔科克森符号秩和检验临界值表。此问题中样本容量为15,在0.05的显著性水平下进行双侧检验,查表得拒绝域的临界值为25。决策原则为:如果较小的秩和为25或更小,则拒绝原假设。此问题中较小的秩和为10,故拒绝原假设。结论:长跑锻炼前后学生的晨脉具有显著的差异。第20页/共38页第二十页,共39页。威尔科克森符号秩和检验临界值表一般只给到样本容量为30时有关的临界值。尽管在理论上我们可以得出任何样本容量下的检验统计量的抽样分布,但这一计算过程过于繁琐。统计学家已经证明,当样本容量大于30时,检验统计量T服从均值为E(T),标准差为的正态分布:标准化的检验统计量为:

也就是说,样本容量大于30时,可借助上述统计量进行Z检验。第21页/共38页第二十一页,共39页。传统上班制与弹性上班制上下班所花费时间序号传统上班制弹性上班制差值差值绝对值秩符号秩+符号秩-12345678910111213141516171819202122232425262728293031323435434616266838615268136918531841251726443019482924514026201942313144441528633963546512711355193823142140331851332150382219213834-121-25-1-2-231-25-2-132354-31-3-431241-243412125122312521323543134312412421.027.04.513.04.513.031.04.513.013.021.04.513.031.013.04.521.013.021.031.027.021.04.521.027.021.04.513.027.04.513.027.021.027.0-13.04.5-31.0---21.04.5-31.0--21.013.021.031.027.0-4.5--21.04.513.027.04.5-27.0--4.5--13.0-4.513.013.0--13.0-13.04.5-----21.021.027.0-----13.0-合计=367.5=160.5由于私家车数量的急聚增加,人们日常工作上下班变得很困难,要在路上耽误许多时间。采用弹性上班制或许会改变这种状况。研究人员随机抽取了32位在职人员,记录下来他们某天正常上班花在路上的时间,然后让他们自由选定上下班时间,以避开交通高峰,并记录下某天花在路上的时间,获得如下样本数据:第22页/共38页第二十二页,共39页。:传统上班制与弹性上班制上班所花时间相同:传统上班制与弹性上班制上班所花时间不同若给定显著性水平<<落入接受域,所以没有理由拒绝原假设。结论是传统上班制与弹性上班制上班所花时间没有显著差异,做出这一推断的把握程度为95%。第23页/共38页第二十三页,共39页。威尔科克森符号秩和检验应用条件1.问题的目标:比较两个总体的位置。2.数据类型:数据值型数据。3.差值分布:非正态分布3.样本特性:匹配样本。第24页/共38页第二十四页,共39页。两个独立样本的非参数检验(威尔科克森秩和检验)两个相关样本的非参数检验(符号检验)第25页/共38页第二十五页,共39页。对两种型号汽车进行了有关里程表现的检验.从每一型号中随机挑出12辆汽车,且以高速行驶1000英里为基础得到了每种型号汽车的每加仑行驶里程数如下表:第1种型号每加仑里程数第2种型号每加仑里程数20.619.918.618.918.820.221.020.519.819.819.220.521.317.617.418.519.721.117.318.817.816.918.020.1每加仑行驶里程数的两个独立样本数据在α=0.10的显著性水平下,检验两种型号汽车的每项加仑行驶里程数总体间是否有显著差异。第26页/共38页第二十六页,共39页。建立上述数据的SPSS数据集如图所示,其中包含number(序号)、singhao(汽车型号)和liching(行驶里程)三个变量。第一种型汽车编与第二种型号汽车分别编码为1、2。操作步骤:

(1)按Analyze→NonparametricTests→2IndependentSamples顺序单击菜单项,打开对话框,并指定检验变量licheng进入”TestVariableList”框内。如下图示:(2)指定分组变量xinghao进入”GroupingVariable”框内,并点击DefineGroups按钮,输入分组值1、2。第27页/共38页第二十七页,共39页。操作步骤:

(3)在TestType框中,选择检验方法Mann-WhitneyU(曼-惠特尼检验)。Mann-WhitneyU(曼-惠特尼检验)等同于Wilcoxon(威尔科克森)秩和检验。是由曼-惠特尼与威尔科克林联合提出的。原假设为两个总体位置相同;备择假设为两个总体位置不同。(4)【OK】。见输出结果如下:检验统计量的P值小于0.05。故拒绝两个总体位置相同的原假设。即两种型号汽车的每项加仑行驶里程数总体间存在有显著差异第28页/共38页第二十八页,共39页。符号检验威尔科克森符号秩和检验第29页/共38页第二十九页,共39页。建立欧美车型比较的数据的SPSS数据集如图所示,其中包含number(序号)、european(欧洲车型)和american(美洲车型)三个变量。数据编码:1=非常不舒适;2=不太舒适;3=模棱两可;4=比较舒适;5=非常舒适。操作步骤:

(1)按Analyze→NonparametricTests→2RelatedSamples顺序单击菜单项,打开对话框,并指定变量european和american进入”TestPair(s)List”框内。如下图示:第30页/共38页第三十页,共39页。操作步骤:

(2)在TestType框中,选中Sign复选项。(3)【OK】。见输出结果如下:检验统计量的P值小于0.1。故拒绝两个总体位置相同的原假设。结论:人们认为乘坐欧洲l轿车比乘坐北美轿车更舒适。第31页/共38页第三十一页,共39页。建立长跑锻炼前后晨脉变化的数据的SPSS数据集如图所示,其中包含number(序号)、(长跑前)和after(长跑后)三个变量。操作步骤:

(1)按Analyze→NonparametricTests→2RelatedSamples顺序单击菜单项,打开对话框,并指定变量before和after进入”TestPair(s)List”框内。如下图示:第32页/共38页第三十二页,共39页。操作步骤:

(2)在TestType框中,选中Wilcoxon复选项。(3)【OK】。见输出结果如下:检验统计量的P值小于0.05。故拒绝两个总体位置相同的原假设。结论:长跑锻炼前后学生的晨脉具有显著的差异。第33页/共38页第三十三页,共39页。结束第34页/共38页第三十四页,共39页。商科毕业生(样本1)非商科毕业生(样本2)601725113751841319822528112527176011976048251516603522221660242817239603660323929-----雇佣期样本数据由于雇佣和培训新员工的成本较高,雇主们更乐意挽留素质较高的员工。一家大公司的人力资源经理为了建立用人机制,比较了在跳槽到其他公司前,商科和非商科的毕业生在本公司工作的时间。这位经理从5年前进入公司的雇员中随机选择了25位商科专业和20非商科专业的员工组成样本。每一位员工在公司工作时间被记录下来(单位:月。当然,仍然呆在公司的员工记为60个月)。在5%的显著性水平下,人力资源经理能否得出商科专业的毕业生和非商科专业的毕业生在雇佣期上存在差别的结论?第35页/共38页第三十五页,共39页。

一家大公司信息技术部门的经理建议对经理人员组织一个公司内计算机培训项目,目的是提高他们在会计、采购、生产等方面的计算机应用知识。一些经理人员认为这个项目有必要;另一些人反对,认为没有意义。尽管有反对意见,公司仍宣布计算课将于月初开始。

随机选取15位经理人员。在培训项目开始之前,由一组专家确定每位经理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论