已阅读5页,还剩448页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
城市规划研究方法与SPSS应用,辜智慧建筑与城市规划学院,课程介绍,规划分析是城市规划过程中重要的步骤。它通过对数据信息的处理转化为规划决策中的理论参考依据,数据信息,数据:是我们描述状态或行为的数字、文字、图像或是其他形式的记录信息:是我们对数据的解释,课程介绍,研究方法论(ResearchMethodolody)包括:定量分析方法,定性分析方法,概率统计,数据处理,研究方法设计(ResearchDesign),结构方程模型(StructuralEquationModels主要用于城市结构分析),重力模型(GravityModel)等,课程介绍,城市规划中研究方法应用人口分析基于经济学的分析土地利用分析交通分析,人口Who,人口分析对规划领域的影响:土地利用规划交通规划经济发展环境规划住宅规划公共基础设施规划可持续发展等基础,经济What,经济活动是城市活动的主体劳动力需求产业规划发展战略,土地利用Where,土地适宜性分析土地利用影响分析,交通How,交通流量基于人口以及经济活动分析交通影响社会、经济以及环境影响,Example:人口数据,SizeDistributionCompositionChange,SIZE,某城市人口统计:,Distribution,城市人口年龄结构分布图,男性,女性,城市人口年龄结构变化对比,Change,AAAC年平均绝对变化值(Pop2000-Pop1990)/nAAPC年平均变化率(Pop2000/Pop1990)(1/n)-1,课程介绍,如何利用SPSS软件将数据整理为有助于决策的信息?如何收集数据?如何整理数据?如何分析数据?如何表述数据?,数据收集,普查抽样调查实验解译引用,数据整理,数据分析,基础统计分析集中、离散趋势关系分析相关分析回归分析推断、预测其他,基础统计分析,SD,关系分析,回归分析,数据显示表格,数据显示图,课程安排,课程介绍数据收集数据编辑数据统计描述数据显示假设检验,方差分析相关分析(一)相关分析(二)回归分析(一)回归分析(二)其他分析介绍,课程考核,考勤(20)+论文(80)论文主题:城市规划或城市问题相关内容的数据分析报告(采用SPSS)评分标准:准确性+难易程度结果要求:报告文档(电子版及打印版)及数据分析文件上传,论文结构,数据收集(20)准确性:10;难易程度:10数据分析(40)准确性:30;难易程度:10数据显示(30)准确性:20;难易程度:10结论讨论(10),调查问卷,是否愿意将垃圾分类投放是否知道垃圾分类的意义是否愿意在家中将垃圾分类收集是否赞成为保护环境实行生活垃圾收费制度是否听说过生活垃圾收费制度购物时是否愿意自带购物袋是否知道塑料袋的危害是否知道一次性使用的包装品不利于环境保护,不同城市居民对垃圾分类收集政策的认知程度(表中数字为回答“是”的比例,下同),不同城市居民对生活垃圾收费政策的认知程度,不同城市居民对有关购物袋政策的认知程度,数据分析,上述结果表明:虽然平均90%以上的居民对使用塑料袋及一次性包装品对环境的危害都有清楚的认识,但对于自带购物袋问题的回答,各个城市中获得的调查结果却非常不同,在深圳只有15%的人表示愿意自带,在北京则有53%的人愿意出现城市居民购物时自带购物袋比例不高的原因可能有两方面:其一是自带购物袋比较麻烦,其二也与没有实行购物袋收费制度有关,数据分析,调查的另外一组结果表明,如果实行收费制度将有利于提高自带购物袋居民的比例,减少白色污染(见下页图)。如果每个购物袋的价格为0.05元时,平均大约有14%的居民愿意自带购物袋;但当购物袋价格为0.5元时,愿意自带购物袋居民的比例基本超过50%;当价格为1元时,比例更高。由此可见,以适当方式实行购物袋收费政策,将会对减少生活垃圾中的包装袋数量产生积极影响,不同收费标准下愿意自带购物袋居民的比例,数据分析,对有关包装瓶/盒押金政策的调查结果表明,80%以上的居民对一次性使用的包装品造成的危害有所认识。另一项有关退回使用后的包装瓶/盒的态度的调查结果表明,随着押金数额的增加,愿意退回旧瓶/盒居民数量的比例也不断增加(见下页图)。如果每个包装瓶/盒的押金为1元时,在很多城市90%以上的居民将愿意退回包装瓶/盒,不同押金标准下愿意退回包装瓶/盒的居民的比例,数据分析,通过问卷调查还得出,目前在世界上很多国家实行的有利于生活垃圾资源化和减量化的多项政策,在中国城市居民中的认知度不尽相同:对于生活垃圾分类收集政策的认知度最高,愿意将生活垃圾进行分类投放的城市居民的比例已经达到85%;其次为对生活垃圾收费制度的认知度,79%的居民对这项政策持赞成态度。对废品收购政策和自带购物袋的认知度相对偏低,分别平均为60.2%和35%,数据分析,此外,城市居民中卖废品的比例,随着家庭人均收入的增加而迅速降低。这一趋势意味着随着我国经济的发展,人民收入水平提高,卖废品的城市居民比例将会不断减少,这也是各发达国家已经经历过的。因此,要实现生活垃圾中可利用物质的有效回收和重复利用,从长远看,建立有效的生活垃圾分类回收体系,并以有效的法律制度和辅助措施,如生活垃圾收费制度等促进垃圾分类回收,对促进我国生活垃圾资源化与减量化管理具有重要的战略意义,结论讨论,首先,在我国城市广泛开展生活垃圾分类收集,能够获得绝大多数城市居民的理解和支持。本项政策之所以在城市居民中具有较高的认知度,与近几年来广泛开展的垃圾分类宣传和试点有很大关系。为居民提供方便的分类投放条件、做好被分类收集的不同垃圾成分的运输和处理的后续工作,是垃圾分类政策能否获得成功的关键,结论讨论,第二,生活垃圾收费政策虽然已经在我国很多城市中开始实行,也能够被大多数城市居民所接受。但是由于缺乏宣传,很多居民对该项政策极其意义了解不足。为了达到生活垃圾收费政策所具有的减量化效果,应该开展广泛的宣传和教育活动,同时进一步开展实行生活垃圾按量收费的试点工作,以确定适合我国国情的城市生活垃圾按量收费政策,结论讨论,第三,鉴于我国居民对自带购物袋和退回包装瓶/盒的认知度不高的现象,建议应该尽快实行购物袋收费政策和包装瓶/盒押金制度,以减少白色污染和促进包装品重复利用。根据本研究调查结果,每个购物袋的价格和每个包装瓶/盒押金的数额,都应该定在0.5元左右或高于0.5元,才能够收到显著效果,参考书目,张文彤等,SPSS统计分析基础教程,高等教育出版社,2004王昕浩,Rainer城市与区域规划研究方法(英文).清华大学出版社,2007余建英,何旭宏,数据统计分析与SPSS应用,人民邮电出版社,2003课件及练习数据下载:论文及相关文件上传:ftp:/gzh:gzh0/SPSS-2007/,SPSS简介,SPSS是软件英文名称的首字母缩写,原意为StatisticalPackagefortheSocialSciences,即“社会科学统计软件包”。但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为StatisticalProductandServiceSolutions,意为统计产品与服务解决方案。,SPSS简介易学易用,SPSS最突出的特点就是操作界面极为友好,他使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。非专业统计人员的首选统计软件!,SPSS简介数据接口,SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。存储采用专用的SPO格式,可以转存为HTML格式和文本格式。,SPSS基本特点,数据自动处理强大的统计功能完全的Windows风格良好的帮助系统合自学功能简单的编程,完美的图形处理功能丰富的数据对接功能支持DLE与Active技术内置VBA客户语言强大的函数功能,SPSS统计功能,样本数据的描述和预处理;假设检验(包括参数检验、非参数检验及其他检验);方差分析相关分析回归分析,对数线性分析聚类分析判别分析因子分析对应分析时间序列分析生存分析可靠性分析,SPSS应用领域,广泛的应用于统计、应用数学、经济、市场营销、心理、卫生统计、生物、企业管理、气象、环境科学、社会学等领域。其分析过程包括:调查设计、数据收集、数据存取和管理、数据分析、数据检验、数据挖掘、数据展示等。还有一系列附加模块和独立模块产品以加强它的分析功能。它的图形窗口界面使其非常简单易用但却具有满足各种分析要求的数据管理、统计分析功能及各种报表方法。,SPSS安装,0/专业软件/spss.v13.0-iso.bin1)Whensetuppromptsforserial,enteranythingyoulike.2)Afterinstall(SPSSorSmartViewer),overwritethefilelservrc“intheinstalledprogramdirectorywiththeonelocatedinCRACK3)Enjoy!,SPSS帮助系统,学习向导TutorialStatisticsCoachResultCoachCaseStudies帮助菜单对话框帮助语法手册,数据获取与SPSS数据输入,数据分类及特性数据获取的方法SPSS数据输入,总体、个体、特征与数据,总体:所研究对象的全体个体:组成总体的元素指标或变量:表征个体特征(信息)的量指标值(变量值)或数据:对个体特征的具体的描述(可以是数字,也可以是文字),或者说有关个体的具体信息,数据类型间隙,离散变量Discretevariable当一个变量的任意两个可能取值之间没有其他取值时,该变量是离散的连续变量Continuousvariable当一个变量的任意两个可能取值之间还有其他可能取值时,该变量是连续的,数据类型作用,因变量Dependentvariable如果一个变量由其他变量来描述,该变量称为因变量或反应变量自变量Independentvariable如果一个变量与其他变量一起用于描述因变量,该变量称为自变量或预测变量,数据类型测量尺度,定类尺度NominalMeasurement对事物的类别或属性的一种测度,按照事物的某种属性对其进行分类或分组定序尺度OrdinalMeasurement对事物之间等级或顺序差别的一种测度,可以比较优劣或排序定距尺度IntervalMeasurement对事物类别或次序之间间距的测度,其测量结果往往表现为数值定比尺度ScaleMeasurement测算两个测度值之间的一种测量尺度,有一固定的绝对“零点”,数据的来源,直接来源来源于管理和研究需要而专门组织的调查来源于科学试验的数据间接来源来源于公开出版物的数据来源于内部调查的数据,获得数据的调查方法,普查Census抽样调查Sampling成本低耗费时间少所收集的个体信息更为详尽和准确,调查步骤,明确调查的目的调查的准备阶段总体的确定,明确调查的目标量明确抽样框收集数据的方法抽样设计调查问卷现场测量阶段数据处理阶段数据的验收、编辑估计、分析总结报告,抽样方法,非概率抽样典型抽样分析总体特征的基础上有意识的选择具有代表性的典型个体,进行深入细致的调查便利抽样按照最方便的方式获得被调查人的抽样,如街上行人访谈、商场拦截调查等滚雪球抽样在获得第一批被调查对象后,在调查中请其推荐其他合适的调查对象。概率抽样简单随机抽样随机抽样过程中,每个个体被抽取到的机会(概率)均等。,综合抽样方法,分层(分类)抽样StratifiedSampling按照总体中个体的某特征,把总体中的个体分为若干群;然后对每个群内的个体进行简单随机抽样。(层之间的差异大于层内部的个体差异)整群抽样ClusterSampling将总体中的各个个体,按照某一标志量分为若干群,然后以群为单位,对群进行简单随机抽样,然后对抽出来的群,进行普查。(群体之间具有相似性的特征)系统抽样SystematicSampling按照某一标志量把总体中的个体排序,然后按照一定间隔抽取个体,常用调查方法,电话访谈法邮件访谈法人员访谈法电子邮件访谈其他电子方式的访谈(网站调查、BBS访谈等),被访谈者愿意接受访谈的主要原因,对所调查研究的问题有兴趣想获得调查的全部或部分结果可以获得一定的补偿,如礼品或优惠由于上司行政要求等原因,作为任务来完成其他原因,如亲友的要求等,构成问卷的问题类型,开放型问题与封闭型问题是否有可供选择的答案回忆型问题与非回忆型问题客观记忆封闭型问题中的单选问题与多选问题答案为排斥的还是相容的单选问题中的排序型与非排序型,问题类别一览,问卷设计应注意的问题,问卷问题的设立从研究的目的出发,分解目标,产生问卷问题基于对研究问题的思考、猜想,设立问卷问题通过文献阅读,从专家学者的观点中发现需要证实/证伪的问题,设立相应问卷问题,收集数据,做实证研究;从数据处理的角度,考虑问卷的设立,问卷设计应注意的问题,问卷问题设立的第一原则”能够获得诚实的回答”的原则凡是不能获得诚实回答的问题,都不应当设置在问卷中对怀疑得不到诚实回答的问题,应当在不同位置,设置相同、相近、相反的问题,以求相互验证。对于得不到诚实回答又必须了解的数据,可以通过变换问题的提法来获得相应的数据,或者通过了解相对数据来判断总体的情况,问卷设计应注意的问题,问卷问题的设立与陈述单选问题的备选答案应当是对一个答案空间的完整划分(没有交集,没有遗漏)多选题的备选答案必须是互不排斥的问题的陈述及备选答案不能有多重含义问题涉及的用语要含义明确在问题的陈述中,要对所询问行为的时间、方式、目的做必要的限定在问卷问题中,凡是能够限定数量范围的要尽量限定,问卷设计应注意的问题,问卷设计的整体把握问卷不能太长,以2030分钟为宜,商场拦截类的问卷,以35分钟为宜把相对容易回答的问题、有趣的问题放到问卷的前面,难的放在后面问卷设计一定要通过小规模访谈进行修改,数据的信度与效度,测量的信度:指测量的结果的稳定性或一致性,指对一个变量重复测量时表现出来的性质。测量的效度:指测量结果接近所要测量的变量的内涵的程度,实际上反映了测量误差(系统误差与随机误差)的小的程度。,变量值=真值+系统偏差+随机误差,测量的信度,重测信度:尽可能在相同的条件下测量两次,用两次结果的相关程度来表示信度复本信度:只做两套量表且这两套测量工具必须具有相似性,如果两套测量结果的相似性程度高,则称前套测量工具具有复本效度内部一致信度:指用多重子问题(分项)去测量同一个概念,如果各个自问题之间的一致性高,则称测量这个总问题的量具有好的内部一致性评分者信度:如果测量工具本身规范,则没有偏见的不同评价人的评价结果就会相差很小,评分者的信度就高。,测量的效度,表面效度测量的内容是否能够反映出所要测量的概念内容效度:量表中的问题是否覆盖了被测量概念的所有方面准则效度:测量的结果与其他测量准则的结果是否具有一致性预测效度(与未来的效标)并行效度(与现有的效标)内在效度与外在效度内容效度、准则效度等好则为内在效度高内在效度高,测量另外的对象效度也高,则为外在效度高,信度与效度的关系,例如,隔着黑幕两次询问一个在喝矿泉水的人,如果两次都回答说,没有喝水,那么这个测量就是有信度没有效度的。要想建立一个测量的效度,就要先评估这个测量的信度,信度和效度的改进方法,设计问卷的时候,请潜在的应答者参加要求访谈调查人员充分理解调查的内容在调查的准备阶段,对访谈问题进行检验,获得数据的试验方法,为了获得特定数据,通过对参与者类型的恰当限定、对数据产生条件的恰当限定、对数据产生过程的合理设计而获得数据的方法。,试验数据的优越性,可以获得在真实状况下用观察(调查)法无法获得的某些数据可以在一定程度上直接观察到某些变量之间的相关关系,甚至因果关系可以获得在问卷调查中难以获得诚实回答的数据,试验设计中的几个重要概念,试验的外部因素:对试验结果有影响而试验者又不感兴趣的因素试验的内部因素:对试验结果有影响同时又是试验者感兴趣的因素混合因素:在试验中不能分离的两个以上的条件因素,SPSS数据分析的一般步骤,收集整理数据(进入SPSS之前的准备工作)建立SPSS数据文件定义数据文件结构录入、修改、编辑待分析的数据分析数据统计分析之前的数据预处理统计分析和建模结果的说明和解释数据和分析结果的保存,一、进入SPSS之前的准备工作,资料收集和审查收集数据对数据进行质量控制(排除明显的错误数据)数据编码将收集的数据转换成SPSS接受的数据格式采用合适的编码(如female用1表示,male用2表示),资料的审查,资料的完整性审查资料的统一性审查资料的合格性审查,资料的完整性审查,资料总体的完整性:主要考虑某一研究收集观测量(实验)的数量、是否有代表性;每份资料的完整性:主要考虑每个观测量所包含的变量的完整性,是否是缺失值。,资料的统一性审查,每一项观测量是否采用相同的测量方法检查各变量所使用的单位是否一致。审查指标的定义和分析的标准是否与自己的研究分类相一致。,资料的合格性审查,审查提供资料的人是否有足够的收集数据的技能审查所提供的资料是否符合逻辑性判断检验:依据已知情况来判断是否真实正确。逻辑检验:从资料的逻辑关系来检验是否正确。计算检验:通过各种数字的运算来检验是否正确。,资料的编码,根据一定的规则将研究资料转换为可进行统计分析的数码资料的过程。,SPSS支持的变量类型,二、SPSS数据文件的建立,数据文件的特点结构的定义数据的录入与保存数据的编辑与其他软件数据共享,SPSS数据文件的特点,定义数据文件的结构,Name:定义变量名Type:定义变量类型Width:变量长度Decimal:变量小数点位数Label:变量标签,Value:变量值标签Missing:缺失值的定义方式Column:变量的显示宽度Align:变量显示的对齐方式Scale:变量的测量尺度,定义数据文件的结构Cont.,变量名变量名是变量存取的唯一标志变量类型注意:显示宽度并不影响数据的存储变量长度设置数值值变量的长度,当变量为日期型时无效。变量小数点位数设置数值值变量的小数点位数,当变量为日期型时无效。变量名标签(Variablelabel)进一步描述变量所表示的意义,特别是当变量名不能充分描述变量所表述的意义时。,定义数据文件的结构Cont.,变量值标签(Valuelabel)值标签是对变量的每一个可能取值的进一步描述,当变量是定类或定序变量时,这是非常有用的。单击Value相应单元,在如下对话框中进行设置。,定义数据文件的结构Cont.,缺失值系统缺失值用户自定义缺失值变量显示宽度变量对齐方式测量尺度(Measurement)Scale:定距或定比数据Ordinal:定序数据Nominal:定类数据,数据编辑,数据的直接录入,开放题的录入单选题的录入(ValueLable)多选题的录入多重二分法多重分类法,与其他软件数据共享,ASCII码文件(纯文本文件,*.txt)Foxpro数据库文件(*.dbf)MicrosoftAccess数据库(*.mdb)Excel文件(*.xls)SAS文件,读入ASCII码数据,ASCII文件格式:固定格式。对数据文件的每一Case,每一变量记录在同一记录的相同列位置。自由格式。对每一Case,以同一顺序记录变量,而且不必按相同位置。空格解释为值间的分界符。,读取ASCII文件实例,Ex02_01.data(固定格式)92101M96.096.087.592102F94.097.086.592103M.086.081.592104M89.097.069.592105F82.085.079.592113F70.085.066.092115F85.091.072.592116M84.087.067.592117F83.091.080.592106M88.088.078.092108M84.090.069.592110F92.094.071.0,Ex02_01.data(自由格式)92101M96.096.087.592102F94.097.086.592103M.086.081.592104M89.097.069.592105F82.085.079.592113F70.085.066.092115F85.091.072.592116M84.087.067.592117F83.091.080.592106M88.088.078.092108M84.090.069.5,读取Excel电子表格数据,利用ODBC读取VisualFoxpro数据库中数据,数据库文件:HouseholdInventory.DBC,从数据库中读取视图文件的数据,数据保存,主要的保存类型有:SPSS(*.sav),SPSS10.0默认格式;SPSS7.0(*.sav),SPSS7.0格式;SPSS/PC+(*.sys),SPSS/PC+格式;Excel(*.xls),MicrosoftExcel格式;1-2-3Rel3.0(*.wk3),Lotus1-2-3V3.0电子表格文件等等,练习,导入txt数据文件导入excel数据文件自定义数据文件文件拆分文件合并,本节内容,数据的统计描述数据的直观表述数据的基本统计量SPSS基本统计分析FrequenciesDescriptiveExplorer,数值数据的直观表述,茎叶图,SPSS茎叶图实例,数值数据的直观表述,数值数据制表,原始数据排序:12,13,17,21,24,24,26,27,27,30,32,35,37,38,41,43,44,46,53,58数据范围Range:58-12=46数据分组:5(usuallybetween5and15)分组间隔(width):10(46/5thenroundup)数据界限(limits):10,20,30,40,50数组中值Midpoints:15,25,35,45,55分组统计,数值数据制表:FrequencyDistributions,数值数据制图:Histogram,SPSS直方图示例,数值数据制图:FrequencyPolygon,数值数据制图:CumulativeFrequency,数值数据制图:Ogive(累积曲线),分类数据表述:单变量,SummaryTable,分类数据表述:单变量,分类数据表述:多变量,分类数据表述:多变量,数据的基本统计量,集中趋势的描述,Mean:均值,数学平均值,最常用的集中趋势测量参数但是容易受到极值的影响,Median:中位数,最重要的集中趋势测量参数对于排序数组,中位数就是位于中间的数据如果是奇数数组,中位数就是中间的数据如果是偶数数组,中位数就是中间两个数的平均值不会受极值的影响,Mode:众数,集中趋势的测量参数之一出现次数最多的值不受极值影响有可能没有众数,也有可能有很多众数既适用与数值型变量也适用于分类型变量,Midrange:中列数,集中趋势测量参数之一最大值和最小值的平均值,容易受到极值的影响,Quartiles:四分位数,数据分布参数将排序数据四等分(按个数),数据的基本统计量,离散趋势的描述,Range:极差,数据变异测量参数最大值和最小值的差,忽略了数据的分布,InterquartileRange:四分位数间距,数据变异测量参数也叫做Midspread:即在50%的变化宽度四分之三的分位数和四分之一的分位数的差:InterquartileRange=Q3-Q1例:111213161617171821Q3-Q1=17.5-12.5=5不受极值的影响,Variance:方差,重要的变异测量参数用平均值来表示变异程度对于总体数据对于样本数据,StandardDeviation:标准差,重要的变异测量参数用平均值来表示变异程度对于总体数据对于样本数据,SampleStandardDeviation:样本标准差,标准差对比,自由度,假设一个样本有两个数值,X1=10,X2=20,我们现在要用这个样本估计总体的方差,则样本的平均数是:Xm=X/n=(10+20)/2=15现在假设我们已知Xm=15,X1=10,根据公式Xm=X/n,则有:X2=2Xm-X1=215-10=20由此我们可以知道在有两个数据样本中,当平均数的值和其中一个数据的值已知时,另一个数据的值就不能自由变化了,因此这个样本的自由度就减少一个,变成了(n-1)。依此类推:在一组数据中,当其平均数和前面的数据都已知时,最后一个数据就被固定而不能独立变化了,因此这个样本能够独立自由变化的数目就是(n-1)个.,标准差对比,CoefficientofVariation变异系数,相对变异程度的测量参数是一个百分比的数据用于比较两个或多个数组计算公示,CoefficientofVariation变异系数,Shape:分布描述,数据分布描述峰度测量左倾均衡右倾,Shape:分布描述,Skewness:偏度用于描述变量取值分布形态的统计量计算公式:注意:偏态的方向是指长尾的方向Kurtosis:峰度用于描述变量取值分布形态陡缓程度的统计量计算公式:,SPSS实例基本统计量,SPSS提供的描述统计过程,频度分析(FREQUENCES)描述统计(DESCRIPTIVES)考查样本(EXPLORE),频度分析过程:FREQUENCES,频度分析过程的功能:计算单个变量各值的频数、百分数和某些描述统计量,产生频数表,绘制条形图(离散变量)和直方图(连续变量)。,频度分析过程的调用:,频度分析过程对话框:,频度分析过程选项:,Displayfrequencytables显示频数分布表Statistics:选择输出统计量(1)PercentileValue:百分位数选项Quartiles:四分位数,显示25%、50%、75%的百分位数Cutpointsforequalgroups:将数据分成为指定的2100之间相等的等份。如键入4,则被四等分,即计算四分位数值。Percentile(s):由用户定义的百分位数。键入值的范围在0100之间。例如输入50,表示显示第50个百分数,它的值与中值相等,在其下有50的观测量落入其中。,频度分析过程FREQUENCES,Statistics:选择输出统计量(2)Dispersion:离差Std.Deviation:标准差Variance:方差Range:最大值与最小值之差(即极差)Minimum:最小值Maximum:最大值S.E.mean:均值的标准误差均值标准误差:它是一种均值变化的判别方法,对于同一分布的总体来说,由于采样的样本不一样造成样本的平均值不同。,频度分析过程FREQUENCES,Statistics:选择输出统计量(3)CentralTendency:集中趋势指标Mean:算术平均值Medium:中位数Mode:众数Sum:算术和,频度分析过程FREQUENCES,Statistics:选择输出统计量(4)Distribution:分布参数Skewness:偏度,非对称分布指数Kurtosis:峰度,围绕中心点的扩张程度如果Skewness与Kurtosis的值接近0,表示观测量的分布非常接近正态分布如果Skewness0,表示为正偏如果Kurtosis0,表明观测值分布比正态分布具有更尖锐的峰型。如果Skewness1,观测值分布与正态分布显著不同。,频度分析过程FREQUENCES,ChartType:图形类型None:不输出图形BarChart(s):输出条形图:条形图适合于类别明确且类别有限的分类数据PieChart:饼图Histogram(s):选择此项要求作出直方图:,频度分析过程FREQUENCES,重要提示:1.在频数分析中,如果发现平均数与中值差距很大,说明有极端case出现,在进行分析时要去掉这些极端case。如下图所示:,频度分析过程FREQUENCES,频度分析过程FREQUENCES,重要提示:2.如果样本的分布斜歪,可以通过对样本作一些变换来减少斜歪,如对样本作对数变换,这样使样本的分布更接近于正态分布。如下图所示:,频度分析过程FREQUENCES,描述统计过程DESCRIPTIVES,标准化变量,并在活动工作数据文件中保存,描述统计过程DESCRIPTIVES,DESCRIPTIVES输出统计量1.输出平均数、标准差、最大值、最小值等FREQUENCIES计算的大部分统计量不包括中位数和众数,描述统计过程DESCRIPTIVES,DESCRIPTIVES输出统计量2.标准化所选择的变量(Z分数)命名规则:在原变量前加z,如变量W所对应的Z分数量名称为ZW。计算公式:Z分数具有均值0,标准差为1。作用:当观测值的单位不同时,Z分数变换把变量标准化到同一个尺度上操作:Savestandardizedvaluesasvariable,描述统计过程DESCRIPTIVES,DESCRIPTIVES输出统计量2.标准化所选择的变量(Z分数)实例1.以ex02_05.sav为例,对学生身高和体重进行DESCRIPTIVES分析,并计算身高的Z分数。2.对身高的Z分数作描述统计分析,注意其均值和标准差。,考查数据过程EXPLORE,考查的作用检查数据是否有错误过大或多小的数据有可能是奇异数或错误数据要分析过大或过小的原因决定是否从分析中剔除了解样本的分布特征如是否符合状态分布、方差是否相等对数据的规律的初步观察通过初步观察尽可能的发现内在的一些规律。例如两个变量之间是否线性相关等。,考查数据过程EXPLORE,考查数据过程EXPLORE选项,考查数据过程EXPLORE,考察的方法1.箱图2.茎叶图,考查数据过程EXPLORE,箱图矩形框,是箱图的主体,上中下三条线分别表示变量值的第75、50、25百分位数。变量的50%的观测值落在这一区域中。触须线,是中间的纵向直线。上截止横线是变量值本体最大值;下截止线是变量值本体最小值。本体即除奇异值和极值以外的变量值称为本体值。,考查数据过程EXPLORE,箱图奇异值奇异值,使用“0”标记。分大小两种。箱体上方的用0标记,其变量值超过了第75百分位点与第25百分位点上的变量差值的1.5倍。箱体下方的用0标记的点,其变量值小于第75百分位点与第25百分位点上的变量差值的1.5倍。极值极值,使用“*”标记。上极值点的变量值超过了第75百分位点与第25百分位点上的变量差值的3倍。下极值点的变量值小于第75百分位点与25百分位点上的变量差值的3倍。,考查数据过程EXPLORE,输出统计量Descriptives:要求输出基本描述统计量。选择此项将输出平均数、中位数、5%的调整平均值、标准误、方差、标准差、最大值、最小值、范围(极差)、等距四分位数、峰度与偏度以及它们的标准误。,考查数据过程EXPLORE,输出统计量ConfidenceIntervalforMean:均值的置信区间。95%为默认值。可以选择的范围从1%到99.99%。均值的置信区间是一种区间估计的方法。区间估计粗略地说是用两个估计量1,2(1=2)所决定的区间1,2作为参数取值范围的估计区间1,2不能太大,太大不能说明任何问题;第二,这个估计必须有一定的可信程度,因此区间1,2又不能太小,太小难以保证这一要求。,考查数据过程EXPLORE,输出统计量ConfidenceIntervalforMean:均值的置信区间。在SPSS中通常选用90%,95%,99%三种置信水平,置信水平越高得到的区间越大(区间越保守)。如对ex02_05.sav中的身高进行分析时,当置信水平为99%时,得到的身高均值的区间估计为156.8127,164.4473,而当置信水平为95%时,得到的身高均值的区间估计为157.7976,163.4624。,考查数据过程EXPLORE,输出统计量M-estimators:最大稳健估计量,最大稳健估计量可以很好的替代平均值和中位数,它们受奇异值的影响要小数据接近正态分布:Huber方法数据明显不是正态分布:用Andrew,Hampel,Tukey方法比较合适。,考查数据过程EXPLORE,输出统计量M-estimators:最大稳健估计量之所以称为最大稳健估计量,是因为它们对正态性偏移不敏感。不同的Case采用不同的权重,极端值的权重小于均值附近Case的权重。它可以替代均值和中位数。当数据呈带长尾的对称分布或数据含有极端值时,使用它比均值和中位数更好。,考查数据过程EXPLORE,输出统计量Outlie:输出5个最大值与最小值。Percentiles:输出5%、10%、25%、50%、75%、90%以及95%的百分位数。,考查数据过程EXPLORE,输出统计图Boxplot:箱图Descriptive:描述性图形Normalityplotswithtests:输出正态概率与离散概率图及正态性检验,考查数据过程EXPLORE,输出结果箱图,考查数据过程EXPLORE,输出结果正态概率图,考查数据过程EXPLORE,输出结果离散正态概率图,考查数据过程EXPLORE,输出结果(3)茎叶图茎叶图由三部分构成:频数、茎和叶茎(Stem):表示数值的整数部分叶(Leaf):表示数值的小数部分茎叶所代表的数值近似为:(茎+叶)*茎宽(stemwidth),考查数据过程EXPLORE,输出结果茎叶图,考查数据过程EXPLORE,输出结果茎叶图第一行数据表示有一个极值或奇异值,其数值小于或等于22最后两行说明茎宽为10,每个叶子表示一个样本如最后一行茎叶图表示频度为3,茎为9,叶子为118,就说明这一行有3个数值,分别为两个9.1*10=91和9.8*10=98,考查数据过程EXPLORE,输出结果正态性检验,考查数据过程EXPLORE,输出结果Kolmogorov-Smirnov:用于检验数据是否成正态分布当Kolmogorov-Smirnov显著性水平大于0.05时,接受正态分布的假设当样本数目为50或50以下时,系统还计算Shapiro-Wilk统计量,考查数据过程EXPLORE对缺失值的处理,Option选项,考查数据过程EXPLORE,对缺失值的处理Option选项Excludecaseslistwise选项:将因变量或分组变量中含有缺失值的Case,从所有分析中剔除掉Excludecasespairwise选项:剔除本分析中所用因变量或分组变量中含有缺失值的Case。Reportvalues选项:将分组变量的缺失值单分出一组进行分析。,本节内容,假设检验假设检验的基本思想假设检验的基本概念假设检验的统计方法单样本假设检验基本统计原理SPSS应用实例,几个基本常识,统计分析常常采取抽样的研究方法。即从总体中抽取一定数量的样本进行研究来推论总体的特征。由于总体中的每个个体间存在差异,即使严格遵守随机抽样原则也会有样本统计量与总体参数之间有所不同。实验者测量技术的差别或测量仪器精确程度的差别等也会造成一定的偏差,使样本统计量与总体参数之间存在差异。,几个基本常识,均值不相等的两个样本不一定来自均值不同的总体?(从均值相等的总体里抽样的均值可能不相等,这是抽样造成的)两个样本的均值不同,其差异是否具有统计意义,能否说明总体差异?(只有样本均值的差异具有统计意义时,才能推断总体均值有差异),假设检验的基本思想,小概率事件一件事情发生与否的可能性用概率的大小来表示。发生概率很小,如P=40),发生概率不接近0,也不接近1的时候,二项分布非常接近与正态分布。,二项分布曲线,发生概率等于0.5时,图形对称试验次数增大,图像逐渐对称,SPSS假设T检验类型,单样本假设检验独立双样本假设检验配对双样本假设检验,单样本假设检验,目的:推断样本相应的总体均数是否等于(或大于小于)某个已知总体均数。例如:一则统计消息表明,中国人的平均IQ为100,而我们班的平均IQ为115,这是否说明我们班同学比一般人要聪明?One-sampleTest:115and100?,单样本假设检验,零假设:样本均值等于已知总体均值所以,显著性水平数值越小,说明两者没有差别的可能性越小,单样本假设检验的基本统计原理,主要内容:ZTestfortheMean(Known)(Z检验方法,已知)tTestofHypothesisfortheMean(t检验方法)p-ValueApproachtoHypothesisTesting(P-值检验方法),Z检验(已知),适用于大样本,已知总体的标准差,求样本均值与总体均值之间的差异将样本统计值转化为标准化统计量:计算Z与所对应的临界值之间的差异,如果超出,则拒绝原假设,否则,不拒绝原假设,T检验(未知),假设总体样本为正态分布T检验统计量:由于总体标准差未知,这里用样本标准差S代替总体标准差进行计算,而相应的标准化后的统计量也就被称为t统计量。,Z分布与t分布,P-值检验方法,比较样本检验得到的概率与零假设为真时的概率Ifpvalue,不拒绝H0Ifpvalue,拒绝H0,独立双样本假设检验,目的:比较两个(没有关系的)总体均数是否相等。例如:两组城市居民收入抽样数据,北京居民月收入为3500,深圳居民月收入4000,能否说深圳居民收入就高于北京的居民收入?,独立双样本假设检验,零假设:两个总体的均数是相等的所以,显著性水平数值越小,说明两者没有差别的可能性越小,独立双样本假设检验基本原理,主要内容:ComparingTwoIndependentSamples(两个独立样本的比较):ZTestfortheDifferenceinTwoMeans(Z检验方法)tTestforDifferenceinTwoMeans(t检验方法)FTestforDifferenceintwoVariances(方差相等检验,F检验),Z检验方法(总体方差已知),前提假设:样本随机,并且相互独立检验统计量:,t检验方法(总体方差未知),假设:两个总体相互独立,并且均为正态分布检验统计量:,F检验,检验统计量,F检验的步骤,配对双样本检验,同一受试对象处理前后的数据同一受试对象两个部位的数据同一样本用两种方法检验的结果配对的两个受试对象分别接受两种处理后的数据,配对双样本假设检验,零假设:配对双样本前后没有区别,区别为0所以,显著性水平数值越小,说明两者没有差别的可能性越小,配对t检验,基本原理:求出每对的差值,如果两种处理没有差异,则差值的总体均数为0,反之,总体均数及样本均数应当远离0统计量为:实际上,配对T检验就相当于单样本的t检验,只是考察的不是原始数据,而是差值,配对双样本T检验注意事项:,仅适用于两个相关的样本进行比较两组样本的误差假定为正态分布在t检验之前,可通过差值的分布如直方图来初步评价其分布在t检验之前,应首先检验其中异常值或极值,避免得出错误结论,本节内容,方差分析(一)单因素方差分析基本原理总体变异=组间变异+组内变异组间变异/组内变异符合F分布SPSS单因素方差分析实例数的直观表示方差齐性检验对比分析多重比较分析单因素方差分析补充问题方差不齐、样本容量一致方差不齐、样本容量也不一致,方差分析(Analysisofvariation),所解决的问题:解决单个或多个因素之下的多个不同水平之间的关系问题基本原理:将总变异分解为由研究因素所造成的部分和由抽样误差所造成的部分,通过比较来自不同部分的变异,借助F分布做出统计推断。,单因素方差分析理论基础,解决问题:一个因素下多个不同水平适用条件:观察对象来自于所研究因素的各个水平之下的独立随机抽样每个水平下的因变量应服从于正态分布各水平下的总体具有相同的方差适用条件对分析结果的影响独立性:对方差分析的结果影响较大正态性:对方差分析的结果影响不大方差齐性:当个组样本含量相差不太大时,对方差分析的结果会有少许影响样本含量:其均衡性可在一定程度上弥补正态性或方差齐性不满足对检验结论的影响,方差分析的假设检验,所有总体的均值相等总体均值不同或者不全相同,变异分解公式,组间差异(非随机因素),组内差异(随机因素),TotalVariation(总变异),Xij=第J组第i个样本值Nj=第J组的样本个数N=所有组的样本个数C=组的数目,Among-GroupVariation(组间变异),第j组数据平均值所有数据的平均值,Nj=第j组数据的样本个数C=样本组的个数,Within-GroupVariation(组内变异),第j组样本的第i个观察值第j组样本的平均值,One-WayANOVASummaryTable,单因素方差分析示例,有三组数据,来自不同的地区,请问不同地区,在0.05的置信水平上,样本数据是否存在不同?,散点图,计算过程,总表,=25.60,结论,在拒绝原假设结论:至少有一组平均值与其他组不同,多重比较法,将每组数据与其他所有组数据进行比较,称之为多重比较法多重比较法可进一步比较不同组数据间的差异多重比较法可选择以上各两两比较法进行比较,还可在不满足方差齐性的条件下进行比较,两两比较法,LSD:最小显著差法(t检验的简单变形)Sidak:Sidak校正在LSD方法中的应用Bonferroni:Bonferroni校正在LSD方法中的应用Scheffe:对多组均数间的线性组合是否为0进行假设检验,多用于样本含量不等时的比较Dunnett:用于多个实验组与一个对照组间的比较S-N-K:利用StudentizedRange分布进行假设检验Tukey:利用StudentizedRange分布进行均值比较Duncan:类似于S-N-K,不过服从于Duncan分布,SPSS单因素方差分析实例,对不同水平下随机变量的统计方差齐性检验平均值图对比分析多重比较,SPSS单因素方差分析实例,为了比较不同年龄的消费者对一种新的DVD影碟机的评价是否有所不同原始数据:dvdplayer.sav,步骤一:直观展示分组数据差异,MeansPlot1.选择DVD评价自变量.2.选择年龄组作为因素变量.3.点击Options.4.选中MeansPlot,Analyze/CompareMeans/One-WayANOVA.,MeansPlot,步骤一:直观展示分组数据差异,Graphs/ErrorBar.,步骤一:直观展示分组数据差异,1.选择DVD评价作为分析变量2.选择年龄组作为分类变量3.选择平均值标准误差作为柱状图的表示4.设置Multiplier=1.5.点击OK.,ErrorBar,步骤二:方差齐性检验,Analyze/CompareMeans/One-WayANOVA.,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026陕西中烟工业有限责任公司应届高校毕业生招聘105人建设笔试备考试题及答案解析
- 2026云南昆明市西山区西苑街道办事处招聘辅助岗位工作人员4人建设笔试模拟试题及答案解析
- 雅安开放大学2026年公开考核招聘事业单位工作人员建设考试备考试题及答案解析
- 2026广东深圳龙华区学校、中小学教师招聘建设笔试参考题库及答案解析
- 2026江西省投资房地产开发有限责任公司招聘2人建设考试参考题库及答案解析
- 2026年马鞍山首创水务有限责任公司招聘劳务人员建设笔试备考试题及答案解析
- 庐陵新区2026年面向社会公开招聘编外工作人员建设考试备考试题及答案解析
- 2026安徽宣城市旌德县高中新任教师招聘5人建设考试参考题库及答案解析
- 2026浙江台州学院后勤发展有限公司招聘6人建设笔试备考试题及答案解析
- 2026新干县人民医院招聘见习岗专业技术人员20人建设考试参考试题及答案解析
- (高清版)WST 418-2024 受委托医学实验室选择指南
- 2022版新课标初中数学《数与代数、图形与几何》解读
- 清廉学校建设工作清单表格
- 2024年贵州贵阳城发能源产业有限公司招聘笔试参考题库含答案解析
- 4月原材料上涨行业分析报告
- 幼儿园幼儿园小班社会《兔奶奶生病了》
- (新版)老年人能力评估师理论考试复习题库(含答案)
- 2022-2023学年重庆市渝东九校联盟高一(下)期中数学试卷(含解析)
- 遵化市建明金昌采选厂矿山地质环境保护与土地复垦方案
- 《全国应急广播体系建设总体规划》
- 孙犁《芦花荡》阅读训练及答案
评论
0/150
提交评论