




免费预览已结束,剩余49页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2.1描述性统计的基本概念,2.1.1统计学的基本概念2.1.2表示数据位置的统计量2.1.3表示数据分散程度的统计量2.1.4表示数据分布形状的统计量2.1.5其它统计量,计算中心,进行数据分析首先应:,明确分析的目的明确分析的对象确定是否需要抽样在一些问题中,要考查整个总体往往是不可能的,因为要耗费太多的时间和资源确定需要记录的数据项目,计算中心,1.总体和样本,总体(population)是所研究的指标测量值的集合。,总体,样本,抽样(sampling)是指从总体中抽取部分的做法。样本(sample)通过抽样得到的总体的一个子集。随机化使样本具有代表性的重要方法,2.1.1统计学的基本概念,计算中心,抽样方法,简单随机抽样:在抽样的过程中,任何一个样本被选中的机会都相同。利用计算机产生的随机数(对于有限总体),可模拟简单随机抽样,如对学生的学号用随机数进行抽样对于无限总体不能进行标号,抽样过程不能用随机数,难于实施分层抽样:按数据的层次进行抽样。如小学生的身高,按每年级分为一个层,2.1.1统计学的基本概念,计算中心,随机事件在一次试验中可能发生也可能不发生的事件在试验之前,无人知道发生还是不发生经大量试验,这类事件是有一定规律的,2.1.1统计学的基本概念,计算中心,概率度量随机事件发生的可能性的大小A:随机事件P(A)随机事件发生的概率P(A)=1事件一定发生P(A)=0事件绝对不发生,2.1.1统计学的基本概念,2.参数与统计量参数(parameter):定量地反映总体的某个性质,如平均值、概率等。统计量(statistics):定量反映样本的某个性质,如样本方差(s2)、样本比例(P)等。,2.1.1统计学的基本概念,3.数据分析工作的基本步骤研究设计数据查询与收集数据整理数据分析4.描述性统计描述样本的特征,2.1.1统计学的基本概念,2.1.2表示数据位置的统计量,如果要用简单的数字来概括一组观测数据x1,.,xn,可以使用“位置统计量”来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。1.均值(Mean)均值是所有观测值的平均值,是描述数据取值中心位置的一个度量:,2.中位数(Median或Med)中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响,具有稳健性。中位数的计算方法是:首先将数据从小到大排序为:x(1),.,x(n),然后计算,2.1.2表示数据位置的统计量,3.众数(Mode)观测值中出现最多的数称为众数。众数用得不如均值和中位数普遍。在属性变量分析中,常需考虑频数,因此众数用得多些。4.百分位数(Percentile)分位数也是描述数据分布和位置的统计量。0.5分位数就是中位数,0.75分位数和0.25分位数又分别称为上、下四分位数,并分别记为Q3和Q1。,2.1.2表示数据位置的统计量,2.1.3表示数据分散程度的统计量,1.极差(Range)与半极差(Interquartilerange)极差就是数据中的最大值和最小值之间的差:极差=maxximinxi上、下四分位数之差Q3Q1称为四分位极差或半极差,它描述了中间半数观测值的散布情况。2.方差(Variance或Var)方差是由各观测值到均值距离的平方和除以观测量减1:,3.标准差(Standarddeviation或StdDev)方差的开方称为标准差:标准差的量纲与原变量一致。4.变异系数(CoefficientofVariation或CV)变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的:,2.1.3表示数据分散程度的统计量,2.1.4表示数据分布形状的统计量,偏度和峰度是描述数据分布形状的指标。1.偏度(skewness)偏度是刻画数据对称性的指标。偏度的计算公式为:在SAS中:关于均值对称的数据其偏度为0;左侧更为分散的数据,其偏度为负,称为左偏;右侧更为分散的数据,其偏度为正,称为右偏。,2.峰度(kurtosis)峰度描述数据向分布尾端散布的趋势。峰度的计算公式为:利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若近似于标准正态分布,则峰度接近于零;尾部较正态分布更分散,则峰度为正,称为轻尾;尾部较正态分布更集中,则峰度为负,称为厚尾。,2.1.4表示数据分布形状的统计量,2.1.5其它统计量,1.均值的标准误(StdErrorMean或StdMean或Stderror)2.校正平方和(Correctedsumofsquares),3.未校正平方和(Uncorrectedsumofsquares)4.k阶原点矩其中A1即为均值。5.k阶中心矩,2.1.5其它统计量,2.2在SAS中计算统计量,2.2.1用INSIGHT计算统计量2.2.2用“分析家”计算统计量2.2.3编程实现描述性统计,2.2.1用INSIGHT计算统计量,1.实例数据【例2-1】表2-1为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情况。将表2-1中数据通过Excel导入到SAS数据集Mylib.sryzc中,4个变量名分别为:ID、R_ID、Income和Outgo,相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。,2.2.1用INSIGHT计算统计量,2.在INSIGHT中打开数据集在菜单中选择“Solution(解决方案)”“Analysis(分析)”“InteractiveDataAnalysis(交互式数据分析)”,打开“SAS/INSIGHTOpen”对话框,在对话框中选择数据集:Mylib.sryzc,单击“Open(打开)”按钮,即可在INSIGHT中打开数据窗口,如图所示。,2.2.1用INSIGHT计算统计量,3.计算统计量选择菜单“Analyze(分析)”“Distribution(Y)(分布)”,打开“Distribution(Y)”对话框。在数据集sryzc的变量列表中,选择Income为分析变量,选择R_Id,为分组变量。单击“Output(输出)”按钮,在打开的对话框中包含描述性统计量选项。,2.2.1用INSIGHT计算统计量,选择选项矩统计量和分位数,取消默认的选项:“BoxPlot/MosaicPlot”和“Histogram/BarChart”,单击“OK”按钮,即可得到变量Income按“R_Id”分组的各种矩统计量(Moments)和分位数(Quantiles),如图所示。,2.2.1用INSIGHT计算统计量,2.2.2用“分析家”计算统计量,1.启动“分析家”选择主菜单“Solutions(解决方案)”“Analysis(分析)”“Analyst(分析家)”,打开“分析家”窗口。选择主菜单“File(文件)”“OpenBySASName”,打开“SelectAMember”对话框,选择数据集Mylib.sryzc。,2.通过SummaryStatistics菜单计算描述性统计量选择主菜单“Statistics(统计)”“Descriptive(描述性统计)”“SummaryStatistics(汇总统计量)”,打开“SummaryStatistics”对话框,选择变量列表中的Income,单击“Analysis”按钮,选定分析变量,如图所示。,2.2.2用“分析家”计算统计量,单击“Statistics”按钮,打开“SummaryStatistics:Statistics”对话框。对话框中列出可以计算的所有统计量(如右图所示)。描述性统计量如下图所示,2.2.2用“分析家”计算统计量,3.通过Distributions菜单计算描述性统计量选择主菜单“Statistics(统计)”“Descriptive(描述性统计)”“Distributions(分布)”,打开“Distributions”对话框,选择变量列表中的Income,单击“Analysis”按钮,选定分析变量。单击“OK”按钮,即可得到关于变量Income的矩统计量和基本统计测度,2.2.2用“分析家”计算统计量,2.2.3编程实现描述性统计,SAS提供有多个不同的过程来实现统计量的计算,它们在功能范围上有许多的重复,下面介绍用FREQ、MEANS和UNIVARIATE这三个过程来计算简单的描述统计量。FREQ过程常用来计算分类变量取值的频数,而MEANS和UNIVARIATE过程则对数值型变量计算均值、标准差等统计量。,2.3统计图形,2.3.1定量变量的图形表示2.3.2分类变量的图形表示,2.3.1定量变量的图形表示,1.直方图对于数值型变量,常用直方图(histogram)来展示变量取值的分布。将变量取值的范围分成若干区间,在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或密度(频率组距),在高度是密度的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。,图2-22密度直方图与频数直方图SAS软件会根据样本容量在样本取值范围内自动地确定一个分组方式,另外也提供了设定分组的方法。,2.3.1定量变量的图形表示,2.盒形图盒形图(boxplot,又称箱图、箱线图、盒子图)是用更为简洁的方法表现数据在数轴上的分布及其特点的图形。图2-23的左边是根据居民家庭的收入情况所绘的盒形图;右边是分地区情况所绘的盒形图。,2.3.1定量变量的图形表示,3.散点图通常得到的数据可能有两个变量,比如家庭的收入和支出情况的数据,这里家庭总收入是一个变量,而家庭总支出是第二个变量。希望通过图形了解收入和支出的关系,这时可以用一个变量为横坐标(如家庭总收入),另一个为纵坐标(这里是家庭总支出)来作图(图2-24)。这种图称为散点图(ScatterPlot)。,2.3.1定量变量的图形表示,4.线图线图(LinePlot)用来表示变量间的取值变化情况,有单式和复式两种(图2-25)。在复式线图中可用不同颜色的实线来标志区别,如图2-25右所示。,2.3.1定量变量的图形表示,2.3.2分类变量的图形表示,分类变量也可以通过图形直观地描绘出它们各类的数量和所占比例,常用的有条形图、饼图和马赛克图。1.条形图条形图(BarChart)给出分类变量取每个值的频数,如图2-26所示为变量R_ID取值的条形图。,2.饼图通常,饼图(PieChart)可以对分类变量描述其频数取值的比例,对于数值变量,则像直方图那样应先计算各区间取值的频数,再按比例画出。图2-27中给出的是家庭支出分组频数的饼图。要注意的是,如果有太多的分组,那么饼图就不那么好看了。,2.3.2分类变量的图形表示,3.马赛克图马赛克图(MosaicPlot)一般不对单个变量作,而是对两个分类变量来作。这种图的好处是直观显示了两个变量每种取值组合的观测个数和比例,如图2-28所示。,2.3.2分类变量的图形表示,2.4用SAS绘制统计图形,2.4.1用INSIGHT绘制统计图形2.4.2用“分析家”绘制统计图形2.4.3编程绘制统计图2.4.4图形的调整与输出,2.4.1用INSIGHT绘制统计图形,INSIGHT模块可以画出多种统计图形,而且图形清晰、美观。1.绘制直方图选择菜单“Analyze(分析)”“Histogram/BarChart(Y)(直方图/条形图)”,打开“Histogram/BarChart(Y)”对话框。在数据集的变量列表中,选择变量,然后单击“Y”按钮。,单击“Output(输出)”按钮,在打开的对话框中选择“Labels(标签)”选项,如图所示,以便输出的图形显示中文标签名。单击“OK”按钮返回对话框。,2.4.1用INSIGHT绘制统计图形,单击“OK”按钮,即可得到直方图如图2-30左所示。单击图形框左下角处的三角形,在打开的菜单中选择“Values(值)”,即可在图中显示频数值,如图2-30右所示。,2.4.1用INSIGHT绘制统计图形,2.绘制条形图INSIGHT模块对分类变量绘制条形图。首先单击R_Id变量名上边的变量作用按钮,在弹出的菜单中选择“Nominal(列名型)”,如图左所示。选择菜单“Analyze”“Histogram/BarChart(Y)”,打开“Histogram/BarChart(Y)”对话框。在数据集的变量列表中选择变量,然后单击“Y”按钮,如图。,2.4.1用INSIGHT绘制统计图形,单击“Output(输出)”按钮,在打开的对话框中选择“Labels(标签)”选项,单击“OK”按钮返回对话框。单击“OK”按钮,即可得到条形图如图2-34左所示。如果选择Income_freq(见2.2.2节)作为分析变量,则可以得到图2-34右所示的条形图。,2.4.1用INSIGHT绘制统计图形,3.绘制盒形图选择菜单“Analyze”“BoxPlot/MosaicPlot(Y)”,可以对区间型变量作盒形图,对分类型变量作马赛克图。打开“BoxPlot/MosaicPlot(Y)”对话框。在数据表sryzc的变量列表中,选择income变量,然后单击“Y”按钮,income变量被选定,如图左。单击“Output”按钮,在打开的对话框中选择“Labels”选项,取消“YAxisVertical”如图右所示。,2.4.1用INSIGHT绘制统计图形,单击“OK”按钮,即可得到盒形图如图2-36左所示。,2.4.1用INSIGHT绘制统计图形,在“BoxPlot/MosaicPlot(Y)”对话框中选定多个分析变量,可以将多个盒形图画在一个坐标系下,这样便于比较变量的取值情况,如图所示。图形分析:从图中可以看到支出数据在均值两边的分布近似对称,说明低于和高于平均支出的家庭几乎各占一半;收入数据的二分之一分位数在均值的左边,说明大部分人的收入低于平均收入。另外,10号家庭的收入是一个极端值,它不具有代表性。,2.4.1用INSIGHT绘制统计图形,4.绘制马赛克图选择“Analyze(分析)”“BoxPlot/MosaicPlot(Y)(盒形图/马赛克图)”命令,可以对分类变量作马赛克图。下面以2.2.2中修改过的数据集sryzc为例,作出R_Id变量和Income_freq变量的马赛克图。,2.4.1用INSIGHT绘制统计图形,4.绘制马赛克图首先将R_Id变量改为“列名型”(参见图2-33左)。选择菜单“Analyze(分析)”“BoxPlot/MosaicPlot(Y)(盒形图/马赛克图)”,打开“BoxPlot/MosaicPlot(Y)”对话框。在数据集sryzc的变量列表中,选择R_Id变量,然后单击“Y”按钮,R_Id变量被选定,单击“OK”按钮,得到结果如图2-38所示。,2.4.1用INSIGHT绘制统计图形,5.绘制散点图选择菜单“Analyze”“ScatterPlot(YX)”,打开“ScatterPlot(YX)”对话框。在变量列表中,选择Income,单击“Y”按钮,Income变量被选定为Y轴变量,选择Outgo,单击“X”按钮,Outgo变量被选定为X轴变量,如图左所示。单击“OK”按钮,即可得到散点图如图右所示。可以看出收入与支出有一定的线性相关关系。,2.4.1用INSIGHT绘制统计图形,在数据集窗口选中所有1号地区的观测号,图2-40是在散点图中区分两个地区的情况,细点为2号地区,粗点为1号地区。从该图可以看出1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 仓鼠直播间活动方案
- 仙居国庆活动策划方案
- 代理签约活动方案
- 代账公司元旦活动方案
- 代驾师傅感恩节活动方案
- 任务接力活动方案
- 仿真策划活动方案
- 企业五四拓展活动方案
- 企业党支部六月活动方案
- 企业六一活动方案
- 2024年度版权买卖合同标的及交易金额规定3篇
- 2024秋季国开《安全系统工程》期末考试题库
- 金融理财公司客户服务质量手册
- 《动力系统架构介绍》课件
- 2024店铺租赁合同个人商铺租赁合同范本
- S7-1200 PLC编程及应用 第4版习题答案
- GB/T 44669-2024残疾人服务机构服务规范
- 餐饮服务管理制度
- 054.产科危急重症早期识别中国专家共识(2024年版)
- 以“胜任力”为导向的肾脏泌尿整合智慧树知到答案2024年上海市同济医院
- 2024年陕西省西安市中考地理试题卷(含答案逐题解析)
评论
0/150
提交评论