《统计学 》课件-第四章 一个变量的探索统计分析_第1页
《统计学 》课件-第四章 一个变量的探索统计分析_第2页
《统计学 》课件-第四章 一个变量的探索统计分析_第3页
《统计学 》课件-第四章 一个变量的探索统计分析_第4页
《统计学 》课件-第四章 一个变量的探索统计分析_第5页
已阅读5页,还剩118页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章

一个变量的探索统计分析了解一个变量的探索分析的相关概论掌握一个定性变量的探索性分析方法掌握一个数值变量的探索性分析扩展掌握一维时间序列数据探索分析学习目标4.1一个变量的探索性统计分析概述4.1.1、一个变量探索分析统计方法分类4.1.2、一个变量探索的统计分析原理(1)数据的中心位置类型:平均数(加权平均、算术平均)、中位数、众数概念:一组数据中心的测量值中位数中位数(median,me)数据由小到大顺序排列后居中间位置的数值。一组数据x1,x2,….,xn从小到大排成一列后,中位数将数据分成两个相等的部分,小于中位数与大于中位数的数据个数相等。当数据有偶数个时,中位数是中间两个数值的平均。中位数是分位数的一种。中位数计算举例求下列5个老人年龄数据的中位数78,66,84,68,88求下列6个身高数据的中位数155,169,167,185,162,174中位数性质中位数Me的数学性质是数据x离中位数Me距离绝对值之和最小,中位数不受极端值影响,具有稳健性,对于偏态分布数据,如工资,消费,财富等最适合用中位数。4.1一个变量的探索性统计分析概述(2)数据中心位置平均数的计算平均数:高等统计课程讲平均一般是指加权平均。用mean,统计专业软件也用mean.初等统计用的平均用算术平均,用average表示。

平均数加权平均数:

算术平均数:加权平均计算学号期中成绩期末成绩20160036070201600580852016017909520160227080期中占30%,期末占70%,计算平均成绩可以理解为矩阵乘法平均数的数学性质

平均值可以很好的代表所有的数据,因为它是数据重心,具有很好的数学性质。平均的几何意义平均数是重心,如{3,4,8}。权重(1)权数的解释:频率、概率,是影响平均数变动的因素。性质:权重要大于等于0,Wi≥0,权数的确定:主观赋权法:研究者根据其主观价值判断

客观赋权法:根据数据信息赋权重权重之和为1(2)平均的特点平均数的优点:所有的数值参与计算、是独一无二的、偏离平均值之和为0平均数的缺点:受极端值影响。掩盖了个体差异。平均数受极端值影响平均数可能会是一个虚无的数据。但中位数一定是实际存在的数。例如“张村有个张千万,四个邻居穷光蛋,大家一起来平均,人人资产过百万”,这个百万就是一个虚无的数据。当平均值与个人利益挂钩时,有人会故意利用平均数这个缺陷夸大收入,粉饰政绩。平均数是中心代表值,一般认为是对称分布的中心,起到了中位数的作用,常被误认为有一半的数据小于它,其实一般并不是的,现实中偏态分布多于对称分布。所以当新闻中报道居民平均收入增长20%时,可能与你的收入无关系。你是“被增长”的。加权平均(3)加权平均的推广应用加权平均不仅是计算平均数,它在社会经济领域有着非常广泛的应用。例:企业产品价格指数:P价格,q产量,0代表基期,1代表报告期消费价格指数:平均数作用P45代表一般水平,代表全体数据。用于比较。有可比性。用于建立变量间的模型关系作为参照标准。参照系。样本平均是总体平均的点估计①平均数有代表性性意义时才计算、能比较的变量才需要平均②注意时间序列数据计算平均要有意义才行中心位置应用注意事项:不宜平均的数据将国家人口、国土面积平均是无意义的。不宜平均2011年的能源生产总量为31.8亿吨,说明2011的生产能力已经很大了,若将2001-2011年能源生产总量加总求出平均产量=22.8亿吨,22.8亿吨已经不能代表某一具体年份的值,因此计算出的平均值无任何意义,不是任何一年的值,主要是不能代表这些数据。③众数MODE是出现频数最多的数。也属于中心数据的一类,一般不用于统计分析。平均数与中位数的比较有人曾说中位数只用到了一个数值,而平均数用到了所有的数据,所以平均数优于中位数,其实这种说法是非常错误的,以讹传讹。中位数看起来只用到了中间一个数,但是它是在排序后找到的中间数即中位数,排序过程就用到了所有的数据,而且比平均数用到的次数更多。所以中位数比平均数要好,信息量要多于平均数,至少不差。为中位数正名目前社会经济统计中没有中位数的地位,主要原因是统计理论体系抄袭数学,中位数在数学中没有地位。为什么中位数在数学中没有地位?一是因为数学多假设数据服从正态分布,这时均值与中位数是相等的;二是因为中位数没有规范的数学公式表示,用语言表示为排序后居中间位置的数,无法作为数学分析工具;三是受计算工具影响,在手工时代数据排序工作量比计算平均数要复杂多;中位数推导出的中位绝对离差用绝对值表示,数学推导时对绝对值不易处理,要讨论其正负性。目前在计算机时代,中位数已经很容易计算,所以有中位数回归模型,非参数统计的中位数检验等。应该是时候为中位数正名了。计算器计算平均数电脑:“附件”中计算器EXCEL函数计算中心位置EXCEL函数计算中心位置中位数average平均数median众数mode计算举例地区城镇居民农村居民乌鲁木齐市3160415007克拉玛依市33430

吐鲁番市2586910322哈密地区2797512951昌吉回族自治州2585615633塔城地区2509713583阿勒泰地区234789377博尔塔拉蒙古自治州2477513127巴音郭楞蒙古自治州2652314154阿克苏地区239879831克孜勒苏柯尔克孜自治州224655434喀什地区206627201和田地区2254963462015年新疆各地区城乡居民人均可支配收入(元)3.数据的离散程度概念:测度数据分散程度测量值。也称变异性度量。意义:统计学认为数据的变化才有信息,不变化的数据就没有

信息分类:方差(VAR),标准差(SD),离散系数(CV),内距

(IQR),中位绝对离散(MAD),平均绝对离差

(MAD),极差(range)(1)方差与标准差方差:标准差:目前专业统计软件均用样本标准差。统计学多用标准差,数学多用方差。标准差:标准差反映了数据的分散程度,标准差小,数据集中在平均数周围,标准差大,数据分散远离平均值,标准差反映了数据的分散程度影响分布的形状,所以也称为形状参数。

标准差的统计意义是尺度,是度量离散程度—--距离的尺度。用于度量变量X的变化程度(variability)。因此本书引入了统计距离。平均数受极端值影响,而标准差的计算公式中用到平均数,所以标准差受极端值的影响也很大,甚至于其影响要大于平均数。方差与标准差计算函数EXCEL计算函数总体population方差公式分母除N,用VAR.P样本sample方差公式分母除N-1,用VAR.S总体标准差:STDEV.P样本标准差:STDEV.S标准差计算举例例计算平均年龄和标准差66,68,79,83,88若有一个人年龄115.比较计算异常值的影响标准误差:标准误差是变量x平均数的标准差,不是变量x的标准差,标准误差也是尺度,用于度量平均值的变化。标准误差四分位距分位数:P分位数表示排序后排在第P%位置上的数,最小

值是0%分位数,最大值是100%分位数,50%分

位数是中位数。四分位:数据从小到大排序后分成四份,每份占25%,第一

个四分数Q1是位于25%位置上的数,也称下四分位

数Q1(lowerquartiles),第三个四分位数Q3,是

位于75%位置上的数,称上四分位数Q3(upperquartiles)四分位距(interquartilerange,IQR)包含了50%的数据。四分位差(quartiledeviation):是半个四分位距四分位距(interquartilerange,IQR)四分位差(quartiledeviation)四分位数计算函数QUARTILE.INC例:已知小组数学成绩:82778690806571946879Q3=85Q1=72.5=85-72.5=12.5=12.5/2=6.25取0为最小值,取4为最大值取2为中位数取1为Q1中位绝对离差MAD公式内部的中位数是n个观测值的中位数,外部的中位数是n个观测值与中位数绝对离差的中位数。正态分布时,标准误不同离散程度测量值的关系分布形状与中心位置的关系对称右偏态左偏态中位数=平均中位数小于平均中位数大于平均异常值识别图五数概括法①最小值,②第1四分位数Q1,③中位数Me,④第3四分位数Q3,⑤最大值4.2.1、一个定性变量探索分析背景(1)定性变量的分类字符型变量也称定性变量,主要可以分为以下四类情况:分类型字符变量:自然分类与人为分类。有序型字符变量:自然有序与人为有序。人为分类是研究者自己决定的或设计的定性变量的分类。自然分类变量只适宜作自变量,作原因变量,解释变量,不适宜作因变量、结果变量。4.2一个定性变量的探索性分析方法①、自然分类型例:分析地域划分:南方与北方;沿海与内地;东部、中部、西部省份的分布。②、人为分类型例:统计成绩分为及格与不及格,需要分析及格与不及格的比例。分析企业注册类型:国有与非国有。③、自然有序型例:按海拔划分:例:按纬度划分:低纬度地球0°--30°,中纬度地区30°--60°,高纬度地区60°--90°例:④、人为有序型例:研究城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查300户,问题是:您对您家庭目前的住房状况是否满意?回答的类别分别为:非常不满意、不满意、一般、满意、非常满意。4.2.2、字符型数据代码信息提取多数字符型数据代码在代码编制时有一定的规则,包含一定的信息,如电话号码的编号内就有地区号,邮政编码也有代码信息,身份证号可视为字符型数据,其中也有代码信息需要提取。提取字符型数值中的信息是一项重要的工作,可以用代码信息进行统计分析。P51身份证信息提取如身份证号到EXCEL表B2位置如取省代码是左数前2位,用”=MID(B2,1,2)”,或用“=LEFT(B2,2)”其值是65代表新疆,出生年月日是左起7-14位,用“=MID(B2,7,8)”取出出生年月日是20141204性别代码,性别=MID(B2,17,1)奇男偶女模运算MOD,MOD(MID(B2,17,1)),0为女,1为男转换公式=IF(MOD(mid(B2,17,1),2)=0,"女","男")41032219920215291052222519761217613244172319940716631754212819791104234246902619831207960515020419800830998137030019750615373635042719860720869145020219870120121342108319881029020335062319921214604361010219761027548722068119870103456032010319920411383342011419780825819922032319930425218X350627197611035136230302198604059715身份证号码信息分解例:提取员工号码信息。该花名册中的员工号前两位为

部门代码编码,后三位为相应部门内部的员工顺序

编号。分解员工号码信息。数据示例如表4-3所示员工号性别学历技术职称11001男初中初级二11002女大专初级一11003女大专初级二11004男中专高中初级一11005女小学以下初级一11006男初中初级二表4-3单位员工花名册4.2一个定性变量的探索性分析方法方法1:利用excel提供的字符函数提取信息。提取部门编码和部门内部员工编码。Excel中有三个字符提取函数:left(),right(),mid()。(1)Left(text,num_chars):text表示待提取的字符串,num_chars表示要提取的位数,该函数从原字符串的左边第一位开始提取。(2)right(text,num_chars):text表示待提取的字符串,num_chars表示要提取的位数,该函数从原字符串的右边第一位开始提取。4.2一个定性变量的探索性分析方法具体操作:在”员工号“的右侧插入一列,在B2单元格中输入”=LEFT(A2,2)“,回车后就会提取到第一个样本的部门编号;然后鼠标右键双击B2单元格右下角的黑方格点,就会自动提取其他的样本的部门编号了。操作完成后结果示例如下表所示。员工号部门编号部门内员工编号性别学历技术职称1100111001男初中初级二1100211002女大专初级一1100311003女大专初级二1100411004男中专高中初级一1100511005女小学以下初级一1100611006男初中初级二4.2一个定性变量的探索性分析方法方法1:利用excel提供的字符函数提取信息。(3)mid(text,start_num,num_chars):text表示待提取的字符串,start_num表示从字符串的左起第几位开始提取,num_chars表示要提取的位数。以left()函数为例,具体操作如下图所示。4.2一个定性变量的探索性分析方法方法1:利用excel提供的字符函数提取信息。提取结果如下:员工号部门编号部门内员工编号性别学历技术职称1100111001男初中初级二1100211002女大专初级一1100311003女大专初级二1100411004男中专高中初级一1100511005女小学以下初级一1100611006男初中初级二4.2一个定性变量的探索性分析方法※※方法2:用R软件提取字符中的信息命令语句:d1<-read.csv("SJ4-1.csv")d1$部门编号<-substr(d1$员工号,1,2)#读取字符函数d1$部门内员工编号<-substr(d1$员工号,3,5)d1字符提取结果与方法1结果相同。4.2.3、一个字符型变量的频数与频率相关概念:(1)频数分布:在统计分组的基础上,将数据中所有个体单位按某一字符变量进行归类排列,各组所出现的单位数即频数或次数,称为频数分布,或次数分布。(2)频率:反映了各组频数的相对大小,它是各组频数与总和之比。(3)统计表:统计调查所得来的原始资料,经过汇总整理,把这些数据按一定的顺序排列在表格中,就形成统计表。4.2.3一个定性变量的探索性分析方法字符型变量分析应用举例例4.1为研究不同类型手机的市场销售情况,一家市场调查公司对随机抽取的一家手机专卖店进行调查。下表是调查员对随机观察的50名顾客购买的手机类型进行了记录。将所记录的手机类型数据进行整理,生成频率分布表观察手机类型的分布状况,并进行描述性分析。4.2一个定性变量的探索性分析方法相关数据:顾客购买手机的类型数据手机类型手机类型手机类型iphoneiphone其他华为华为iphone三星三星三星三星iphone其他iphone华为华为三星华为其他iphoneiphoneiphone华为iphone其他其他华为三星iphone三星iphone三星华为华为iphoneiphoneiphoneiphone三星其他华为iphone华为iphoneiphone三星iphone其他三星三星三星4.2一个定性变量的探索性分析方法

分类数据本质上是对事物的一种分类,因此在整理时首先列出所分的类别,然后计算出每一类别下的频数、频率或比例等等,即可形成频率分布表。根据需要选择适当的图形进行展示,以便对数据的或事物的特征有一个初步的了解。下面分别介绍采用EXCEL、R软件生成如上表字符型数据的频数分布图表的具体方法。4.2一个定性变量的探索性分析方法方法1:“透视表法”首先在EXCEL中输入顾客购买手机的类型数据,①在A2:A51输入50个手机品牌观测值。②为不同类型的手机指定一个数字代码,代码编排如下:1:iPhone2:三星3:华为4:其他③在B2到B51中输入相应的数字代码。(在一个新sheet中用替换法将文字替换成代码数字,为了用frequency函数)④在C2:C5分别输入要汇总的类名称iphone、三星、华为、其他手机类型,在D2:D5分别输入对应的1、2、3、4等手

机数字代码。4.2一个定性变量的探索性分析方法输入数据后,具体操作如下:点击“插入”—“数据透视表”,在弹出的创建数据透视表对话框中将存放的数据A1:A51放入“选择一个表或区域”选项,在选择放置数据透视表的位置选择“新工作表”,点击“确定”,在弹出的数据透视表字段列表对话框中,将“手机类型”拖至左边的“行标签”区域,将“手机类型”拖至“数值”区域,就可以得到以下手机类型频数分布表:手机类型汇总频率(%)iphone1938.00华为1122.00其他714.00三星1326.00总计501004.2一个定性变量的探索性分析方法方法2:EXCEL函数法①函数countifcountif函数的结果随数据动态变化,用来求满足区域内指定条件的计数函数。函数语法为:countif(range,criteria),range表示要计算其中非空单元格数目的区域,criteria表示统计条件,将统计的手机类型iphone、华为、其他、三星依次输入excel工作表区域C2:C5,在“iphone”C2旁边单元格E2中输入公式=countif(A2:A51,"iphone"),其中A2:A51表示数据所在的区域,"iphone"表示所汇总的手机为iphone,回车即可得到使用iphone的顾客数量,同理,还可以得到使用华为、其他、三星的顾客数量,最后将结果整理为正式的手机类型频数分布表。4.2一个定性变量的探索性分析方法②函数frequencyFrequency函数适用于数字代码型数据,能用一条数组公式统计出各个数值段的频数分布。

函数语法为:FREQENCY(数据区域,用于设置区间分隔点的数组),将统计的数据放在区域A2:A51,由于Frequency统计对象为数值型,前面已经将不同类型的手机使用数字进行编码如下:1=“iPhone”,2=“三星”,3=“华为”,4=“其他”。问题转化为统计出A2:A51区域内数值分别为1、2、3、4的频数分布:4.2一个定性变量的探索性分析方法在空白区域D2:D5内输入分组:1、2、3、4。用鼠标选择区域F2至F5,在编辑栏内输入“=FreQuency(A2:A51,D2:D5)”。同时按“Crtl+Shift+Enter”组合键产生数组。注意“{}”不能手工键入,必须按下“Crtl+Shift+Enter”组合键由系统自动产生。完成后F2至F5将显示如图所示的分数分布情况。结果:手机类型代码定分组上线频数频率(%)iphone111938.00华为221122.00三星331326.00其他44714.004.2一个定性变量的探索性分析方法方法3:利用EXCEL数据分析选项操作步骤:注意:如果“数据分析”工具不在“工具”菜单中可采用以下方法装入。单击“工具”下拉菜单中的选项“加载宏”,出现“加载宏”对话框。在“当前加载宏”的下拉列表中,找到“分析数据库”选项。单击它前面的复选框,出现对号“√”,确定即可。选择“工具”下拉菜单中的“数据分析”选项,出现该对话框。4.2一个定性变量的探索性分析方法操作步骤:在“数据分析”对话框中选择“直方图”。出现直方图对话框时,在“输入区域”方框中输入数据所在单元格区域A2:A51。在“接受区域”方框中输入分组数据上限所在

单元格区域D2:D5。在“输出区域”方框中输入F3,表示输出区域

的起点。在输出选项中,选择“输出区域”、“累计百分比”和“图表输出”。4.2一个定性变量的探索性分析方法操作步骤:点击确定即可得到如下表的手机类型频数分布表结果:手机类型频数频率(%)累积

%iphone1938.0038.00华为1122.0060.00三星1326.0086.00其他714.00100.00注意:上表中,为了便于阅读,已经将频数分布表中的有“接受”字样的单元格,输入“手机类型”代替;同样,把数值代码1、2、3、4分别用他们对应的品牌名称替换。例如,“1”替换为“iPhone”,“2”替换为“三星”,“3”替换为“华为”,“4”替换为“其他”等。如果想修改图表格式,可直接双击该处,在出现的对话框中作相应的修改。4.2个定性变量的探索性分析方法※※方法4:用R软件制作频数分布表首先将EXCEL中如表4-5的原始数据整理成一列,再另存为CSV格式的文件,再利用以下的R程序制作频数分布表命令:shouji<-read.csv("SJ4-2.csv")#读取数据attach(shouji)#绑定数据集shoujitable(leixing)#手机类型的频数分布rg<-table(leixing)/length(leixing)#手机类型中各类别占比rgmytable<-with(shouji,table(leixing))#频数分布mytablemytable1<-prop.table(mytable)#频率分布addmargins(mytable)#添加求和项4.2一个定性变量的探索性分析方法值得注意的是,这里只能够得到iPhone、三星、华为、其他对应的频数和所占比例计算结果,需要进一步将所得的结果整理成规范的频数分布表。4.2一个定性变量的探索性分析方法4.2.4、一个字符型变量数据的可视化用EXCEL软件绘制分布饼图饼图(piechart)是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组数据占全部数据的比例。步骤:(1)打开一张已制作好的不同类型手机的频率

分布表,鼠标选择数据在表格区域。

(2)点击“插入”里“图表”中的“饼图”,然后选择

“三维饼图”,然后右击图片“添加数据标签”,然

后右击“设置数据标签格式”4.2一个定性变量的探索性分析方法步骤:(3)

,在弹出的对话框中选择“类别名称”和“百

分比”,点击确定即可得到如下图所示的饼图。不同类型手机构成的饼图4.2一个定性变量的探索性分析方法用EXCEL绘条形图条形图(barchart)是用宽度相同的条形的高度或长短来表示数据多少的图形。条形图可以横置或纵置,纵置时也称为柱形图(columnchart)。步骤:(1)打开一张已制作好的不同类型手机的频率

分布表,选择数据所在表格区域

(2)选择“插入”选项卡,点击柱形图选项,下拉菜

单中选择“条形图”4.2一个定性变量的探索性分析方法步骤:(3)右击图片“添加数据标签”,点击确定即可得

到如下图所示的条形图。不同类型手机条形图4.2一个定性变量的探索性分析方法用EXCEL绘柱形图步骤:第一步:打开一张已制作好的不同类型手机的频率

分布表,选择数据区域,根据“频数”降

序排列。(数据—排序)第二步:计算累计百分比。第三步:选择“手机类型”、“频数”、“累积百

分比”的数据,插入柱形图(插入—柱形

图—二维柱形图的第一个图)第四步:选择“累积百分比”柱形图,右击“设计数据系列格式”,在“系列选项”中选择“次坐标轴”。4.2一个定性变量的探索性分析方法第五步:选择“累积百分比”柱形图,右击“更改系列图

表类型”,选择“折线图”,点击确定,即可得

到如下图所示的条形图。不同类型手机频率的柱形图4.2一个定性变量的探索性分析方法注意:1、分类中的“其他”很重要。在对所要调查的手机类型进行分类时要特别注意,若几种不同类型的手机得到的数据很少,所占比重较小,我们可以对其进行合并,用“其他”来表示。2、在制作表格时要用统一规范的三线式表格,这样看起来清楚、醒目。4.2一个定性变量的探索性分析方法3、如果用图形来显示频率分布,就会更形象和直观,一张好的统计表往往能胜过冗长的文字表述。统计图的类型有很多,可以绘制二维平面图,也可以绘制三维立体图,可以根据需要来选择合适的图表类型。对于字符型变量首先选择柱形图,其次是饼图,在制作柱形图时要注意条形图表的类型、图例的位置、坐标轴字符数字的大小。尽量不用网格线、背景色等;在制作饼图时不要将图例单独放,要将图例和数据都放在图形中,更方便直观。在作图时要尽量做的美观、形象,能够清晰的看出所表达的内容。4.2一个定性变量的探索性分析方法4、在绘制饼图时,若数据的类型超过5类,那么就不适合用饼图。同时各类数据之间的差别较大时才适合绘制饼图,若各类数据之间差别不大,则绘制饼图就不再适合,视角不宜进行比较。5、在对数据进行分析时,首先要观察图表中的数据,可以对数据分布的特征有一个大致的了解,通过制作频率分布表我们可以看到每个类别的数据的频率,对这些频率数据我们可以进行简单的描述,再对数据进行比较分析。6、结果分析时先总量,再结构,先说明频率最大的。4.2一个定性变量的探索性分析方法7、样本可以不要频数,但一定要有频率。频率与概率在数理统计中是清楚的,频率不等于概率,只有当样本无限增多时,频率趋近于概率。数学中的概率是一个理论值,是未知的,客观存在的,满足公理条件的,也可以是无真实数据的理论假设。而从统计学的角度得到的只能是频率,统计要用数据说话,就要用频率表述为概率才可以容易理解和应用。表述为任意抽到一个样本购买某个品牌的概率为多少。而现实中“喜欢某个品牌的概率“也是时刻发生变化的,调查时刻的概率与此刻发布数据时的概率已有变化,用调查的频率当总体的概率是最合适的方法。4.2一个定性变量的探索性分析方法8、样本频率是总体概率的点估计,是总体比例的点估计,若已知总体数N,可以计算各组数的频数估计数。4.3一个数值变量的探索性分析方法4.3.1、一个数值变量探索背景与统计分析方法(1)背景:一个数值型变量分为两类,一类是个体变量,另一类是集合变量。集合变量又分为集合总量(绝对量),集合相对量,集合平均量。数据来源于个体,具有可比性,可加性。个体变量举例:某班级学生考试成绩分析单位员工的工资分析某舞蹈队年龄和身高分析集体变量举例:某省各校大学生的就业率分析全国绿化面积分析各省粮食总产量与单产分析一个数值变量的探索性分析方法(2)一个数值变量探索分析方法探索分析方法分类图一个数值变量的探索性分析方法2、一个数值变量的数据概括分析例:对各省人均消费水平进行探索。变量是集合变量,人均消费属于平均指标。(1)用EXCEL软件进行初步探索分析,可以进行数据概括分析,计算平均值,中位数,标准差,方差,Q1,Q3,最大值,最小值等。相关数据为下表所示。一个数值变量的探索性分析方法P60数据:各省居民人均消费,本例数据文件名为SJ4-3.xlsx。一个数值变量的探索性分析方法方法1:EXCEL统计函数步骤:(1)将数据复制到EXCEL中,设两个数据变量的位置B1:

c32(2)选择放平均值计算结果的位置,如B34

(3)在工具栏内的“公式”中选择“插入函数”,在选择类别

中选“统计”,计算平均值用average,输入数据范围

B2:B324.3一个数值变量的探索性分析方法函数操作示意图:4.3一个数值变量的探索性分析方法方法2:EXCEL的“数据分析”工具在“数据”中选择“数据分析”,再选择“描述统计”。如图4.3一个数值变量的探索性分析方法EXCEL数据分析功能描述统计操作示意图4.3一个数值变量的探索性分析方法计算结果:肉禽消费

衣着消费

平均1057.896平均1628.497标准误差58.129标准误差65.12185中位数1045.05中位数1673.24众数#N/A众数#N/A标准差323.6486标准差362.5831方差104748.4方差131466.5峰度0.555038峰度0.618788偏度0.750938偏度0.185423区域1415.13区域1733.99最小值511.25最小值780.1最大值1926.38最大值2514.09求和32794.78求和50483.41观测数31观测数31置信度(95.0%)118.7152置信度(95.0%)132.99664.3一个数值变量的探索性分析方法数值型变量探索分析结果一般规范表达的格式两端不封口。三线表。中间的横线可以不要4.3一个数值变量的探索性分析方法分析结果:数据概括均值中位数标准差MAD四分位间距肉禽消费1057.8961045.05323.6486317.3061346.385衣着消费1628.4971673.24362.5831313.3327355.47规范统计表要求,表中内容用五号宋体,表格两端不封口,画三线表,中间不画横线。要有表的标题和表编号,用小五号字注明数据来源。数据居中,小数点对齐,一般保留两位小数。4.3.3一个数值变量的探索性分析方法一个数值型变量的数据可视化一个数值型变量的可视化方法:直方图,箱线图,茎叶图,分布密度图,直方图加密度线混合图,QQ图。例:参照文件SJ4-3.xlsx对衣着消费和肉食消费的数据进行统计可视化图分析。(1)肉食消费的直方图、箱线图、茎叶图程序与结果如下所示4.4一个数值数量探索扩展

4.4.1.总体参数点估计与区间概率用样本数据估计总体的平均与比例(1)由直方图计算任意区间的概率(频率)。由于直方图不需要假设数据的分布是否是正态分布,可计算任何区间频率。可以根据样本数据分布计算任意两点a,b间的概率4.4一个数值数量探索扩展经验法则示意图:4.4一个数值数量探索扩展(3)平均值的置信区间上限=平均数+置信度下限=平均数-置信度肉禽消费

衣着消费

平均1057.896平均1628.497标准误差58.129标准误差65.12185中位数1045.05中位数1673.24众数#N/A众数#N/A标准差323.6486标准差362.5831方差104748.4方差131466.5峰度0.555038峰度0.618788偏度0.750938偏度0.185423区域1415.13区域1733.99最小值511.25最小值780.1最大值1926.38最大值2514.09求和32794.78求和50483.41观测数31观测数31置信度(95.0%)118.7152置信度(95.0%)132.9966(1)中心位置的稳健性计算:截尾平均(trimmean),中位数EXCEL有截尾平均函数(trimmean)4.4一个数值数量探索扩展方法2:EXCEL软件截尾平均计算两端共去掉20%比例直接写0.2=TRIMMEAN(A2:A32,0.2)=44129.21824.4一个数值数量探索扩展异常值识别4.4一个数值数量探索扩展4.4.3.统计距离(1)统计距离概念的引入。距离分析始终是最重要的分析方法之一,人们一般使用的是数学距离,也称为欧氏距离(EuclideanDistance),但当数学距离相同时,人们直觉和经验告诉它们的感知距离是不相同的,这个感知距离就是统计距离。例:4.4一个数值数量探索扩展解释:表4.16中数学距离是一样的,都是3,但经验感知距离是不同的,收入的变化距离最小,考试分数距离其次,收入与考试成绩人们认为几乎没有多大变化,感知变化最大的距离是体温,从正常到高烧。为什么会有计算的数学距离与感知距离不同?因为经验感知距离无形中用到了统计距离。其实质是统计距离不同。4.4一个数值数量探索扩展(2)一维统计距离定义一维统计距离:点X1到X2的统计距离,S为标准差,是用标准差S度量数学距离(欧氏距离)4.4一个数值数量探索扩展距离的三个公理:①到自己的距离为0,D(A,A)=0;②两点间来回的距离相等,D(A,B)=D(B,A);③两边之和要大于第三边。D(A,C)<D(A,B)+D(B,C)统计距离满足距离的三个公理。数学距离的缺点是受计量单位的影响,统计距离是一个相对数;是一个正数;无计量单位;4.4一个数值数量探索扩展(3)多维统计距离定义当协方差矩阵S为对角矩阵时就是多维统计距离马氏距离,设X1,X2是表维度的向量,S是协方差矩阵,则马氏距离平方:4.4一个数值数量探索扩展(4)统计距离的应用举例标准化当不考虑绝对值时标准化是统计距离的一种;标准化是变量X距离均值μ的统计距离,是特例。标准化(也称标准分数):标准化后均值为0,标准差为14.4一个数值数量探索扩展当标准差为1时统计距离就是数学距离。标准差是特殊的统计距离,统计距离可以化成标准化得分的差4.4一个数值数量探索扩展正态分布函数应用正态分布(Normaldistribution)公式的指数部分就是统计距离的平方

4.4一个数值数量探索扩展均值比较的T检验公式,分子是数学距离,用分母标准误差计算得到统计距离。统计距离与数据距离比较用标准差计算得到的统计距离进行比较,就可以说明数学距离相等而感觉距离不同的原因是由于统计距离差异很大。4.4一个数值数量探索扩展4.统计分组统计分组是将数据或个体划分为若干有专业分析意义的组,达到组内个体差异小且具有一些相同的性质,组间个体差异大,有明

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论