ch03描述统计学:数值方法课件_第1页
ch03描述统计学:数值方法课件_第2页
ch03描述统计学:数值方法课件_第3页
ch03描述统计学:数值方法课件_第4页
ch03描述统计学:数值方法课件_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章描述统计学:数值方法数据分布的特征的测度集中趋势(位置)离中趋势

(分散程度)偏态和峰度(形状)数据的特征和测度分布的形状集中趋势离散程度位置的度量(集中趋势)测度集中趋势就是寻找数据一般水平的代表值或中心值,主要有众数、中位数、均值不同类型的数据用不同的集中趋势测度值,选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据位置的度量(反映集中趋势)平均数中位数众数百分位数四分位数如果数据来自样本,则计算出来的度量成为样本统计量(samplestatistics)如果数据来自总体,则计算出来的这些度量成为总体参数(

populationparameters)在统计推断中,样本统计量被成为相应总体参数的点估计量(pointestimator)平均数(mean)

截尾平均法(trimmed

mean)

样本观测值的个数n

个观测值的数值之和总体平均数m总体观测值的

个数N个观测值的

数值之和年份人均GDP2000954.552220011047.48220021141.76420031280.597200414980932006208229420083441.22120093800.47520104514.9412011557464420136991.85420147593.882中国人均GDP数据(以当年美元价格计算)2014年人均GDP排名CountryName美元

Qatar97519Norway97363MacaoSAR,China96038Australia61887Denmark60634Sweden58887Singapore56287UnitedStates54629Ireland53314Iceland52111Netherlands51590Austria51127Canada50271Finland49541Germany47627Belgium47517UnitedKingdom45603数据来源WorldDevelopmentIndicator(WorldBank)问题:不同班级之间学生的生活开支水平的比较是否适合采用“均值”?为什么?中位数(median)数据按照顺序进行排列,处于中间位置的数据叫做中位数将数据按照升序排列。(a)对于奇数个观测值,中位数就是中间的数值;(b)对于偶数个观测值,中位数就是中间两个数值的平均数。Me50%50%中位数的使用中位数作为位置的度量,不受极端值的影响,经常用在年收入及资产价值数据的报告中,因为少数异常大的收入和资产价值将会夸大平均数。在这种情况下,中位数就是对中心位置更好的度量。这一方法不适合名义数据,适合于顺序数据、间隔数据和比率数据。例子112141926271827

Foranoddnumberofobservations:

inascendingorder261827121427197observationsthemedianisthemiddlevalue.Median=19例子212141926271827

Foranevennumberofobservations:

inascendingorder261827121427308observationsthemedianistheaverageofthemiddletwovalues.Median=(19+26)/2=22.51930例子3:顺序数据的中位数甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)累计频数

非常不满意不满意一般满意非常满意2410893453024132225270300合计300—中位数的位置为:

300/2=150从累计频数看,中位数的在“一般”这一组别中。因此:

Me=一般众数(mode)众数就是数据集中出现次数最多的数值。有时出现次数最多的数值可能有两个或者更多。如果数据中刚好存在有两个众数,称数据集是双众数的数据集;如果超过两个众数,称数据集为多众数数据集。不会受到异常值的影响;可以用于分类型数据也可以用于数量型数据。注意:如果数据集中存在双众数或多众数的情形,Excel中的mode函数只会识别出其中的一个。例子:公寓月租金450出现的次数最多(7次)所以,Mode=450注:数据按照升序排列。18这里的数据为定序数据。变量为“回答类别”。甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即

Mo=不满意甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)

非常不满意不满意一般满意非常满意24108934530836311510合计300100.0例子2:住房状况评价用EXCEL计算平均数、中位数和众数百分位数(percentile)第p百分位数下列条件的一个数值:至少有p%的观测值小于或者等于该值;至少有(100-p)%的观测值大于或等于该值。用于顺序数据、数值型数据,不能用于类别数据。不受异常值影响计算第p百分位数第一步:把数据按照升序排列第二步:计算指数i

p是所求的百分位数;n是观察值的个数。第三步:(1)若i不是整数,向上取整,大于i下一个整数表示就是第p百分数所处的位置。(2)若i是整数,则第p百分位数是第i项和第i+1项数据的平均数。i=(p/100)n例子:80百分位数i=(p/100)n=(80/100)70=56Averagingthe56thand57thdatavalues:80thPercentile=(535+549)/2=542Note:Dataisinascendingorder.用EXCEL计算百分位数ABCD1Apart-mentMonthlyRent($)80thPercentile21525=PERCENTILE.INC(B2:B71,.8)

32440

43450

5461565480

数据不需要事先进行排序处理80百分位数四分位数四分位数是一个特殊的百分位数。人们经常把数据划分成四个部分,每一部分大约包含25%的观测值。Q1=第一四分位数或是第25百分位数Q2=第二四分位数或是第50百分位数Q3=第三四分位数或是第75百分位数用EXCEL计算四分位数ABCD1Apart-mentMonthlyRent($)ThirdQuartile21525=QUARTILE.INC(B2:B71,3)

32440

43450

5461565480第三四分位数用EXCEL计算月薪的排位和百分数变异程度的度量(离散程度)极差四分位间距方差标准差标准差系数除了位置变量,人们往往还需要考虑变异程度及离散程度的度量。例如,可以用离散程度来衡量可靠程度、风险等。极差(range)极差=最大值-最小值是一种最简单的变异程度的度量。极易受到异常值的影响,因此少用。四分位数间距(Interquartilerange)四分位数间距,也成内距,用来衡量数据的离散程度IQR=Q3-Q1四分位数间距是中间的50%数据的极差。不受到异常值的影响。可以用来反映中位数的代表性。方差(variance)

方差的计算样本的方差总体的方差样本方差是总体方差的点估计量标准差(standarddeviation)标准差,也叫均方差,是方差的正平方根。标准差的单位和原数据单位是一致的。样本标准差是总体标准差的点估计量样本标准差总体标准差标准差系数标准差相对平均数大小的描述统计量称之为标准差系数(coefficientofvariation)标准差是对变异程度的相对度量,它衡量标准差相对于平均数的大小。样本标准差总体标准差用EXCEL计算方差、标准差、标准差系数注:后面的数据没有完全显示出来ABCDE1Apart-mentMonthlyRent($)21525Mean=AVERAGE(B2:B71)32440Median=MEDIAN(B2:B71)43450Mode=MODE.SNGL(B2:B71)54615Variance=VAR.S(B2:B71)65480Std.Dev.=STDEV.S(B2:B71)76510C.V.=E6/E2*100用EXCEL的描述统计工具分布形态、相对位置的度量以及异常值的检测分布形态Z分数切比雪夫定理经验法则异常值的检测分布形态偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。对称分布(无偏)RelativeFrequency.05.10.15.20.25.30.350

Skewness=0偏度值为零均值和中位数是相等的RelativeFrequency.05.10.15.20.25.30.350左偏

Skewness=-.31偏度是负均值通常比中位数的值小右偏RelativeFrequency.05.10.15.20.25.30.350Skewness=.31偏度值为正均值通常要大于中位数themedian.z分数z分数(z-score),也叫标准分数(standardscore),也叫作标准化值(standardizedvalue),它等于一个数与平均数的差再除以标准差的过程。表示一个数据在数据集中的相对位置。z分数值为负数时,说明数据比均值小,反之则大,若等于零,数据与均值相等。切比雪夫定理与平均数的距离在z个标准差之内的数据值所占比率至少为

(1-1/z2)

,其中z是大于1的任意实数。

至少有

个数据值与平均值的距离在75%z=2个标准差之内

至少有个数据值与平均值的距离在89%z=3个标准差之内

至少有

个数据值与平均值的距离在94%z=4个标准差之内经验法则切比雪夫定理的优点是它适合任何数据集,而不论其数据分布的形状如何。如果分布是对称的峰形或钟形分布,可以运用经验法则。对于有钟形分布数据:大约68%的数据值与平均数的距离在一个标准差之内大约95%的数据值与平均数的距离在两个标准差之内几乎所有的数据值与平均数的距离在三个标准差之内经验法则xm–3sm–1sm–2sm+1sm+2sm+3sm68.26%95.44%99.72%异常值的检测异常值(outliers),数值异常大或是异常小的。通常把z分数值小于-3,或大于3的数值视为异常值。在做数据分析之前,检测异常值是很有必要的。出现异常值,可能:数据登记错误数据本身可能不属于数据集数据没有错误,属于数据集探索性数据分析五数概括法箱形图(boxplot)五数概括法(Five-numbersummary)五数概括法即用下面的五个数来概括数据:最小值;第1四分位数(Q1);中位数(Q2);第3四分位数(Q3);最大值。箱形图(boxplot)箱形图是基于五数概括法的数据的一个图形汇总。箱体的边界表示第一个四分位数和第三个四分位数。箱体上中位数的位置画一条垂线。利用四分位数间距IQR=Q3-Q1,来设定界限的位置。界限位于Q1左侧的1.5个IQR处和Q3右侧1.5个IQR处。界限外的数据被认为异常值。用*表示。从箱体的边界出发画虚线,虚线的端点是原数据中处于界限内的最大值和最小值。这里实际上给出了另外一种找异常值的做法。这种做法和z分数法找出来的结果不一定一样。BoxPlotWhiskers(dashedlines)aredrawnfromtheendsoftheboxtothesmallestandlargestdatavaluesinsidethelimits.400425450475500525550575600625Smallestvalueinsidelimits=425Largestvalueinsidelimits=615

Example:ApartmentRents例子8门课程考试成绩的箱线图两个变量间关系的度量协方差相关系数协方差

协方差方差是用来度量单个变量“自身变异”大小的总体参数,方差越大,该变量的变异越大;协方差是用来度量两个变量之间“协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对值越大,两个变量相互影响越大。

协方差的解释ⅣⅢⅠⅡ协方差的解释协方差是两变量线性关系的度量;如果协方差的值是正的,说明两个变量之间存在正的线性关系;如果协方差的值是负的,说明两个变量之间存在负的线性关系;如果协方差的值为零,说明两个变量之间不存在线性关系;协方差的值的大小与两个变量的计量单位有关。相关系数皮尔逊积矩相关系数(皮尔逊相关系数)定义如下:样本的相关系数总体的相关系数样本的相关系数可以作为总体的相关系数的点估计值。相关系数相关系数r的取值范围是-1≤r≤1r的正负号表明两变量间变化的方向;r>0表示正相关,r<0表示负相关,r=0表示零相关。|r|越接近于1,表明两变量相关程度越高,它们之间的关系越密切。

|r|的取值与相关程度|r|的取值范围|r|的意义0.00-0.19极低相关0.20-0.39低度相关0.40-0.69中度相关0.70-0.89高度相关0.90-1.00极高相关特别说明两变量间存在相关,仅意味着变量间有关联,并不一定是因果关系。(统计学实际上无法证明因果关系。)观测值个数越多,相关系数受抽样误差的影响越小,结果就越可靠。

Agolferisinterestedininvestigatingtherelationship,ifany,betweendrivingdistanceand18-holescore.277.6259.5269.1267.0255.6272.9697170707169AverageDrivingDistance(yds.)Average18-HoleScoreExample:GolfingStudyExample:GolfingStudy277.6259.5269.1267.0255.6272.9697170707169xy10.65-7.452.150.05-11.355.95-1.01.0001.0-1.0-10.65-7.4500-11.35-5.95AverageStd.Dev.267.070.0-35.408.2192.8944TotalSampleCovarianceSampleCorrelationCoefficientExample:GolfingStudyUsingExceltoComputethe

CovarianceandCorrelationCoefficientExcelFormulaWorksheetExample:GolfingStudyABCD1AverageDrive18-HoleScore2277.669Samp.Covariance=COVARIANCE.S(A2:A7,B2:B7)3259.571Samp.Correlation=CORREL(A2:A7,B2:B7)4269.1705267.0706255.6717272.9698UsingExceltoComputethe

CovarianceandCorrelationCoefficientExcelV

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论