第5章 描述性统计_第1页
第5章 描述性统计_第2页
第5章 描述性统计_第3页
第5章 描述性统计_第4页
第5章 描述性统计_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第第 5 章章 描述性统计描述性统计 采集到大量的样本数据以后,常常需要用一些统计量来描述数据的集中程 度和离散程度,并通过这些指标来对数据的总体特征进行归纳。 描述样本数据集中趋势的统计量有算术平均值、中位数、众数、几何均值、 调和均值和截尾均值等。 描述样本数据离中趋势的统计量包括极差、平均值、平均绝对差、方差和 标准差等,此外还有峰度、偏差、分位数和相关系数等统计量,也能描述样本 数据的某些特征。 5.1 描述集中趋势的统计量描述集中趋势的统计量 5.1.1 几何均值几何均值 样本数据的几何均值 m 可以根据下式求得 12 , n x xx 1 1 n n i i mx Matlab 中利用 geomean 函数计算样本的几何均值,其语法格式如下: m = geomean(X) 函数计算样本的几何均值。若 X 是矢量,则 geomean(X)返回值为数据 X 中元素的几何均值。若 X 为矩阵,则 geomean(X)返 回值为一个行矢量,包含每列数据的几何均值。若 X 为 N 维数组,geomean 函 数沿 X 的第一个非单一元素维度进行计算。 m = geomean(X,dim) 计算 X 的第 dim 维的几何均值。 【例例 5-1】 样本均值大于或等于样本的几何均值。 x = exprnd(1,10,6); geometric = geomean(x) geometric = 0.7466 0.6061 0.6038 0.2569 0.7539 0.3478 average = mean(x) average = 1.3509 1583 0.9741 0.5319 1.0088 0.8122 5.1.25.1.2 调和均值调和均值 样本数据的调和平均值 m 定义为 12 , n x xx 1 1 n i i n m x Matlab 中利用 harmmean 函数计算样本数据的调和平均值,其语法格式如 下: m = harrmmean 计算样本的调和平均值。若 X 为矢量,则 harmmean(X) 函数返回值为 X 中元素的调和平均值。若 X 为矩阵,则 harmmean(X)函数返回 值为包含每列元素调和平均值的行矢量。若 X 为 N 维数组,harmmean 函数沿 X 第一个非单一元素维度进行计算。 m = harmmean (X,dim) 计算 X 的第 dim 维的几何均值。 【例例 5-2】 样本均值大于或等于样本的调和平均值。 x = exprnd(1,10,6); harmonic = harmmean(x) harmonic = 0.3382 0.3200 0.3710 0.0540 0.4936 0.0907 average = mean(x) average = 1.3509 1583 0.9741 0.5319 1.0088 0.8122 5.1.35.1.3 算术平均值算术平均值 样本数据的算术平均值可用下式定义 12 , n x xx 1 1 n i i xx n Matlab 中利用 mean 函数计算矢量和矩阵中元素的均值,其语法格式如下: m = mean(X),若 X 为矢量,mean(X)返回值为 X 中元素的均值;若 X 为矩阵,mean(X)返回值为包含 X 中每列元素均值的行矢量; m = mean(X,dim) 计算 X 的第 dim 维元素的均值。 【例例 5-3】 下面的命令行生成 5 个包含 100 个服从正态分布的随机数的样 本,然后计算每个样本的算术平均值。 x = normmd(0,1,100,5); xbar = mean(x) xbar = 0.727 0.0264 0.0351 00424 0.0752 5.1.45.1.4 中值中值 median 函数计算矢量和矩阵中元素的中值,其函数的调用格式为: m = median(X) 计算样本数据的中值。中值是样本数据中心趋势的稳健估 计,因为异常值的影响较小。对于矢量,median(X)为矢量 X 中元素的中值。对 于矩阵,median(X)为包含每一列中元素中值的行矢量。计算中值需要首先进行 排序,因此计算大型矩阵的中值矢量时比较费时。 【例例 5-4】 xodd = 1:5; modd = median(xodd) modd = 3 meven = median(xeven) meven = 2.5000 下列演示中值对于异常值的稳健性。 xoutlier = x,10000; moutlier = median(xoutlier) moutlier = 3 5.1.55.1.5 截尾均值截尾均值 对样本数据进行排序以后,去掉两端的部分极值,然后对剩下的数据求算 术平均值,得到截尾均值。 Matlab 利用 trimmean 函数计算截尾均值,其语法格式如下: m = trimmean(X,percent) 若 X 为矢量,则 m 为 X 中元素的截尾均值, 即剔除测量值中最大和最小的 k 个数据以后,计算样本 X 的均值, k=n*(percent/100/2),n 为 X 的维数;若 X 为矩阵,则 m 为行矢量,其元素为 X 中各列元素的截尾均值;若 X 为多维数组,则 m 沿 X 中的第一个非单一元 素维度进行计算。Percent 为 0 和 100 之间的数。 m = trimmean(X,percent,dim) 沿 X 的第 dim 维计算截尾均值。 m = trimmean(X,percent,flag)处理当 k 不是整数时如何截尾,flag 取值及 含义如下: round缺省值,对 k 就近取整。 floor对 k 向下取整 weight若 k=i+f,其中 i 是整数部分,f 是小数部分,以 (1-f) 为第 (i+1)个和第(n-i)个元素权值,求两个元素之间所有元素的加 权均值。 m = trimmean(X,percent,flag,dim)计算 X 的第 dim 维元素的截尾平均。 截尾均值为样本位置参数的稳健性估计。若数据中有异常值,截尾均值为 数据中心的一个更具代表性的估计。若所有数据取自服从同一分布的总体,则 使用样本均值比使用截尾均值更有效。 【例例 5-5】下面用蒙特卡洛法模拟正态数据的 10%截尾均值相对于样本均 值的有效性。值小于 1。说明正态条件下截尾均值不如算术平均值有效。 rng(default); x = normmd(0,1,100,100); m = mean(x); trim = trimmean(x,10); sm = std(m); strim = std(trim); efficiency = (sm/strim).2 输出为: efficiency = 0.9663 5.25.2 描述离中趋势的统计量描述离中趋势的统计量 描述离中趋势的统计量包括四分位差、均值绝对差、极差、方差和标准差 等。 5.2.15.2.1 四分位差四分位差 四分位差指的是样本数据从小到大排序后 75%与 25%位置处的值之差。 IQR 是数据极差的稳健性估计。因为上下 25%的数据变化对其没有影响。 Matlab 中用 iqr 函数计算样本的四分位差(IQR),其语法格式如下: y = iqr(X) 计算 X 的四分位差。若 X 为矢量,则 y 为 X 的 75%与 25%位 置处的值之差;若 X 为矩阵,则 y 是行向量,其元素为对应 X 的各列的四分位 差;若 X 为多维数组,iqr 函数沿 X 的第一个非单一元素维进行计算。 m = iqr(X,dim) 计算 X 的第 dim 维元素的四分位差。 若数据中没有异常值,则 IQR 用于衡量数据的极差比标准差更具代表性。 当数据取自正态分布总体时,标准差比 IQR 有效。常用 IQR*0.7413 来代替标 准差。 【例例 5-6】下面用蒙特卡洛法模拟正态数据的 IQR 相对于样本标准差的有 效性。结果仅为 0.33,说明正太条件下 IQR 不如标准差有效。 x = normmd(0,1,100,100); s = std(x) s_IQR = 0.7413*iqr(x); efficiency = (norm(s-1)./norm(s_IQR - 1).2 输出为: efficiency = 0.3297 5.2.25.2.2 均值绝对差均值绝对差 利用 mad 函数可以计算数据样本的均值或中值绝对差(MAD). y = mad(X) 计算 X 中数据的均值绝对差。若 X 为矢量,则 y 为 mean(abs(X-mean(X);若 X 为矩阵,则 y 为包含 X 中每列数据均值绝对差的 行矢量;如果 X 为多维数组,则 mad 函数计算第一个非单一元素维的均值绝对 差。 mad(X,0) 与 mad(X)相同,使用均值。 mad(X,1) 基于中值计算 y,即 y=median(abs(X median(X)。 mad(X,flag,dim) 沿 X 的第 dim 维计算 MAD。 该函数将 NaN 视为缺失值并删除。 对于正态分布数据,可以用下式估计标准差: sigma = 1.253*mad(X,0); sigma = 1.4826*mad(X,1); 【例例 5-7】对正态分布数据添加离群点后,比较不同估计的鲁棒性。结果 越接近 1,说明正态条件下,对应度量的更有鲁棒性。 x = normrnd(0,1,1,50); xo = x 10; % 添加离群点 r1 = std(xo)/std(x) r1 = 1.7385 r2 = mad(xo,0)/mad(x,0) r2 = 1.2306 r3 = mad(xo,1)/mad(x,1) r3 = 1.0602 5.2.35.2.3 极差极差 极差指的是样本中最大值与最小值之间的差值。用 range 函数计算样本的 极差,其语法格式如下: y = range(X) 返回极差。若 X 为矢量,range(X)为 X 中元素的极差;若 X 为矩阵,range(X)为行矢量,包含 X 中对应各列中元素的极差;若 X 为多维数 组,range 函数沿 X 的第一个非单一元素维进行计算。 m = range(X,dim) 计算 X 的第 dim 维元素的极差。 用极差估计样本数据的范围具有计算简便的优点;缺点是异常值对它的影 响较大,因此它是一个不可靠的估计值。 【例例 5-8】大样本标准正态分布随机数的极差近似为 6。下面首先生成 5 个 包含 1000 个服从正态分布的随机数的样本,然后进行求极差的运算。 rv = normmd(0,1,1000,5); near6 = range(rv) 输出为: near6 = 6.1451 6.4986 6.2909 5.8894 7.0002 5.2.45.2.4 方差方差 用 var 函数计算样本的方差。其调用格式和描述如下。 y = var(X) 计算 X 中数据的方差。对矢量而言,var(X)为 X 中元素的方 差。对于矩阵而言,var(X)是包含 X 中每一列元素方差的行矢量,通过除以 n-1 来达到标称化,其中 n 为样本大小。对于正态分布数据,这使 var(x)成为的 2 最小方差无偏估计量。 y = var(X,1) 通过处于 n 来标称化并生成样本数据的二级矩。 y = var(X,w) 使用权重矢量 w 计算方法。w 中元素的个数必须等于矩阵 X 的行数,对于矢量 X,w 和 X 必须在长度上匹配。W 的每个元素必须为正。 y = var(X,w,dim) 计算 X 的第 dim 维元素的方差。w 为 0 时,使用默认 的 N-1 进行标称化;w=1 时,使用 N 进行标称化。 注意:注意:令 SS 为 X 矢量中元素与其均值之间的离差平安和,则 var(X) = SS/(n-1)为的最小方差无偏估计量,var(X,1)=SS/n 为的最大似然估计量。 2 2 【例例 5-9】 x = -1 1; w = 1 3; v1 = var(x) v1 = 2 v2 = var(x,1) v2 = 1 v3 = var(x,w) v3 = 0.7500 5.2.55.2.5 标准差标准差 有两种样本数据的标准差计算公式,分别为: 12 , n x xx (1) 1 2 2 1 1 () 1 n i i sxx n (2) 1 2 2 1 1 () 1 n i i sxx n 式中,样本均值为 1 i xx n 用 std 函数计算样本的标准差。 s = std(X) ,利用公式(1)计算 X 中数据样本的标准差。若 X 为矢量, std(X)为 X 中元素的标准差;若 X 为矩阵,std(X)为包含 X 中各列元素标准差 的行矢量;若 X 是 N 维数组,则 std(X)为 X 的第一个非单一元素维的标准差。 s = std(X,flag),当 flag=0 时,等同于 std(X);当 flag=1 时,std(X,1) 返回返回(2)式计算的标准差,用 n 对 X 进行标称化,结果 Y 为样本关于其均值 二阶矩的平方根。 s = std(X,flag,dim) 计算 X 的第 dim 维元素的标准差。flag 为 0 时,用 n-1 进行标称化;falg 为 1 时,用 n 进行标称化。 【例例 5-10】下面首先生成 6 列服从标准正态分布的随机数,每列有 100 个 数。每一列中,标准差 y 的期望值均为 1。 x = normmd(0,1,100,6); y = std(x) 输出为: y = 0.9536 1.0628 1.0860 0.9927 0.9605 1.0254 y = std(x,1) 5.35.3 分组数据描述分组数据描述 利用 grpstats 函数计算分组概括统计量。 means=grpstats(X,group)根据 group 参数,按照 group 分组的 X 中对应数 据的各列均值。 如果是单一的分组变量,means 中对应每一个分组变量值给出一个行向量。 Grpstats 函数按照字母序排序(当分组变量是字符串数组时)或按数字升序排序 (当分组变量时数值型时)。 如果分组变量 group 是 cell 数组,则对应于每一个分组变量的观测唯一组 合值,means 中存在一行与之对应。Grpstats 按照第一个分组变量对组排序, 然后按照第二个分组变量对每一个具有相同第一分组变量值的数据进行排序, 以此类推。 如果 X 是矩阵,则 means 是具有相同列数的矩阵。Means 的每一列给出对 应 X 相应列的分组均值。 grpstats(x,group,alpha)按照分组变量值对 X 中的数据计算分组均值的 置信区间,绘制每个均值 100*(1-alpha)%置信区间的图形,横轴是分组变量 值。 如果 X 是矩阵,则 grpstats 绘制 X 各列的均值及置信区间。如果 group 是 cell 数组,则 grpstats 关于 grpstats 的其他调用格式,请参考 matlab 帮助。 【例例 5-11】 Load(hospital)%载入数据,该数据具有 100 个观测,7 个变量 %创建只包含 Sex, Age, Weight, and Smoker 的数据数组。Sex 是标称数 组,取值为 Male 和 Famale。Age 和 Weight 是数值型变量,Smoker 是逻辑型变 量。 ds = hospital(:,Sex,Age,Weight,Smoker); %按照 Sex 分组,计算数值型和逻辑型变量的均值 Statsrray = grpstats (ds, Sex) 输出为: statarray = SexGroupCountmean_Age mean_Weight mean_Smoker Female Female5337.717 130.47 0.24528 MaleMale4738.915180.530.44681 5.45.4 包含缺失数据的样本描述包含缺失数据的样本描述 MATLAB 的统计工具箱中有一组名称以 nan 为前缀的函数,用于描述包含 缺失数据的样本。表 5-1 示给了包含缺失数据的样本统计量的计算函数及其调 用格式,具体调用格式的解释可以参考 matlab 帮助。 表 5-1 包含缺失数据的样本统计量 函数名称功能调用格式 nancov 协方差,忽略缺失数据。 Y = nancov(X) Y = nancov(X1,X2) Y = nancov(.,1) Y = nancov(.,pairwise) nanmax 求样本数据的最大值,忽略缺 失数据。 y = nanmax(X) Y = nanmax(X1,X2) y = nanmax(X,dim) y,indices = nanmax(.) nanmin 求样本数据的最小值,忽略缺 失数据。 y = nanmin(X) Y = nanmin(X1,X2) y = nanmin(X,dim) y,indices = nanmin(.) nanmean求样本数据的均值,忽略缺失 数据。 y = nanmean(X) y = nanmean(X,dim) nanmedian求样本数据的中位数,忽略缺 失数据。 y = nanmedian(X) y = nanmedian(X,dim) nanstd求样本数据的标准差,忽略缺 失数据。 y = nanstd(X) y = nanstd(X,1) y = nanstd(X,flag,dim) nansum求样本数据的和,忽略缺失数 据。 y = nansum(X) y = nansum(X,dim) nanvar求样本数据的方差,忽略缺失y = nanvar(X) 数据。y = nanvar(X,1) y = nanvar(X,w) y = nanvar(X,w,dim) 下面以 nanmean 函数为例介绍这一类函数的用法。 nanmax 函数的运算包含缺失数据的样本数据的均值,其调用格式如下: m=nanmean(X),移除 NaN 值,返回有效数据的均值。NaN 表示缺失值, 若 X 为矢量,nanmean(X)表示 X 的剩余元素的均值;若 X 为矩阵,nanmean(X) 为 X 中各列有效元素的均值构成的行向量。 m=nanmean(X,dim),返回 X 的第 dim 维数据的均值。 注意:注意:(1)NaN 表示缺失值,缺失值与零不同,它表示对应的位置上没有观 测值,不能简单的用零代替。(2)如果 X 的某一维全是 NaN,则当移除 NaN 后, 该列是空的,因此,剩余元素的和是 0。由于该列均值是 0 做除数得到的,因 此其输出结果是 NaN,但是并不表示 NaN 值。 【例例 5-12】求带有缺失值数据的列均值。求带有缺失值数据的列均值。 X = magic(3); X(1 6:9) = repmat(NaN,1,5) X = NaN 1 NaN 3 5 NaN 4 NaN NaN y = nanmean(X) y = 3.5000 0000 NaN 5.55.5 百分位数和图形描述百分位数和图形描述 Prctile 函数计算样本的百分位数,该函数的调用格式如下。 Y=prctile(X,p) 计算大 X 中 p的值,p 的值必须介于 0 至 100 之间, 对于矢量而言,prctile(X,p)为 X 中元素的 p 百分位数。若 p=50,则 Y 为 X 的 中值,对于矩阵 X 和标量 p,prctile(X,p)为包含每一列的 p 百分位数的行向量, 若 p 为矢量。则 Y 的第 i 行为 X 的 p(i)。对于多维数组,prctile 函数沿 X 的第 1 个成对维计算。 Y=prctile(X,p,dim) 沿 X 的第 dim 维进行计算,Y 的第 dim 维长度为 length(p) 。 【例例 5-13】 x=(1:5)*(1:5) x= 1 2 3 4 5 2 4 6 8 10 3 6 9 12 15 4 8 12 16 20 5 10 15 10 25 y= prctile(x,25 50 75) y= 1.7500 3.5000 5.2500 7.0000 8.7500 3.0000 6.0000 9.0000 12.0000 15.0000 4.2500 .5000 12.7500 17.0000 21.2500 5.65.6 自助统计量自助统计量 用 bootstrp 函数计算数据重复取样的自助统计量。其调用格式和描述如下。 bootstat=bootstrap(nboot,bootfun,d1,d2)从输入数据集 d1,d2 等中提取 nboot 个自助数据样本并传递给 bootfun 函数进行分析。bootfun 是一 个函数句柄。nboot 必须为正整数,并且每个输入数据集必须包含相同的行数 n,每个自助样本包含 n 行,它们随机取自对应的输入数据集 d1,d2 等。 输出 bootstat 的每一行包括将 bootfun 函数应用于一个自助样本时生成的结 果。如果 bootfun 函数返回多个输出参数,只在 bootstat 中保存第 1 个。如果 bootfun 函数的第 1 个输出为矩阵,则该矩阵重塑为行矢量,以便保存到 bootstat 中。 bootstat,bootsam=bootstrap()返回一个 nxn 的自助编号导入矩阵 bootsam。bootsam 中的每一列包含从原始数据集中提取出来组成对应自助样本 的值的编号。例如,如果 d1,d2 等每个都包含了 16 个值,nboot=4,则 bootsam 是一个 16x4 的矩阵。第一列包含从 d1,d2 等数据集中提取出来形成 前 4 个自助样本的 16 个值的编号,第 2 列包含 4 个自助样本的 16 个值的编号, 以此类推。 【例例 5-14】计算 15 个学生的 LSAT 分数和法学院 GPA 之间的关系。通过 对这 15 个数据点进行重复采样,创建了 1000 个不同的数据集,然后计算每个 数据集中这两个变量之间的相关关系。 load lawdata bootstat,bootsam=bootstrp(1000,corrcoef,lsat,gpa); bootstat(1:5,:) ans = 1 0.98743 0.98743 1 1 0.49182 0.49182 1 1 0.54587 0.54587 1 1 0.84577 0.84577 1 1 0.89587 0.89587 1 bootsam(:,1:5) ans = 13 3 11 8 12 14 7 1 7 4 2 14 5 10 8 14 12 1 11 11 10 15 2 12 14 2 10 13 5 15 5 1 11 11 9 9 13 5 10 3 15 15 15 3 3 15 11 1 2 4 3 12 7 8 13 15 12 6 15 4 15 6 12 6 13 8 10 12 9 4 13 3 3 4 14 hist(bootstat(:,2) 生成直方图如图 3-1 所示。 图 3-1 直方图 该直方图显示了整个自助样本的相关系数的变化。样本最小值为正,表示 LSAT 和 GPA 之间是相关的。 5.75.7 中心距中心距 K 阶中心距可以用下式定义 ()k n mE x 式中,为的期望。( )E xx moment 函数计算所有阶次的中心距。 m=moment(X,order) 返回由正整数 order 指定阶次的 X 中心距。对于矢 量,moment(X,order) 函数返回 X 的元素的指定阶次的中心距。对于矩阵, moment(X,order) 返回每一列的指定阶次的中心距。对于多维数组,moment 函 数沿 X 的第 1 个成对维进行计算。 m=moment(X,order,dim) 沿 X 的第 dim 为进行计算。 注意:注意:一阶中心距为 0,二阶中心距为用除数 n(而非 n-1)得到的方差,其 中 n 为矢量 X 的长度或是矩阵 X 的行数。 【例例 5-15】 X=randn(6,5) X = 0.53767 -0.43359 0.7254 1.409 0.48889 1.8339 0.34262 -0.063055 1.4172 1.0347 -2.2588 3.5784 0.71474 0.6715 0.72689 0.86217 2.7694 -0.20497 -1.2075 -0.30344 0.31877 -1.3499 -0.12414 0.71724 0.29387 -1.3077 3.0349 1.4897 1.6302 -0.78728 m=moment(X,3) m = -1.1143 -0.99731 0.12339 -1.1023 -0.10455 5.85.8相关函数相关函数 用 corrcoef 函数计算样本数据的相关系数矩阵。该函数的调用格式如下。 R=corrcoef(X)返回输入矩阵 X 算的的相关系数矩阵 R,输入矩阵的 行为观测量,列为变量。相关系数矩阵 R 中的第(i,j)个元素与协方差矩阵 C(=cov(X)有关,即有 ( , ) ( , ) ( , ) ( , ) C i j R i j C i i C j j R=corrcoef(x,y)与 corrcoef(x y)一样,x 和 y 为列矢量。 R,P=corrcoef()还返回矩阵 P。P 的值用于检验没有相关性的假设。 如果 P(i,j)较小,小于 0.05,则相关性 R(I,j)显著。 R,P,RLO,RUP=corrcoef()还返回大小与 R 相同的矩阵 RLO 和 RUP, 它们分别包含每个系数 95%置信区间的下届和上届。 =corrcoef(,paraml,vall,param2,val2,)指定其他参数和它们的 值。合法的值包括alpha和rows(或all/complete/pairwise)。 【例例 5-16】生成 4 列随机数,使第 4 列与其他列有相关性。 x=randn(30,4); %不相关的数据 x(;,4)=sum(x,2) %引入相关性 r,p=corrcoef(x) %计算样本相关性和 p 值 i,j=find(p0.05); %查找相关性比较显著的数据 i,j %显示它们(行或列)的编号 r= 1.0000 -0.3566 0.1929 0.3457 -0.3566 1.0000 -0.1429 0.4461 0.1929 -0.1429 1.0000 0.5183 0.3457 0.4461 0.5183 1.0000 p= 1.0000 -0.0531 0.3072 0.0613 -0.0531 1.0000 0.4511 0.0135 0.3072 0.4511 1.0000 0.0033 0.0613 0.0135 0.0033 1.0000 ans= 4 2 43 1 4 2 4 5.95.9 协方差矩阵协方差矩阵 用 cov 函数计算协方差矩阵。其语法格式为: C=cov(X) C=cov(X,Y) 对于单一矢量,cov(X)返回一个包括方差的标量。对于行为观测量,列为 变量的矩阵而言,cov(X)为协方差矩阵。计算方差的函数 var(X)等价于 diag(cov(X)。计算标准差的函数 std(X)等价于 sqrt(diag(cov(X)。cov(X,Y)等价 于 cov(X,Y),其中,X,Y 为长度相等的列矢量。 cov 函数的算法为: n,p=size(X); X=X-ones(n,1)*mean(X); Y=X*X/(n-1); 5.105.10 峰度和偏差峰度和偏差 5.10.15.10.1 峰度峰度 样本的峰度由下式定义 4 4 ()E X k 式中,为的期望。( )E xx 峰度用于度量样本数据偏离某分布的情况,正态分布的峰度为 3。当样本 数据的曲线峰值比正态分布的高时,峰度大于 3;反之,比正态分布低时,峰 度小于 3。 用 kurtosis 函数计算样本的峰度。 k=kurtosis(X) 返回 X 的样本峰度。对于矢量而言,kurtosis(X)函数为矢 量 X 中元素的峰度。对于矩阵而言,kurtosis(X)函数为 X 的每一列返回一个样 本峰度。对于多维数组,kurtosis 函数沿 X 的第 1 个成对维进行计算。 k=kurtosis(X,flag) 指定是否校正系统偏差。将 flag 指定为 0 时,进行校 正;指定 1 时,不校正。 kurtosis(X,flag,dim) 沿 X 的第 dim 维进行计算。 注意:注意:也有将峰度定义为计算值减 3 的,所以正态分布的峰度为 0。 【例例 5-17】 X=randn(5,4) X = 0.53767 -1.3077 -1.3499 -0.20497 1.8339 -0.43359 3.0349 -0.12414 -2.2588 0.34262 0.7254 1.4897 0.86217 3.5784 -0.063055 1.409 0.31877 2.7694 0.71474 1.4172 k=kurtosis(X) k = 2.7067 1.4069 2.3783 1.1759 5.10.25.10.2 偏度偏度 样本的偏度定义为 3 3 ()E X y 式中,为的期望。( )E xx 偏度用于衡量样本均值的对称性,若偏度为负,则数据均值左侧的离散性 比右侧的强; 若偏度为正,则数据均值右侧的离散性比左侧强。正态分布(或任何严格对称 分布)的偏度为零。 用 skewness 函数计算样本偏度。 (X)yskewness 返回X的样本偏度。对于矢量, (X)skewness 为X的元 素的偏度。对于矩阵, (X)skewness 为包含每一列中样本偏度的行矢量, 对于多维数组, (X)skewness 函数沿X的第 1 个成对维进行计算。 (X,flag)yskewness 指定是否校正系统偏差。将flag指定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论