标准差与标准误_第1页
标准差与标准误_第2页
标准差与标准误_第3页
标准差与标准误_第4页
标准差与标准误_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

标准差与标准误一、本文概述本文旨在探讨统计学中两个重要的概念:标准差与标准误。这两个概念在数据分析、科学实验、经济预测等领域具有广泛的应用。标准差用于描述一组数据的离散程度,反映了数据的波动性和变化范围。而标准误则用于描述样本均值与总体均值之间的差异,是评估样本代表性的重要指标。本文将详细解释这两个概念的定义、计算方法及其在实际应用中的意义,帮助读者更好地理解和应用这两个统计工具。我们还将通过实例分析,展示如何在实际问题中运用标准差与标准误进行数据处理和结果解读。二、标准差的概念及计算标准差,作为统计学中描述数据离散程度的重要参数,对于理解数据的分布特性具有关键作用。标准差,通常用希腊字母σ(sigma)或者英文缩写SD表示,衡量的是一组数值与其平均数之间的离散程度。换句话说,标准差描述的是数据点相对于均值(即“中心”点)的波动大小。计算标准差需要遵循一定的步骤。需要确定数据集的平均数(即均值),这是所有数据点总和除以数据点的数量。接下来,对于数据集中的每个数据点,都需要计算其与均值的差异(即偏差)。这些偏差的平方和(即方差)除以数据点的数量,就得到了方差。将方差开平方根,就得到了标准差。数学公式表达为:标准差=sqrt[Σ(xi-μ)²/N],其中xi表示数据集中的每一个数据点,μ表示数据集的平均数,N表示数据点的数量,Σ表示对所有数据点的偏差平方和进行求和,sqrt表示开平方根。在实际应用中,标准差常用于衡量一组数据的稳定性。标准差越小,表示数据点越集中,离散程度越低,数据稳定性越高;标准差越大,表示数据点越分散,离散程度越高,数据稳定性越低。因此,在数据分析、风险管理、预测模型等多个领域,标准差都是一个非常重要的统计指标。三、标准误的概念及计算在统计学中,标准误(StandardError)是一个重要的概念,它是用来衡量样本统计量(如样本均值)与总体参数(如总体均值)之间差异的一个指标。与标准差不同,标准误描述的是样本统计量的抽样分布,而不是数据的离散程度。简单来说,标准误反映了样本统计量在多次抽样中可能的变化范围。标准误的计算通常基于样本标准差和样本量。对于样本均值的标准误,其计算公式为:标准误=总体标准差/根号下样本量。这里需要注意的是,总体标准差通常是未知的,因此在实践中常用样本标准差作为替代。然而,当样本量较小时,这种方法可能会导致标准误的估计偏大。为了校正这种偏差,可以使用更复杂的公式,如贝塞尔修正公式,来计算标准误。标准误在许多统计应用中都有重要作用。例如,在置信区间的构建中,标准误用于确定区间宽度;在假设检验中,标准误则用于计算检验统计量的分布和临界值。因此,理解标准误的概念和计算方法对于正确应用统计学知识至关重要。通过本节的学习,我们了解了标准误的定义和计算方法,并认识到它在统计推断中的重要作用。这将有助于我们在后续的学习中更好地理解和应用相关统计概念和方法。四、标准差与标准误的区别与联系标准差与标准误都是统计学中常用的两个概念,它们用于描述数据的离散程度和估计总体参数的不确定性。尽管两者在概念上有所关联,但在实际应用和解释上却存在明显的区别。定义与应用:标准差主要用于描述数据的离散程度,即数据点围绕其均值的离散或分布情况。它反映了数据内部的波动,不涉及对总体参数的估计。而标准误则是用于描述样本均值与总体均值之间的波动,它反映了样本均值对总体均值的估计精度。计算公式:标准差的计算公式基于数据集的方差,即数据点与均值的差的平方的平均值。而标准误的计算公式则基于样本方差和样本大小,它考虑了样本大小对估计精度的影响。单位与解释:标准差通常以原始数据的单位表示,如身高数据的标准差可能以厘米为单位。而标准误则通常以抽样分布的单位表示,如Z分数或t分数的单位。标准差越大,说明数据越离散;而标准误越小,说明样本均值越接近总体均值。尽管标准差与标准误在定义、计算和解释上存在差异,但它们之间也存在密切的联系。当样本量足够大时,标准误趋向于减少,而标准差则不受样本大小的影响。在构建置信区间或进行假设检验时,标准误是衡量估计精度的重要指标,而标准差则用于评估数据的离散程度。标准误可以通过将标准差除以样本量的平方根来计算,这体现了两者在概念上的关联。标准差与标准误在统计学中各自承担着不同的角色和功能。理解它们的区别与联系有助于我们更准确地应用这两个概念于实际的数据分析和推断中。五、标准差与标准误的应用标准差与标准误在统计学和数据分析中扮演着至关重要的角色,它们的应用广泛且深远。理解并正确应用这两个概念,能帮助我们更准确地解读数据,更科学地进行预测和决策。标准差常用于衡量数据的离散程度。在科学研究、市场分析和风险评估等多个领域,研究者都需要对数据的波动性有清晰的认识。通过计算标准差,研究者可以了解到数据的分布情况,比如是否呈现正态分布,或者是否有异常值存在。这对于后续的数据处理和分析至关重要。标准误在统计学中常常用于估计参数的精度。在科研实验中,研究者常常需要通过样本数据来推断总体的情况。标准误可以帮助我们了解样本均值与总体均值之间的差距,从而判断样本的代表性。例如,在医学研究中,通过计算不同样本组的标准误,研究者可以比较不同治疗方法的疗效差异,从而选择更有效的治疗方案。标准差与标准误在预测模型中也发挥着重要作用。在建立预测模型时,我们需要对模型的预测精度进行评估。标准误可以作为评估模型预测能力的重要指标之一。通过比较实际观测值与模型预测值之间的标准误,我们可以了解模型的预测精度,并对模型进行优化和改进。标准差与标准误在决策分析中也具有重要意义。在风险决策中,我们需要对可能的风险进行量化评估。标准差可以帮助我们了解风险的大小和波动范围,而标准误则可以帮助我们评估决策的准确性。通过综合考虑这两个因素,我们可以做出更加科学、合理的决策。标准差与标准误在数据分析、科研实验、预测模型和决策分析等多个领域都有广泛的应用。正确理解和应用这两个概念,可以帮助我们更好地理解和利用数据,提高决策的准确性和科学性。六、结论在统计学中,标准差与标准误是两个极其重要但经常被误解的概念。通过对这两个概念的深入剖析,我们发现它们虽然在计算和含义上有所不同,但都扮演着各自重要的角色,对于数据分析与解读有着不可替代的作用。标准差是衡量数据分布离散程度的重要指标,它揭示了数据的波动性或变异性。在实际应用中,标准差被广泛用于风险管理、质量控制、金融投资等多个领域,帮助决策者更好地理解数据的分布特征,从而做出更准确的决策。而标准误则更多地与抽样分布和统计推断相关,它是衡量样本均数抽样误差大小的指标。在统计推断中,标准误的应用尤为关键,它帮助我们估计样本均数与总体均数之间的差异,进而判断样本是否具有代表性,以及总体参数的置信区间和假设检验等。因此,理解和正确运用标准差与标准误,对于提升数据分析和统计推断的能力至关重要。在未来的学习和工作中,我们应该更加注重这两个概念的理解和应用,以便更好地利用数据来揭示事物的本质和规律。我们也要注意区分它们的差异,避免在实际应用中出现混淆或误用的情况。参考资料:在统计学中,我们经常会遇到两个概念:标准差和标准误。这两个术语虽然相似,但实际上代表了两种不同的概念,具有不同的用途和含义。标准差(StandardDeviation)是一个用于衡量数据分散程度的统计量。具体来说,标准差是数据点到其平均值的距离的平均数的平方根。我们可以通过以下公式来计算标准差:其中,xi是每个数据点,μ是数据的平均值,N是数据点的数量。这个公式表示的是,我们把每个数据点与其平均值的差取平方,然后把所有的平方值加起来(即求和),最后除以数据点的数量N,并取平方根。标准差的主要用途是描述数据的分散程度,也就是数据的离散程度。标准差越大,表示数据的离散程度越高,数据点之间的差异越大。另一方面,标准误(StandardError)是用于衡量样本统计量精度的指标。具体来说,标准误是样本统计量(如样本均值)的标准差。我们可以通过以下公式来计算标准误:标准误=sqrt[(1/(N-f))*Σ(xi-μ)^2]其中,xi是每个数据点,μ是数据的平均值,N是数据点的数量,f是样本数量。这个公式表示的是,我们把每个数据点与其平均值的差取平方,然后把所有的平方值加起来(即求和),最后除以数据点的数量N减去样本数量f(即总数据点数量减去样本数量),并取平方根。标准误的主要用途是描述样本统计量的精度。标准误越小,表示样本统计量越精确,样本统计量对总体情况的代表性越高。标准差和标准误都是重要的统计学概念,它们分别用于描述数据的分散程度和样本统计量的精度。正确理解和使用这两个概念,对于我们理解和解释数据,以及制定有效的统计分析计划至关重要。标准差(StandardDeviation),数学术语,是离均差平方的算术平均数(即:方差)的算术平方根,用σ表示。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。在实验中单次测量总是难免会产生误差,为此我们经常测量多次,然后用测量值的平均值表示测量的量,并用误差条来表征数据的分布,其中误差条的高度为±标准误差。这里即标准差。标准差(StandardDeviation),在概率统计中最常使用作为统计分布程度(statisticaldispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。测量到分布程度的结果,原则上具有两种性质:为非负数值,与测量资料具有相同单位。一个总量的标准差或一个随机变量的标准差,及一个子集合样品数的标准差之间,有所差别。简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。例如,两组数的集合{0,5,9,14}和{5,6,8,9}其平均值都是7,但第二个集合具有较小的标准差。标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定,风险亦较小。例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为45,B组的分数为67。这两组的平均数都是70,但A组的标准差约为08分,B组的标准差约为16分,说明A组学生之间的差距要比B组学生之间的差距大得多。如是总体(即估算总体方差),根号内除以n(对应excel函数:STDEV.P);如是抽样(即估算样本方差),根号内除以(n-1)(对应excel函数:STDEV.S);所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。深蓝区域是距平均值一个标准差之内的数值范围。在正态分布中,此范围所占比率为全部数值(即1)之2%。对于正态分布,两个标准差之内(深蓝,蓝)的比率合起来为4%。对于正态分布,正负三个标准差之内(深蓝,蓝,浅蓝)的比率合起来为6%。由于标准差的这个性质,得出了三西格玛准则(three-sigmaguideline)。标准差是反映一组数据离散程度最常用的一种量化形式,是表示精确度的重要指标。说起标准差首先得搞清楚它出现的目的。我们使用方法去检测它,但检测方法总是有误差的,所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值是多少,不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的:保证每批实验结果的准确可靠。虽然样本的真实值是不可能知道的,但是每个样本总是会有一个真实值的,不管它究竟是多少。可以想象,一个好的检测方法,其检测值应该很紧密的分散在真实值周围。如果不紧密,与真实值的距离就会大,准确性当然也就不好了,不可能想象离散度大的方法,会测出准确的结果。因此,离散度是评价方法的好坏的最重要也是最基本的指标。最直接也是最简单的方法,即最大值−最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。由于误差的不可控性,因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实,离散度就是数据偏离平均值的程度。因此将数据与均值之差(我们叫它离均差)加起来就能反映出一个准确的离散程度。和越大离散度也就越大。但是由于偶然误差是成正态分布的,离均差有正有负,对于大样本离均差的代数和为零的。为了避免正负问题,在数学上有两种方法:一种是取绝对值,也就是常说的离均差绝对值之和。而为了避免符号问题,数学上最常用的是另一种方法--平方,这样就都成了非负数。因此,离均差的平方和成了评价离散度一个指标。由于离均差的平方和与样本个数有关,只能反映相同样本的离散度,而实际工作中做比较很难做到相同的样本,因此为了消除样本个数的影响,增加可比性,将离均差的平方和求平均值,这就是我们所说的方差成了评价离散度的较好指标。样本量越大越能反映真实的情况,而算术平均值却完全忽略了这个问题,对此统计学上早有考虑,在统计学中样本的均差多是除以自由度(n-1),它的意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。在统计学中样本的均差多是除以自由度(n-1),它的意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。标准差能很客观准确的反映一组数据的离散程度,但是对于不同的项目,或同一项目不同的样本,标准差就缺乏可比性了,因此对于方法学评价来说又引入了变异系数CV。一组数据的平均值及标准差常常同时做为参考的依据。在直觉上,如果数值的中心以平均值来考虑,则标准差为统计分布之一“自然”的测量。从几何学的角度出发,标准差可以理解为一个从n维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值。它们可以在3维空间中确定一个点。想像一条通过原点的直线。如果这组数据中的3个值都相等,则点P就是直线L上的一个点,P到L的距离为0,所以标准差也为0。若这3个值不都相等,过点P作垂线PR垂直于L,PR交L于点R,则R的坐标为这3个值的平均数:运用一些代数知识,不难发现点P与点R之间的距离(也就是点P到直线L的距离)是|PR|。在n维空间中,这个规律同样适用,把3换成n就可以了。标准差与标准误差都是数理统计学的内容,两者不但在字面上比较相近,而且两者都是表示距离某一个标准值或中间值的离散程度,即都表示变异程度,但是两者是有着较大的区别的。首先要从统计抽样的方面说起。现实生活或者调查研究中,我们常常无法对某类欲进行调查的目标群体的所有成员都加以施测,而只能够在所有成员(即样本)中抽取一些成员出来进行调查,然后利用统计原理和方法对所得数据进行分析,分析出来的数据结果就是样本的结果,然后用样本结果推断总体的情况。一个总体可以抽取出多个样本,所抽取的样本越多,其样本均值就越接近总体数据的平均值。标准差表示的就是样本数据的离散程度。标准差就是样本平均数方差的开平方,标准差通常是相对于样本数据的平均值而定的,通常用M±SD来表示,表示样本某个数据观察值相距平均值有多远。从这里可以看到,标准差受到极值的影响。标准差越小,表明数据越聚集;标准差越大,表明数据越离散。标准差的大小因测验而定,如果一个测验是学术测验,标准差大,表示学生分数的离散程度大,更能够测量出学生的学业水平;如果一个测验测量的是某种心理品质,标准差小,表明所编写的题目是同质的,这时候的标准差小的更好。标准差与正态分布有密切联系:在正态分布中,1个标准差等于正态分布下曲线的26%的面积,96个标准差等于95%的面积。这在测验分数等值上有重要作用。标准误差表示的是抽样的误差。因为从一个总体中可以抽取出无数多种样本,每一个样本的数据都是对总体的数据的估计。标准误差代表的就是当前的样本对总体数据的估计,标准误差代表的就是样本均数与总体均数的相对误差。标准误差是由样本的标准差除以样本容量的开平方来计算的。从这里可以看到,标准误差更大的是受到样本容量的影响。样本容量越大,标准误差越小,那么抽样误差就越小,就表明所抽取的样本能够较好地代表总体。一个正态分布的总体,抽取n个作为样本,可以得到样本平均值,用样本均值估计总体均值需要考虑样本均值的方差或标准差(也就是标准误差)Excel中有STDEV.S、STDEV.P、STDEVA、STDEVPA四个函数,分别表示样本标准差、总体标准差、包含逻辑值运算的样本标准差、包含逻辑值运算的总体标准差(excel用的是“标准偏差”字样)。在计算方法上的差异是:样本标准差^2=样本方差*(数据个数-1);总体标准差^2=总体方差*数据个数。⑴stdev函数可以分解为(假设样本数据为A1:E10这样一个矩阵):stdev(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)-1))⑵stdevp函数可以分解为(假设总体数据为A1:E10这样一个矩阵):stdevp(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)))标准差指统计上用于衡量一组数值中某一数值与其平均值差异程度的指标。标准差被用来评估价格可能的变化或波动程度。标准差越大,价格波动的范围就越广,股票等金融工具表现的波动就越大。在excel中调用函数“STDEV.S”估算样本的标准偏差。标准偏差反映相对于平均值的离散程度。在投资基金上,一般人比较重视的是业绩,但往往买进了近期业绩表现最佳的基金之后,基金表现反而不如预期,这是因为所选基金波动度太大,没有稳定的表现。衡量基金波动程度的工具就是标准差。标准差是指基金可能的变动程度。标准差越大,基金未来净值可能变动的程度就越大,稳定度就越小,风险就越高。比方说,一年期标准差是30%的基金,表示这类基金的净值在一年内可能上涨30%,但也可能下跌30%。因此,如果有两只收益率相同的基金,投资人应该选择标准差较小的基金(承受较小的风险得到相同的收益),如果有两只相同标准差的基金,则应该选择收益较高的基金(承受相同的风险,但是收益更高)。建议投资人同时将收益和风险计入,以此来判断基金。例如,A基金二年期的收益率为36%,标准差为18%;B基金二年期收益率为24%,标准差为8%,从数据上看,A基金的收益高于B基金,但同时风险也大于B基金。A基金的"每单位风险收益率"为2,而B基金为3。因此,原先仅仅以收益评价是A基金较优,但是经过标准差即风险因素调整后,B基金反而更为优异。另外,标准差也可以用来判断基金属性。据晨星统计,股票基金的平均标准差为14,积极型基金的平均标准差为04;保守配置型基金的平均标准差为86;普通债券基金平均标准差为91;货币基金平均标准差则为19;由此可见,越是积极型的基金,标准差越大;而如果投资人持有的基金标准差高于平均值,则表示风险较高,投资人不妨在观赏奥运比赛的同时,也检视一下手中的基金。股票价格的波动是股票市场风险的表现,因此股票市场风险分析就是对股票市场价格波动进行分析。波动性代表了未来价格取值的不确定性,这种不确定性一般用方差或标准差来刻画(Markowitz,1952)。下表是中国和美国部分时段的股票统计指标,其中中国证券市场的数据由“钱龙”软件下载,美国证券市场的数据取自ECI的“WorldStockExchangeDataDisk”。上证综指业绩期望值≈(93-13+94+24+86-34-82)/7=6685714因为标准差是绝对值,不能通过标准差对中美直接进行对比,而变异系数可以直接比较。计算可得:变异系数C·V=标准偏差SD÷平均值MN×100%通过比较可以看出上证波动率变异系数要大于标准普尔波动率变异系数,说明长期来讲中国股市稳定性相对较差,还是一个不太成熟的股票市场。资本结构指的是企业各种资金来源的比例关系,是企业筹资活动的结果。最优资本结构是指能使企业资本成本最低且企业价值最大的资本结构;产权比率,即借入资本与自有资本的构成比例,是反映企业资本结构的重要变量。企业的资产由债务性资金和权益性资金组成,但其风险等级和收益率各不相同。根据投资组合理论,投资的多样化可以分散掉一定的风险,因此资金提供者需要决定投资于债务性资金和权益性资金的比例。以便在权衡风险和收益的情况下保证其利益的最大化。理论探索而外部资金提供者利益的最大化也就是企业价值的最大化,这一投资比例对于企业融资而言也就是企业的最优资本结构比例。假定某企业的资金通过发行债券和股票两种方式获得,并且都属于风险性资产。其中债券的收益率为,风险通过标准差来衡量;股票的收益率为,风险为;股票和债券的相关系数为,协方差为;债券所占的比重为,股票所占比重为(*)。根据投资组合理论,企业外部投资者对该企业投资所获的期望收益率为,方差为那么究竟在什么比例下企业的价值才会达到最大呢?根据投资组合理论,当,且时,才能出现优于。可见,决定企业资本结构的直接因素主要是不同筹资方式的收益率和风险以及它们之间的相关系数。标准差(StandardDeviation),数学术语,是离均差平方的算术平均数(即:方差)的算术平方根,用σ表示。标准差也被称为标准偏差,或者实验标准差,在概率统计中最常使用作为统计分布程度上的测量依据。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。在实验中单次测量总是难免会产生误差,为此我们经常测量多次,然后用测量值的平均值表示测量的量,并用误差条来表征数据的分布,其中误差条的高度为±标准误差。这里即标准差。标准差(StandardDeviation),在概率统计中最常使用作为统计分布程度(statisticaldispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。测量到分布程度的结果,原则上具有两种性质:为非负数值,与测量资料具有相同单位。一个总量的标准差或一个随机变量的标准差,及一个子集合样品数的标准差之间,有所差别。简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。例如,两组数的集合{0,5,9,14}和{5,6,8,9}其平均值都是7,但第二个集合具有较小的标准差。标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定,风险亦较小。例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为45,B组的分数为67。这两组的平均数都是70,但A组的标准差约为08分,B组的标准差约为16分,说明A组学生之间的差距要比B组学生之间的差距大得多。如是总体(即估算总体方差),根号内除以n(对应excel函数:STDEV.P);如是抽样(即估算样本方差),根号内除以(n-1)(对应excel函数:STDEV.S);所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。深蓝区域是距平均值一个标准差之内的数值范围。在正态分布中,此范围所占比率为全部数值(即1)之2%。对于正态分布,两个标准差之内(深蓝,蓝)的比率合起来为4%。对于正态分布,正负三个标准差之内(深蓝,蓝,浅蓝)的比率合起来为6%。由于标准差的这个性质,得出了三西格玛准则(three-sigmaguideline)。标准差是反映一组数据离散程度最常用的一种量化形式,是表示精确度的重要指标。说起标准差首先得搞清楚它出现的目的。我们使用方法去检测它,但检测方法总是有误差的,所以检测值并不是其真实值。检测值与真实值之间的差距就是评价检测方法最有决定性的指标。但是真实值是多少,不得而知。因此怎样量化检测方法的准确性就成了难题。这也是临床工作质控的目的:保证每批实验结果的准确可靠。虽然样本的真实值是不可能知道的,但是每个样本总是会有一个真实值的,不管它究竟是多少。可以想象,一个好的检测方法,其检测值应该很紧密的分散在真实值周围。如果不紧密,与真实值的距离就会大,准确性当然也就不好了,不可能想象离散度大的方法,会测出准确的结果。因此,离散度是评价方法的好坏的最重要也是最基本的指标。最直接也是最简单的方法,即最大值−最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。由于误差的不可控性,因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实,离散度就是数据偏离平均值的程度。因此将数据与均值之差(我们叫它离均差)加起来就能反映出一个准确的离散程度。和越大离散度也就越大。但是由于偶然误差是成正态分布的,离均差有正有负,对于大样本离均差的代数和为零的。为了避免正负问题,在数学上有两种方法:一种是取绝对值,也就是常说的离均差绝对值之和。而为了避免符号问题,数学上最常用的是另一种方法--平方,这样就都成了非负数。因此,离均差的平方和成了评价离散度一个指标。由于离均差的平方和与样本个数有关,只能反映相同样本的离散度,而实际工作中做比较很难做到相同的样本,因此为了消除样本个数的影响,增加可比性,将离均差的平方和求平均值,这就是我们所说的方差成了评价离散度的较好指标。样本量越大越能反映真实的情况,而算术平均值却完全忽略了这个问题,对此统计学上早有考虑,在统计学中样本的均差多是除以自由度(n-1),它的意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。在统计学中样本的均差多是除以自由度(n-1),它的意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。标准差能很客观准确的反映一组数据的离散程度,但是对于不同的项目,或同一项目不同的样本,标准差就缺乏可比性了,因此对于方法学评价来说又引入了变异系数CV。一组数据的平均值及标准差常常同时做为参考的依据。在直觉上,如果数值的中心以平均值来考虑,则标准差为统计分布之一“自然”的测量。从几何学的角度出发,标准差可以理解为一个从n维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值。它们可以在3维空间中确定一个点。想像一条通过原点的直线。如果这组数据中的3个值都相等,则点P就是直线L上的一个点,P到L的距离为0,所以标准差也为0。若这3个值不都相等,过点P作垂线PR垂直于L,PR交L于点R,则R的坐标为这3个值的平均数:运用一些代数知识,不难发现点P与点R之间的距离(也就是点P到直线L的距离)是|PR|。在n维空间中,这个规律同样适用,把3换成n就可以了。标准差与标准误差都是数理统计学的内容,两者不但在字面上比较相近,而且两者都是表示距离某一个标准值或中间值的离散程度,即都表示变异程度,但是两者是有着较大的区别的。首先要从统计抽样的方面说起。现实生活或者调查研究中,我们常常无法对某类欲进行调查的目标群体的所有成员都加以施测,而只能够在所有成员(即样本)中抽取一些成员出来进行调查,然后利用统计原理和方法对所得数据进行分析,分析出来的数据结果就是样本的结果,然后用样本结果推断总体的情况。一个总体可以抽取出多个样本,所抽取的样本越多,其样本均值就越接近总体数据的平均值。标准差表示的就是样本数据的离散程度。标准差就是样本平均数方差的开平方,标准差通常是相对于样本数据的平均值而定的,通常用M±SD来表示,表示样本某个数据观察值相距平均值有多远。从这里可以看到,标准差受到极值的影响。标准差越小,表明数据越聚集;标准差越大,表明数据越离散。标准差的大小因测验而定,如果一个测验是学术测验,标准差大,表示学生分数的离散程度大,更能够测量出学生的学业水平;如果一个测验测量的是某种心理品质,标准差小,表明所编写的题目是同质的,这时候的标准差小的更好。标准差与正态分布有密切联系:在正态分布中,1个标准差等于正态分布下曲线的26%的面积,96个标准差等于95%的面积。这在测验分数等值上有重要作用。标准误差表示的是抽样的误差。因为从一个总体中可以抽取出无数多种样本,每一个样本的数据都是对总体的数据的估计。标准误差代表的就是当前的样本对总体数据的估计,标准误差代表的就是样本均数与总体均数的相对误差。标准误差是由样本的标准差除以样本容量的开平方来计算的。从这里可以看到,标准误差更大的是受到样本容量的影响。样本容量越大,标准误差越小,那么抽样误差就越小,就表明所抽取的样本能够较好地代表总体。一个正态分布的总体,抽取n个作为样本,可以得到样本平均值,用样本均值估计总体均值需要考虑样本均值的方差或标准差(也就是标准误差)Excel中有STDEV.S、STDEV.P、STDEVA、STDEVPA四个函数,分别表示样本标准差、总体标准差、包含逻辑值运算的样本标准差、包含逻辑值运算的总体标准差(excel用的是“标准偏差”字样)。在计算方法上的差异是:样本标准差^2=样本方差*(数据个数-1);总体标准差^2=总体方差*数据个数。⑴stdev函数可以分解为(假设样本数据为A1:E10这样一个矩阵):stdev(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)-1))⑵stdevp函数可以分解为(假设总体数据为A1:E10这样一个矩阵):stdevp(A1:E10)=sqrt(DEVSQ(A1:E10)/(COUNT(A1:E10)))标准差指统计上用于衡量一组数值中某一数值与其平均值差异程度的指标。标准差被用来评估价格可能的变化或波动程度。标准差越大,价格波动的范围就越广,股票等金融工具表现的波动就越大。在excel中调用函数“STDEV.S”估算样本的标准偏差。标准偏差反映相对于平均值的离散程度。在投资基金上,一般人比较重视的是业绩,但往往买进了近期业绩表现最佳的基金之后,基金表现反而不如预期,这是因为所选基金波动度太大,没有稳定的表现。衡量基金波动程度的工具就是标准差。标准差是指基金可能的变动程度。标准差越大,基金未来净值可能变动的程度就越大,稳定度就越小,风险就越高。比方说,一年期标准差是30%的基金,表示这类基金的净值在一年内可能上涨30%,但也可能下跌30%。因此,如果有两只收益率相同的基金,投资人应该选择标准差较小的基金(承受较小的风险得到相同的收益),如果有两只相同标准差的基金,则应该选择收益较高的基金(承受相同的风险,但是收益更高)。建议投资人同时将收益和风险计入,以此来判断基金。例如,A基金二年期的收益率为36%,标准差为18%;B基金二年期收益率为24%,标准差为8%,从数据上看,A基金的收益高于B基金,但同时风险也大于B基金。A基金的"每单位风险收益率"为2,而B基金为3。因此,原先仅仅以收益评价是A基金较优,但是经过标准差即风险因素调整后,B基金反而更为优异。另外,标准差也可以用来判断基金属性。据晨星统计,股票基金的平均标准差为14,积极型基金的平均标准差为04;保守配置型基金的平均标准差为86;普通债券基金平均标准差为91;货币基金平均标准差则为19;由此可见,越是积极型的基金,标准差越大;而如果投资人持有的基金标准差高于平均值,则表示风险较高,投资人不妨在观赏奥运比赛的同时,也检视一下手中的基金。股票价格的波动是股票市场风险的表现,因此股票市场风险分析就是对股票市场价格波动进行分析。波动性代表了未来价格取值的不确定性,这种不确定性一般用方差或标准差来刻画(Markowitz,1952)。下表是中国和美国部分时段的股票统计指标,其中中国证券市场的数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论