CFA考试:投资分析的数量方法(投资工具)_第1页
CFA考试:投资分析的数量方法(投资工具)_第2页
CFA考试:投资分析的数量方法(投资工具)_第3页
CFA考试:投资分析的数量方法(投资工具)_第4页
CFA考试:投资分析的数量方法(投资工具)_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 学时 投资分析的数量方法(Quantitative Methods for Investment Analysis) 投资工具PAGE PAGE 96第五章:正态概概率分布Chapterr Commmon Prrobabiility Distrributiions本章简介(Inntroduuctionn)P2266本章的内容,是是四种概率分分布及它们的的应用,即: the unifoorm; the binommial; the normaal; the lognoormal。本章的其他数量量工具: Hypoothesiis tessting; regrressioon anaalysiss

2、;time-seriees anaalysiss。不连续的随机变变量(Disscretee Randdom Vaariablles)P2227 定义和解解释概率分布布(Probbabiliity Diistribbutionns)概率分布(Prrobabiility Distrributiions),即即将随机变量量可能结果的的概率予以特特定。每个随随机变量都有有描述它的概概率分布,概概率分布的方方式有两种: 概率函数(pprobabbilityy funcctionss)。 累积分布函函数(cummulatiive diistribbutionn funcctionssdisttributt

3、ion ffunctiionsccdf 区别:连连续的随机变变量和不连续续(disccrete)的的随机变量随机变量,是一一个未来结果果不确定的数数。随即变量量有两种类型型:不连续的的随机变量(ddiscreete raandom variaable)、连连续的随机变变量(conntinuoous raandom variaable)。变量的结果能予予以历数(个个数有限)的的随机变量,为为不连续的随随机变量。 描述某特特定变量可能能结果的集合合 定义一个个概率函数(Probability function)并说明它的关键特征概率函数的表示示方法是:PP(X x),它表表示随机变量量的值为x的的

4、概率。不连续随机变量量的概率函数数,可以缩写写为p(x);连续随机变变量的概率函函数用f(xx)表示,称称之为概率密密度函数(PProbabbilityy denssity ffunctiionsddensittypdff)。概率函数有两个个关键特征: 0p(x)1; 随机变量量X所有值的的概率的总和和等于1。 定义概率率密度函数(Probability density function) 定义累积积分布函数(ccumulaative distrributiion fuunctioon)并根据据累积分布函函数计算随机机变量的概率率累积分布函数(ccumulaative distrributii

5、on fuunctioonsdiistribbutionn funcctionsscdf),表表示随机变量量的结果位于于某一范围的的概率。cddf函数的功功能相当于累累积相对频率率。连续的或不连续续的随机变量量的结果的累累积概率分布布,可以记作作F(X) P(Xx),或FF(X) P(x1Xx 2),或FF(X)PP(Xx)。累积概率函数(ccdf函数)的的特征: 0F(x)1; 随着x的的增加,cddf函数或增增加或保持不不变。不连续的单项分分布(Thee Disccrete Unifoorm Diistribbutionn)P2288 给定不连连续的单项分分布(a ddiscreete u

6、nniformm disttributtion),定定义不连续的的单一随机变变量并计算概概率单项分布(Unniformm Disttributtion),即即随机变量所所有可能结果果的概率都相相等。单项分布的应用用: 它是为其其它概率分布布产生随机数数以作为随机机观察对象(rrandomm obseervatiion)的基基础; 它可以用用来描述结果果概率相等的的随机变量。贝诺里分布(TThe biinomiaal Disstribuution)P230 给定贝诺诺里概率分布布(binoomial Probaabilitty Disstribuutionss),定义贝贝氏随机变量量(Bernn

7、oullii Randdom vaariablle)并计算算概率 贝诺里(BBinomiial)分布布的功能贝诺里(Binnomiall)分布的功功能:描述有有两项可能结结果的随机变变量的每一项项结果的概率率分布。其模模型是:两项项选择的价格格模型(thhe binnomiall Optiion Prricingg Modeel,BOPPM),即价价格的上升或或价格的下降降。 贝氏随机变变量(Berrnoullli Ranndom vvariabble)贝诺里分布的建建构元素是贝贝氏随机变量量(Bernnoullii Randdom vaariablle)。假定定某个能重复复进行的试验验有两个

8、可能能的结果,每每次试验产生生的结果必为为其一,这样样的试验称为为贝诺里试验验(Bernnoullii triaal)。在结果为成功时时,则Y11;在结果为为失败时,则则Y0,则则贝氏随机变变量Y的概率率函数为:p(1) pp(Y1) pp(0) pp(Y0) 1 pp 贝诺里随机机变量(biinomiaal Ranndom vvariabble)对n个贝诺里试试验,有0n个“成功”。如果单个个贝诺里试验验的结果是随随机的,则nn个贝诺里试试验的结果为为“成功”的总数也是是随机的。定义贝诺里随机机变量X为n个贝诺诺里试验中结结果为成功的的总数。用“Yi”表示第i个个贝诺里试验验的结果为“1”或

9、“0”(i 1,22,n),则则:X Y 1Y 2 Y nn 。贝诺里随机变量量由参数p和和n定义。pp即每次试验验结果为“成功”的概率;nn贝诺里试验验的次数。对贝诺里分布,可可作有如下假假设: 对所有贝贝诺里试验,结结果为“成功”的概率是一一个常数; 贝诺里试试验相互独立立。因此,贝诺里随随机变量X可以完全用用两个参数描描述,即X B(nn,p)。贝贝氏随机变量量Y是n 11的贝诺里随随机变量的值值,即:Y B(11,p)。 贝诺里随机机变量X B(n,pp)的概率函函数P(X = x)的的表示公式:p(x) P(Xx)p(x) P(Xx)nC xp x(1 p)n x nC x n!x!

10、(nx)! X是贝诺里里随机变量,表表示n个贝诺诺里试验中的的“成功”的总数;XXx,是这这n个贝诺里里试验中成功功的总数等于于x。 p(x)和和P(X x),表示示n个贝诺里里试验中,成成功的总数等等于x的概率率。 nC xx是在n个个贝诺里试验验中有x个成成功的排列方方式的数目。 p,是单个个贝诺里试验验的结果为成成功的概率;(1p),是是单个贝诺里里试验的结果果为不成功的的概率。 p x(11 p)n x,是每一个排列都具有的概率。 贝诺里随机机变量概率函函数的形状当单个贝诺里试试验的结果为为成功的概率率p50%时,贝诺里里分布式对称称的。若p50%,则则贝诺里随机机变量概率函函数的图像

11、就就具有偏向性性。 当p 50% 时,概率函函数的会向右右偏(rigght-skkewed),即即图像的右部部有较长的尾尾巴; 当p 50% 时,概率函函数的会向左左偏(lefft-skeewed)。对同一贝诺里随随机变量有pp1、p2,如果p1p2 1,则则它们的图像像呈镜像对称称。 贝诺里随随机变量(bbernouulli RRandomm variiable)的的预期值和方方差贝诺里随机变量量(bernnoullii Randdom vaariablle)的预期期值和方差Mean(weeighteed aveerage)VariancceBinomiaal,B(11,p)pp(1p)Bi

12、nomiaal,B(nn,p)npnp(1p)Binomiaal,B(55,0.5)2.5(即5p)1.25即5p(1pp)Binomiaal,B(55,0.1)0.5(即5p)0.45即5p(1pp)连续的随机变量量分布(Contiinuouss Randdom Vaariablles)P240 给定连续续的单项分布布(a coontinuuous uuniforrm disstribuution),定定义连续的单单项随机变量量并计算概率率连续的单一分布布(Conttinuouus Uniiform Distrributiion) 连续的单项项随机变量的的概率密度函函数(pdff): 1(b

13、a) (a 1(ba) (axb)f(x) 0 其他值 连连续的单项随随机变量的累累积概率函数数(cdf): 0 (x 0 (xa)F(x)= (xa)(ba) (a x b) 1 (xb) 计算概概率密度函数数f(x)在在定义域(aaxb)上的面面积(即累积积概率值)的的数学方法是是,对函数ff(x)从aa到b积分(iintegrral),即即:PP(axb)ab f(x)dx可以用上述等式式对(,)范围内的的任意两个实实数求积分。因为连续随机变变量的值是无无限的,所以以,连续随机机变量的值等等于任一定点点的概率为00。这对计算算连续随机变变量的累积概概率函数(ccdf)有重重要意义:对对任

14、何连续的的随机变量XX,有P(aaxb) PP(a xb) PP(ax bb) P(aa xb)。当axb 时,f(xx)1/(bba)表示示的是连续随随机变量在区区间axb的平均概概率。正态分布(Thhe Norrmal DDistriibutioon)P2443 解释正态态分布的关键键特征 描述正态分分布的两个参参数:平均值值(Meann)和方差( 2)或标准差。正态分布可以表示为:X N( , 2)。 正态分布的的下述参数值值:偏向性(sskewneess)00;峰度(kkurtossis)33,剩余峰度度(exceess kuurtosiis) 00。正态随机变量的的平均值(mmean

15、)、中中值(meddian)、众众数(modde)都相等等。 两个正态随随机变量的线线性叠加(llinearr combbinatiion),还还是正态分布布。 区别:单单变量(unnivariiance)分分布和多变量量分布(muultivaariancce)单变量分布(uunivarriate distrributiion),描描述单个的随随机变量;多多变量分布(mmultivvariatte disstribuution),描描述的是一组组随机变量的的概率。当我们有一组资资产时,我们们可以将每一一项资产的收收益分布分别别模型化,也也可以将这些些资产作为一一组(as a grooup)来将

16、将它们的收益益分布模型化化。作为一组组,即考虑收收益系列之间间的统计关系系,其中经常常使用的模型型就是多变量量的正态分布布(multtivariiate nnormall disttributtion)。n种证券的收益益的多变量正正态分布,可可以用三个参参数予以定义义: 单个证券券收益的平均均值(meaan)的清单单; 证券收益益方差的清单单; 收益的所所有互不相同同的相关系数数(corrrelatiions)的的清单,共nn(n-1)/2个。与单变量正态分分布相比较,相相关系数(ccorrellationns)是多变变量的正态分分布的区别特特征之一。 解释相关关系数在多变变量正态分布布中的作

17、用 定义标准准正态分布(sstandaards nnormall disttributtion)并并解释如何使使随机变量标标准化 正态分布的的概率密度函函数(pdff)的表达式式( x ):f(x) exp (x f(x) exp (x )22 2 ( 2 )当 0,1 时,该该正态分布称称之为标准(sstandaard)正态态分布或单位位(unitt)正态分布布。对于正态分布,标标准差()越大,其其相对于平均均值的分布就就越分散。利利用标准差,我我们能够对任任何正态分布布的结果的分分散性作出概概率报告: 大约有500%的观察对对象,在区间间 (23)的范围内; 大约有688%的观察对对象,在

18、区间间 的范围内内; 大约有955%的观察对对象,在区间间 2的范围内; 大约有999%的观察对对象,在区间间 3的范围内。 随机变量的的标准化标准正态随机变变量用Z N(0 ,1)表示。将将随机变量 X NN( , 2)标准化化的公式:Z (X Z (X )随机变量Xxx 0 对应的的标准正态随随机变量Z z0 (x 00 )/ 。其意义是:对XX N( , 2),随机变量的值小于或等于x 0的概率,正好等于标准正态分布Z N(0 ,1)中随机变量的值小于或等于z0的概率z0(x 0 )。即:对X N( , 2)有P(XXx 0);对ZZ N(00 ,1)有N(ZZz0)。当z0(x 0 )

19、时,则P(XXx 0)N(ZZz0)。 呈正态分分布的随机变变量的信置区区间(connfidennce inntervaals) 正态随机变变量X的确切切信置区间(cconfiddence interrvals): P( x1.6445s X x1.6445s) 90%;x(也记作)为样本本平均值;ss(也记作)为样本的的标准差。 x和s是店测测算(poiint esstimattes)。 P( x1.966s X x1.966s) 995%; P( x2.588 s X x2.588s) 999%; 使用标准准正态分布(sstandaards nnormall disttributtion)

20、计计算概率 标准正态随随机变量累积积分布函数表表N(x)的的使用。比如如查找P(ZZ0.24)的的值(即变量量Z的值小于于或等于0.24的概率率),其步骤骤:在表的第第一纵栏找到到0.20,在在表的第一横横栏找到0.04,两者者对应的值即即为要找的概概率。【例】 PP(Z 1.2882) 990% ,它它表示有100%的值在图图像的右边尾尾部,并且,PP( x1.2882s X x1. 2282s) 80%。 P(Z11.645) 95%,它它表示有5 %的值在图图像的右尾部部,或有100 %的值在在90%的信信心区间之外外(即左右两两边尾部各有有5 %的值值在90%的的信心区间之之外)。 了

21、解下列关关系,有助于于我们使用累累积分布函数数N(x)表表: 当x0时时,x右边的的分布概率PP(Zx)1.0 NN(x); 对负数xx,有:N(x)= 11.0 NN(x)。因为:x右边的的分布概率和和面积,等于于x左边的的分布概率和和面积,即:P(Zx) NN(x)或或P(Zx)。正态分布的应用用(Appllicatiion off the Normaal Disstribuution) 平均值方差分析法法 平均值方方差分析法(mmean-vvariannce annalysiis)平均值方差分分析法,将整整体的收益分分布概括为平平均值和方均均差,进而对对投资决策进进行评价。 将新资产加加

22、入到投资组组合中,为了了实现获利须须满足: E(R E(R new)R f new Corr(R new,R p) E(R p)R f p即:新资产的“夏普比”,要大于投投资组合p的的“夏普比”与新资产和和投资组合PP的相关系数数的乘积。 马克维茨决决策规则(MMarkowwitz ddecisiion ruule)。对于资产A和BB,投资者选选择A而不选选择B,其决决策依据是: A的平均均收益等于或或大于B的平平均收益,而而A的收益的的标准差更小小; A的平均均收益大于BB的平均收益益,而A与BB收益的标准准差相等。 定义亏空空风险(shhortfaall riisk)亏空风险(shhort

23、faall riisk),即即在某段时间间投资组合的的价值会下降降到能够接受受的最低水平平以下。如:某个已经界界定收益计划划的资产的价价值下降到计计划的债务之之下,即为亏亏空风险(sshortffall rrisk)。 计算安全全首位比率(ssafetyy-firsst rattio)并利利用罗伊的安安全首位标准准选择最佳投投资组合安全首位规则(SSafetyy-firsst Rulles),作作为评估价值值下滑风险(ddownsiide riisk)的方方法,关注的的是亏空风险险(shorrtfalll riskk)。假定R L 是是投资者能接接受的最低收收益水平。按按照Roy的的安全首位标

24、标准:最优化化的投资组合合,就是能够够使该组合的的收益R pp下降到临界界水平R LL以下的概率率最小化的投投资组合,即即:PR p RR L为最小值。当投资组合收益益是正态分布布的,我们使使用标准方差差能计算出PPR p RR L。投资组合合的期望收益益为E(R p),则单单位标准差的的E(R p)R L最大时时,投资组合合的PR p RR L最小。E(R p)R L是平均均收益(meean reeturn)到到亏空标准的的距离。用SFRattio表示安安全首位比率率(safeety-fiirst rratio),则则:SFRatioo = EE(R p)-R L/ p应用Roy标准准,对投

25、资组组合进行选择择的步骤: 计算投资资组合的SFFRatioo。 根据计算算所得的SFFRatioo值评估标准准正态累积分分布函数(ccdf)。收收益值小于RR L的概率就就是N(SSFRatiio),即:P(R pp R L)N(SFRattio)=11N(SFFRatioo)。 选择上一一步中概率最最小的投资组组合。SFRatioo与“夏普比率”的差别在于于R L和R f(无风险收收益)。安全全首位规则为为“夏普比率”提供了一个个新的角度:在使用夏普普比例评价投投资组合时,假假定投资组合合收益是正态态分布的,则则夏普比率高高的投资组合合,是使投资资组合收益小小于无风险收收益的概率最最小的投

26、资组组合。 对数正态态分布(loognormmal diistribbutionn)和正态分分布的关系 对数正态分分布的概述对随机变量Y,如如果它的自然然对数Y为为正态分布,则则Y为对数正正态分布;反反之亦然。对对对数正态分分布,有两点点值得注意: 它的下界由由0界定; 它偏向右边边(即它的右右边由一个长长的尾巴)。假定Y是对数正正态分布的,则则对数正态分分布的两个参参数是:YY的平均值和和方差(或标标准差)。这这样就有两套套平均值和标标准差(或方方差):正态态分布的平均均值和标准差差(或方差);对数正态分分布自身的平平均值和标准准差(或方差差)。 求对数正态态分布自身的的平均值和标标准差(或

27、方方差)假定正态随机变变量X有预期期值 和方均差差 2。定义:Yexpp(X)ee x,Y是取取对数的逆运运算,即YYX。X是是正态随机变变量,而Y是是对数正态变变量。则: Y的预期值值是exp( 0.5 2),即E(Y) exp(0.5 2)。其原因:对数正正态分布扩展展了,它能向向上扩展但是是不能向下扩扩展超过零,因因此,分布的的中心向右边边移动,即增增加了平均值值。 对数正态分分布自身的平平均值(L)和方均差差(L2)的计算公公式:L expp( 0.55 2)L2 exxp(2 2)exp( 2)1 21区别:收益的连续续复利和不连连续复利 股票收益分分布和股票价价格的关系如果股票的连

28、续续复利收益率率(conttinuouusly ccompouunded returrn)是正态态分布的,则则将来的股票票价格必定是是对数正态分分布的。同样样重要地,即即使股票的连连续复利收益益不是正态分分布的,因为为中心限制理理论(cenntral limitt theoorem)的的作用,股票票的价格也可可用对数正态态分布来描述述。 连续复利收收益率与持有有期回报率(hholdinng perriod rreturnn)的关系假定股票价格的的一系列观察察对象S0,S1,S2,ST ,是等间间距的。现在在的股票价格格S0是一个确定定的数(不是是随机变量),而而股票的未来来价格却是一一个随机变

29、量量。价格比(SSt+1 S t),等于11加上持有期期回报率,即即:S t+1S t 1R t+11,t 。连续复利收益率率,是与持有有期回报率(RR t+1,tt)相伴随的的一个重要概概念。连续复复利收益用rr t+1,tt表示,则根根据EAR e rrs 1可得(EEAR effecctive annuaal ratte即R tt+1,t),在在期间t到tt+1内,两两者的关系是是:rr t+1,t (St+1 S t)(1R t+1,t)在期间0到T内内(T-hoorizonn),连续复复利收益率与与持有期回报报率HPR的的关系是:rr0, T (S T S 0) rT,T1 rT1,

30、 T2 r0,1因此,S T S 0 exp(rr 0, TT)。 独立的同一一分布(IIID,inddependdentlyy and identticallly)独立的同一分布布含义。 独立,指指投资者不能能根据过去的的收益预测未未来的收益; 同一就是是假定静止。假定单个期间的的连续复利收收益率rT,TT 1,是平均值值为、方差为 2的IIDD随机变量,则则在0到T期期间内连续复复利收益率rr0, T的期期望值为:E(rE(r0, T) E(rT,T 1) E(rT 1, T-2)E(r0,1) T 2(r0, T) 2T 比较SS T S 0 exp(rr0, T)和和Y eexp(X)

31、,我我们可以将未未来股票价格格S T的模型作为为对数正态随随机变量。因因为,r0, T至少应应该是近似的的正态随机变变量。22给定持持有期回报率率HPR,计计算收益的连连续复利23解释蒙蒙特卡洛模拟拟和历史模拟拟,并说明它它们的应用和和局限性 蒙特卡洛模模拟的简介蒙特卡洛模拟的的要旨,在爬爬梯之前要做做的最后一件件事,就是摇摇动梯子。就就像摇动梯子子让我们接近近爬梯的风险险一样,蒙特特卡洛模拟让让我们在实施施一项政策前前,对其进行行试验。其目目的,就是发发现对复杂的的金融问题的的近似解决方方法。作为蒙特卡洛模模拟整体的一一部分,就是是通过各种各各样的假定,从从概率分布中中产生大量的的随机样本,

32、以以模拟各种可可能的风险。蒙特卡洛模拟的的应用: 在实施一一项政策或投投资决策前,对对其进行试验验;评估处于风风险中的价值值(Valuue at Risk); 对复杂的的证券估价; 研究院用用以测试他们们的模型和投投资工具。 蒙特卡洛模模拟的步骤。 根据基础变量,明确规定感兴趣的问题的数量(Specify the quantities of interest in terms of underlying variable)。 明确规定时间坐标(Specify a time grid)。 对产生前在变量的风险因素,明确规定其分布假说(Specify distributional assumpti

33、ons for the risk factors that drive the underlying variables)。 使用计算机程序或空白表格(spreadsheet)函数,产生每一个风险因素的随机值。 使用上一步产生的随机观察对象,计算基础变量。 计算感兴趣的问题的数量。 返回到第4步重新操作,直到试验的详尽数据完成。 蒙特卡洛模模拟,是分析析方法的补充充。它只提供供统计数据,而而不能提供精精确的结果,而而分析方法提提供了更深刻刻的因果关系系。 历史模拟(hhistorric siimulattion,oor bacck simmulatiion),从从历史纪录中中取样来模拟拟一个过

34、程。第六章:取样和和评估Chapterr Samppling and EEstimaation本章简介(Inntroduuctionn)本章的主题:是是如何取样?以及如何利利用样本信息息估算群体参参数?取样的的核心是中心心限制理论和和估算(ceentrall limitt theorrem and estimmationn)。取样(Samppling) 定义样本本随机取样(simplle randoom samplling)样本(simpple)随机取样,即即群体中的所所有元素入选选的概率都相相等。两种随机取样的的方法:简单的随机机取样(simplle randoom samplling)和分

35、层次的的随机取样(strattifiedd randoom samplling)。两类数据:横截截数据(crross-sectiional date)和和时间系列数数据(timme-seriees date)。 定义并解解释取样误差差(samplling errorr)取样误差,即统统计观察到的的值和统计要要估算的量之之间的差。 定义取样样分布(samplling distrributiion)一个统计的取样样分布(saamplinng distrributiion),是我们从从同一群体中中随机抽取规规模相同的样样本、并对样样本进行统计计计算,而得出的所所有相互区别别的可能值的的分布。 区别:

36、简简单的随机取取样和分层的的随机取样(sstratiified randoom sammplingg)简单的随机取样样(simplle randoom samplling),即样本的的获得是任意意的,群体中的每每一个元素,都有同等的的机会被选中中。分层次的随机取取样(strratifiied raandom samplling),即即根据一个或或多个分类标标准,将群体体进一步分为为亚群体(ssub poopulattionsstrata)。然然后按每一层层(亚群体)的的相对规模,按按比例地抽取取简单的随机机样本,并将将这些样本集集中起来。 时间系列列(timee-seriies)数据据和横向(

37、ccross-sectiional)数数据 时间系系列数据,是是时间间隔相相等地、不连连续地收集到到的一系列数数据。横截数数据,是在某某一时间点上上的个体、团团体、地区或或公司的特征征的数据。样本平均值的分分布(Disstribuution of thhe sammple mmean) 说明中心心极限定律(ccentraal limmit thheoremm)并说明它它的重要性假定任一概率分分布描述的群群体有平均值值 和限定的方方差2,当我们从群群体中抽取规规模为n的样样本以计算样样本平均值xx时,如果n足够够大(n 30),则则可得: 样本平均值值x的取样分布布是近似的正正态分布; 该取样分

38、布布的样本平均均值x ,方差2x 2n 。中心极限理论: 能估计群体体的平均值; 样本统计的的标准差,就是统计的的标准误差(Standdard Errorr of Statiistic); 能够建构信信心区间和测测试假定。 计算和解解释样本平均均值的标准差差(stanndardss erroor)样本平均值的标标准差s x(Standdard Errorr of Statiistic)的定义。样本本统计的标准准差(Standdard deviaation),就是统计的的标准差(Standdard Errorr)。因此,样样本平均值xx的标准差(Standdard Errorr)的计算公式式有二

39、:x n ;或s x s n 。 n ns2 (x i x)2 (n1) i1群体平均值的点点估算和区间间估算Point aand Inntervaal Esttimatees of the PPopulaation Mean 鉴别和描描述估算公式式的必要特性性(the desirrable propeertiess)估算公式(Esstimattorseestimaation formuulas)和和估算值(eestimaate)。估估算值是我们们使用估算公公式对样本观观察对象进行行计算所得出出的特定值。估算值和估算公公式的区别:从群体中抽抽取不同的样样本进行重复复的抽样统计计时,估算公公式会

40、产生不不同的结果(即即估算值)。 公正性(uunbiassednesss)。一个个公正的估算算公式,就是是它的预期值值(即取样分分布的平均值值)正好等于于它要评估的的参数。 有效性(eefficiiency)。如如果某个公正正的估算公式式是有效的,则则除了该公式式外,再没有有另外一个公公正的估算公公式,就同样样的参数得出出具有更小方方差的取样分分布。 一致性(cconsisstencyy)。如果估估算公式具有有一致性,则则随着取样规规模的增大,准准确的估算值值(接近群体体参数值的估估算值)的概概率也会增加加。即随着取取样规模无限限扩大,估算算值的取样分分布越来越集集中于我们要要估算的参数数的值

41、。这三个特征,也也是选择估算算公式的三个个标准。 区别群体体参数的点估估算(a ppoint estimmate)和和信置区间估估算(a cconfiddence interrval eestimaate)对平均值或其他他参数的关注注,集中于两个个问题: 假定测试。它它针对的问题题是“参数值是等等于某个特定定值吗?” 估算(eestimaation)。它它针对的问题题是“参数的值是是什么?”估算包括:点估算(aa Poinnt Esttimatees)和信置置区间估算。 点估算(aa Poinnt Esttimatees)按照样本平均值值计算而得的的群体参数的的单个估算值值,称之为平平均值的点

42、估估算。 群体平均值值的信心区间间(Confiidencee Interrvals for the Popullationn Mean) 信信置区间的定定义信置区间,即我我们能够以给给定的概率11(信置度)肯定该区区间包括了它它要测算的参参数。这个区区间称为该参参数的(1) 信置区间。信置区间对参数数给出概率解解释或实践解解释。 按照概率率解释,例如如群体平均值值95%的信信置区间表示示,在重复取取样中,在长长远上,有995%的这样样信置区间将将包括群体平平均值。 按实践解解释,我们有有95%的信信心肯定单个个该区间(995%的信置置区间)即能能够包括群体体平均值。 信置区间的的建构(Coon

43、struuctionn of CConfiddence Interrvals)参数的(1)% 信置区区间的结构:点估算值 信赖因素素 标准误差差(Poinnt esttimatee Reliiabiliity faactor Stanndard errorr)。点估算值(Pooint eestimaate),即即一个样本统统计的值;信信赖因素(RReliabbilityy facttor),是是以点估算值值的假定分布布和信置度(1)为根据的一一个数据;标标准误差(SStandaard errror),是是提供点估算算值的样本统统计的标准误误差。 描述t- 分布的特特征(Studeents t-

44、 ddistriibutioon) t分布(tt -Disstribuution),是是由单一参数数即自由度ddf(deggrees of frreedomm)定义的一一个对称的概概率分布。 t分布与正正态分布的比比较。假定我们从一个个正态分布中中取样,则比比率z(xx )n,是一个个标准的正态态分布(平均均值为0,标标准差为1);比率t (x)sn,则是tt分布(平均均值为0,自自由度为n1)。这个用t表示的的比率,不是是正态分布,因因为它是两个个随机变量(样本的平均值和标准差)的比,而标准正态分布的定义只有一个随机变量x。然而,随着自由度的增加,t分布接近于标准正态分布(分布越尖锐、尾巴越

45、瘦)。 计算和解解释自由度(degreees of freeddom)自由度的概念。对对P40计算算样本标准差差s的公式,分分母上的项(nn1)就是是使用该等式式估算群体标标准差的自由由度数字。使用“自由度”术语其原因因为:在随机机样本中,我我们假定观察察对象的选取取是互不依赖赖的。假定计计算有n个互互不依赖的观观察对象的样样本的平均值值,则只有(nn1)个观观察对象是可可以独立地选选择的。(n1)也常常常被作为根根据t分布(ttDisttributtion)确确定信赖因素素的自由度。 对群体方方差已知或未未知的正态分分布,计算和解释释群体平均值值的信置区间间 方差已知的的呈正态分布布的群体的

46、平平均值的信置置区间从方差为2的的正态群体分分布中取样,则则群体平均值值的(1)% 信置区区间为:xx z / 2 n标准正态分布ZZ(0,1)信信置区间的信信赖因素(RReliabbilityy Facttors)信置区间z / 2= 0.190%的信置区区间Z 0. 055 = 1.645= 0.05595%的信置区区间Z 0. 0225= 1.96= 0.01199%的信置区区间Z 0. 0005 =2.575随着信置度的增增加,信置区区间越来越宽宽,对我们要要估算的数据据能给出的信信息就越不精精确。 方差未知的的群体的平均均值的信置区区间的求解 方法一:zz替换法(tthe zAlte

47、rrnativve)从方差未知的任任何分布的群群体中取样,当当取样规模较较大时,则群群体平均值的(1)% 信心区区间为:xx z / 2 S n 方法二:tt分布法(ttDisttributtion)如果从一个方差差未知的群体体中取样,并并且满足下列列两个条件中中的任一条件件的,即: 样本较大大; 样本较小小但是群体呈呈正态分布或或近似的正态态分布。则群群体平均值的的信心区间可可以表示为:xx t/ 2 S n计算信赖因素(RReliabbilityy Facttors)的的根据取样的群体样本规模较小的的统计样本规模较大的的统计方差已知的正态态分布zz方差未知的正态态分布tt(或z)方差已知的

48、非正正态分布Not avaailabllez方差未知的非正正态分布Not avaailabllet(或z) 从任何类类型的分布中中抽取大量的的样本,在群群体方差未知知时,计算和和解释群体平平均值的信置置区间 对选择适适当样本规模模的问题进行行讨论 讨论数据据挖掘偏见(date-mininng bias)数据窥探偏见(Date-snoopping),即以刺探探他人经验性性结果来引导导自己的分析析而得出推论论所产生的偏偏见。防止办法:检验验新数据,以以防止过分依依靠过去的研研究,来解释释发现和得出出结论。数据挖掘偏见(DDate-mininng bias),指指重复的钻研研同一数据,直直至有所发现

49、现。数据挖掘掘偏见的四点点迹象:对数数据挖掘太多多而又缺乏信信心(Tooo muchh digggingTToo liittle confiidencee);没有过过去也没有将将来(No storyy No futurre)。防止的办法是在在样本数据之之外测试交易易规则。 讨论样本本选取偏见、现现存关系偏见见、超前偏见见、时间期间间偏见。 样本选择偏偏见(Sammple sselecttion bbias),即即因为数据可可获得性的原原因,而将某某项资产排除除在分析之外外,由此产生生的问题为样样本选择偏见见。 现存关系偏偏见(surrvivorrship bias)。如如果测试设计计没有考虑到

50、到已经关闭、被被兼并或因其其他原因离开开了数据库的的公司的账户户,则属于现现存关系偏见见。 超前偏见(llook-aahead bias)。如如果一项测试试设计在测试试数据上使用用了不能获得得的信息,则则会产生超前前偏见。 时间期间偏偏见(timme-perriod bbias)。如如果作为测试试设计根据的的时间期间,使使结果在时间间期间上特定定化,属于时时间期间偏见见。要注意对对取样期间长长度的选择。第七章:假定测测试Chapterr Hypotthesiss Testting假定测试(Hyypotheesis TTestinng) 定义假定定并描述假定定测试的步骤骤假定,即对群体体的说明。

51、假假定测试的步步骤(Steeps inn the Hypotthesiss Testting): 提出假定(sstatinng thee hypoothesiis); 确定测试统统计和它的概概率分布(IIdentiifyingg the test statiistic and iits prrobabiility distrributiion); 有效度的特特定化(Sppecifyying tthe siignifiicancee leveel); 声明决定规规则(Staating the ddecisiion ruule); 收集数据和和进行计算(CColleccting the ddate

52、 aand caalculaating the ttest sstatisstic); 做出统计结结论(makke staatistiical ddecisiion); 做出经济或或投资结论(mmake tthe ecconomiic invvestmeent deecisioon)。上述第、步步是假定测试试的传统方法法,可以用pp值(pvaluee)方法来替替代这些步骤骤。 定义和解解释零假定(nnull hhypothhesis)和和替代假定(aalternnativee hypoothesiis)假定的类型有两两种: 零假定(tthe nuull hyypotheeses),用用H 0表

53、示; 替代假定定(the alterrnativve hyppothesses),用用H a表示。零假定:除非用用以进行假定定测试的样本本有证据表明明零假定是错错误的,否则则该假定就被被认为是正确确。如果有证证据表明零假假定是错误的的,则将导致致替代假定。替代假定,即零零假定不成立立时的假定。 单边(oone-taailed)假假定测试和双双边(twoo-tailled)假定定测试 假定公式。假假定某一群体体有参数为,0 为该参数数的一个值,对对于两者的关关系可以通过过下列三种方方式形成零假假定和替代假假定: H 0 :0 对 H a :0 (不等等于替代假定定) H 0 :0 对 H a :

54、0 (大于于替代假定) H 0 :0 对 H a :0 (小于于替代假定) 公式是双双边(twoo-sideetwo-taileed)假定测测试;公式与,是单边(oone-siideonne-taiiled)假假定测试。 讨论零假假定和替代假假定的选择最常用的是“不不等于(noot equual too)”替代假定,即即公式。如果有证证据表明参数数可能大于00或小于0,则则我们可以否否定零假定。然而,我们有时时要为我们“怀疑的(suuspectted)”或“希望的(hhoped for)”情形寻找支支持证据。在在此情形,我我们可以将替替代假定定义义为“该情形是真真的”,而将零假假定定义为“情形

55、的非真真”。如果证据据支持对零假假定的否定并并接受替代假假定,则我们们在统计上可可以肯定地认认为我们的想想法是正确的的。注意:“大于”和“小于”替代测试,比比“不等于”替代测试更更强烈地反映映了研究者的的确信。为了了强调态度的的中立性,在在有些时候即即使单边的替替代测试试合合理的,研究究者也会选择择“不等于”替代测试。 定义和解解释测试统计计(a teest sttatisttic)测试统计(Teest Sttatisttic)的定定义,是根据据样本计算得得出的数据,它它的值是决定定支持或反对对零假定的根根据。一般地地,测试假定定有如下公式式:测试统计 (测试统计 (0)s x为样本统计;0为

56、H 0下群体参参数的值(0);s x为样本统计的的标准误差(sstandaard errror)。对对公式的说明明:其他条件件不变时,ss x 越小,则则测试统计越越大,否定零零假定的概率率就越大。而而且,取样规规模n越大,则则s x 越小。测试零假定的测测试统计,遵遵循的概率分分布有四种类类型: t分布(对对t测试); z分布,即即标准正态分分布(对z测试); 卡方分布,即即the cchi-sqquare(xx2)disttributtion(对对卡方的测试试); F分布(对对F测试)。 定义和解解释误差类别别及误差类别别(typee erroor) 解释有效效度(a ssigniffic

57、ancce levvel)并说说明有效度在在假定测试中中的应用测试统计计算出出来后,有两两种可能的行行为,即:否否定或不否定定零假定。我我们行为的根根据是将计算算出来的测试试统计和特定定的可能值进进行比较。我我们选择的比比较值,是以以选取的有效效度(thee leveel of signiificannce)为根根据的。有效效度相当于证证明标准,它它反映了为反反对零假定所所必要的样本本证据。测试零假定时,存存在四种可能能的结果: 否定错误误的零假定,这这是正确行为为; 否定正确确的零假定,这这属于类型错误; 不否定错错误的零假定定,这属于类类型错误; 不否定正正确的零假定定,这是正确确行为。否

58、定H 0,只只能犯类型的错误;不不否定H 00,只能犯类类型的错误。我们用表示犯犯类型I的错错误的概率,这这个概率就是是有效度(tthe leevel oof siggnificcance);用犯类型III的错误的概概率。控制两种类型错错误的概率涉涉及到此消彼彼长(traade-offf)。假定定其他量不变变,减小则会增加;减小则会增加。同同时减小两种种类型错误的的概率的唯一一方法,就是是增加样本的的规模。在实践中,通常常不能对两种种类型的错误误的此消彼长长进行定量的的分析,因为为,类型III错误的概率率很难定量化化。通常,我我们只能将特定化。 定义测试试能力(thhe powwer off

59、a teest)如果测试的有效效度是不正确确地否定零假假定的概率,那那么测试能力力(the powerr of aa testt),就是正正确地否定零零假定的概率率,即正确地地否定错误的的零假定的概概率。某些情况,不止止一个测试统统计能够适用用于假定测试试。如果我们们知道这些测测试统计的相相对测试能力力,则在决定定使用的测试试统计时应选选择测试能力力最强的统计计。为了保证测试的的公正性,我我们应该在计计算测试统计计之前确定有有效度。在进进行假定测试试时,通常有有三个有效度度,即: 0.110、 0.005、 0.110。越小,证明明零假定是错错误的证据就就越强。 定义和解解释结论规则则(a d

60、eecisioon rulle)通常的原则可以以简述为:在在测试零假定定时,对于由由特定的有效效度所决定的给给定值,我们们将计算所得得的测试统计计的值与之进进行比较,如如果我们发现现两者同样极极端,或者后后者比前者更更极端,则我我们应该否定定零假定。如果结果是否定定零假定,则则可以说该结结果在统计上上有效;否则则,我们只能能说该结果在在统计上无效效。否定点或临界值值(rejeectionn poinntscrriticaal vallues)的的定义。测试试统计的否定定点,就是为为了决定否定定或不否定零零假定,而与与计算所得的的测试统计值值相比照的值值。对于单边测试,反反对点的表示示方法是,测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论