概率、机密函数和分布课件_第1页
概率、机密函数和分布课件_第2页
概率、机密函数和分布课件_第3页
概率、机密函数和分布课件_第4页
概率、机密函数和分布课件_第5页
已阅读5页,还剩123页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

读一本书,做一个设计参考书:欧姆社学习漫画:科学出版社《统计学》《回归分析》《因子分析》RichardPRunyon等著,王星译:中国人民出版社2007年版《行为统计学基础》第9版MichaelOFinkalstein等著,钟卫译:《律师统计学》第2版翻译的一套丛书读一篇文章,讲解一篇文章在各种英文数据库中寻找一篇应用性文章Lexis,JSTOR,Wiley,Heinonline,ProQuest,SSCI,TaylorandFrancis,SAGE,读懂,读通10周在课堂上讲解以下内容:主要研究的问题应用的方法得出的结论himewen@18732395怎样得到概率第一,利用等可能性事件:掷骰子、投硬币等没一面出现的可能性相等;K/N第二,使用相对频数:例如男孩和女孩的出生概率是多少?这一点我们并不知道(因为并不是一次只出生一个男孩或者女孩,存在多胞胎,龙凤胎的情况)。所以,我们通过长期的观察得到:0.49;第三,利用主观概率:例如,明天郊游时下雨的概率。因为明天就一个值,不能进行试验。概率的计算规则独立(互斥)事件:P(A+B)=P(A)+P(B)P(AB)=P(A)P(B)不独立(互斥)事件:P(A+B)=P(A)+P(B)-P(AB)P(AB)=P(A|B)P(B)=P(B|A)P(A)ABABP(A|B)=AB/BP(B|A)=AB/AABABP(A|B)=AB/BP(B|A)=AB/A条件概率与乘法公式见word“条件概率”贝叶斯公式E是空间中某实验的一个事件,G,~G是空间的一个划分!O(G)是先验概率比,O(G|E)代表后验概率P(E|G)/P(E|~G)是E的似然比,控方指出:我们假设有10万被打的妇女,其中1/2500个被自己的丈夫杀害了,即有40个人被丈夫杀害;如果这10万个妇女中被其他人杀害的人数是5个人(这个人数要远远少于被丈夫杀死的人数);那么:40/45就是一位被丈夫打过的妻子被自己丈夫杀害的比率。问题:辩方和控方的不同之处在哪里?谁的证据更准确?GEBBEG~GG~GEGE辩方.GE/E;控方.GE/GE+~GE.全体妇女、E:被丈夫打的妻子;G:被丈夫谋杀的妻子;~G:被别人杀害的妻子警犬案件

实验表明每100个飞机乘客中,会有一个人携带毒品。警察带一条名叫Merlin的警犬去机场帮助寻找嫌疑犯。Merlin如果闻到毒品,100%会叫;如果没有毒品,90%可能保持安静。Smith下飞机后,Merlin不停的叫,则Smith携带毒品的可能性是多少?=基率证据在法庭中的应用案例1:Kaminskyv.Hertz案

案件中唯一没有异议的证据就是撞伤原告的汽车有一个Hertz图标。另外,原告还提出另外一个基率证据,那就是在有Hertz图标的汽车中Hertz公司拥有90%的比率。(增加:Hertz公司有20%的汽车没有Hertz标志)(1)能否要求Hertz公司民事责任?(2)如果下雨天,看清楚汽车标志的概率是0.8,能否要求Hertz公司负民事责任?解答:A:肇事汽车上有Hertz标志B:肇事汽车属于Hertz公司已知:P(A)=0.8,P(B|A)=0.9,P(B|~A)=0.2求:P(B)全概率公式:P(B)=P(B|A)*P(A)+P(B|~A)*P(~A)=0.9*0.8+0.2*0.2=0.76案例3:Wood案

PaulWoods死亡时仅仅8个月,他死于发绀。Woods家是收养他的第二个地方。但是,他在最初被收养时,并未患上任何呼吸系统疾病。而当Paul在Woods家开始出现这类症状时,有几家医院曾对他进行治疗。在住院期间,Paul从未出现过持续发绀的症状。当Paul死亡时,内科医生无法确定其死因。然而,一名法医病理学家Dr.VincentDiMaio却怀疑Paul死于窒息。他作为专家证人在证人席上称:自己相信Paul死于窒息的可能性为75%,死于某种未知疾病的可能性是25%。他指出法庭现有的证据并不能排除Paul死于谋杀的合理怀疑。并且控方还有另一证据支持Dr.VincentDiMaio,控方指出,在过去的25年中,被告Martha曾照料过许多儿童,这其中既有她自己的孩子也有其他亲戚朋友的孩子。在此期间,在Martha的监护之下,有9个孩子至少20次出现发绀症状,其中7个孩子已经死亡。而且,与Paul案相似之处在于,这些孩子在离开Martha而呆在住院期间,均未出现呼吸系统的问题,并且,对于这些孩子的死亡,主治医生都不能确定这些孩子们的死亡的确切原因。频率分布图与机密函数面积=比例=概率A.X在某数字以前的图形面积;B.X小于某数字以前的汽车的比例;C.抽出一辆X小于某数字的汽车的概率。均值:标准差:图形:p=0.5p=!0.5CDF(Cumulativedistributionfunction)累积分布函数CDF.BINOM(quant,n,prob)数值。返回每次成功概率为prob的n次试验中成功次数小于等于quant的累积概率。例:硬币连续两次正面着地的概率是多少?连续生4个女孩的概率是多少?10个完全不懂的判断题,猜对6个(以上)的概率是多少?0.5*0.5=0.250.49*0.49*0.49*0.49=0.05764801(10*9*8*7/4*3*2*1)0.56*0.54=0.205=0.794921875二项分布与正态分布的关系:当p=0.5时,二项分布是对称的;当p<0.5,二项分布是正偏的;当p>0.5,二项分布是负偏的;当p=0.5,且n*p*q>=9时,二项分布将近似于正态分布。案例1.前面的抽签参加越战的案例365个标有生日标签的球放在盒子里,前182次,抽到前6月份生日的球应该约占50%。案例2.赌徒谬误(gambler‘sfallacy)

1913年8月18日,在蒙地卡罗的一间赌场里的轮盘游戏中,黑色不可思议的连续出现了十五次,人们开始近乎疯狂的冲着去押红色。当黑色连续出现了二十次以后,人们还进一步加大了他们的赌注,因为大家都认为在黑色连续出现了二十次以后再出现黑色的可能性已经不到百万分之一了。结果黑色是创纪录的连续出现了二十六次!这间赌场因此挣得盆缽满盈。

大家都有这种感觉:似乎黑色已经连续出现太多次,不可能再出现了。但是其实,在不考虑欺骗的情况下,随机的意义是事件与事件之间在统计学意义上是独立的,一件事情的发生在统计学意义上对另一件事情的发生没有任何影响。随机事件是没有倾向性的,是不可预测的,是没有记忆功能的。因此,就算黑色已经连续出现了N次,下一次是红还是黑都是随机的,认为黑色不太可能再出现而疯狂的去押红色是没有道理的;不管黑色已经连续出现了多少次,下一次的结果要不是黑色就是红色,二者出现的概率永运都是50%。问题:为什么案例1的前180次实验服从等概率规则,而案例2不服从等概率规则?答案:(1)辨析随机和独立的关系:随机表示事件的真正结果是不确定的,我们只能估计事件发生的概率。例如摸球和投硬币之前,我们都不知道到底是摸到前6月份的还是后6月份的。但是我么做出的最佳预测是50%,因为随机意味着总体中每一个事件出现的概率相等。(2)独立表示前一个事件对后一个事件没有影响。如果事件不独立,则不可能随机。独立是随机的前提,但是独立并不一定是随机。(3)小样本的情况下出现偏差(远离均值)的可能性要大于大样本出现偏差的可能性。但是,机会并不会纠正以前出现的偏差,只会稀释以前出现的偏差。也就是说,在这个例子中,虽然连续出现了26次都是黑色,但是并不是说下次就一定会出现红色来纠正26次黑色的偏差,只能说随着样本的增加,红色出现的次数接近总的次数的50%的机会会增加。案例2中,概率为:0.526=0.000000014901161而案例1中,365个球中,前182次抽到1-6月占一半以上的概率是:(182!/(91!91!))*0.5910.591=0.059061954151784超几何分布Hypergeometricdistribution定义:假设有总体个数为n,其中有m个被标记,从中不重复随机抽样N个,则抽出x个标记样本的概率。机密函数:均值:方差:

计算函数PDF.HYPER(quant,total,sample,hits)

返回当样本个体是从大小为total(n)的域(域中的hits(m)具有已指定的特征)中随机选择时sample(N)个时,具有指定特征的个体数等于quant(x)的概率。放回抽样与不放回抽样10个球,4个红球,6个白球;(1)重复放回抽样抽到3个白球的概率:0.63==0.216抽到2个红球,1个白球的概率:=0.288(2)不放回抽样抽到3个白球的概率:

=0.1667抽到2个红球,1个白球的概率:

=0.3所以,放回抽样服从二项分布;不放回抽样服从超几何分布。用四表格将超几何分布形象化很有帮助标记的

未做标记的

样本中的

xN-xN不在样本中的

m-x(n-m)-(N-x)n-Nmn-mn利用二项式定义:也就是将N与m置换。即当四格表的横列和纵列进行置换后,超几何分布公式得到的结果仍是一样的。

这意味着在应用中,谁被当做“在样本中的”和谁被当做“被标记的”并不重要。比如说,我们的研究中,把黑人狱犯作为抽样组来计算他们的假释概率,与将假释狱犯当做抽样组来计算他们中黑人的概率是一样的。使用概率来核对假设

硬币是公平的吗?任何概率都是建立在某种假设为真的前提下的。如果你告诉我,你手中有一枚硬币,如果把它扔到空中,那么它落地时出现的反面的概率是多少?我的回答是1/2,我之所以这么回答,是因为我假设你的硬币是真的硬币,而不是两面都是正面的假硬币。假设你不让我检查你的硬币的真假,那么,我可以从你投10次币出现的情况来检验。如果你10次投币出现的都是正面。我的检验过程如下:(1)建立假设:假设硬币为真硬币。(2)计算两种不同情况出现的概率:在硬币为真的情况下(假设为真的情况下),出现10次正面的概率为0.510=0.0009765625;

在硬币为假的情况下,出现10次正面的概率为1。(3)利用“小概率事件不发生”进行检验拒绝概率小于等于0.05的情况。因为假设为真的情况下,出现10次正面的概率为0.0009765625,小于0.05,所以,我们拒绝上述假设。得出不能肯定硬币为真的结论(而不是硬币为假的结论)。案例1:陪审团选择中是否存在歧视?1953年,美国佐治亚州的Avery,一个黑人被告,被陪审团裁定有罪,该陪审团是从全体60个陪审员中选出来的。他们的名字是从装有陪审团名册的选票盒子中抽取出来的,黄色的选票是黑人的,白色的选票是白人的。5%的选票是黄色的,然而在Avery案中一张黄色的选票也没有被抽中。美国小陪审团人数一般是6-12个;大陪审团人数12-23人。问:Avery案中是否存在种族歧视?

认为是二项分布:(1)假设Avery案中不存在歧视(2)假设为真时,一张黄色票都没有的概率:(0.95)60=0.046;(0.95)59=0.04849452524942358,0.05104686868360355,0.05953855510552950,0.07694497527671340,0.12851215656510337,0.14989025404881530,0.21463876394293720,0.35848592240854210,0.5987369392383791,0.95当N大于等于59时,一张黄票也没有的概率小于0.05;当N小于59时,一张黄票也没有的概率大于0.05;(3)所以,如果60个中选取59个以上的陪审员,则拒绝假设,认定存在歧视;选取58个以下的陪审员则接受假设,认为不存在歧视。注意:可以用非参数检验:nonparametrictests:binominal见SPSS“非参数二项分布检验”认为是超几何分布:(1)假设Avery案中不存在歧视(2)假设为真时,一张黄色票都没有的概率:也就是全部是白票的概率:当N>57时,P(0)=0,当N<=57时,P(0)=(60-N)*(59-N)*(58-N)/60*59*5857,0.00002922267679756,0.00011689070718950,0.00350672121566340,0.03331385154880238,0.04500292226767937,0.05175336060783136,0.0591466978375235,0.06721215663354727,0.15943892460549223,0.22706019871420222,0.22706019871420221,0.26706604324955820,0.28872004675628218,0.33547632963178810,0.5727644652249925,0.7666569257744031,0.949999999999962所以,当N小于等于37时,一张黄票都没有的概率大于0.051;当N大于等于38时,一张黄票都没有的概率小于0.05。(3)所以,如果60个中选取38个以上的陪审员,概率小于0.05,则拒绝假设,认定不能肯定不存在歧视;选取37个以下的陪审员,则接受假设,认为不存在歧视。问题:(1)本题为什么使用PDF,而不使用CDF?随便提出:IDF是反分布函数,而非反函数,也就是说IDF是CDF的反函数,而非PDF的反函数。(2)nonparametrictests:binominal中,是否需要使用weightcases?(3)nonparametrictests:binominal中,将race中黑人设置为1,那么,将白人设置为0,或者设置为2,两者是否有区别?用PDF检验小概率和用CDF检验小概率比较反证法原理与假设检验原理反证法原理:在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。假设检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。连续变量的分布正态分布和中心极限定理机密函数:其中,是均值,是标准差σ=0.5σ=1σ=2μ一定Ox区间取值概率中心极限定理

a.独立随机序列组X1,X2……Xn,Yn=X1+X2+……+Xn,Zn=

不管Xi服从何种分布,当n相当大的时候,Zn服从标准正态分布。b.从任何固定总体(无论总体分布的形状如何)中抽取固定大小N的随机样本,当N增大的时候,样本均值的分布接近正态分布,且均值接近于总体均值,样本均值的标准差等于正态分布的检验有2种检验方法:P-P图、Q-Q图;非参数K-S检验;K-S检验:比较理论累积频数和观测的累积频数分布,找出两种分布的最大差异点。如果样本服从理论分布,则最大差异值不应太高,否则就应该拒绝假设。P-P图:根据变量的理论累积概率和观测累积概率,以及累积概率的理论值和实际值之差制成的残差图,更加直观的观测每个观测点与理论点的拟合情况。Q-Q图:根据变量的理论百分位数和观测的百分位数,以及百分位数的理论值和实际值之差制成的残差图,更加直观的观测每个观测点与理论点的拟合情况。切比雪夫不等式与平均相差2个标准差以上的值,数目不多于1/4与平均相差3个标准差以上的值,数目不多于1/9与平均相差4个标准差以上的值,数目不多于1/16……与平均相差k个标准差以上的值,数目不多于1/K^2

其中k=E/O案例:Branion案Branion被指控谋杀他的妻子。但是Branion称:他没有作案时间,上午11:30,他在医院接待病人,回家中途两次停留,发现妻子被杀死,于11:57打电话到警察局报案。统计争论在于:驾驶时间和勒死时间。警察在同一路线上重复驾驶6次,时间为6-12分钟,时间不等,平均时间为9分钟;法医解释,要形成可观测的勒痕,需要15-30分钟。Branion强调:驾驶时间和勒死时间都服从正态分布;一段6分钟的驾驶会偏离9分钟的均值3个标准差,即驾驶时间的标准差为1分钟;一段15分钟的勒死时间会偏离22.5分钟的均值3个标准差,即勒死时间的标准差为2.5分钟;每个事件中的P值小于0.01;所以联合事件的概率小于0.0001,所以,他有罪的概率小于0.0001。请问:Branion假设的标准差正确吗?两个事件(驾驶和勒死)可能独立吗?如果独立,Branion有罪的概率是多少?1.是否服从正态分布?我们认为,如果是能够利用均值,那么样本均值的抽样分布肯定服从正态分布。但是,本题中的实验次数比较少,只能够考察样本分布。如果样本不受其它明显因素的影响,而是单纯的测量误差,那么我们可以认定为随机变量,而近似的服从正态分布。驾驶时间:可能受熟练程度、是否高峰期间等的影响,如果上述6次的测量能够排除这些影响,可以近似认同服从正态分布;勒死时间:可能行为人的最大侵害力度、被害人的反抗力度等的影响,如果上述估计是排除这种影响,则也可以认同服从正态分布。2.是否独立?驾驶时间和勒死时间一般来说是独立的,除非行为人有意的限定报警时间。3.标准差的估计是否正确?如果是服从正态分布,用3倍标准差估计当然是合理的,因为3倍标准差的置信水平达到了99.7%;如果是不服从正态分布,我们利用切比雪夫不等式进行估计。驾驶时间的标准差的估计:设:6分钟距离平均9分钟K倍标准差:根据切比雪夫不等式:因为6分钟是6次实验中的1次,所以勒死时间标准差的估计设:15分钟距离平均22.5分钟K倍标准差:根据切比雪夫不等式:假设15分钟是100次实验中的1次,所以所以,勒死时间的标准差估算基本合理,而驾驶时间的标准差估算稍小。

4.如果独立,有罪的概率?(1)如果服从正态分布,有罪的概率27分钟与均值(9+22.5=31.5)分钟相差4.5分钟。在标准差分别为1分钟和2.5分钟的情况下,和的标准差为(),所以偏离个标准差,用CDF.NORMAL,得到有罪的概率小于等于0.096;(2)如果不知道服从的分布,则用切比雪夫不等式:27分钟与均值(9+22.5=31.5)分钟相差4.5分钟。在标准差分别为1分钟和2.5分钟的情况下,和的标准差为:

所以偏离个标准差,得到有罪的概率小于等于(2’)如果不知道服从的分布,则用切比雪夫不等式:27分钟与均值(9+22.5=31.5)分钟相差4.5分钟。在标准差分别为分钟和0.75分钟的情况下,和的标准差为:

所以偏离个标准差,得到有罪的概率小于等于抽样分布三种不同性质的分布总体分布样本分布抽样分布单一样本的分布均值、比例、方差两个样本的相关分布均值差、比例差、方差比总体分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布

三种不同性质的分布总体样本分布一个样本中各观察值的分布也称经验分布

当样本容量n逐渐增大时,样本分布逐渐接近总体的分布

样本抽样分布样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远的、稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据

samplingdistribution总体计算样本统计量例如:样本均值、比例、方差样本抽样与抽样分布的基本概念基本概念总体参数:总体分布的数量特征,统计推断的对象常见的总体参数:均值、方差、标准差样本统计量:样本均值、比例、方差样本容量:从总体中抽出的部分单位的集合大小例如:对顾客消费数额进行统计分析时,随机选取的顾客人数大样本与小样本:抽样方法:重复抽样与不重复抽样(区别:选取的样本是否放回)几种抽样分布t分布(Studenttdistribution):用来比较两组(一组)样本是否来自于同一个总体。

机密函数:其中:均值为,标准差为:,df=n-1t分布和标准正态分布的关系

自由度(dfdegreeoffreedom):自由度:对数据添加特定的约束之后,能够自由变动的观测数。例如:假设我们得到18,23,27,32这四个数组成的一个样本,总和等于100,均值等于25。如果将每个数减去均值,偏差和就必须等于零。这也就是所有样本分布必须满足的一个约束条件:均值的一阶矩等于零。对于有n个变量,一个约束方程方程的情况下,自由度是n-1。也就是当前面n-1个自由确定之后,第n个就只能够根据方程来确定了。

分布(卡方分布Chi-squaredistribution)用样本资料对关于总体中两个变量是否相关进行检验。其中f0是交互表的实测频次(observedfrequencies),fe是两个变量不相关的情况下交互表中每个格的期望频次(expectedfrequencies)。案例:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人,调查结果是:吸烟的220人中37人患病,183人不患病;不吸烟的295人中21人患病,274人不患病。患病不患病总计吸烟37183220不吸烟21274295总计58457515我们将上述问题用下表表示:上表是实测表,我们可以根据实测表,得到期望表。

患病不患病总计吸烟aba+b不吸烟cdc+d总计a+cb+da+b+c+d列出2×2列联表

假设H0:吸烟和患病之间没有关系即H0:P(AB)=P(A)P(B)其中A为某人吸烟,B为某人患病设n=a+b+c+d则P(A)P(B)故P(AB)吸烟且患病人数吸烟但未患病人数不吸烟但患病人数不吸烟且未患病人数患病不患病总计吸烟25195220不吸烟33262295总计58457515期望表为即卡方统计量见SPSS“卡方的计算”机密函数:均值:等于自由度df=(r-1)(c-1),r,c分别代表交互表的行数和列数标准差:是正态(0,1)分布的平方和分布F分布(Fdistribution)用来进行方差检验其中两个样本的自由度分别为:df1=n1-1;df2=n2-1机密函数:F分布是两个卡方分布的商的分布样本均值的抽样分布容量相同的所有可能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1、x2=2、x3=3、x4=4。总体的均值、方差及分布如下总体分布14230.均值和方差

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)X样本均值的抽样分布1.0P(X)1.53.04.03.52.02.5样本均值的分布与总体分布的比较

(例题分析)=2.5σ2=1.25总体分布14抽样分布P(X)1.01.53.04.03.52.02.5X样本均值的抽样分布

与中心极限定理=50

=10X总体分布n=4抽样分布Xn=16当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X的数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)中心极限定理

(centrallimittheorem)当样本容量足够大时(n

30),样本均值的抽样分布逐渐趋于正态分布中心极限定理:设从均值为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论