管理定量分析方法.ppt_第1页
管理定量分析方法.ppt_第2页
管理定量分析方法.ppt_第3页
管理定量分析方法.ppt_第4页
管理定量分析方法.ppt_第5页
已阅读5页,还剩376页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

管理定量分析方法本科生课程,第一讲:管理定量分析的性质与运用,本讲主要内容,1课程性质与内容2课程学习方法3管理学研究和定量分析4定量分析在管理实务中的应用5本课程的日程安排6本课程的考试方法7课外作业,1课程性质与内容,管理定量分析是一门工具性课程,主要讲授广泛应用于管理研究与管理实务中的各种定量分析工具,是一门应用性很强的课程。管理定量分析主要包括两个领域:优化方法(或系统工程)与应用统计学。由于学时和大家数学基础所限,本课程主要讲授应用统计学中的基础统计学。,2课程学习方法,1)不要试图去证明相关的定理,而是要懂得这些定理后面的逻辑或原理。2)不要死记相关的计算公式和方法,而要懂得这些方法和公式后面的逻辑和适用条件。3)也不要去手工计算,要学会用计算机去完成相关的计算工作。你的精力要集中在计算结果的解释,以及就结果对你研究的问题的意义进行判断。(注:为了熟悉原理而进行的简单计算例外)“把证明留给数学家,把计算留给计算机,把原理与逻辑留给自己”,3管理学研究与定量分析,31梅奥的霍桑实验3-2定量分析在管理学研究中的地位,31梅奥的霍桑实验,梅奥的霍桑实验(HawthorneExperiments)中有关非正式组织的研究。,GeorgeEltonMayo,18801949,目的是要证实在工人当中存在着一种非正式的组织,而且这种非正式的组织对工人的态度有着极其重要的影响实验条件:(1)人员:14名男职工,其中9名绕线工,3名是焊接工,2名检验工;(2)计件工作制度。实验结果:工人每天只完成了60006600个焊接点(标准每个工人应该完成7312个焊接点),且天天如此。为什么?,解释1:可能是这些工人的智力或者动作协调性有问题。研究测试结果否定了这一解释。合理的解释:工人们自动限制产量的理由是,如果他们过分努力地工作,就可能造成群体内同伴的失业,或者公司会制定出更高的生产定额来。所以群体会迫使其中的个体进行一致限产。也就是工人会受到非正式组织的影响。,让我们总结一下该研究的研究过程,3-2定量分析在管理学研究中的地位,管理学研究的一般程序(1)提出和形成问题(2)文献综述(3)假设的提出(4)概念定义及其变量操作化(5)数据收集(6)数据分析(7)结论及其分析(8)研究报告写作从上面可以看到,在(6)中定量分析具有重要的地位,它是数据分析的主要方法,4定量分析在管理实务中的应用,估计出租车数量(第二讲数据收集、描述性统计与SPSS简单应用)估计某中濒危动物的数量(第三讲中的概率知识)假设你是劳动人事局的项目评估人员,要对一项针对下岗职工的就业培训项目进行评估,你发现参加了这个培训项目的下岗职工中有60%找到了工作,而没参加这个项目的下岗职工中只有45%找到了工作.你如何对这项目的有效性加以评估?(第三讲,假设检验)如何判断几个政府部门的绩效是否确实存在差异(第四讲方差分析)如何估计盗窃数量?(第五讲回归分析),其他:聚类:社会阶层的划分,经济区域的划分.红学中的作者研究主成分分析:地区生产率的排序.制衣业中规格的确定判别分析:信用等级判定,是否偷税漏税?企业是否会破产?,5课外作业,课外作业1)随机找N个同学,让他们在O/V两个字母中任选一个(不要思考),并用纸笔记录下每个人的选择。2)随机找N个同学,让他们从110十个数字任意选择一个数字(不要思考),并用纸笔记录下每个人的选择。,第二讲数据获取、描述性统计与SPSS简单应用,本讲内容,1统计学的主要思想2数据获取3.单变量描述性统计,1统计学的主要思想,11随机性中的规律性12规律性中的随机性13概率(probability)14变量(RandomVariable)15总体与样本(PopulationandSample),11随机性中的规律性1)随机性是指不能预测某一特定事件的结果。2)规律性是指我们从许多随机事件中收集数据时发现的模式。统计可以看着是对随机中的规律进行研究的学科。,12规律性中的随机性1)在进行统计观察的时候,大部分时候我们都得不到完全一模一样的观察结果。所以规律也表现出某中随机性,这是统计的一个重要的本质特征。2)所以任何两次数据收集过程中,得到的结果一般都有差异。关键是这种差异是可以用数据本身的随机性进行解释,还是差异达到了无法用随机性进行解释?当两种规律的差异超出了随机性本身的范围的时候,变化趋势就发生了。所以统计也是对数据中的偏差问题进行研究的学科。统计把单独的、随机事件置于规律中,并揭示出其变化的趋势。,研究随机性和规律性的例子20世纪50年代,小儿麻痹症育苗的研究。,问题是:56和138之间的差别是否超过了随机性所能解释的范围。,思考题拧松水龙头,让其刚好到只有水滴下来,计算并记录15分钟内每个20秒里的水滴数。利用你的数据,请说出该水滴在什么方面是随机的?什么方面又是有规律的?,13概率(Probability)在讨论随机性的时候,统计学的大部分内容根基于一个很重要的概念概率。概率是一个取值介于0到1之间的数,告诉我们某一特定的事件以多大的机会发生。对于两个数字的差别是否超出了随机性本身所能解释的范围,我们可能永远无法肯定。但是我们可以确定,这种差别超出随机性能解释的范围发生的概率是大还是小。,14变量(variable)统计的又一块较大的基石是变量。变量简单的说就是事物的特征或者属性。研究者在研究项目开始的时候,就要确定他们所要研究的变量是什么。变量的值(value)通常是对某一个特定单位的度量,这种单位常常被视为一个个体(element)。什么是个体取决于你的研究问题。,思考题:指出下面研究中的变量、变量的值、个体是什么?1)研究淮海工学院男生的身高和体重之间的关系。2)研究连云港市居民对打的加收燃油税这项政策的满意程度。3)统计江苏省个县市的工业生产总值。,15总体与样本,思考题:请判别下面研究问题中的总体与个体是什么?(1)如果你对淮海工学院女生的身高感兴趣,想研究下其分布。(2)如果你想研究连云港市的高新技术企业的盈利情况。,总结一下,1)随机性和规律性是统计学的两个重要概念。规律性本身包含着随机性。统计可以定义为在随机性中寻找规律性,当两种规律之间的差异超出了随机性本身的影响(或者解释范围),变化趋势就发生了。2)概率为我们从数据中得出结论提供了基础,统计学家利用概率判断数据间的差异是否超出了随机性本身的影响。3)变量可定义为一个特征或属性,我们的数据收集都是针对一个个变量进行的。4)统计很少对总体进行直接的研究,都是通过对具有代表性的样本的研究,来对总体的信息进行推断。,2数据收集,21定义变量22变量的测量层次23观察数据抽样调查:问题和可能性24问卷设计中常出现的问题25数据文件的格式,21定义变量数据收集的第一个工作,就是要清楚测量和收集什么。你要将你的研究问题转化为用变量的语言来描述,并且要对变量进行清楚的定义。例如:思考一下,假设你想了解一个家庭孩子的数量,你设计的问题为:“在你家庭中有多少个孩子?”,该问题存在什么问题?(C),至少存在以下问题:(1)孩子是否应该小于18周岁?(2)孩子是仅仅指亲生子女,还是包括养子养女?过继的算不算?对于不和亲生父母生活在一起的孩子算不算?父母离了婚而共同抚养的孩子怎么算?所以要对“孩子”这个变量做清楚的界定。思考:这个调查问题存在什么问题:“请问贵企业的销售收入是多少?_”,22变量的测量层次1)思考题:请回答以下收集到的数据,可以进行“”,“、”,“,”中的哪些运算?(1)五个人的性别:1,0,0,1,1(1:男性;0:女性)(2)五个人的身高:170,173,165,180,161(单位:厘米)(3)七天的气温(摄氏温度):15,24,27,18,34,30,19。(4)五个人对一项政策满意程度的评分:5,3,3,4,2(1:十分不满意;2:不满意;3:一般或中立;4:满意;5:十分满意),2)按照数据适合的运算规则,统计学将数据(或变量)划分为四个层次:(1)定类数据(nominalsale)(变量)。它仅仅是一种标志,取数值仅仅是用以区分变量中的类型名称。不适合任何四则运算和大小运算。(2)定序数据(ordinalscale)。定序数据值能够比较大小,不能够做加减乘除运算,它表示一种次序。,(3)定距数据(intervalscale)。这类数据可以做大小比较以及加减运算,不能做乘除运算。数据之间的距离是相等的。其根本特征是,数据中的0不是物理客观存在的,而是人为设定的。例如:温度测量值就是定距。(4)定比数据(ratioscale)。定比数据是数据中最高层次的测度等级。这类数据可以做大小比较和加减运算外,还可以做乘除运算。这时的0值不是人为确定的,而是物理客观存在的。例如:人的身高数据、体重数据。,思考题:1)我们用一个量表测量人们对一项法律的态度,如果1表示不赞成,2表示无所谓,3表示赞成,对于3个人我们测得的值分别为:3、1、2,这些数据为_数据。2)测量10个大学生所在的年级,如果用1表示大一、2表示大二、3表示大三、4表示大四、5表示其他。测量的值为:1、3、4、1、2、3、2、1、1、4,这些数据为_数据。3)测得5个人的第一次结婚年龄(单位:周岁)为:20、22、24、30和26,这些数据为_数据。,注意三点:1)SPSS中将定距数据和定比数据合并为一类,叫刻度级数据。所以SPSS的数据测量层次只有三种。2)一项统计方法适合低级别的数据,也适用于高级别的数据。但反过来不成立。例如我们可以计算身高数据的均值,但不能计算五个人性别的均值。3)在社会科学研究对定序数据的处理有两种方式:一是将其作为定类数据看待;另一是将其作为刻度级数据看待。,23观察数据抽样调查定义:凡是在获得数据的过程中,不对被调查对象数据产生的条件施加任何控制所得到的数据,称为观察数据。两种方式:普查与抽样调查。普查(Census):就是收集总体中的所有个体的数据。抽样调查(Sampling):是在总体中选择出一个样本,然后对样本中的个体进行调查,从所了解的样本数据来推断总体情况。,抽样调查的优点:(1)经济性。(2)时效性强。抽样调查可以迅速、及时地获取到所需要的信息。(3)准确性高。抽样调查的一个原则:“确信锅里的汤被搅拌均匀”。,抽样调查的方法:概率抽样(Probabilitysampling)非概率抽样(Nonprobabilitysampling)概率抽样(Probabilitysampling)(1)简单随机抽样(simplerandomsampling):就是等概率抽样,每个个体以相同的概率被抽中。这也可以分为重复抽样和不重复抽样两种形式。(2)分层抽样(Stratifiedsampling):在抽样之前将总体划分为不同的层(群),然后在各个层中抽取一定数量的元素组成样本。分层抽样的时候应该是各个层内之间的元素的差异比较小,而使层之间的元素比较大。各个层的划分要根据研究者的判断和研究目的。,(3)等距离抽样(systematicsampling,系统抽样):首先将总体中的个体按照某种顺序排列起来,然后按照某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直到抽满n个元素形成一个样本为止。(4)整群抽样(Clustersampling):就是首先将总体划分为若干个群,然后以这些群为抽样单位从中抽出部分群,在对抽选出的群中的所有元素进行观察。思考题:假如你要调查连云港市市区内的居民月收入,假设抽样容量为1000。你如何展开抽样?,非概率抽样(Nonprobabilitysampling)(1)便利抽样(Conveniencesampling):研究者出于收集数据的便利,而不考虑抽样的概率,所进行的抽样。例如:街头访谈、电话访谈、向自己的亲朋好友收集数据。这种样本数据收集过程都加入了某中人为的干扰和选择,所以从方便样本中得出的结果对于总体信息的推论程度是有限的。思考题:有时候杂志要求读者回答某些问题并寄回答案,从而构成一个样本。请问这个样本能不能代表读者群总体?为什么?,(2)判断抽样(Judgmentsampling):是指经过专家考虑后,以适当的方式进行抽样。例如:研究青少年吸毒问题。,24收集观察数据过程中常出现的误差两大类:(1)未响应误差(nonresponseerror)。没办法,现在的响应率确实太低了。据估计:一次好的电话调查,响应率8590;一次邮寄调查的响应率很少有达到50的;即使是名声比较好的调查组织的响应率也经常不超过60。,(2)响应误差(responseerror)。即使所有的问题都有了回答,我们所知道的也仅仅是调查时人们告诉访员的,而未必是它们实际上做的、感觉的或所想的。影响响应误差的因素很多,常常有:(A)问卷的长度。(B)问题的措词。要通俗易懂;要准确而不笼统;避免双重否定形式的提问。1992Roper协会做的调查:“在你看来,纳粹对犹太人的灭绝从未发生过是可能的还是不可能的”(22怀疑)1994“在你看来,纳粹对犹太人的灭绝从未发生过可能吗?还是你确信它发生过?”(1),避免诱导性提问,(C)问题所在的位置。不要将敏感性问题放在问卷的前面,要结束调查时的问题要短且简单。(D)调查员的影响。调查设计者要尽量让调查员和被调查者在人口统计特征上相近,如:年龄、性别、种族等。特别是在调查一些敏感问题时尤其如此。例如你要调查女性对化妆品的看法,找男性去就不合适。,最后要提醒大家的是:(1)任何一种抽样程序的一个普遍困难是,很少有一份完全包括属于总体的所有个体的名单。即使存在这份名单,这份名单也往往是不完全的。(2)要总是对你的数据采取一种怀疑态度,这样收集到的数据才可能尽量可靠(3)仅仅使用观察数据来进行因果关系的判断是十分困难的。,25数据文件的格式,3.描述性统计,31样本数据的基本特征:频次和频率32刻度级数据的数据结构:茎叶图和直方图33数据中心描述34离散趋势描述:点描述和区间描述。35综合表述:箱形图,31样本数据的基本特征:频次(Frequency)和频率(Percentage),所谓频次就是一个特定数据值在整个数据集合中出现的次数。频率就是某个特定数据值出现的频次与数据集合的数据总数之比。一个延伸的概念是累积频率,当数据的测量层次在定序级以上时,设x1x2xm,是样本数据集合中的不重复的样本值(mn样本个数)。若把样本值小于等于某个样本数据xi的频率值,都累加起来,就得到“小于等于xi”的累积频率思考题:累积频率适合于何种测量层次的数据?,条形图(BarChart),女性结婚年龄,30,29,23,37,27,33,23,24,56,29,44,22,40,22,29,27,30,33,30,31,26,29,25,24,31,46,23,26,24,25,60,23,19,34,25,27,25,经济,10%,管理,25%,会计,65%,饼状图PieChart,1.表示出总量的分类2.是表示相对差异的有效办法3.角度大小360(百分数),专业,(360)(10%)=36,36,0,1,2,3,4,5,3-2直方图Histogram,频数频率百分数,01525354555,下界,柱条接触,计数,类别,频数,1525,3,2535,5,3545,2,直方图的注意点,对于直方图的形状我们关心:(1)是否为单峰(unimodal)?如果是单峰的,则说明观测中只有一组是主要的;否则呢?(2)是否对称(symmetric)?值得注意的是,有时由于人为的构造,对同一个数据集的直方图会让人产生错觉。(1)区间的划分数目可能产生差别;(2)纵轴的刻度选择。一般来说,区间划分数为510个比较好,33数据中心描述,常用的有三个:“样本中位数(Median)”、“样本众数(Mode)”和“样本均值(Mean)”。中位数:就是将资料排序(从大到小,从小到大都可)后,居于中间位置的那个数称为中位数。用表示。,当n为奇数的时候:,当n为偶数的时候:,众数、中位数与均值之间的区别:1)一般来说,众数适合于定类数据;中位数适合于定序数据及其以上的数据;均值适合于样本均值;2)中位数只与位置有关,它只利用了数据集中的少数几个数据(最多两个数据)的信息,对极端值不敏感。而均值则利用了数据集中所有数据的信息,极容易受到极端值的影响。3)对于刻度级数据,很少用众数来代表其集中趋势的;如果存在极端值的时候,要用中位数来代表数据集的集中趋势。,思考题1:一般来说,最适合代表定类数据的集中趋势的是:_.(A)中位数;(B)众数;(C)平均数;(D)方差。,2)6个人的身高数据为:173cm、173cm、178cm、176cm、171cm和226cm,请你选择代表这个数据集集中趋势,最适合的是:_.A、中位数;B、众数;C、平均数;D、方差。,案例:估计一个城市的出租车数量,某城市的出租车数量少,某位统计学家等了几辆车,发现都是满载的。这位统计学家就怀疑这城市到底有多少出租车,以至于不够用。如何进行估计?他开始记下满载的出租车号,依次为:405,280,73,440,179。你如何根据这些资料推断这个城市的出租车数量?上车一问该城市一共550辆出租车。,相对误差为|550527|/550=0.04,(M+1)/2=280也就是说M=559,相对误差为:|559550|/550=0.02,思考题:1)你还能想出其它方法吗?2)我们这样做的时候有什么假设,其他方法:利用均值:(M+1)/2=(73+179+280+405+440)/5=275也就是说M=549,相对误差为:|549550|/550=1/5500.002。,34(1)离散趋势点描述,(1)极值两个极值:最大值(Maximum)和最小值(Minimum)适合于定序级以上的数据(2)下四分点(lowerquartile)与上四分点(upperquartile)Q1下四分点把排序后的样本数据集合分成了左右两部分,使其左边部分包含了25%的样本总个数,使其右边部分包含了75%的样本总个数。上四分点则刚好相反。(3)上下十分位点(percentile)Q3下十分点把排序后的样本数据集合分成了左右两部分,使其左边部分包含了10%的样本总个数,使其右边部分包含了90%的样本总个数。上十分点则相反。,44(2)离散趋势区间描述,1)极差(Range,也称为全距)极差极大值极小值,用Rn表示它反映了样本数据在数轴上的分布范围。2.)四分位距(Interquartilerange)四分位距(Iqr)Q3Q1它反映了样本数据集合中样本值处于中间大小的1/2的数据的分布范围。,全距和四份位距的适用范围。思考题:请问下列两个数据集用全距来代表该数据集的离散趋势,适不适合?为什么?A)72,70,68,74,75,65,69,71,73,74Rn7565B)96,70,68,74,75,65,69,71,73,74Rn966531,3)样本离差(Deviations)与离差平方和(Sumofsquareddeviations)样本离差被定义为每个样本与样本均值之差:xi,i1,2,n样本离差又称为样本中心化数据。反映数据集对均值的总偏差指标:离差平方和。离差平方和被定义为:,4)离散状况的统计值描述:样本方差(Samplevariance),s2=为什么用离差平方和除以,而不是除以样本个数。样本标准差(StandardDeviation)的定义是S=,注意:1)对于单峰对称分布的变量,有经验法则:A)大约有68的数据在均值的正负1个标准差的范围之内;B)大约有95的数据在均值的正负2个标准差的范围之内。(至少75)C)大约有99的数据在均值的正负3个标准差的范围之内。(至少89)(正负4,至少94)所以观察值的极差大致上等于4个标准差。,5)变异系数(CV,Coefficientofvariation),方差的缺点:受度量单位的影响。所以定义样本变异系数定义为:样本标准差与样本均值之比:,CV经常作为金融研究中的投资风险度量指标。另外,CV还可以用于比较不同事物之间的离散程度比较。,例:两种投资组合:甲、乙,表中是9笔过去半年期投资报酬率,请问哪种投资组合的风险大?,注意,两者的标准差相同:0.05696。但是CV甲58.25%CV乙91.45%所以乙的风险较大。,6)标准得分(StandardizedScore),30,29,23,37,27,33,23,24,56,29,44,22,40,22,29,27,30,33,30,31,26,29,25,24,31,46,23,26,24,25,60,23,19,34,25,27,25,定义:一个原始值的标准得分,表示原始得分与均值的距离的新得分,这个得分用标准差为单位来衡量。(30-19)/9=11/9=1.22,假设男性结婚年龄的均值为32.4,标准差为11.2;同样可以求得,17岁的新郎的标准分为-1.38。所以,新郎的结婚年龄更反常。思考题:如果变量的观测值是单峰对称分布,那么标准得分的值大部分(95)在那个区间范围内?,35综合表述:箱形图(BoxPlots),箱形图法是综合表达数据的中心特征和离散特征的图形方法。,第三讲概率论基础知识回顾,本讲内容,1概率论发展简史2概率论专有名词3概率的含义4获得概率的基本方法5概率的加法法则,6联合概率、条件概率和独立事件7贝叶斯公式8相关的概念优势9离散变量的概率分布10连续变量的随机分布,1概率论发展简史,11概率论的起源,Pascal(16231662),Fermat,(16011665),1654年,赌金分配问题,赌金分配问题梅雷说:有一次他与某赌友(代称为A先生)掷骰子时,各押32个金币为赌注,双方约定如果谁先赢得3局,就可以把赌金全部拿走,但因为梅雷临时有事,所以赌局不得不中途中断。此时梅雷已经赢得2局,而A先生只赢1局,如何公平分配赌金?,起点,费马:,帕斯卡尔:,1655年,荷兰数学家惠更斯(ChristopherHuygens)访问巴黎时,了解到帕斯卡尔与费马的通信研究,对这类问题产生兴趣,后来,他撰写骰子游戏(DiceGame,1657)来探讨机率问题的原理,其中包含许多习题,被许多人认为是机率史上第一本教科书。提出了期望的概念。1713年,瑞士数学家伯努利(JacobBernoulli,16541705)出版了猜度术一书,提出了大数定理。,1765年,法国数学家棣莫弗(A.DeMoivre,16671754)的机会的学说一书出版,1733年就发现了正态曲线,以及论述了不存在运气。蒲丰(G.L.LBuffon,17071788)于1777年提出了投针问题的几何概率:h/n=(2r/).-1933年,俄罗斯数学家科尔莫戈罗夫(19031987)以德文出版的经典性著作概率论基础,标志着概率论的公理化完成,这就是我们现在看到的概率论的情形。,2概率论专有名词,随机实验:满足如下三个条件就可以称之为随机实验:(1)在同一条件下可无限次重复;(2)实验结果有多个,且不确定;(3)事前不知实验结果(outcome)。抛硬币基本事件:一次随机实验的可能结果,称为基本事件或者基本随机事件。若随机实验E是“抛两次硬币”,其基本事件就是“+、”,“+、+”,“,”,“,+”。样本空间:所有基本事件所组成的集合,称为样本空间或基本空间。接上例,其样本空间就是集合“+、”,“+、+”,“,”,“,+”。,随机事件:简称事件,指一些由基本事件所组成的集合。例如,接上例,事件“两次出现相同面”,就有两个基本事件组成:+、+”,“,”。不相容事件:在随机试验中,不能同时发生或其交集为空集的几个事件,称为不相容事件。反之为相容事件接上例,事件“两次同时出现正面”和“两次同时出现反面”就是不相容事件。“至少出现一次正面”和“至少出现反面”就是两个相容事件,3概率的含义概率是一个0到1之间的数,描述了一个事件发生的经常程度。小概率(接近于0)的事件很少发生,而大概率(接近于1)的事件则经常发生。概率对统计的意义。对于统计,概率告诉我们,在样本数据的基础上,如果试验重复多次,各种结果发生的经常程度是多大。,.5,0,1,不可能,必然,4获得概率的基本方法,41利用等可能性事件42使用相对频率的方法43利用主观概率,41利用等可能性事件如果试验有n种可能的结果,使某特定事件出现的结果数量为k,那么(k/n)就是出现该事件的概率。,k,n,思考题:一副扑克52张(大、小王去掉),洗均匀,随机取一张牌,那么该张牌是梅花的概率是多少?,要注意两点:,(1)分清楚你求解问题中什么是你的n,什么是你的k。如,得胜的同学是A班男生的概率A班男生得胜的概率。(2)其实我们在这样做的时候,就已经接受了两个前提假设:a)实验的可能结果是已知的;b)由于对称性,每一个结果的可能性都是相同的。往往这两个前提假设不一定满足.,42使用相对频率的方法基于大量重复实验中某个特定事件出现的次数的比例接近于该事件的概率真值。此时,概率是一个长期的比率,是长期观察某一事件的结果,这种概率的准确数值我们是永远得不到的,但是大量观察值使估计概率的数值(即相对频率)无限接近于真值。,43利用主观概率一次性事件的概率叫主观概率(subjectiveprobability)主观概率是贝叶斯(Bayes)统计推断的基础。,5概率的加法法则,51概率的加法公式52概率计算的工具联列表53加法法则示例,51概率的加法公式(AdditionRule),复合事件(CompoundEvent)的概率2)P(A或B)=P(AB)=P(A)+P(B)-P(AB)3)对于互斥事件:P(A或B)=P(AB)=P(A)+P(B),A,B,AB,A,B,事件,事件,B,1,B,2,总计,A,1,P(A,1,B,1,),P(A,1,B,2,),P(A,1,),A,2,P(A,2,B,1,),P(A,2,B,2,),P(A,2,),总计,P(B,1,),P(B,2,),1,52概率计算的工具联列表,联合事件JointProbability,边际(简单)概率Marginal(Simple)Probability,53加法法则示例,复合事件:抽一张牌.注意种类,颜色,颜色,类型,红,黑,总计,A牌,2,2,4,非A牌,24,24,48,总计,26,26,52,P(A牌或者,黑色),=,P(A牌),+,P(黑色),-,P(A牌,黑色),6联合概率、条件概率和独立事件,61联合概率、条件概率的定义62用联列表表示条件概率63用树形图表示条件概率64乘法公式和事件的独立性65事件独立性的应用,61联合概率、条件概率的定义,联合概率就是两个事件A与B同时发生的概率,记为P(AB)。条件概率:在B发生的条件下A发生的概率,就是B发生的条件下A发生的条件概率,记为P(AB)。P(AB)=P(AB)/P(B),颜色,类型,红色,黑色,总计,A牌,2,2,4,非A牌,24,24,48,总计,26,26,52,62用列联表表示条件概率,条件事件:抽一张牌.注意种类,颜色,修正后的样本空间,A牌,黑色,P(A牌且黑色),黑色,63树形图表示条件概率,例1:条件事件:有14支蓝笔和6支红笔,从这20支选出两支钢笔,不可替换.,不独立!,蓝,红,蓝,红,蓝,红,P(红)=6/20,P(红|红)=5/19,P(蓝|红)=14/19,P(蓝)=14/20,P(红|蓝)=6/19,P(蓝|蓝)=13/19,64乘法公式和事件的独立性,乘法公式:设P(B)0,有P(AB)=P(AB)P(B)一个事件的发生不会影响另一个事件的发生,就称这两个时间相互独立。两个事件A与B,如果P(AB)P(A),则A与B为两个独立事件。此时P(AB)=P(A)P(B)。两个事件独立的测试条件:P(A|B)=P(A)P(A且B)=P(A)*P(B),65事件独立性的应用,问:1)抽烟与肺癌是否为独立事件?2)计算肺癌的概率,以及在抽烟的前提下肺癌的条件概率,例1:胸腔科医生根据1400名病患者资料,整理出了肺癌与抽烟的联列表资料:,P(SC)=600/1400P(S)P(C)=800/1400*750/1400,所以,不是独立事件。P(C)=75/1400.53;P(CS)=P(SC)/P(S)=(600/1400)/(800/1400)0.75。所以抽烟行为让你的肺癌概率大幅度提高。,例2(估计野生动物数量)。我们经常听到有关野生动物数量的报道,比如海洋中的鲸鱼的数量,问题是:我们是如何得到这些数字的?,方法1(标记法):我们首先捕捉一批鲸鱼,假设100头,做上记号后放回去,过一段时间后我们再捕捉一批鲸鱼,假如有1000头,其中这次的1000头中有10头是有记号的,也就说有10头是前一次抓到的。,由于两次的捕捉是独立的,所以有:,方法2(捕捉捕捉法):我们假设这一期捕捉了1000头鲸鱼,发现比上一次捕捉到的数目少了10,假定鲸鱼被捕捉到的概率是固定的,同时两次捕捉期间没有鲸鱼出生和死亡。,设前一期有x条鲸,且鲸被捕的概率为p,则这一期应有(xxp)条鲸(不考虑自然死亡与新生的鲸),再由已知条件,得下列联立方程式,这一期原有的鲸鱼数就为:,那么,可求得,如果要你估计连云港市流浪儿童的数目、连云港市吸毒人数的数目、犯罪人数。以上两种解法对你有何启示?,7贝叶斯定理(BayesTheorem),7-1全概率公式7-2全概率公式的应用敏感问题的答案7-3贝叶斯公式7-4贝叶斯公式的应用艾滋病普查,71全概率公式,假设样本空间为S,B1,B2,B3,-Bn为两两不相容的事件,且有:B1B2B3-BnS则对于任意事件A,有全概率公式:,A,7-2全概率公式的应用敏感问题的答案,1965年,StanleyL.Warner发现了一种应用全概率公式来得到敏感问题答案的方法。实验:请大家抛一次硬币,如果硬币国徽面朝上则回答问题a),如果是字面朝上则回答问题b)。问题a):你学生证(或者学号)的最后一位数是奇数吗?是不是问题b):成为华科学生后,你是否曾非法买或卖过自行车?是不是,定义下列事件:A回答“是”的学生;E1回答问题a)的学生;E2回答问题b)的学生我们还可以得出:P(E1)=0.5,P(E2)=0.5,和P(A|E1)=0.5我们想要知道P(A|E2),即回答第二个问题的学生中答“是”的概率。因为事件E1和E2为互斥完备事件组,所以P(A)=P(E1A)+P(E2A)=P(A|E1)P(E1)+P(A|E2)P(E2)0.5*0.5+P(A|E2)*0.5我们如果知道了P(A),当然就知道了P(A|E2),73贝叶斯公式,特别的,当将样本空间划分为两个事件和,7-4贝叶斯公式的应用艾滋病普查,确切的艾滋病病毒携带者的数目是不知道的,但是据估计为10-6。假设艾滋病的检验方法血液试验(ELISA,酶连接免疫吸附测定)。其检验精度为:一个艾滋病者,检验结果为阳性的概率为95,也就是说假阴性的概率为5;一个非艾滋病者,检验结果为阴性的概率为99,即假阳性的概率为1。假若某人做了血液实验且结果为阳性,他真正得了艾滋病的可能性有多大?,假设事件HIV代表一个随机选择的中国人患有艾滋病,事件FHIV代表一个随机选择的中国人未患有艾滋病;RP代表测试的反应为阳性。,如何改进?,方法1:提高敏感度也就是降低假阴性的比率,希望真的有病的人实验结果呈阳性,就假设提高到1。,效果不大!,方法2:提高特异性。降低假阳性。假设将假阳性降低为0.001。结果也会不理想!,方法3:提高发生率。假设发生率提高为1100,则为48.97%!,这就是为什么美国卫生官员在1986年3月,建议对处于感染艾滋病“高度危险”的美国人做重复的血液试验以决定他们是否感染上了这种病毒,8相关的概念优势赔率,反对一个事件的优势是指,一个事件没发生的可能性与其发生的可能性的比较,它一般表示为整数之比。悉尼成功的概率9(49)0.69,赔率其实把优势反过来写。,9离散变量的概率分布,91二项分布92Poisson分布,91二项分布(Binomialdistribution),抛100次硬币,观察正面朝上的结果,1国徽;0数字,(1)一次试验的结果只有两种可能结果:成功(1)和失败(0);(2)反复重复该试验n次;(3)每次实验之间相互独立;(4)每一次试验中的“成功”的概率皆相同,假设为p。符合以上四个条件的随机试验就是二项试验。如果用K表示n次试验中成功的次数,则我们称K为二项随机变量,记为:,二项试验(Binomialexperiment):,二项分布公式,二项分布的运用举例,根据一项调查显示,我国大学生的近视的比例高达7成,如果这个比例是正确的话,则随机抽取10位大学生,问:近视人数少于5人的概率是多少?,首先检查是不是二项试验。是的!假设用X表示10人中近视的人数,则XB(10,0.7),注意:当np5,且n(1-p)5时,二项分布近似服从正态分布。,92Poisson分布,如果我们要求解,在特定的时间或者特定的空间内,某一特定事件发生特定次数的概率,我们就要借助于Poisson分布,Poisson分布举例,早上8点9点,通过武汉长江大桥的车辆台数晚上7:30-8:00,超市顾客到柜台结帐的人数一个月内,武宜高速公路上发生车祸的人数晚上10:00-11:00,淮海工学院校园内上网的人数。楚天都市报一个版面中,错别字的个数纺织厂生产的一捆布中,线头打结的个数一桶哈根达斯冰淇淋,挖取一球,其中所含葡萄干的个数。,我们用表示事件在特定的时间或者特定的空间内发生次数的均值,那么事件发生x次的概率可以用下面公式计算:,Poisson分布应用举例,依据过去一年的统计资料,资料显示连云港市电信局市内电话交换机在星期天晚间8:008:05时间段内,转接电话的平均数为10线。今天又是星期天。(1)若用X表示今天晚上8:008:05时间段内交换机的转接电话线数,则X的概率函数形式是什么?(2)上述时间内,电话少于4线的概率,例2物流管理问题,某物流仓储管理中心,目前的设备只能处理4个货柜的到货量。如果一天的到货量超过4个,就必须转至其他的仓储中心。根据统计资料显示,平均每天到达的货柜数为3。(1)每个营业日,它必须将货柜转送到其它仓储中心的概率是多少?(2)为了使这个仓储中心每天处理货柜的服务率达到98,需不需要增加设备?,假设用X表示每天到达的货柜数量,(1)P(必须转送他处)P(X4)1P(X=4)0.1848100天中大概有18天会面对转送的情况(2)目前的服务率P(X=4)10.1848=0.8152,所以达不到98。查表可以知道,必须扩充设备直到能处理7个货柜。,问题3:求仓储中心每天处理的平均货柜数,E(Y)=2.6806设备的平均利用率为E(Y)/467.02%,10连续变量概率分布,101标准正态分布102t-分布103X2分布104F分布,101正态分布概率密度函数ProbabilityDensityFunction,f(X)=随机变量X的密度函数=3.14159;e=2.71828=总体的标准差X=随机变量的值(-X)=总体的均值当=0,=1时,就是标准正态分布,参数变化(和)对分布图形的影响,X,f(X),C,A,B,正态分布概率NormalDistributionProbability,概率为分布曲线以下区域的面积!,c,d,X,f(X),P,c,X,d,f,X,dx,c,d,(,),(,),?,Z,=0,z,=1,Z,正态分布的标准化StandardizedNormalDistribution,一张表!,正态分布,标准正态分布,X,Z,Z,=0,Z,=1,.12,标准化示例StandardizingExample,正态分布,标准正态分布,X,=5,=10,6.2,标准正态分布图像,标准正态z,形象的理解标准正态分布,计算概率ObtainingtheProbability,附表1标准正态分布表(部分),阴影部分经过放大处理,z,=0,Z,=1,.30,Z,.21,示例P(7.1X8),正态分布,.5832,.6179,.0347,标准正态分布,阴影部分经过放大处理,Z,X,Z,X,7,1,5,10,21,8,5,10,30,.,.,.,=5,=10,8,7.1,X,正态分布思考题,试想您在通用电器公司的质量控制部门工作。灯泡寿命服从正态分布=2000小时=200小时。灯泡寿命为以下值的概率为多少?A.20002400小时?B.1470小时以下?,Z,Z,=0,Z,=1,2.0,题解P(2000X2400),正态分布,.9772,标准正态分布,Z,X,2400,2000,200,2,0,.,X,=2000,=200,2400,思考题:按此思路计算出该概率,Z,Z,=0,Z,=1,-2.65,题解P(X1470),正态分布,.9960,.0040,标准正态分布,Z,X,1470,2000,200,2,65,.,X,=2000,=200,1470,Z,.00,0.2,0.0,.0000,.5040,.5080,0.1,.5398,.5438,.5478,0.2,.5793,.5832,.5871,.6179,.6255,Z,Z,=0,Z,=1,.31,根据左尾概率求Z值,.6217,.01,0.3,.6217,标准正态概率(部分),给定P(Z)=0.6217求Z?,阴影部分经过放大处理,Z,Z,=0,Z,=1,.31,X,=5,=10,?,已知概率求X值,正态分布,标准正态分布,.6217,.6217,阴影部分经过放大处理,标准正态分布的一个主要作用是,找到某一个特别的值以及比它更极端的z值的概率。例如:假设我们要问一个z=2.34,它是否属于一个不常见的集合?,0.9904,钟形对称尾部较大,Z,t,102t分布(学生)t分布StudentstDistribution,0,t(df=5),标准正态,t(df=13),t分布不是一个单独分布,而是一族分布,标签编号等价于自由度,右端尾部区域,df,.75,.90,.95,1,1.000,3.078,6.314,2,0.817,1.886,2.920,3,0.765,1.638,2.353,t,0,附表3学生的t表StudentstTable,假设:df=2=0.05P=1-=0.95,2.920,t值,p=1,.05,103X2分布,自由度为3的卡方分布,X2分布也是一族分布,桶的标签为自由度,10-4F-分布,自由度为4和40的F分布,第四讲置信区间估计,ConfidenceIntervalEstimation,思考题ThinkingChallenge,假定你对本班学生(总体)手头现金的平均数量感兴趣,你会怎样求出它呢?如何估计人们打移动长途电话的平均通话时间?如何估计连云港市每个月的公费医疗支出平均额?如何估计淮海工学院拥有轿车的老师的比例?,统计方法,统计方法,统计描述,统计推断,估计,假设检验,本讲主要内容,均值,未知,置信区间,比例,已知,方差,1区间估计的基本概念,1-1估计过程1-2样本统计量1-3抽样分布1-4区间估计的概念,1-1估计过程,均值是未知的,总体,随机样本,我有95%的把握认为在40和60之间.,均值=50,1-2样本统计量,121样本统计量的定义:简单的说,就是不含任何未知参数的样本的函数。假设是来自总体的一个样本,如果函数中不含任何未知参数,则称就是一个统计量。另外,假设是样本相应的观察值,则称为统计量的观

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论