免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
推荐一本概率统计的写的比较好的书现在看来在中国,中文的教科书可不是越厚越好,似乎已经成了一种和国外相反的趋势,厚的书以盈利为目的,薄的书才可能是教书育人的。大学的那本概率统计书似乎就是这样的一个很好的例子,忘了是哪个地方出的,反正好像很多大学都用的,很厚,封面有点浅蓝色。Anyway,不爽的就让它过去吧,虽然我花了很长时间在那本书上也没搞清楚它在讲什么。现在隆重推出概率统计,同济大学工程数学教研室编,由同济大学出版社出版,封面上还写有函授自学教材。我手上的(图书馆借的)是99年的第一版,才14块,绝对的划算,书也不厚不薄,正好包含了它应该有的内容。这本书最出彩的是他第五章开始的数理统计的讲解,和很多其它书不同,这本书抓住了统计的精要统计是用于实践的。内容处处与实践相结合,显示出了数学是实践的强大工具。下面是我摘要的个人感觉讲的比较好的地方(也是我以前看垃圾书一直搞不懂的地方,不过我考试确能很好的通过,这也是我搞不懂的地方,中国教育这个垃圾)。1,什么是数理统计数理统计方法实际上就是数据处理的方法,与其它数学科目不同,它注重的是对实际工程中获得的不理想的数据的处理,使其尽量理想化。比方说你想知道世界上是漂亮女人多还是丑的多,那么我们可以做这么一个实验。随便找一天上街,然后把看到的所有年轻女人进行你心目中的评分,然后计下来,下面是我做的这么一个实验数据(比较衰,这天没看到几个漂亮的),1表示完美,0表示极丑,0.5为中等。0.90.50.40.40.80.50.60.30.50.50.40.60.70.4对这组数据最简单的处理就是取其平均值,不过在此之前,先看看数据的特性。数据值频数0.000.100.200.310.440.540.620.710.810.911.00要注意,频数和频率在概率论里是两个不同的概念,频数是指其数据在实际实验中出现过的次数,而频率是理论或者实际试验后处理过的数据(工程中用频数除以数据的总数作为频率或者讲概率的一个估计)。有兴趣的读者可以用word把上面的数据作个条形图看看数据的分布,很有趣的。O.K.现在我们看看我们的数据可以带给我们什么样的结果呢,对数据做和然后求平均,*(0.9+0.8+0.7+0.6*2+0.5*4+0.4*4+0.3)=0.536Well,结果似乎还是令人满意的,说明对我来说这个世界的年轻女人长得还是可以的,不致于我要出家当和尚(我要求是不是很低啊)。好了,上面就是我们所做的统计的最初之旅,有点简单但是很实用。不过细心的读者可能会发现,实际上我的这个结论是极其不可靠的,因为首先我只是对几个女人进行评价,从而得出了一个对整个世界女人的评价,即使这个方法是合理的,也顶多能判断中国或者上海女人符合这个判断。还有我采用的评价公式是否是合理的,为什么只取平均,而不是其它的值。很显然统计这门学科就是要研究如何采集数据,以及分析数据,以及数据能对对象的什么特性进行评价的一门学科。2,总体和样本的概念说实话,在看到这本书之前(本科学这门课到研究生第二年,靠,考研显然也是垃圾,我照搬公式就搞定了),我对这个概念一直是搞不清(我觉得不能怪我,责任都在我的大学体制和那本垃圾教科书)。但是这是要看懂后面概念所最基本的,这里我作个详细介绍,当然你也可以看我上面推荐的那本书。在数理统计中,我们把研究对象的全体称作总体,而其中的每个成员看作个体。在上面的那个例子中,全世界的年轻女人就是总体,单个女人就是个体。一般来讲,捕获全体是不现时的,就像我不可能看过全世界的所有女人,所以个体就变得十分重要。好的个体能很好的包含总体的属性,不过一般来讲,个体总能包含总体的属性,只是多和少罢了。在实际的工程中,我们常常只是把自己感兴趣的指标X视为总体,如上面例子,对总体的进一步抽象就是全世界年轻女子的样貌作为总体。在实际应用中,常常可以看到别人使用了积分的一些表达式,这是因为从统计的角度来说,人们更喜欢使用密度这个概念,这样如果计算对象随某一变量实时变化那么我们就可以用积分来计算这个对象了。这里我们把这个密度函数称作分布函数,一般对于总体X,叫做X的分布函数,当X是连续型的随机变量时,叫做总体密度函数,如果是离散的,就叫概率函数。在实际工程中,总体的分布函数总是未知的(知道了就不要用统计了),但可能其分布类型为已知,而只是其中参数未知,那么通过样本分析得到这些参数的统计推断就构成了参数统计的内容,如果连分布类型都不知的化,那么就是非参数统计了,显然后者更复杂一点。一般的,如果总体包含的个体个数很多时,我们常常将其认为是无限总体来进行近似,比如上面那个例子中,全世界的年轻女人太多,就可以认为是无限总体了。我们这里只讨论无限总体,有限总体可以从中类比,因为有限比较简单。为了对总体进行分析,所要做的第一步就是从总体中抽出一些个体,这一过程称作抽样。在上面的例子中,那些数据就是从抽样样本的数字表示。一般把这些数字表现或者叫做样本观测值记为x1,x2,x3.xn,其中n叫做样本大小或者样本容量。显然在抽样前我们无法知道这些观测的具体值,所以站在抽样前的立场来看,它们也是随机的变量,把他们表示为X1,X2,X3,.Xn,我们把(X1,X2,X3,.Xn)称作样本或子样,抽样后的具体值叫做样本观测值。自然而然,我们就会想到如何抽样才能最好的体现总体的属性,这属于抽样论的内容,有兴趣的读者可以参考相关书籍。一般的,我们使用随机抽样就能很好的体现总体了,所以在实践中人们常常使用简单的随机抽样,我们这里也以这个作为前提。随机抽样的结果叫做简单随机样本,它应该具有下面两个属性:(1) 代表性:每个Xi与总体X有相同的分布。(2) 独立性:X1.Xn相互独立。后面就把简单随机样本通称为样本。实际上上面的两个属性看似简单,但实际上很多情况下都不满足它的条件。以通信信号来作个例子,如果一个信号发生器的输出是与时间相关的,那么显然不满足第一个条件,我们无法做这样一个等效:对一个机器在一段时间的采样n次同时对n台机器在同一时刻采样,但是如果信号输出与时间无关(更一般的说与任何可变参数无关),就能够满足第一条,比如高斯白噪声。第二个属性有时也很难满足,比如某种具有对实验对象具有破坏性的实验,每采样一次,就把采样结果从实验对象中剔除,这样显然各次的样本之间就不独立了。3,统计量我们有了样本实际上什么也干不了,更重要的是对样本建立一个(X1,X2,X3,.Xn)函数,然后用样本观测值来进行统计推断。例如要测一个美女的体重,为了满足她对数字的精确性,我们对她一共量了n次,于是就有了样本(X1,X2,X3,.Xn),显然体重是我们这里的统计量,为此我们对样本建立一个与体重有关的函数,在实际测量工作做完后,我们将观测值带入这个样本函数中,得到这个具体的数字,这样我们就为美女提供了她精确的体重了。这里给出统计量的精确定义:如果样本(X1,X2,X3,.Xn)的函数Foo(X1,X2,X3,.Xn)不包含总体分布中的任何未知参数,那么这个函数就是统计量。说白了,就是如果把观测值带入函数后得到一个实际数字的函数就是统计量。常用的统计量有样本均值,样本方差,样本标准差,样本k阶原点矩,样本k阶中心矩。一般我们通过这些统计量来近似总体分布中的一些未知参数(参数统计),4,统计量的分布上面的统计量实际上也是有分布的,具体的分布情况视其总体分布而定,具体可以查看我推荐的这本书。不过一般的有正态分布和波努力分布(通过大数和中心极限定理得到)。这里的这部分就很好的体现出了如果知道了总体的分布,再通过对观测数据的分析就能知道某些事情的概率了(通过书上的例子可以体会)。5,参数点估计如果已经知道了总体的分布类型,但是不知道其中的参数,那么如何通过样本作出对参数的估计,就构成了参数估计(参数统计)。一般有两种方法,点估计和区间估计。点估计就好比是估计某个美女的年龄是23岁,而区间估计就是估计这个美女的年龄大约在2025岁左右。从理论上来讲,点估计就是构造一个统计量,而区间估计则是构造两个统计量从而形成一个区间。当然,对于某一个未知参数可以有多个估计方法。下面先讲点估计。如果是总体的一个未知参数,那么与相关的统计量 (X1,X2,X3,.Xn)就称为的点估计。理论上任何一个统计量都是的点估计,但是这个统计量在实际工程上要被人接收就要有一定的物理理由。点估计法一般又分为两种,矩估计和最大似然估计。矩估计就是讲统计量表示成矩的形式,然后讲观测值带入,得到未知参数的估计值。最大似然估计基于下面这样一个假设,如果P(B|A1) P(B|A2),这时如果得到B,那么我们认为B是在A1条件下得到的比在A2下得到的概率大,所以我们判定实验结果是A1,显然最大似然原理的思想源自经验。更一般的,定义似然函数L()=f(xi;)其中xi为观测值,显然根据最大似然原则,的一个合理估计是能使得L()最大的那个值。再看前面的那个假设,得到B,要对情况A作出估计,显然我们会选择那个能使得B出现机会最大的那个A,于是我们选择了A1。5,估计量的评选标准前面已经提到,同一参数可以有多种估计方法,上面只是给出了最普遍的两种点估计方法。但是哪个优哪个劣,就需要有一套标准。(1) 无篇性如果对某一参数进行多次实验估计,我们就能得到估计值的一组数,当然由于样本是随机的,那么它也是随机的,很自然的,我们就会希望这一组数与真正的被估计参量的平均误差为0,即,E (X1,X2,X3,.Xn)- =0= E (X1,X2,X3,.Xn)这个就叫无偏估计。虽然一次估计不能保证误差为0,但是多次使用后确能保证平均误差为0,这样的化就能取多次估计的平均数了。(2) 有效性仿照均值和方差的概念,有了上述无偏性的定义,自然就会想到,应该还要定义一个估计和实际数之间的偏离程度。有效性就自然的成了比较各个估计方法的D (X1,X2,X3,.Xn)的大小了,当然越小越有效。不过要注意,要比较D,因为是个变量,那么比较的结果可能会随不同而有所变化,比如D(1)=22 +,D(2)=2 +2时,就无法比较了,因为当=1,D(1)= D(2);而当=1,D(1)= D(2)。(3) 相和性它表示随机的变量序列 (X1,X2,X3,.Xn)与的充分接近程度,定义方式有很多,依概率收敛就是其中之一。6,置信区间从上面的方法来看,点估计方便简单,并且常用的最大似然法具有无偏性,一致性等,但是可以发现,这些估计并没有提供一个精度,比如估计值与被估计对象的真实值到底有多少误差,显然点估计不提供这个属性,为了解决这一问题,人们使用了置信区间的方法,也就是判断某一估计值成立的可能性有多大。这里要提一下,我们一般把1-称作置信水平,通常这个值越接近1,那么所得的区间也就越大,而这个值越小,则区间长度也就越短。就好比我们估计某个美女的年龄是(0,150),尽管我们可以得到100%的置信水平,但是这个毫无意义,所以实际工程中根据情况一般取0.90或0.95或者0.99等。在实际问题中,有时只要估计未知参数的下限或者上限,那么可以将置信区间的上限取为+或者下限为-。这样我们可以建立单侧置信区间的概念。下面将双侧置信区间的具体求法概括:第一步:求的一个点估计,通常用极大似然法。第二步:以(X1Xn)为基础,建立一个随机变量:J=J(X1Xn; ),其中J只能包含一个未知参数。第三步:定出常数a,b,使得Pa=J=1- ,通常取a为/2,b为1-/2 。第四步:等价变形,使得P_(X1Xn)= =-(X1Xn)= Pa=J=1- 。单侧区间的求法区别在第三步开始,a或者b为已知,其它都一样。7,显著性检验在实际工程中,往往可能会需要对某些事进行假设,比如改进后的技术优于之前的技术。一般把H0:A=B(A优于B),称为原假设,而H1:AB,称为备择假设。实际这两种选哪个都是一样的,一般取H0,因为方便计算。很显然采用上面的方法,有时会犯取错误值的错,这是无法避免的,毕竟我们这里讨论的是概率和统计,概率本身就代表了非100发生的事。这个错误可以分为下面两类:I:当实际上H0成立,但做统计时确作出了拒绝H0的决定。II:当实际上H0不成立,但做统计时确作出了接收H0的决定。自然而然的,我们会希望这两类错误都尽量的小,但目前的技术表明,如果确保第一类错误出现的可能性小的化,那么第二类错误的出现率就会上升,反之亦然。如何舍鱼而取熊掌就要根据实际情况了。下面我举两个实际的例子来说明如何取舍。爱因斯坦的广义相对论中指出了宇宙中重力波的存在,但是到目前为止,由于重力波即使存在,其值也难以测得,一直未被世人证明。那么物理工作者如果利用仪器来测量时就需要做对数据的假设检验。显然,由于重力波一直未被验证到,那么我们情愿接收即使是真的接收到了重力波而作出拒绝的决定,这样可以保证如果证明了存在,那么这个证明的成功可能性比较大。这样科学教会将出现第二类错误的可能性减小,而放宽对第一类错误的限制。而在医院看病,医生为了保证病人的生命安全,在观察到某一现象时他们更倾向于作出有病的结论,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030中国茴香种子行业运营态势与投资前景调查研究报告
- 2025新能源交通工具行业市场竞争现状投资评估规划分析研究报告
- 2025新材料研究与应用市场供给技术与全球市场需求分析研究报告规划
- 2025新材料应用行业研发投入市场采购率竞争格局投资发展分析报告
- 核函数参数自适应调整-洞察及研究
- 2026年跨区域销售合作协议
- 2026年采购订单合同
- 浮选药剂分子模拟-洞察及研究
- 合同执行时效性承诺书(6篇)
- 现代企业合同管理规范范本
- 《JAVA程序设计A》教学大纲
- 包工不包料建房合同书范本
- 新湘教版八年级地理下册全册完整课件
- 2024年焊工(初级)证考试题库及答案(500题)
- 2024年全国甲卷高考历史试卷(真题+答案)
- 【比亚迪公司税收筹划实训报告6200字(论文)】
- 万曼呼吸机操作
- 联通主义学习理论及其进展
- 1.DRG背景下主要诊断及主要手术选择疑难编码解析-副本
- 集装箱采购投标方案(技术方案)
- 焊接工艺规程(WPS)PQR
评论
0/150
提交评论