版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据的统计分析 数学实验 ? 现实生活中的许多数据都是随机产生的,如考试 分数、月降雨量、灯泡寿命等。 ? 从数理统计角度来看,这些数据其实都是符合某种 分布的,这种规律就是统计规律。 ? 本实验主要通过对概率密度函数曲线的直观认识和 数据分布的形态猜测,以及密度函数的参数估计,进 行简单的正态假设检验,揭示日常生活中随机数据的 一些统计规律。 问题背景和实验目的问题背景和实验目的 Matlab相关命令介绍相关命令介绍 ? pdf 概率密度函数 y=pdf(name,x,A) y=pdf(name,x,A,B) 或 y=pdf(name,x,A,B,C) ? 返回由 name 指定的单参数分布
2、的概率密度,x为样本数据 ? name 用来指定分布类型,其取值可以是: beta、bino、chi2、exp、ev、f 、 gam、gev、gp、geo、hyge、logn、 nbin、ncf、nct、ncx2、norm、 poiss、rayl、t、unif、unid、wbl。 ? 返回由 name 指定的双参数或三参数分布的概率密度 根据样本的观测值 ( x1 , x2 , , xn ), 可以绘出样本频率直 方图和累积频率直方图. 根据样本频率直方图和累积频率直方图可以近似根据样本频率直方图和累积频率直方图可以近似 描绘出总体的分布密度函数曲线和分布函数曲线描绘出总体的分布密度函数曲线和
3、分布函数曲线 . . Matlab 相关命令介绍 例: x=-8:0.1:8; y=pdf(norm,x,0,1); y1=pdf(norm,x,1,2); plot(x,y,x,y1,:) ? 注: y=pdf(norm,x,0,1) y=normpdf(x,0,1) 相类似地, y=pdf(beta,x,A,B) y=betapdf(x,A,B) y=pdf(bino,x,N,p) y=binopdf(x,N,p) 正态分布正态分布(normal distribution )也叫高斯分布()也叫高斯分布(Gaussian distribution),是最常见、最重要的 一种连续型分布 高斯
4、(1777 1855) 高斯-德国数学家、天文学家和物理学家, 被誉为历史上伟大的数学家之一,和阿基米德、 牛顿并列,同享盛名。 幼时家境贫困,但聪敏异常,受一贵族资 助才进学校受教育。 17951798年在格丁根 大学学习1798年转入黑尔姆施泰特大学,翌年 因证明代数基本定理获博士学位证明代数基本定理获博士学位 。从1807年起 担任格丁根大学教授兼格丁根天文台台长直至 逝世。 高斯的成就遍及数学的各个领域,在数 论、非欧几何、微分几何、超几何级数、 复变函数论以及椭圆函数论等方面均有 开创性贡献。他十分注重数学的应用, 并且在对天文学、大地测量学和磁学的 研究中也偏重于用数学方法进行研究
5、。 )正态曲线( 就是为横坐标,绘制的曲线为纵坐标,以 )称为概率密度函数( 为总体标准差的总体均数,为 为底的自然对数指数是以, curve normal )( functiondensity y probabilit)( ),( 72818. 2exp14159. 3 , 2 )( exp 2 1 )( 2 2 2 XXf Xf XNX X X Xf ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 数学形式数学形式 正态密度函数曲线 图形特点: 1. 钟型 2. 中间高 3. 两头低 4. 左右对称 5. 最高处对应 于X轴的值就 是均数 6. 曲线下面积 为1 7. 标准差决
6、定 曲线的形状 X f(X) ? 0 0.1 0.2 0.3 0.4 0.5 0.6 -4-3-2-101234 X f(X) )1 , 0 ( 2 N )8 . 0 , 1( 2 ?N )2 . 1 , 1 ( 2 N 决定曲线的位置,决定曲线的“胖瘦” 在自然现象和社会现象中, 大量的随 机变量都服从或近似服从正态分布,如, 测量误差、炮弹落点距目标的偏差、海洋 波浪的高度、一个地区的男性成年人的身 高及体重、考试的成绩等 正是由于生活中大量的随机变量服从 或近似服从正态分布,因此,正态分布在 理论与实践中都占据着特别重要的地位 标准正态分布 标准正态分布 (standard normal
7、 distribution) 的两 个参数为: =0, =1 记为 N(0,1) ? ? ? ? ? ? ? ? ? ? ? ? X u uf X uN Nu , 2 exp 2 1 )( );1 , 0( ),( 2 2 ? ? ? ? 其中标准正态分布 被转化为变换:一般正态分布标准正态变量经 一般正态分布为一个分布族;标准正态分 布只有一个 N(0,1) 。 Matlab相关命令介绍相关命令介绍 ? normfit 正态分布中的参数估计 muhat,sigmahat,muci,sigmaci=normfit(x,alpha) ? 对样本数据 x 进行参数估计,并计算置信度为 1-alph
8、a 的置信区间 ? alpha 可以省略,缺省值为 0.05,即置信度为 95% ? load 从matlab 数据文件中载入数据 S=load(数据文件名) ? hist 绘制给定数据的直方图 hist(x,m) Matlab 相关命令介绍 table=tabulate(x) ? 绘制频数表,返回值 table 中,第一列为x的值,第二列 为该值出现的次数,最后一列包含每个值的百分比。 ttest(x,m,alpha) ? 假设检验函数。此函数对样本数据 x 进行显著性水平为 alpha 的 t 假设检验,以检验正态分布样本 x(标准差未知) 的均值是否为 m。 Matlab 相关命令介绍相
9、关命令介绍 normplot(x) ? 统计绘图函数,进行正态分布检验。研究表明:如果数据 是来自一个正态分布,则该线为一直线形态;如果它是来自 其他分布,则为曲线形态。 wblplot(x) ? 统计绘图函数,进行 Weibull 分布检验。 Matlab 相关命令介绍 ? 其它函数 ? cdf 系列函数:累积分布函数 ? inv 系列函数:逆累积分布函数 ? rnd 系列函数:随机数发生函数 ? stat 系列函数:均值与方差函数 例: p=normcdf(-2:2,0,1) x=norminv(0.025 0.975,0,1) n=normrnd(0,1,1 5) n=1:5; m,v=
10、 normstat(n*n,n*n) 例 求正态分布参数 的期望方差 。 解: p 程序如下: 结果显示:E= 6 D= 0.0625 100,0.2?MUSIGMA 6;0.25; ,(,) ? ? MUSIGMA E Dnormstat MU SIGMA 常见的概率分布常见的概率分布 二项式分布 Binomial bino 卡方分布 Chisquare chi2 指数分布 Exponential exp F分布 F f 几何分布 Geometric geo 正态分布 Normal norm 泊松分布 Poisson poiss T分布 T t 均匀分布 Uniform unif 离散均匀分
11、布 Discrete Uniform unid 连续分布:正态分布连续分布:正态分布 ? 正态分布(连续分布) ? 如果随机变量 X 的密度函数为: 2 2 X 2 e () 2 ( 1 )f x ? ? ? ? ? ? ? 0,x? ? ? 则称 X 服从正态分布。记做: 2 ( ,)XN? ? ? 标准正态分布:N (0, 1) ? 正态分布也称高斯分布,是概率论中最重要的一个分布。 ? 如果一个变量是大量微小、独立的随机因素的叠加,那么 它一定满足正态分布。如测量误差、产品质量、月降雨量等 正态分布举例 x=-8:0.1:8; y=normpdf(x,0,1); y1=normpdf(x
12、,1,2); plot(x,y,x,y1,:) 例:标准正态分布和非标准正态分布密度函数图形 连续分布:均匀分布连续分布:均匀分布 ? 均匀分布(连续分布) ? 如果随机变量 X 的密度函数为: 则称 X 服从均匀分布。记做: , XU a b ? 均匀分布在实际中经常使用,譬如一个半径为 r 的汽车轮 胎,因为轮胎上的任一点接触地面的可能性是相同的,所以 轮胎圆周接触地面的位置 X 是服从 0,2 ?r 上的均匀分布。 1 ) 0, ( , ax b f x b a? ? ? ? ? ? ? 其他 均匀分布举例 x=-10:0.01:10; r=1; y=unifpdf(x,0,2*pi*r
13、); plot(x,y); 连续分布:指数分布连续分布:指数分布 ? 指数分布(连续分布) ? 如果随机变量 X 的密度函数为: 则称 X 服从参数为 ? 的指数分布。记做: Exp()X? ? 在实际应用问题中,等待某特定事物发生所需要的时间往 往服从指数分布。如某些元件的寿命;随机服务系统中的服 务时间;动物的寿命等都常常假定服从指数分布。 ,0 0,0 ( ) x f x ex x ? ? ? ? ? ? ? ? ? 0? ? ? 指数分布具有无记忆性: |P Xst XsP Xt? ?如果X是某一元件的寿命,已知元件已经使用 了S小时,它总共能使用至少 ST小时的条件 概率,与从开始使
14、用时算起它至少能使用 T小 时的概率相等。这就是说,元件对它已使用过 S小时没有记忆。 ?服从指数分布的随机变量通常可解释为某种 寿命,如果已知寿命长于 S年,则再活t年的概 率与年龄S无关,亦称指数分布具有“无记忆 性” . 指数分布举例 x=0:0.1:30; y=exppdf(x,4); plot(x,y) 例: ?=4 时的指数分布密度函数图 离散分布:几何分布 ? 几何分布是一种常见的离散分布 ? 在贝努里实验中,每次试验成功的概率为 p,设试验进行 到第 ? 次才出现成功,则 ? 的分布满足: 其右端项是几何级数 的一般项,于是人们称它为 几何分布。 1 1 k k pq ? ?
15、? ? ? 1 ()1,2, k pqPkk? ? ? x=0:30; y=geopdf(x,0.5); plot(x,y) 例: p=0.5 时的几何分布密度函数图 离散分布:二项式分布离散分布:二项式分布 ? 二项式分布属于离散分布 ? 如果随机变量 X 的分布列为: 则称这种分布为二项式分布。记做: ( ,)Xb n p ? (1()0,1,) kn k n ppP Xkk k n ? ? ? ? ? ? ? ? ? ? x=0:50; y=binopdf(x,500,0.05); plot(x,y) 例: n=500,p=0.05 时的二项式分布密度函数图 离散分布: Poisson
16、分布 ? 泊松分布也属于离散分布,是 1837年由法国数 学家 Poisson 首次提出,其概率分布列为: 记做: ( )XP? ? ! ()0, 1, 2,0 k Pek k Xk ? ? ? ? ? ? 泊松分布是一种常用的离散分布,它与单位时间(或单 位面积、单位产品等)上的计数过程相联系。如:单位时 间内,电话总机接到用户呼唤次数;1 平方米内,玻璃上的 气泡数等。 泊松(Poisson) (17811840,法国) “我建立了描述随机现 象的一种概率分布.” 泊松 泊松是法国数学家、物理学家和力学家. 1798年进入巴黎综合工科学校,成为拉 格朗日、拉普拉斯的得意门生.在毕业时由于
17、其学业优异,又得到拉普拉斯拉普拉斯的大力推荐, 故留校任辅导教师, ?1802 年任巴黎理学院教授年任巴黎理学院教授 .1812 年当选为法年当选为法 国科学院院士国科学院院士. 泊松是法国第一流的分析学家泊松是法国第一流的分析学家 . 年仅年仅18 岁就发表了一篇关于有限差分的论文岁就发表了一篇关于有限差分的论文 , 受到了勒让德的好评受到了勒让德的好评 .他一生成果累累,发表他一生成果累累,发表 论文300 多篇,对数学和物理学都作出了杰出 贡献贡献. ? 泊松也是19 世纪概率统计领域里的卓越 人物.他改进了概率论的运用方法,特别是用 于统计方面的方法,建立了描述随机现象的一 种概率分布
18、泊松分布 .他推广了“大数定 律”,并导出了在概率论与数理方程中有重要 应用的泊松积分.他是从法庭审判问题出发研 究概率论的,1837 年出版了他的专著关于 刑事案件和民事案件审判概率的研究 . Poisson 分布举例分布举例 x=0:50; y=poisspdf(x,25); plot(x,y) 例: ?=25 时的泊松分布密度函数图 离散分布:均匀分布离散分布:均匀分布 ? 如果随机变量 X 的分布列为: ? 2 1 ()1,P Xkkn n ? 则称这种分布为离散均匀分布。记做: ? 1,2, XUn n=20; x=1:n; y=unidpdf(x,n); plot(x,y,o-)
19、例: n=20 时的离散均匀分布密度函数图 抽样分布: ? 2分布 ? 设随机变量 X1, X2, , Xn 相互独立,且同服从正态 分布 N(0,1),则称随机变量 ? n 2= X 12+X22+ +Xn 2服从 自由度为 n 的 ? 2 分布,记作 ,亦称随 机变量 ? n2 为 ? 2 变量。 22 ( ) n n? x=0:0.1:20; y=chi2pdf(x,4); plot(x,y) 例: n=4 和 n=10 时的 ? 2 分布密度函数图 x=0:0.1:20; y=chi2pdf(x,10); plot(x,y) 2.? 2分布的密度函数f(y)曲线 ? ? ? ? ? ?
20、 ? ? ? ? ? ? ? ? ? ? ? ? 0y, 0 0y,ey )y( f 2 y 1 2 n )2/n(2 1 2/n 抽样分布: F 分布 ? 设随机变量 ,且 X 与 Y 相 互独立,则称随机变量 22 (),( )XmYn? x=0.01:0.1:8.01; y=fpdf(x,4,10); plot(x,y) 例: F(4,10) 的分布密度函数图 / / F X m Y n ? 为服从自由度 (m, n) 的 F 分布。记做: (, )FF m n Ronald Aylmer Fisher(1890-1962),英国统计学家。 20世 纪对统计学发现最有影响力的统计学家之一
21、。 Fisher毕业于 Cambridge university,在那里,他主修数学。 他对统计的 兴趣起源自他对遗传学的研究,而这两个领域也是他终身的 研究方向。 ?Fisher的第一篇论文,是介绍最大概似估计法 (The method of maximun likelihood) ,第二 篇是t-distribution的数学推导,第三篇是 捜牯敲慬楴湯挠敯晦捩敩瑮的分配。 后来,Fisher 在罗森斯得(Rothamsted)农业研究所发展出 experimental design( 实验设计? 和 ANOVA(变异数分析? 的方法,而ANOVA的方 法是建立在他所推导出的 F-dist
22、ribution之上。 ? Fisher在1925年出版了一本“Statistical Methods for Research Workers ” ,这本书带动 了实验设计的发展。 抽样分布: t 分布 ? 设随机变量 ,且 X 与 Y 相 互独立,则称随机变量 2 (0,1),( )XNYn? x=-6:0.01:6; y=tpdf(x,4); plot(x,y) 例: t (4) 的分布密度函数图 / T X Y n ? 为服从自由度 n 的 t 分布。记做: ( )Tt n ?吉尼斯公司(Arthur Guinness Son x=x(:); hist(x) 例 1:某次笔试的分数见
23、data1.txt ,试画出频数直方图 绘制频数直方图,或列出频数表 ? 从图形上看,笔试成绩较为接近正态分布 频数直方图或频数表频数直方图或频数表 x=load(data2.txt); x=x(:); hist(x) 例 2:某次上机考试的分数见 data2.txt ,试画出频数直方图 ? 从图形上看,上机考试成绩较为接近离散均匀分布 x=load(data3.txt); x=x(:); hist(x) 例 3:上海1998年来的月降雨量的数据见 data3.txt , 试画出频数直方图 ? 从图形上看,月降雨量较为接近 ? 2 分布 频数直方图或频数表 ? 在重复数据较多的情况下,我们也可
24、以利用 Matlab 自带的 tabulate 函数生成频数表,并以频数表的形 式来发掘数据分布的规律。 x=load(data4.txt); x=x(:); tabulate(x) hist(x) 例 4:给出数据 data4.txt ,试画出其直方图,并生成频数表 频数直方图或频数表 x=load(data5.txt); x=x(:); hist(x) fiugre histfit(x) % 加入较接近的正态分布密度曲线 例 5:现累积有100次刀具故障记录,当故障出现时该批刀具完 成的零件数见 data5.txt ,试画出其直方图。 ? 从图形上看,较为接近正态分布 参数估计参数估计 ?
25、 当我们可以基本确定数据集 X 符合某种分布后,我 们还需要确定这个分布的参数。 ? 由于正态分布情况发生的比较多,故我们主要考 虑正态分布的情形。 ? 对于未知参数的估计,可分两种情况: ? 点估计 ? 区间估计 ? ? 2 2 2 2 22 , 1 ; , 2 , x X X f xex ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 参数估计是统计推断的基本问题之一,实际工作中碰到的总体 它的分布类型往往是知道的,只是不知道其中的某些参数, 例如:产品的质量指标 服从正态分布,其概率密度为: 但参数的值未知,要求估计,有时还希望以一定的可靠性来 估计 值是在某个范围内或者不低
26、于某个数。 参数估计问题就是要求 问题的提出: 通过样本估计总体分布所包含的未知参数的值。 点参估数估计法计的两种和区方法:间估计法 Matlab相关命令介绍相关命令介绍 ? normfit 正态分布中的参数估计 muhat,sigmahat,muci,sigmaci=normfit(x,alpha) ? 对样本数据 x 进行参数估计,并计算置信度为 1-alpha 的置信区间 ? alpha 可以省略,缺省值为 0.05,即置信度为 95% 参数估计:点估计参数估计:点估计 ? 构造样本 X 与某个统计量有关的一个函数,作为 该统计量的一个估计,称为 点估计。 ? Matlab 统计工具箱中
27、,一般采用最大似然估计法 给出参数的点估计。 ? 泊松分布 P (?) 的 ? 最大似然估计是 X? ? 指数分布 Exp (?) 的 ? 最大似然估计是 1 X ? 点估计举例点估计举例 ? 正态分布 N (?, ? 2) 中, ? 最大似然估计是 , ? 2 的最大似然估计是 ?X ? ? 2 2 1 1 ? n i i XX n ? ? ? ? x=load(data1.txt); x=x(:); mu,sigma=normfit(x) 例 6:已知例 1 中的数据服从正态分布 N (?, ? 2) ,试求其参 数 ? 和 ? 的值。 使用 normfit 函数 参数估计:区间估计参数估计:区间估计 ? 构造样本 X 与某个统计量有关的两个函数,作为 该统计量的下限估计与上限估计,下限与上限构成 一个区间,这个区间作为该统计量的估计,称为 区 间估计。 ? Matlab 统计工具箱中,一般也采用最大似然估计 法给出参数的区间估计。 区间估计举例区间估计举例 x=load(data1.txt); x=x(:); mu,sigma,muci,sigmaci=normfit(x) 例 7:已知例 1 中的数据服从正态分布 N (?, ? 2) ,试求出 ? 和 ? 2 的置信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年地质工程师考试《工程地质学基础》备考题库及答案解析
- 2025年厨师资格考试《刀工技术》备考题库及答案解析
- 软件开发合同协议2025年
- 汽车租赁保险补偿协议2025
- 民宿预订协议2025
- 2025年新员工入职培训体系考试试题及答案
- 2025年企业年终奖发放政策与税务筹划考试试题及答案
- 建筑兼职施工合同协议2025年
- 嘉兴塔吊出租合同范本
- 商业招商租赁合同范本
- 2025年配电安规知识考试题附答案
- 企业行政管理制度模板库
- 2025年党员干部在委理论学习中心组“改文风转作风”专题研讨会上的交流发言范文
- 安全生产第四季度工作计划
- 湖北中烟2025年招聘综合测试h
- 巴厘岛旅游攻略
- 机关单位档案数字化管理办法
- 支委会会议记录1一12月
- 2025年河北省政府采购评审专家考试真题含答案
- 新教科版小学1-6年级科学需做实验目录
- 医院第九届职工代表大会换届选举实施方案
评论
0/150
提交评论