版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
概率数理统计第1页,共37页,2023年,2月20日,星期五第一章概率统计基础1.1基本原理1.2高斯分布1.3统计基础第2页,共37页,2023年,2月20日,星期五高斯分布
(Gaussian)Normal正态分布μ:均值(mean)σ2
:方差(variance),σ:标准方差β=1/σ2
:精确度(Precision)第3页,共37页,2023年,2月20日,星期五Gaussian分布期望与方差期望方差第4页,共37页,2023年,2月20日,星期五Gaussian分布的再生性若独立随机变量为分别服从均值为,方差为的正态分布,则随机变量的线性组合仍然服从相同的分布第5页,共37页,2023年,2月20日,星期五第一章概率统计基础1.1基本原理1.2高斯分布1.3统计基础数据显示与图形法常用统计量常用统计分布第6页,共37页,2023年,2月20日,星期五总体和统计推断全体被研究对象称为总体,每个研究对象称为个体可以是有限的,如学校学生身高、视力有限总体很大时,可以认为是无限的,如全国干电池寿命可以是无限的,如每天的测量气压统计推断当无法获取总体全部个体的观测值时,只能依赖从总体中获得的某个观测子集来对总体做出推断。第7页,共37页,2023年,2月20日,星期五抽样样本是总体的一个子集保证从样本到总体推断的正确性,选择随机抽样,表示得到的观测值是独立且随机随机变量X总体上服从概率分布p(x),那么随机抽样的n个样本值{x1,x2,…,xn}独立且具有相同概率p(x),其联合概率:第8页,共37页,2023年,2月20日,星期五统计推断步骤随机抽样数据分析(图形法)分布假设参数估计假设检验假设修正预测总体模型第9页,共37页,2023年,2月20日,星期五数据显示和图形法
利用有启发性的图形来提取关于数据特性的信息,对数据分布进行假设茎叶图(Stemandleaf)直方图(histogram)箱须图(Box-Whisker)经验分布函数图(empiricalcumulativedistribution)正态概率分布图(NormalProbability)第10页,共37页,2023年,2月20日,星期五茎叶图将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。通常选取5~20根茎汽车电池寿命2.24.13.54.53.23.73.02.63.41.63.13.33.83.14.73.72.54.33.43.62.93.33.93.13.33.13.74.43.24.11.93.44.73.83.22.63.93.04.24.5汽车电池寿命茎叶图茎叶频率16922256695300011112223334445567778899254112345778第11页,共37页,2023年,2月20日,星期五频率直方图将样本取值分为r个区间,n个样本,落在某个区间(ak-1,ak]的个数nk称为频数nk/n称为频率目标:利用频率直方图估计总体的概率密度在(ak-1,ak]区间用频率为纵坐标,制作相应的频率直方图第12页,共37页,2023年,2月20日,星期五相对频率直方图每个频数除以数据总量,得到相对频率汽车电池寿命相对频率分布区间组组中点频率相对频率1.5-1.91.720.0502.0-2.42.210.0252.5-2.92.740.1003.0-3.43.2150.3753.5-3.93.7100.2504.0-4.44.250.1254.5-4.94.730.075第13页,共37页,2023年,2月20日,星期五相对频率折线图汽车电池寿命相对频率分布区间组组中点频率相对频率1.5-1.91.720.0502.0-2.42.210.0252.5-2.92.740.1003.0-3.43.2150.3753.5-3.93.7100.2504.0-4.44.250.1254.5-4.94.730.075根据每个分区的相对频率,画出折线图估计频率分布第14页,共37页,2023年,2月20日,星期五茎叶图与直方图茎叶图特优点没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到图中的数据可以随时记录,随时添加,方便记录与表示。只便于表示两位有效数字的数据,且只方便记录两组的数据茎叶图与直方图类似茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息将茎和叶逆时针方向旋转90°,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。可以看出分布是否与正态分布或单峰偏态分布逼近。第15页,共37页,2023年,2月20日,星期五Box-Whisker图(箱须图)中位数:将x1,x2,…,Xn按升序排列,四分位数:25%(上Q1),75%(下Q3)四分位数差(IQR)上四分位数与下分位数之间的差值第16页,共37页,2023年,2月20日,星期五BOX图(2)上边缘大于Q1+1.5IQR的点或最大值下边缘小于Q3-1.5IQR的点或最小值上下边缘以外的点为异常点(Outliers)例:班级学生成绩统计第17页,共37页,2023年,2月20日,星期五(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)5333535364344454748(11)(12)(13)(14)(15)(16)(17)(18)(19)(20)52555864646568697074(21)(22)(23)(24)(25)(26)(27)(28)(29)(30)78808080828384848589最小数(90%)下四分位数
(75%)中位数
(50%)上四分位数
(25%)最大數班级成绩分析第18页,共37页,2023年,2月20日,星期五Box图(3)反映数据的中心位置、波动和非对称程度中位数:中心四分位数差(IQR):波动程度上下边缘:异常点作用观察异常点比较几批数据形状成績甲班乙班丙班第19页,共37页,2023年,2月20日,星期五经验分布函数F(x)为总体的分布函数,称为经验分布函数或样本分布函数目标:利用经验分布估计总体的分布第20页,共37页,2023年,2月20日,星期五经验累积分布图(empiricalcumulativedistribution)总体的分布函数称为理论也分布函数经验分布函数利用样本估计和推断总体的分布函数F(x).高数成绩53335353643444547485255586465686969707478808080828384848589第21页,共37页,2023年,2月20日,星期五正态概率分布图蓝色’+’表示样本数据叠加红线是连接上四分位数和下四分位数的直线如果数据服从正态分布,样本数据画出的图成线性第22页,共37页,2023年,2月20日,星期五重要统计量统计量:由随机变量组成的一随机样本的函数,不含任何未知参数样本均值,描述样本中心趋势样本方差,描述样本的波动性样本标准差S,样本方差的平方根
第23页,共37页,2023年,2月20日,星期五抽样分布统计推断从样本中推断总体主要目标:归纳和预测统计量的概率分布称为抽样分布总体大小样本容量选择样本的方法例:依据的抽样分布对参数做出推断第24页,共37页,2023年,2月20日,星期五均值的抽样分布样本容量为n的的抽样分布实验不断重复(样本容量为n),产生多次的值时的一个分布描述样本在总体均值μ附近的平均变化n个随机样本来自~N(μ,σ2)总体,均值~N(μ,σ2/n)第25页,共37页,2023年,2月20日,星期五定义:设{Xk}为相互独立的随机变量序列,有有限的数学期望E(Xk)=μk和方差D(Xk)=σk2,令若对于一切实数x,有则称随机变量序列{Xk}服从中心极限定理(CentralLimitTheorem)标准正态分布第26页,共37页,2023年,2月20日,星期五
定理(林德贝尔格-勒维,Lindeberg-Levy)设{Xk}为相互独立的随机变量序列,服从同一分布,且具有数学期望E(Xk)=μ和方差D(Xk)=σ2
,则随机变量的分布函数Fn(x),对于任意x,满足第27页,共37页,2023年,2月20日,星期五如果从一个未知分布的总体抽样,不管它是有限还是无限的,假设样本容量足够大时,样本均值的抽样分布会近似于N(μ,σ2/n)的正态分布。第28页,共37页,2023年,2月20日,星期五中心极限定理应用n≥30,的正态分布逼近较好n<30,总体近似正态分布时,逼近效果较好
如果总体~正态分布,无论n大小,的抽样分布精确服从正态分布第29页,共37页,2023年,2月20日,星期五若一个随机变量X可以看做许多微小而独立的随机因素作用的总和,每一种因素的影响很小,不产生决定作用,则X一般可以认为近似地服从正态分布
例:测量误差X
影响因素:温度X1、湿度X2、观察视线X3、心情X4等
微小的、随机的,而且相互没有影响
测量的总误差是上述各个因素产生的误差之和:∑Xi某样本的线性拟合模型可以描述为:第30页,共37页,2023年,2月20日,星期五例:将一颗骰子连掷100次,则点数之和不少于500的概率是多少?解:
设Xk为第k
次掷出的点数,k=1,2,…,100,则X1,…,X100独立同分布.由中心极限定理:第31页,共37页,2023年,2月20日,星期五定理(DeMoivre-Laplace中心极限定理)设随机变量Yn服从二项分布Yn~B(n,p),(o<p<1),则对于任意x,恒有证明设X1,X2,…,Xn是n个相互独立的服从(0-1)分布(P{Xi=0}=1-p,P{Xi=1}=p)的随机变量,则Yn=X1+X2+…+Xn由于E(Xi)=p,D(Xi)=p(1-p)(i=1,2,…,n),由此得第32页,共37页,2023年,2月20日,星期五例:在一家保险公司里有10000个人参加寿命保险,每人每年付12元保险费。在一年内一个人死亡的概率为0.6%,死亡时其家属可向保险公司领得1000元,问:
(1)保险公司亏本的概率有多大?
(2)其他条件不变,为使保险公司一年的利润不少于60000元的概率大于0.9,则赔偿金至多可设为多少?第33页,共37页,2023年,2月20日,星期五解:设X表示一年内死亡的人数,则X~B(n,p)其中
n=10000,p=0.6%设Y表示保险公司一年的利润,Y=1000012-1000X(1)P{Y<0}=P{1000012-1000X<0}=1P{X120}由中心极限定理:
1P{X120}1
(7.75)=0第34页,共37页,2023年,2月20日,星期五P{
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年聚变能产业联盟与创新平台建设指南
- 2024-2025学年度法律硕士模拟题库附参考答案详解【突破训练】
- 2024-2025学年山西省财政税务专科学校单招《职业适应性测试》考试彩蛋押题及答案详解(典优)
- 2024-2025学年反射疗法师3级考前冲刺练习及完整答案详解(名校卷)
- 2024-2025学年度一级建造师模拟题库(原创题)附答案详解
- 2024-2025学年度执法资格经典例题【综合题】附答案详解
- 2024-2025学年度主管护师(中级)真题【易错题】附答案详解
- 2024-2025学年主管护师(中级)考前冲刺试卷附参考答案详解(研优卷)
- 2024-2025学年医院三基考试常考点试卷带答案详解(新)
- 2025年大庆市萨尔图区社区工作人员(网格员)考试题库真题及答案
- 学校资产管理自查报告及整改措施
- 3.12.2024新苏教版小学科学三年级下册第三单元第12课《石头上的植物》同步课件
- 金华义乌市供销联社下属企业2026年招聘6人笔试模拟试题及答案解析
- 2026届湖北省武汉普通高中高三3月调考数学+答案
- 学校推进生源转型期的小班化教学工作方案:让生源减少的“挑战”转化为办学质量提升的“红利”
- (一模)包头市2026年高三第一次模拟考试地理试卷(含答案)
- 2026年湖南省长沙市高职单招职业技能考试题库带答案详解
- 2026年无锡科技职业学院单招综合素质考试题库有答案详解
- DB54∕T 0601-2026 农作物品种生产示范技术规程 青稞
- XX区实验学校初中部2026年春季学期中期学生社团管理实施方案
- 2026年六安职业技术学院单招职业适应性考试题库及答案详解(夺冠)
评论
0/150
提交评论