版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数理统计(mathematical statistics)是以概率论为理论基础的,从试验数据出发研究随机现象规律性的一门应用性很强的数学学科。内容包括:1.如何合理的搜集数据抽样方法、试验设计; 2.如何根据收集到的局部数据较准确地分析推断总体情况统计推断(本课重点)。第一章 抽样和抽样分布1.母体和子样1.1 母体及其分布(1)母体与个体母体(population,亦称总体):研究对象的某项数量指标的各可能取值的全体(各可能取值有一定比率)。个体(individuality):总体中的每一个取值。见P1例1、例2、例3。(2)母体的分布母体与随机变量:母体对应一个随机变量X,不加区别,记为母
2、体X。如例1中的母体对应着具有如下分布的随机变量X:X120p0.7210.2130.066母体的分布与数字特征:即指母体所对应的随机变量X的分布(分布函数、分布律、分布密度等)与数字特征(期望、方差、标准差、矩)1.2 子样(样本)(1)子样与抽样子样(sample, 亦称样本):从母体中抽取一部分个体(如n个,以推断母体的有关性质),称为子样(样本)。子样中个体的个数n称为子样容量(sample size) 。如例1的母体中抽取一个子样(0,1,1,2,0,2,0,0,1,0),子样容量为10.实际上,这一子样是10维随机变量的一组观察值。一般,容量为n的子样对应着一个n维随机变量,称为“
3、子样”,其观察值称为“子样值”。抽样:取得子样的过程称为抽样;子样中每个个体称为样品。(2)随机抽样法随机抽样法分为重复抽样和不重复抽样两类。在重复抽样中, 相互独立,且均与母体有相同分布。在不重复抽样中,无限母体情形下仍可认为相互独立,且均与母体有相同分布;有限母体情形下若仍可这样认为。(3)简单随机子样若子样满足:独立性:相互独立;代表性:均与母体 X同分布,则称子样为简单随机子样(simple random sample)。抽样前,子样是随机变量;抽样后,得到一组观察值即子样值。(4)母体分布与子样分布若母体X有分布函数F(x) ,则其子样有联合分布函数Fn(x1 ,x2 ,xn)=F(
4、x1)F(x2)F(xn)若离散母体X有分布律,则其子样有联合分布律Pn(x1 ,x2 ,xn) =若连续母体X有分布密度f(x),则其子样有联合分布密度例1.1.1 是来自总体的一个样本,求: 解: , 例1.1.2 是来自总体X的一个样本, 求:解: 1.3 子样(值)的分布作用:刻画了子样中数据的分布情况三种方法:(1)频数分布和频率分布;(2)经验分布函数; (3)直方图。(1)频数分布和频率分布(frequency distribution)例1.1.3 从某班试卷中随机抽取10份,考分依次为:,求频数分布和频率分布.作法:把数据按从小到大的次序排列;把相同的数据合并,并指出其频数(
5、这一相同数据的个数);频数分布:50608090100频数12421频率分布:50608090100频率0.10.20.40.20.1一般,将子样值中的数据由小到大依次排列,相同数值合并记下频数。设子样中不同数值为,相应频数为,其中,且,则有频数分布频数频率分布频率(2)经验分布函数例1.1.4 已知母体X的频数分布为50608090100频数12421求经验分布函数.解:由频数分布可得频率分布50608090100频率0.10.20.40.20.1于是经验分布函数为定义:称为的经验分布函数(empirical distribution function) 。其中是来自母体X的一个子样,子样值
6、为, 对于,是中小于或等于x的子样值个数,称为经验分布频数。求法:由频数分布得频率分布,再得经验分布函数.具体地将划分成l+1个左闭右开的区间,当时, 经验分布函数性质:经验分布频数具有与分布函数类似的性质,即有单调非降;右连续;.说明:对于任意取定的x,是中小于或等于x的子样值个数,即是n次独立重复试验中事件发生的次数,是一个随机变量,故也是一个随机变量。若已知母体的分布函数为,则, 从而. ,从而定理:是来自母体X的一个子样,X的分布函数为,则对于任意取定的x,有. 证明:对于任意取定的x,由贝努利大数定律知 证毕.注:当n充分大时,可以用一次抽样后所获子样值构造的经验分布函数去近似母体X
7、的分布函数.格利汶科定理(Glivenko theorem):是来自母体X的一个子样,X的分布函数为,则对于,有证略。结论从全局意义上(而不是单个x处)进一步说明: 当n很大时,是很好的近似,这是统计中用样本估计总体的理论依据.(3)直方图(histogram)步骤:(以P10例4为例,数据见P6表1-3)找出子样观察值的最小值,最大值分组:取组数,第i组的取值区间为,区间长度称为组距计算落入每个中的子样值的个数,频率为画出以为底(长为组距),为高的小矩形。(面积,即为该组频率)依上述步骤得到的各组数据见P12表1-6,图见P12.考试成绩直方图的matlab程序(以频数为纵坐标)x=100,
8、95,92,88,86,85,83,82,80,79,78,77,75,74,72,71,69,67,66,64,62,60,57,57,52,45,37;hist(x)x=100,95,92,88,86,85,83,82,80,79,78,77,75,74,72,71,69,67,66,64,62,60,57,57,52,45,37;hist(x,7)x=100,95,92,88,86,85,83,82,80,79,78,77,75,74,72,71,69,67,66,64,62,60,57,57,52,45,37;a=35,45,55,65,75,85,95;hist(x,a)直方图与母体
9、密度函数图象:由于以母体密度函数曲线为曲边、小区间为底的曲边梯形面积为 且直方图中第i个矩形的面积等于该组频率,即,故由大数定律知,此频率依概率收敛于(*)式中的概率值。故当n愈大,且组距愈小,直方图的外廓曲线愈接近于母体密度函数的图形。1.4 子样数字特征(1)统计量定义: 是子样的连续函数,且不含任何未知参数,则称为统计量(statistic)。统计量Y的分布称为抽样分布(sampling distribution),当有观测值时,称为Y的观察值。例1.1.5 是来自的一个样本,未知,已知,则()为统计量. (2)常用统计量与母体矩 子样数字特征(随机变量)与母体数字特征(常数)子样均值(
10、sample mean):母体均值: 子样方差(sample variance): 母体方差:子样均方差(sample standard,亦称子样标准差):母体均方差或称标准差:修正子样方差:修正子样均方差:子样k阶原点矩(sample moment of order k about origin):母体k阶原点矩 子样k阶中心矩(sample central moment of order k):母体k阶中心矩子样值的数字特征(子样数字特征的观察值)子样均值 子样方差 子样均方差 修正子样方差修正子样均方差子样k阶原点矩 子样k阶中心矩当子样值以频数分布给出时子样均值子样方差 子样均方差 修
11、正子样方差修正子样均方差子样k阶原点矩 子样k阶中心矩子样均值、子样方差的依概率收敛性设母体有: 则由于子样()满足:相互独立且均与同分布,故 (由契比晓夫大数定律知); 证明:由知 (1)由契比晓夫大数定律知 (2)由(1)(2)两式,再结合依概率收敛的性质,就有亦即即当n很大时可以用一次抽样所得的分别去近似.(3)顺序统计量例1.1.6 设子样()在三次抽样中分别有子样值:子样子样值2 .12.41.81.72.32.52.11.92.01.81.61.91.72.02.1将三组数据分别由小到大重新排序后,将其视为随机变量()的三组观察值,有:子样子样值1.71.82.12.32.41.8
12、1.92.02.12.51.61.71.92.02.1则称()为()的顺序统计量。定义:子样有子样值,将数据由小到大重新排序后记为,将其视为随机变量的观察值,则称为的顺序统计量(order statistics)。注:不独立。(4)子样中位数与子样极差(也是子样数字特征)子样中位数(sample median)及其观察值: 子样极差(sample range):注:当是偶数时,子样中位数有时(如在matlab等数学软件中)取为.子样中位数刻画了子样的位置特征;子样极差刻画了子样的分散特征。和子样均值相比,子样中位数较少受异常值的影响,具有鲁棒性。补充内容:计算器统计功能的使用1. 进入和退出统
13、计状态:on 2ndF on;2ndF on2. 输入子样观测值:x1 DATA , x2DATA , , xnDATA3. 读出统计量的值:按显示子样均值;按显示修正子样标准差;按 显示修正子样方差;按显示子样标准差;按 显示子样方差4. 销去错误输入的数据xi:xi 2ndF DATA5. 销去前一次输入的所有数据: on或2ndF on或off补充内容:描述性统计的MATLAB命令对于由子样值构成的向量x,有函数名称功能调用格式mean求子样均值mean(x)var求子样方差var(x,1)std求子样标准差std(x,1)var求修正子样方差var(x)std求修正子样标准差std(x
14、)moment求子样k阶中心矩moment(x,k)median求子样中位数median(x)range求子样级差range(x)prctile求子样p分位数prctile(x,p)hist画子样的直方图hist(x)boxplot画子样的盒图boxplot(x)补充内容:箱线图(盒图)及其MATLAB作图1子样分位数(1)定义:设有容量为的子样观察值,子样分位数记为,它具有以下性质:至少有个观察值小于或等于;至少有个观察值大于或等于.(2)求法:将子样观察值按由小到大的次序排列成,子样分位数记为, 若不是整数,则观察值中只有一个数据(即)满足上述两性质;若是整数,则观察值中两个数据(即和)均
15、满足上述两性质,故取其算术平均值为. 于是特别,当时,比较常用,分别称为第一四分位数(又记为),中位数(又记为或),第三四分位数(又记为).例1.1 以下是8个病人的血压(收缩压,mmHg)数据(已排过序),求.102,110,117,118,122,123,132,150解:,;,;,;,.2. 箱线图(box plot, 亦称盒图)箱线图(盒图)是由箱子和直线构成的图形,是子样值的基于以下五个数的图形概括:最小值,第一四分位数,中位数,第三四分位数,最大值. 3. 用MATLAB画箱线图(盒图)(1)一个数据样本的盒图例1.2 以下容量为18的子样值已排过序,画其盒图。122 126 13
16、3 140 145 145 149 150 157 162 166 175 177 177 183 188 199 212 hold offx=122 126 133 140 145 145 149 150 157 162 166 175 177 177 183 188 199 212;boxplot(x)(2)两个数据样本的盒图例1.3 下面分别给出了25个男子和25个女子的肺活量(以升计,数据已排过序),画其盒图。女子组:2.7 2.8 2.9 3.1 3.1 3.1 3.2 3.4 3.4 3.4 3.4 3.4 3.5 3.5 3.5 3.6 3.7 3.7 3.7 3.8 3.8 4.0 4.1 4.2 4.2男子组:4.1 4.1 4.3 4.3 4.5 4.6 4.7 4.8 4.8 5.1 5.3 5.3 5.3 5.4 5.4 5.5 5.6 5.7 5.8 5.8 6.0 6.1 6.3 6.7 6.7 hold offx1=2.7 2.8 2.9 3.1 3.1 3.1 3.2 3.4 3.4 3.4 3.4 3.4 3.5 3.5 3.5 3.6 3.7 3.7 3.7 3.8 3.8 4.0 4.1 4.2 4.2;x2=4.1 4.1 4.3 4.3 4.5 4.6 4.7 4.8 4.8 5.1 5.3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 精制制盐工安全知识宣贯竞赛考核试卷含答案
- 2026年中国实体剧本杀消费洞察报告
- 木焦油工安全应急水平考核试卷含答案
- 儿童发育指导师10S执行考核试卷含答案
- 种畜胚胎移植工冲突管理强化考核试卷含答案
- 壁球制作工成果转化竞赛考核试卷含答案
- 第01讲 相交线 教学设计(2025-2026学年浙教版数学七年级下册)
- 2025年储备干部培训方案
- 2025年辽宁省公需课学习-生态环境损害赔偿制度改革方案解析1605
- 七年级语文下册第3课《列夫・托尔斯泰》教学设计
- 2026秋招:重庆农商行笔试题及答案
- 初中音乐学业水平考试复习资料
- 2026年初中九年级数学强化寒假作业每日一练(30天)
- 2026年湖南化工职业技术学院单招职业技能考试模拟测试卷附答案
- 行人出行安全培训课件
- 2026学校师德师风建设实施方案
- 2026年陕西单招面试高频问题及应答模板考官视角解析
- 老年人心理健康咨询技巧
- 北师大版初二下册英语期末试卷附参考答案
- 高空作业承揽合同范本
- 2026年苏州工业园区职业技术学院单招职业适应性考试题库及答案1套
评论
0/150
提交评论