统计学的基础知识

上传人：5*** IP属地：湖北上传时间：2021-10-13 格式：PPT 页数：112 大小：1.86MB 积分：30 举报 版权申诉

已阅读5页，还剩107页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、预备内容：统计学基础知识统计学statistics 统计学是收集、分析、解释与报告数据资料的一门科学。 “a science dealing with the collection, analysis, interpretation and presentation of masses of numerical data”. -Webster 国际大辞典第一节统计学的一些基本概念 1. 总体与样本 2. 变量与随机变量 3. 同质与变异 4. 参数与统计量 5. 误差与错误 6. 准确性与精确性 1. 总体与样本 Population and sample 样本：从总体中随机抽取的

2、部分观察单位。如某单位男士的身高总体：根据研究目的确定的同质研究对象的全体(集合)。如成年人的身高。分有限总体与无限总体从总体中得到样本的方法：抽样。（抽样方法与样本量）从样本推论总体的方法：统计推断（区间估计，假设检验等）抽样与推断 p 变量可以测量的任何特征或属性。 Any characteristic or attribute that can be measured。如热量值、蛋白质含量、碳水化合物含量。 p 随机变量在概率论中称变量为随机变量 2、变量与随机变量 Variable and random variable 3、变量（随机变量）的分类 p 离散型变

3、量（discrete variable）：计数资料（15，17，24，） p 连续性变量（continuous variable）：计量资料（1.65, 1.73, 1.77，） p 有序变量（ordinal variable）：等级资料（优、良、中、差） 4. 参数与统计量 Parameter and statistic 参数：总体的统计指标，如总体均数、标准差，采用希腊字母分别记为、。通常是固定的常数。抽样统计量参数推断统计量：样本的统计指标，如样本均数、标准差，采用拉丁字母分别记为。参数附近波动的随机变量。 SX、误差与错误 Error and mist

4、ake 误差：试验中不可控因素所引起的实际观察值与客观真实值（真值）之差 p 系统误差 systematic error p 随机误差 random error 错误：试验过程中，人为作用引起的差错如药品称量错误，数据录入错误等误差（Error）测量值 = 真值 + 随机误差 +非随机误差 Xi = i + i 1随机误差（抽样误差）：影响因素众多，变化无方向性，不可避免，但可用统计方法进行分析。 2系统误差受确定因素影响，大小变化有方向性。 3非系统误差（错误）研究者偶然失误而造成的误差。偏差bias 可以避免 6. 准确性与精确性准确度(accuracy)或真实性(va

5、lidity)：观察值与真值的接近程度，受系统误差的影响(常用指标：如灵敏度、特异性)。精密度(precision) 、也称可靠度（reliability）或重复性(repeatability）：重复观察时观察值与其均值的接近程度，受随机误差的影响（常用指标：一致百分率、Kappa值）。系统误差使数据偏离了其理论值，影响数据的准确度准确度。随机误差使数据相互分散，影响了数据的精密度精密度。准确度和精密度都好准确度差、精密度好准确度？精密度差准确度和精密度都差第二节计量资料的统计描述连续型变量（可测量的变量） u频数表与频数分布 u平均指标（算术均数、几何均数、中位

6、数、众数） u变异指标（极差、百分位数与四分位间距、方差、标准差、变异系数）一、频数表与频数分布 (frequency table and frequency distribution) 160名正常成年女子的血清甘油三酯（mmol/L）男子血清总胆固醇水平（mmol/L） Stem-and-Leaf Plot Frequency Stem 0.2584 X nS 30;0.1492 X nS 5;0.3654 X nS 20;0.1827 X nS 通过增加样本含量n来降低抽样误差。 5. 变异系数 %100 X S CV (Coefficient of variation，CV

7、) 适用条件：观察指标单位不同，如身高、体重同单位资料，但均数相差悬殊 6. 数据的标准得分假定两个水平类似的班级（一班和二班）上同一门课，但是由于两个任课老师的评分标准不同，使得两个班成绩的均值和标准差都不一样(SPSS数据：grade.sav)。分数的均值标准差 CV 一班 78.53 9.43 12% 二班 70.19 7.00 10% 那么得到90分的一班的张颖是不是比得到 82分的二班的刘涛成绩更好呢成绩更好呢？怎么比较才能合理呢？数据的标准得分均值和标准差不同的数据不能够直接比较，但是可以把它们进行标准化，然后再比较标准化后的数据。一个标准化的方法是把原

8、始观测值（亦称得分，score）和均值之差除以标准差；得到的度量称为标准得分(standard score，又称为z- score)。即：标准差均值观察值标准得分 - S XX scorez 数据的标准得分然后可以比较来自不同样本的标准得分。这样：张颖的标准得分为刘涛的标准得分为显然如果两个班级水平差不多，刘涛的成刘涛的成绩应该优于张颖的成绩绩应该优于张颖的成绩；这是在标准化之前的数据中不易看到的。 22. 1 43. 9 53.78-90 69. 1 00. 7 19.70-82 10097N = 班级二班一班得分 110 100 90 80 70 60 50

9、40 2 1 10097N = 班级二班一班标准得分 3 2 1 0 -1 -2 -3 -4 2 1 p原始数据是在各自的均值附近，散布也不一样。但它们的标准得分则在0周围散布，而且散布也差不多。 p实际上，任何样本经过这样的标准化后，就都变换成均值为0、方差为1的样本。标准化后不同样本观测值的比较只有相对意义，没有绝对意义。第三节计数资料的统计描述按年龄（2岁一组）与职业整理统计软件的种类 SPSS： p这是一个很受欢迎的统计软件； p容易操作，输出漂亮，功能齐全; p对于非统计工作者是很好的选择。 Excel： p作为数据表格软件，有一定统计计算功能； p对于简单分析比较

10、方便； p对于较复杂的分析，需要使用函数，甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。统计软件的种类 SAS： p功能非常齐全的软件； p某些美国政府机构认可； p需要一定的训练才可以使用，对于非专业统计人员不那么方便。 S-plus： p统计学家喜爱的软件； p其功能齐全，具有强大的编程功能； p专业统计人员可以编制自己的程序来实现自己的理论和方法。统计软件的种类 Statistica： p容易操作; p统计资料分析、图表、资料管理; p应用程序开发。 Origin： p容易操作; p输出图形的清晰度高（很多杂志要求）。第三节常见的概率

11、分布一概率的有关概念二概率分布概述三离散型随机变量的概率分布四正态分布五常用的抽样分布一概率的有关概念样本的实际发生率称为频率。设在相同条件下，独立重复进行n次试验，事件A出现f 次，则事件A出现的频率为f/n。概率：随机事件发生的可能性大小，用大写的P 表示；取值0，1。样本含量n越大，频率的波动幅度越小，频率越接近概率。频率与概率 frequency and probability 必然事件 P = 1 随机事件 0 P 1 不可能事件 P = 0 P 0.05（5）或P 0.01（1）称为小概率事件(习惯)，统计学上认为不大可能发生。随机事件

12、Random events 概率分布：描述随机变量值xi及这些值对应概率P(X=xi)的表格、公式或图形。离散型随机变量离散型随机变量概率分布概率分布连续型随机变量连续型随机变量概率分布概率分布二概率分布概述 1. 1. 离散离散型随机变量的型随机变量的概率分布概率分布离散型随机变量的概率分布（例一） f(x) 离散型随机变量的概率分布（例二） N=10, =0.2 如新手上路某事件出错的概率是0.2，连续进行10次这样的事件，出现010次错误的概率分布： 2. 连续型随机变量的概率分布与离散型变量不同的是连续型变量的取值充满整个数值区间，无法一一列出其每一个可能值。一

13、般将连续型随机变量整理成频数表，对频数作直方图，直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布。如果样本量很大，组段很多，矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。大多数情况下，可采用一个函数拟合这一光滑曲线。这种函数称为概率密度函数（Probability density function，Pdf）。 x x x f f f 如果连续型随机变量X的概率密度函数记为：则在区间x1,x2 范围内的概率可由微积分函数定义 2 1 1212 ( )( )( ,) (,) x x F XP xXxf x dxx x ()( )1F XPxf x dx )(xf

14、三离散型随机变量的概率分布离散型随机变量的分布 1、二项分布 2、泊松分布连续型随机变量的分布正态分布毒性试验：白鼠死亡生存临床试验：病人治愈未愈临床化验：血清阳性阴性任一事件成功（A）失败（非A）这类“成功失败型”试验称为Bernoulli试验。 1、二项分布 Binomial distribution Bernoulli试验序列 n次Bernoulli试验构成了Bernoulli试验序列。其特点（如抛硬币）如下： (1) 每次试验结果，只能是两个互斥的结果之一(A或非A)。 (2) 每次试验的条件不变。即每次试验中，结果A发生的概率不变，均为。 (3) 各

15、次试验独立。即一次试验出现什么样的结果与前面已出现的结果无关。成功次数的概率分布二项分布例设某毒理试验采用白鼠共3只，它们有相同的死亡概率，相应存活概率为1-。记试验后白鼠死亡的例数为X，分别求X0、1、 2和3的概率 3只白鼠各种试验结果及其发生概率二项分布的概率计算 =BINOMDIST(1,3,0.4,0) =0.5，正态 0.5，左偏二项分布的特点 2、泊松分布当二项分布中n很大，很小时，二项分布就变成为Poisson分布，所以Poisson分布实际上是二项分布的极限分布。由二项分布的概率函数可得到泊松分布的概率函数为： 0,1,2, ! 0X Poisso

16、n() x e P Xxx x XP 为大于的常数，服从以为参数的分布全部右偏越大越趋于正态 P Poisson分布概率的特点 Poisson分布与正态分布正态分布及二项分布二项分布的关系当较小时， Poisson分布呈偏态分布，随着增大，迅速接近正态分布，当20时，可以认为近似正态分布。 Poisson分布是二项分布的特例，某现象的发生率很小，而样本例数n很大时，则二项分布接近于Piosson分布。 n （应用： Poisson替代二项分布）四正态分布正态分布（Normal distribution）也叫高斯分布（Gaussian distribution），

17、是最常见、最重要的一种连续型分布。 1、正态分布的数学形式 2、正态曲线 3、标准正态分布 4、曲线下面积 1、数学形式 X X Xf, 2 )( exp 2 1 )( 2 2 ）。正态曲线（就是为横坐标，绘制的曲线为纵坐标，以的概率密度函数。称为为总体标准差的总体均数，为， curve Normal )( )( ),( 2 XXf XXf XNX 2、正态曲线（ normal curve ）图形特点：钟型中间高两头低左右对称最高处对应于X轴的值就是均数曲线下面积为1 1. 标准差决定曲线的形状 =0.5 0 f(x) =1 =2 0 f(x) max 1 2 N（，0.

18、52）、N（，12）、N（，22） N（1 ，2）、）、N（2 ，2）正态分布曲线由两个参数决定，即总体均数和总体标准差。在不变的情况下，函数曲线形状不变，若变大时，曲线位置向右移；若变小时，曲线位置向左移，故称为位置参数。在不变的情况下，函数曲线位置不变，若变大时，曲线形状变的越来越“胖”和“矮”；若变小时，曲线形状变的越来越 “瘦”和“高”，故称为形态参数或变异度参数。 3、标准正态分布标准正态离差标准正态分布：N(0,1) X Z 2 2 1 ( ), 2 z zez 2 2 2 )( exp 2 1 )( X Xf 正态分布： p标准正态分布的概率密度函数实质上就是正态

19、分布的概率密度函数中=0，=1的情形。 p实质上是作了一个坐标轴的平移和尺度变换，使正态分布具有平均数为=0，标准差=1。这种变换称为标准化正态变换。 p因此将这种具有平均数为=0，标准差 =1的正态分布称为标准正态分布，记为 N（0，1）。 0.0 0.1 0.2 0.3 0.4 0.5 -4-3-2-101234 X f(X) 4、曲线下面积 dXeXF X X )2( )( 2 2 2 1 )( dueu uu 2 2 2 1 )( u- 累计概率分布函数：曲线下面积分布规律 0-1 1 -1.96 1.96-2.582.58 68.27% 95.00% 99.00% -+-1.

20、96+1.96-2.58 +2.58 68.27% 95.00% 99.00% 正态分布的特征，归纳起来有两点： p 对称性（symmetry） p 正态峰 (mesokurtosis) 偏度系数和峰度系数 skewness and kurtosis 偏度 skewness 若分布不对称就是偏态，长尾拖向右侧（变量值较大的一侧）叫做正偏态,或右偏态；长尾拖向左侧（变量值较小的一侧）叫做负偏态，或左偏态。正态分布时，mean、median、mode相等偏度系数(skewness): 若分布是以平均值对称的，则偏度=0；若分布是右偏的，则偏度系数 0；若分布是左偏的，则偏度系数 0。

21、峰度系数是描述随机变量陡峭度的参数，分为：正态峰、平阔峰、尖峭峰。峰度 kurtosis a.尖峭峰 b.正态峰 c.平阔峰峰度系数(kurtosis)： Skewness.088kurtosis-0.2215 血清总胆固醇.sav 正态分布在横轴上方均数处最高。正态分布以均数为中心，左右对称。正态分布由参数和确定。是位置参数，当不变时,越大，则曲线沿横轴越向右移动；反之，越小，曲线沿横轴越向左移动是变异度参数，当不变时，越大，表示数据越分散，曲线越平坦；越小，表示数据越集中，曲线越陡峭标准正态分布曲线与X轴所围成的面积为1。在的区间内占总面积的68.27%，在1.

22、96的区间内占总面积的95%；在2.58的区间内占总面积的99%。 5、正态分布的特征五常用的抽样分布如果总体不是正态总体，但其均数和标准差分别为和，则当样本含量n不断增大时，样本均数的分布也趋近于正态分布，且其均数为，标准差为不论总体的分布形式如何，只要样本含量n足够大时，样本均数的分布就近似正态分布，此称为中心极限定理。 1、中心极限定理 n X n 2、常用的三种抽样分布 t 分布 F分布 2 2分布均为连续型随机变量分布，分布只与自由度，即样本含量有关。 t分布根据中心极限定理，当样本含量足够大时，对从均数为，标准差为的任意总体中随机抽样所得的样本均数

23、进行标准化变换，有 (0,1) i i X N n t分布的演化由于总体标准差往往是未知的，此时往往用样本标准差s代替总体标准差，这里，为自由度，取值为n-1 由W.S. Gosset以student的名义提出 X tt sn 全国成年人身高平均值我们班身高的标准误 f(t) =(标准正态曲线) =5 =1 0.1 0.2 -4-3-2-101234 0.3 自由度分别为1、5、时的t 分布: t分布的图形 t分布的性质 pt分布为一簇单峰分布曲线，高峰在0的位置上，说明从正态总体中随机抽样所得样本计算出的t值接近0的可能性较大。 pt分布以0为中心，左右对称。 p分布的高峰位置比 u 分布低，尾部高。 pt分布与自由度有关，自由度越小，t分布的峰越低，而两侧尾部翘得越高；自由度逐渐增大时，t 分布逐渐逼近标准正态分布；当自由度为无穷大时， t分布就

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

统计学的基础知识

文档简介

温馨提示

最新文档

评论

统计学的基础知识

文档简介

温馨提示

最新文档

评论

相关文档