版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、预备内容: 统计学基础知识 统计学statistics 统计学是收集、分析、解释与报告 数据资料的一门科学。 “a science dealing with the collection, analysis, interpretation and presentation of masses of numerical data”. -Webster 国际大辞典 第一节 统计学的一些基本概念 1. 总体与样本 2. 变量与随机变量 3. 同质与变异 4. 参数与统计量 5. 误差与错误 6. 准确性与精确性 1. 总体与样本 Population and sample 样本:从总体中随机抽取 的
2、部分观察单位。如某单 位男士的身高 总体:根据研究目的确定 的同质研究对象的全体(集 合)。如成年人的身高。 分有限总体与无限总体 从总体中得到样本的方法:抽样。 (抽样方法与样本量) 从样本推论总体的方法:统计推断 (区间估计,假设检验等) 抽样与推断 p 变量可以测量的任何特征或属性。 Any characteristic or attribute that can be measured。 如热量值、蛋白质含量、碳水化合物含量。 p 随机变量在概率论中称变量为随机 变量 2、变量与随机变量 Variable and random variable 3、变量(随机变量)的分类 p 离散型变
3、量(discrete variable): 计数资料(15,17,24,) p 连续性变量(continuous variable): 计量资料(1.65, 1.73, 1.77,) p 有序变量(ordinal variable): 等级资料(优、良、中、差) 4. 参数与统计量 Parameter and statistic 参数:总体的统计指标, 如总体均数、标准差,采 用希腊字母分别记为、 。通常是固定的常数。 抽样 统计量 参 数 推断 统计量:样本的统计指标,如样本均数、标准差,采用拉 丁字母分别记为 。 参数附近波动的随机变量 。 SX、 误差与错误 Error and mist
4、ake 误差:试验中不可控因素所引起的实际观察值 与客观真实值(真值)之差 p 系统误差 systematic error p 随机误差 random error 错误:试验过程中,人为作用引起的差错 如药品称量错误,数据录入错误等 误差(Error) 测量值 = 真值 + 随机误差 +非随机误差 Xi = i + i 1随机误差(抽样误差): 影响因素众多,变化无方向性,不可避免,但可 用统计方法进行分析。 2系统误差 受确定因素影响,大小变化有方向性。 3非系统误差(错误) 研究者偶然失误而造成的误差。 偏差bias 可以避免 6. 准确性与精确性 准确度(accuracy)或真实性(va
5、lidity):观察值 与真值的接近程度,受系统误差的影响(常用 指标:如灵敏度、特异性)。 精密度(precision) 、也称可靠度(reliability) 或重复性(repeatability):重复观察时观察 值与其均值的接近程度,受随机误差的影响 (常用指标:一致百分率、Kappa值)。 系统误差使数据偏离了其理论值,影响数据的准确度准确度。 随机误差使数据相互分散,影响了数据的精密度精密度。 准确度和精密度都好 准确度差、精密度好 准确度?精密度差 准确度和精密度都差 第二节 计量资料的统计描述 连续型变量(可测量的变量) u频数表与频数分布 u平均指标(算术均数、几何均数、中位
6、 数、众数) u变异指标(极差、百分位数与四分位间 距、方差、标准差、变异系数) 一、频数表与频数分布 (frequency table and frequency distribution) 160名正常成年女子的 血清甘油三酯(mmol/L) 男子血清总胆固醇水平(mmol/L) Stem-and-Leaf Plot Frequency Stem 0.2584 X nS 30;0.1492 X nS 5;0.3654 X nS 20;0.1827 X nS 通过增加样本含量n来 降低抽样误差。 5. 变异系数 %100 X S CV (Coefficient of variation,CV
7、) 适用条件: 观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊 6. 数据的标准得分 假定两个水平类似的班级(一班和二班) 上同一门课,但是由于两个任课老师的评分标 准不同,使得两个班成绩的均值和标准差都不 一样(SPSS数据:grade.sav)。 分数的均值 标准差 CV 一班 78.53 9.43 12% 二班 70.19 7.00 10% 那么得到90分的一班的张颖是不是比得到 82分的二班的刘涛成绩更好呢成绩更好呢?怎么比较才能 合理呢? 数据的标准得分 均值和标准差不同的数据不能够直接比较, 但是可以把它们进行标准化,然后再比较标准 化后的数据。 一个标准化的方法是把原
8、始观测值(亦称 得分,score)和均值之差除以标准差;得到的 度量称为标准得分(standard score,又称为z- score)。 即: 标准差 均值观察值 标准得分 - S XX scorez 数据的标准得分 然后可以比较来自不同样本的标准得分。 这样: 张颖的标准得分为 刘涛的标准得分为 显然如果两个班级水平差不多,刘涛的成刘涛的成 绩应该优于张颖的成绩绩应该优于张颖的成绩;这是在标准化之前的 数据中不易看到的。 22. 1 43. 9 53.78-90 69. 1 00. 7 19.70-82 10097N = 班级 二班一班 得分 110 100 90 80 70 60 50
9、40 2 1 10097N = 班级 二班一班 标准得分 3 2 1 0 -1 -2 -3 -4 2 1 p原始数据是在各自的均值附近,散布也不一样。但它 们的标准得分则在0周围散布,而且散布也差不多。 p实际上,任何样本经过这样的标准化后,就都变换成 均值为0、方差为1的样本。标准化后不同样本观测值 的比较只有相对意义,没有绝对意义。 第三节 计数资料的统计描述 按年龄(2岁一组)与职业整理 统计软件的种类 SPSS: p这是一个很受欢迎的统计软件; p容易操作,输出漂亮,功能齐全; p对于非统计工作者是很好的选择。 Excel: p作为数据表格软件,有一定统计计算功能; p对于简单分析比较
10、方便; p对于较复杂的分析,需要使用函数,甚至根本 没有相应的方法了。多数专门一些的统计推断 问题还需要其他专门的统计软件来处理。 统计软件的种类 SAS: p功能非常齐全的软件; p某些美国政府机构认可; p需要一定的训练才可以使用,对于非专业统 计人员不那么方便。 S-plus: p统计学家喜爱的软件; p其功能齐全,具有强大的编程功能; p专业统计人员可以编制自己的程序来实现自 己的理论和方法。 统计软件的种类 Statistica: p容易操作; p统计资料分析、图表、资料管理; p应用程序开发。 Origin: p容易操作; p输出图形的清晰度高(很多杂志要求)。 第三节 常见的概率
11、分布 一 概率的有关概念 二 概率分布概述 三 离散型随机变量的概率分布 四 正态分布 五 常用的抽样分布 一 概率的有关概念 样本的实际发生率称为频率。设在相同条 件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。 概率:随机事件发生的可能性大小,用大 写的P 表示;取值0,1。 样本含量n越大,频率的波动幅度越小, 频率越接近概率。 频率与概率 frequency and probability 必然事件 P = 1 随机事件 0 P 1 不可能事件 P = 0 P 0.05(5)或P 0.01(1) 称为小概率事件(习惯),统计学上认为不大 可能发生。 随机事件
12、Random events 概率分布:描述随机变量值xi及这些值对 应概率P(X=xi)的表格、公式或图形。 离散型随机变量离散型随机变量概率分布概率分布 连续型随机变量连续型随机变量概率分布概率分布 二 概率分布概述 1. 1. 离散离散型随机变量的型随机变量的概率分布概率分布 离散型随机变量的概率分布(例一) f(x) 离散型随机变量的概率分布(例二) N=10, =0.2 如新手上路 某事件出错的概率是0.2,连续进行10次这样的事件, 出现010次错误的概率分布: 2. 连续型随机变量的概率分布 与离散型变量不同的是连续型变量 的取值充满整个数值区间,无法一一列 出其每一个可能值。 一
13、般将连续型随机变量整理成频数 表,对频数作直方图,直方图的每个矩 形顶端连接的阶梯形曲线来描述连续型 变量的频数分布。 如果样本量很大,组段很多,矩形顶端组 成的阶梯型曲线可变成光滑的分布曲线。 大多数情况下,可采用一个函数拟合这 一光滑曲线。这种函数称为概率密度函数 (Probability density function,Pdf)。 x x x f f f 如果连续型随机变量X的概率密度函数记为: 则在区间x1,x2 范围内的概率可由微积分函数 定义 2 1 1212 ( )( )( ,) (,) x x F XP xXxf x dxx x ()( )1F XPxf x dx )(xf
14、三 离散型随机变量的概率分布 离散型随机变量的分布 1、二项分布 2、泊松分布 连续型随机变量的分布 正态分布 毒性试验:白鼠 死亡生存 临床试验:病人 治愈未愈 临床化验:血清 阳性阴性 任一事件 成功(A)失败(非A) 这类“成功失败型”试验称为Bernoulli试验。 1、二项分布 Binomial distribution Bernoulli试验序列 n次Bernoulli试验构成了Bernoulli试验序列。 其特点(如抛硬币)如下: (1) 每次试验结果,只能是两个互斥的结果之 一(A或非A)。 (2) 每次试验的条件不变。即每次试验中,结 果A发生的概率不变,均为 。 (3) 各
15、次试验独立。即一次试验出现什么样的 结果与前面已出现的结果无关。 成功次数的概率分布二项分布 例 设某毒理试验采用白鼠共3只,它们有相 同的死亡概率,相应存活概率为1-。记试 验后白鼠死亡的例数为X,分别求X0、1、 2和3的概率 3只白鼠各种试验结果及其发生概率 二项分布的概率计算 =BINOMDIST(1,3,0.4,0) =0.5,正态 0.5,左偏 二项分布的特点 2、 泊松分布 当二项分布中n很大,很小时,二项分布 就变成为Poisson分布,所以Poisson分布 实际上是二项分布的极限分布。 由二项分布的概率函数可得到泊松分布的 概率函数为: 0,1,2, ! 0X Poisso
16、n() x e P Xxx x XP 为大于 的常数,服从以为 参数的分布 全部右偏 越大越趋于正态 P Poisson分布概率的特点 Poisson分布与 正态分布正态分布及二项分布二项分布的关系 当较小时, Poisson分布呈偏态分布,随 着增大,迅速接近正态分布,当20时, 可以认为近似正态分布。 Poisson分布是二项分布的特例,某现象的发生 率很小,而样本例数n很大时,则二项分布接近 于Piosson分布。 n (应用: Poisson替 代二项分布) 四 正态分布 正态分布(Normal distribution)也 叫高斯分布(Gaussian distribution),
17、是最常见、最重要的一种连续型分布。 1、正态分布的数学形式 2、正态曲线 3、标准正态分布 4、曲线下面积 1、数学形式 X X Xf, 2 )( exp 2 1 )( 2 2 )。正态曲线( 就是为横坐标,绘制的曲线为纵坐标,以 的概率密度函数。称为 为总体标准差的总体均数,为, curve Normal )( )( ),( 2 XXf XXf XNX 2、正态曲线( normal curve ) 图形特点: 钟型 中间高 两头低 左右对称 最高处对应于X轴的值 就是均数 曲线下面积为1 1. 标准差决定曲线的形状 =0.5 0 f(x) =1 =2 0 f(x) max 1 2 N(,0.
18、52)、N(,12)、N(,22) N(1 ,2)、)、N(2 ,2) 正态分布曲线由两个参数决定,即总体均数和总体标准差。 在不变的情况下,函数曲线形状不变,若变大时,曲线位置 向右移;若变小时,曲线位置向左移,故称为位置参数。 在不变的情况下,函数曲线位置不变,若变大时,曲线形状 变的越来越“胖”和“矮”;若变小时,曲线形状变的越来越 “瘦”和“高”,故称为形态参数或变异度参数。 3、标准正态分布 标准正态离差 标准正态分布:N(0,1) X Z 2 2 1 ( ), 2 z zez 2 2 2 )( exp 2 1 )( X Xf 正态分布: p标准正态分布的概率密度函数实质上就是 正态
19、分布的概率密度函数中=0,=1的 情形。 p实质上是作了一个坐标轴的平移和尺度变 换,使正态分布具有平均数为=0,标准 差=1。这种变换称为标准化正态变换。 p因此将这种具有平均数为=0,标准差 =1的正态分布称为标准正态分布,记为 N(0,1)。 0.0 0.1 0.2 0.3 0.4 0.5 -4-3-2-101234 X f(X) 4、曲线下面积 dXeXF X X )2( )( 2 2 2 1 )( dueu uu 2 2 2 1 )( u- 累计概率分布函数: 曲线下面积分布规律 0-1 1 -1.96 1.96-2.582.58 68.27% 95.00% 99.00% -+-1.
20、96+1.96-2.58 +2.58 68.27% 95.00% 99.00% 正态分布的特征,归纳起来有两点: p 对称性(symmetry) p 正态峰 (mesokurtosis) 偏度系数和峰度系数 skewness and kurtosis 偏度 skewness 若分布不对称就是偏态,长尾拖向右侧(变量值 较大的一侧)叫做正偏态,或右偏态;长尾拖向左侧 (变量值较小的一侧)叫做负偏态,或左偏态。 正态分布时,mean、median、mode相等 偏度系数(skewness): 若分布是以平均值对称的,则偏度=0; 若分布是右偏的,则偏度系数 0; 若分布是左偏的,则偏度系数 0。
21、峰度系数是描述随机变量陡峭度的参数, 分为:正态峰、平阔峰、尖峭峰 。 峰度 kurtosis a.尖峭峰 b.正态峰 c.平阔峰 峰度系数(kurtosis): Skewness.088kurtosis-0.2215 血清总胆固醇.sav 正态分布在横轴上方均数处最高。 正态分布以均数为中心,左右对称。 正态分布由参数和确定。 是位置参数,当不变时,越大,则曲线沿横轴越向 右移动;反之,越小,曲线沿横轴越向左移动 是变异度参数,当不变时,越大,表示数据越分 散,曲线越平坦;越小,表示数据越集中,曲线越 陡峭 标准正态分布曲线与X轴所围成的面积为1。 在的区间内占总面积的68.27%, 在1.
22、96的区间内占总面积的95%; 在2.58的区间内占总面积的99%。 5、正态分布的特征 五 常用的抽样分布 如果总体不是正态总体,但其均数和标 准差分别为和,则当样本含量n不断增大 时,样本均数的分布也趋近于正态分布,且 其均数为,标准差为 不论总体的分布形式如何,只要样本含 量n足够大时,样本均数的分布就近似正态分 布 ,此称为中心极限定理。 1、 中心极限定理 n X n 2、常用的三种抽样分布 t 分布 F分布 2 2分布 均为连续型随机变量分布,分 布只与自由度,即样本含量有关。 t分布 根据中心极限定理,当样本含量足够大时, 对从均数为,标准差为的任意总体中随机 抽样所得的样本均数
23、进行标准化变换,有 (0,1) i i X N n t分布的演化 由于总体标准差往往是未知的,此时往 往用样本标准差s代替总体标准差 , 这里,为自由度,取值为n-1 由W.S. Gosset以student的名义提出 X tt sn 全国成年人身高平均值 我们班身高的标准误 f(t) =(标准正态曲线) =5 =1 0.1 0.2 -4-3-2-101234 0.3 自由度分别为1、5、时的t 分布: t分布的图形 t分布的性质 pt分布为一簇单峰分布曲线,高峰在0的位置上,说 明从正态总体中随机抽样所得样本计算出的t值接 近0的可能性较大。 pt分布以0为中心,左右对称。 p分布的高峰位置比 u 分布低,尾部高。 pt分布与自由度有关,自由度越小,t分布的峰越 低,而两侧尾部翘得越高;自由度逐渐增大时,t 分布逐渐逼近标准正态分布;当自由度为无穷大时, t分布就
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 床头隔断施工方案(3篇)
- 潞安新疆煤化工(集团)有限公司露天煤矿采矿权出让收益评估报告主要参数表
- 呼吸衰竭患者的护理国际化
- 创新医疗器械支付体系与协同研发
- 切口感染预防性抗生素:选择策略
- 创伤后应激障碍的循证干预路径
- 失语症患者的沟通护理策略
- 减重手术患者术前呼吸功能评估量表
- 冠心病二级预防风险模型的可视化验证研究
- 化学农药生产工安全专项水平考核试卷含答案
- 2025年江西省上饶市中考一模英语试题(含答案无听力原文及音频)
- 地基买卖合同范本
- 高级顾问聘用协议书范本
- 产房安全核查表常用指南
- (高清版)DB11∕T 1831-2021 装配式建筑评价标准
- 小学语文部编版二年级下册第三单元 作业设计
- 2024年湖南省高考历史试卷真题(含答案解析)
- DZ∕T 0248-2014 岩石地球化学测量技术规程(正式版)
- 保险销售管理系统
- GB/T 17846-2024小艇电动舱底泵
- JC T 836-1998 玻璃纤维捻线机
评论
0/150
提交评论