基本概念与基本知识ppt课件_第1页
基本概念与基本知识ppt课件_第2页
基本概念与基本知识ppt课件_第3页
基本概念与基本知识ppt课件_第4页
基本概念与基本知识ppt课件_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计与计算,授课对象: 研究生各专业 使用教材:SPSS统计软件 参考教材:医药数理统计 总学时数: 54 学时 (理论:33学时 实验:21学时),贵阳中医学院数学微机教研室 范薪生,序 言,医学统计与计算是医学统计方法结合计算机应用,在医药科研中处理数据、分析数据着重实用性的课程。主要是针对我院医学、药学各专业的硕士研究生(已学过数理、或医学统计和计算机的医药学各专业的学生),开设的一门以实践为主、以提高科研能力为目的的素质课程。 本课程主要介绍EXCEL中的统计分析工具,和SPSS统计软件中常用的分析方法。为今后的进一步学习打好基础,为开展教学实验、毕业实习、科研提供基本技能,更为学生毕业后在用人单位大显身手培养良好基本素质。,本课程主要讲授的内容,第一部分 基本医学统计方法 基本概念与基本知识 总体参数的区间估计 假设检验的基本方法 第二部分 统计分析工具的应用 EXCEL中的数据分析工具 SPSS统计软件的应用,实验教学的内容,实验1: EXCEL中的T检验(均数比较) 实验2: EXCEL中的方差分析 实验3: EXCEL中计数资料分析的计算 实验4: EXCEL中秩和检验的计算 实验5: EXCEL中的回归分析,一、EXCEL中的数据分析工具,实验1: Descriptive Statistics(描述统计) 实验2: Compare Means(均数比较) 实验3: General Linear Model (方差分析) 实验4: Crosstabs(列联表的独立性检验) 实验5: Nonparametric Tests(非参数检验) 实验6: Regression(回归分析),二、SPSS统计软件中的分析工具,教学内容目录,第1章 基本概念与基本知识 第2章 计量资料的分析方法与计算 第3章 分类资料的分析方法与计算 第4章 秩和检验的分析方法与计算 第5章 回归分析方法与计算 第6章 医学统计方法的应用,第1章 基本概念与基本知识,1.1 事件及事件的概率,1.2 总体与样本,1.3 总体参数的估计,1.1 事件及其事件的概率,事件的基本概念与运算,概率与统计概率定义,互斥事件与对立事件的概率,本节的重点,1.1-1 事件的概念与运算,一、 随机实验,(2) 随机实验的特征: 在相同条件下,实验可重复进行; 至少有两种不同的结果,且各种结果是预先可以明确的; 每次实验至少有一个结果出现,且出现哪个结果带有偶然(随机)性。,1. 统计学研究的对象:随机现象,2. 随机实验及其特征 (1) 随机实验:对随机现象的观察。,参看前例,例如,1. 在平面上投掷一个硬币,观察其出现的结果(正面、反面)。,2. 用某药治疗某病患者,观察其治疗的结果(无效、有效、痊愈)。,3. 袋中有5个球,从中抽出1球。在不同条件下,观察抽到红球、白球的结果。,2个白球和3个红球 ;,5个球都是红球 ;,返回,5个球都是白球 。,在一定条件下,一次实验中: 随机事件:可能出现、可能不出现的结果,用大写的A、B等表示。 必然事件:一定出现的结果,记为 (读音:omegaoumiga)。 不可能事件:一定不出现的结果,记为(读音:omicronoumaikran)。,二、 事件的概念,1.1-1 事件的概念与运算,三、 事件的并与交运算,(1) 两个事件 A 与 B 的并事件(记为 A+B): A+B =A与B中至少有一个发生,1. 事件的并运算(并事件):,= A1、A2、An中至少有一个发生,(2) n个事件 A1、A2、An 的并事件 :,注:希腊字母 (读音sigmasigma)的数学含义 = A1 + A2 + + An (n个事件的并事件) = 12 + 31 + + 28 (n个数的和),(1) 两个事件 A 与 B 的交事件(记为 A B) A B = A 与 B 同时发生,2. 事件的交运算(交事件):,= A1、A2、An同时发生,注:希腊字母 (读音 pi pai )的数学含义 = A1 A2 An (n个事件的交事件) = 23 35 42 (n个数的乘积),(2) n个事件 A1、A2、An 的交事件 :,例题 四个秀才同时进京考进士,1. 可能出现的结果: A0=四人一个都不中 A1=只有一个考中 A2=只有一半考中 A3=只有一个考不中 A4=四人一起考中,2. 事件满足的关系: 任意两个事件不可能同时发生; 在一次观察中,五个事件至少有一个事件一定会发生。即 A0+A1+A2+A3+A4+A5 一定会发生。,四、互斥事件及对立事件,若事件 A、B 满足下面两个条件:,事件的互斥(互不相容)性,(1) 若两事件 A 和 B 满足: A B = 称事件 A 与 B 为互斥事件(或互不相容事件)。,(2) 多个事件的两两互斥性: 若 A1、A2、An 中任意两事件 Ai、Aj 满足 Ai Aj = ( i j ) 称 A1、A2、An满足两两互斥性。,(1) A B = (2) A + B =,称 A 与 B 为对立事件,记 A 的对立事件为 。,例1-1 对甲、乙、丙三人进行某项检查,令A=甲正常 、B=乙正常、C=丙正常。,判断事件与事件是否为对立事件。,用 A、B、C 表示下列各个事件: 只有甲正常; 只有甲乙正常; 三人都正常; 至少两人不正常; 至多一人正常; 至少一人不正常。, 只有甲正常=,因为,所以事件与事件为对立事件。, 只有甲乙正常=, 三人都正常=, 至少二人不正常=, 至多一人正常=, 至少一人不正常=,判断事件与事件是否为对立事件,解 1.用 A、B、C 表示下列各个事件,至少甲乙不正常或至少甲丙不正常或至少乙丙不正常,三人不正常或只有甲正常或只有乙正常或只有丙正常,至少甲不正常或至少乙不正常或至少丙不正常,1.1-2 概率的定义与运算,一、概率与频率,1. 概率:一次实验中,描述随机事件发生可能性大小的数量(用 P(A) 表示事件 A 的概率)。,2. 频率:在 n 次相同的实验中,事件 A 出现的次数 mA与实验次数 n 的比值 mA/n。,(1) 其中事件 A 出现的次数 mA,叫频数;,(2) 频率 mA/n记为 ,即 。,例如 用某药治疗某疾病400例,有260例痊愈。 则该药的痊愈率 。,1.定义 在 n 次相同的试验中,随着 n 的增大,事件 A 的频率,则称此常数 a 为事件 A 的概率,即 。,二、统计定义及其应用,稳定在某个常数 a 附近摆动。,2.统计定义的应用:当实验次数 n 足够大时,,3. 概率的基本性质,(1),(2) P() = 1,P() = 0。,三、并事件的概率(加法定理),1. 互斥事件的加法定理,(1) 若事件A、B互斥(即 AB =),则 P(A+B) = P(A) + P(B) 。,(2) 若n个事件A1、A2、An两两互斥,则,2. 对立事件的概率:,(对立事件满足 ),(多个事件的并事件 ),例1-2 同时投掷两颗色子,事件Ai=掷出i点。 已知,解 P(B)=P(A2+A3)=P(A2)+P(A3)=1/36+2/36=1/12,因为 B、D 满足 B D =,B + D =,为对立事件。 P(D)=1P(B)=11/12=11/12,事件B=掷出小于4的点、事件C=掷出大于9的点, 事件D=掷出大于3的点,求P(B)、P(C)、P(D)。,P(C)=P(A10+A11+A12)=P(A10)+P(A11)+P(A12) =3/36+2/36+1/36=1/6,1. 事件的独立性 (1) 定义 若事件 A 的发生与否对事件 B 不产生任何影响,称事件 A 与事件 B 独立。 (2) 若事件 A 与 B 独立,下面各事件间也独立:,四、事件的独立性及其应用,2. 事件 A 与 B 独立的充分必要条件 P(B|A) = P(B)。 (1) P(B|A)= P(在 A 发生的条件下 B 发生), 称 P(B|A) 为事件 B 的条件概率; (2) 相对地称 P(B) 为 无条件概率。,例1-3 为研究某方剂对风热外感证的疗效,随机选取400名患者,有的服药、有的不服药,一段时间后得治疗结果如表,试判断此方剂对风热外感证是否有效。,解 无条件概率 P(A1) = 317/400 79.3% 条件概率 P(A1|B1)= 127/160 79.4% 因为 P(A1) 79.3% P(A1|B1) 79.4% , 治疗结果与治疗方法独立,此方剂无效。,1. 对甲、乙、丙三人同时进行 X 光检查,令A=甲正常、B=乙正常、C=丙正常。 用A、B、C表示下列各个事件:, 只有甲不正常; 只有一人正常; 只有两人正常; 至少一人不正常。,课堂练习1 2019年5月14日,2. 经调查950个非聋耳人中有76人色盲,50个聋耳人中有4人色盲。试分析,聋耳与色盲是否有关。,课堂练习1答案, ; ; ; 。,2. 令 A = 聋耳、B = 色盲 。,色盲的条件概率 P(B|A) = 4/50 = 8 %,色盲的无条件概率 P(B) = (76+4)/(950+50) = 8 %,因 P(B|A) = P(B), 所以色盲与聋耳无关。,1.2 总体与样本,1.2-1 总体的分布与数字特征 概率函数、概率密度函数和分布函数 总体均数、总体方差及标准差,1.2-2 样本与样本的描述统计量 简单随机样本样本 样本均数、样本方差及标准差,1.2-3 几个重要的(抽样)概率分布,一、 总体与个体,1. 随机变量及其分类,随机变量:用一个变量的不同取值表示随机实验中可能出现的各个基本事件得到的变量,通常用大写的英文字母 X、Y、Z 等表示。 随机变量的分类: 1) 离散型随机变量:变量取值为有限多个或可列(取值可依次从小到大排列)个的变量。 2) 连续型随机变量:变量取值充满一个区间的随机变量。,例如,1.2-1 总体的分布与数字特征,3. 总体与个体概念,(1) 个体:满足随机实验条件的每一个对象。 (2) 总体:满足随机实验条件的全体对象,用观察指标(随机变量)X 或 Y 等表示。,2. 基本事件(满足下面两条的事件): (1) 每次随机实验至少有一个事件发生; (2) 每次随机实验只有一个事件发生。,例如 在临床中,研究某药治疗高血压病的效果。 1. 每一个高血压患者,即为研究的个体; 2. 全体高血压患者,即为研究的总体; 3. 可用舒张压的降压值 X 来表示。,(2) 概率函数的性质: 1) 函数值在 0 到 1 之间,即 0 pi 1;,若用X=i来表示掷出i点,则可表示成,例如 同时投掷两颗色子,用 Ai 表示掷出i点,则,(1) 定义 若离散型变量 X 的一切可能取值为, x1,x2,xi,xn 称 pi = P( X = xi ) (i=1,2,n)。 为变量 X 的 概率函数。,二、总体的概率分布,1. 离散型变量的概率函数及性质,2) 所有函数值的和等于 1,即 。,2. 连续型变量的概率密度函数,(1) 概率密度函数定义及其几何意义,1) 定义 若定义在区域(,)上的非负函数f(x),对任意的区间 a, b 都有,2) 定积分 的几何意义:,为曲线y=f(x)在区间 a, b 上, 与 x 轴所夹曲边梯形的面积。,称变量 X 为连续型随机变量; 称函数f(x)为 X 的概率密度函数。,其中 是函数曲线在a,b上与 x 轴围成的面积。,(2) 连续型随机变量的特点 1) 在任意点 x 处的概率值为 0,即 P(X = x) = 0; 2) P( a X b ) = P( a X b )。,P( x X x ) = 0;,(3) 概率密度函数f(x)的性质 1) 非负性: f(x) 0; 2) 曲线y=f(x)与 x 轴所夹 平面图形的面积值恒为 1。 即广义积分 。,(1) 分布函数的定义,定义 对任意实数 x (,),令 F(x) = P ( X x ) 称 F(x)为变量 X 的 分布函数。 (注:X x 表示事件X取值不超过x),(2) 分布函数的性质: 1) 0 F(x) 1 ; 2) F() = 0 、 F() = 1 ; 3) 若 a b,则 P(a X b)= F(b) F(a)。,3. 随机变量的分布函数,P(X2)+P(X=3)= 1 + 0 = 1,P(X=0)+P(X=1)+P(X=2)= 1,例1-4 用 X 的取值 0、1、2分别表示某药治疗某疾病的“无效”、“有效”和“痊愈”。已知,F(1)= P(X1)=,F(2)= P(X2)=,F(3)= P(X3)=,P(0X3)= F(3)- F(0)= 1- 0.3 = 0.7,P(X=0)+P(X=1)= 0.8,P(X=0+X=1),P(X=0+X=1+X=2),P(X2+X=3),求 F(0)、F(1)、F(2)、F(3)、P(0X3)。,(1) 总体均数:全部个体数值指标的平均 值,是以总体分布有关的 常数值;,三、总体的数字特征,1. 统计学中几个重要的数字特征,2. 总体均数、总体方差的意义 (1) 均数描述变量 X 取值的平均水平; (2) 方差描述变量 X 取值的差异(变异性)。,(2) 总体方差2:全部个体数值指标与的 差的平方和的平均值,是确定的 常数值;,(3) 总体标准差:总体方差的算术平方根。,(4) 总体率p:观察结果事件A的概率P(A)。,一、简单随机样本(简称 样本),2. 统计学中对样本的要求: (1) 随机抽样随机性; (2) 样本中个体间相互独立独立性。,1. 定义 称从总体 X 中抽取的部份个体 X1,X2,Xi,Xn 为样本(用观察指标 Xi 来表示)。 (1) 样本容量:样本中所含个体的个数 n。 (2) 样本值:样本中个体的具体数值指标值:,1.2-2 样本与样本的描述统计量,2.分类(或计数)资料: 按观察结果的不同分类计数(个体的个数)所得到的数据资料。 (1) 两分类资料:只有两个分类结果的资料。 (2) 多分类资料:多于两个分类结果的资料。 1) 等级资料:分类结果有顺序、等级; 2) 非等级资料:分类结果无顺序、等级。,1. 计量(或定量)资料: 用定量的方法测得每个个体的数值指标值,所得的数据资料。,例如,二、样本资料的分类,三、 重要的样本特征统计量,1. 统计量的概念和特点,读音i:ta,(2) 统计量的特点: 1) 统计量是由样本构成的随机变量; 2) 样本值确定后,统计量有确定的值。,不含任何未知参数,称 为统计量。,(1)定义 若由样本 X1,X2,Xn 构成的变量 ,,设 X1,X2,Xn 是容量为 n 的一个样本,(1) 称统计量 为样本均数。,2. 计量资料重要特征的统计量,(2) 记 、 ,称,SS为离均差平方和,简称离差平方和;,S2 为样本方差;,S 为样本标准差, 。,3. 两分类计数资料特征的重要统计量 在 n 次相同的实验中,X 为事件A出现的次数。,(1)样本率(事件A的频率) : 。,4. 样本均数、样本率的抽样误差,(1)样本均数的标准误 : 。,(2)样本率的标准误 : 。,5. 样本均数、样本方差的意义 (1) 样本均数:又叫算术均数,描述样本中个体指标值的平均水平和取值的集中趋势; (2) 离差平方和 SS、方差 S2 和标准差 S:描述样本中个体指标值的偏差程度(变异性)。,2. 伯努利定理 在 n 次相同的伯努利试验中,用变量 X 事表示件 A 出现的次数,则变量 X 服从参数为 n 和 p 的二项分布 B( n,p )。即,称 X 服从参数 n,p ( 0 p 1 )的 二项分布, 记为 XB( k;n, p ) 或 XB( n, p )。,二项分布 若随机变量 X 的概率函数为,一、二项分布及其应用,其中参数 p 为事件 A 的概率,即 p = P(A);,(2) 伯努利实验:只有两对立结果 A 和 的试验。,1.2-3 几个重要的概率(抽样)分布,3. Excel中二项分布 的计算,(1) Excel中的二项分布函数, num(number_s):变量 X 的取值 k ;,(2) 二项分布函数的应用, P(X=k):“=BINOMDIST(k,n,p,0)”;,如“=BINOMDIST(14,30,0.3,1)” 0.98306。,BINOMDIST(num, tri, pro,cum), tri(trials):实验次数,参数 n 的值;, prob(probability_s) :参数 p 的值;, cumu(cumulative):概率、分布函数选项, “0”时计算 P(X=k),“1”时计算 F(k)= P(Xk)。, P(Xk):“=BIHOMDIST(k,n,p,1)”。,例1-5 已知某疾病的自然痊愈率为30%,用某 民间验方治疗该病患者30例,有15例痊愈。 (1)假定验方无效,求不少于15人痊愈的概率; (2)由上面(1)的结果,试说明验方是有效的。,解 (1)假定验方无效,则验方痊愈率 p :p = 30%。 对一个病人的治疗,就是一次伯努利试验。 用 X 表示痊愈人数,则 X B( 30,0.3 )。,所以 P(X15)=,(2)根据 15/30 = 50% 30%,判断验方是有效的。 若确实无效,则判断错误的(显著性)概率 P : P = P(X15)= 1P(X14) = 0.01694 由于判断错误的概率很小,可认为判断正确。,“=BINOMDIST(14,30,0.3,1)” 0.98306,曲线y=f(x)关于直线 x=对称,且f()最大。 的值越大,曲线的形状越矮胖。,(1) 正态分布:若变量 X 的概率密度函数为,称变量 X 服从参数为和(0)的正态分布,记为 XN(,2 )。,正态分布及其密度函数的几何特点,曲线y=f(x)关于直线 x=对称,且f()最大; 的值越大,曲线的形状越矮胖。,二、正态分布N(,2),(2) 密度函数f(x)的几何特点,正态总体的均数和方差,若总体 X 服从正态分布 ,则,(1) 总体的均数就是参数 ;,(2) 总体的标准差就是参数 。,?,0.025,例1-6 随机变量 XN(,2),已知 P( X +1.96)= 0.025 (1) 求 F(1.96)和 F(+1.96); (2) 求 P(|X|1.96)。,解 (1),(2),95%,0.025,3. 标准正态分布N(0,1),(2) 概率密度函数: ; 密度函数特点: ; (3) 分布函数: 。,(1) 变量记为 u(或z),即uN(0,1)。,1. 卡方分布,(3) 密度函数的几何特点 1) 偏态的峰状曲线; 2) 在n-2处取得最大值。,定义 设 n 个相互独立变量 X1、X2、Xn , 均服从标准正态分布 N(0,1)。,(1) 称变量2服从自由度为 n 的卡方分布,,(2) 自由度 n ,用 df(或f) 表示。,三、其它几个重要的抽样分布,记为,2. t 分布的定义和几何特点,(2) t分布密度函数的几何特点: 1) 关于纵轴对称的峰状曲线; 2) 当n时,f(t)(t)。 (3) 函数f(t)为偶函数,即 f(-t) = f(t)。,(1) t 分布(又叫学生分布) 设两独立的变量 UN(0,1)、V2(n) 。,1) 称变量 t 的分布为 t 分布,记为 tt(n)。,2) 其中参数 n 为自由度,用 df 表示。,3. F分布的定义和几何特点,(2) 密度函数的几何特点 1) 偏态的峰状曲线; 2) 在x=1附近取得最大值。,(1) F方分布的定义 设两个相互独立的变量 , 。,1) 称变量 F 的分布为 F分布,记为FF(n1,n2)。,2) 其中参数 n1、n2为第一、第二自由度。,(3) 性质:1/FF(n2,n1)。,语法 FDIST(x ,df1,df2); 应用:计算概率 P( X x)。,四、Excel中常用的概率分布函数,1. 标准正态分布的分布函数,2. 卡方分布的分布函数,语法 NORMSDIST( x ); 应用:“=NORMSDIST( x )”,计算概率 P( X x)。,3. t 分布的分布函数,4. F分布的分布函数,Excel,语法 CHIDIST(x ,df);应用:计算概率 P( X x)。,语法 TDIST(x ,df,tails); 应用:计算概率 P( X x)、P(|X| x)。,tails=1(单)、2(双),变量取值,deg_freedom 自由度,变量取值,df1、df2 第1、2自由度,课堂练习2 2019年5月14日,已知用某民间验方治疗某疾病的痊愈率 p =0.3,用 X 表示治疗 20 人中的痊愈人数。 求变量 X 的概率函数 P(X = k); 求下列各事件的概率: 有两人痊愈的概率 P(X=2); 不少于6人痊愈的概率 P(X6); 不多于3人痊愈的概率 P(X3)。 提示:伯努利定理、二项分布的概率函数。,1.3 总体参数的区间估计,总体均数、方差的好估计量,总体率的好估计量,正态总体均数的区间估计,本节的重点,总体率的区间估计,(1)无偏性: 与 无系统(本质上的)偏差;,一、总体参数的点估计,定义: 设 是总体的未知参数,用样本 X1、X2、Xn 构成的统计量 来描述总体参数 , (1) 称 为总体参数 的点估计量; (2) 称估计量的值为估计值,仍记 。,2.点估计量的评价标准,(2)有效性:无偏估计量中偏差最小的估计量。,3.总体均数、方差和总体率的好估计量,(1) , (2) ,(3) 。,(2) 双侧界值和单侧界值 若变量 X 的密度函数f(x)为偶函数: 1) 称满足 P(|X| x/2 ) = 的 x/2 为变量 X 的双侧界值; 2) 称 x 为变量 X 的单侧界值。,1. 界值(又叫临界值) (1) 界值的定义 对任意常数(01), 称满足 P( X x ) = 的 x为变量 X 的界值。,二、总体参数的区间估计,2. 总体参数的置信区间,设 与 是由样本 构成 的两个统计量。对任意给定的 , 若总体未知参数 满足:,3) 称概率值 为置信度(或置信概率),,1) 称随机区间 为 的置信区间;,2) 称 与 分别为置信下限与置信上限。,(1) 置信区间(区间估计)的定义,置信度 通常取值为 95 % 或 99 %。,设 是来自总体 的样本。,(1) 均数的置信区间公式;,(2) 均数的置信区间的计算,其中 , 。,正态总体均数的 置信区间,所以的 95% 置信期间为,例1-7 用某方案治疗儿童贫血患者 5 名, 一月后测得血红蛋白增加值(g/L)为:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论