版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、本资料来源一、统计学基本概念一、统计学基本概念 1.1.总体与样本总体与样本2.2.同质与变异同质与变异3.3.参数与统计量参数与统计量4.4.误差误差5.5.概率与频率概率与频率1.1.总体与样本总体与样本总体总体:根据:根据研究目的研究目的而确定而确定同质同质观察单位的全体。观察单位的全体。样本样本:从总体中抽取的部分观察:从总体中抽取的部分观察单位。单位。随机抽样随机抽样 random sampling为了保证样本的为了保证样本的可可靠性靠性和和代表性代表性,需,需要采用随机的抽样要采用随机的抽样方法(在总体中每方法(在总体中每个个体具有个个体具有相同的相同的机会机会被抽到)。被抽到)。
2、2.同质与变异同质与变异同质同质:除了实验因素外,影响被研究指标:除了实验因素外,影响被研究指标的非实验因素相同被称为同质。的非实验因素相同被称为同质。变异变异:在同质的基础上被观察个体之间的:在同质的基础上被观察个体之间的差异被称为变异。差异被称为变异。3 3、参数与统计量、参数与统计量 parameter and statisticparameter and statistic参数:参数:总体总体的统计指标,的统计指标,如总体均数、标准差,采如总体均数、标准差,采用希腊字母分别记为用希腊字母分别记为、。是是固定的常数。固定的常数。 样样本本抽取部分观察单位抽取部分观察单位 推断推断infe
3、rence统计量:统计量:样本样本的统计指标,如样本均数、标准差,采用拉丁的统计指标,如样本均数、标准差,采用拉丁字母分别记为字母分别记为 。 在在参数附近波动的随机变量参数附近波动的随机变量 。SX、4 4、误差(、误差(errorerror)误差:实际误差:实际观察值观察值与客观与客观真实值真实值之差之差(1 1)系统误差)系统误差(2 2)随机误差)随机误差 90mmhg。 。 。 。 。85真值真值血压计血压计测定值测定值系统误差系统误差。 。 。随机误差和系统误差随机误差和系统误差随机 误差概率:概率:随机事件发生的可能性大小,用大写随机事件发生的可能性大小,用大写的的P P 表示;
4、取值表示;取值00,11。 频率:频率:样本的实际发生率称为频率。样本的实际发生率称为频率。频率与概率间的关系:频率与概率间的关系:样本频率总是围绕概率上下波动样本频率总是围绕概率上下波动样本含量样本含量 n n 越大,波动幅度越小,频率越大,波动幅度越小,频率越接近概率。越接近概率。5 5、概率与、概率与频率频率二、数据类型二、数据类型1. 1. 计量资料计量资料用仪器、工具等测量方法获得的数据用仪器、工具等测量方法获得的数据2. 2. 计数资料计数资料按某种属性分类,然后清点每类的数据。也按某种属性分类,然后清点每类的数据。也叫定性数据叫定性数据3.3.等级资料等级资料半定性或半定量的观察
5、结果。有大小顺序,所半定性或半定量的观察结果。有大小顺序,所以也叫有序分类资料(以也叫有序分类资料(ordinal category dataordinal category data)。)。 癌症分期:早、中、晚。癌症分期:早、中、晚。 药物疗效:治愈、好转、无效、死亡。药物疗效:治愈、好转、无效、死亡。 尿蛋白:尿蛋白: , , ,+,+,+,+及以上及以上三类资料间关系三类资料间关系 例:一组例:一组20 40岁成年人的血压值岁成年人的血压值以以12kPa12kPa为界分为正常与异常两组,统计每组例数为界分为正常与异常两组,统计每组例数 8 低血压低血压 8 8 正常血压正常血压 121
6、2 轻度高血压轻度高血压 1515 中度高血压中度高血压 1717 重度高血压重度高血压计量资料计量资料等级资料等级资料计数资料计数资料实例数据实例数据一、计量资料的统计描述一、计量资料的统计描述 平均指标(算术均数、几何均数、中位数)平均指标(算术均数、几何均数、中位数) 变异指标(极差、百分位数与四分位间距、变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)方差、标准差、变异系数)1 1、平均指标、平均指标1. 1. 算术均数算术均数(mean)mean):适用条件:资料呈对称分布,:适用条件:资料呈对称分布,一般用于正态或近似正态分布。一般用于正态或近似正态分布。2. 2.
7、几何均数几何均数(geometric mean)(geometric mean)。适用条件。适用条件:呈倍呈倍数关系的等比资料或对数正态分布资料。数关系的等比资料或对数正态分布资料。3.3. 中位数中位数 (median)(median)。适用条件:适合各种类型的。适用条件:适合各种类型的资料。尤其适合于大样本偏态分布的资料;资料。尤其适合于大样本偏态分布的资料; 资料有不确定数值;资料分布不明等。资料有不确定数值;资料分布不明等。 2.2.变异指标变异指标 反映数据的离散程度。即个体观察值的变反映数据的离散程度。即个体观察值的变异程度。异程度。 1. 极差极差 (全距全距) 2. 四分位数间
8、距四分位数间距 3. 方差方差 Variance 4. 标准差标准差Standard Deviation 5. 变异系数变异系数 CV变异指标小结变异指标小结1 1极差较粗糙,适合于任何分布极差较粗糙,适合于任何分布2 2标准差最常用,适合于正态或近似正态分布标准差最常用,适合于正态或近似正态分布3 3变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料4 4平均指标和变异指标分别反映资料的不同特征,平均指标和变异指标分别反映资料的不同特征, 常配套使用常配套使用 如如 正态分布:均数正态分布:均数标准差标准差 偏态分布:中位数偏态分布:中位数( (四分位间距四
9、分位间距) )xs图形特点:图形特点:l钟型钟型( (中间高中间高, ,两头低两头低, ,左左右对称,以右对称,以X X轴为渐进线轴为渐进线) )l最高处对应于最高处对应于X X轴的值就轴的值就是均数是均数l两个参数:位置参数和两个参数:位置参数和形态参数。形态参数。l曲线下面积恒为曲线下面积恒为1 1或或100%100%。二、正态分布二、正态分布 1.意义:医学参考值是指包括绝大多数正常人意义:医学参考值是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。标常数,也称正常值。 由于存在个体差异,生物医学数据并非常数
10、而由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用是在一定范围内波动,故采用医学参考值范围医学参考值范围(medical reference range)作为判定正常)作为判定正常和异常的参考标准,但和异常的参考标准,但不是不是“金标准金标准”。三、三、 医学参考值范围的制定医学参考值范围的制定双侧双侧 :血清总胆固醇无论过低或过高均属异常血清总胆固醇无论过低或过高均属异常白细胞数无论过低或过高均属异常白细胞数无论过低或过高均属异常单侧上限单侧上限 :如:血清转氨酶、体内有毒物质过高异常如:血清转氨酶、体内有毒物质过高异常单侧下限单侧下限 :如:肺活量过低异常如:肺活量过低异
11、常 单双侧常依据医学专业知识而定。单双侧常依据医学专业知识而定。2.2.单、双侧问题:单、双侧问题: 3. 医学参考值范围有医学参考值范围有90%90%、95%95%、99% 99% 等,等,最常用的为最常用的为95% 95% 。计算医学参考值范围的常用方法:计算医学参考值范围的常用方法: 1.正态分布法正态分布法 2.百分位数法百分位数法样本样本抽取部分观察单位抽取部分观察单位 统计推断统计推断如:样本均数如:样本均数 样本标准差样本标准差S 如:总体均数如:总体均数 总体标准差总体标准差 X抽样误差抽样误差 (sampling error) sampling error) :由于个体变异产
12、:由于个体变异产生的、抽样造成的生的、抽样造成的样本统计量与总体样本统计量与总体参数间差异,称为参数间差异,称为抽样误差。抽样误差。nX/统计量的标准差统计量的标准差称为标准误,是衡量样称为标准误,是衡量样本统计量抽样误差大小的统计指标。本统计量抽样误差大小的统计指标。均数标准误:样本均数的标准差称为均均数标准误:样本均数的标准差称为均数的标准误,它用来说明均数抽样误差的大数的标准误,它用来说明均数抽样误差的大小。小。降低抽样误差的途径有降低抽样误差的途径有: 由于总体标准差由于总体标准差 通常是未知的,通常是未知的,而用样本标准差而用样本标准差S S来估计,因此,均数标来估计,因此,均数标准
13、误准误 的估计值为的估计值为 SnxS X二、总体均数的估计二、总体均数的估计XS、 总体均数的点估计(总体均数的点估计(point estimationpoint estimation)与区间估)与区间估计(计(interval estimation)interval estimation)参数的估计参数的估计点估计:由样本统计量点估计:由样本统计量 直接估计总体参数直接估计总体参数区间估计:按预先给定的概率(区间估计:按预先给定的概率(1-1- )所确定的、包含未知参数的一个范围,所确定的、包含未知参数的一个范围,这个范围称为参数的可信区间(这个范围称为参数的可信区间(Confidence
14、 interval,CI)Confidence interval,CI)、区间估计:区间估计:可信度与可信区间可信度与可信区间 预先给定的概率预先给定的概率1-1- 称为称为可信度可信度或或置信度置信度(confidence level)confidence level),常取,常取95%95%或或99%99%。没有特别。没有特别说明,一般取双侧说明,一般取双侧95%95%。 可信区间有可信下限(可信区间有可信下限(lower limit,L)lower limit,L)和可信和可信上限(上限(upper limit,U)upper limit,U),一般表示为(,一般表示为(L L,U U)
15、。)。 t 检验,亦称检验,亦称student t 检验,主要用于检验,主要用于样本含量较小(如样本含量较小(如n60n1000IU1000IU)的计量资料;的计量资料;等级资料,比较各组间等级强度的差别时。等级资料,比较各组间等级强度的差别时。4、非参数检验的优点与不足、非参数检验的优点与不足优点:优点:l1. 1. 适用范围广泛;适用范围广泛;l2. 2. 多数方法计算简便;多数方法计算简便;l3. 3. 易于理解和掌握;易于理解和掌握;l4. 4. 无法精确测量的资料及等级资料可以采用;无法精确测量的资料及等级资料可以采用;不足:不足:1. 1. 参数检验适用的资料,非参数方法会降低检参
16、数检验适用的资料,非参数方法会降低检验效能;验效能;2. 2. 某些方法的计算过程仍然复杂。某些方法的计算过程仍然复杂。二、几种非参数方法二、几种非参数方法:1.1.配对样本比较的配对样本比较的WilcoxonWilcoxon符号秩检验;符号秩检验;2.2.两个独立样本比较的两个独立样本比较的WilcoxonWilcoxon秩和检验;秩和检验;3.3.完全随机设计多个样本比较的完全随机设计多个样本比较的Kruskal-Wallis Kruskal-Wallis H H 检验;检验;一、配对样本比较的一、配对样本比较的WilcoxonWilcoxon符号秩检验符号秩检验例例 两种方法两种方法AL
17、TALT测量结果比较测量结果比较编号(1)原法(2)新法(3)差值d(4)=(3)-(2)正秩(5)负秩(6)160761682142152105319524348114808221.55242240-21.56220220071902051578253813691982434591038446411236190-4610129510053合计54.511.5二、两个独立样本比较的二、两个独立样本比较的WilcoxonWilcoxon秩和检验秩和检验例例 两类肺病患者两类肺病患者RDRD值比较值比较肺癌病人矽肺0期工人RD值秩次RD值秩次2.7813.232.53.232.53.5044.20
18、74.0454.87144.1565.12174.2886.21184.3497.18194.47108.05204.64118.56214.75129.60224.82134.95155.1016n1=10T1=141.5n2=12T2=111.5三、完全随机设计多个样本比较的三、完全随机设计多个样本比较的Kruskal-Kruskal-Wallis HWallis H检验检验例例 三种药物杀灭钉螺的死亡率比较三种药物杀灭钉螺的死亡率比较甲药乙药丙药死亡率秩次死亡率秩次死亡率秩次32.51016.046.5135.51120.569.0240.51322.5712.5346.01429.09
19、18.0549.01536.01224.08Ri633819ni5552. 2. 参数检验和非参数检验的对应关系参数检验和非参数检验的对应关系比较类型比较类型参数检验参数检验非参数检验非参数检验配对样本比较配对样本比较配对配对t t检验检验WilcoxonWilcoxon符号秩检验符号秩检验两组独立样本比较两组独立样本比较成组成组t t检验检验WilcoxonWilcoxon秩和检验秩和检验多组独立样本比较多组独立样本比较单因素方差分析单因素方差分析Kruskal-WallisKruskal-Wallis秩和检验秩和检验一、直线相关一、直线相关相关相关 - - 变量间在数量上的相互关系变量间在
20、数量上的相互关系 直线相关直线相关(linear correlation):用于描述具有线性:用于描述具有线性关系的两变量关系的两变量X、Y间的相互关系。间的相互关系。 相关系数示意图相关系数示意图 散点呈椭圆形分布(相关)散点呈椭圆形分布(相关)X X、Y Y 同时同时增减增减-正正相关相关(positive correlation)positive correlation); X X、Y Y 此增彼减此增彼减-负负相关相关(negative correlation) (negative correlation) 。 散点在一条直线上(完散点在一条直线上(完全相关)全相关) X X、Y Y
21、变化趋势变化趋势相同相同-完全完全正正相关;相关;反向反向变化变化-完全完全负负相关。相关。 相关系数示意图相关系数示意图 X X、Y Y 变化互不影响(无变化互不影响(无直直线相关关系线相关关系)-零(不)零(不)相关相关(zero correlation)(zero correlation)1 1、相关系数概念、相关系数概念 相关系数又称为相关系数又称为PearsonPearson相关系数(软件中常相关系数(软件中常用此名称)用此名称) 相关系数说明两变量间相互直线关系的密切相关系数说明两变量间相互直线关系的密切程度和方向的指标。程度和方向的指标。 r r 样本相关系数样本相关系数2 2、
22、相关系数的计算和假设检验、相关系数的计算和假设检验 二、直线回归二、直线回归函数关系:函数关系: 确定,各点在线上。例如确定,各点在线上。例如y=5+3x回归关系:回归关系:不确定,不确定,各点并非恰好都在线上各点并非恰好都在线上。例如血压。例如血压和年龄的关系(血压随年龄的增长而增高,和年龄的关系(血压随年龄的增长而增高,并呈直线趋势)。并呈直线趋势)。 目的:目的: 建立直线回归方程建立直线回归方程( linear regression equation)1、直线回归方程、直线回归方程 一般表达式:一般表达式: a:截距:截距(intercept),直线与,直线与Y轴交点的纵坐标。轴交点的
23、纵坐标。 b:斜率:斜率(slope),回归系数,回归系数(regression coefficient)。 bXaY2 2、直线回归方程的求法、直线回归方程的求法 3 3、回归方程的检验、回归方程的检验4 4、直线回归与相关应用的注意事项直线回归与相关应用的注意事项(1)直线回归与相关分析要有实际意义(变量选择要直线回归与相关分析要有实际意义(变量选择要结合结合专业背景专业背景,相关未必真有内在联系),相关未必真有内在联系)(2)分析结果的解释及正确应用,不能任意分析结果的解释及正确应用,不能任意“外延外延”(3)正确选择自变量与应变量(正确选择自变量与应变量(分析目的、专业知识、分析目的、
24、专业知识、因果、变异大小、测量难易程度因果、变异大小、测量难易程度)(4)相关与回归分析前应绘制散点图(两变量间可能相关与回归分析前应绘制散点图(两变量间可能关系的重要提示、考察现有数据是否满足正态分布、关系的重要提示、考察现有数据是否满足正态分布、有助于异常点的识别与处理)有助于异常点的识别与处理) 第十六章第十六章 统计表与统计图统计表与统计图 一、统计表一、统计表1、统计表的结构、统计表的结构2、统计表的意义、统计表的意义清晰地展示数据的结构、分布和特征清晰地展示数据的结构、分布和特征方便阅读、比较和计算方便阅读、比较和计算研究论文中可代替冗长的文字叙述研究论文中可代替冗长的文字叙述3、
25、统计表的制表原则、统计表的制表原则重点突出:一张表,一个中心内容重点突出:一张表,一个中心内容表述清楚:主语与宾语的选择、位置的确定表述清楚:主语与宾语的选择、位置的确定简单明了:文字、数字、线条应尽量从简简单明了:文字、数字、线条应尽量从简4、制表的基本要求、制表的基本要求标题:概括表的主要内容标题:概括表的主要内容标目:横标目、纵标目、总标目标目:横标目、纵标目、总标目线条:三条基本线:顶线、底线、纵标目下线条:三条基本线:顶线、底线、纵标目下 横线。横线。无斜线、竖线无斜线、竖线。数字:无数字数字:无数字“-”,缺失数字,缺失数字“”,不留空,不留空 项,小数位对齐。项,小数位对齐。备注
26、:备注:列于统计表的下方。列于统计表的下方。5、常见不良统计表、常见不良统计表统计表过大、内容过多统计表过大、内容过多标目设置不合理,导致统计表内容表述混乱标目设置不合理,导致统计表内容表述混乱线条过多,如出现不必要的竖线、斜线等线条过多,如出现不必要的竖线、斜线等数字区有空项,同一指标小数位不同、未对齐数字区有空项,同一指标小数位不同、未对齐将备注列于统计表中将备注列于统计表中统计表基本结构中要素缺失:无标题、少线条统计表基本结构中要素缺失:无标题、少线条二、二、 统计图统计图 统计图(统计图(statistical graph)是用点、)是用点、线、面等各种几何图形来形象化地表达统计数线、
27、面等各种几何图形来形象化地表达统计数据的图形。与统计表相比,统计图具有形象直据的图形。与统计表相比,统计图具有形象直观的特点,易于给读者留下深刻的印象;但不观的特点,易于给读者留下深刻的印象;但不象统计表那样,能提供精确的数值。象统计表那样,能提供精确的数值。1、统计图的结构、统计图的结构标题:概括统计图的主要内容、时间和地点;标题:概括统计图的主要内容、时间和地点;置于图的下方;置于图的下方;横轴和纵轴:横标目、纵标目(指标名称、单横轴和纵轴:横标目、纵标目(指标名称、单位),纵横轴的比例以位),纵横轴的比例以5:7为宜;为宜;图例:说明图中不同颜色或线条所表达的对象图例:说明图中不同颜色或
28、线条所表达的对象 刻刻 度度图图 例例2、几种常用的统计图、几种常用的统计图(1)直条图(直条图(bar chart)意义:等宽直条长短表示相互独立的统计指标值的意义:等宽直条长短表示相互独立的统计指标值的大小(绝对数、相对数、平均数);大小(绝对数、相对数、平均数);制图要求:纵轴必须从制图要求:纵轴必须从“0”0”开始;直条等宽、条间开始;直条等宽、条间距等宽;直条由高到低或按自然顺序排列;距等宽;直条由高到低或按自然顺序排列;分类:单式条图、复式条图、误差条图分类:单式条图、复式条图、误差条图单式条图(单式条图(simple bar chart ):):一个分组标志、一个统计指标一个分组
29、标志、一个统计指标复式条图(复式条图(clustered bar chart ) :多个分组标志、一个统计指标多个分组标志、一个统计指标误差条图误差条图(error bar chart ):用条图表示均用条图表示均数的基础上,在图中附上标准差的范围。数的基础上,在图中附上标准差的范围。图图2-27 四种营养素喂养小白鼠三周后所增体重(克)四种营养素喂养小白鼠三周后所增体重(克)020406080100ABCD营养素体重( g )(2) 圆图和百分条图圆图和百分条图(pie chart and percent bar chart)圆图:以圆形总面积为圆图:以圆形总面积为100%,将其分割成若,将
30、其分割成若干个扇面以表示事物内部各构成部分所占的比例。干个扇面以表示事物内部各构成部分所占的比例。适合描述分类资料的各类别所占的构成比。适合描述分类资料的各类别所占的构成比。百分条图:以矩形的总长度表示百分条图:以矩形的总长度表示100%,将其,将其分割成不同长度的段以表示事物内部各构成部分分割成不同长度的段以表示事物内部各构成部分所占的比例。用途同圆图,但特别适合进行多个所占的比例。用途同圆图,但特别适合进行多个构成比的比较。构成比的比较。(3) 线图(线图(line graph)用线段的升降表示某事物动态变化,或某现象用线段的升降表示某事物动态变化,或某现象随另一现象随另一现象变化的趋势变
31、化的趋势。适用于连续性资料。适用于连续性资料纵轴:统计指标,算术尺度,以纵轴:统计指标,算术尺度,以“0 0”为起点为起点横轴:连续性变量横轴:连续性变量(时间、年龄等时间、年龄等),算术尺度,算术尺度连线:两点之间用直线相连,不可修匀成光滑连线:两点之间用直线相连,不可修匀成光滑曲线曲线某炮团和坦克团某年不同月份的发病人数某炮团和坦克团某年不同月份的发病人数关于考试:关于考试:题型:选择、计算题型:选择、计算举例举例:(1 1)一组变量的标准差将(一组变量的标准差将( )。)。A.A.随变量值的个数随变量值的个数n n的增大而增大的增大而增大B.B.随变量值的个数随变量值的个数n n的增加而减小的增加而减小C.C.随变量值之间的变异增大而增大随变量值之间的变异增大而增大D.D.随系统误差的减小而减小随系统误差的减小而减小(2)(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年内蒙古锡林郭勒盟单招职业适应性考试题库完整参考答案详解
- 2026年克拉玛依职业技术学院单招职业倾向性考试题库及答案详解(新)
- 2026年内蒙古能源职业学院单招综合素质考试题库带答案详解(突破训练)
- 2026年南昌工学院单招职业适应性测试题库完整参考答案详解
- 2026年南充科技职业学院单招职业倾向性测试题库附答案详解(精练)
- 2026年兰考三农职业学院单招职业技能测试题库附参考答案详解(研优卷)
- 2026年南充职业技术学院单招职业适应性测试题库及答案详解(新)
- 2026年南京铁道职业技术学院单招职业倾向性测试题库附答案详解(突破训练)
- 2026年南昌健康职业技术学院单招职业倾向性测试题库含答案详解(研优卷)
- 2026年包头职业技术学院单招职业技能测试题库及1套完整答案详解
- 2026年金融科技支付创新报告及全球市场应用分析报告
- 2025年普通高中学业水平选择性考试地理河北卷
- 2025至2030心理咨询行业市场发展分析与发展前景及有效策略与实施路径评估报告
- 中国临床肿瘤学会(csco)小细胞肺癌诊疗指南2025
- 初中英语单词表2182个(带音标)
- 2025年专升本化学专业无机化学真题试卷(含答案)
- 医患沟通学课件
- 监理百日攻坚阶段工作总结分享
- 大一英语期末考试题及答案
- 钢结构施工方案模板及范例
- 2025至2030中国闪烁体行业调研及市场前景预测评估报告
评论
0/150
提交评论