




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机在药学中的应用,沈阳药科大学计算中心 董鸿晔,4 统计分析软件应用(1),本章主要介绍统计分析的一些基本概念,以及一些统计方法。,Exce1 2002 的统计分析工具包一共包括19个工具,按照其工作原理和应用范围的不同,大致可以分成5大类:,数据分析工具的调用,工具/加载宏 选中分析工具库等 确定 再打开工具菜单即可,数据分析工具对话框,4.1 实验数据的简单统计,4.1.1 统计学的基本概念 1基本概念 在统计学中,研究对象的总体称为总体,构成总体的每一个对象称为个体。从总体X中随机抽取n个个体X1,X2,Xn,这n个个体就构成了X的样本,其中个体的数目n称为样本容量,以上从总体中抽取样本的过程就称为抽样。样本具有代表性和独立性的抽样称为简单随机抽样。用数学语言表达就是:简单随机抽样的样本Xi与X同分布且样本容量与总体中个体数量相比很小。 基于样本而构造的、不含任何未知参数的、用于推断总体特征的参数称为统计量。统计量本身是一个随机变量,它的值可以通过对样本值的计算而得到。统计量的分布称为抽样分布。经常用到的统计量有样本均值、样本方差和样本标准差。,2常用统计量,(1)样本均值 定义样本阶原点矩: 则,一阶原点矩为样本均值,记作:,(2)样本方差S2 定义样本k阶中心矩: 则,修正样本二阶中心矩为样本方差,记作:,(3)样本标准差S 样本方差的平方根为样本标准差。 在统计学中,一般惯例是用希腊字母、2表示整体参数,而用罗马字母X、S2表示样本统计量,应用中要注意区别。,3统计量与抽样分布 在统计学中,经常用到的抽样分布有4种,分别是:标准正态分布、2分布、t分布、F分布,对应的有一组统计量。这里简单介绍这些统计量的定义。 对于总体XN(,2),Xi为取自该总体的样本。,(1) 标准正态分布:当、2均己知时,统计量 (2) x2分布(读做卡方分布):当=0,2 =1时,统计量,t分布:设XN(0,1),Yx2(n),X、Y相互独立,则统计量 F分布:设Xx2(n1),Yx2(n2),X、Y相互独立,则统计量,4抽样分布基本定理,对于总体(,2),i为取自该总体的样本,则 (1) (2),(3)X与S2相互独立。 由以上各定理可以得出:,对于总体XN(1,12)、YN(2,22),Xi、Yj为分别取自其中的样本,且两组样本相互独立,则,当12=22,记,则有,4.1.2统计估值, 统计估值的基本概念 根据取自总体的样本对总体特征进行推断,具体地讲,就是要对一些与总体有关的未知参数进行准确推断,从而掌握总体的分布规律。推断未知参数可以分别求其近似值或近似范围,前者称为点估计,后者称为区间估计。,2点估计及其评价 期望和方差是总体X最重要的数字特征,因此,很自然地利用样本X的均值X和样本方差S2分别作为总体期望与方差2的估计。 3常用区间估计公式 根据抽样分布定理,对于给定的置信度+ a,可以推导出如下的区间估计公式: (1)单正态总体期望的区间估计 对于期望的估计,根据2是否已知,分别使用Z统计量和T统计量。,(2)单正态总体方差的区间估计 对于方差的估计,使用x2统计量。,(3)二正态总体均值差的区间估计,其中:,其中:,(4)二正态总体方差比的区间估计,4. 基础分析,第一组分析工具包括“描述统计”、“直方图”、“排位与百分比排位”、“随机数发生器”和“抽样分析”。这组工具用于对数据进行一般性分析,如基本统计量的综合计算、数据频率与排位的计算、设计抽样方案等。,4.2.1 描述统计 (例4-1),某医院用中药治疗青光眼的试验中一些患者眼压的变化,用“描述分析”对这组数据进行基本的统计分析 “描述统计”分析工具用于生成源数据区域中数据的单变量统计分析报表,提供有大数据趋中性和离散性的综合信息。 从“分析工具”对话框中选择“描述统计”,打开“描述统计”对话框,根据需要填写各项目,按“确定”按钮,即可执行“描述统计”。,选项解释 输入区域:在此输入待分析数据区域的单元格引用。该引用必须由两个或两个以上按列或行排列的相邻数据区域组成。本例中选择眼压和人数两列:BlC17。 分组方式:单击“逐行”或“逐列”指明输入区域中的数据是按行还是按列排列。由于本例中数据按列排列,所以选“逐列”。 标志位于第一行标志位子第一列:如果输入区域的第一行(或第一列)中包含标志项,选中“标志位于第一行”(或“标志位于第一列”)复选框。如果输入区域没有标志项,清除该复选框,Excel 2002将在输出表中生成适宜的数据标志。本例中数据列的上方第一行有“眼压”、“人数”的标志,所以应选中此项。,平均数置信度:如果需要在输出表中包含平均值的置信度,请选中此复选框。在右侧的框中,输入所要使用的置信度数值。由于在统计中一般常用95的置信度,所以本例中也取此值。 第k大值: 如果需要在输出表中包含每个数据区域中的第k个最大值,请选中此复选框。在右侧的框中,输入k的数字。如果输入1,则该行将包含数据集中的最大值。由于“描述统计”工具会自动返回最大和最小值,所以本例中此项取2,要求返回第2大值。 第k小值: 如果需要在输出表中包含每个数据区域中的第k个最小值,请选中此复选框。在右侧的框中,输入k的数宇。如果输入1,则该行将包含数据集中的最小值。同上,这里输入2。,输出区域:在此输入对输出表左上角单元格的引用。此工具将为每个数据集产生两列信息。左边一列包含统计标志,右边一列包含统计值。根据所选择的“分组方式”选项,Excel将为输入区域中的每一行或每一列生成一个两列的统计表。本例中选择紧靠数据列的区域D1G18。 新工作表组:选中此选项可在当前工作簿中插入新工作表,并从新工作表的Al单元格开始粘贴计算结果。若要为新工作表命名,请在右侧的框中键入名称。本例中按区域输出,故此项不选。 新工作簿:选中此选项可创建一新工作簿,并在新工作簿的新工作表中粘贴计算结果。本例中按区域输出,故此项不选。,汇总统计:如果需要Exce1在输出表中为下列每个统计结果生成一个字段,请选中此复选框。这些统计结果有:平均值、标准误差(相对于平均值)、中值、众数、标准偏差、方差、峰值、偏度、极差(全距)、最小值、最大值、总和、总个数、最大值(#)、最小值(#)和置信度。本例中选中此项。 本例完,4.2.2 直方图 (例4-2),所谓的“直方图”工具,可以用来计算数据的频度分布。 已知某班级学生测验成绩(5分制),用“直方图”工具对其进行频度分析。,选项解释,输入区域:在此输入待分析数据区域的单元格引用。(A2:A17) 接收区域(可选):即频度分析的分组标志数值。在此输入接收区域的单元格引用,该区域包含一组用来定义接收区域的边界值,这些值要按升序排列。Exce1将统计每两个相临边界值之间的数据点个数(如果存在)。如果数据值小于等于边界值,则该值将被归到前一个分组区域中进行计数。所有小于第一个边界值的数据值将一并计数,同样所有大于最后一个边界值的数值也将一并计数。(如果省略此处的接收区域,Exce1将自动在数据的最小值和最大值之间创建一组均匀分布的接收区间。 )(B2:B6),标志:如果输入区域的第一行或第一列中包含标志项,选中此复选框。如果输入区域没有标志项,清除此复选框,Excc1将自动在输出表中生成适宜的数据标志。 输出区域:在此输入对输出表左上角单元格的引用。如果指定的输出区域会覆盖已有的数据,Exce1会自动调整输出区域的大小和位置并显示一则消息。 新工作表组、新工作簿:含义同上一小节。 柏拉图:选中此复选框可在输出表中按降序来显示数据。如果清除此复选框,将只按升序来显示数据并省略结果中右边包含降序排序的三列数据。 累积百分率:选中此复选框可在输出表中生成一列累积百分比值,并在直方图中包含一条累积百分比线。清除此选项,则会省略累积百分比。 图表输出:选中此复选框可在输出表中生成一个嵌入直方图。 本例完,4.2.3排位与百分比排位(例4-3),“排位与百分比排位”分析工具可以产生一个数据表,在其中包含数据集中各个数值的顺序排位和百分比排位。该工具用来分析数据集中各数值间的相对位置关系。 已知某班级考试成绩(百分制),用排位和百分比排位工具对其进行分析。,选项解释,排位工具中只需要指定输入、输出的区域,没有太多其他选顼。 输入区域:(B2:B17) 分组方式:单击“行”或“列”指定输入区域中的数据是按行还是按列排列。(列),标志位于第一行标志位于第一列:如果输入区域的第一行或第一列中包含标志项,选中此复选框。如果输入区域没有标志项,清除此复选框,Excc1将自动在输出表中生成适宜的数据标志。 输出区域:在此输入对输出表左上角单元格的引用。如果指定的输出区域会覆盖己有的数据,Exce1会自动调整输出区域的大小和位置并显示一则消息。(D1) 新工作表组、新工作簿:含义同上一小节中的相同项目。 注意与排序比较一下 本例完,4.2.4 随机数发生器(例4-4),在实际的统计工作中,经常需要按照某些要求随机生成一组数据。在Exce1中,用RAND和RANDBETWEEN函数可以在指定范围内生成单个的随机数, 此外,在“数据分析”工具包中还专门提供了一个“随机数发生器”,用于生成符合指定条件的一组或几组随机数。下面具体说明它的使用。 从“数据分析”对话框中选择“随机数发生器”,打开对话框 (本例不需要原始数据),1选项解释,变量个数:在此指定输出表中数值列的个数。如果没有输入数字,Exce1将在指定的输出区域中填充所有的列。(4) 随机数个数:在此输入要查看的数据点个数。每一个数据点出现在输出表的一行中。如果没有输入数字,Exce1将在指定的输出区域中填充所有的行。(10) 分布:在此选择用于创建随机数的分布,共有7种选择。 (1)均匀:以下限和上限来表征。其变量是通过对区域中的所有数值进行等概率抽取而得到的。通常是在范围0到1之间的均匀分布。 (2)正态:以均值和标准差来表征。默认值是标准正态分布。,(3)Bernoulli:以给定的试验中成功的概率(p值)来表征。Bernou11i 随机变量的值为0或1。例如,可以在范围0到1之间抽取均匀分布随机变量。如果变量小于或等于成功的概率,则Bernou11i随机变量的值为1;否则,随机变量的值为0。 (4)二项式:以一系列试验中成功的概率(p值)来表征。例如,可以按照“试验次数”框中指定的个数生成一系列Bernoulli随机变量,这些变量之和为一个二项式随机变量。 (5)Poisson以值来表征,等于均值的倒数。Poisson分布经常用于表示单位时间内事件发生的次数。 (6)模式:以上界和下界、步长、数值重复率以及序列重复率来表征。,(7)离散:以数值及相应的概率区域来表征。在本对话框中给定的输入区域必须包含两列,左边一列包含数值,右边一列为与数值相对应的发生概率。所有概率的和必须为1。 参数:在此输入用于表征选定分布的数值。 随机数基数:在此输入用来构造随机数的可选数值。可在以后重新使用该数值来生成相同的随机数。 输出区域:在此输入对输出表左上角单元格的引用。如果指定的输出区域会覆盖已有的数据,Exce1会自动调整输出区域的大小和位置并显示一则消息。 新工作表组、新工作簿:含义同上一小节中的相同项目。 本例完,4.2.5 抽样,当统计分析原始数据的数量太大时,为了提高工作效率,常常从总体中按一定方法抽出一定数量的样本来代替整体。通过对样本的分析,推断整体的统计规律。 常用的抽样方法有两种,随机法和周期法。如果总体数据呈随机分布,则抽样时也要尽量保证取样的随机性;如果总体数据按一定周期循环分布,如每年的四个季度,这时就要保证按照与总体相同的周期抽样。 Exce1在“数据分析”工具包中,提供了“抽样”工具,可以满足这些要求。从“数据分析”对话框中选择“抽样”,打开对话框,1选项解释,输入区域:在此输入数据区域引用,该区域中包含需要进行抽样的总体数据。Exce1先从第一列中抽样本,然后是第二列,等等。 标志:如果输入区域的第一行或第一列中包含标志,请选中此复选框。如果输入区域没有标志,请清除此复选框,Excel将在输出表中生成适宜的数据标志。,抽样方法:单击“周期”或“随机”。可指明所需的抽样间隔或样本数。 间隔:在此输入进行抽样的周期间隔。输入区域中位于间隔点处的数值以及此后每一个间隔点处的数值将被复制到输出列中。当到达输入区域的末尾时,抽样将停止。 样本数:在此输入需要在输出列中显示的随机数的个数。每个数值是从输入区域中的随机位置上抽取出来的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生意托管服务合同范本
- 工商部门合同范本
- 铜米机合同范本
- 甲乙丙合同范本落款
- 银行红色授权合同范本
- 新疆房子转让合同范本
- 买玉米秸秆合同范本
- 定制家具合同范本简易
- 俏江南加盟合同范本
- 2025年度高标准农田建设项目耕地保护与指标置换协议
- 吉安市新庐陵投资发展有限公司及下属子公司2025年第二批面向社会公开招聘笔试备考题库及答案解析
- 2025至2030年中国生长激素行业市场深度研究及投资战略规划报告
- 大疆:2025大疆机场3操作指导书
- 2025年12345热线考试题库
- 2025年卫生健康行业经济管理领军人才试题
- 绿色矿山培训课件
- hiv职业暴露培训课件
- 2025年重庆市高考物理试卷(含答案解析)
- 小番茄栽培技术课件
- 女职工普法宣传教学课件
- (高清版)DB22∕T 5159-2024 预应力混凝土桩基础技术标准
评论
0/150
提交评论