医学数据处理一般过程_第1页
医学数据处理一般过程_第2页
医学数据处理一般过程_第3页
医学数据处理一般过程_第4页
医学数据处理一般过程_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,医学数据处理与统计软件,第一讲医学数据处理,主要内容:一、误差的分类及其特点二、医学数据处理的一般原则与要求三、科学计数器的使用四、医学数据双录入与核查的方法及软件,一、误差(Error)的分类及其特点,统计学上所说的误差,泛指测量值与真实值之差,以及样本指标与统计指标之差。统计学的三大核心思想:1.差误思想2.权重思想3.分布思想,误差分类(物理、化学),按误差来源:装置误差、环境误差、方法误差、人员误差,系统误差(Systemerror),由特定原因引起、具有一定因果关系并按确定规律产生,按掌握程度:已知误差、未知误差,按特性规律:系统误差、随机误差、粗大误差,-有规律可循,再现性-偏差(Deviation),理论分析/实验验证-原因和规律-减少/消除,随机误差(Randomerror),因许多不确定性因素而随机发生,偶然性(不明确、无规律),概率和统计性处理(无法消除/修正),粗大误差(Abnormalerror),检测系统各组成环节发生异常和故障等引起,异常误差-混为系统误差和偶然误差-测量结果失去意义,分离-防止,按变化速度:静态误差、动态误差,医学统计学的误差分类*,(1)系统误差:数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。特点:不易发现,但可避免(2)非系统误差:在实验过程中由研究者偶然失误而造成的误差。例如,仪器失灵,抄错数字,点错小数点,写错单位等,故也称为过失误差。特点:容易发现,可以避免,(3)随机测量误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。如测量一个人身高:178.12178.09178.15cm特点:不可避免(4)抽样误差:由于抽样所引起的样本统计量与总体参数之间的差异称为抽样误差特点:不可避免,但可以计算并在一定范围内控制,误差(error),二、医学数据处理的一般原则与要求医学数据统计学处理的核心思想是在数据处理环节消除或控制非随机误差,保证统计分析能建立在真实的抽样误差的基础上。,医学数据的统计处理涉及医学专业知识、统计专业知识、处理数据的经验和技巧等各方面,是一门很高超的艺术。在处理数据过程中,原始数据的采集和录入,数据的管理,统计方法的恰当选用,统计软件的熟练使用等,都是必须重视的环节。,(一)原始数据的录入,1.原始数据的记录形式实验研究的原始数据原始数据常列成类似表1的二维结构,即行列结构的数据集形式。在表1中,每一行成为一条记录(record),或一个观察单位(case);每一列称为一个变量(variable),用以表示变量、项目或观察指标等。表1记录的原始数据是一个由274例观察单位和11个变量组成的数据集。原始数据中,变量分为标识变量和分析变量两种。标识变量主要用于数据管理,包括数据的核对与增删等,是研究记录中不可缺少的内容,如表1中的“病人编号”和“病案号”即为标识变量。分析变量则是数据分析的主要内容,表1中除上述2个标志变量外,其他9个变量均为分析变量。,表1肾衰病人预后研究的临床资料记录,返回,分析变量又分为反应变量(responsevariable)和解释变量(explanatoryvariable)。反应变量是表示试验效应或观察结果大小的变量或指标。解释变量又称为指示变量(indicator)、分组变量(groupingvariable)、分类变量(categoricalvariable)、协变量等。根据研究目的以及变量间的相互关系,各变量的作用并非一成不变。例如,表1中,若进行肾衰病人的预后研究,则“肾功能预后”为反应变量,其余的研究变量为解释变量;若分析与“肾毒性”、“黄疸”和“昏迷”等临床症状相对应的“生理评分”、“肌酐”和“胆固醇”等观察指标的影响,“肾毒性”、“黄疸”和“昏迷”可分别看作分组(解释)变量,“生理评分”、“肌酐”和“胆固醇”则可分别看作反应变量。,调查研究的原始数据,表2-1一般情况调查表一、一般情况1.姓名:_2.年龄:(周岁)3.联系电话:_4.家庭住址:乡镇(街/路)村(居委会)5.民族:0=汉族1=回族2=朝鲜族3=满族4=蒙族5=其他_|_|6.出生地:县6.1本地居住年限:|_|_|年7.你目前的职业:8.你的医疗保障形式:|_|0=完全自费1=农村新型合作医疗2=城镇职工医疗保险3=商业医疗保险4=其他(请注明)9.你家目前有无负债:0=否1=有|_|9.1若“有”,有多少负债?元9.2负债原因是:|_|0=因病负债1=教育负债2=盖房3=子女婚嫁4=其他(请注明)10.全家每年总支出:元10.1其中:食品支出:元10.2药品、医疗服务支出:元10.3生产性支出:元10.4教育支出:元详情见附件一,2.原始数据的录入在进行统计分析前,原始数据需录入计算机。录入的文件类型大致有:数据库文件,如dBASE、FoxBASE、Lotus、EPIinfo等;Excel文件;文本文件,如word文件、WPS文件等;统计应用软件的相应文件,如SPSS数据文件、SAS数据文件、Stata数据文件等。目前,上述文件类型绝大多数都可以相互转换(数据访问)。,录入数据时,应遵循便于录入,便于核查,便于转换,便于分析的原则。便于录入是指尽可能地减少录入工作量,例如,录入时,用数值变量取代了字符变量,可以大大节约录入的时间和费用。便于核查是指一定要设有标识变量,以方便数据核查。便于转换是指录入数据时要考虑不同软件对字节和字符的要求。例如,文本文件的变量名字节可以不受限制,但SPSS软件12.0以前的版本、Stata软件等的变量名要求不超过8个字节;又如,有的软件不识别中文。因此,数据录入时,定义变量名时尽可能用英文,且不超过8个字节,而中文名可用标记的方式(label)表示,如SPSS数据文件(图1)中将性别标记为1=“男”,2=“女”。便于分析是指每项研究最好录成一个数据文件,录入的格式满足各种统计分析的需要,这样才能保证分析数据时的高效和全面。,(二)数据处理中的几个基本问题1.数据核查为确保录入数据的准确性和真实性,数据录入后,首先须对录入的数据进行核查。核查准确性可分两步进行。第一步逻辑检查,如果某变量的最大或最小值不符合逻辑,则数据有误,例如,在SPSS数据文件中,当变量“年龄”的最大值为“300”时,一定有误。利用软件的查找功能可立即找到该数据,然后根据该数据对应的标识值找出原始记录,更正该数据。如本例可查到该数据对应的“病人编号”为“27”,查原始记录的年龄为“30”。第二步数据核对,将原始数据与录入的数据一一核对,错者更正。有时,为慎重起见,采用双份录入的方式,然后用程序作一一比较,不一致者一定是录错的数据。数据核查的另一项任务是对数据的真实性作出初步判断。例如,用流式细胞仪测量蛋白质的分子量时,通常这类数据的变异系数CV较大,多会大于20%,如果为50%甚至更大都不罕见。如若某一实验此类指标的数据算得的CV小于5%,应考虑其真实性。,2.离群数据的处理当个别数据与群体数据严重偏离时,被称为离群数据(outlier)或极端数据(extremevalue)。统计软件一般都有判断离群数据的方法。判断离群数据有多种方法,例如,SPSS软件对其的定义为:观察值距箱式图(boxplot)的箱体底线(第25百分位数)或顶线(第75百分位数)的距离为箱体高度(四分位间距)的1.53倍时被视为离群点;观察值距箱体底线或顶线的距离超过3倍的箱体高度时被视为极端值。,如有离群数据出现,可分为两种情况处理。一种是,如果确认数据有逻辑错误,又无法纠正,可直接删除该数据。例如,若有一数据中某病例的身高变量为“1755”cm,且原始记录亦如此,又无法再找到该病例时,显然这是个错误的记录,只能删除,另一种是,若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;若结果矛盾,并需要剔除,必须给以充分合理的解释,例如用何种方法确定偏离数据,该数据在实验中何种干扰下产生等。,3.统计方法前提条件的检验应用参数方法进行假设检验往往要求数据满足某些前提条件,如两个独立样本比较t检验或多个独立样本比较的方差分析,均要求方差齐性,因此需要做方差齐性检验。如果要用正态分布法估计参考值范围,首先要检验资料是否服用正态分布。在建立各种多重回归方程时,常需检验变量间的多重共线性和残差分布的正态性。,总之医学数据处理的核心思想是在数据处理环节消除或控制非随机误差,保证统计分析能建立在真实的抽样误差的基础上。一般原则:对录入的数据进行核查1.逻辑核查+与原始数据一一校对2.数据双录入的核查(双录入的一致性核查+逻辑核查)*,三、计算器的使用,1、计算器的功能:提供进行算术、统计以及科学计算的途径。2、计算器窗口的显示模式:标准型和科学型。两种模式的切换方式:单击“查看”菜单3、打开计算器的方法:“开始”“程序”“附件”“计算器”,4、使用标准型型计算器进行简单运算计算器中各按钮的功能:MC:清除存储区中的数据MR:将存储区中的数据调出到显示栏中,存储区中数值不变MS:存储当前的显示值M+:将当前显示值加上已经储存的数据后存入存储区CE:清除现有数据重新输入C:清除全部数据结果和运算符,练习题:(1)计算(91+85+52+14+45-56+45)/8的值(2)计算28/(4+4)+74*2+20*9+67+39的值(3)计算1/7的值,5、使用科学型计算器求2、8、90、74、20、67、39的平均值。步骤1:切换到科学型计算器步骤2:输入数字2步骤3:单击“Sta”按钮,出现了一个“统计框”窗口步骤4:单击“Dat”按钮,此时显示框中的数据被带到“统计框”中步骤5:按如下顺序输入:8Dat92Dat74Dat20Dat67Dat39Dat,则所有输入的数据被带到统计框中。步骤6:单击“计算器”窗口中的“Ave”按钮,即可计算出“统计框”窗口中所有数据的平均值。练习题:(1)求6、20、23、73、33、87的平均值(2)求16、17、23、45、38、43、99的平均值,四、医学数据双录入与核查的方法及软件,一般原则:对录入的数据进行核查1.逻辑核查+与原始数据一一校对2.数据双录入的核查(双录入的一致性核查+逻辑核查)*,数据双录入的核查一般程序,用数据管

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论