医学数据处理一般过程课件_第1页
医学数据处理一般过程课件_第2页
医学数据处理一般过程课件_第3页
医学数据处理一般过程课件_第4页
医学数据处理一般过程课件_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 医学数据处理与统计软件第一讲 医学数据处理 主要内容:一、误差的分类及其特点二、医学数据处理的一般原则与要求三、科学计数器的使用四、医学数据双录入与核查的方法及软件 一、误 差(Error)的分类及其特点 统计学上所说的误差,泛指测量值与真实值之差,以及样本指标与统计指标之差。 统计学的三大核心思想: 1.差误思想 2.权重思想 3.分布思想 误差分类(物理、化学)按误差来源:装置误差、环境误差、方法误差、人员误差 系统误差(System error)由特定原因引起、具有一定因果关系并按确定规律产生按掌握程度:已知误差、未知误差按特性规律:系统误差、随机误差、粗大误差 - 有规律可循装置、环

2、境、动力源变化、人为因素再现性 - 偏差(Deviation)理论分析/实验验证 - 原因和规律 - 减少/消除 随机误差(Random error)因许多不确定性因素而随机发生偶然性(不明确、无规律)概率和统计性处理(无法消除/修正) 粗大误差(Abnormal error)检测系统各组成环节发生异常和故障等引起异常误差 - 混为系统误差和偶然误差 - 测量结果失去意义分离 - 防止 按变化速度:静态误差、动态误差医学统计学的误差分类*(1)系统误差:数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。 特点: 不易发现,但可避免(2

3、)非系统误差:在实验过程中由研究者偶然失误而造成的误差。例如,仪器失灵,抄错数字,点错小数点,写错单位等,故也称为过失误差。 特点: 容易发现,可以避免误差(error)误差随机误差非随机误差随机测量误差抽样误差系统误差非系统误差(过失误差)二、医学数据处理的一般原则与要求 医学数据统计学处理的核心思想是在数据处理环节消除或控制非随机误差,保证统计分析能建立在真实的抽样误差的基础上。 (一)原始数据的录入1.原始数据的记录形式 实验研究的原始数据 原始数据常列成类似表1的二维结构,即行列结构的数据集形式。在表1中,每一行成为一条记录(record),或一个观察单位(case);每一列称为一个变

4、量(variable),用以表示变量、项目或观察指标等。表1记录的原始数据是一个由274例观察单位和11个变量组成的数据集。 原始数据中,变量分为标识变量和分析变量两种。标识变量主要用于数据管理,包括数据的核对与增删等,是研究记录中不可缺少的内容,如表1中的“病人编号”和“病案号”即为标识变量。分析变量则是数据分析的主要内容,表1中除上述2个标志变量外,其他9个变量均为分析变量。病人 病案号 性别编号年龄生理评分肾毒性黄疸昏迷肌酐胆固醇肾功能预后1004757男2614无有无520-治愈2007950女3113无无无5234.5治愈3011093男5517无无无2093.3治愈4017555男

5、299无无无13034.1治愈.274279183女8815有无无3316.1丧失表1 肾衰病人预后研究的临床资料记录返回 分析变量又分为反应变量(response variable)和解释变量(explanatory variable)。反应变量是表示试验效应或观察结果大小的变量或指标。解释变量又称为指示变量(indicator)、分组变量(grouping variable)、分类变量(categorical variable)、协变量等。根据研究目的以及变量间的相互关系,各变量的作用并非一成不变。例如,表1中,若进行肾衰病人的预后研究,则“肾功能预后”为反应变量,其余的研究变量为解释变量

6、;若分析与“肾毒性”、“黄疸”和“昏迷”等临床症状相对应的“生理评分”、“肌酐”和“胆固醇”等观察指标的影响,“肾毒性”、“黄疸”和“昏迷”可分别看作分组(解释)变量,“生理评分”、“肌酐”和“胆固醇”则可分别看作反应变量。2.原始数据的录入 在进行统计分析前,原始数据需录入计算机。录入的文件类型大致有:数据库文件,如dBASE、FoxBASE 、Lotus、EPI info等;Excel 文件;文本文件,如word文件、WPS文件等;统计应用软件的相应文件,如SPSS 数据文件、SAS数据文件、 Stata 数据文件等。目前,上述文件类型绝大多数都可以相互转换(数据访问)。录入数据时,应遵循

7、便于录入,便于核查,便于转换,便于分析的原则。便于录入是指尽可能地减少录入工作量,例如,录入时,用数值变量取代了字符变量,可以大大节约录入的时间和费用。便于核查是指一定要设有标识变量,以方便数据核查。便于转换是指录入数据时要考虑不同软件对字节和字符的要求。例如,文本文件的变量名字节可以不受限制,但SPSS软件12.0以前的版本、Stata软件等的变量名要求不超过8个字节;又如,有的软件不识别中文。因此,数据录入时,定义变量名时尽可能用英文,且不超过8个字节,而中文名可用标记的方式(label)表示,如SPSS数据文件(图1)中将性别标记为1=“男”,2=“女”。便于分析是指每项研究最好录成一个

8、数据文件,录入的格式满足各种统计分析的需要,这样才能保证分析数据时的高效和全面。 2.离群数据的处理 当个别数据与群体数据严重偏离时,被称为离群数据(outlier)或极端数据(extreme value)。统计软件一般都有判断离群数据的方法。判断离群数据有多种方法,例如,SPSS软件对其的定义为:观察值距箱式图(box plot)的箱体底线(第25百分位数)或顶线(第75百分位数)的距离为箱体高度(四分位间距)的1.53倍时被视为离群点;观察值距箱体底线或顶线的距离超过3倍的箱体高度时被视为极端值。如有离群数据出现,可分为两种情况处理。一种是,如果确认数据有逻辑错误,又无法纠正,可直接删除该

9、数据。例如,若有一数据中某病例的身高变量为“1755”cm,且原始记录亦如此,又无法再找到该病例时,显然这是个错误的记录,只能删除,另一种是,若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;若结果矛盾,并需要剔除,必须给以充分合理的解释,例如用何种方法确定偏离数据,该数据在实验中何种干扰下产生等。 3.统计方法前提条件的检验 应用参数方法进行假设检验往往要求数据满足某些前提条件,如两个独立样本比较t检验或多个独立样本比较的方差分析,均要求方差齐性,因此需要做方差齐性检验。如果要用正态分布法估计参考值范围,首先要检验资料是否服用正态分布。在建立各种多重回归方程时

10、,常需检验变量间的多重共线性和残差分布的正态性。 总之医学数据处理的核心思想是在数据处理环节消除或控制非随机误差,保证统计分析能建立在真实的抽样误差的基础上。一般原则:对录入的数据进行核查 1.逻辑核查+与原始数据一一校对 2.数据双录入的核查(双录入的一致性核查+逻辑核查)*三、计算器的使用1、计算器的功能:提供进行算术、统计以及科学计算的途径。2、计算器窗口的显示模式:标准型和科学型。两种模式的切换方式:单击“查看”菜单3、打开计算器的方法:“开始”“程序”“附件”“计算器” 练习题:(1)计算(91+85+52+14+45-56+45)/8的值(2)计算28/(4+4)+74*2+20*

11、9+67+39的值(3)计算1/7的值5、使用科学型计算器求2、8、90、74、20、67、39的平均值。步骤1:切换到科学型计算器步骤2:输入数字2步骤3:单击“Sta”按钮,出现了一个“统计框”窗口步骤4:单击“Dat”按钮,此时显示框中的数据被带到“统计框”中步骤5:按如下顺序输入:8Dat92Dat74Dat20Dat67Dat39Dat,则所有输入的数据被带到统计框中。步骤6:单击“计算器”窗口中的“Ave”按钮,即可计算出“统计框”窗口中所有数据的平均值。练习题:(1)求6、20、23、73、33、87的平均值(2)求16、17、23、45、38、43、99的平均值数据双录入的核查一般程序用数据管理软件进行数据双录入,录入后第一步进行双录入的一致性核查,双录入核查时发现不一致的地方再查找

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论