版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三十八章
数据预处理与统计分析的基本思路数据收集数据分析
费时,枯燥对数据进行真实、科学分析的基础数据筛查数据核查简介DataChecking(数据核查):Theprocessofrestrictingattentiontomakingsurethattherecordedvaluesareplausible.
确保记录值看起来合理的过程。DataScreening(数据筛检):Theprocessofidentifyingfeaturesthatmaycausedifficultiesduringthemainanalysis,anddosomerectifies.
识别数据中那些可能给主要分析带来困难的特性,并对之进行调整的过程。
第一节数据核查第二节数据离群值的识别与处理第三节缺失值的识别与处理第四节统计方法的选择第五节基于信息平台的临床数据分析思路第六节应用实例数据核查中要注意的问题及处理:1.数据的准确性2.缺失值(第三节)3.离群值(第二节)4.正态性、线性与方差齐性5.数据转换6.多重共线性(第四节,五,2)1.数据的准确性小样本数据:仔细校对原始资料与输入计算机里的数据大样本数据:检查主要分析变量的描述性统计量及统计图数据收集、清理、录入……2.缺失数据(第三节)1)带来危害的严重程度取决于:数据缺失的类型(最重要)缺失数据的数量缺失原因完全随机缺失,MCAR随机缺失,MAR非随机缺失判断是否属于MCAR?
例如:假设在一份涉及用药态度和一般人口学资料的问卷中,部分受访者拒绝回答关于收入的问题。似乎,受访者拒绝回答关于收入的问题可能与态度有关。如果把有收入变量缺失的个体都删除,那么关于态度变量的样本取值就会出现误差。用t检验来判断“收入”变量的缺失是否与态度有关(MCARornot?)ConstructadummyvariablewithtwogroupsDummy=1ifincomeismissingDummy=0ifincomingisnotmissingPerformatestofmeandifferencesinattitudebetweenthegroupsNodifferencereliabledifference(notMCAR)DecisionabouthowtohandlemissingdataarenotsocriticalCareisneedtopreservethecaseswithmissingvaluesforotheranalyses2)缺失数据的处理a.删除记录或变量(对于大样本数据,只有5%或更少的数据缺失,并且为完全随机缺失)当:极少的记录有缺失值,全部样本的随机子样本时(删除记录)少数变量,不是分析的主要变量,或者缺失变量与其它变量高度相关(删除变量)b.估计缺失值常用的缺失值估计方法:经验法;均值替代法;回归法;期望最大化法
a)经验法适合条件:研究者在该领域工作时间长,并且样本量大而缺失值少b)均值替代法:从所获得的(无缺失的)数据计算均值,并用该均值估计缺失值。适用情况:
缺乏其它信息时,均数是最好的估计值。c)回归法:以含有缺失值的变量为因变量(DV),其它变量为自变量(IVs)写回归方程;用有完整数据的样本建立的回归方程;以此回归方程预测那些不完整样本的缺失值(DV1);用所有的样本数据生成第2个回归方程;第2个方程也用来预测缺失值(DV2);最后方程的预测值作为缺失值的估计值。循环,直到DVn
与DVn-1接近大表适用情况:数据集中里有较好的能解释缺失变量的IVs估计值的可能取值在未缺失数据的变量值范围内d)期望最大化(EM)法这是一个分两步的迭代过程:求出期望和进行最大化:首先,E步求出缺失数据的条件期望值,并用来估计缺失数据其次,M步进行最大似然法估计,并以此替换缺失值最后,通过如此反复迭代,直到收敛为止,保存最后的数据,作为缺失的估计值。c.把缺失数据看成是一类数据信息对于某变量有无缺失的两种情况设置哑变量,有完整数据则赋值为1,缺失则赋值为0,这样缺失数据就可以变成一种有用的信息。d.对有/无缺失数据的样本分别进行分析
即使已使用一些方法估计缺失值,并进行分析,也应该考虑仅使用有完整数据的样本进行分析,并把两结果进行比较。如果结果不一样,应考虑:不同的原因;哪一结果更接近真实值;或者报告两个结果。e.选择处理缺失数据的方法
若条件允许,删除相应记录或变量EM法是对缺失值估计最简单也最合理的方法无论选择哪种缺失值的估计方法,都应强调:对有(缺失值估计后)、无缺失值的数据进行重复分析,比较分析结果。P611例38-33.离群值(第二节)⑴单变量极端取值(单变量离群值)或两个或多个变量的极端组合(多变量离群值),这样的极端值使统计分析结果失真。如:年龄10岁体重100公斤⑵离群值出现的原因:数据录入错误;(删除)缺失值的录入代码没有专门定义;(标记)观察单位不属于目标人群;(删除)测量值为非正态分布中的一些极端值。(变量转换)⑶单变量离群值的识别与处理⑶单变量离群值的识别与处理⑶单变量离群值的识别与处理P608例38-1(4)多变量离群值的识别与处理马氏距离(Mahalanobisdistance
):表示记录值离样本平均值的距离
评价标准:用分布马氏距离>潜在离群值自由度为变量的个数-1(5)
描述离群值用于:明确观察单位是否属于分析的目标人群;
为确定合适的替代值提供信息;
提示一类结果不能一般化推论的观察单位。
(6)
减少离群值对数据分析的影响
检查样本数据,数据是否正确录入
是否大多数离群值由某个变量的影响产生存在离群值的个体是否属于研究的目标人群变量转换,改变赋值,作非参数检验,删除等是是是修正数据否否删除删除记录否⑴正态性(Normanlity)在几乎所有多变量分析中,连续变量的正态性检验都是一个非常重要的早期步骤,尤其是需要进行统计推断时。4.正态性、线性与方差齐性a.统计方法评估如果样本含量足够大,对正态性的考察建议用图示法。b.图示法:直方图正态概率图及去势正态概率图
残差图⑵线性这里所指的是两个变量之间直线关系(其中的一个或两个变量可以是由几个变量组合而成的)
非线性的诊断
A.以预测变量为横轴的残差图ResidualPlots(以预测变量为横轴)…B.双变量散点图如果两个变量都是正态分布的,且线性相关,则散点图是椭圆形的。⑶同方差性对于没有分组的数据,方差齐性的假设是指某一连续变量的变异程度(方差)在一个连续变量的任意取值处恒定不变。对于分组的数据,一个变量是离散型变量(分组变量),另一个是连续型变量(DV)的时候,连续性变量的变异在分组变量的各个水平基本相同。Y是正态分布、等方差示意图Y是正态分布、不等方差示意图(曲线形状)分组数据方差齐性的统计学方法评估:Fmax:较大的样本方差与最小的样本方差的比值两组n相差不大(≤4/1),Fmax大至10还可接受两组n相差大(≥9/1),且n较小组方差较大,则Fmax只有3也会使I型错误概率增大⑴是离群值、非正态、非线性、方差不齐资料的一个补救办法。但不一定好解释,所以不作一般推广5.数据转换
多重共线性是变量之间高度相关导致的一个问题。多重共线性:变量之间高度相关(r
≥0.9)6.多重共线性(第四节,五,2)
多重共线性会导致逻辑和统计问题:逻辑问题:在同一分析中包括多余变量,效能降低。解决办法:慎重考虑是否需要把r≥0.7的两个变量同时纳入分析:
删除某一变量;由他们创建一个组合变量纳入分析
统计问题:变量间高度相关(≥0.9)多重共线性会导致矩阵的不稳定多重共线性的检验:相关系数或相关矩阵(≥0.9,0.7)容忍度(Tolerance)(1-SMC):
<0.10.010.001方差膨胀因子(Varianceinflationfactor(VIF)):
1/容忍度大特征值(
Eigenvalue):0条件指数(Conditionindex):>30结果示例多重共线性的处理:第四节统计方法的选择选择思路:第一个层面:看反应变量是单变量、双变量还是多变量。第二个层面:对于反应变量是单变量,在第二个层面要看属于三种资料类型中的哪一种;第三个层面:看单因素还是多因素;第四个层面:看单样本、两样本或多样本;第五个层面:看是否是配对或配伍设计;第六个层面:看是否满足检验方法所需的前提条件。一、单变量计量资料的分析1.样本均数与总体均数比较2.两个相关样本均数的比较3.两个独立样本均数比较4.多个样本均数比较(1)单因素方差分析(2)两因素方差分析但不分析交互作用(3)三因素方差分析但不分析交互作用(4)多因素方差分析且分析交互作用(5)重复测量资料二、单变量计数资料的分析图38-2单变量计数资料的分析思路示意图P613三、单变量等级资料的分析两组配对等级资料的比较,选Wilcoxon单样本秩和检验;两组独立样本等级资料的比较,选Wilcoxon两样本秩和检验;多组独立样本等级资料的比较,选Kruskal-Wallis秩和检验。四、双变量资料的分析1.简单相关分析1)两变量满足二元正态分布——Pearson积矩相关分析(Pearsoncorrelation);2)两变量不满足二元正态分布——Spearman秩相关分析(Spearmancorrelation)。2.线性回归分析:当两变量关系呈线性趋势
简单线性回归分析(linearregression)。3.曲线回归分析:当两变量关系呈曲线趋势①按曲线类型选指数曲线,多项式曲线,生长曲线,Logistic曲线等。
②也可选用非线性回归分析方法。五、多变量资料的分析(多变量资料:分为有无应变量两种类型)
Case应变量自变量Y
X1
X2
…
X
k
…X
m1Y1
X11
X12
…
X1k
…X
2Y2
X21
X22
…
X2k
…X
3Y3
X31
X32
…
X3k
…X
:::
:
…:
…:::
:
:
…:
…:nY
n
X
n1
X
n2
…
X
nk
…Xnm表38-7多元分析的数据类型一(有应变量)Case应变量自变量Y
X1
X2
…
X
k
…X
m1Y1
X11
X12
…
X1k
…X
2Y2
X21
X22
…
X2k
…X
::
:
:
…:
…:nY
n
X
n1
X
n2
…
X
nk
…Xnm表38-7多元分析的数据类型一(有应变量)(1)应变量Y为数值型随机变量,且服从正态分布,自变量满足多元正态分布——多元回归分析或多元逐步回归分析(2)应变量Y为分类变量(二分类或多分类),且以判别分类为主要目的,自变量满足多元正态分布——选判别分析或逐步判别分析(3)应变量Y为生存时间,并含有截尾数据,可选Cox模型做生存分析(4)反应变量为含截尾数据的生存时间,自变量只有1个处理因素——Kaplan-Meier法做生存分析。(5)应变量Y为二分类变量或多分类变量,且以分析危险因素为主要目的,①配比设计,选条件Logistic
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年制造业技术支持工程师招聘面试题集
- 2026年乡镇环卫工人录用考试环卫作业扬尘控制措施题
- 2026年环境监测与治理技术考试题
- 2026年工会送清凉活动组织规范及防暑降温措施监督试题
- 2026年汽车电池技术及维护知识
- 2026年中国交通建设集团校园招聘笔试模拟题及港口航道
- 2026年招投标流程规范与标书制作季度考核
- 2026年专业知识重点解析与自测题
- 2026年退役军人税收优惠减免政策知识试题
- 2026年物业公司弱电维护岗位面试技巧
- 2025第二届卫生健康行业网络与数据安全技能大赛备赛试题库资料500题(含答案)
- 湖南省长沙市湖南师大附中教育集团2022-2023学年七下期中数学试题(原卷版)
- 《结肠癌病例讨论》课件
- 洞箫曲谱200首带目录
- 装载机司机专项培训课件
- DB41∕T 2540-2023 公路桥梁伸缩缝锚固区混凝土快速维修技术规程
- DB3607-T 012-2024《三角梅园林种植与管护技术规程》
- GB/T 44585.1-2024风险管理在接入IT网络的医疗器械中的应用第1部分:联网医疗器械或健康软件在其实施和使用中的安全、有效性和网络安全
- PAS 2050:2011-商品和服务在生命周期内的温室气体排放评价规范(英文)
- 23J916-1 住宅排气道(一)
- 【基于西门子PLC的机械手控制系统设计12000字(论文)】
评论
0/150
提交评论