医学科研数据挖掘方法--数据预处理_第1页
医学科研数据挖掘方法--数据预处理_第2页
医学科研数据挖掘方法--数据预处理_第3页
医学科研数据挖掘方法--数据预处理_第4页
医学科研数据挖掘方法--数据预处理_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学科研数据的预处理方法(Datapreprocess),数据描述(核查)数据清理数据集成,为什么需要对数据进行预处理?,数据描述单个数据集多个数据集,一个数据集可看成一个N行M列的矩阵,N表示观测记录数,M表示观测变量数。数据预处理无外乎从这两个方面进行,从行的角度检查记录数与观测对象的编号情况,从列的角度一是检查每个变量的分布,发现异常值,二是检查变量缺失情况。,数据中变量有效记录数的描述数据集中常有一些变量值缺失,这是流行病学研究不可避免的问题。一些变量值的缺失必然会影响数据分析,如在做多元回归分析时,任何一个自变量或应变量有缺失的记录都将不能进入分析,放入方程中的变量越多,数据缺失的可能性越大,参加分析的记录数就越少。在数据分析前,了解数据集中一些关键变量缺失情况十分必要。,结果一VariablesMissingReportfordatasetB1.LABG1Non-missingMissingA114199A124199A214217A224217A314235A324235,结果二CombinationofthesevariablesAAAAAAO112233B121212S00110010011118110000111001161111003111111409,数据集中连续变量的分布描述对于一个数据,我们必须首先知道在这个数据集中有多少条记录?多少个变量?每个变量的分布如何,描述其分布图;对连续变量需要计算百分位数、均数等。,实例AGE(年龄)percentile|-distribution-min2929|.5%3831.4|.10%4036.2|*25%4541|*50%5245.8|*75%58.550.6|*90%6555.4|*95%6960.2|*max7765|*mean52.11320869.8|*std9.119346474.6|.n21277|.2|-+-+-+-+-,连续变量均数、标准差与百分位数描述连续变量常用的统计量有均数、标准差、中位数。在计算这些统计量前,检查连续变量的分布,发现异常值极为重要。个别异常的极大值或极小值,不仅影响均数与标准差,而且如将它放在一个线性回归模型中,会大大影响回归系数,甚至完全改变回归结果。,实例OutputofUnitabs()fordataset:WD.SMKCOPD,COPD=0=Var.Nmin10%25%50%75%90%maxmeanstdAGE52015.719.925.932.543.154.974.635.112.7HEIGHT4961.41.51.51.61.61.71.81.60.1WEIGHT49629.545.549.053.058.062.576.053.67.0BMI49615.318.919.820.922.423.928.921.22.1TotalN520OutputofUnitabs()fordataset:WD.SMKCOPD,COPD=1=Var.Nmin10%25%50%75%90%maxmeanstdAGE30715.623.031.641.853.363.677.042.314.6HEIGHT2941.41.51.51.61.61.71.81.60.1WEIGHT29432.043.047.552.358.064.577.053.18.4BMI29414.717.919.421.222.924.830.921.22.7TotalN307OutputofUnitabs()fordataset:WD.SMKCOPD=Var.Nmin10%25%50%75%90%maxmeanstdAGE83215.621.427.634.047.958.477.037.913.9HEIGHT7951.41.51.51.61.61.71.81.60.1WEIGHT79529.544.048.553.058.063.077.053.47.6BMI79514.718.619.721.022.624.330.921.22.3TotalN832,实例EDU(文化程度)valuecount-percent-.4|*1.87%17|*3.27%2140|*65.4%342|*19.6%421|*9.81%Total214,单个分类变量的描述,多个分类变量描述在数据分析前,对有关的一组分类变量联合的频数进行统计报告,用以评估这组变量各种组合的层次有多少,各层有多少人。一方面,可以对这些变量之间的关系进行描述,另一方面,在进行多因素分析前,可以了解有效的样本量。,实例CPSWOOHOHBULBESGEEHGZME111152222503222317223211322332523222823234233217233373222832231323263233433222033236333230333338,二分类变量交叉频数描述二分类事件用变量表示,变量值等于1表示事件发生,等于零表示未发生。如同上面所介绍的一样,通过观察二分类变量之间交叉发生频数,有助于揭示事件(现象)之间的内在联系,为进一步分析提供线索。,实例Only咳痰流泪哮喘TotalN_Obs咳嗽8947849113832咳痰289255150832流泪11374240832哮喘17102832,多个数据集的描述,描述多个数据集中观测对象情况如果项目收集的研究对象的数据被放在多个数据文件中,那么数据分析前既需了解单个数据文件的记录数、变量数和唯一编号数(或称研究对象数),又需了解研究对象资料的完整性,即研究对象编号在各数据文件中的分布情况。,结果一DatasetsReportby%dtsrpt()=#Variables#Observations#Unique_SUBJA:B1.REGIS16435428B:B1.EXAM15431421C:B1.QUES111427427D:B1.SPIR14384377E:B1.LABG18428428,结果二#ofSubjectsin#ofDatasets4281225533714,结果三#SubjectsinDatasets428-E1A-C-6A-CD-1AB-49ABC-371ABCD-,结果四SUBJIndata00001ABCD-00002ABCD-00008ABCD-00009ABCD-00010ABC-00011ABC-00012ABCD-00427ABCD-00428ABCD-97-E98-E99-E*ENDof%dtsrpt()*,描述多个数据集中变量情况数据管理中的变量名管理一般要求:(1)这些含不同信息的数据文件除研究对象编号变量名外,没有其他重名的变量,以免在数据横向合并时出现错误;(2)含相同信息的不同批次的数据文件所有变量名及变量类型均需相同,以免在数据纵向合并时造成不必要的错误。对多个数据集中的变量的分布情况进行检查是数据管理与分析中必不可少的前提。因此需要观察多个数据集中变量的分布情况,了解哪些变量是哪个数据集单独所有,哪些变量是几个数据集共同拥有及不同数据文件中的同名变量类型是否相同。,结果一Outputof%dtsvchk():VariablesReportforDatasets=#ofVariablesA:B1.REGIS16B:B1.EXAM15C:B1.QUES111D:B1.SPIR14E:B1.LABG18,结果二Variablenamebydatasets:A11-EA12-EA31-eA32-eAGEA-COUGH-C-DBP-B-EDU-C-FEV1-D-FMYIDa-FMYTYPEA-SEXA-SMKAMT-C-SOB-C-SUBJabcdETDATE-deWEIGHT-B-WHEEZE-C-ABC.indexthedatasetnameifUpperCase(e.g:A),meansasanumericintheindexdataset(A)ifLowerCase(e.g:f),meansasacharacterintheindexdataset(F),两个数据集的比较对两个数据集进行比较也是经常应用的步骤之一。如比较两次录入分别产生的两个数据集以发现录入错误;比较质控复查产生的数据集与初查产生的数据集。两个数据集的比较牵涉到变量名及类型的比较、研究对象编号的比较、具体数值的比较。,结果一VariableonlyinOTH.LABG1RObsNAMETYPE1TDATE1VariableonlyinB1.LABG1ObsNAMETYPE1TDATE2,结果二VariablebothinOTH.LABG1RandB1.LABG1ObsNAMETYPE1A1112A1213A2124A2225A3126A3227SUBJ1,结果三SUBJonlyinB1.LABG1ObsSUBJ12532407,结果四SUBJVariableOTH.LABG1RB1.LABG154A11201046A122010378A122010125A21AB145A21AB304A21AB141A31RG177A31GRTotalunmatchedfield=8,家系结构数据的描述,在对家系数据进行分析前,我们首先要知道所收集的家系构成情况,如多少家系父母齐全,多少家系只有一个子女,多少家系有两个子女等等。,ReportforFamilyStructure%fmyrpt(),dataset:B1.REGIS1=FaMoSibs=0Sibs=1Sibs=2Sibs=3Sibs=4Sibs=5Sibs=6Sibs=7Total0130000000310210000003112211201314102496Total27122013141024102Totalobservations=435TotalUniqueID(subjects)=428Totalmissingfamilyinformation=0,数据清理,数据集中重复记录的检查和清除检查数据集中有无重复录入现象。如没有录入错误,重复录入会导致两条或多条记录除记录号(不同于调查对象的编号)外,其它变量值完全相同。,DuplicatedObservationstoBeDeletedObsHEIGHTWEIGHTSBPDBPSUBJ561.5050.011466002703471.6564.51117000399,ObsHEIGHTWEIGHTSBPDBPSUBJ11.3829.51106500280.531.5049.01929700249541.5049.51297900143551.5050.01146600270561.5050.01146600270571.5052.01557900141,ObsHEIGHTWEIGHTSBPDBPSUBJ11.3829.51106500280.531.5049.01929700249541.5049.51297900143551.5050.01146600270561.5052.01557900141,数据集中重复编码的检查和清除在数据中,同样我们需要考虑重复录入的问题,如是重复录入,则保留其中一条,而删除其中一条;如果是重复编号的记录则可能是编号错误或编号录入错误导致,对这些记录除核查原始资料改错外,在数据分析时只能删除,避免在数据横向合并时出现张冠李戴。,结果一DuplicatedObservationsWereDeletedObsHEIGHTWEIGHTSBPDBPSUBJ561.5050.011466002703471.6564.51117000399结果二Multiple(=2)SUBJinB1.EXAM1WereDeletedObsSUBJHEIGHTWEIGHTSBPDBP7000071.4747.0106638000071.4747.01285258000571.7063.01236859000571.7063.013276153001531.6455.513179154001531.6455.515678188001871.5148.011354189001871.5448.011867190001871.6056.512358191001871.6056.512370192001881.6561.515272193001881.6561.516281212002081.5848.211260213002081.6051.510461,正态分布的连续变量异常值查找和清除连续型变量的取值分布如近似正态,则用均数+K*标准差的方法判断异常值。K通常取3,即在离均数3个标准差之外的看成异常值,因为正态分布3个标准差外的取值概率小于1%(2.58个标准差为1%)。,结果一NobsVariableNMEANSTD-431HEIGHT4311.621370.73678WEIGHT43152.965207.57473SBP431131.3178727.40470DBP43169.6542911.11039结果二Totalnumberofoutliers:HEIGHTWEIGHTSBPDBP1445结果三obsHEIGHTWEIGHTSBPDBP3816.8.117.219.156.113285.29.5.287.109293.30.294.226137303.76.305.77.,一组正态分布连续变量异常值查找一组正态分布的连续变量,可以通过计算均数、方差与协方差矩阵,再计算Mahalanobis距离,Mahalanobis距离反应了个体一组变量与总体平均水平的差异。这种差异不仅反映在每单个变量与总体的差异,也反映变量间的相对大小(变量反应图)的差异。,结果MultivariateAnalsis:MahalanobisDistanceData=oth.wais,Var=infosimilarithpictObservationwithanyvariableismissingwillbeexcluded.Totalobservationsused:40Themeanforeachvariable:INFOSIMILARITHPICT11.258.42510.5757.15TheMahalanobisDistanceanditsP-valueweresaveinMAHDISTFollowingidhaveaP-valueFaMoSibs=0Sibs=1Sibs=2Sibs=3Sibs=4Sibs=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论