医学统计(10).ppt

上传人：y*** IP属地：广东上传时间：2020-01-15 格式：PPT 页数：183 大小：17.38MB 积分：30 举报 版权申诉

已阅读5页，还剩178页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

医学统计学 10 数据挖掘分析第二部分 Logistic回归第一部分 Logistic回归第一部分回归分析的分类多个因变量 y1 y2 yk 一个因变量y 多重线性回归logistic回归 logistic回归 logisticregression 是研究因变量为二分类或多分类观察结果与影响因素自变量之间关系的一种多变量分析方法属概率型非线性回归 logistic回归的分类 1 二分类资料logistic回归因变量为两分类变量的资料可用非条件logistic回归和条件logistic回归进行分析非条件logistic回归多用于非配比病例对照研究或队列研究资料条件logistic回归多用于配对或配比资料 2 多分类资料logistic回归因变量为多项分类的资料可用多项分类logistic回归模型或有序分类logistic回归模型进行分析队列研究 cohortstudy 也称前瞻性研究随访研究等是一种由因及果的研究在研究开始时根据以往有无暴露经历将研究人群分为暴露人群和非暴露人群在一定时期内随访观察和比较两组人群的发病率或死亡率如果两组人群发病率或死亡率差别有统计学意义则认为暴露和疾病间存在联系队列研究验证的暴露因素在研究开始前已存在研究者知道每个研究对象的暴露情况 RR 相对危险度relativerisk 表示暴露组与非暴露组发病率或死亡率的比值也称为危险比 riskratio 反映了暴露与疾病发生的关联强度 RR表明暴露组发病或死亡的危险是非暴露组的多少倍病例对照研究 case controlstudies 一种由果及因的回顾性研究先按疾病状态确定调查对象分为病例 case 和对照 control 两组然后利用已有的记录或采用询问填写调查表等方式了解其发病前的暴露情况并进行比较推测疾病与暴露间的关系病例对照研究的类型一病例与对照不匹配非条件logistic回归在设计所规定的病例和对照人群中分别抽取一定量的研究对象一般对照应等于或多于病例数此外无其他任何限制二病例与对照匹配条件logistic回归匹配或称配比 matching 即要求对照在某些因素或特征上与病例保持一致目的是对两组比较时排除混杂因素的干扰匹配分为成组匹配和个体匹配非条件logistic回归应变量为二分类资料一个二分类自变量两个多个二分类自变量无序多分类自变量有序多分类自变量引入数值型自变量应变量为有序多分类资料应变量为无序多分类资料二分类资料的logistic回归二分类logistic回归对自变量没有特殊要求自变量可以是分类变量包括二分类和多分类变量和数值变量二分类资料的logistic回归通过SPSS统计软件的二元Logistic过程实现统计分析例1 某医师为研究妇女服避孕药与子代染色体异常的关系分别调查了子代染色体异常和正常的同龄组儿童的母亲54名和196名结果如表试对此资料进行分析能否提出子代染色体异常与其母在孕前6个月内服用避孕药有关 SPSS软件操作第1步定义变量第2步输入原始数据第3步加权设置选择数据加权个案 W 将f移入频率变量第4步 logistic回归分析 1 选择分析回归二元logistic 第4步 logistic回归分析 2 将a和b分别移入协变量和因变量自变量全部进入模型向前逐步选择法向后逐步剔除法条件将变量剔除出模型的依据是条件参数估计的似然比统计量的概率值 LR 将变量剔除出模型的依据是最大偏似然估计的似然比统计量的概率值 Wald 将变量剔除出模型的依据是Wald统计量的概率值第4步 logistic回归分析 3 设置选项勾上exp B 的95CI 第4步 logistic回归分析 4 结果解读 OR 3 200 p 0 000OR的95 CI为 1 712 5 983 Exp B eB 值得注意的是病例对照研究中病例与对照两组人数的比例是人为规定的不代表自然人群中真实的病人与正常人的比值因此根据病例一对照研究资料建立的Logistic回归方程中常数项意义不大主要针对结果中自变量的回归系数及其相应的比数比OR值的意义作解释不宜直接用于所研究事件发生概率的预测和判别两个二分类自变量的logistic回归两个自变量均为两水平的二分类资料的Logistic回归分析与一个自变量为两水平的二分类资料的Logistic回归分析在步骤方法上是相同的只是增加了一个自变量在建立Logistic回归方程时需要对两个自变量对应的参数进行估计计算两个比数比另外两个自变量均有意义时看哪个影响作用更大些与多重线性回归一样也是比较标准偏回归系数绝对值的大小无序多分类自变量的Logistic回归自变量是一个或多个为无序多分类变量时其Logistic回归在方法上同上述二分类资料的Logistic回归只要对自变量的不同水平构造哑变量即可某一多分类无序自变量可构造的哑变量数等于该自变量的分类数减1 将哑变量引入模型其结果无论有无统计学意义都是相对事先确定某一类为基准对照而言的 SPSS对字符型多分类无序自变量系统默认以最后的那个分类为对照有序多分类自变量的Logistic回归 Logistic回归中自变量为有序多分类变量即等级变量如文化程度可分为文盲小学中学大学及以上等这种资料的Logistic回归分两种情况处理如果自变量的等级分组与logit P 呈线性关系即等级效应等比例增加或减少则该自变量可以作为一个数值型自变量引人模型否则将等级变量视为无序多分类自变量以哑变量的形式引入模型进行分析引入数值型自变量的Logistic回归数值变量直接引入模型得到相应的比数比OR是指自变量增加一个单位如年龄增加1岁比数自然对数值的变化量若将数值自变量分成几组如自变量年龄按10岁间隔分组引人模型时其OR值是指年龄每增加10岁比数自然对数值的变化量数值型变量转换成分类变量的临界点选择最佳的方法是采用ROC分析例2 为了探索有关危险因素和保护因素对32例胃癌病人和32例对照者进行病例对照研究考察的危险因素作为自变量分别为 x1 年龄 x2 蛋白质摄入量由低到高 0 1 2 3 4 x3 新鲜蔬菜及水果食用情况良好一般不足严重不足为0 1 2 3 x4 吃盐量高食物由轻到重为 0 1 2 3 4 x5 饮食习惯从良好一般不良严重不良为 0 1 2 3 x6 精神心理因素从乐观较乐观一般不良为0 1 2 3 Y 是否患胃癌作为因变量 0未患 1患者 SPSS软件操作第1步定义变量第2步输入原始数据第3步 logistic回归分析 1 选择分析回归二元logistic 第3步 logistic回归分析 2 将x1 6和y分别移入协变量和因变量第3步 logistic回归分析 3 设置选项勾上exp B 的95CI 第3步 logistic回归分析 4 结果解读给出各因素的OR 95 CI 及相应的p值第3步 logistic回归分析 5 第3步 logistic回归分析 6 第3步 logistic回归分析 7 结果解读给出入选各因素的OR 95 CI 及相应的p值例3 为了探讨冠心病发生的有关危险因素对26例冠心病病人和28例对照者进行病例对照研究各因素的说明及资料如下试用logistic回归分析方法筛选危险因素 SPSS软件操作第1步定义变量第2步输入原始数据第3步 logistic回归分析 1 选择分析回归二元logistic 第3步 logistic回归分析 2 将x1 8和y分别移入协变量和因变量第3步 logistic回归分析 3 设置选项勾上exp B 的95CI 第3步 logistic回归分析 4 结果解读给出入选各因素的OR 95 CI 及相应的p值多分类资料的logistic回归应变量为有序多分类资料的logistic回归应变量的水平数大于2 且水平之间存在等级递增或递减关系的资料为有序多分类资料 SPSS中通过有序logistic过程实现例4 研究性别和两种治疗方法对某病疗效的影响疗效的评价分为三个有序等级数据如下试做logistic回归分析 SPSS软件操作第1步定义变量第2步输入原始数据第3步加权设置选择数据加权个案 W 将f移入频率变量第4步 logistic回归分析 1 选择分析回归有序第4步 logistic回归分析 2 将A和B移入协变量 C移入因变量第4步 logistic回归分析 3 设置输出勾上平行线检验第4步 logistic回归分析 4 结果解读性别 A 和疗法 B 的回归系数大于0 具有统计学意义 OR分别为e1 319 3 740 e1 797 6 302 第4步 logistic回归分析 5 结果解读平行线检验p 0 480 说明应变量各水平与自变量间的回归方程平行应变量为无序多分类资料的logistic回归应变量的水平数大于2 且水平之间不存在等级递增或递减关系的资料为无序多分类资料 SPSS中通过多项logistic过程实现例5 为了研究胃癌及胃癌前病变核仁组织变化情况分析核仁组成区嗜银蛋白颗粒数量及大小在胃炎胃组织不典型增生和胃癌三种胃疾病中的变化规律以及临床的诊断意义共检测129名患者结果如下试做logistic回归分析 SPSS软件操作第1步定义变量第2步输入原始数据第3步加权设置选择数据加权个案 W 将f移入频率变量第4步 logistic回归分析 1 选择分析回归多项logistic 第4步 logistic回归分析 2 将a b移入协变量 Y移入因变量第4步 logistic回归分析 3 设置选项勾上exp B 的95CI 第4步 logistic回归分析 4 结果解读相对于胃炎的OR值以及OR的95 CI 数据挖掘分析第二部分数据挖掘研究设计基本概念基本步骤Clementine软件应用基本操作关联规则决策树聚类分析研究时有无设计干预因素实验性研究观察性研究是否随机有无对照组分析性研究描述性研究时间方向队列研究非随机对照试验随机对照试验病例对照研究横断面研究有无有无否是暴露结局结局暴露观察性研究由于医学研究对象的特殊性在很多科研中研究者不能主动地控制研究因素这种在自然状态下观察疾病发生发展诊治过程中表现出来的特点和规律以阐述疾病的分布特征认识病因和影响因素分析防治过程中相关规律和特征的研究方法称为观察性研究数据挖掘研究基于数据分析方法角度的分类本质上属于观察性研究研究资料来源日常诊疗工作资料应用的技术较传统研究更先进分析工具理论模型与传统研究区别较大数据挖掘从大量数据中寻找其规律的技术是统计学数据库技术和人工智能技术的综合数据挖掘从数据中自动地抽取模式关联变化异常和有意义的结构数据挖掘利用已有的数据数据收集过程不经过特意的科研设计目的是发现规律而不是验证假设数据挖掘研究设计基本概念基本步骤Clementine软件应用基本操作关联规则决策树聚类分析第一步骤选择第三步骤挖掘第二步骤处理第四步骤分析 2020 1 15 数据挖掘步骤目标数据预处理及变换变换后的数据数据挖掘算法解释评估清理筛选知识数据挖掘研究的基本步骤第一步选择数据收集获取原始数据就是根据研究目的进行需要被挖掘分析的原始数据采集评估数据的可获得性可以采用较小规模的数据对问题的可行性进行初步研究原始数据可能会分布于不同的信息系统中需要对信息系统充分理解并有相应的技术实现数据的导出原始数据的采集非常费时费力通常在研究工作中占相当大的比重 76 病人基本信息 HIS病人检验信息 LIS病人检查信息 PACS等医技系统病人诊疗过程信息电子病历病人收费信息 HIS 海量数据大量的业务数据问题也很多标准不统一很难分析与临床相关的电子病历系统结构化与临床工作量之间的矛盾中医系统医疗科研信息一体化系统军队系统中国重大疾病临床诊疗数据库第二步处理数据数据预处理部分把数据转换成比较容易被数据挖掘的格式及内容内容处理年龄六十岁 60有个还分组老年青年等格式处理年龄出生日期1950年转成63 为什么需要预处理数据不完整含观测噪声不一致包含其它不希望的成分数据清理通过填写空缺值平滑噪声数据识别删除孤立点并解决不一致来清理数据污染数据的普遍存在使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务垃圾进垃圾出污染数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编码例中药证型症状的预处理预处理是最为关键的一步正异名的处理白头翁白术白头公错别字青篙青蒿省略字龙牡龙骨牡蛎炮制预处理建立一个中药规范表建立证型规范表建立症状规范表第三步挖掘分析运用工具和算法进行数据挖掘分析完成分类关联聚类估计预测等功能发现数据中的规律数据挖掘主要方法神经网络NeuralNetworks 聚类分析Clustering OpenAccn t AddNewProduct DecreaseUsage Time 序列分析SequenceAnalysis 决策树DecisionTrees 倾向性分析关联分析Association 数据挖掘软件应用 SPSSClementine WEKA 第四步结果解释结合专业知识进行数据挖掘分析结果的解释阐明规律以及规律的临床价值结果解释是数据挖掘研究的关键从发现的规律进一步延伸出其实际意义是整个研究工作的成果所在 91 数据挖掘研究设计基本概念基本步骤Clementine软件应用基本操作关联规则决策树聚类分析 Clementine软件应用 Clementine12 0安装方法 1 下载存放到D盘重新命名为 ClementineV12 2 打开ClementineV12 点击运行setup exe 按提示完成安装到默认目录 C ProgramFiles SPSSInc Clementine12 03 D CLE12 0 Clementine12 Crack 破解复制该文件下 lservrc PlatformSPSSLic7 dll 两个文件粘贴到C ProgramFiles SPSSInc Clementine12 0 bin文件夹下覆盖原来的同名字文件数据挖掘研究设计基本概念基本步骤Clementine软件应用基本操作关联规则决策树聚类分析 97 Clementine用户界面操作区节点一个图标代表在Clementine中进行的一个操作工作流一系列连接在一起的节点可视化编程选项板源节点用来将数据读入Clementine中记录选项节点在记录上进行操作一条记录是一种情形或一行数据字段选项节点在字段上进行操作一个字段是一个变量图形节点在建模之前和之后用来可视化数据建模节点代表有效建模算法注意建模算法产生生成的模型增加一个节点在选项板上双击节点自动放置节点到数据流区域将节点从选项板拖放到数据流区域中在选项板上点击一个节点然后在数据流区域中点击一下编辑一个节点在节点上右击展开一个节点点击编辑在菜单上还可以选择连接断开连接重命名注释复制删除载入保存等操作连接节点使用鼠标中键来连接节点在数据流区域上把一个节点连接到另一个上可以通过鼠标中间键点击和拖放来完成如果您的鼠标没有中间键可以通过按住 Alt 键来模拟这个过程通过双击来连接节点双击选项板上的节点自动把新节点连接到数据流区域中的中心节点上删除节点之间的连接在连接箭头的头部按住鼠标右键选择删除连接 Clementine中读取数据格式文本文件EXCELSPSS数据文件ODBC兼容的数据库SAS数据文件用户输入文件读取原始文件添加变量文件节点到数据流区域编辑节点指向文件通过编辑进行原始数据设置读取文本文件读取EXCEL文件读取其他数据文件原始数据是什么文件类型则采用什么节点定义字段类型类型节点指定字段的一系列重要属性指定字段类型方向和缺失值 Clementine可以自动设置变量类型用户也可以强制指定类型为建立模型指定字段的方向指定缺失值以及如何处理缺失值变量值检查保证字段值满足一定的设置字段类型帮助您理解正在使用的数据是一些数据准备和所有建模程序所必需的连续型用于描述数值如0 100或者0 75 1 25内的连续值一个连续值可以是整数实数或日期时间离散型用于当一个具体值的精确数量未知时描述字符串一旦数据被读取其类型就会是标记集合或者无类型集合型用于描述带有多个具体值的数据黄绿蓝标记型用于只取两个具体值的数据真假无类型用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据字段方向输入输入或者预测字段输出输出或者被预测字段字段两者既是输入又是输出只在关联规则中用到无建模过程中不使用该字段分区将数据拆分为训练测试验证部分字段方向设置只有在建模时才起作用字段实例化在读取值前数据称为未实例化通过读取值后数据完全实例化字段的取值和类型都是可知的数据挖掘分析的一般步骤 1 数据整理2 数据格式转化3 数据文件读入4 数据类型设置5 模型选择与参数设置6 结果输出与解读 1 数据整理整理成可分析的数据一般为横向数据即一个病人一条记录 2 数据格式转换转化成软件可以读入的格式常用TXT文件 3 数据文件读入查看读入数据是否成功 4 数据类型设置 5 模型选择与参数设置关联规则决策树类神经网络聚类分析判别分析 6 结果输出与解读执行模型后输出结果直接查看结果也可以再次增加table节点查看新写入的数据结合专业知识进行解读数据挖掘研究设计基本概念基本步骤Clementine软件应用基本操作关联规则决策树聚类分析关联规则基本概念是分析两个或多个变量的取值之间存在某种规律性的方法包括简单关联规则和系列关联规则在Clementine中实现简单关联规则的算法有Apriori和GRI两种 Apriori只能处理分类变量 GRI还可以处理前项是数值型变量的情况简单关联规则有效性的主要测度指标包括两个规则置信度和规则支持度规则置信度是对简单关联规则准确度的测量描述了包含项目X的事务中同时也包含项目Y的概率规则支持度是对简单关联规则普遍性的测量表示项目X和项目Y同时出现的概率一个理想的简单关联规则应具有较高的置信度和较高的支持度关联规则应用实例例6 收集了某一时间范围内治疗某一疾病的中药方3122张涉及药物251种要分析处方中常用的药对情况现进行关联规则分析药对的概念置信度支持度的概念同时出现白芍大黄的方剂数1 白芍大黄支持度 33 总方剂数3同时出现白芍大黄的方剂数1 白芍大黄置信度 50 凡出现白芍的方剂数2同时出现白芍大黄的方剂数1 大黄白芍置信度 100 凡出现大黄的方剂数1 设定最小支持度50 最小置信度50 1 数据整理从医院HIS系统中导出某一疾病在某一时间范围内的药方信息数据整理的目的是保证从日常运行数据中获得的数据的标准是统一的规则是一致的同类信息的表达是无偏的例如药名信息有白头翁白术白头公则统一为白术 2 数据格式转化横纵向转换从业务数据库获得的原始数据表基本上都是纵向结构的为了便于数据挖掘分析必须将其转换成横向数据结构即转换成一个个案的信息由一条记录全部展示 2 数据格式转化文件类型转换 SPSSClementine能读取的文件类型包括文本文件 EXCEL文件 SPSS数据文件 ODBC兼容的数据库 SAS数据文件和用户输入文件一般文本文件出现乱码错位等错误的概率较小占用资源也较少可优先转换成TXT文件 3 数据文件读入数据文件读入的第一步是构建一个原始文件节点通过编辑原始文件节点选定文件路径读取原始数据文件点击确定后该数据节点就有了可分析的原始数据为了查看原始数据是否正确读入可增加table节点查看原始数据是否已经被读入格式是否准确有无乱码等情况 4 数据类型设置两分类变量设置文件类型为flag 关联分析方向设置为 both 全部设置完成后读取变量字段实例化 5 模型选择与参数设置在读取原始数据和数据格式定义好以后就可以根据数据挖掘分析的需要选择相应的模型在简单关联分析中可选择Apriori或GRI两种节点以Apriori为例节点的相关参数设置主要包括两部分设置进行两两关联分析的变量和最小置信度最小支持度定义一般中药药对研究中可选最小置信度和最小支持度均为50 两两关联分析的变量定义最小置信度最小支持度定义 6 结果输出与解读输出了最小支持度和置信度均在50 以上的药对中药与中药之间症状与症状之间证型与证型之间中药与症状之间中药与证型之间症状与证型之间关系中医药关联规则分析的其他应用关联分析完整数据流图数据挖掘研究设计基本概念基本步骤Clementine软件应用基本操作关联规则决策树聚类分析决策树基本概念在数据挖掘中决策树是分类预测的经典算法决策树算法的目的是通过向数据学习获得输入变量和输出变量不同取值下的数据分类和预测规律并用于对新数据对象的分类预测 SPSSClementine提供C5 0 CART CHAID QUEST在内的决策树经典算法决策树应用实例例7 收集了某一时间范围内治疗应用作用效果类似的A B C X Y5种药物治疗病人200例资料包括年龄性别胆固醇血压血钾血钠使用药物等7个变量现进行用药决策规律的决策树分析 1 数据整理从医院HIS LIS 电子病历系统中导出某一疾病在某一时间范围内的相关信息数据整理的目的是保证从日常运行数据中获得的数据的标准是统一的规则是一致的同类信息的表达是无偏的 2 数据格式转化横纵向转换从业务数据库获得的原始数据表基本上都是纵向结构的为了便于数据挖掘分析必须将其转换成横向数据结构即转换成一个个案的信息由一条记录全部展示 2 数据格式转化文件类型转换 SPSSClementine能读取的文件类型包括文本文件 EXCEL文件 SPSS数据文件 ODBC兼容的数据库 SAS数据文件和用户输入文件一般文本文件出现乱码错位等错误的概率较小占用资源也较少可优先转换成TXT文件 3 数据文件读入数据文件读入的第一步是构建一个原始文件节点通过编辑原始文件节点选定文件路径读取原始数据文件点击确定后该数据节点就有了可分析的原始数据为了查看原始数据是否正确读入可增加table节点查看原始数据是否已经被读入格式是否准确有无乱码等情况 4 数据类型设置设置文件类型两分类变量为flag 多分类为set 连续资料为rang 决策树中决策目标设置方向为out 其他作为决策依据的变量设置为in 5 模型选择与参数设置在读取原始数据和数据格式定义好以后就可以根据数据挖掘分析的需要选择相应的模型在决策树中可选择供C5 0 C RTree CHAID QUEST等4种节点以C5 0为例节点的相关参数设置主要是设置决策目标和输入变量决策目标和输入变量设置 6 结果输出与解读决策树分析完整数据流图数据挖掘研究设

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

医学统计(10).ppt

文档简介

温馨提示

最新文档

评论

医学统计(10).ppt

文档简介

温馨提示

最新文档

评论

相关文档