医学统计(10).ppt_第1页
医学统计(10).ppt_第2页
医学统计(10).ppt_第3页
医学统计(10).ppt_第4页
医学统计(10).ppt_第5页
已阅读5页,还剩178页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学 10 数据挖掘分析 第二部分 Logistic回归 第一部分 Logistic回归 第一部分 回归分析的分类 多个因变量 y1 y2 yk 一个因变量y 多重线性回归logistic回归 logistic回归 logisticregression 是研究因变量为二分类或多分类观察结果与影响因素 自变量 之间关系的一种多变量分析方法 属概率型非线性回归 logistic回归的分类 1 二分类资料logistic回归 因变量为两分类变量的资料 可用非条件logistic回归和条件logistic回归进行分析 非条件logistic回归多用于非配比病例 对照研究或队列研究资料 条件logistic回归多用于配对或配比资料 2 多分类资料logistic回归 因变量为多项分类的资料 可用多项分类logistic回归模型或有序分类logistic回归模型进行分析 队列研究 cohortstudy 也称前瞻性研究 随访研究等 是一种由因及果的研究 在研究开始时 根据以往有无暴露经历 将研究人群分为暴露人群和非暴露人群 在一定时期内 随访观察和比较两组人群的发病率或死亡率 如果两组人群发病率或死亡率差别有统计学意义 则认为暴露和疾病间存在联系 队列研究验证的暴露因素在研究开始前已存在 研究者知道每个研究对象的暴露情况 RR 相对危险度relativerisk 表示暴露组与非暴露组发病率 或死亡率 的比值 也称为危险比 riskratio 反映了暴露与疾病发生的关联强度 RR表明暴露组发病或死亡的危险是非暴露组的多少倍 病例对照研究 case controlstudies 一种由果及因的回顾性研究 先按疾病状态确定调查对象 分为病例 case 和对照 control 两组 然后利用已有的记录 或采用询问 填写调查表等方式 了解其发病前的暴露情况 并进行比较 推测疾病与暴露间的关系 病例对照研究的类型 一 病例与对照不匹配 非条件logistic回归在设计所规定的病例和对照人群中 分别抽取一定量的研究对象 一般对照应等于或多于病例数 此外无其他任何限制 二 病例与对照匹配 条件logistic回归匹配或称配比 matching 即要求对照在某些因素或特征上与病例保持一致 目的是对两组比较时排除混杂因素的干扰 匹配分为成组匹配和个体匹配 非条件logistic回归 应变量为二分类资料一个二分类自变量两个 多个 二分类自变量无序多分类自变量有序多分类自变量引入数值型自变量应变量为有序多分类资料应变量为无序多分类资料 二分类资料的logistic回归 二分类logistic回归对自变量没有特殊要求 自变量可以是分类变量 包括二分类和多分类变量 和数值变量 二分类资料的logistic回归通过SPSS统计软件的二元Logistic过程实现统计分析 例1 某医师为研究妇女服避孕药与子代染色体异常的关系 分别调查了子代染色体异常和正常的同龄组儿童的母亲54名和196名 结果如表 试对此资料进行分析 能否提出子代染色体异常与其母在孕前6个月内服用避孕药有关 SPSS软件操作 第1步 定义变量 第2步 输入原始数据 第3步 加权设置 选择数据 加权个案 W 将f移入频率变量 第4步 logistic回归分析 1 选择分析 回归 二元logistic 第4步 logistic回归分析 2 将a和b分别移入协变量和因变量 自变量全部进入模型向前逐步选择法向后逐步剔除法条件 将变量剔除出模型的依据是条件参数估计的似然比统计量的概率值 LR 将变量剔除出模型的依据是最大偏似然估计的似然比统计量的概率值 Wald 将变量剔除出模型的依据是Wald统计量的概率值 第4步 logistic回归分析 3 设置选项勾上exp B 的95CI 第4步 logistic回归分析 4 结果解读 OR 3 200 p 0 000OR的95 CI为 1 712 5 983 Exp B eB 值得注意的是病例 对照研究中 病例与对照两组人数的比例是人为规定的 不代表自然人群中真实的病人与正常人的比值 因此 根据病例一对照研究资料建立的Logistic回归方程中 常数项意义不大 主要针对结果中自变量的回归系数及其相应的比数比OR值的意义作解释 不宜直接用于所研究事件发生概率的预测和判别 两个二分类自变量的logistic回归 两个自变量均为两水平的二分类资料的Logistic回归分析与一个自变量为两水平的二分类资料的Logistic回归分析在步骤方法上是相同的 只是增加了一个自变量 在建立Logistic回归方程时需要对两个自变量对应的参数进行估计 计算两个比数比 另外 两个自变量均有意义时 看哪个影响作用更大些 与多重线性回归一样 也是比较标准偏回归系数绝对值的大小 无序多分类自变量的Logistic回归 自变量是一个或多个为无序多分类变量时 其Logistic回归在方法上同上述二分类资料的Logistic回归 只要对自变量的不同水平构造哑变量即可 某一多分类无序自变量可构造的哑变量数等于该自变量的分类数减1 将哑变量引入模型 其结果无论有无统计学意义 都是相对事先确定某一类为基准对照而言的 SPSS对字符型多分类无序自变量 系统默认以最后的那个分类为对照 有序多分类自变量的Logistic回归 Logistic回归中自变量为有序多分类变量 即等级变量 如文化程度可分为文盲 小学 中学 大学及以上等 这种资料的Logistic回归分两种情况处理 如果自变量的等级分组与logit P 呈线性关系 即等级效应等比例增加或减少 则该自变量可以作为一个数值型自变量引人模型 否则 将等级变量视为无序多分类自变量 以哑变量的形式引入模型进行分析 引入数值型自变量的Logistic回归 数值变量直接引入模型 得到相应的比数比OR是指自变量增加一个单位 如年龄增加1岁 比数自然对数值的变化量 若将数值自变量分成几组 如自变量年龄按10岁间隔分组引人模型时 其OR值是指年龄每增加10岁比数自然对数值的变化量 数值型变量转换成分类变量的临界点选择 最佳的方法是采用ROC分析 例2 为了探索有关危险因素和保护因素 对32例胃癌病人和32例对照者进行病例对照研究 考察的危险因素作为自变量 分别为 x1 年龄 x2 蛋白质摄入量由低到高 0 1 2 3 4 x3 新鲜蔬菜及水果食用情况 良好 一般 不足 严重不足为0 1 2 3 x4 吃盐量高食物由轻到重为 0 1 2 3 4 x5 饮食习惯 从良好 一般 不良 严重不良为 0 1 2 3 x6 精神心理因素 从乐观 较乐观 一般 不良为0 1 2 3 Y 是否患胃癌作为因变量 0未患 1患者 SPSS软件操作 第1步 定义变量 第2步 输入原始数据 第3步 logistic回归分析 1 选择分析 回归 二元logistic 第3步 logistic回归分析 2 将x1 6和y分别移入协变量和因变量 第3步 logistic回归分析 3 设置选项勾上exp B 的95CI 第3步 logistic回归分析 4 结果解读 给出各因素的OR 95 CI 及相应的p值 第3步 logistic回归分析 5 第3步 logistic回归分析 6 第3步 logistic回归分析 7 结果解读 给出入选各因素的OR 95 CI 及相应的p值 例3 为了探讨冠心病发生的有关危险因素 对26例冠心病病人和28例对照者进行病例 对照研究 各因素的说明及资料如下 试用logistic回归分析方法筛选危险因素 SPSS软件操作 第1步 定义变量 第2步 输入原始数据 第3步 logistic回归分析 1 选择分析 回归 二元logistic 第3步 logistic回归分析 2 将x1 8和y分别移入协变量和因变量 第3步 logistic回归分析 3 设置选项勾上exp B 的95CI 第3步 logistic回归分析 4 结果解读 给出入选各因素的OR 95 CI 及相应的p值 多分类资料的logistic回归 应变量为有序多分类资料的logistic回归应变量的水平数大于2 且水平之间存在等级递增或递减关系的资料为有序多分类资料 SPSS中通过有序logistic过程实现 例4 研究性别和两种治疗方法对某病疗效的影响 疗效的评价分为三个有序等级 数据如下 试做logistic回归分析 SPSS软件操作 第1步 定义变量 第2步 输入原始数据 第3步 加权设置 选择数据 加权个案 W 将f移入频率变量 第4步 logistic回归分析 1 选择分析 回归 有序 第4步 logistic回归分析 2 将A和B移入协变量 C移入因变量 第4步 logistic回归分析 3 设置输出勾上平行线检验 第4步 logistic回归分析 4 结果解读 性别 A 和疗法 B 的回归系数大于0 具有统计学意义 OR分别为e1 319 3 740 e1 797 6 302 第4步 logistic回归分析 5 结果解读 平行线检验p 0 480 说明应变量各水平与自变量间的回归方程平行 应变量为无序多分类资料的logistic回归应变量的水平数大于2 且水平之间不存在等级递增或递减关系的资料为无序多分类资料 SPSS中通过多项logistic过程实现 例5 为了研究胃癌及胃癌前病变核仁组织变化情况 分析核仁组成区嗜银蛋白颗粒数量及大小在胃炎 胃组织不典型增生和胃癌三种胃疾病中的变化规律以及临床的诊断意义 共检测129名患者 结果如下 试做logistic回归分析 SPSS软件操作 第1步 定义变量 第2步 输入原始数据 第3步 加权设置 选择数据 加权个案 W 将f移入频率变量 第4步 logistic回归分析 1 选择分析 回归 多项logistic 第4步 logistic回归分析 2 将a b移入协变量 Y移入因变量 第4步 logistic回归分析 3 设置选项勾上exp B 的95CI 第4步 logistic回归分析 4 结果解读 相对于胃炎的OR值以及OR的95 CI 数据挖掘分析 第二部分 数据挖掘研究设计基本概念基本步骤Clementine软件应用基本操作关联规则决策树聚类分析 研究时有无设计干预因素 实验性研究 观察性研究 是否随机 有无对照组 分析性研究 描述性研究 时间方向 队列研究 非随机对照试验 随机对照试验 病例对照研究 横断面研究 有 无 有 无 否 是 暴露 结局 结局 暴露 观察性研究 由于医学研究对象的特殊性 在很多科研中 研究者不能主动地控制研究因素 这种在自然状态下 观察疾病发生 发展 诊治过程中表现出来的特点和规律 以阐述疾病的分布特征 认识病因和影响因素 分析防治过程中相关规律和特征的研究方法 称为观察性研究 数据挖掘研究 基于数据分析方法角度的分类本质上属于观察性研究研究资料来源日常诊疗工作资料应用的技术较传统研究更先进分析工具 理论模型与传统研究区别较大 数据挖掘 从大量数据中寻找其规律的技术 是统计学 数据库技术和人工智能技术的综合 数据挖掘 从数据中自动地抽取模式 关联 变化 异常和有意义的结构 数据挖掘 利用已有的数据 数据收集过程不经过特意的科研设计 目的是发现规律 而不是验证假设 数据挖掘研究设计基本概念基本步骤Clementine软件应用基本操作关联规则决策树聚类分析 第一步骤选择 第三步骤挖掘 第二步骤处理 第四步骤分析 2020 1 15 数据挖掘步骤 目标数据 预处理及变换 变换后的数据 数据挖掘算法 解释 评估 清理筛选 知识 数据挖掘研究的基本步骤 第一步 选择数据 收集获取原始数据就是根据研究目的 进行需要被挖掘分析的原始数据采集 评估数据的可获得性 可以采用较小规模的数据对问题的可行性进行初步研究 原始数据可能会分布于不同的信息系统中 需要对信息系统充分理解 并有相应的技术实现数据的导出 原始数据的采集非常费时费力 通常在研究工作中占相当大的比重 76 病人基本信息 HIS病人检验信息 LIS病人检查信息 PACS等医技系统病人诊疗过程信息 电子病历病人收费信息 HIS 海量数据 大量的业务数据 问题也很多 标准不统一 很难分析 与临床相关的电子病历系统结构化与临床工作量之间的矛盾 中医系统 医疗科研信息一体化系统军队系统 中国重大疾病临床诊疗数据库 第二步 处理数据 数据预处理部分 把数据转换成比较容易被数据挖掘的格式及内容 内容处理 年龄六十岁 60有个还分组 老年 青年 等格式处理 年龄出生日期1950年转成63 为什么需要预处理 数据不完整含观测噪声不一致包含其它不希望的成分数据清理通过填写空缺值 平滑噪声数据 识别删除孤立点 并解决不一致来清理数据 污染数据的普遍存在 使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务 垃圾进 垃圾出 污染数据形成的原因 滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编码 例 中药 证型 症状的预处理 预处理是最为关键的一步正异名的处理 白头翁 白术 白头公错别字 青篙 青蒿省略字 龙牡 龙骨 牡蛎炮制预处理 建立一个中药规范表 建立证型规范表 建立症状规范表 第三步 挖掘分析 运用工具和算法 进行数据挖掘分析 完成分类 关联 聚类 估计 预测等功能 发现数据中的规律 数据挖掘主要方法 神经网络NeuralNetworks 聚类分析Clustering OpenAccn t AddNewProduct DecreaseUsage Time 序列分析SequenceAnalysis 决策树DecisionTrees 倾向性分析 关联分析Association 数据挖掘软件应用 SPSSClementine WEKA 第四步 结果解释 结合专业知识 进行数据挖掘分析结果的解释 阐明规律 以及规律的临床价值 结果解释是数据挖掘研究的关键 从发现的规律进一步延伸出其实际意义 是整个研究工作的成果所在 91 数据挖掘研究设计基本概念基本步骤Clementine软件应用基本操作关联规则决策树聚类分析 Clementine软件应用 Clementine12 0安装方法 1 下载 存放到D盘 重新命名为 ClementineV12 2 打开ClementineV12 点击运行setup exe 按提示完成安装到默认目录 C ProgramFiles SPSSInc Clementine12 03 D CLE12 0 Clementine12 Crack 破解复制该文件下 lservrc PlatformSPSSLic7 dll 两个文件 粘贴到C ProgramFiles SPSSInc Clementine12 0 bin文件夹下 覆盖原来的同名字文件 数据挖掘研究设计基本概念基本步骤Clementine软件应用基本操作关联规则决策树聚类分析 97 Clementine用户界面 操作区 节点 一个图标代表在Clementine中进行的一个操作 工作流 一系列连接在一起的节点 可视化编程 选项板 源节点用来将数据读入Clementine中记录选项节点在记录上进行操作一条记录是一种 情形 或一 行 数据字段选项节点在字段上进行操作一个字段是一个变量图形节点在建模之前和之后用来可视化数据建模节点代表有效建模算法注意 建模算法产生生成的模型 增加一个节点 在选项板上双击节点 自动放置节点到数据流区域 将节点从选项板拖放到数据流区域中在选项板上点击一个节点 然后在数据流区域中点击一下 编辑一个节点 在节点上右击 展开一个节点点击 编辑 在菜单上还可以选择连接 断开连接 重命名 注释 复制 删除 载入 保存等操作 连接节点 使用鼠标中键来连接节点在数据流区域上 把一个节点连接到另一个上 可以通过鼠标中间键点击和拖放来完成 如果您的鼠标没有中间键 可以通过按住 Alt 键来模拟这个过程 通过双击来连接节点双击选项板上的节点 自动把新节点连接到数据流区域中的 中心 节点上 删除节点之间的连接 在连接箭头的头部按住鼠标右键选择 删除连接 Clementine中读取数据格式 文本文件EXCELSPSS数据文件ODBC兼容的数据库SAS数据文件用户输入文件 读取原始文件 添加变量文件节点到数据流区域编辑节点指向文件通过编辑进行原始数据设置 读取文本文件 读取EXCEL文件 读取其他数据文件 原始数据是什么文件类型 则采用什么节点 定义字段类型 类型节点指定字段的一系列重要属性 指定字段类型 方向和缺失值 Clementine可以自动设置变量类型 用户也可以强制指定类型 为建立模型 指定字段的方向 指定缺失值以及如何处理缺失值 变量值检查保证字段值满足一定的设置 字段类型帮助您理解正在使用的数据 是一些数据准备和所有建模程序所必需的 连续型 用于描述数值 如0 100或者0 75 1 25内的连续值一个连续值可以是整数 实数或日期 时间离散型 用于当一个具体值的精确数量未知时描述字符串 一旦数据被读取 其类型就会是标记 集合或者无类型集合型 用于描述带有多个具体值的数据 黄 绿 蓝 标记型 用于只取两个具体值的数据 真 假 无类型 用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据 字段方向 输入 输入或者预测字段输出 输出或者被预测字段字段两者 既是输入又是输出 只在关联规则中用到无 建模过程中不使用该字段分区 将数据拆分为训练 测试 验证 部分字段方向设置只有在建模时才起作用 字段实例化 在读取值前数据称为未实例化 通过读取值后数据完全实例化 字段的取值和类型都是可知的 数据挖掘分析的一般步骤 1 数据整理2 数据格式转化3 数据文件读入4 数据类型设置5 模型选择与参数设置6 结果输出与解读 1 数据整理 整理成可分析的数据一般为横向数据 即一个病人一条记录 2 数据格式转换 转化成软件可以读入的格式 常用TXT文件 3 数据文件读入 查看读入数据是否成功 4 数据类型设置 5 模型选择与参数设置 关联规则决策树类神经网络聚类分析判别分析 6 结果输出与解读 执行模型后 输出结果 直接查看结果 也可以再次增加table节点 查看新写入的数据 结合专业知识进行解读 数据挖掘研究设计基本概念基本步骤Clementine软件应用基本操作关联规则决策树聚类分析 关联规则基本概念 是分析两个或多个变量的取值之间存在某种规律性的方法 包括简单关联规则和系列关联规则 在Clementine中实现简单关联规则的算法有Apriori和GRI两种 Apriori只能处理分类变量 GRI还可以处理前项是数值型变量的情况 简单关联规则有效性的主要测度指标包括两个 规则置信度和规则支持度 规则置信度是对简单关联规则准确度的测量 描述了包含项目X的事务中同时也包含项目Y的概率 规则支持度是对简单关联规则普遍性的测量 表示项目X和项目Y同时出现的概率 一个理想的简单关联规则应具有较高的置信度和较高的支持度 关联规则应用实例 例6 收集了某一时间范围内治疗某一疾病的中药方3122张 涉及药物251种 要分析处方中常用的药对情况 现进行关联规则分析 药对的概念 置信度 支持度的概念 同时出现白芍 大黄的方剂数1 白芍 大黄 支持度 33 总方剂数3同时出现白芍 大黄的方剂数1 白芍 大黄 置信度 50 凡出现白芍的方剂数2同时出现白芍 大黄的方剂数1 大黄 白芍 置信度 100 凡出现大黄的方剂数1 设定最小支持度50 最小置信度50 1 数据整理 从医院HIS系统中导出某一疾病在某一时间范围内的药方信息 数据整理的目的是保证从日常运行数据中获得的数据的标准是统一的 规则是一致的 同类信息的表达是无偏的 例如药名信息有 白头翁 白术 白头公 则统一为 白术 2 数据格式转化 横纵向转换 从业务数据库获得的原始数据表基本上都是纵向结构的 为了便于数据挖掘分析 必须将其转换成横向数据结构 即转换成一个个案的信息由一条记录全部展示 2 数据格式转化 文件类型转换 SPSSClementine能读取的文件类型包括文本文件 EXCEL文件 SPSS数据文件 ODBC兼容的数据库 SAS数据文件和用户输入文件 一般文本文件出现乱码 错位等错误的概率较小 占用资源也较少 可优先转换成TXT文件 3 数据文件读入 数据文件读入的第一步是构建一个原始文件节点 通过编辑原始文件节点 选定文件路径 读取原始数据文件 点击 确定 后 该数据节点就有了可分析的原始数据 为了查看原始数据是否正确读入 可增加table节点 查看原始数据是否已经被读入 格式是否准确 有无乱码等情况 4 数据类型设置 两分类变量 设置文件类型为flag 关联分析方向设置为 both 全部设置完成后 读取变量 字段实例化 5 模型选择与参数设置 在读取原始数据和数据格式定义好以后 就可以根据数据挖掘分析的需要选择相应的模型 在简单关联分析中可选择Apriori或GRI两种节点 以Apriori为例 节点的相关参数设置主要包括两部分 设置进行两两关联分析的变量和最小置信度 最小支持度定义 一般中药药对研究中 可选最小置信度和最小支持度均为50 两两关联分析的变量定义 最小置信度 最小支持度定义 6 结果输出与解读 输出了最小支持度和置信度均在50 以上的药对 中药与中药之间症状与症状之间证型与证型之间中药与症状之间中药与证型之间症状与证型之间 关系 中医药关联规则分析的其他应用 关联分析完整数据流图 数据挖掘研究设计基本概念基本步骤Clementine软件应用基本操作关联规则决策树聚类分析 决策树基本概念 在数据挖掘中 决策树是分类预测的经典算法 决策树算法的目的是通过向数据学习 获得输入变量和输出变量不同取值下的数据分类和预测规律 并用于对新数据对象的分类预测 SPSSClementine提供C5 0 CART CHAID QUEST在内的决策树经典算法 决策树应用实例 例7 收集了某一时间范围内治疗应用作用效果类似的A B C X Y5种药物治疗病人200例 资料包括年龄 性别 胆固醇 血压 血钾 血钠 使用药物等7个变量 现进行用药决策规律的决策树分析 1 数据整理 从医院HIS LIS 电子病历系统中导出某一疾病在某一时间范围内的相关信息 数据整理的目的是保证从日常运行数据中获得的数据的标准是统一的 规则是一致的 同类信息的表达是无偏的 2 数据格式转化 横纵向转换 从业务数据库获得的原始数据表基本上都是纵向结构的 为了便于数据挖掘分析 必须将其转换成横向数据结构 即转换成一个个案的信息由一条记录全部展示 2 数据格式转化 文件类型转换 SPSSClementine能读取的文件类型包括文本文件 EXCEL文件 SPSS数据文件 ODBC兼容的数据库 SAS数据文件和用户输入文件 一般文本文件出现乱码 错位等错误的概率较小 占用资源也较少 可优先转换成TXT文件 3 数据文件读入 数据文件读入的第一步是构建一个原始文件节点 通过编辑原始文件节点 选定文件路径 读取原始数据文件 点击 确定 后 该数据节点就有了可分析的原始数据 为了查看原始数据是否正确读入 可增加table节点 查看原始数据是否已经被读入 格式是否准确 有无乱码等情况 4 数据类型设置 设置文件类型两分类变量为flag 多分类为set 连续资料为rang 决策树中 决策目标设置方向为out 其他作为决策依据的变量设置为in 5 模型选择与参数设置 在读取原始数据和数据格式定义好以后 就可以根据数据挖掘分析的需要选择相应的模型 在决策树中可选择供C5 0 C RTree CHAID QUEST等4种节点 以C5 0为例 节点的相关参数设置主要是设置决策目标和输入变量 决策目标和输入变量设置 6 结果输出与解读 决策树分析完整数据流图 数据挖掘研究设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论