《医学统计》PPT课件.ppt_第1页
《医学统计》PPT课件.ppt_第2页
《医学统计》PPT课件.ppt_第3页
《医学统计》PPT课件.ppt_第4页
《医学统计》PPT课件.ppt_第5页
已阅读5页,还剩178页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学 (10) 数据挖掘分析 第二部分 Logistic回归归 第一部分 LogisticLogistic回回归归 第一部分 回归分析的分类 多个因变量 (y1,y2,yk) 路径分析 结构方程模型分析 一个 因变 量 y 连续型因变量 (y) - 线性回归分析 分类型因变量 (y) -Logistic 回归分析 时间序列因变量 (t) -时间序列分析 生存时间因变量 (t) -生存风险回归分析 多重线性回归 logistic回归 logistic回归(logistic regression)是研究因 变量为二分类或多分类观察结果与影响因 素(自变量)之间关系的一种多变量分析 方法,属概率型非线性回归。 logistic回归的分类: (1)二分类资料logistic回归: 因变量为两分类变量 的资料,可用非条件logistic回归和条件logistic回归 进行分析。非条件logistic回归多用于非配比病例-对 照研究或队列研究资料,条件logistic回归多用于配 对或配比资料。 (2)多分类资料logistic回归: 因变量为多项分类的 资料,可用多项分类logistic回归模型或有序分类 logistic回归模型进行分析。 队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果 的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人 群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死 亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾 病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知 道每个研究对象的暴露情况。 研究人群 + - + + - - 调查方向:追踪收集资料 比较疾病人数暴露 a b c d a/(a+b ) c/(c+d ) 队列研究原理示意图 RR(相对危险度relative risk):表示暴露组与非暴露组 发病率(或死亡率)的比值。也称为危险比(risk ratio)。 反映了暴露与疾病发生的关联强度。 RR表明暴露组发病或死亡的危险是非暴露组的多少倍。 病例对照研究(case-control studies):一种由果及因的回顾性 研究,先按疾病状态确定调查对象,分为病例(case)和对照 (control)两组,然后利用已有的记录、或采用询问、填写调查 表等方式,了解其发病前的暴露情况,并进行比较,推测疾病 与暴露间的关系。 + - 病例 + - 对照 调查方向:收集回顾性资料 a b c d a/(a+b) c/(c+d) 比较人数暴露疾病 病例对照原理示意图 病例对照研究的类型 (一)病例与对照不匹配-非条件logistic回归 在设计所规定的病例和对照人群中,分别抽取一定量的研究对 象,一般对照应等于或多于病例数,此外无其他任何限制。 (二)病例与对照匹配-条件logistic回归 匹配或称配比(matching),即要求对照在某些因素或特 征上与病例保持一致,目的是对两组比较时排除混杂因素 的干扰。匹配分为成组匹配和个体匹配。 非条件logistic回归 应变量为二分类资料 p一个二分类自变量 p两个(多个)二分类自变量 p无序多分类自变量 p有序多分类自变量 p引入数值型自变量 应变量为有序多分类资料 应变量为无序多分类资料 二分类资料的logistic回归 二分类 logistic 回归对自变量没有特殊要求 ,自变量可以是分类变量(包括二分类和多 分类变量)和数值变量。 二分类资料的logistic回归通过SPSS统计软件 的二元Logistic过程实现统计分析。 【例1】某医师为研究妇女服避孕药与子代染 色体异常的关系,分别调查了子代染色体异 常和正常的同龄组儿童的母亲54名和196名, 结果如表。试对此资料进行分析,能否提出 子代染色体异常与其母在孕前6个月内服用避 孕药有关? SPSS软件操作 第1步:定义变量 第2步: 输入原 始数据 第3步:加权设置 选择数据加权个案(W) 将f移入频率变量 第4步:logistic回归分析(1) 选择分析 回归 二元logistic 第4步: logistic回归分析(2) 将a和b分别移入协变量和因变量 自变量全部进入模型 向前逐步选择法 向后逐步剔除法 条件:将变量剔除出模型的依 据是条件参数估计的似然比统 计量的概率值。 LR:将变量剔除出模型的依据 是最大偏似然估计的似然比统 计量的概率值。 Wald:将变量剔除出模型的依 据是Wald统计量的概率值。 第4步: logistic回归分析(3) 设置选项 勾上exp( B)的95CI 。 第4步: logistic回归分析(4) 结果解读:OR=3.200,p=0.000 OR的95%CI为(1.7125.983) Exp(B)=eB 值得注意的是病例-对照研究中,病例与对 照两组人数的比例是人为规定的,不代表 自然人群中真实的病人与正常人的比值。 因此,根据病例一对照研究资料建立的 Logistic 回归方程中,常数项意义不大,主 要针对结果中自变量的回归系数及其相应 的比数比OR 值的意义作解释,不宜直接用 于所研究事件发生概率的预测和判别。 两个二分类自变量的logistic回归 两个自变量均为两水平的二分类资料的 Logistic 回归分析与一个自变量为两水平的 二分类资料的 Logistic 回归分析在步骤方法 上是相同的,只是增加了一个自变量,在 建立 Logistic回归方程时需要对两个自变量 对应的参数进行估计,计算两个比数比。 另外,两个自变量均有意义时,看哪个影 响作用更大些,与多重线性回归一样,也 是比较标准偏回归系数绝对值的大小。 无序多分类自变量的Logistic 回归 自变量是一个或多个为无序多分类变量时,其 Logistic 回归在方法上同上述二分类资料的 Logistic回归,只要对自变量的不同水平构造哑变 量即可。某一多分类无序自变量可构造的哑变量 数等于该自变量的分类数减 1。将哑变量引入模型 ,其结果无论有无统计学意义,都是相对事先确 定某一类为基准对照而言的。 SPSS对字符型多分类无序自变量,系统默认以最 后的那个分类为对照。 有序多分类自变量的Logistic 回归 Logistic 回归中自变量为有序多分类变量, 即等级变量,如文化程度可分为文盲、小学 、中学、大学及以上等。 这种资料的 Logistic 回归分两种情况处理: 如果自变量的等级分组与 logit ( P )呈线性关 系,即等级效应等比例增加或减少,则该自 变量可以作为一个数值型自变量引人模型; 否则,将等级变量视为无序多分类自变量, 以哑变量的形式引入模型进行分析。 引入数值型自变量的Logistic回归 数值变量直接引入模型,得到相应的比数比 OR 是 指自变量增加一个单位(如年龄增加 1 岁)比数自然 对数值的变化量。 若将数值自变量分成几组,如自变量年龄按 10 岁 间隔分组引人模型时,其OR 值是指年龄每增加 10 岁比数自然对数值的变化量。 数值型变量转换成分类变量的临界点选择 ,最佳的方法是采用ROC分析。 【例2】为了探索有关危险因素和保护因素,对 32例胃癌病人和32例对照者进行病例对照研究 ,考察的危险因素作为自变量,分别为: x1(年龄) x2(蛋白质摄入量由低到高:0,1,2,3,4) x3(新鲜蔬菜及水果食用情况:良好、一般、不足、严重不足 为0,1,2,3), x4(吃盐量高食物由轻到重为:0,1,2,3,4), x5(饮食习惯,从良好,一般,不良,严重不良为:0,1,2 ,3), x6(精神心理因素,从乐观,较乐观,一般,不良为0,1,2 ,3)。 Y(是否患胃癌作为因变量。0未患,1患者) 。 SPSS软件操作 第1步:定义变量 第2步:输入 原始数据 第3步:logistic回归分析(1) 选择分析 回归 二元logistic 第3步: logistic回归分析(2) 将x1-6和y分别移入协变量和因变量 第3步: logistic回归分析(3) 设置选项 勾上exp( B)的95CI 。 第3步: logistic回归分析(4) 结果解读:给出各因素的OR(95%CI)及 相应的p值。 第3步: logistic回归分析(5) 第3步: logistic回归分析(6) 第3步: logistic回归分析(7) 结果解读:给出入选各因素的OR(95%CI )及相应的p值。 【例3】为了探讨冠心病发生的有关危险因素, 对26例冠心病病人和28例对照者进行病例-对照 研究,各因素的说明及资料如下,试用logistic 回归分析方法筛选危险因素 。 。 SPSS软件操作 第1步:定义变量 第2步:输入原始数据 第3步:logistic回归分析(1) 选择分析 回归 二元logistic 第3步: logistic回归分析(2) 将x1-8和y分别移入协变量和因变量 第3步: logistic回归分析(3) 设置选项 勾上exp( B)的95CI 。 第3步: logistic回归分析(4) 结果解读:给出入选各因素的OR(95%CI )及相应的p值。 多分类资料的logistic回归 应变量为有序多分类资料的logistic回归 u应变量的水平数大于2,且水平之间存在等 级递增或递减关系的资料为有序多分类资 料。 uSPSS中通过有序logistic过程实现。 【例4】研究性别和两种治疗方法对某病疗效的 影响,疗效的评价分为三个有序等级,数据如 下,试做logistic回归分析: SPSS软件操作 第1步:定义变量 第2步: 输入原 始数据 第3步:加权设置 选择数据加权个案(W) 将f移入频率变量 第4步:logistic回归分析(1) 选择分析 回归有序 第4步: logistic回归分析(2) 将A和B移入协变量,C移入因变量 第4步: logistic回归分析(3) 设置输出 勾上平行线检验。 第4步: logistic回归分析(4) 结果解读:性别(A)和疗法(B)的 回归系数大于0,具有统计学意义。 OR分别为e1.319=3.740, e1.797=6.302 第4步: logistic回归分析(5) 结果解读:平行线检验p=0.480,说明应 变量各水平与自变量间的回归方程平行。 应变量为无序多分类资料的logistic回归 u应变量的水平数大于2,且水平之间不存在 等级递增或递减关系的资料为无序多分类 资料。 uSPSS中通过多项logistic过程实现。 【例5】为了研究胃癌及胃癌前病变核仁组织变化情况,分析 核仁组成区嗜银蛋白颗粒数量及大小在胃炎、胃组织不典型 增生和胃癌三种胃疾病中的变化规律以及临床的诊断意义, 共检测129名患者,结果如下,试做logistic回归分析: SPSS软件操作 第1步:定义变量 第2步:输入 原始数据 第3步:加权设置 选择数据加权个案(W) 将f移入频率变量 第4步:logistic回归分析(1) 选择分析 回归 多项logistic 第4步: logistic回归分析(2) 将a、b移入协变量,Y移入因变量 第4步: logistic回归 分析(3) 设置选项 勾上exp( B)的95CI 。 第4步: logistic回归分析(4) 结果解读:相对于胃炎的OR值以及OR的 95%CI. 数据挖掘分析数据挖掘分析 第二部分 u数据挖掘研究设计 基本概念 基本步骤 uClementine 软件应用 基本操作 关联规则 决策树 聚类分析 研究时有无设计干预因素? 实验性研究观察性研究 是否随机 有无对照组 分析性研究描述性研究 时间方向 队列 研究 非随机 对照 试验 随机 对照 试验 病例 对照 研究 横断面 研究 有无 有 无 否 是 暴露结局结局暴露 观察性研究 由于医学研究对象的特殊性,在很多科 研中,研究者不能主动地控制研究因素。这 种在自然状态下,观察疾病发生、发展、诊 治过程中表现出来的特点和规律,以阐述疾 病的分布特征,认识病因和影响因素,分析 防治过程中相关规律和特征的研究方法,称 为观察性研究。 数据挖掘研究 u 基于数据分析方法角度的分类 u本质上属于观察性研究 u研究资料来源日常诊疗工作资料 u应用的技术较传统研究更先进 u分析工具、理论模型与传统研究区别较大 数据挖掘从大量数据中寻找其规律的 技术,是统计学、数据库技术和人工智能 技术的综合。 数据挖掘从数据中自动地抽取模式、 关联、变化、异常和有意义的结构。 数据挖掘利用已有的数据,数据收集 过程不经过特意的科研设计,目的是发现 规律,而不是验证假设。 u数据挖掘研究设计 基本概念 基本步骤 uClementine 软件应用 基本操作 关联规则 决策树 聚类分析 第一步骤 选择 第三步骤 挖掘 第二步骤 处理 第四步骤 分析 * 数据挖掘步骤 目标数据 预处 理及变 换 变换后的数据 数据挖掘 算法 解释/评估 清理筛选 数据挖掘研究的基本步骤数据挖掘研究的基本步骤 第一步:选择数据 收集获取原始数据 u 就是根据研究目的,进行需要被挖掘分析 的原始数据采集。 u评估数据的可获得性。可以采用较小规模 的数据对问题的可行性进行初步研究。 u原始数据可能会分布于不同的信息系统中 ,需要对信息系统充分理解,并有相应的 技术实现数据的导出。 u原始数据的采集非常费时费力,通常在研 究工作中占相当大的比重。 76 病人基本信息:HIS 病人检验信息:LIS 病人检查信息:PACS等医技系统 病人诊疗过程信息:电子病历 病人收费信息:HIS 。 海量数据,大量的业务数据。 问题也很多,标准不统一,很难分析。 与临床相关的电子病历系统结构化与临床工 作量之间的矛盾。 中医系统医疗科研信息一体化系统 军队系统中国重大疾病临床诊疗数据库 第二步:处理数据 数据预处理部分,把数据转换成比较容易 被数据挖掘的格式及内容。 内容处理:年龄 六十岁60 有个还分组:老年、青年、等 格式处理:年龄 出生日期1950年转成63。 为什么需要预处理为什么需要预处理 数据 不完整 含观测噪声 不一致 包含其它不希望的成分 数据清理通过填写空缺值,平滑噪声数据 ,识别删除孤立点,并解决不一致来清理 数据。 污染数据的普遍存在,使得在大型数据库中维护数据的正确性和 一致性成为一个及其困难的任务。垃圾进、垃圾出。 污染数据形成的原因污染数据形成的原因 滥用缩写词 数据输入错误 数据中的内嵌控制信息 不同的惯用语 重复记录 丢失值 拼写变化 不同的计量单位 过时的编码 例:中药、证型、症状的预处理 预处理是最为关键的一步 正异名的处理:白头翁、白术、白头公 错别字:青篙、青蒿 省略字:龙牡、龙骨,牡蛎 炮制预处理 建立一个中药规范表 编编编编号号规规规规范后名称范后名称原始中原始中药药药药名称名称 101400101400 白茅根白茅根药药药药典典 白茅根白茅根药药药药典典茅根茅根别别别别册册生白茅根生白茅根切切 101600101600 白白术术术术药药药药典典 白白术术术术药药药药典典土白土白术术术术别别别别册册 冬冬术术术术别别别别册册 土炒白土炒白术术术术切切炒白炒白术术术术切切土白土白术术术术切切 漂白漂白术术术术切切晒白晒白术术术术切切 101601101601 白白术术术术(焦)(焦) 焦白焦白术术术术焦冬焦冬术术术术 101602101602 白白术术术术(生)(生) 生白生白术术术术 101603101603 白白术术术术(炭)(炭) 白白术术术术炭炭 101604101604 白白术术术术(煨)(煨) 煨白煨白术术术术 101605101605 白白术术术术(制)(制) 制白制白术术术术 建立证型规范表 编编编编号号规规规规范后范后 证证证证型型 词词词词 频频频频次次证证证证型型词词词词原文(后原文(后缀缀缀缀数字数字为为为为医案中出医案中出现现现现的的频频频频次)次) 300905300905血瘀血瘀591591血瘀血瘀349349瘀血瘀血8585血淤血淤1919血滞血滞3030血行不血行不畅畅畅畅 1515 血凝血凝1212气血瘀滞气血瘀滞 1010 气血运行气血运行 不不畅畅畅畅1010 血行瘀滞血行瘀滞6 6气血郁滞气血郁滞5 5 气血阻滞气血阻滞5 5气血壅滞气血壅滞5 5血血涩涩涩涩4 4血血结结结结4 4气血气血涩涩涩涩滞滞3 3 炼炼炼炼血成瘀血成瘀3 3气血凝滞气血凝滞3 3血阻血阻3 3干血干血2 2气血不气血不畅畅畅畅 2 2 气血瘀阻气血瘀阻2 2血行不通血行不通2 2血血结结结结成瘀成瘀 化化热热热热1 1 血行瘀阻血行瘀阻1 1血行受阻血行受阻1 1 痰血互痰血互结结结结1 1气血奎滞气血奎滞1 1血滞不血滞不畅畅畅畅 1 1 血分有寒血分有寒夹夹夹夹 瘀瘀1 1 寒凝血泣着寒凝血泣着 而成瘀而成瘀1 1 气碍血行气碍血行1 1血不得行血不得行1 1血运不血运不畅畅畅畅 1 1 血有郁血有郁热热热热1 1 建立症状规范表 编编编编号号规规规规范后范后 症状症状 频频频频次次医案中原文症状用医案中原文症状用词词词词及使用及使用频频频频次次 201105201105体瘦体瘦289289体瘦体瘦9393消瘦消瘦4242形体消形体消 瘦瘦3434 形瘦形瘦3333形体瘦形体瘦 弱弱2828 形体削瘦形体削瘦 5 5 形体形体较较较较 瘦瘦5 5 面黄肌面黄肌 瘦瘦4 4 体体质质质质瘦瘦 弱弱3 3 赢赢赢赢瘦瘦3 3 形体瘦小形体瘦小 3 3 身体瘦身体瘦 弱弱3 3 瘦弱瘦弱3 3体体质质质质消消 瘦瘦2 2 身体嬴身体嬴 瘦瘦2 2 形体不丰形体不丰 2 2 形体偏形体偏 瘦瘦2 2 身体身体较较较较 瘦瘦2 2 形体瘦形体瘦 削削2 2 嬴瘦嬴瘦2 2 形嬴形嬴1 1形体枯形体枯 瘦瘦1 1 形体消形体消 索索1 1 形体形体渐渐渐渐 瘦瘦1 1 形体日形体日 嬴嬴1 1 身瘦身瘦1 1肌肉消肌肉消 削削1 1 第三步:挖掘分析 运用工具和算法,进行数据挖掘分析 ,完成分类、关联、聚类、估计、预测等 功能,发现数据中的规律。 数据挖掘主要方法数据挖掘主要方法 Debt$40K Q Q Q Q II12 34 56 factor 1 factor 2 factor n 神经网络 Neural Networks 聚类分析 Clustering Open Accnt Add New Product Decrease Usage ? Time 序列分析 Sequence Analysis决策树 Decision Trees 倾向性分析 关联分析 Association 数据挖掘软件应用数据挖掘软件应用 SPSS Clementine WEKA 第四步:结果解释 结合专业知识,进行数据挖掘分析结果的 解释,阐明规律,以及规律的临床价值。 结果解释是数据挖掘研究的关键,从发现 的规律进一步延伸出其实际意义,是整个 研究工作的成果所在。 91 u数据挖掘研究设计 基本概念 基本步骤 uClementine 软件应用 基本操作 关联规则 决策树 聚类分析 Clementine 软件应用 Clementine 12.0安装方法 1.下载,存放到D盘,重新命名为“Clementine V 12” 2. 打开 ClementineV12-点击运行setup.exe按提示完 成安装到默认目录:“ C:Program FilesSPSSIncClementine12.0 3. D:CLE12.0Clementine12Crack破解 复制该文件下 “lservrc” “PlatformSPSSLic7.dll”两个文件,粘贴到 C:Program FilesSPSSIncClementine12.0bin 文件夹 下,覆盖原来的同名字文件 u数据挖掘研究设计 基本概念 基本步骤 uClementine 软件应用 基本操作 关联规则 决策树 聚类分析 97 Clementine用户界面 操作区 u节点一个图 标代表在 Clementine 中进 行的一个操作。 u工作流一系 列连接在一起的 节点。 可视化编程 选项板 源节点 用来将数据读入 Clementine 中 记录选项节点 在记录上进行操作 一条记录是一种“情形”或一“行”数据 字段选项节点 在字段上进行操作 一个字段是一个变量 图形节点 在建模之前和之后用来可视化数据 建模节点代表有效建模算法 注意:建模算法产生生成的模型 增加一个节点 在选项板上双击节点,自动放置节点到 数据流区域. 将节点从选项板拖放到数据流区域中 在选项板上点击一个节点,然后在数据 流区域中点击一下 编辑一个节点 在节点上右击,展开 一个节点 点击 “编辑” 在菜单上还可以选择 连接、断开连接、重 命名、注释、复制、 删除、载入、保存等 操作 连接节点 使用鼠标中键来连接节点 在数据流区域上,把一个 节点连接到另一个上,可 以通过鼠标中间键点击和 拖放来完成(如果您的鼠 标没有中间键,可以通过 按住“Alt”键来模拟这个 过程) 通过双击来连接节点 双击选项板上的节点,自动 把新节点连接到数据流区域 中的“中心”节点上 使用鼠标中键 删除节点之间的连接 在连接箭头的头部按住鼠标右键 选择“删除连接” Clementine 中读取数据格式 文本文件 EXCEL SPSS 数据文件 ODBC 兼容的数据库 SAS 数据文件 用户输入文件 读取原始文件 添加变量文件节点到数据流区域 编辑节点指向文件 通过编辑进行原始数据设置 读取文本文件 读取EXCEL文件 读取其他数据文件 原始数据是什么文件类型,则采用什么节点 定义字段类型 类型节点指定字段的一系列重要属性; 指定字段类型、方向和缺失值; Clementine 可以自动设置变量类型,用户 也可以强制指定类型; 为建立模型,指定字段的方向; 指定缺失值以及如何处理缺失值; 变量值检查保证字段值满足一定的设置; 字段类型帮助您理解正在使用的数据,是 一些数据准备和所有建模程序所必需的. 连续型 用于描述数值,如0-100 或者0.75-1.25 内的连续值一个连 续值可以是整数、实数或日期/时间 离散型用于当一个具体值的精确数量未知时描述字符串,一旦数 据被读取,其类型就会是标记、集合或者无类型 集合型 用于描述带有多个具体值的数据(黄、绿、蓝) 标记型 用于只取两个具体值的数据(真、假) 无类型 用于不符合上述任一种类型的数据或者含有太多元素的集 合类型数据 字段方向 输入:输入或者预测字段 输出:输出或者被预测字段字段 两者:既是输入又是输出,只在关联规则中用到 无:建模过程中不使用该字段 分区:将数据拆分为训练、测试(验证)部分 字段方向设置只有在建模时才起作用 字段实例化 在读取值前数据称为未实例化,通过读取 值后数据完全实例化,字段的取值和类型 都是可知的. 数据挖掘分析的一般步骤 1、数据整理 2、数据格式转化 3、数据文件读入 4、数据类型设置 5、模型选择与参数设置 6、结果输出与解读 1、数据整理 整理成可分析的数据 一般为横向数据,即一个病人一条记录。 ID药物数量(克) 1甘草10 1当归10 1白术10 2大黄10 2白术10 2黄芩10 3当归10 3红花10 3白术10 ID甘草 当归 白术 大黄 黄芩 红花 1101010000 2001010100 3010100010 2、数据格式转换 转化成软件可以读入的格式,常用TXT文件 3、数据文件读入 查看读入数据是否成功 4、数据类型设置 5、模型选择与参数设置 关联规则 决策树 类神经网络 聚类分析 判别分析 6、结果输出与解读 执行模型后,输出结果。 直接查看结果,也可以再次增加table节点 ,查看新写入的数据。 结合专业知识进行解读。 u数据挖掘研究设计 基本概念 基本步骤 uClementine 软件应用 基本操作 关联规则 决策树 聚类分析 关联规则基本概念 是分析两个或多个变量的取值之间存在某 种规律性的方法,包括简单关联规则和系 列关联规则。 在Clementine中实现简单关联规则的算法有 Apriori和GRI两种,Apriori只能处理分类变 量,GRI还可以处理前项是数值型变量的情 况。 简单关联规则有效性的主要测度指标包括 两个:规则置信度和规则支持度。 规则置信度是对简单关联规则准确度的测 量,描述了包含项目X的事务中同时也包含 项目Y的概率。 规则支持度是对简单关联规则普遍性的测 量,表示项目X和项目Y同时出现的概率。 一个理想的简单关联规则应具有较高的置 信度和较高的支持度。 关联规则应用实例 【例6】收集了某一时间范围内治疗某一疾病 的中药方3122张,涉及药物251种。要分析 处方中常用的药对情况,现进行关联规则 分析。 药对的概念 方剂库方剂库 1 1 白术,苍术,白术,苍术, 大黄,白芍大黄,白芍 2 2 白术,苍术,白术,苍术, 红花红花 3 3 白术,苍术,白术,苍术, 白芍白芍 方剂转化方剂转化 成药对成药对 1 1 白术苍术,白术苍术, 白术大黄,白术大黄, 白术白芍,白术白芍, 苍术大黄,苍术大黄, 苍术白芍,苍术白芍, 大黄白芍大黄白芍 2 2 白术苍术,白术苍术, 白术红花,白术红花, 苍术红花苍术红花 3 3 白术苍术,白术苍术, 白术白芍,白术白芍, 苍术白芍苍术白芍 编编 号号 药对药对频频 次次 1 1 白术苍术白术苍术 3 3 2 2 白术白芍白术白芍 2 2 3 3 白术大黄白术大黄 1 1 4 4 白术红花白术红花 1 1 5 5 苍术白芍苍术白芍 2 2 6 6 苍术大黄苍术大黄 1 1 7 7 苍术红花苍术红花 1 1 8 8 大黄白芍大黄白芍 1 1 编号编号药对药对频次频次支持度支持度置信度置信度 1 1 白术白术苍术苍术 3 3 100100100100 苍术苍术白术白术100100 2 2 白术白术白芍白芍 2 2 66666666 白芍白芍白术白术100100 3 3 白术白术大黄大黄 1 1 33333333 大黄大黄白术白术100100 4 4 白术白术红花红花 1 1 33333333 红花红花白术白术100100 5 5 苍术苍术白芍白芍 2 2 66666666 白芍白芍苍术苍术100100 6 6 苍术苍术大黄大黄 1 1 33333333 大黄大黄苍术苍术100100 7 7 苍术苍术红花红花 1 1 33333333 红花红花苍术苍术100100 8 8 大黄大黄白芍白芍 1 1 3333100100 白芍白芍大黄大黄5050 置信度 、支持 度的概 念 单味单味 药频药频 次次 白术白术苍术苍术白芍白芍大黄大黄红花红花 3 3 3 3 2 2 1 1 1 1 方剂库方剂库 1 1 白术,苍术,大黄,白芍白术,苍术,大黄,白芍 2 2 白术,苍术,红花白术,苍术,红花 3 3 白术,苍术,白芍白术,苍术,白芍 同时出现白芍、大同时出现白芍、大 黄的方剂数黄的方剂数1 1 “ “白芍大黄白芍大黄” ”支持度支持度3333 总方剂数总方剂数3 3 同时出现白芍、大黄的同时出现白芍、大黄的 方剂数方剂数1 1 “ “白芍白芍 大黄大黄” ”置信度置信度5050 凡出现白芍的方剂数凡出现白芍的方剂数 2 2 同时出现白芍、大黄同时出现白芍、大黄 的方剂数的方剂数1 1 “ “大黄大黄 白芍白芍” ”置信度置信度100100 凡出现大黄的方凡出现大黄的方 剂数剂数1 1 编号编号药对药对频次频次支持度支持度置信度置信度 8 8 白芍白芍大黄大黄 1 1 33335050 大黄大黄白芍白芍100100 设定 最小支持度 50 最小置信度 50 药对药对频次频次支持度支持度置信度置信度 白术白术苍术苍术 3 3 100100100100 苍术苍术白术白术100100 白术白术白芍白芍 2 2 66666666 白芍白芍白术白术100100 白术白术大黄大黄 1 1 33333333 大黄大黄白术白术100100 白术白术红花红花 1 1 33333333 红花红花白术白术100100 苍术苍术白芍白芍 2 2 66666666 白芍白芍苍术苍术100100 苍术苍术大黄大黄 1 1 33333333 大黄大黄苍术苍术100100 苍术苍术红花红花 1 1 33333333 红花红花苍术苍术100100 大黄大黄白芍白芍 1 1 3333100100 白芍白芍大黄大黄5050 1、数据整理 从医院HIS系统中导出某一疾病在某一时间 范围内的药方信息。 数据整理的目的是保证从日常运行数据中 获得的数据的标准是统一的,规则是一致 的,同类信息的表达是无偏的。例如药名 信息有“白头翁”、“白术”、“白头公 ”,则统一为“白术”。 2、数据格式转化 横纵向转换 从业务数据库获得的原始数据表基本上都 是纵向结构的。为了便于数据挖掘分析, 必须将其转换成横向数据结构,即转换成 一个个案的信息由一条记录全部展示。 2、数据格式转化 文件类型转换 SPSS Clementine能读取的文件类型包括文 本文件、EXCEL文件、SPSS 数据文件、 ODBC 兼容的数据库、SAS 数据文件和用户 输入文件。 一般文本文件出现乱码、错位等错误的概 率较小,占用资源也较少,可优先转换成 TXT文件。 3、数据文件读入 数据文件读入的第一步是构建一个原始文 件节点,通过编辑原始文件节点,选定文 件路径,读取原始数据文件。点击“确定 ”后,该数据节点就有了可分析的原始数 据。 为了查看原始数据是否正确读入,可增加 table节点,查看原始数据是否已经被读入 ,格式是否准确,有无乱码等情况。 4、数据类型设置 两分类变量,设置文件类型为flag,关联 分析方向设置为“both” 全部设置完成后,读取变量(字段实例化) 5、模型选择与参数设置 在读取原始数据和数据格式定义好以后, 就可以根据数据挖掘分析的需要选择相应 的模型,在简单关联分析中可选择Apriori 或GRI两种节点。 以Apriori为例,节点的相关参数设置主要 包括两部分:设置进行两两关联分析的变 量和最小置信度、最小支持度定义。 一般中药药对研究中,可选最小置信度和 最小支持度均为50%。 两两关联分析的变量定义 最小置信度、最小支持度定义 6、结果输出与解读 输出了最小支 持度和置信度 均在50%以上 的药对。 中药与中药之间 症状与症状之间 证型与证型之间 中药与症状之间 中药与证型之间 症状与证型之间 关 系关 系 中医药关联规则分析的其他应用中医药关联规则分析的其他应用 关联分析完整数据流图 u数据挖掘研究设计 基本概念 基本步骤 uClementine 软件应用 基本操作 关联规则 决策树 聚类分析 决策树基本概念 在数据挖掘中,决策树是分类预测的经典 算法。决策树算法的目的是通过向数据学 习,获得输入变量和输出变量不同取值下 的数据分类和预测规律,并用于对新数据 对象的分类预测。 SPSS Clementine提供C5.0、CART、CHAID 、QUEST在内的决策树经典算法。 决策树应用实例 【例7】收集了某一时间范围内治疗应用作用 效果类似的A、B、C、X、Y5种药物治疗病 人200例,资料包括年龄、性别、胆固醇、 血压、血钾、血钠、使用药物等7个变量。 现进行用药决策规律的决策树分析。 1、数据整理 从医院HIS、LIS、电子病历系统中导出某 一疾病在某一时间范围内的相关信息。 数据整理的目的是保证从日常运行数据中 获得的数据的标准是统一的,规则是一致 的,同类信息的表达是无偏的。 2、数据格式转化 横纵向转换 从业务数据库获得的原始数据表基本上都 是纵向结构的。为了便于数据挖掘分析, 必须将其转换成横向数据结构,即转换成 一个个案的信息由一条记录全部展示。 2、数据格式转化 文件类型转换 SPSS Clementine能读取的文件类型包括文 本文件、EXCEL文件、SPSS 数据文件、 ODBC 兼容的数据库、SAS 数据文件和用户 输入文件。 一般文本文件出现乱码、错位等错误的概 率较小,占用资源也较少,可优先转换成 TXT文件。 3、数据文件读入 数据文件读入的第一步是构建一个原始文 件节点,通过编辑原始文件节点,选定文 件路径,读取原始数据文件。点击“确定 ”后,该数据节点就有了可分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论