《医学统计》PPT课件.ppt

上传人：x*** IP属地：四川上传时间：2019-01-26 格式：PPT 页数：183 大小：6.39MB 积分：15 举报 版权申诉

已阅读5页，还剩178页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

医学统计学（10）数据挖掘分析第二部分 Logistic回归归第一部分 LogisticLogistic回回归归第一部分回归分析的分类多个因变量 (y1,y2,yk) 路径分析结构方程模型分析一个因变量 y 连续型因变量 (y) - 线性回归分析分类型因变量 (y) -Logistic 回归分析时间序列因变量 (t) -时间序列分析生存时间因变量 (t) -生存风险回归分析多重线性回归 logistic回归 logistic回归（logistic regression）是研究因变量为二分类或多分类观察结果与影响因素（自变量）之间关系的一种多变量分析方法，属概率型非线性回归。 logistic回归的分类：（1）二分类资料logistic回归：因变量为两分类变量的资料，可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料，条件logistic回归多用于配对或配比资料。（2）多分类资料logistic回归：因变量为多项分类的资料，可用多项分类logistic回归模型或有序分类 logistic回归模型进行分析。队列研究(cohort study)：也称前瞻性研究、随访研究等。是一种由因及果的研究，在研究开始时，根据以往有无暴露经历，将研究人群分为暴露人群和非暴露人群，在一定时期内，随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义，则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在，研究者知道每个研究对象的暴露情况。研究人群 + - + + - - 调查方向：追踪收集资料比较疾病人数暴露 a b c d a/(a+b ) c/(c+d ) 队列研究原理示意图 RR（相对危险度relative risk）：表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比（risk ratio）。反映了暴露与疾病发生的关联强度。 RR表明暴露组发病或死亡的危险是非暴露组的多少倍。病例对照研究(case-control studies)：一种由果及因的回顾性研究，先按疾病状态确定调查对象，分为病例(case)和对照 (control)两组，然后利用已有的记录、或采用询问、填写调查表等方式，了解其发病前的暴露情况，并进行比较，推测疾病与暴露间的关系。 + - 病例 + - 对照调查方向：收集回顾性资料 a b c d a/(a+b) c/(c+d) 比较人数暴露疾病病例对照原理示意图病例对照研究的类型（一）病例与对照不匹配-非条件logistic回归在设计所规定的病例和对照人群中，分别抽取一定量的研究对象，一般对照应等于或多于病例数，此外无其他任何限制。（二）病例与对照匹配-条件logistic回归匹配或称配比（matching），即要求对照在某些因素或特征上与病例保持一致，目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。非条件logistic回归应变量为二分类资料 p一个二分类自变量 p两个（多个）二分类自变量 p无序多分类自变量 p有序多分类自变量 p引入数值型自变量应变量为有序多分类资料应变量为无序多分类资料二分类资料的logistic回归二分类 logistic 回归对自变量没有特殊要求，自变量可以是分类变量(包括二分类和多分类变量)和数值变量。二分类资料的logistic回归通过SPSS统计软件的二元Logistic过程实现统计分析。【例1】某医师为研究妇女服避孕药与子代染色体异常的关系，分别调查了子代染色体异常和正常的同龄组儿童的母亲54名和196名，结果如表。试对此资料进行分析，能否提出子代染色体异常与其母在孕前6个月内服用避孕药有关？ SPSS软件操作第1步：定义变量第2步：输入原始数据第3步：加权设置选择数据加权个案（W）将f移入频率变量第4步：logistic回归分析（1）选择分析回归二元logistic 第4步： logistic回归分析（2）将a和b分别移入协变量和因变量自变量全部进入模型向前逐步选择法向后逐步剔除法条件：将变量剔除出模型的依据是条件参数估计的似然比统计量的概率值。 LR：将变量剔除出模型的依据是最大偏似然估计的似然比统计量的概率值。 Wald：将变量剔除出模型的依据是Wald统计量的概率值。第4步： logistic回归分析（3）设置选项勾上exp（ B）的95CI 。第4步： logistic回归分析（4）结果解读：OR=3.200，p=0.000 OR的95%CI为（1.7125.983） Exp（B）=eB 值得注意的是病例-对照研究中，病例与对照两组人数的比例是人为规定的，不代表自然人群中真实的病人与正常人的比值。因此，根据病例一对照研究资料建立的 Logistic 回归方程中，常数项意义不大，主要针对结果中自变量的回归系数及其相应的比数比OR 值的意义作解释，不宜直接用于所研究事件发生概率的预测和判别。两个二分类自变量的logistic回归两个自变量均为两水平的二分类资料的 Logistic 回归分析与一个自变量为两水平的二分类资料的 Logistic 回归分析在步骤方法上是相同的，只是增加了一个自变量，在建立 Logistic回归方程时需要对两个自变量对应的参数进行估计，计算两个比数比。另外，两个自变量均有意义时，看哪个影响作用更大些，与多重线性回归一样，也是比较标准偏回归系数绝对值的大小。无序多分类自变量的Logistic 回归自变量是一个或多个为无序多分类变量时，其 Logistic 回归在方法上同上述二分类资料的 Logistic回归，只要对自变量的不同水平构造哑变量即可。某一多分类无序自变量可构造的哑变量数等于该自变量的分类数减 1。将哑变量引入模型，其结果无论有无统计学意义，都是相对事先确定某一类为基准对照而言的。 SPSS对字符型多分类无序自变量，系统默认以最后的那个分类为对照。有序多分类自变量的Logistic 回归 Logistic 回归中自变量为有序多分类变量，即等级变量，如文化程度可分为文盲、小学、中学、大学及以上等。这种资料的 Logistic 回归分两种情况处理：如果自变量的等级分组与 logit ( P )呈线性关系，即等级效应等比例增加或减少，则该自变量可以作为一个数值型自变量引人模型；否则，将等级变量视为无序多分类自变量，以哑变量的形式引入模型进行分析。引入数值型自变量的Logistic回归数值变量直接引入模型，得到相应的比数比 OR 是指自变量增加一个单位(如年龄增加 1 岁)比数自然对数值的变化量。若将数值自变量分成几组，如自变量年龄按 10 岁间隔分组引人模型时，其OR 值是指年龄每增加 10 岁比数自然对数值的变化量。数值型变量转换成分类变量的临界点选择，最佳的方法是采用ROC分析。【例2】为了探索有关危险因素和保护因素，对 32例胃癌病人和32例对照者进行病例对照研究，考察的危险因素作为自变量，分别为： x1（年龄） x2（蛋白质摄入量由低到高：0，1，2，3，4） x3（新鲜蔬菜及水果食用情况：良好、一般、不足、严重不足为0，1，2，3）， x4（吃盐量高食物由轻到重为：0，1，2，3，4）， x5（饮食习惯，从良好，一般，不良，严重不良为：0，1，2 ，3）， x6（精神心理因素，从乐观，较乐观，一般，不良为0，1，2 ，3）。 Y（是否患胃癌作为因变量。0未患，1患者）。 SPSS软件操作第1步：定义变量第2步：输入原始数据第3步：logistic回归分析（1）选择分析回归二元logistic 第3步： logistic回归分析（2）将x1-6和y分别移入协变量和因变量第3步： logistic回归分析（3）设置选项勾上exp（ B）的95CI 。第3步： logistic回归分析（4）结果解读：给出各因素的OR（95%CI）及相应的p值。第3步： logistic回归分析（5）第3步： logistic回归分析（6）第3步： logistic回归分析（7）结果解读：给出入选各因素的OR（95%CI ）及相应的p值。【例3】为了探讨冠心病发生的有关危险因素，对26例冠心病病人和28例对照者进行病例-对照研究，各因素的说明及资料如下，试用logistic 回归分析方法筛选危险因素。。 SPSS软件操作第1步：定义变量第2步：输入原始数据第3步：logistic回归分析（1）选择分析回归二元logistic 第3步： logistic回归分析（2）将x1-8和y分别移入协变量和因变量第3步： logistic回归分析（3）设置选项勾上exp（ B）的95CI 。第3步： logistic回归分析（4）结果解读：给出入选各因素的OR（95%CI ）及相应的p值。多分类资料的logistic回归应变量为有序多分类资料的logistic回归 u应变量的水平数大于2，且水平之间存在等级递增或递减关系的资料为有序多分类资料。 uSPSS中通过有序logistic过程实现。【例4】研究性别和两种治疗方法对某病疗效的影响，疗效的评价分为三个有序等级，数据如下，试做logistic回归分析： SPSS软件操作第1步：定义变量第2步：输入原始数据第3步：加权设置选择数据加权个案（W）将f移入频率变量第4步：logistic回归分析（1）选择分析回归有序第4步： logistic回归分析（2）将A和B移入协变量，C移入因变量第4步： logistic回归分析（3）设置输出勾上平行线检验。第4步： logistic回归分析（4）结果解读：性别（A）和疗法（B）的回归系数大于0，具有统计学意义。 OR分别为e1.319=3.740， e1.797=6.302 第4步： logistic回归分析（5）结果解读：平行线检验p=0.480，说明应变量各水平与自变量间的回归方程平行。应变量为无序多分类资料的logistic回归 u应变量的水平数大于2，且水平之间不存在等级递增或递减关系的资料为无序多分类资料。 uSPSS中通过多项logistic过程实现。【例5】为了研究胃癌及胃癌前病变核仁组织变化情况，分析核仁组成区嗜银蛋白颗粒数量及大小在胃炎、胃组织不典型增生和胃癌三种胃疾病中的变化规律以及临床的诊断意义，共检测129名患者，结果如下，试做logistic回归分析： SPSS软件操作第1步：定义变量第2步：输入原始数据第3步：加权设置选择数据加权个案（W）将f移入频率变量第4步：logistic回归分析（1）选择分析回归多项logistic 第4步： logistic回归分析（2）将a、b移入协变量，Y移入因变量第4步： logistic回归分析（3）设置选项勾上exp（ B）的95CI 。第4步： logistic回归分析（4）结果解读：相对于胃炎的OR值以及OR的 95%CI. 数据挖掘分析数据挖掘分析第二部分 u数据挖掘研究设计基本概念基本步骤 uClementine 软件应用基本操作关联规则决策树聚类分析研究时有无设计干预因素？实验性研究观察性研究是否随机有无对照组分析性研究描述性研究时间方向队列研究非随机对照试验随机对照试验病例对照研究横断面研究有无有无否是暴露结局结局暴露观察性研究由于医学研究对象的特殊性，在很多科研中，研究者不能主动地控制研究因素。这种在自然状态下，观察疾病发生、发展、诊治过程中表现出来的特点和规律，以阐述疾病的分布特征，认识病因和影响因素，分析防治过程中相关规律和特征的研究方法，称为观察性研究。数据挖掘研究 u 基于数据分析方法角度的分类 u本质上属于观察性研究 u研究资料来源日常诊疗工作资料 u应用的技术较传统研究更先进 u分析工具、理论模型与传统研究区别较大数据挖掘从大量数据中寻找其规律的技术，是统计学、数据库技术和人工智能技术的综合。数据挖掘从数据中自动地抽取模式、关联、变化、异常和有意义的结构。数据挖掘利用已有的数据，数据收集过程不经过特意的科研设计，目的是发现规律，而不是验证假设。 u数据挖掘研究设计基本概念基本步骤 uClementine 软件应用基本操作关联规则决策树聚类分析第一步骤选择第三步骤挖掘第二步骤处理第四步骤分析 * 数据挖掘步骤目标数据预处理及变换变换后的数据数据挖掘算法解释/评估清理筛选数据挖掘研究的基本步骤数据挖掘研究的基本步骤第一步：选择数据收集获取原始数据 u 就是根据研究目的，进行需要被挖掘分析的原始数据采集。 u评估数据的可获得性。可以采用较小规模的数据对问题的可行性进行初步研究。 u原始数据可能会分布于不同的信息系统中，需要对信息系统充分理解，并有相应的技术实现数据的导出。 u原始数据的采集非常费时费力，通常在研究工作中占相当大的比重。 76 病人基本信息：HIS 病人检验信息：LIS 病人检查信息：PACS等医技系统病人诊疗过程信息：电子病历病人收费信息：HIS 。海量数据，大量的业务数据。问题也很多，标准不统一，很难分析。与临床相关的电子病历系统结构化与临床工作量之间的矛盾。中医系统医疗科研信息一体化系统军队系统中国重大疾病临床诊疗数据库第二步：处理数据数据预处理部分，把数据转换成比较容易被数据挖掘的格式及内容。内容处理：年龄六十岁60 有个还分组：老年、青年、等格式处理：年龄出生日期1950年转成63。为什么需要预处理为什么需要预处理数据不完整含观测噪声不一致包含其它不希望的成分数据清理通过填写空缺值，平滑噪声数据，识别删除孤立点，并解决不一致来清理数据。污染数据的普遍存在，使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务。垃圾进、垃圾出。污染数据形成的原因污染数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编码例：中药、证型、症状的预处理预处理是最为关键的一步正异名的处理：白头翁、白术、白头公错别字：青篙、青蒿省略字：龙牡、龙骨，牡蛎炮制预处理建立一个中药规范表编编编编号号规规规规范后名称范后名称原始中原始中药药药药名称名称 101400101400 白茅根白茅根药药药药典典白茅根白茅根药药药药典典茅根茅根别别别别册册生白茅根生白茅根切切 101600101600 白白术术术术药药药药典典白白术术术术药药药药典典土白土白术术术术别别别别册册冬冬术术术术别别别别册册土炒白土炒白术术术术切切炒白炒白术术术术切切土白土白术术术术切切漂白漂白术术术术切切晒白晒白术术术术切切 101601101601 白白术术术术（焦）（焦）焦白焦白术术术术焦冬焦冬术术术术 101602101602 白白术术术术（生）（生）生白生白术术术术 101603101603 白白术术术术（炭）（炭）白白术术术术炭炭 101604101604 白白术术术术（煨）（煨）煨白煨白术术术术 101605101605 白白术术术术（制）（制）制白制白术术术术建立证型规范表编编编编号号规规规规范后范后证证证证型型词词词词频频频频次次证证证证型型词词词词原文（后原文（后缀缀缀缀数字数字为为为为医案中出医案中出现现现现的的频频频频次）次） 300905300905血瘀血瘀591591血瘀血瘀349349瘀血瘀血8585血淤血淤1919血滞血滞3030血行不血行不畅畅畅畅 1515 血凝血凝1212气血瘀滞气血瘀滞 1010 气血运行气血运行不不畅畅畅畅1010 血行瘀滞血行瘀滞6 6气血郁滞气血郁滞5 5 气血阻滞气血阻滞5 5气血壅滞气血壅滞5 5血血涩涩涩涩4 4血血结结结结4 4气血气血涩涩涩涩滞滞3 3 炼炼炼炼血成瘀血成瘀3 3气血凝滞气血凝滞3 3血阻血阻3 3干血干血2 2气血不气血不畅畅畅畅 2 2 气血瘀阻气血瘀阻2 2血行不通血行不通2 2血血结结结结成瘀成瘀化化热热热热1 1 血行瘀阻血行瘀阻1 1血行受阻血行受阻1 1 痰血互痰血互结结结结1 1气血奎滞气血奎滞1 1血滞不血滞不畅畅畅畅 1 1 血分有寒血分有寒夹夹夹夹瘀瘀1 1 寒凝血泣着寒凝血泣着而成瘀而成瘀1 1 气碍血行气碍血行1 1血不得行血不得行1 1血运不血运不畅畅畅畅 1 1 血有郁血有郁热热热热1 1 建立症状规范表编编编编号号规规规规范后范后症状症状频频频频次次医案中原文症状用医案中原文症状用词词词词及使用及使用频频频频次次 201105201105体瘦体瘦289289体瘦体瘦9393消瘦消瘦4242形体消形体消瘦瘦3434 形瘦形瘦3333形体瘦形体瘦弱弱2828 形体削瘦形体削瘦 5 5 形体形体较较较较瘦瘦5 5 面黄肌面黄肌瘦瘦4 4 体体质质质质瘦瘦弱弱3 3 赢赢赢赢瘦瘦3 3 形体瘦小形体瘦小 3 3 身体瘦身体瘦弱弱3 3 瘦弱瘦弱3 3体体质质质质消消瘦瘦2 2 身体嬴身体嬴瘦瘦2 2 形体不丰形体不丰 2 2 形体偏形体偏瘦瘦2 2 身体身体较较较较瘦瘦2 2 形体瘦形体瘦削削2 2 嬴瘦嬴瘦2 2 形嬴形嬴1 1形体枯形体枯瘦瘦1 1 形体消形体消索索1 1 形体形体渐渐渐渐瘦瘦1 1 形体日形体日嬴嬴1 1 身瘦身瘦1 1肌肉消肌肉消削削1 1 第三步：挖掘分析运用工具和算法，进行数据挖掘分析，完成分类、关联、聚类、估计、预测等功能，发现数据中的规律。数据挖掘主要方法数据挖掘主要方法 Debt$40K Q Q Q Q II12 34 56 factor 1 factor 2 factor n 神经网络 Neural Networks 聚类分析 Clustering Open Accnt Add New Product Decrease Usage ? Time 序列分析 Sequence Analysis决策树 Decision Trees 倾向性分析关联分析 Association 数据挖掘软件应用数据挖掘软件应用 SPSS Clementine WEKA 第四步：结果解释结合专业知识，进行数据挖掘分析结果的解释，阐明规律，以及规律的临床价值。结果解释是数据挖掘研究的关键，从发现的规律进一步延伸出其实际意义，是整个研究工作的成果所在。 91 u数据挖掘研究设计基本概念基本步骤 uClementine 软件应用基本操作关联规则决策树聚类分析 Clementine 软件应用 Clementine 12.0安装方法 1.下载，存放到D盘，重新命名为“Clementine V 12” 2. 打开 ClementineV12-点击运行setup.exe按提示完成安装到默认目录：“ C:Program FilesSPSSIncClementine12.0 3. D:CLE12.0Clementine12Crack破解复制该文件下 “lservrc” “PlatformSPSSLic7.dll”两个文件，粘贴到 C:Program FilesSPSSIncClementine12.0bin 文件夹下，覆盖原来的同名字文件 u数据挖掘研究设计基本概念基本步骤 uClementine 软件应用基本操作关联规则决策树聚类分析 97 Clementine用户界面操作区 u节点一个图标代表在 Clementine 中进行的一个操作。 u工作流一系列连接在一起的节点。可视化编程选项板源节点用来将数据读入 Clementine 中记录选项节点在记录上进行操作一条记录是一种“情形”或一“行”数据字段选项节点在字段上进行操作一个字段是一个变量图形节点在建模之前和之后用来可视化数据建模节点代表有效建模算法注意：建模算法产生生成的模型增加一个节点在选项板上双击节点，自动放置节点到数据流区域. 将节点从选项板拖放到数据流区域中在选项板上点击一个节点，然后在数据流区域中点击一下编辑一个节点在节点上右击，展开一个节点点击 “编辑” 在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作连接节点使用鼠标中键来连接节点在数据流区域上，把一个节点连接到另一个上，可以通过鼠标中间键点击和拖放来完成（如果您的鼠标没有中间键，可以通过按住“Alt”键来模拟这个过程）通过双击来连接节点双击选项板上的节点，自动把新节点连接到数据流区域中的“中心”节点上使用鼠标中键删除节点之间的连接在连接箭头的头部按住鼠标右键选择“删除连接” Clementine 中读取数据格式文本文件 EXCEL SPSS 数据文件 ODBC 兼容的数据库 SAS 数据文件用户输入文件读取原始文件添加变量文件节点到数据流区域编辑节点指向文件通过编辑进行原始数据设置读取文本文件读取EXCEL文件读取其他数据文件原始数据是什么文件类型，则采用什么节点定义字段类型类型节点指定字段的一系列重要属性; 指定字段类型、方向和缺失值; Clementine 可以自动设置变量类型，用户也可以强制指定类型; 为建立模型，指定字段的方向; 指定缺失值以及如何处理缺失值; 变量值检查保证字段值满足一定的设置; 字段类型帮助您理解正在使用的数据，是一些数据准备和所有建模程序所必需的. 连续型用于描述数值，如0-100 或者0.75-1.25 内的连续值一个连续值可以是整数、实数或日期/时间离散型用于当一个具体值的精确数量未知时描述字符串，一旦数据被读取，其类型就会是标记、集合或者无类型集合型用于描述带有多个具体值的数据（黄、绿、蓝）标记型用于只取两个具体值的数据（真、假）无类型用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据字段方向输入：输入或者预测字段输出：输出或者被预测字段字段两者：既是输入又是输出，只在关联规则中用到无：建模过程中不使用该字段分区：将数据拆分为训练、测试（验证）部分字段方向设置只有在建模时才起作用字段实例化在读取值前数据称为未实例化，通过读取值后数据完全实例化，字段的取值和类型都是可知的. 数据挖掘分析的一般步骤 1、数据整理 2、数据格式转化 3、数据文件读入 4、数据类型设置 5、模型选择与参数设置 6、结果输出与解读 1、数据整理整理成可分析的数据一般为横向数据，即一个病人一条记录。 ID药物数量（克） 1甘草10 1当归10 1白术10 2大黄10 2白术10 2黄芩10 3当归10 3红花10 3白术10 ID甘草当归白术大黄黄芩红花 1101010000 2001010100 3010100010 2、数据格式转换转化成软件可以读入的格式，常用TXT文件 3、数据文件读入查看读入数据是否成功 4、数据类型设置 5、模型选择与参数设置关联规则决策树类神经网络聚类分析判别分析 6、结果输出与解读执行模型后，输出结果。直接查看结果，也可以再次增加table节点，查看新写入的数据。结合专业知识进行解读。 u数据挖掘研究设计基本概念基本步骤 uClementine 软件应用基本操作关联规则决策树聚类分析关联规则基本概念是分析两个或多个变量的取值之间存在某种规律性的方法，包括简单关联规则和系列关联规则。在Clementine中实现简单关联规则的算法有 Apriori和GRI两种，Apriori只能处理分类变量，GRI还可以处理前项是数值型变量的情况。简单关联规则有效性的主要测度指标包括两个：规则置信度和规则支持度。规则置信度是对简单关联规则准确度的测量，描述了包含项目X的事务中同时也包含项目Y的概率。规则支持度是对简单关联规则普遍性的测量，表示项目X和项目Y同时出现的概率。一个理想的简单关联规则应具有较高的置信度和较高的支持度。关联规则应用实例【例6】收集了某一时间范围内治疗某一疾病的中药方3122张，涉及药物251种。要分析处方中常用的药对情况，现进行关联规则分析。药对的概念方剂库方剂库 1 1 白术，苍术，白术，苍术，大黄，白芍大黄，白芍 2 2 白术，苍术，白术，苍术，红花红花 3 3 白术，苍术，白术，苍术，白芍白芍方剂转化方剂转化成药对成药对 1 1 白术苍术，白术苍术，白术大黄，白术大黄，白术白芍，白术白芍，苍术大黄，苍术大黄，苍术白芍，苍术白芍，大黄白芍大黄白芍 2 2 白术苍术，白术苍术，白术红花，白术红花，苍术红花苍术红花 3 3 白术苍术，白术苍术，白术白芍，白术白芍，苍术白芍苍术白芍编编号号药对药对频频次次 1 1 白术苍术白术苍术 3 3 2 2 白术白芍白术白芍 2 2 3 3 白术大黄白术大黄 1 1 4 4 白术红花白术红花 1 1 5 5 苍术白芍苍术白芍 2 2 6 6 苍术大黄苍术大黄 1 1 7 7 苍术红花苍术红花 1 1 8 8 大黄白芍大黄白芍 1 1 编号编号药对药对频次频次支持度支持度置信度置信度 1 1 白术白术苍术苍术 3 3 100100100100 苍术苍术白术白术100100 2 2 白术白术白芍白芍 2 2 66666666 白芍白芍白术白术100100 3 3 白术白术大黄大黄 1 1 33333333 大黄大黄白术白术100100 4 4 白术白术红花红花 1 1 33333333 红花红花白术白术100100 5 5 苍术苍术白芍白芍 2 2 66666666 白芍白芍苍术苍术100100 6 6 苍术苍术大黄大黄 1 1 33333333 大黄大黄苍术苍术100100 7 7 苍术苍术红花红花 1 1 33333333 红花红花苍术苍术100100 8 8 大黄大黄白芍白芍 1 1 3333100100 白芍白芍大黄大黄5050 置信度、支持度的概念单味单味药频药频次次白术白术苍术苍术白芍白芍大黄大黄红花红花 3 3 3 3 2 2 1 1 1 1 方剂库方剂库 1 1 白术，苍术，大黄，白芍白术，苍术，大黄，白芍 2 2 白术，苍术，红花白术，苍术，红花 3 3 白术，苍术，白芍白术，苍术，白芍同时出现白芍、大同时出现白芍、大黄的方剂数黄的方剂数1 1 “ “白芍大黄白芍大黄” ”支持度支持度3333 总方剂数总方剂数3 3 同时出现白芍、大黄的同时出现白芍、大黄的方剂数方剂数1 1 “ “白芍白芍大黄大黄” ”置信度置信度5050 凡出现白芍的方剂数凡出现白芍的方剂数 2 2 同时出现白芍、大黄同时出现白芍、大黄的方剂数的方剂数1 1 “ “大黄大黄白芍白芍” ”置信度置信度100100 凡出现大黄的方凡出现大黄的方剂数剂数1 1 编号编号药对药对频次频次支持度支持度置信度置信度 8 8 白芍白芍大黄大黄 1 1 33335050 大黄大黄白芍白芍100100 设定最小支持度 50 最小置信度 50 药对药对频次频次支持度支持度置信度置信度白术白术苍术苍术 3 3 100100100100 苍术苍术白术白术100100 白术白术白芍白芍 2 2 66666666 白芍白芍白术白术100100 白术白术大黄大黄 1 1 33333333 大黄大黄白术白术100100 白术白术红花红花 1 1 33333333 红花红花白术白术100100 苍术苍术白芍白芍 2 2 66666666 白芍白芍苍术苍术100100 苍术苍术大黄大黄 1 1 33333333 大黄大黄苍术苍术100100 苍术苍术红花红花 1 1 33333333 红花红花苍术苍术100100 大黄大黄白芍白芍 1 1 3333100100 白芍白芍大黄大黄5050 1、数据整理从医院HIS系统中导出某一疾病在某一时间范围内的药方信息。数据整理的目的是保证从日常运行数据中获得的数据的标准是统一的，规则是一致的，同类信息的表达是无偏的。例如药名信息有“白头翁”、“白术”、“白头公 ”，则统一为“白术”。 2、数据格式转化横纵向转换从业务数据库获得的原始数据表基本上都是纵向结构的。为了便于数据挖掘分析，必须将其转换成横向数据结构，即转换成一个个案的信息由一条记录全部展示。 2、数据格式转化文件类型转换 SPSS Clementine能读取的文件类型包括文本文件、EXCEL文件、SPSS 数据文件、 ODBC 兼容的数据库、SAS 数据文件和用户输入文件。一般文本文件出现乱码、错位等错误的概率较小，占用资源也较少，可优先转换成 TXT文件。 3、数据文件读入数据文件读入的第一步是构建一个原始文件节点，通过编辑原始文件节点，选定文件路径，读取原始数据文件。点击“确定 ”后，该数据节点就有了可分析的原始数据。为了查看原始数据是否正确读入，可增加 table节点，查看原始数据是否已经被读入，格式是否准确，有无乱码等情况。 4、数据类型设置两分类变量，设置文件类型为flag，关联分析方向设置为“both” 全部设置完成后，读取变量(字段实例化) 5、模型选择与参数设置在读取原始数据和数据格式定义好以后，就可以根据数据挖掘分析的需要选择相应的模型，在简单关联分析中可选择Apriori 或GRI两种节点。以Apriori为例，节点的相关参数设置主要包括两部分：设置进行两两关联分析的变量和最小置信度、最小支持度定义。一般中药药对研究中，可选最小置信度和最小支持度均为50%。两两关联分析的变量定义最小置信度、最小支持度定义 6、结果输出与解读输出了最小支持度和置信度均在50%以上的药对。中药与中药之间症状与症状之间证型与证型之间中药与症状之间中药与证型之间症状与证型之间关系关系中医药关联规则分析的其他应用中医药关联规则分析的其他应用关联分析完整数据流图 u数据挖掘研究设计基本概念基本步骤 uClementine 软件应用基本操作关联规则决策树聚类分析决策树基本概念在数据挖掘中，决策树是分类预测的经典算法。决策树算法的目的是通过向数据学习，获得输入变量和输出变量不同取值下的数据分类和预测规律，并用于对新数据对象的分类预测。 SPSS Clementine提供C5.0、CART、CHAID 、QUEST在内的决策树经典算法。决策树应用实例【例7】收集了某一时间范围内治疗应用作用效果类似的A、B、C、X、Y5种药物治疗病人200例，资料包括年龄、性别、胆固醇、血压、血钾、血钠、使用药物等7个变量。现进行用药决策规律的决策树分析。 1、数据整理从医院HIS、LIS、电子病历系统中导出某一疾病在某一时间范围内的相关信息。数据整理的目的是保证从日常运行数据中获得的数据的标准是统一的，规则是一致的，同类信息的表达是无偏的。 2、数据格式转化横纵向转换从业务数据库获得的原始数据表基本上都是纵向结构的。为了便于数据挖掘分析，必须将其转换成横向数据结构，即转换成一个个案的信息由一条记录全部展示。 2、数据格式转化文件类型转换 SPSS Clementine能读取的文件类型包括文本文件、EXCEL文件、SPSS 数据文件、 ODBC 兼容的数据库、SAS 数据文件和用户输入文件。一般文本文件出现乱码、错位等错误的概率较小，占用资源也较少，可优先转换成 TXT文件。 3、数据文件读入数据文件读入的第一步是构建一个原始文件节点，通过编辑原始文件节点，选定文件路径，读取原始数据文件。点击“确定 ”后，该数据节点就有了可分

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《医学统计》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

《医学统计》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档