基于关联规则和决策树的中医胃炎诊断分析_第1页
基于关联规则和决策树的中医胃炎诊断分析_第2页
基于关联规则和决策树的中医胃炎诊断分析_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于关联规则和决策树的中医胃炎诊断分析    【关键词】  数据挖掘;关联规则;决策树;中医辨证      中医采用“望、闻、问、切”的诊断方法,并予以辨证施治,对慢性胃炎有很好的疗效。但是随着时间的流逝,一些宝贵的资源并没有被保存下来,老中医的经验是需要后人在实践的基础上不断领悟与总结方能表达的。需要从大量的临床资料中提炼出有价值、有共性的信息来帮助判断,从而达到辨证施治的目的。因而,笔者利用数据挖掘方法中的关联规则和决策树方法,以名老中医的胃炎病历信息为对象,对“症状”、“辨证”之间的潜在关

2、系,以及根据“症状”如何判断是否能得到某一“辨证”做一初探。    基于以上目的,笔者利用现有的中医胃炎病历作为样本数据,采用关联规则的方法建立实验模型,并给出实验分析的结果。在此基础上采用决策树方法,构建一棵判断是否为辨证“中虚气滞”的决策树。1  基于关联规则方法的中医胃炎分析    关联规则是数据挖掘领域中最为常用和成熟的方法之一。关联规则的挖掘问题就是在给定的事务数据库中,找出满足最小支持度(minsup)和最小置信度(minconf)的关联规则。关联规则有如下优点:可以产生清晰有用的结果;支持间接数据挖掘;可以处理

3、变长的数据;计算的消耗量是可以预见1。经典的关联规则挖掘算法2有:Apriori算法3、抽样算法、DIC算法。1.1  Apriori算法简介    Apriori算法先根据最小支持度,计算所有的1-项集(k-项集是含有k个项的项集),记为C1。找出所有满足支持度条件的1-项集,记为L1。然后根据L1确定候选2-项集的集合,记为C2。从C2找出所有满足支持度条件的2-项集,记为L2。依此类推,直到不再有候选项集。1.2  基于辨证“中虚气滞”关联规则的实验设计    我们首先根据“疾病标准表”、“中医临床诊疗术语”

4、和南京中医药大学提供的“中药材表”,对病历中出现的症状、辨证与处方进行规范化,将词义相同或相近的整理归类,统一、减少或简化其称谓,消除别名。比如,面色中既有“面黄少华”又有“面色萎黄”,将其统一纠正为“面色萎黄”。然而,用文字描述的数据不利于计算机接收和处理,用数字来表达可以大大简化工作的复杂度。我们采用数值化的方法来体现某一症状的有无,将症状看成是布尔变量。    我们从中医胃炎病历中筛选出辨证为“中虚气滞”的病历,利用关联规则的Apriori算法来探求症状与此辨证之间的关系。我们根据中医胃炎病历中所涉及到的症状、辨证、处方等数据,在ACCESS中构建数据库及相

5、应的表。其中sample表(见表1)中存放的是样本数据,即中医病历中辨证为“中虚气滞”的病历。这里的每条记录代表辨证为“中虚气滞”的一条病历,分别由不同的症状构成。Symptom表(见表2)中存放的是中医胃炎病历中所涉及到的所有症状名称及其相应的编号。 表1  sample表(略)表2  symptom 表(略)利用VC6.0作为开发平台,从运行界面上输入支持度和辨证“中虚气滞”所涉及到的症状数目,根据Apriori算法运行程序,最后得到辨证“中虚气滞”与症状之间的关系。1.3  基于辨证“中虚气滞”关联规则的实验结果分析    关联

6、规则有两个评价标准:支持度和置信度。置信度描述的是包含A和B的事务数与包含A的事务数的百分比。由此可见,置信度度量规则的强度是我们关注的重点。以男性病历为例,最后得到最大频繁项集是胃脘痞胀,舌苔薄(白),吞酸或泛酸,舌质红,以下列举部分结论以供分析。    置信度:舌苔薄(白)=>中虚气滞(50%);舌质红=>中虚气滞(66%);胃脘痞胀舌苔薄(白)吞酸或泛酸舌质红=>中虚气滞(100%)。    置信度表明:只有舌苔薄(白)这一症状时,辨证为“中虚气滞”的概率是50%;只有舌质红这一症状时,辨证为“中虚气滞”的概率

7、是66%;症状胃脘痞胀,舌苔薄(白),吞酸或泛酸,舌质红同时出现的前提下,辨证为“中虚气滞”的概率是100%。    由女性病历分析,得到症状的两个最大频繁项集是舌苔薄(白),脉细弦,口干(欲饮),胃脘隐痛和舌苔薄(白),脉细弦,胃脘嘈杂,舌质淡,以下列举部分结论以供分析。    置信度:舌苔薄(白)=>中虚气滞(22.2%);脉细弦=>中虚气滞(25%);胃脘隐痛=>中虚气滞(40%);口干(欲饮)=>中虚气滞(66.7%);舌苔薄(白)脉细弦=>中虚气滞(25%);胃脘隐痛舌苔薄(白)=>中虚气

8、滞(50%);脉细弦胃脘隐痛=>中虚气滞(66.7%);脉细弦胃脘隐痛舌苔薄(白)=>中虚气滞(66.7%);舌苔薄(白)脉细口干(欲饮)胃脘隐痛=>中虚气滞(100%);舌苔薄(白)脉细舌质淡胃脘嘈杂=>中虚气滞(100%)。    由实验结果可知,在单个症状出现的情况下,症状口干欲饮对于辨证“中虚气滞”的影响最大;当两个症状同时出现的情况下,症状脉细弦和胃脘隐痛能导致是辨证“中虚气滞”的可能性为66.7%,是其他几种两个症状同时出现的可能性中最大的。当同时出现舌苔薄(白)、脉细、口干(欲饮)、胃脘隐痛和舌苔薄(白)、脉细、舌质淡、胃脘嘈

9、杂这2组症状时,都可判断辨证是“中虚气滞”。    由此可见,应用关联规则方法对中医胃炎病历进行分析确实能在一定程度上揭示辨证与症状对应的规律,从中提取有用知识,为临床及实验研究提供进一步探索的线索和目标。2  基于决策树方法的中医胃炎分析    决策树算法是目前应用最广泛的归纳推理算法之一4,是一种逼近离散值函数的方法,通常用来形成分类器和预测模型2。决策树分类方法采用自顶向下的递归方式。从决策树的根到叶结点的一条路径就对应这一条合取规则,整棵决策树就对应着一组析取表达式规则。2.1  ID3算法简介 

10、   ID3算法先确定每一个实例属性单独分类训练样例的能力,将分类能力最好的属性选做树的根结点。然后为根结点属性的每个可能值产生一个分支,并把训练样例排列到适当的分支之下。重复整个过程,用每个分支结点关联的训练样例来选取在该点被测试的最佳属性。由此可见,ID3算法总是选择分类能力最好的属性作为当前结点的测试属性。ID3算法选用信息增益作为选择最佳属性的度量标准。为了精确定义信息增益,先定义信息论中广泛使用的一个度量标准熵。    Entropy(S)         

11、;             其中:S为某个目标概念的正反样例的样例集,P+是在S中的正例的比例,P-是在S中反例的比例。一般情况,如果目标属性具有C个不同的值,那么S相对于C个状态的分类的熵定义为:Entropy(S)           。    一个属性A相对样例集合S的信息增益Gain(S,A)被定义为:Gain(S,A)Entropy(S)            

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论