中医辨证分类算法综述_第1页
中医辨证分类算法综述_第2页
中医辨证分类算法综述_第3页
中医辨证分类算法综述_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中医辨证分类算法综述

挖掘数据并从大量数据中获取有用的信息。换句话说,人们在大量、不完整、噪声、模糊和随机的实际应用数据中发现了隐藏的、规律性的信息,而人们过去或将来不知道,但它是一个尚未理解的、有害的信息和知识的非常方法过程。数据挖掘的主要任务有分类分析、聚类分析、关联分析、序列模式分析等,其中的分类分析一直是数据挖掘研究的热点。分类就是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类的过程一般分为2个步骤:第1步,通过已知数据集建立概念描述模型;第2步,就是利用所获得的模型进行分类操作。分类的目的是学会一个分类函数或分类模型(也常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。中医辨证论治从症状-疾病-证候-药物组合-方剂等这一过程中,含有非线性、模糊性、复杂性、非定量等思想,由此产生的中医数据也具有非线性、模糊性、非定量等特征。如果单纯人为地对庞大的中医证候数据进行分类分析,无异于大海捞针,而且难以保证对全部信息的综合考量。数据挖掘技术本身所具有的特点,使其自然成为能从中医海量数据中探索规律和有兴趣知识的主要技术之一。以下就目前数据挖掘技术中比较成熟的几种分类算法如决策树、关联规则分类、贝叶斯网络、神经网络和支持向量机等进行论述,并总结其在中医证候学研究中的应用。b.分类算法在网络学习中的应用决策树是一个类似流程图的树型结构,其中树的每个节点对应一个非类别属性,每条边对应这个属性的每种可能值,而树的每个叶结点代表一个类别。C4.5是较早提出的使用最普遍的决策树分类算法之一。C4.5算法的核心是假设T为训练集,为T构造决策树时,根据InformationGain值选择作为分裂结点的属性及标准,按照此标准将T分成n个子集。若第i个子集Ti含有的元组的类别一致,该结点就成为决策树的叶子结点而停止分裂。而对于不满足此条件的T的其他子集,按照上述方法继续分裂直至所有子集所含元组都属于一个类别为止。C4.5分类算法产生的分类规则易于理解,速度相对较快,同时其准确率相对较高。但是C4.5只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。为了适应处理大规模数据集的需要,后来又提出了若干改进的算法,如SLIQ和SPRINT等。瞿海斌等利用决策树从290例血瘀证病例的35个变量中自动地提取相应的诊断规则,得到决策树分类模型并归纳出5条血瘀证的诊断规则。利用该模型对194例血瘀证病例测试,其结果为阳性检测正确率、阴性检测正确率和检测正确率分别达到97.67%、99.07%和98.45%。实验结果表明决策树能自动从中医病例中归纳诊断规则,通过决策树方法还可判断各证候对于血瘀证诊断的贡献大小。徐蕾等对406例慢性胃炎病例进行bootstrap抽样至2000病例,采用基于信息熵的决策树C4.5算法筛选出影响中医辨证分型的26个重要因素,产生可用于分类的诊断规则,建立辨证模型,模型分类符合率为训练集83.60%、验证集80.67%、测试集81.25%,发现决策树C4.5算法建立的模型效果较好,可应用于慢性胃炎中医辨证分型的预测。从关联规则技术的应用到慢性疲劳综合征的判断CBA(classificationbasedonassociation,CBA)是基于关联规则发现方法的分类算法。该算法分2个步骤构造分类器。第1步:发现所有形如Xi1∧Xi2=>Ci的关联规则,即右部为类别属性值的类别关联规则CAR(classificationassociationrules,CAR)。第2步:从已发现的CAR中选择高优先度的规则来覆盖训练集,也就是说,如果有多条关联规则的左部相同,而右部为不同的类,则选择具有最高置信度的规则作为可能规则。通过CBA算法可以寻找出相关联的各个数据,当某些症状总是同时出现时,可以从中找出某种证型规律,甚至是病机规律,算法简单,分类准确度较高,可解释性强;其缺点是计算时间长、分析代价大。黄小波等以关联规则技术为工具,根据慢性疲劳综合征的临床表现,选择慢性疲劳综合征中气虚和血虚2种证型,通过分析“证”与症候之间的相关性,认为慢性疲劳综合征中气虚与血虚2种证型之间显著相关。沈亚诚等采用关联规则技术分析了绝经综合征症状与证候之间的联系和证候规律,包括中医症状与证候之间、中医症状与西医症状之间、证候与生存质量之间、中医症状与检验指标值之间的关联规则。陈明等通过对400例肝硬变患者进行关联分析,找出符合最小支持度和最小置信度并形成规则的中医证候,结果表明,气滞/气郁证和血瘀证最小支持度分别为21%和25%,最小置信度分别为30%和35%,是最符合强规则的中医证候。中医证候分类神经网络就是一组相互连接的输入输出单元(又称神经元),单元之间的每个连接都与一个权重相关联。在网络学习阶段,网络通过调整权重来实现输入样本与其相应类别的对应。神经网络训练完毕后,只要把数据输入到已训练好的神经网络输入端,就可以从输出端直接得到分类结果。用于数据分类常见的神经网络模型包括:反向传播(BP)神经网络、径向基(RBF)神经网络、自组织特征映射神经网络、学习矢量化神经网络等。林维鉴利用40份中医痹证病例进行BP网络训练,建立了中医痹证辨证分类的BP网络模型,用其余40份病例作为检验,根据输出向量确定该患者的证型,结果符合率为92.5%。边沁等采用一种基于MFBP算法的神经网络,以临床调查资料为研究对象,对具体病的证型进行了规则提取研究,并从其解决实际问题的能力对网络的性能作出评价。研究结果表明,神经网络有较好获取数据规则的能力,可用于证的规范化研究。樊晓平等研究了用于抑郁症中医证候分类的一类MLPANN;设计了一种基于自定义网络结构及其他参数的BP训练算法分类系统并应用在抑郁症的中医证候分类研究中。该系统利用实际病症样本数据进行了训练和分类,结果表明系统具有很好的分类效果,可以用于指导抑郁症诊断和治疗。胡随瑜等将1731例抑郁症患者随即分成2组,轮流进行训练和测试,结果BP网络训练总体阳性率为97.7%,测试阳性率为72.5%。结论是BP网络能较好的区分抑郁症5类中医证型,在中医证型分类识别中有一定的价值。李建生等将200份包含6种证型的2型糖尿病文献资料中的41个症状作为训练学习样本,运用RBF网络算法进行2型糖尿病的中医辨证建模,最后建立一个输入层节点数为41,隐层节点为6,输出层节点为6的RBF神经网络模型。同时又运用BP神经网络的方法建立BP神经网络模型,并用63个测试样本对2个网络进行检验。结果证候诊断模型判准率RBF网络为93.8%,BP网络为61.9%,且RBF网络证候诊断模型训练速度比BP网络模型快103-104倍。杜文斌以建国后名老中医冠心病医案为研究对象,并对入选医案进行数据的规范化预处理和症状的降维处理。然后根据医案症状的分布频数确定各映射区的症状分布情况,参照医案中病机的阐述及相关中医理论确定映射区集合的证候类型。在此基础上给出了每个症状的权重,建立了基于自组织神经网络的冠心病证候诊断标准。证候分类结果提示:本医案集的冠心病证候可分为阴虚火旺、心肾阳虚、痰浊内阻、气虚血瘀4个证型。实例分析表明,本证候诊断标准所作出的诊断同医案诊断结果非常接近,完全符合率为73.3%,基本符合率为93.3%。不确定性知识的处理贝叶斯网络表现为一个赋值的复杂因果关系网络图,网络中的每一个节点表示一个变量,即一个事件。各变量之间的弧表示事件发生的直接因果关系。每当一个原因节点的出现而导致某个结果的产生时,用条件概率进行表述。事件变量间关系的概率强度,构成贝叶斯网络中的条件概率表。根据贝叶斯网络结构以及条件概率表,可以快速得到每个基本事件的组合概率。贝叶斯网络的结构学习及推理原理与中医辨证的思维认知过程颇为近似,因此极其复杂、高度非线性的中医辨证系统,可用贝叶斯网络处理不确定性知识的方法进行描述。朱咏华等通过将中医体系中的916个证候,51项证素及其构成的1700条证名构成中医辨证贝叶斯网络的节点集,初步建立起中医辨证数据库并通过网络学习,形成中医辨证贝叶斯网络结构及概率表,利用建立的贝叶斯网络中医辨证系统,进行数据计量分析、推理验证证候—证素—证名间的关系,其结果与中医专家经验有很高的吻合性。王学伟等应用贝叶斯网络方法通过分析474例血瘀证临床诊断数据进行血瘀证定量诊断。该方法发现了血瘀证的7个关键症状,并定量计算其诊断贡献度。基于这些关键症状建立的简单贝叶斯分类器模型对血瘀证诊断的准确率达到96.6%。唐启盛等制订《抑郁症中医证候观察表》,观察611例患者的横断面证候,运用贝叶斯网络模型进行数据研究,并结合前期聚类分析研究结果,得出中医证型及诊断标准,结果拟定出抑郁症的6个中医证型:肾虚肝郁证、肝郁脾虚证、心脾两虚证、肝胆湿热证、心胆气虚证。孙亚男等利用信息增益算法进行辨证属性选择,并分别采用朴素贝叶斯和强属性集贝叶斯网络算法建立了中医冠心病临床证型诊断模型,其实验结果表明该分类算法在中医冠心病临床诊断模型中具有良好的分类性能。svm分类方法支持向量机(supportvectormachine,SVM)是数据挖掘中的一个新分类方法,数据点是n维实空间中的点。笔者希望能够把这些点通过一个n-1维的超平面分开。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有2个互相平行的超平面。建立方向合适的分隔超平面使2个与之平行的超平面间的距离最大化。其假定为平行超平面间的距离或差距越大,分类器的总误差越小。杨小波等以中医证候数据库收集的30余万条中医证候文献信息作为训练和测试数据集,以中医专业知识作为先验知识,将样本集置信度通过带权分类间隔导入SVM模型中进行分类,计算其分类置信度。结果表明:在有中医专业知识的情况下,中医证候信息分类的正确率得到了很大的提高,正确率约为95%。中医证候数据库的应用随着中医药信息化的发展,中医药数据库系统应运而生,它可以高效地实现数据的录入、查询和统计等功能,但仍无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。数据挖掘技术作为一个从海量数据中获取知识的有力工具,借鉴其方法来研究中医证候的构成特点及规律,将对中医证候的研究起到巨大的促进作用。辨证论治是中医理论和临床体系的重要支撑,贯穿于对疾病诊断、治疗、康复、疗效评价的全过程。“证候”乃是从整体性出发,对个体疾病状态下特征的描述以及对疾病内在变化规律的概括。笔者通过对中医证候数据进行分类研究,可以得到某病的证候分布及某证型的症状分布,甚至可以得到证候的预测因子或核心证候。在此基础上可以进一步进行中医辨证规范化研究,另外可通过分类方法建立模型,对反复采集的证候信息进行分析,实现“即时辨证”功能,真正做到“知犯何逆,随证治之”。数据分类是数据挖掘的重要研究内容之一。分类研究得到的结果可以作为进一步证候规范研究的基础。在上面笔者介绍了各

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论