基于多标记学习的长期密闭环境下中医证候诊断研究_第1页
基于多标记学习的长期密闭环境下中医证候诊断研究_第2页
基于多标记学习的长期密闭环境下中医证候诊断研究_第3页
基于多标记学习的长期密闭环境下中医证候诊断研究_第4页
基于多标记学习的长期密闭环境下中医证候诊断研究_第5页
已阅读5页,还剩2页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于多标记学习的长期密闭环境下中医证候诊断研究

1“长期密闭环境下”中医诊断和证候研究的意义随着我国载人航空航天三阶段战略的发展,以及载人空间站工程的长期运营,已成为人们今后发展的目标。为了有效保障航天员健康安全高效的工作,研究航天员的健康状态,评估与预警技术至关重要。中医药在悠久的发展历史中形成了自己独特的理论体系、思维模式和诊疗方法。中医的整体观、“天人相应”、辨证论治等思想,特别是中医对健康状态的辨识和养生保健的调理干预措施,有望对长期太空飞行的健康保障做出独特贡献。在“火星500模拟载人飞行实验”的“Mars500长期密闭环境人体中医辨证研究”项目中,采取中医“望、闻、问、切”的诊法,研究长期密闭环境下人体生命活动的状态,阐释其特点及变化规律,是运用中医理论与技术研究航天员健康保障的一次具有重要科学意义的探索。这项研究力图揭示长期密闭环境下的人体中医辨证和证候演变规律,取得的研究结果为进一步地深入研究、解决长期载人航天飞行的健康保障问题奠定基础。本项研究具有鲜明的中国科技原创特色,对于促进未来航天飞行中运用中医技术进行监测、诊断和进一步实时干预人体健康状态,形成具有中国特色的航天医学保障体系,具有重要意义。数据挖掘是从海量、不完全、有噪声、模糊、看似随机的数据集合中,提取隐含其中、事先未预知、有价值的知识和规律的过程。目前,数据挖掘的主流算法有很多,这些算法各有特点,根据主题的不同可以采用不同的算法。如中医方剂的研究多采用关联规则分析找出复方中的配伍规律;中医定量诊断可以用贝叶斯网络或者多标记学习进行建模;对中医医案的挖掘可以应用聚类分析等当前,已有越来越多中医药领域的研究工作引入最新的数据挖掘技术。例如,将特征选择技术和证候预测方法应用于肝硬化中医诊断,以辅助肝硬化治疗过程中的证候判断;中医领域中高维数据症状分类相似度计算建模和基于中医症状和西医风险因子的骨质疏松症患病风险建模属于典型的中医药数据建模分析的相关研究。由于Mars500的实验成本非常高,参试志愿者需要从事的科学任务非常繁重,时间宝贵,供本次研究采集实验数据的时间较短,造成采集的实验数据量非常少。参与实验的各国志愿者总共只有6名,采集到的样本数据只有222条,样本特征数目比较多,常规方法很难适用,数据采集后得到的专家证候判读结果是多标记情形。因此,本文通过特征选择方法选出与辩证相关的重要特征,然后使用多标记分类器建立分类模型。2数据采集和预处理2.1原始数据的采集2.1.1境下志愿者的性别、年龄分布本文研究项目的信息采集对象是在Mars500密闭环境下的6名志愿者(其中黄种1人,白种5人)。男性,年龄在26岁~38岁之间,平均年龄为31.83岁。采集的基本信息包括姓名、性别、出生年月等。2.1.2志愿者的需求和数据采集系统采集设备为“DS01-T型中医舌面脉问数据采集及辅助诊断系统”,如图1所示,该设备对航天员志愿者的问诊、望诊(面色、舌象)、切诊(脉象)数据进行采集,从2010年6月3日—2011年11月4日,每2周采集一次。2.2资质合作协议数据特征的判读与分析采用中医专家判读和软件分析2种方式。中医专家共3名,资质要求为具有20年以上临床经验的主任医师。先单独分析,如果三人一致者,则予以确定;如果发生有一人(或一人以上)不一致,则须另邀2名专家与前3位专家(资质同上)共同协商确定。2.2.1对志愿者的舌诊、面诊特征进行比别专家对舌面望诊信息的判读,是对模拟舱内逐次导出的舌面照片进行信息分析,给出舌面特征的定性描述及可能代表的中医医理意义。中医专家对航天员志愿者的舌诊、面诊照片进行判读要结合前期临床采集的舌面诊数据库中确定的典型样本,用类比法认定,减少经验误差。专家判读的结论作为辨证的依据之一。2.2.2通过数据分析解释常见脉象,提出中医意义的定案专家对脉象切诊信息的判读,是分析模拟舱内逐次导出的脉图,结合基于以往数据库所建立的各种常见脉象模型,分析研究航天员志愿者的脉位、脉率、脉力、节律、脉形等脉图信息,给出脉象特征的定性判读及可能代表的中医医理意义,作为辨证的依据之一。2.2.3中医临床诊断标准术语首先需对“Mars500长期密闭环境条件下中医基本证候症状量表”中部分症状描述用语的含义进行梳理,转换成规范的中医临床诊断标准术语,如将“有饥饿感但吃不多”转换为“饥不欲食”。中医专家依据症状出现的频次和程度并结合临床经验确定主要症状和一般症状,对问诊信息进行中医判读,分析实验者的健康状态。2.2.4中医专家的证候审判中医专家对于问诊、面色、舌象、脉象综合信息进行四诊合参证候的分析与判读。2.2.5切诊问卷数据集在数据采集期间,对6名宇航员志愿者各进行37次采样,共得到222个样本。其中,望诊数据包括面色、舌色、苔色、舌形数据集;切诊数据集包括:左手脉象和右手脉象;问诊数据来自于中医评测量表。进行初步预处理,剔除3个无效样本,最终得到219个有效样本。望诊数据集共包含245个特征,切诊数据集共有30个特征,望问切融合数据集共有389个特征。本次研究将专家辨证结果拆分为11个证素组成研究对象的类标集。3建模分析算法通过以上分析,本次研究对象是小样本多标记问题,所以,需要对样本进行特征子集的选择和多标记建模预测。3.1特征算子的选择传统的特征选择算法都是针对单标记学习的,而在本次研究中,每个样本都带有多个标签,属于多标记学习问题,因此,本文中使用多标记特征选择算法来筛选最优的特征子集。3.1.1homl优化算法混合优化多标记特征选择(HOML)是结合多标记学习算法提出的一种混合优化的技术,该技术综合了遗传算法、模拟退火、蚁群算法等技术的优势,并利用学习器的预测结果选择特征。对于小样本问题,较之其他标准的互信息特征选择方法在建模精度上有良好效果。HOML算法系统如图2所示,其基本思想是先用模拟退火算法(SA)进行全局搜索。当温度比较高时,SA接受每一个特征子集,从而在搜索空间上进行随机近邻搜索。而当温度接近0℃时,SA只接受那些能提高解决问题效力的特征子集。SA占用HOML大约50%的时间,然后用遗传算法(GA)进行优化。遗传算法的交叉算子使得评分高的特征子集之间可以交换信息,而变异算子为种群引入了新的基因,保持了基因多样性。GA占用HOML大约30%的时间。最后在前2个阶段产生的100个最佳特征子集中选出最优的特征子集,用爬山贪婪算法进行k近邻搜索(k代表特征的维度)。3.1.2预报风险的计算本文采用的MEFS算法是结合多标记学习算法提出的一种嵌入式特征选择算法,其算法系统如图3所示。其中,子集的搜索采用序列后向选择搜索算法,特征的评价采用预报风险准则。预报风险准则:预报风险是对新观察数据进行分类的预期性能的估计。在数据建模过程中,预报风险可用来估算模型预测精度和选择模型,其中,最小化预报风险原则经常被用于最优模型的选择。通过结合嵌入式的降维思想,将预报风险的方法用于特征选择。通过计算当所有样例在某个特征的数值被所有样例在该特征的平均值代替时的训练正确率的变化来评价各个特征,用Si表示此训练正确率的变化,如下所示:其中,ACC表示训练模型的训练集上的预测精度;ACC(xi)表示将训练集实例的第i个特征用该特征的平均值代替后的训练精度。对应Si值最小的特征将被删除,因为该特征值的变化对结果的影响最小,也就是说该特征对区分类标的作用最小,甚至起负作用。预报风险用于嵌入式特征选择的工作取得了很好的效果,所使用的分类器包括ML-KNN等。为了将预报风险准则用到多标记学习中,本文采取多标记学习性能的评价指标Averageprecision作为预报风险的计算指标。MEFS算法的描述如下:定义x∈RD表示D维的特征空间,降维的目标维数为d,特征子集u=[1,2,…,D],删除特征的序列为r=[…],f(x)表示多标记学习模型在训练集上的预测性能度量函数,f(xi)表示将训练集的第i个特征的所有实例的数值被该特征的平均值代替后,模型在训练集上的预测性能度量。因此,MEFS算法的预报风险计算公式为:3.2算法的适应方法在本文研究中,每个样本都带有多个标签,而对每个样本的标签进行判定属于多标记分类问题。多标记分类问题起源于文本的分类和医学诊断的分类,并在机器学习领域得到关注。现有的多标记分类算法可以分为2种:一种是问题转化方法(problemtransfor-mationmethods);另一种是算法适应方法(alogorithmadapta-tionmethods)。问题转化方法将多标记分类问题转化为一个或者多个单标记分类或者回归问题,算法适应方法对特定的学习算法进行扩展改进,使其能够直接处理多标记数据。本文使用多标记k近邻(ML-KNN)算法、分类器链(CC)算法和RAKEL(Randomk-Labelsets)算法。其中,ML-KNN属于算法适应方法,它将KNN算法扩展到多标记学习上,CC和RAKEL属于问题转化方法。3.2.1ml-knn算法多标记k近邻(ML-KNN)算法是在KNN基础上提出的一种多标记学习算法。其多标记学习特性适用的证候结果不是单纯证,而是夹杂或者兼证的情况。其基本思想是采用k近邻(k-nearestneighbors)分类准则,统计近邻样本的类别标记信息,通过最大化后验概率(MaximumAPosteriori,MAP)的方式推理未知示例的标记集合。ML-KNN算法的具体流程如下:(1)计算与每个样本关联的每个类标的条件分布概率。(2)计算测试样本xi与每个训练样本之间的距离,并找出与之最近的k个样本,对每个测试样本重复进行以上操作。(3)根据与xi最近的k个训练样本类标的条件概率来预测xi的类标,然后对每个测试样本重复以上操作。(4)根据多标记学习的评价准则评估预测的结果。3.2.2cc算法标签分类器链(CC)算法是在BR(BinaryRelevance)算法的基础上提出的,依然使用BR所使用的二叉分类。CC与BR的最大不同是,CC考虑到训练数据集中标签之间的关联关系,它将这些基分类器ci,i=1,2,…,n串联起来形成一条链。CC算法的描述如下:CC为每一个标签ci∈L={c1,c2,…,cn}学习一个分类器hi:x→{¬ci,ci}。学习分类器hi时,CC把cn∈{c1,c2,…,ci-1}都当做特征。假设一个新的样例x需要被分类,分类器h1判断x是否属于标签c1,设其值为y∈{0,1},得出Pr(c1|x)。分类器h2判断x是否属于标签c2,但是此时会将y1作为输入得到Pr(c2|x,c1)。以此类推,当hi判断x是否属于标签ci时,会将y1,y2,…,yi-1作为额外的信息输入得到Pr(ci|x,c1,c2,…,ci-1)。这种链的方式使得标签信息在分类器之间传递,考虑到标签之间的关联性,克服了BR的缺点,并且仍然保持BR计算复杂度低的优点。在预测一个样例是否具有某个标签时,CC算法会将之前得到的所有标签结果加入到样例特征中,为预测该标记提供信息。表1给出了CC算法的执行过程,为了表示方便,这里假设特征值由0/1表示,样本x=[0,1,0,1,0,0,1,1,0]。3.2.3标记分类算法RAKEL(Randomk-Labelsets)使用随机标签组合的方法进行多标记分类,这是一种被广泛使用的基于问题转化的方法,它将训练数据中的每种标签重新组合,进行二进制编码,从而形成全新的标签,这种方法改进了LP(LabelPowerset)算法不可预测新标签组合的缺点,并在一定程度上降低了计算复杂度。4结果与分析4.1实验结果及分析本文首先利用ML-KNN、CC和RAKEL分类器对望问切融合数据、望诊数据、切诊数据进行分类,通过对比实验结果找出最好的分类模型,然后再将HOML和MEFS特征选择方法分别加入到最好的分类模型中进行实验,之后通过实验结果对比,将分类精度最高的模型作为最终的分类模型。在实验中,ML-KNN分类器的K参数设置为10,平滑系数设置为1,实验采用5倍交叉验证。本文使用Averageprecision,Rankingloss,Oneerror,Hammingloss这4个评价指标进行结果分析。其各项指标的具体定义如下:Averageprecision:在样本的概念标记排序序列中,排在隶属于该样本概念标记之前的标记仍属于样本标记集合的情况。Rankingloss:在样本的概念标记排序序列中出现排序错误的情况。Oneerror:在样本的概念标记排序序列中,序列最前端的标记不属于样本标记集合的情况,对应于单标记学习问题中传统的分类误差。Hammingloss:样本在单个概念类上的误分类情况,即隶属于该样本的概念类未出现在标记集合中或者不属于该样本的概念类出现在标记集合中。其中,Averageprecision的值越大越好,其他指标越小越好。4.2homl和mefs特征选择方法对望问切融合数据进行分类实验使用ML-KNN、CC和RAKEL分类器对望问切融合数据、望诊数据、切诊数据进行分类,结果如表2、表3和表4所示。通过对实验结果的分析对比,发现使用ML-KNN在这3组数据上的分类效果明显比CC和RAKEL的分类效果好,并且ML-KNN在望问切融合数据上的分类结果是最好的。因此,将HOML和MEFS特征选择方法加入到ML-KNN对于望问切融合数据的分类实验中,实验结果如表5和表6所示。使用HOML在望问切融合数据特征的选择结果如表7所示,特征选择所选结果所代表的医学含义如表8所示。通过对比分析上述结果可以发现,在使用ML-KNN、CC、RAKEL建立的模型中,融合数据的分类准确率都明显高于单一诊次的数据,因此,在中医辨证中,四诊合参是十分重要的。将HOML和MEFS加入到ML-KNN对于望问切融合数据的分类中进行实验,发现HOML对于ML-KNN的分类精度有所提升,MEFS对于ML-KNN的分类精度有所下降;同时,通过特征选择选出对于分类有贡献的重要特征。因此,可以将含有HOML和ML-KNN的模型作为最终的分类模型。4.3模型的稳定性、准确性及高效性通过对以上实验结果的对比表明,ML-KNN和HOML在望问切融合数据上的分类精度是最好的,为了验证模型的稳定性,将ML-KNN中的k分别设置为2,4,6,8,10进行实验,结果如图4所示。通过分析图4,可以得出如下结论:(1)随着k值的变化,各项指标的值都有所变化,但是变化的范围很小,所以模型的稳定性较好;(2)当k取值为4时,模型的性能在Averageprecision、OneError、Hamminglo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论