欢迎来到人人文库网! | 帮助中心 人人文库renrendoc.com美如初恋!
人人文库网
首页 人人文库网 > 资源分类 > PDF文档下载

基于基因表达式编程挖掘中医方证关系.pdf

  • 资源大小:365.62KB        全文页数:16页
  • 资源格式: PDF        下载权限:游客/注册会员/VIP会员    下载费用:5
游客快捷下载 游客一键下载
会员登录下载
下载资源需要5

邮箱/手机号:
您支付成功后,系统会自动为您创建此邮箱/手机号的账号,密码跟您输入的邮箱/手机号一致,以方便您下次登录下载和查看订单。注:支付完成后需要自己下载文件,并不会自动发送文件哦!

支付方式: 微信支付    支付宝   
验证码:   换一换

友情提示
2、本站资源不支持迅雷下载,请使用浏览器直接下载(不支持QQ浏览器)
3、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰   

基于基因表达式编程挖掘中医方证关系.pdf

第25卷地11期计算机应用VOL25NO,112005年11月COMPUTERAPPLICATIONSNOV2005文章编号10019081(2005)11267902基于基因表达式编程挖掘中医方证关系余弦1唐常杰1张欢1乔少杰1蒋永光2刘娟2韩佩玉21四川大学计算机学院成都6100652成都中医大学基础医学院成都610075{COS,TANGCHANGJIE}CSSCUEDUCN摘要中医学方证关系分析是中药研究课题的重点和难点,基因表达式编程GEP是遗传计算家族的新成员,有强大的函数发现功能。为解决中医方证关系的函数挖掘的特殊困难,本文提出了新的方法,主要工作包括1分析了简单方证模型SFSM的不足,针对中医学方证数据的特点提出结构简单、高效,占用空间少的主次分离指针编码2)提出基于罚函数的单方适应度值计算和基于相似度的中医学症状组平均相似度函数,实现了基于基因表达式的方证关系函数发现算法MRAGEP,获得了一个出人意外的方证函数,不但有很好的精度,而且符合中医主次证原理,可解释性好,得到部分中医专家的肯定。3)通过详尽的实验证明了算法的正确性和有效性,正确率达到了625%关键词基因表达式编程函数发现传统中医药MININGFORMULASYNDROMERELATIONSHIPINTRADITIONALCHINESEMEDICINEWITHGENEEXPRESSIONPROGRAMMINGYUXIAN1,TANGCHANGJIE1,ZHANGHUAN1,QIAOSHAOJIE1,JIANGYONGGUANG2,LIUJUAN2,HANPEIYU21SCHOOLOFCOMPUTERSCIENCEANDENGINEERINGSICHUANUNIVERSITY2BASICTHEORYDEPARTMENTCHENGDUUNIVERSITYOFTRADITIONALCHINESEMEDICINEABSTRACTFORMUALSYNDROMERELATIONSHIPINTRADITIONALCHINESEMEDICINETCMISANIMPORTANTANDDIFFICULTTASKSINTHERESEARCHOFTCM,GENEEXPRESSIONPROGRAMMINGGEPISANEWPOWERFULTOOLFORKNOWLEDGEDISCOVERYTOSOLVETHEPROBLEMFORFORMUALSYNDROMERELATIONSHIP,THISARTICLEPROPOSESANNEWAPPROACHTHEMAINCONTRIBUTIONSINCLUDEAANALYSESTHESHORTAGEOFSIMPLEFORMULAANDSYNDROMEMODELSFSM,PROPOSESEFFECTIVEANDSPACESAVINGCODINGMETHODBPROPOSINGANEWCONCEPTMAJORHOMOLOGYHMAANDMINORHOMOLOGYHMIFORFORMULAANDSYNDROMEANDDESIGNSASPECIALFITNESSFUNCTIONBASEDONPENALTYFUNCTIONMETHOD,ANDIMPLEMENTSMINDINGRELATIONSHIPARITHMETICBASEDONIMPROVEDGENEEXPRESSIONPROGRAMMINGMRAGEP,GAINSANAMAZINGFUNCTIONWHICHHASGOODPRECISIONANDACCURACYANDAFFIRMATIONOFTHETRADITIONALCHINESEMEDICINEEXPERTSCCONDUCTEXTENSIVEEXPERIMENTSTOPROVETHEEFFECTIVENESSOFTHEAPPROACH,THEACCURACYOFMRAGEPIS6251基金项目国家自然科学基金60473071,高等学校博士学科点专项科研基金SRFDP20020610007号,四川省青年软件创新工程350号,2国家中医药管理局基金项目“中药复方配伍规律的数据多维分析方法研究”(2003JP40)作者简介1余弦1981-,女,硕士研究生,研究方向数据库与知识工程;1唐常杰,博士生导师,教授,研究方向数据库与知识工程,数据挖掘;本文联系作者唐常杰;1张欢,1乔少杰硕士研究生,研究方向数据库与知识工程。2蒋永光教授,博士生导师,研究方向中医方剂学。2刘娟,2韩佩玉硕士研究生研究方向中医方剂学。第25卷地11期计算机应用VOL25NO,112005年11月COMPUTERAPPLICATIONSNOV2005KEYWORDGENEEXPRESSIONPROGRAMMING,FUNCTIONFINDING,TRADITIONALCHINESEMEDICINE1引言中医学TRADITIONALCHINESEMEDICINE历史久远,源远流长,是我国无数医药学家与疾病作抗争的经验与教训的结晶。辨证论治中医诊疗疾病的核心方法,“辨证”旨在辨别疾病当前阶段的病因、病机、病性、病位等,是论治、遣方和用药的依据。近年来,中医辨证的量化研究已经成为了跨学科的前沿课题。四川大学和成都中医药大学合作课题组对这个难题进行了深入研究,针对方剂和证的特点,采用基因表达式编程方法,设计了新型编码方式和基于方证距离的适应度函数,获得了好的效果。本文的主要工作包括1针对中医数据的特点提出结构简单,紧凑,高效,占用空间少的编码方式2提出了基于相似度的中医学症状组平均相似度函数和基于基因表达式的方证关系函数发现算法3通过详尽的实验证明了算法的正确性和有效性,正确率达到了625本文的余下部分组织如下第2节介绍了中医学中的方证关系和GEP的基本概念和思想;第3节介绍了中医方证分析,简单方证关系模型SFSM和中医学中的症状组主次分离指针编码。第4节介绍了中医学中的症状组平均距离适应度函数,第5节介绍了基于基因表达式的方证关系函数发现算法;第6部分用详尽和准确的实验验证了这个方法的有效性及优越性。最后部分总结了本文的工作,并对未来的工作做出了展望。2相关工作与基本概念21中医学中的方证关系证SYNDROME是对一组有内在联系的症状SYMPTOM进行诊断后的名称。本研究进行的辨证量化研究,是针对古代存集下来的大量方剂而进行的,是对已知的方剂主治症状所进行的证的判定。一个证包含一组症状,有主症,次症之分,主症为判定证的重要性指征,在进行判定时,须具备一个以上,其权重比次症大1。建立了关于判定证的知识表即基本证候表。例如膀胱湿热证如表1所示表1基本证候表中的膀胱湿热编码分类证主症次症235湿热膀胱湿热发热,尿痛,小便频数,小便淋沥,小便灼热腰痛,尿血,尿脓,小便黄,小便少,癃闭,舌红,苔黄,苔腻,脉滑,脉数辨证的难点在于1模糊性。证可由多个不同症状排列组合而成,即证候的诊断具有模糊性,如“脾气虚证”就包括了气虚、脾虚、舌脉等诸多内容1。膀胱湿热证包括了主症A发热,尿痛,小便频数,小便淋沥,小便灼热B腰痛,尿血,尿脓,小便黄,小便少,癃闭,舌红,苔黄,苔腻,脉滑,脉数。2复杂性,证内容的复杂性证1常常由一种或多种病机要素构成。如“食不下,下利清谷,面虚浮,面色萎黄无华,畏寒,少气懒言,神疲乏力,舌淡白,脉沉缓无力”每首方FORMULA均对应了一系列症状,列于症状表中,通过编号与方剂表、药物表相联。第25卷地11期计算机应用VOL25NO,112005年11月COMPUTERAPPLICATIONSNOV2005如编号为1的桂枝汤,其所主治的症状为症状表中编号为1所有的症状,如下恶风、恶寒、自汗、发热、鼻鸣、干呕。表2症状表中的桂枝汤症状组方编号规范症状1恶寒1恶风1发热1干呕1鼻鸣1自汗方证分析旨在挖掘出证与方剂症状的相关性。通过方剂中一系列症状,如上图中的规范症状,与证中主症与次症的关系来判断出方剂的证1。22.GEP简介FCANDIDA于2001年草创了新的进化计算模型基因表达式编程GENEEXPRESSIONPROGRAMMING,GEP。GEP具有遗传算法的简单性和遗传编程的功能性。在对很多问题的求解效率上,比普通的遗传编程高2到4个数量级。关于GEP的研究和应用参见28等。多染色体的GEP求解时,对处理对象编码形成染色体(CHROMOSOME),每个染色体由多个基因(GENE)组成,每个基因用函数连接函数(LINKFUCTION)连接起来。GEP采用表达式树的编码方式。例1说明了基因组的形成。例1对于表达式COSYXXY21其对应的表达式树EXPRESSIONTREE(ET)表示为图1所示YXCXY图1EXPRESSIONTREE其中C表示COS函数,对ET进行层次遍历得到序列CXYXY22在例1中的序列22称为表达式21的K表达式。其中函数集FUNCTIONSET为COS,终结符集合TERMINALSET为YX,基因由头部和尾部组成。头部可由所有字符组成,尾部则只由终结符组成。若头部长度为H,尾部长度T=H(N1)1,其中N为函数集合中运算符的最大目数。GEP的编码方式保证了染色体总是能够解码为有效的表达式树。GEP的遗传操作与遗传算法GA6GENETICALGORITHM和遗传编程GP(GENETICPROGRAMMING)大同小异。第25卷地11期计算机应用VOL25NO,112005年11月COMPUTERAPPLICATIONSNOV20053方证关系分析方证关系的最初想法是由成都中医药大学的研究小组提出,该研究小组提出了一种简单方证关系模型SFSMSIMPLEFORMULAANDSYNDROMEMODEL。SFSM建模步骤如下算法1SFSM输入某一首方F输出输入的方所对应的最可能的N个证步骤1)FOR(EACHFORMULAINF)//对于方F中的每个症状2)FOREACHSYNDROME//在基本证候表中查询3)IFINMAINSYMPTOMTABLESYMPTOM//若出现在某个证的主症中4)THENSYNDROMESYMPTOMA;//权重加A5)ELSEIFINMINORTABLESYMPTOM//若出现在某个证的次症中6)THENSYNDROMESYMPTOMB;//权重加B7)ENDIF8)ENDIF9)ENDFOR10)ENDFOR11)RETURNTOPNSYNDROME();//返回得分最高的N个证实验表明,上述方法正确率只有30~35%,其原因如下1对主症、次症给予的权重(A、B)对结果的影响非常大,一般取A2,B1。但是权重具体是多少则完全由人工依据经验指定,主观性比较大。2SFSM的数学模型是YAX1BX2,但是从结果来看这个线性的模型显然无法满足要求。为了满足以上需求,根据现有算法的不足和实验分析,我们提出了融合了基因表达式编程和主次分离指针编码技术的方法。31症状组主次分离指针编码编码是GEP求解问题的物质基础,编码的目的是把中医学中的症状组形成遗传信息载体染色体CHROMOSOME。GEP的染色体由多个基因通过连接算符组成,基因分为头部和尾部,头部可由函数集和终结符组成,尾部只能由终结符组成。中医学的编码难点和要点在(1)证的数值化(2)方的数值化。为了表达方便,表3为本文中将要用到的数据库表名及其内容表3方证训练数据库中的表符号名称意义TSYN基本证候证候表为每个证赋予唯一的自然数编号(INDEX_SYN)TSYM症状表将基本证候表中出现的主、次症状以不重复的方式排列,为各个症状赋予唯一的自然数编号(INDEX_SYM)TFOR方剂表为基本证候表中出现的每一个方赋予唯一的自然数编号INDEX_FORTRAININGDATA训练集包含TFOR,TSYN,TSYM的方证训练数据库第25卷地11期计算机应用VOL25NO,112005年11月COMPUTERAPPLICATIONSNOV2005311证的数值化处理为了便于编码,需要先将中医学中的”证”进行数值化处理。定义1证主串(SYNMAINSTR)设L1为某个证SYNDROMEI的主症个数,若整数数组ARRAY1L1中的元素为SYNDROMEI中的主症在TSYM中的编号(INDEX_SYM),则称ARRAY1L1为SYNDROMEI的证主串(SYNMAINSTR)。定义2证次串(SYNMINORSTR)设L2为某个证SYNDROMEI的次症个数,若整数数组ARRAY2L2中的元素为SYNDROMEI中的次症在TSYM中的编号(INDEX_SYM),则称ARRAYL2为IMPLICATIONI的证次串(SYNMINORSTR)。在程序中,证主串和证次串用结构SYNSTRUCT实现SYNSTRUCT{INTINDEX;//证的编号INTSYNMAINSTR_MAX_SYMPTOM;//证主串INTSYNMINORSTR_MAX_SYMPTOM;//证次串}SYNDROME;其中_MAX_SYMPTOM为一个证中所含症状的最大数目,数组在初始化时填’0’。有了上述结构,一个证就可以由唯一的SYNDROME结构确定。例2症状表TSYM{(胸痛,1),(胁胀满,2),(肢冷,3),(胁痛,4),(畏寒,5),(纳差,6),(大便溏,7),(胸闷,8),(气短,9),(面白,10),(头痛,11),(自汗,12),(恶风,13),(脉促,14),(腹满,15),(噎膈,16),(胀痛,17)}胸阳不振证表4胸阳不振证分类证主症次症阳虚胸阳不振胸痛,胸闷,畏寒,肢冷,气短面白,自汗,脉促证主串1,8,5,3,9证次串10,12,14SYNSTRUCT{INDEX20;//胸阳不振证在证候表中的编号SYNMAINSTR{1,8,5,3,9};SYNMINORSTR{10,12,14};}下面的给出证的编码算法算法2证编码算法SYNCSYNDROMECODE)输入证名SYNNAME输出证的编码结构SYNDROME步骤1SYNDROMEINDEXGETSYNDROMENUMSYNNAME;//在证候表中查到该证的编号2SYNDROMESYNMAINSTR{0};3I0;4FOREACHMAINSYM//填充证主串5SYNDROMESYNMAINSTRIGETSYMPTOMNUMMAINSYM;/通过症状名查找症状编号/第25卷地11期计算机应用VOL25NO,112005年11月COMPUTERAPPLICATIONSNOV20056ENDFOR7SYNDROMESYNMINORSTR{0};8I0;9FOREACHMINORSYM//填充证次串10SYNDROMESYNMINORSYMIGETSYMPTOMNUMMINORSYM;11ENDFOR12RETURNSYNDROME;通过这个算法,就可以完成对一个证的数值化处理了。若N为某证的症状个数,M为总症状个数,查找按照二分法,则算法复杂度为ONLOG2M312方的数值化处理方的数值化处理思想与证相似,这里不再祥述,注意方的症状没有主、次之分,其数据结构为FORMUSTRUCT{INTINDEX;//方的编号INTSYMPTOMSTR_MAX_SYMPTOM;//症状串}FORMULA;方的编码算法与证的编码算法类似算法3方编码算法FORCFORMULACODE)输入方名FORNAME输出方的编码结构FORMULA步骤13FORMULAINDEXGETFORMULANUMFORNAME;//在方剂表中查到该方的编号14FORMULASYMPTOMSTR{0};15I0;16FOREACHSYMPTOM//填充症状串17PRESCRIPTIONSYMPTOMSTRIGETSYMPTOMNUMSYMPTOM;/通过症状名查找症状编号/18ENDFOR19RETURNFORMULA;通过这个算法,就可以完成对一个方的数值化处理了。以上的编码方式我们称为主次分离指针编码,其编码方式有以下优点。1编码实现了从字符串向数值数组的转化。2数组中每个整数代表了相应症状在症状表中的位置,相当于一个指向相应症状的指针,占用空间少。3分为主串和次串,分别搜索,快速简单,操作更加方便。313相似度的设定为了能够以数字值化的方法来衡量方、证间的关系,我们引入了相似度的概念定义3(主相似度HMA,次相似度HMI1设F为一个方(FORMULA)若FSYMPTOMSTRI0,则称FSYMPTOMSTRI为F中的第I个症,I∈1,,_MAX_SYMPTOM;第25卷地11期计算机应用VOL25NO,112005年11月COMPUTERAPPLICATIONSNOV20052设S为一个证(SYNDROME),对于J,K1,,_MAX_SYMPTOM,有A若SSYNMAINSTRJ0,则称SSYNMAINSTRJ为S中第J个主症B若SSYNMINORSTRK0,则称SSYNMINORSTRK为S中第K个次症,;3称满足FSYMPTOMSTRISSYNMAINSTRJ的主症个数为主相似度HMAMAJORHOMOLOGY;4称满足FSYMPTOMSTRISSYNMINORSTRK的次症个数为次相似度HMIMINORHOMOLOGY。在GEP程序中终结符集合TERMINALSET的定义为变量A,B,其中A。变量A,B分别为和HMA和HMI,下面给出了主相似度算法GETHMA算法4GETHMA输入方FORMULA,证SYNDROME输出主相似度HMA1HMAVALUE0,I0,J0;2FOREACHSYMPTOMIINFORMULA/取出方的每一个症状/3FOREACHSYNMAINSTRJINSYNDROME/取出证的每一个症状/4IFFORMULASYMPTOMSTRI==SYNDROMESYNMAINSTRJ5HMAHMA1;/如果是同一个症状HMA+1/6I;7ENDFOR;8ENDFOR;9RETURNHMA;容易看出,若方中症状个数为N,证中症状个数为M,则算法3的计算复杂度ONM。次相似度算法和主相似度算法相似,故省略。4.中医学中的症状组适应度函数设计41适应度函数简介模拟生物的遗传和进化规律,GEP使用适应度(FITNESSFUNCTION)来度量群体中个体有助于找到最优解的优良程度。适应度高的参加遗传活动的概率就大。CANDIDAFERREIRA提出了两种适应度计算方法1NJJJTCMRORFITNESSABSOLUTEER41100RE1JJJNJTTCMRFITNESSLATIVEERRO42分别被称为绝对误差(41)和42称为相对误差。其中M称为选择范围(RANGOFSELECTION)。TJ为第J个观测值,CJ为第J个数据输入公式的结果值,N表示测试数据的个数。在统计学中,用于评价两组数据符合程度的方法是采用复相关系数。适应度计算方法SSTSSENTFITNESSNCOEFFICIECORRELATIO143第25卷地11期计算机应用VOL25NO,112005年11月COMPUTERAPPLICATIONSNOV2005NJJJCTSSE12NJJTTSST12其中,T为TJ的平均值。42中医学中的症状组适应度函数以上的适应度函数不适用于中医的特殊环境,需要设计一种新颖的适应度函数。首先我们引入定义4(差距值)设P是一个方,F是P对应的证,M1,M2分别是方P对证F的主相似度和次相似度(M1,M2≠0),Y=F(A,B)进化后某一函数,F1是一个证,F1≠F,且M3,M4分别是方P对证F1的主相似度和次相似度(M3,M4≠0)1设YF(M1,M2)称Y为最优计算值(BESTVALUE)。2设Y1F(M3,M4),如果Y1>Y,则称Y-Y1为差距值。易知差距值全为负值。由定义2,可推导出以下性质性质11当BESTVALUE不是最大时∵YIY∴TJIIIYY,1<0即FSDISTANCE<0;2当BESTVALUE是最大值时FSDISTANCE=0,即FSDISTANCE是最大值时,BESTVALUE为最大。定义5(基于罚函数的单方适应度值计算)称下列表达式为罚函数(PUNISHFITNESS)FITNESSATYYNJIIIJ1},0MIN{A(44)其中,A0确定罚函数作用强度的系数,N为与方A存在相似度的证,JY为最优计算值,IY是证I计算值,T是满足JY-IY0的证的个数。解释定义3之前,先简单介绍罚函数的概念。在GA中对于在解空间无对应可行解的个体,计算其适应度时,处以一个罚函数,从而降低该个体适应度,使其遗传到下一代的概率减小。即用下式来对个体的适应度进行调整不满足约束条件满足约束条件时XXPXFXXFXF45FX为原始适应度,F’X为考虑了罚函数之后的适应度函数,PX为罚函数。受罚函数的启发,考虑到最优计算值JY应该为最大,即约束条件为YIJY,若YIBESTVALUE,则称证I不满足约束条件,处以罚函数。定义6(平均适应度函数)称下列表达式为AVERAGE_FITNESS第25卷地11期计算机应用VOL25NO,112005年11月COMPUTERAPPLICATIONSNOV2005FITNESS=NJFNJ146其中FJ为方J的适应度值。N为满足FJ0的方的个数。下面的算法4给出计算AVERAGE_FITNESS的过程算法5输入中医方证关系表达式树T,训练集TRAININGDATA,输出中医方证关系的适应度值FITNESS1FOREACHFORMULAINTRAININGDATA;2FOREACHSYNDROMEINTRAININGDATA3GETHMAFORMULAFORSYNDROME;//计算方FORMULA的主相似度4GETHMIFORMULAFORSYNDROME;//计算方的次相似度5BESTVALUECACULATEBESTVALUEFORMULA,TRAININGDATA//计算最优计算值6FSDISTANCECACULATEFSDISTANCEFORMULA,TRAININGDATA;//计算方证距离7FITNESSAVERAGEFSDISTANCE;//计算适应度值8ENDFOR9ENDFOR10RETURNFITNESSFORT;其中计算方证距离的CACULATEFSDISTANCE算法如下算法6输入方FORMULA中医方证关系表达式树T输出中医方证距离FSDISTANCE1FSDISTANCE0,N0;2FOREACHSYNDROMEIINTRAININGDATA//SYNDROMEI为不是方的对应的证的任意证3GETHMAFORMULAFORSYNDROMEI4GETHMIFORMULAFORSYNDROMEI;5Y1EVALUTET,FORMULAHMA,FORMULAHMI//计算表达式值6IFY1BESTVALUE//如果大于最优计算值7FSDISTANCEDISTANCEY1-BESTVALUEA;8N9I;10ENDFOR11FSDISTANCEFSDISTANCE/N//N表示添加次数5基于基因表达式的方证关系函数发现算法使用基因表达式编程,结合新的方证距离的适应度值算法对基本方证训练数据集中方的未知证的预测由于基于基因表达式的方证关系函数发现算法(MINDINGRELATIONSHIPARITHMETICBASEDONIMPROVEDGENEEXPRESSIONPROGRAMMING,)MRAGEP与GEP在基本步骤上一样,但是计算其适应度值时是基于方证距离的平均适应度函数。前面已经详细介绍了此种适应度函数,限于篇幅故我们省略MRAGEP的算法步骤。

注意事项

本文(基于基因表达式编程挖掘中医方证关系.pdf)为本站会员(abingge)主动上传,人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知人人文库网(发送邮件至[email protected]或直接QQ联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

网站客服QQ:2846424093    人人文库上传用户QQ群:460291265   

[email protected] 2016-2018  renrendoc.com 网站版权所有   南天在线技术支持

经营许可证编号:苏ICP备12009002号-5