会员注册 | 登录 | 微信快捷登录 支付宝快捷登录 QQ登录 微博登录 | 帮助中心 人人文库renrendoc.com美如初恋!
站内搜索 百度文库

热门搜索: 直缝焊接机 矿井提升机 循环球式转向器图纸 机器人手爪发展史 管道机器人dwg 动平衡试验台设计

基于基因表达式编程挖掘中医方证关系.pdf基于基因表达式编程挖掘中医方证关系.pdf -- 5 元

宽屏显示 收藏 分享

资源预览需要最新版本的Flash Player支持。
您尚未安装或版本过低,建议您

第25卷地11期计算机应用Vol.25.No,112005年11月ComputerApplicationsNov.2005文章编号10019081(2005)11267902基于基因表达式编程挖掘中医方证关系余弦1唐常杰1张欢1乔少杰1蒋永光2刘娟2韩佩玉21四川大学计算机学院成都6100652成都中医大学基础医学院成都610075{Cos,tangchangjie}cs.scu.edu.cn摘要中医学方证关系分析是中药研究课题的重点和难点,基因表达式编程GEP是遗传计算家族的新成员,有强大的函数发现功能。为解决中医方证关系的函数挖掘的特殊困难,本文提出了新的方法,主要工作包括1分析了简单方证模型SFSM的不足,针对中医学方证数据的特点提出结构简单、高效,占用空间少的主次分离指针编码2)提出基于罚函数的单方适应度值计算和基于相似度的中医学症状组平均相似度函数,实现了基于基因表达式的方证关系函数发现算法MRAGEP,获得了一个出人意外的方证函数,不但有很好的精度,而且符合中医主次证原理,可解释性好,得到部分中医专家的肯定。3)通过详尽的实验证明了算法的正确性和有效性,正确率达到了62.5%关键词基因表达式编程函数发现传统中医药MiningFormulaSyndromeRelationshipinTraditionalChineseMedicinewithGeneExpressionProgrammingYUxian1,TANGChangJie1,ZHANGhuan1,QIAOshaojie1,JIANGyongguang2,LIUjuan2,HANpeiyu21.SchoolofComputerScienceandEngineeringSichuanUniversity2.BasictheoryDepartmentChengduUniversityofTraditionalChineseMedicineAbstract.FormualSyndromeRelationshipinTraditionalChineseMedicineTCMisanimportantanddifficulttasksintheresearchofTCM,GeneExpressionProgrammingGEPisanewpowerfultoolforKnowledgediscovery.TosolvetheproblemforFormualSyndromeRelationship,thisarticleproposesannewapproach.ThemaincontributionsincludeaAnalysestheshortageofSimpleFormulaandSyndromeModelSFSM,proposeseffectiveandspacesavingcodingmethod.bproposinganewconceptMajorHomologyHMAandMinorHomologyHMIforFormulaandSyndromeanddesignsaspecialfitnessfunctionbasedonPenaltyfunctionmethod,andimplementsMindingRelationshipArithmeticbasedonImprovedGeneExpressionProgrammingMRAGEP,gainsanamazingfunctionwhichhasgoodprecisionandaccuracyandaffirmationoftheTraditionalChineseMedicineexpertscConductextensiveexperimentstoprovetheeffectivenessoftheapproach.,theaccuracyofMRAGEPis62.5.1基金项目国家自然科学基金60473071,高等学校博士学科点专项科研基金SRFDP20020610007号,四川省青年软件创新工程350号,2国家中医药管理局基金项目中药复方配伍规律的数据多维分析方法研究(2003JP40)作者简介1余弦1981-,女,硕士研究生,研究方向数据库与知识工程1唐常杰,博士生导师,教授,研究方向数据库与知识工程,数据挖掘本文联系作者唐常杰1张欢,1乔少杰硕士研究生,研究方向数据库与知识工程。2蒋永光教授,博士生导师,研究方向中医方剂学。2刘娟,2韩佩玉硕士研究生研究方向中医方剂学。第25卷地11期计算机应用Vol.25.No,112005年11月ComputerApplicationsNov.2005KeywordGeneExpressionProgramming,FunctionFinding,TraditionalChineseMedicine1引言中医学TraditionalChineseMedicine历史久远,源远流长,是我国无数医药学家与疾病作抗争的经验与教训的结晶。辨证论治中医诊疗疾病的核心方法,辨证旨在辨别疾病当前阶段的病因、病机、病性、病位等,是论治、遣方和用药的依据。近年来,中医辨证的量化研究已经成为了跨学科的前沿课题。四川大学和成都中医药大学合作课题组对这个难题进行了深入研究,针对方剂和证的特点,采用基因表达式编程方法,设计了新型编码方式和基于方证距离的适应度函数,获得了好的效果。本文的主要工作包括1针对中医数据的特点提出结构简单,紧凑,高效,占用空间少的编码方式2提出了基于相似度的中医学症状组平均相似度函数和基于基因表达式的方证关系函数发现算法3通过详尽的实验证明了算法的正确性和有效性,正确率达到了62.5本文的余下部分组织如下第2节介绍了中医学中的方证关系和GEP的基本概念和思想第3节介绍了中医方证分析,简单方证关系模型SFSM和中医学中的症状组主次分离指针编码。第4节介绍了中医学中的症状组平均距离适应度函数,第5节介绍了基于基因表达式的方证关系函数发现算法第6部分用详尽和准确的实验验证了这个方法的有效性及优越性。最后部分总结了本文的工作,并对未来的工作做出了展望。2相关工作与基本概念2.1中医学中的方证关系证syndrome是对一组有内在联系的症状symptom进行诊断后的名称。本研究进行的辨证量化研究,是针对古代存集下来的大量方剂而进行的,是对已知的方剂主治症状所进行的证的判定。一个证包含一组症状,有主症,次症之分,主症为判定证的重要性指征,在进行判定时,须具备一个以上,其权重比次症大1。建立了关于判定证的知识表即基本证候表。例如膀胱湿热证如表1所示表1基本证候表中的膀胱湿热编码分类证主症次症2.3.5湿热膀胱湿热发热,尿痛,小便频数,小便淋沥,小便灼热腰痛,尿血,尿脓,小便黄,小便少,癃闭,舌红,苔黄,苔腻,脉滑,脉数辨证的难点在于1模糊性。证可由多个不同症状排列组合而成,即证候的诊断具有模糊性,如脾气虚证就包括了气虚、脾虚、舌脉等诸多内容1。膀胱湿热证包括了主症a发热,尿痛,小便频数,小便淋沥,小便灼热.b腰痛,尿血,尿脓,小便黄,小便少,癃闭,舌红,苔黄,苔腻,脉滑,脉数。2复杂性,证内容的复杂性证1常常由一种或多种病机要素构成。如食不下,下利清谷,面虚浮,面色萎黄无华,畏寒,少气懒言,神疲乏力,舌淡白,脉沉缓无力.每首方formula均对应了一系列症状,列于症状表中,通过编号与方剂表、药物表相联。第25卷地11期计算机应用Vol.25.No,112005年11月ComputerApplicationsNov.2005如编号为1的桂枝汤,其所主治的症状为症状表中编号为1所有的症状,如下恶风、恶寒、自汗、发热、鼻鸣、干呕。表2症状表中的桂枝汤症状组方编号规范症状1恶寒1恶风1发热1干呕1鼻鸣1自汗方证分析旨在挖掘出证与方剂症状的相关性。通过方剂中一系列症状,如上图中的规范症状,与证中主症与次症的关系来判断出方剂的证1。2.2.GEP简介F.Candida于2001年草创了新的进化计算模型基因表达式编程GeneExpressionProgramming,GEP。GEP具有遗传算法的简单性和遗传编程的功能性。在对很多问题的求解效率上,比普通的遗传编程高2到4个数量级。关于GEP的研究和应用参见28等。多染色体的GEP求解时,对处理对象编码形成染色体(chromosome),每个染色体由多个基因(gene)组成,每个基因用函数连接函数(linkfuction)连接起来。GEP采用表达式树的编码方式。例1说明了基因组的形成。例1对于表达式cosyxxy2.1其对应的表达式树ExpressionTree(ET)表示为图1所示YXCXY图1ExpressionTree其中C表示cos函数,对ET进行层次遍历得到序列Cxyxy2.2在例1中的序列2.2称为表达式2.1的K表达式。其中函数集FunctionSet为cos,终结符集合TerminalSet为yx,.基因由头部和尾部组成。头部可由所有字符组成,尾部则只由终结符组成。若头部长度为h,尾部长度t=h(n1)1,其中n为函数集合中运算符的最大目数。GEP的编码方式保证了染色体总是能够解码为有效的表达式树。GEP的遗传操作与遗传算法GA6GeneticAlgorithm和遗传编程GP(GeneticProgramming)大同小异。第25卷地11期计算机应用Vol.25.No,112005年11月ComputerApplicationsNov.20053方证关系分析方证关系的最初想法是由成都中医药大学的研究小组提出,该研究小组提出了一种简单方证关系模型SFSMsimpleFormulaandSyndromeModel。SFSM建模步骤如下算法1SFSM输入某一首方F输出输入的方所对应的最可能的N个证步骤1)for(eachFormulainF)//对于方F中的每个症状2)foreachSyndrome//在基本证候表中查询3)ifInMainSymptomTableSymptom//若出现在某个证的主症中4)thenSyndromeSymptoma//权重加a5)elseifInMinorTableSymptom//若出现在某个证的次症中6)thenSyndromeSymptomb//权重加b7)endif8)endif9)endfor10)endfor11)returnTopNSyndrome()//返回得分最高的n个证实验表明,上述方法正确率只有30~35%,其原因如下1对主症、次症给予的权重(a、b)对结果的影响非常大,一般取a2,b1。但是权重具体是多少则完全由人工依据经验指定,主观性比较大。2SFSM的数学模型是yax1bx2,但是从结果来看这个线性的模型显然无法满足要求。为了满足以上需求,根据现有算法的不足和实验分析,我们提出了融合了基因表达式编程和主次分离指针编码技术的方法。3.1症状组主次分离指针编码编码是GEP求解问题的物质基础,编码的目的是把中医学中的症状组形成遗传信息载体染色体chromosome.。GEP的染色体由多个基因通过连接算符组成,基因分为头部和尾部,头部可由函数集和终结符组成,尾部只能由终结符组成。中医学的编码难点和要点在(1)证的数值化(2)方的数值化。为了表达方便,表3为本文中将要用到的数据库表名及其内容表3方证训练数据库中的表符号名称意义Tsyn基本证候证候表为每个证赋予唯一的自然数编号(Index_syn)Tsym症状表将基本证候表中出现的主、次症状以不重复的方式排列,为各个症状赋予唯一的自然数编号(Index_sym)Tfor方剂表为基本证候表中出现的每一个方赋予唯一的自然数编号Index_forTrainingdata训练集包含Tfor,Tsyn,Tsym的方证训练数据库第25卷地11期计算机应用Vol.25.No,112005年11月ComputerApplicationsNov.20053.1.1证的数值化处理为了便于编码,需要先将中医学中的证进行数值化处理。定义1证主串(SynMainStr)设L1为某个证Syndromei的主症个数,若整数数组Array1L1中的元素为Syndromei中的主症在Tsym中的编号(Index_sym),则称Array1L1为Syndromei的证主串(SynMainStr)。定义2证次串(SynMinorStr)设L2为某个证Syndromei的次症个数,若整数数组Array2L2中的元素为Syndromei中的次症在Tsym中的编号(Index_sym),则称ArrayL2为Implicationi的证次串(SynMinorStr)。在程序中,证主串和证次串用结构SynStruct实现SynStruct{intindex//证的编号intSynMainStr_MAX_SYMPTOM//证主串intSynMinorStr_MAX_SYMPTOM//证次串}SYNDROME其中_MAX_SYMPTOM为一个证中所含症状的最大数目,数组在初始化时填0。有了上述结构,一个证就可以由唯一的SYNDROME结构确定。例2症状表Tsym{(胸痛,1),(胁胀满,2),(肢冷,3),(胁痛,4),(畏寒,5),(纳差,6),(大便溏,7),(胸闷,8),(气短,9),(面白,10),(头痛,11),(自汗,12),(恶风,13),(脉促,14),(腹满,15),(噎膈,16),(胀痛,17)}胸阳不振证表4胸阳不振证分类证主症次症阳虚胸阳不振胸痛,胸闷,畏寒,肢冷,气短面白,自汗,脉促证主串1,8,5,3,9证次串10,12,14SynStruct{index20//胸阳不振证在证候表中的编号SynMainStr{1,8,5,3,9}SynMinorStr{10,12,14}}下面的给出证的编码算法算法2证编码算法SYNCSyndromeCode)输入证名SynName输出证的编码结构Syndrome步骤1.Syndrome.indexGetSyndromeNumSynName//在证候表中查到该证的编号2.Syndrome.SynMainStr{0}3.i04.foreachMainSym//填充证主串5.Syndrome.SynMainStriGetSymptomNumMainSym/通过症状名查找症状编号/第25卷地11期计算机应用Vol.25.No,112005年11月ComputerApplicationsNov.20056.endfor7.Syndrome.SynMinorStr{0}8.i09.foreachMinorSym//填充证次串10.Syndrome.SynMinorSymiGetSymptomNumMinorSym11.endfor12.returnSyndrome通过这个算法,就可以完成对一个证的数值化处理了。若n为某证的症状个数,m为总症状个数,查找按照二分法,则算法复杂度为Onlog2m.3.1.2方的数值化处理方的数值化处理思想与证相似,这里不再祥述,注意方的症状没有主、次之分,其数据结构为FormuStruct{intindex//方的编号intSymptomStr_MAX_SYMPTOM//症状串}FORMULA方的编码算法与证的编码算法类似算法3方编码算法FORCFormulaCode)输入方名ForName输出方的编码结构Formula步骤13.Formula.indexGetFormulaNumForName//在方剂表中查到该方的编号14.Formula.SymptomStr{0}15.i016.foreachSymptom//填充症状串17.Prescription.SymptomStriGetSymptomNumSymptom/通过症状名查找症状编号/18.endfor19.returnFormula通过这个算法,就可以完成对一个方的数值化处理了。以上的编码方式我们称为主次分离指针编码,其编码方式有以下优点。1编码实现了从字符串向数值数组的转化。2数组中每个整数代表了相应症状在症状表中的位置,相当于一个指向相应症状的指针,占用空间少。3分为主串和次串,分别搜索,快速简单,操作更加方便。3.1.3相似度的设定为了能够以数字值化的方法来衡量方、证间的关系,我们引入了相似度的概念定义3(主相似度HMA,次相似度HMI1设F为一个方(FORMULA)若F.SymptomStri0,则称F.SymptomStri为F中的第i个症,i∈1,,_MAX_SYMPTOM第25卷地11期计算机应用Vol.25.No,112005年11月ComputerApplicationsNov.20052设S为一个证(SYNDROME),对于j,k1,,_MAX_SYMPTOM,有a若S.SynMainStrj0,则称S.SynMainStrj为S中第j个主症b若S.SynMinorStrk0,则称S.SynMinorStrk为S中第k个次症,3称满足F.SymptomStriS.SynMainStrj的主症个数为主相似度HMAMajorHomology4称满足F.SymptomStriS.SynMinorStrk的次症个数为次相似度HMIMinorHomology。在GEP程序中终结符集合TerminalSet的定义为变量a,b,其中a。变量a,b分别为和HMA和HMI,下面给出了主相似度算法GetHMA算法4GetHMA输入方Formula,证Syndrome输出主相似度HMA1.HMAvalue0,i0,j02.foreachSymptomiinFormula/取出方的每一个症状/3.foreachSynMainStrjinSyndrome/取出证的每一个症状/4.ifFormula.SymptomStri==Syndrome.SynMainStrj5.HMAHMA1/如果是同一个症状HMA+1/6.i7.endfor8.endfor9.returnHMA容易看出,若方中症状个数为n,证中症状个数为m,则算法3的计算复杂度Onm。次相似度算法和主相似度算法相似,故省略。4.中医学中的症状组适应度函数设计4.1适应度函数简介模拟生物的遗传和进化规律,GEP使用适应度(FitnessFunction)来度量群体中个体有助于找到最优解的优良程度。适应度高的参加遗传活动的概率就大。CandidaFerreira提出了两种适应度计算方法1ånjjjTCMrorFitnessAbsoluteEr41100Re1´åjjjnjTTCMrFitnesslativeErro42分别被称为绝对误差(41)和42称为相对误差。其中M称为选择范围(RangofSelection)。Tj为第j个观测值,Cj为第j个数据输入公式的结果值,n表示测试数据的个数。在统计学中,用于评价两组数据符合程度的方法是采用复相关系数。适应度计算方法SSTSSEntFitnessnCoefficieCorrelatio143第25卷地11期计算机应用Vol.25.No,112005年11月ComputerApplicationsNov.2005ånjjjCTSSE12ånjjTTSST12其中,T为Tj的平均值。4.2中医学中的症状组适应度函数以上的适应度函数不适用于中医的特殊环境,需要设计一种新颖的适应度函数。首先我们引入定义4(差距值)设P是一个方,F是P对应的证,m1,m2分别是方P对证F的主相似度和次相似度(m1,m2≠0),y=f(a,b)进化后某一函数,F1是一个证,F1≠F,且m3,m4分别是方P对证F1的主相似度和次相似度(m3,m4≠0)1设yf(m1,m2)称y为最优计算值(BestValue)。2设y1f(m3,m4),如果y1>y,则称y-y1为差距值。易知差距值全为负值。由定义2,可推导出以下性质性质11当BestValue不是最大时∵YiY∴å¹Tjiiiyy,1<0即FSDistance<02当BestValue是最大值时FSDistance=0,即FSDistance是最大值时,BestValue为最大。定义5(基于罚函数的单方适应度值计算)称下列表达式为罚函数(PunishFitness)FitnessaTyynjiiijå¹Ç´1},0min{a(44)其中,a0确定罚函数作用强度的系数,n为与方a存在相似度的证,jy为最优计算值,iy是证i计算值,T是满足jy-iy0的证的个数。解释定义3之前,先简单介绍罚函数的概念。在GA中对于在解空间无对应可行解的个体,计算其适应度时,处以一个罚函数,从而降低该个体适应度,使其遗传到下一代的概率减小。即用下式来对个体的适应度进行调整îíì¢不满足约束条件满足约束条件时xxPxFxxFxF45Fx为原始适应度,Fx为考虑了罚函数之后的适应度函数,Px为罚函数。受罚函数的启发,考虑到最优计算值jy应该为最大,即约束条件为yiBestValue,则称证i不满足约束条件,处以罚函数。定义6(平均适应度函数)称下列表达式为Average_Fitness第25卷地11期计算机应用Vol.25.No,112005年11月ComputerApplicationsNov.2005Fitness=njFnjå146其中Fj为方j的适应度值。n为满足FjBestValue//如果大于最优计算值7.FSDistanceDistancey1-BestValuea8.n9.i10.endfor11.FSDistanceFSDistance/n//n表示添加次数5基于基因表达式的方证关系函数发现算法使用基因表达式编程,结合新的方证距离的适应度值算法对基本方证训练数据集中方的未知证的预测.由于基于基因表达式的方证关系函数发现算法(MindingRelationshipArithmeticbasedonImprovedGeneExpressionProgramming,)MRAGEP与GEP在基本步骤上一样,但是计算其适应度值时是基于方证距离的平均适应度函数。前面已经详细介绍了此种适应度函数,限于篇幅故我们省略MRAGEP的算法步骤。
编号:201312191325565394    大小:365.62KB    格式:PDF    上传时间:2013-12-19
  【编辑】
5
关 键 词:
管理 组织 经营
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
  人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

当前资源信息

4.0
 
(2人评价)
浏览:7次
abingge上传于2013-12-19

官方联系方式

客服手机:13961746681   
2:不支持迅雷下载,请使用浏览器下载   
3:不支持QQ浏览器下载,请用其他浏览器   
4:下载后的文档和图纸-无水印   
5:文档经过压缩,下载后原文更清晰   

相关资源

相关资源

相关搜索

管理   组织   经营  
关于我们 - 网站声明 - 网站地图 - 友情链接 - 网站客服客服 - 联系我们
copyright@ 2015-2017 人人文库网网站版权所有
苏ICP备12009002号-5