基于遗传算法的中药药对挖掘系统的设计与实现.doc

上传人：简*** IP属地：湖北上传时间：2019-12-26 格式：DOC 页数：29 大小：527.01KB 积分：9.6 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

分类号分类号 TP312TP312 U U D D C C D10621 408 2007 D10621 408 2007 5973 05973 0 密密级公级公开开编编号号 20030312862003031286 成成都都信信息息工工程程学学院院学学位位论论文文基于遗传算法的中药药对挖掘系统的设计与实现基于遗传算法的中药药对挖掘系统的设计与实现论论文作者姓名文作者姓名吴吴金金伟伟申申请请学位学位专业专业计计算机科学与技算机科学与技术术申申请请学位学位类别类别工学学士工学学士指指导导老老师师姓名姓名职职称称曾令明曾令明讲师讲师论论文提交日期文提交日期 2007 年年 06 月月 10 日日基于遗传算法的中药药对挖掘系统的设计与实现基于遗传算法的中药药对挖掘系统的设计与实现摘摘要要用数据挖掘技术研究了中药方剂配伍的规律主要工作分析了关联规则存在的问题引入双向关联规则的概念介绍了遗传算法的基本原理研究了遗传算法在数据挖掘中的应用将方剂库转换为位图矩阵大大提高搜索效率开发了一个基于遗传算法的中药药对药组挖掘系统论文组织如下介绍了研究背景和意义阐述了相关的理论基础提出了系统的设计方案详细展示了基于遗传算法的双向关联规则挖掘系统的实现过程包括位图矩阵的实现个体的编码方法适应度函数的设计规则的提取选择交叉变异等遗传操作的实现等利用脾胃类方剂库对系统进行了测试并对测试结果进行了分析结果证明该系统能够快速高效地从方剂库中找出具有重要意义的药对药组对中医药的研究发展有一定意义关键词关键词数据挖掘置信度双向关联规则遗传算法 The Design and Implementation of Chinese Medicine Groups Mining System based on Genetic Algorithm Abstract This paper researches the compatibility of chinese medicine prescriptions by data mining techniques The main contributions include analyzes the problems in the association rules and introduces the concept of the bidirectional association rule presents the foundation principle of genetic algorithm GA and studys the application of GA in the data mining converts chinese medicine prescriptions database to a bitmap matrix which greatly enhances the efficiency of search develops a chinese medicine groups mining system based on GA The paper is organized as follows Section 1 introduces the background and significance Section 2 sets forth the basis of the relevant theories Section 3 proposes the design project of the system Section 4 detailedly shows the implementation of the system including the implementation of bitmap matrix the individual coding method the design of fitness function rules of the extraction genetic operations Section 5 gives a test of the system on the prescriptions database about spleen and stomach and analyzes the results It is proved that this system can find important and significant Chinese Medicine Groups from the prescriptions database and is meaningful for the research of Chinese medicine Key words Data mining Confidence Bidirectional association rule Genetic algorithm 目目录录论文总页数 24 页 1引言 1 1 1背景 1 1 2意义 1 2理论基础 1 2 1关联规则及存在的问题 1 2 2双向关联规则 2 2 3遗传算法简介 4 3需求分析及设计方案 5 4基于遗传算法的双向关联规则挖掘算法具体流程及实现 7 4 1位图矩阵实现 7 4 2编码 9 4 3适应度函数 11 4 3 1适应度函数设计 11 4 3 2适应度函数的实现 11 4 4规则的提取 14 4 5遗传操作 15 4 6算法流程 18 5测试 18 结论 21 参考文献 22 致谢 23 声明 24 第 1 页共 24 页 1 1引言引言 1 11 1背景背景我国作为最大的中药材资源国有着传统中医药文明的发祥地的地位但是如今正面临着诸多挑战我国在世界的中药市场上却未能占有基本的主导地位反而日本韩国等国家成功地利用现代数据挖掘科技把中药行业发展成现代产业占据了国际市场相当的份额因此继承和发展中医药不仅是中医界也是全国其他科研院校和科研机构的重要课题中药对数据挖掘就是利用药对数据库从大量的中药对中抽取隐含的未知的有意义的药物组配模式中药对数据挖掘将为中医方剂理论研究和中医临床用药研究提供重要模式参考也为方剂配伍理论研究尤其是新药对新药组发现研究提供新方法和现代技术手段 1 21 2意义意义关联规则是数据挖掘中的重要技术之一它能反映在事务数据库中数据项之间同时出现的规律并发现不同数据项之间的联系关联规则通过量化的数字描述数据项 A 的出现对数据项 B 的出现产生的影响例如在大型商场中牛奶的销售对面包的销售的影响发现这样的规则不仅可以应用于商品货架设计货存安排而且可以根据购买模式对用户进行分类制定相应商务决策销售策略由于关联规则挖掘具有重要的现实意义吸引了许多学者的研究提出了众多的关联规则挖掘算法目前所有的关联规则挖掘算法都是基于支持度置信度框架理论具有较多的局限性本文通过分析这些不足之处引入双向关联规则的概念实现了基于遗传算法的双向关联规则挖掘算法 2 2理论基础理论基础 2 12 1关联规则及存在的问题关联规则及存在的问题关联规则是形如 A B 的蕴涵式挖掘关联规则分为两步第一步是识别所有的频繁项集即支持度不小于用户指定的最小支持度的项集第二步是从频繁项集中构造其置信度不低于用户给定最小置信度的规则即强规则这种基于支持度置信度框架理论的关联规则挖掘方法存在如下问题 1 不能有效地发现低支持度高置信度的有趣规则基于支持度置信度框架理论的关联规则挖掘方法找到的强规则必须同时满足最小支持度阈值和最小置信度阈值但有时人们感兴趣的规则往往是低支持度高置信度的 8 例如超市中两物品 A 和 B 它们的销售量虽然很低但经常是同时被顾客购买管理人员希望将这种低支持度高置信度的规则找出来 2 不能确定相互依赖的规则第 2 页共 24 页关联规则反映 A B 同时出现的概率和 A 出现的条件下 B 出现的条件概率这样的规则只能确定 A 对 B 的依赖不能同时确定 B 对 A 的依赖但很多时候人们感兴趣的是相互依赖的规则例如中药的药组药对中药之间必须是相互依赖的如果药物 A 和 B 是药对则必须是 A 通常与 B 配伍同时 B 也是通常与 A 配伍如果只是 A 通常与 B 配伍但 B 并不常与 A 配伍则 A 和 B 不是药对因为 B 通常是只起辅助药性作用的药这类药常在各种方剂中出现用基于支持度置信度框架理论的关联规则挖掘方法不能找出上述中药药组药对 3 找到的强规则并不一定是有趣的甚至是错误的假定对分析涉及的家用电脑和 VCD 播放机的事务感兴趣在所分析的 10000 个事务中 6000 个事务包含家用电脑 7500 个事务包含 VCD 播放机 4000 个事务同时包含家用电脑和 VCD 播放机运行传统的关联规则挖掘程序最小支持度 30 最小置信度 60 将发现下面的关联规则 buys X computer buys X vcd player support 40 confidence 66 该规则是强关联规则可事实上电脑和 VCD 播放机是负相关的买其中之一实际上减少了买另一种的可能性因为购买 VCD 播放机的可能性是 75 大于 66 2 22 2双向关联规则双向关联规则定义定义 1 双向关联规则双向关联规则设 I i1 i2 im 是项的集合任务相关的数据 D 是数据库事务的集合其中每个事务 T 是项的集合使得 T I 每个事务有一个标示符称作 TID 设 A 是一个项集事务 T 包含 A 当且仅当 AT 如果 AI BI 并且 A B 则形如 A B 的表达式称为双向关联规则显然双向关联规则是同时满足 A B 和 B A 的规则反过来也可以说同时满足 A B 和 B A 的规则是双向关联规则所有双向关联规则 A B 有两个置信度一个是关联规则 A B 的置信度 conf A B P B A P AB P A 另一个是关联规则 B A 的置信度 conf A B P A B P AB P B 置信度 conf A B 表示 A 出现的条件下 B 出现的条件概率也就是 A 和 B 同时出现的概率与 A 出现的概率的比值它反映了 A 对 B 的依赖程度它的值越大则 A 对 B 的依赖越强反之值越小则 A 对 B 的依赖越弱如果值为 1 则意味着 A 的每一次出现都伴随着 B 的出现反过来则不一定 A 对 B 是 100 的依赖第 3 页共 24 页置信度 conf B A 表示 B 出现的条件下 A 出现的条件概率也就是 B 和 A 同时出现的概率与 B 出现的概率的比值它反映了 B 对 A 的依赖程度它的值越大则 B 对 A 的依赖越强反之值越小则 B 对 A 的依赖越弱如果值为 1 则意味着 B 的每一次出现都伴随着 A 的出现反过来则不一定 B 对 A 是 100 的依赖双向关联规则 A B 的这两个置信度共同反映了 A 和 B 的相互依赖程度我们很多时候对相互依赖程度高的规则即下面定义的强双向规则感兴趣定义定义 2 强双向规则强双向规则规则 A B 和 B A 同时满足最小置信度阈值 min conf 的双向规则称作强双向规则下面把上述概念推广到多个项集之间的情况定义定义 3 n 个项集的双向关联规则个项集的双向关联规则设 Ci I 2 i n 并且 Ci Cj 2 i n 2C2C3 Cn C2 C1C3 Cn Ci C1C2 Ci 1Ci 1 Cn Cn C1C2 Cn 1的规则此时 C1 C2C3 Cn C2 C1C3 Cn Ci C1C2 Ci 1Ci 1 Cn Cn C1C2 Cn 1的置信度分别为 Conf C1 C2C3 Cn P C2C3 Cn C1 P C1C2 Cn P C1 Conf C2 C1C3 Cn P C1C3 Cn C2 P C1C2 Cn P C2 Conf Cn C1C3 C n 1 P C1C2 C n 1 Cn P C1C2 Cn P Cn 如果 C1 C2C3 Cn C2 C1C3 Cn Ci C1C2 Ci 1Ci 1 Cn Cn C1C2 Cn 1同时满足最小置信度阈值 min conf 则项集 C1 C2 Cn的双向关联规则是强双向规则项的集合称为项集 itemset 包含 k 个项的项集称为 k 项集我们把上述概念用于 k 项集可得到如下定义定义定义 4 项的置信度项的置信度设 Tk I1 I2 Ik 是一个 k 项集 Ii 1 I k 是 Tk的一项则 k 项集 Tk的项 Ii 的置信度 conf Ii Tk 为事务数据库 D 中包含 Ii 的事务同时包含 I1 I2 I i 1 I i 1 Ik 的百分比即 Conf Ii Tk P I1 I2 I i 1 I i 1 Ik Ii P I1 I2 Ii Ik P Ii 定义定义 5 k 项集强双向规则项集强双向规则设 Tk I1 I2 Ik 是事务数据库 D 中一个 k 项集如果 Tk的任一项的置信度都满足最小置信度阈值 min conf 则称 k 项第 4 页共 24 页集 Tk为符合强双向规则的 k 项集简称 k 项集强双向规则 2 32 3遗传算法简介遗传算法简介遗传算法 Genetic Algorithm GA 是近几年发展起来的一种崭新的全局优化算法 1962 年霍兰德 Holland 教授首次提出了 GA 算法的思想它借用了仿真生物遗传学和自然选择机理通过自然选择遗传变异等作用机制实现各个个体的适应性的提高从某种程度上说遗传算法是对生物进化过程进行的数学方式仿真这一点体现了自然界中物竞天择适者生存进化过程与自然界相似遗传算法对求解问题的本身一无所知它所需要的仅是对算法所产生的每个染色体进行评价把问题的解表示成染色体并基于适应值来选择染色体使适应性好的染色体有更多的繁殖机会在算法中也即是以二进制编码的串并且在执行遗传算法之前给出一群染色体也即是假设解然后把这些假设解置于问题的环境中也即一个适应度函数中来评价并按适者生存的原则从中选择出较适应环境的染色体进行复制淘汰低适应度的个体再通过交叉变异过程产生更适应环境的新一代染色体群对这个新种群进行下一轮进化至到最适合环境的值由于遗传算法是由进化论和遗传学机理而产生的搜索算法所以在这个算法中会用到很多生物遗传学知识下面是将会用到的一些术语说明一染色体 Chromosome 染色体又可以叫做基因型个体 individuals 一定数量的个体组成了群体 population 群体中个体的数量叫做群体大小二基因 Gene 基因是串中的元素基因用于表示个体的特征例如有一个串 S 1011 则其中的 1 0 1 1 这 4 个元素分别称为基因三适应度 Fitness 各个个体对环境的适应程度叫做适应度 fitness 为了体现染色体的适应能力引入了对问题中的每一个染色体都能进行度量的函数叫适应度函数这个函数是计算个体在群体中被使用的概率四种群 population 染色体带有特征的个体的集合称为种群该集合个体数称为种群个体的大小 3 3需求分析及设计方案需求分析及设计方案由于事务数据库一般只具有对大量数据的存取检索功能对于用户的一般性的使用可以满足然而正是由于数据库中存放了大量的数据不同的数第 5 页共 24 页据项以及多个数据项之间还存在有大量的隐含的未知的有意义的数据关系这些关系对于用户有着及其重要的作用所以数据挖掘便在此情况下产生了遗传算法是数据挖掘技术中的一个重要算法这是由于它具有快捷简便鲁棒性强适于并行处理以及高效实用等显著特点在各类结构对象的优化过程中显示出明显的优势它的思想源于生物遗传学和适者生存的自然规律是具有生存检测的迭代过程的搜索算法遗传算法以一种群体中的所有个体为对象并利用随机化技术指导对一个被编码的参数空间进行高效搜索其中选择交叉和变异构成了遗传算法的遗传操作初始种群编码初始群体个数的设定适应度函数的设计遗传操作设计控制参数设定五个要素组成了遗传算法的核心内容与传统的搜索方法相比遗传算法具有如下特点 1 搜索过程不直接作用在变量上而是在参数集进行了编码的个体此编码操作使得遗传算法可直接对结构对象集合序列矩阵树图链和表进行操作 2 搜索过程是从一组解迭代到另一组解采用同时处理群体中多个个体的方法降低了陷入局部最优解的可能性并易于并行化 3 采用概率的变迁规则来指导搜索方向而不采用确定性搜索规则对搜索空间没有任何特殊要求只利用适应性信息不需要导数等其它辅助信息适应范围更广中国自古以来就有着传统中医药文明的发祥地的地位中药是我国特有的资源但是中国本土中医学长期以来的发展并不是很大在国际医学界就更不具有很强的地位多年的时间过去了中药方剂的更新和发展并没有很大的变化很多都还建立在很久以前就有的方剂基础之上没有出现比较多的较新的方剂应用遗传算法的数据挖掘系统在此情况下可以发挥着及其重要的作用通过数据系统能够在药对数据库的大量数据中找到很多隐含的未知的并很有应用价值的药对药组以及很多的有意义的药物组配的规则和模式中药对数据挖掘还将为中医方剂理论研究和中医临床用药研究提供重要模式参考也为方剂配伍理论研究尤其是新药对新药组发现研究提供新方法和现代技术手段在系统进行数据挖掘过程中为了减少对事务数据库的扫描提高挖掘效率本文先把事务数据库转化成位图矩阵然后再在此位图矩阵上挖掘有趣的强双向关联规则下面是对位图矩阵模型的描述用 Ik k 为自然数表示事务数据库中的一项 I1 I2 Ik In表示事务数据库中的所有项用 Tj i1 i2 ik in 表示事务数据库中的一个事务 ik对第 6 页共 24 页应 Ik 占用 1 位 bit 当事务 Tj含有 Ik这项时 Tj 的 ik位为 1 否则为 0 所以事务 Tj可以用位图 i1i2 ik in来表示 T1 T2 Tj Tm表示事务数据库中所有的事务 T1 T2 Tj Tm都可以用位图 i1i2 ik in来表示这样所有这些位图就构成了事务数据库的位图矩阵 11010 01001 10110 11101 10100 11001 01010 图 1 就是一个位图矩阵该位图矩阵对应的事务数据库含 I1 I2 I3 I4 I5共 5 个项含 T1 T2 T3 T4 T5 T6 T7共 7 个事务事务 T1的位图为 11010 所以含 I1 I2 I4三个项事务 T2的位图为 01001 所以含 I2 I5两个项事务 T3的位图为 10110 所以含 I1 I3 I4三个项事务 T4的位图为 11101 所以含 I1 I2 I3 I5四个项事务 T5的位图为 10100 所以含 I1 I3两个项事务 T6的位图为 11001 所以含 I1 I2 I5三个项事务 T7的位图为 01010 所以含 I2 I4两个项得到事务数据库的位图矩阵后就很容易求出某双向关联规则的支持度计数例如要求出图 1 所对应事务数据库中 I2和 I4同时出现的次数先设计只包含 I2 I4两个项的事物 T 其位图为 01010 判断由 I2和 I4构成的规则是否出现在事务 Tk中只需判断 T 的位图与 Tk的位图按位相与操作后得到的新位图是否与 T 的位图相同如果相同则说明事物 Tk包含由 I2和 I4构成的规则反之则不是通过用 T 的位图与事务数据库中每一事务的位图进行上述操作可以求出由 I2和 I4构成的规则的支持度计数这种方法是高效的理由有两点一是事务数据库的位图矩阵相对于事务数据库本身在尺寸上大大减小了二是按位相与运算速度很快 4 4基于遗传算法的双向关联规则挖掘算法基于遗传算法的双向关联规则挖掘算法具体流程及实现具体流程及实现 4 14 1位图矩阵实现位图矩阵实现本设计使用的后台数据库为 SQL2000 用到的数据表为药物表和方剂表 I1 I2 I3 I4 I5 图 1 一个位图矩阵的例子 T1 T2 T3 T4 T5 T6 T7 第 7 页共 24 页位图矩阵的建立是在查询数据库中数据的基础上产生的在查询数据库得到的位图矩阵中行表示方剂列表示此数据库中的药物矩阵中的数据项由 1 和 0 表示假如 R i j 1 R 表示位图矩阵 i 表示横坐标 j 表示纵坐标表示第 i 个方剂中含有第 j 位对应的药物建立位图矩阵的步骤如小 1 使用 sql 查询语句通过查询方编号得到方剂表中的方剂的总数量以此得到位图矩阵的行也就相当于上一小节提到的事务 Tk String queryId select 方编号 from 方剂表 Class forName com microsoft jdbc sqlserver SQLServerDriver 通过 JDBC 建立数据库连接 Connection dbConn DriverManager getConnection dbURL userName userPwd 连接到数据库提供相应的用户名密码 Statement stmt dbConn createStatement ResultSet TYPE SCROLL SENSITIVE ResultSet CONCUR UPDATABLE 用 dbConn 连接创建 SQL 语句对象 ResultSet rsId stmt executeQuery queryId while rsId next drugId i rsId getString 1 把方编号存入数组经过以上语句此时得到了位图矩阵所需要的行的信息即方编号并把此数据存放到名字为 drugId 的数组中数组中存放的数据的个数即为方剂的数量也就是以后用到的位图矩阵的行数 2 接下来需要得到位图矩阵的列数和列所对应的药物的名称 String drugName new String 405 定义存放药名的数组 String queryName select 药名 from 药物表定义查询药物表中药名的 sql 语句 ResultSet rsName stmt executeQuery queryName 定义存放查询得到的结果集的变量 int p 0 while rsName next if p 0 drugName i rsName getString 1 第 8 页共 24 页此句判断如果数组中没有数则直接放入该数 else int j for j 0 j i j if drugName j equals rsName getString 1 break 此循环语句用于判断 drugName 数组中是否存有与当前药名相同的数据如果有就直接跳出循环否则一直执行到所存放的数据处 f j i drugName i rsName getString 1 如果没有重复数据则把当前药名存入数组中 p 由以上语句得到了位图矩阵的列的信息列的每一位表示一味药并且药名存放在 drugName 数组中此数组中数据的个数即为位图矩阵列的个数 3 在行信息和列信息都产生好之后第三步是产生矩阵的数据把个矩阵构造完成 for i 0 i 1060 i 外层 for 循环控制位图矩阵的行根据每行为一个方剂做为一个整体确定每行中的数据项的值 String queryName1 select 药名 from 药物表 where 方编号 drugId i 申明 sql 语句用于指定的方编号查询得到对应方剂中所存放的药物 ResultSet rsName1 stmt executeQuery queryName1 申明 rsName1 结果集对象每次查询所得到的值都存放在其中方便以后的数据取用 while rsName1 next temp l rsName1 getString 1 把每次查找出的药名存放在临时数组 temp 中用于矩阵数据的确定 int k 第 9 页共 24 页 for k 0 k l k 外层 for 循环用于控制数组 temp 的下标 for j 0 j 405 j 内层 for 循环用于控制数组 drugName 的下标 if temp k equals drugName j matrix i j 1 else if matrix i j 1 判断当 temp 数组和 drugName 数组的值相等时对应的位图矩阵的值为字符 1 当当前位图矩阵的值为字符 1 但是数组 temp 与 drugName 数组的不等时不作任何动作当以上条件都不满足时位图矩阵对应位置的值为字符 0 经过以上的程序段就构造出了一个由 0 和 1 作为其每项值的矩阵此矩阵就是所要构建的位图矩阵位图矩阵的构造完成为以后的运算带来了不用反复查询事务数据库的繁琐提高了算法的效率增加了运算的速度 4 24 2 编码编码用遗传算法进行双向关联规则挖掘编码是要解决的首要问题编码方法不仅决定了个体排列形式而且决定了个体从搜索空间的基因型变换到解空间的表现型时的解码方法编码方法还影响到交叉变异等遗传操作由于前面我们已经用位图矩阵来描述事务数据库对双向关联规则的挖掘可以直接在位图矩阵上进行因此本文理所当然采用二进制编码编码串的长度为事务数据库中项的个数由前面产生的位图矩阵可以知道编码串的长度为 405 产生初始种群的代码如下 for i 0 i 50 i int t int Math random 28 随机产生每行字符数组个体染色体中 1 的个数 while true 如果是 0 就重新生成 if t 0 第 10 页共 24 页 t int Math random 28 else break int tempLoc new int t int 数组装随机产生的数的下标数即产生 1 的位置 for j 0 j 405 j radomDrug i j 0 for j 0 j t j int loc if j 0 loc int Math random 405 tempLoc j loc radomDrug i loc 1 else loc int Math random 405 for p 0 p j p if loc tempLoc p loc int Math random 405 p 0 if p j tempLoc j loc radomDrug i loc 1 产生随机数完毕产生初始种群也就是生成随机数的过程首先用一个整形变量 t 存放每次随机产生的 1 的个数因为通过查询药物数据库中方剂表可以得知整个第 11 页共 24 页方剂表中所有方剂中的药物最多不超过 27 味所以需要用一个变量控制每次随机产生的个体随机数中 1 的个数在 t 产生之后紧接着就是产生每个个体中 1 的位置在此处代码中所体现的就是用用一个整形数组 tempLoc 存放而数组中所存数据的个数则是上一步随机产生的变量 t 的值来控制并且在产生除第一个位置的时候每产生一个位置后都首先与之前 tempLoc 数组中的数判断如果当前产生的数与 tempLoc 数组中的数相同则要求重新随机产生直到没有重复为止位置得到以后所要做的就是对应位置上项的值给赋值为 1 其余的赋值为 0 这样经过几层循环的运算后就得到了所要进行遗传算法运算的初始种群了 4 34 3 适应度函数适应度函数 4 3 14 3 1 适应度函数设计适应度函数设计遗传算法中使用适应度来度量种群中各个体在优化计算中可能达到或有助于找到最优解的优良程度适应度较高的个体遗传到下一代的概率就较大适应度函数直接影响问题求解的效率本文挖掘的双向关联规则要求规则中任一项的置信度都必须满足最小置信度阈值 min conf 例如 C1 C2 Cn的双向关联规则须同时满足 P C1C2 Cn P C1 min conf P C1C2 Cn P C2 min conf P C1C2 Cn P Cn min conf 显然只需满足 P C1C2 Cn max P C1 P C2 P Cn min conf 即可 max P C1 P C2 P Cn 表示 P C1 P C2 P Cn 之中的最大值于是将适应度函数设计为 F rc1c2 cn count C1C2 Cn max count C1 count C2 count Cn 其中 rc1c2 cn为 C1 C2 Cn构成的双向关联规则 count C1C2 Cn 为 C1C2 Cn 的支持度计数 count C1 count C2 count Cn 分别为 C1 C2 Cn的支持度计数 max count C1 count C2 count Cn 表示 count C1 count C2 count Cn 中的最大值 4 3 24 3 2 适应度函数的实现适应度函数的实现由以上的表达式可以得出要计算种群中个体的适应度首先要计算出 count C1C2 Cn 和 max count C1 count C2 count Cn 它们两个作为计算第 12 页共 24 页适应度函数的分子与分母它们两个表达式对应于位图矩阵和种群的关系是以下关系 count C1C2 Cn 的计算是通过把每个随机数种群个体与位图矩阵中的每个方剂对应的数每项个值所组成的数进行与操作计算其结果等于随机数自身的次数 count Ci 是对在位图矩阵的第 i 列中所有 1 的累加即计算在位图矩阵的第 i 列中为 1 的次数 max count C1 count C2 count Cn 则是表示所有累加值中的最大数由于在本设计中使用的编程语言为 java 语言为了方便随机个体与位图矩阵中的每项的值进行比较采用了位图矩阵以及得到的种群都是由 0 1 字符组成的方式并不是有真正的二进制数表示因此在进行上面提到的个体与位图矩阵的每行的与操作时是一项一项的比较并不是真正意义上的与操作在设计中进行与操作的方式是判断个体中含有 1 的位置在位图矩阵的每行对应位置是否也会为 1 如果判断为真就相当于进行的与操作等于它本身则 count 需要加 1 如果某一位置上的 1 在位图矩阵中的对应位置为 0 则相当于进行的与操作不等于它本身从而 count 不需要加 1 因此第一对位图矩阵中的所有值为 1 的位置进行记录此处是用的向量组进行记录每个向量记录每行中的为 1 的位置外循环控制行数在每次外循环时就给向量分配内存空间内循环控制每行中的下标的移动随着下标的移动查询到值为 1 的下标并记录到向量中 Vector Mloc new Vector 1060 for i 0 i 1060 i Mloc i new Vector for j 0 j 405 j if matrix i j 1 Mloc i add j 第二把产生的种群中的所有值为 1 的位置进行记录在此处同样是通过向量组进行的记录每个向量记录每个种群个体中的 1 的位置 Vector Rloc new Vector 50 for i 0 i 50 i Rloc i new Vector 第 13 页共 24 页 for j 0 j 405 j if radomDrug i j 1 Rloc i add j 第三根据位图矩阵和初始种群中 1 的位置得到的两个向量数组 Mloc 和 Rloc 每次把 Rloc 数组中的一向量与数组 Mloc 中的所有向量比较每次都比较两个向量中所存放的 1 的位置如果 Rloc 中的向量所存放的数在 Mloc 中的向量都有相同的数存在即种群个体与位图矩阵每行所组成的数进行与操作的值等于种群个体自身则使用数组 count 记录下每次与操作都等于其自身的次数 for i 0 i 50 i flag false count i 0 for p 0 p 1060 p for j 0 j Rloc i size j if Mloc p contains Rloc i get j flag true else flag false if flag count i 经过此段代码的运算数组 count 存放了每个初始种群个体与位图矩阵进行与操作等于其自身的次数即得到了计算适应度函数的分子的值第四计算适应度的分母即计算出每个初始种群个体中为 1 的位置在位图矩阵对应列中出现的次数然后通过 max 函数计算出刚计算出的次数中的最大值最后存放计算出的每个最大值在数组中用于适应度的计算 for i 0 i 50 i 第 14 页共 24 页 int countR new int 405 countR 存放随机数中每行中的为 1 的数所对应位图矩阵中此列的 1 个个数 int k 0 for j 0 j 405 j if radomDrug i j 1 countR k countD j int max 0 for int tt 0 tt k tt 找到每行中为 1 的数在位图矩阵中对应列出现的个数的最大值 if max Math max max countR tt max countR tt countMax i max 第五把上面计算得到的分子分母值进行计算得到每个初始种群个体的适应度 float fit new float 50 计算选择概率放在 fit 数组中 int fitD new int 50 计算适应度并保存在 fitD 数组中 for i 0 i 50 i fit i float count i float countMax i fitD i int fit i 100 System out print fit i fitD i 计算出随机数的置信度 4 44 4 规则的提取规则的提取由于挖掘的双向关联规则只要满足最小置信度阈值就是需要的规则因此在每一代种群计算适应度后将其中适应度大于或等于 min conf 则把该个体放入规则库中放入时判断规则库中是否已存在该个体如果存在则不放入在设计中 min conf 是通过输入框输入的到并把值存放到变量 getV 中 for i 0 i getV 第 15 页共 24 页 if z 0 for j 0 j 405 j rule h j radomDrug i j rfitD h fit i h else int k for k 0 k 50 k for j 0 j h j if gener k equals ruleStr j false continue else break if j h for j 0 j 405 j rule h j radomDrug i j rfitD h fit i h 4 54 5 遗传操作遗传操作遗传操作主要包括选择交叉和变异 1 选择 selection 本文的选择操作采用轮盘赌选择法将个体的适应度与种群的总适应度种群所有个体的适应度之和相比得到该个体的相对适应度所有个体的第 16 页共 24 页相对适应度之和为 1 使用个体的相对适应度来作为其在选择操作中被选中的概率每一轮选择产生一个 0 1 均匀随机数将该随机数作为选择指针来确定被选个体适应度大的个体被选中的概率大参与复制交叉生成新一代种群的机会就大反映了自然界生物进化物竞天择适者生存的自然法则在本设计中轮盘赌选择法的实现方式是首先计算出总的适应度的和 sum 然后随机产生 1 到 sum 之间的数根据产生的随机数得到对应的种群个体此方式正是模拟了遗传的特点适应度大的被选中的几率就大反之被选中的几率就小下面此循环就是计算适应度的总和 for i 0 i 50 i sum fitD i 以下代码则是轮盘赌算法的实现 for i 0 i n break else m j gener i Ch m 最后把根据轮盘赌算法选中的种群个体存放到 gener 数组中 2 交叉 crossover 实际应用的事务数据库中项的个数往往比较大即编码串比较长为了促进解空间的搜索防止过早地收敛本文交叉操作的交叉点数由确定其中的 n 为遗传算法的一个输入参数在运行时设置可以设置为 10 20 等交叉位随机产生例如图 1 所对应的事务数据库如果 n 设置成 10 则为单点交叉对于父代个体 1 11010 和父代个体 2 01001 若随机产生的交叉点是 3 则交叉后产生的子代个体 1 和子代个体 2 分别为 11001 01010 染色体的交叉的实现代码如下第 17 页共 24 页 while i jcha 2 m int Math random 50 选择进行交换的两个体的下标 m n int ra int Math random 50 n m ra 50 p int Math random 405 p 值为染色体交换位 CharSequence rt1 gener m subSequence p gener m length 第 p 位后的染色体交换 CharSequence rt2 gener n subSequence p gener n length gener m gener m replace gener m subSequence p gener m length rt2 gener n gener n replace gener n subSequence p gener n length rt1 i 3 变异 mutation 因为初始种群的产生是随机的所以事务数据库中所有的项并不一定都出现在初始种群中这会造成部分规则的遗漏以及过早收敛因此本文进行变异操作时先以一概率随机选择个体选中后随机产生变异位对变异位作翻转操作变异的实现在本设计中是通过随机产生需要进行变异的种群个体和选中个体中需要变异的的染色体位置然后把此位置对应的值进行翻转把 1 变成 0 或者把值为 0 的变成 1 for j 0 j byg j p int Math random 405 个体中染色体变异 for k 0 k 10 k p1 k int Math random 405 p 405 int p2 int Math random 50 产生变异的个体的位置 char bianyi gener p2 toCharArray for k 0 k 10 k if bianyi p1 k 1 bianyi p1 k 0 else 第 18 页共 24 页 bianyi p1 k 1 for k 0 k 405 k 变异后再转换成字符串 if k 0 gener p2 String valueOf bianyi k else gener p2 String valueOf bianyi k 4 64 6 算法流程算法流程 5 5测试测试本论文将上述方法用于中药配伍规律的研究中从大量古今中药方剂中挖掘药对药组药对是临床上相对固定的两味药物的配伍形式是中药配伍中的 N 开始产生初始种群计算适应度把符合要求的个体放入规则库达到预设世代数选择交叉变异结束 Y 图 2 基于遗传算法的双向关联规则挖掘算法流程图第 19 页共 24 页最小单位药组是临床上相对固定的两味药物以上的配伍形式也可以把它看作不限于两味药物的特殊药对这些药对药组对于研究中药配伍规律具有重要意义本文实验基于脾胃类方剂库该方剂库含 1060 首方剂涉及 405 味药实验采用了基于遗传算法的双向关联规则挖掘算法来寻找药对药组此系统具有的数据挖掘功能其中有两个选择的模式一是一般模式状态下的双向关联规则挖掘用户可以输入相应的最小置信度和遗传的代数二是高级设置模式下的双向关联规则挖掘用户可以输入初始种群个数遗传代数最小置信度和变异率四个参数图 3 一般模式状态下的双向关联规则挖掘界面图 4 高级设置状态下的双向关联规则挖掘界面第 2

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于遗传算法的中药药对挖掘系统的设计与实现.doc

文档简介

温馨提示

最新文档

评论

基于遗传算法的中药药对挖掘系统的设计与实现.doc

文档简介

温馨提示

最新文档

评论

相关文档