X第三部分数据挖掘与统计决策决策树关联遗传_第1页
X第三部分数据挖掘与统计决策决策树关联遗传_第2页
X第三部分数据挖掘与统计决策决策树关联遗传_第3页
X第三部分数据挖掘与统计决策决策树关联遗传_第4页
X第三部分数据挖掘与统计决策决策树关联遗传_第5页
已阅读5页,还剩145页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程名称:数据挖掘与统计决策

教师:廖芹

Email:maqliao@问题:如果有60个因素影响银行贷款,要判别是否给企业贷款,如何用少数主要的若干个影响因素,建立贷款判别规则?即如何从一组数据提取具有因果关系的分类判别规则?

决策树:通过样本数据对分类类别信息的确定性程度,建立树结构表示分类因果关系,以提取分类规则的分类方法。问题:对下列14个分类样本数据集,如何建立天气分类决策树?五、数据挖掘方法——决策树决策树-ID3算法P150五、数据挖掘方法——决策树决策树-ID3算法P152五、数据挖掘方法——决策树决策树-ID3算法P153在条件V下,减少或五、数据挖掘方法——决策树决策树-ID3算法P153五、数据挖掘方法——决策树决策树-ID3算法P154五、数据挖掘方法——决策树决策树-ID3算法补充———类似P155(5.6)五、数据挖掘方法——决策树决策树-ID3算法补充———类似P155(5.7)五、数据挖掘方法——决策树决策树-ID3算法补充———类似P155(5.7)五、数据挖掘方法——决策树(比特)决策树-ID3算法P156补充———类似P155(5.8),(5.9),P156(5.10)决策树-ID3算法P156五、数据挖掘方法——决策树决策树-ID3算法天气风力湿度有雨

多云P

潮湿N

正常P

有风N

无风P

可以看到:对样本需要四个属性才能分类的问题,通过决策树可以用两个属性就可以分类。可以通过决策树提取分类的判别规则以应用。

问题:少了某因素变量的决策树是否合理?是否可以应用?五、数据挖掘方法——决策树用建立的决策树检验第1号样本:1号样本:天气:晴;温度:热;湿度:潮湿;风力:没风;用规则1:则气候属于N类,与样本的专家判别结果一样结论:最多用两个因素变量(属性)即可以判别天气类别。只有一个因素变量就可以判别五、数据挖掘方法——决策树五、数据挖掘方法——决策树Clementine辅助决策树五、数据挖掘方法——决策树Clementine辅助决策树决策树-C4.5算法P158H(X,a)=I(X,a)=H(X)-H(X|a)决策树-C4.5算法P154决策树-C4.5算法P158五、数据挖掘方法——决策树决策树-C4.5算法P158-P159五、数据挖掘方法——决策树决策树-C4.5算法P159五、数据挖掘方法——决策树决策树-C4.5算法补充一、决策树-C4.5算法补充五、数据挖掘方法——决策树决策树-C4.5算法补充五、数据挖掘方法——决策树决策树-C4.5算法补充五、数据挖掘方法——决策树决策树-CART算法P159五、数据挖掘方法——决策树决策树-CART算法P159五、数据挖掘方法——决策树决策树-CART算法P160五、数据挖掘方法——决策树决策树-CART算法P160决策树-CART算法P1612=11311133/130.196决策树-CART算法P161五、数据挖掘方法——决策树0.196决策树-CART算法补充五、数据挖掘方法——决策树决策树P170五、数据挖掘方法——决策树

叶结点深度是指叶结点相距根结点的层数。如下决策树,叶结点数=2+3+1=6,叶结点深度和=2*2+3*2+1*1=11决策树-剪枝算法当到达某结点的树具有指定的实例识别率时,停止生长.P171已经成长决策树-剪枝算法P171五、数据挖掘方法——决策树决策树-剪枝算法P172五、数据挖掘方法——决策树决策树-剪枝算法P172决策树-剪枝算法P172五、数据挖掘方法——决策树决策树-剪枝算法P173五、数据挖掘方法——决策树决策树-剪枝算法P173决策树-剪枝算法P174数据挖掘软件Clementine辅助决策树城市医疗水平能力综合评价分类决策树建立1、导入评价样本数据并选择模型;2、设置参数

城市医疗水平能力综合评价分类决策树建立(类别定性取值情况)10个样本如果导入数据时选择是连续型取值的范围,则C5.0方法的决策树也是两叉形式,只有选择离散型的取值时,才有三叉以上的输出。

当修剪严重度为90%、95%时,决策树分别见下面左与右,左树的深度减少了一层,右树的深度减少了两层。城市医疗水平能力综合评价分类决策树建立(样本定性取值情况)样本不修剪分类正确率修剪90%分类正确率修剪95%分类正确率建模样本100%90%70%检验样本44.44%44.44%33.33%与神经网络模型预测误差相比,检验样本误差增加了。城市医疗水平能力综合评价分类—二叉决策树建立模型建立:选择“建模”中的“C&R树”节点,右键设置模型参数。分别设置根以下的层为5,3和2,得到不同的决策树。模型结果:

运行模型得到决策树分类结果,右键浏览模型结果:根以下层为5时,表示根以下层数目不会超过5,结果如下所示,可以发现,结果只有3层,也就是说根以下层达到3时,已经对数据完全分类。若设置根以下层为3,结果也是与下面结果一致。城市医疗水平能力综合评价分类—二叉决策树建立(类别定量取值情况)根以下5层与3层决策树结果见左图,根以下2层决策树结果见右图:当同节点的样本是同类别时,表示已分类完毕。当同节点的样本不同类别时,以同类样本占节点样本为权重加权平均模型检验:

可以看到模型的自检验的100%准确的,误差是0,而检验样本检验的绝对平均误差是1.778.可以把分类结果导出,可以看出建模样本的准确率是100%,检验样本的准确率是33.33%。

城市医疗水平能力综合评价分类—二叉决策树建立学习样本病人数医生数工作人员数门诊所数死亡率医疗能力评价医疗能力评价(根以下3层)医疗能力评价(根以下2层)上海0.51.51.51.5-1.51.51.51.5北京-0.51.51.51.50.51.51.51.5沈阳-1.5-1.5-1.5-0.50.5-1.5-1.5-1.5武汉0.50.50.5-0.5-1.5-0.5-0.5-0.25哈尔滨1.50.5-0.5-1.5-0.5-0.5-0.5-0.25重庆0.50.5-1.5-1.5-1.5-1.5-1.5-1.5成都-0.50.50.5-0.5-0.5-0.5-0.5-0.25兰州1.50.5-0.50.51.51.51.51.5青岛0.5-1.51.51.5-0.50.50.50.5鞍山0.5-0.5-0.5-1.51.50.50.5-0.25天津-1.50.5-1.50.5-0.5-1.51.51.5广州-0.50.50.50.5-0.50.51.51.5南京-1.50.50.50.5-0.50.51.51.5西安0.50.5-0.50.50.50.5-0.51.5长春0.50.50.5-0.50.50.51.5-0.25太原1.50.50.50.51.51.5-1.51.5大连-1.5-0.5-1.5-0.50.5-1.51.5-1.5济南1.51.51.50.5-0.51.5-1.51.5抚顺0.5-1.5-1.5-1.50.5-0.51.5-1.5三层样本正确率:自检100%,检验33%二层样本正确率:自检40%,检验33%城市医疗水平能力综合评价分类—二叉决策树建立问题:智能功能实现,需要知识规则和知识推理的支持,决策树可以支持提取确定性的知识规则,但实际中可能出现许多不确定的情况。如何提取不确定性规则?购物篮问题:超市中每天有大量的购买数据,这些数据中发现啤酒与尿片的关系密切,是否需要关注这种情况而改变超市中这两种物品的摆放位置,以适应顾客的需要?应用问题:为了促销产品,应该以什么方案配置才具有激励购买积极性的作用?扩展问题:未来产品产业链的发展与什么有关?发展速度与增长幅度的可能性如何预测?思路:可以采用关联分析或时序关联分析,发现事物之间同时出现可能性大的行为模式和规则,以支持原因之间、原因与结果之间的推理。六、数据挖掘方法——关联分析关联规则分析六、数据挖掘方法——关联分析思路:1、物品或项目出现可能性大的才关注;2、A出现导致B出现可能性大的规则才关注;3、指定期望可能性,大于这一可能性的项目或规则才关注。由此定义支持度与置信度。

补充

以不确定性度量关联规则分析-主要概念=>=>=>=>P189关联规则分析-主要概念关联规则分析-Apriori方法P189关联规则分析-Apriori方法=>P190六、数据挖掘方法——关联分析其中,“过滤”是指判别项目集是否大于最小支持度,如果大于就保留,否则淘汰.六、数据挖掘方法——关联分析补充,类似P191例6.2六、数据挖掘方法——关联分析补充,类似P192例6.2六、数据挖掘方法——关联分析补充,类似P193例6.2问题:除BCE外,还有其它的最大频繁集吗?六、数据挖掘方法——关联分析设有五种物品:A,B,C,D,E,销售记录的五项业务T为:业务:T001T002T003T004T005

物品:ACDBCEABCEABCED问题:下面物品中,哪些物品之间被购买有密切关系?什么物品被买可以导致另一些物品被买?同理可以得到:BC→E,BE→C,CE→B的规则

六、数据挖掘方法——关联分析B→CConf=1,Supp=3/43/43/3=13/43/43/43/43/41Clementine辅助过程及结果六、数据挖掘方法——关联分析Clementine辅助过程及结果六、数据挖掘方法——关联分析Clementine辅助城市医疗水平影响因素的关联分析学习样本

样本病人数医生数工作人员数门诊所数死亡率医疗能力评价

上海0.51.51.51.5-1.51.5

北京-0.51.51.51.50.51.5

沈阳-1.5-1.5-1.5-0.50.5-1.5

武汉0.50.50.5-0.5-1.5-0.5

哈尔滨1.50.5-0.5-1.5-0.5-0.5

重庆0.50.5-1.5-1.5-1.5-1.5

成都-0.50.50.5-0.5-0.5-0.5

兰州1.50.5-0.50.51.51.5

青岛0.5-1.51.51.5-0.50.5

鞍山0.5-0.5-0.5-1.51.50.5

检验样本样本病人数医生数工作人员数门诊所数死亡率医疗能力评价天津-1.50.5-1.50.5-0.5-1.5广州-0.50.50.50.5-0.50.5南京-1.50.50.50.5-0.50.5西安0.50.5-0.50.50.50.5长春0.50.50.5-0.50.50.5太原1.50.50.50.51.51.5大连-1.5-0.5-1.5-0.50.5-1.5济南1.51.51.50.5-0.51.5抚顺0.5-1.5-1.5-1.50.5-0.5Clementine辅助城市医疗水平影响因素的关联分析1、导入评价样本数据并选择模型,其中数据集中的取值转换为定性取值:

1.5=V,0.5=g,-0.5=a,-1.5=b2、设置参数六、数据挖掘方法——关联分析Clementine辅助城市医疗水平影响因素的关联分析不同支持度和置信度下的关联规则数目最小支持度50%40%30%30%20%最小置信度50%40%50%40%20%规则数目223851349最小支持度为30%和最小置信度为50%时的部分关联规则后项前项支持度%置信度%医生数=g医疗能力评价=a30100病人数=g死亡率=b30100工作人员数=v门诊所数=v30100门诊所数=v工作人员数=v30100病人数=v工作人员数=a3067死亡率=v工作人员数=a3067死亡率=a医疗能力评价=aand医生数=g3067门诊所数=a医疗能力评价=aand医生数=g3067医生数=g死亡率=band病人数=g3067医疗能力评价=v门诊所数=vand工作人员数=v3067病人数=g门诊所数=vand工作人员数=v3067医疗能力评价=a医生数=g5060死亡率=b病人数=g5060六、数据挖掘方法——关联分析

对最小支持度为30%和最小置信度为50%时得到的模型,进行建模检验样本的关系预测。建模样本关系预测:对每一样本,把与样本匹配前项的后项结果列示,显示对应的规则置信度,以及有关规则数。例:医疗能力评价=aand医生数=g则有死亡率=a0.67六、数据挖掘方法——关联分析检验样本关系预测六、数据挖掘方法——关联分析问题1:有多少顾客购买了打印机后,相隔多长时间会购买打印纸?其中又有多少顾客相隔多长时间会购买硒鼓

问题2:顾客购买了A移动销售方案,相隔多长时间会转购买B移动销售方案?

思路:1)对具有时间特点的顾客行为模式进行关联分析,称为时序关联,挖掘具有时间先后发生的判别规则。2)把同一顾客的先后行为模式转换为具有先后项目顺序的序列表示,在序列中求频繁出现的项目序列。主要概念:例:A顾客:2月购买“打印机,打印纸”,3月购买“打印纸”,7月购买“硒鼓”;

B顾客:1月购买“打印纸”,2月购买“打印机”,6月购买硒鼓;

C顾客:1月购买“打印机,打印纸,硒鼓”,4月购买“打印纸”,6月购买“打印纸”六、数据挖掘方法——时序关联分析例如打印机是一项目例如A顾客先买“打印机,打印纸”,再买“硒鼓”是一项目集组成的序列:〈s1,s2〉,其中,s1由“打印机,打印纸”组成,s2由硒鼓组成。问题:有B顾客,先买打印机,再买打印纸有C顾客,买打印机有D顾客,先买打印机,再买硒鼓问哪一顾客的购买模式被A顾客模式包含?Supp六、数据挖掘方法——时序关联分析8、Conf(<a1,a2,…an>)=Suup(<a1,a2,…an>)P208时序关联规则分析——主要问题

六、数据挖掘方法——时序关联分析时序关联规则分析-Apriori-G方法P208思路:先从事务数据中找大项目集,由大项目集组成可能出现的时序模式,再求大序列集。时序关联规则分析-Apriori-G方法时序关联规则分析-Apriori-G方法大项目集挖掘过程如下:时序关联规则分析-Apriori-G方法20%时序关联规则分析-Apriori-G方法

当总顾客数为5时,最少支持度为20%,则项目集支持度要大于1/5=20%,才保留。所以,(30),(40),(70),(90),(40,70)是频繁集(大项集)时序关联规则分析-Apriori-G方法时序关联规则分析-Apriori-G方法时序关联规则分析-Apriori-G方法顾客号映射如下时序关联规则分析-Apriori-G方法2/42/4补充时序关联规则分析-Apriori-G方法补充时序关联规则分析-Apriori-G方法六七月份同一日期有识别情况时序关联分析案例——Clementine12辅助过程时序关联分析案例——Clementine12辅助过程时序关联分析案例——Clementine12辅助过程问题:为何没出现双箭头三项的规则?2/42/4时序关联分析案例——Clementine12辅助过程把三种后项结果列示,当样本中出现对应T的项与列示的后项被包含在挖掘规则中时,显示规则的置信度为0.5.时序关联分析案例——Clementine12辅助城市医疗建设时序关联问题:城市医疗建设过程的影响因素具有哪些时序发展关系?年限样本基础建设医生引进工作人员引进门诊所建设设备建设环境建设1997上海aaabbb1998上海ggaabb1999上海ggggaa2000上海vvvvgg1997北京aabbba1998北京aaaaba1999北京aggggg2000北京avvvgv1997沈阳bbbagb1998沈阳aabagb1999沈阳babaga2000沈阳bbbagb1997武汉abaabb1998武汉aagabb1999武汉gaaabb2000武汉gggaba1997哈尔滨aaabbb1998哈尔滨agbaba1999哈尔滨ggbaab2000哈尔滨vgabaa年限样本基础建设医生引进工作人员引进门诊所建设设备建设环境建设1997重庆babbbb1998重庆aaabba1999重庆agaabb2000重庆ggbabb1997成都abbbab1998成都abaaaa1999成都aagaaa2000成都gggaaa1997兰州abbaab1998兰州aaaaaa1999兰州ggagag2000兰州vgagvv1997青岛bbaabb1998青岛bbagab1999青岛abggaa2000青岛abvvag1997鞍山abbbab1998鞍山ababaa1999鞍山gaabga2000鞍山gaabvg1)数据预处理数据进行处理,使得数据具有变量和时间特征,如下表所示,A-F分别代表各个标量,中间的a,b,v,g为原来变量的取值,1-4代表不同的年份

年限样本基础建设A医生引进B工作人员引进C门诊所建设D设备建设E环境建设F1997上海Aa1Ba1Ca1Db1Eb1Fb11998上海Ag2Bg2Ca2Da2Eb2Fb21999上海Ag3Bg3Cg3Dg3Ea3Fa32000上海Av4Bv4Cv4Dv4Eg4Fg4…………………………………………时序关联分析案例——Clementine12辅助城市医疗建设时序关联2)时序关联规则模型建立时序关联分析案例——Clementine12辅助城市医疗建设时序关联3)模型结果分析分别设置不同的置信度和支持度,运行时序规则模型,规则数目如下:最小支持度70%60%50%最小置信度70%60%50%规则数目1631

最小支持度为60%和最小置信度为60%时的有效规则前项后项支持度%置信度%Cb1Aa260.0100.0Aa1Aa270.085.71Aa1Da270.085.71Fb1Aa290.077.78Fb1Ca290.066.67Fb1Da290.066.67时序关联分析案例——Clementine12辅助城市医疗建设时序关联将提取的规则转换为文字:规则1:若工作人员引进=b,则第二年基础建设=a,支持度为60%,置信度100%规则2:若基础建设=a,则第二年基础建设=a,支持度为70%,置信度85.71%规则3:若基础建设=a,则第二年门诊所建设=a,支持度为70%,置信度85.71%规则4:若环境建设=b,则第二年基础建设=a,支持度为90%,置信度77.78%规则5:若环境建设=b,则工作人员引进=a,支持度为90%,置信度66.67%规则6:若环境建设=b,则第二年门诊所建设=a,支持度为90%,置信度66.67%时序关联分析案例——Clementine12辅助城市医疗建设时序关联若不考虑事务发生的时间间隔性,可将数据处理为:年限样本基础建设A医生引进B工作人员引进C门诊所建设D设备建设E环境建设F1997上海AaBaCaDbEbFb1998上海AgBgCaDaEbFb1999上海AgBgCgDgEaFa2000上海AvBvCvDvEgFg…………………………………………分别设置不同的置信度和支持度,运行时序规则模型,在没有先后时间条件下,规则数目、最小支持度和最小置信度都是60%的有效规则如下所示:最小支持度80%70%60%50%最小置信度80%70%60%50%规则数目73077235前项后项支持度%置信度%FbFa90.0100.0FbAa90.088.89FbCa90.088.89AaCa100.080.0AaFa100.080.0AaAa100.080.0AaDa100.080.0时序关联分析案例——Clementine12辅助城市医疗建设时序关联取值没有时间的时序关联,提取规则的文字表示:规则1:若环境建设=b,则未来环境建设=a,支持度为90%,置信度100%规则2:若环境建设=b,则未来基础建设=a,支持度为90%,置信度88.89%规则3:若环境建设=b,则未来工作人员引进=a,支持度为90%,置信度88.89%规则4:若基础建设=a,则未来工作人员引进=a,支持度为100%,置信度80%规则5:若基础建设=a,则未来环境建设=a,支持度为100%,置信度80%规则6:若基础建设=a,则未来基础建设=a,支持度为100%,置信度80%规则7:若基础建设=a,则未来门诊所建设=a,支持度为100%,置信度80%

时序关联分析案例——Clementine12辅助城市医疗建设时序关联取值体现时间的时序关联,提取规则的文字表示:规则1:若工作人员引进=b,则第二年基础建设=a,支持度为60%,置信度100%规则2:若基础建设=a,则第二年基础建设=a,支持度为70%,置信度85.71%规则3:若基础建设=a,则第二年门诊所建设=a,支持度为70%,置信度85.71%规则4:若环境建设=b,则第二年基础建设=a,支持度为90%,置信度77.78%规则5:若环境建设=b,则工作人员引进=a,支持度为90%,置信度66.67%规则6:若环境建设=b,则第二年门诊所建设=a,支持度为90%,置信度66.67%遗传算法—基本概念P241七、数据挖掘方法——遗传算法问题:1、如何求一组评价指标值(X1,X2,X3,X4,X5),使医疗评价能力最大且医疗成本最小?2、对N个股票,如何分配投资比例,使收益最大且风险在可接受范围?3、要使网络收益在期望范围,影响网络收益的因素应在什么范围变化?特点:随机搜索,优胜劣汰七、数据挖掘方法——遗传算法遗传算法—基本概念P241-242七、数据挖掘方法——遗传算法遗传算法—基本概念补充七、数据挖掘方法——遗传算法补充P242七、数据挖掘方法——遗传算法对个体进行选择复制按一定概率和定义进行变异按一定概率和定义进行交叉满足终止条件对每一个体计算适应值显示适应值或最优解随机产生初始种群YN遗传算法—主要流程P243遗传算法—编码设计P242七、数据挖掘方法——遗传算法遗传算法—编码设计P242七、数据挖掘方法——遗传算法遗传算法—适应值函数设计P243七、数据挖掘方法——遗传算法遗传算法—选择算子设计P244遗传算法—选择算子设计P244遗传算法—交叉算子设计P245遗传算法—交叉算子设计P246七、数据挖掘方法——遗传算法遗传算法—交叉算子设计P246七、数据挖掘方法——遗传算法遗传算法—交叉算子设计P246七、数据挖掘方法——遗传算法遗传算法—交叉算子设计P246遗传算法—交叉算子设计P246七、数据挖掘方法——遗传算法遗传算法—变异算子设计P247遗传算法—变异算子设计P247七、数据挖掘方法——遗传算法遗传算法应用例

P247七、数据挖掘方法——遗传算法遗传算法应用例

P248遗传算法应用例

P249七、数据挖掘方法——遗传算法遗传算法应用-神经网络权值优化

P250遗传算法应用-神经网络权值优化

P250七、数据挖掘方法——遗传算法遗传算法应用-神经网络权值优化

P250七、数据挖掘方法——遗传算法遗传算法应用-神经网络权值优化

P250七、数据挖掘方法——遗传算法遗传算法应用-神经网络权值优化

P251七、数据挖掘方法——遗传算法遗传算法应用-神经网络权值优化

P251七、数据挖掘方法——遗传算法遗传算法-模式定理有关概念

P251七、数据挖掘方法——遗传算法遗传算法-模式定理有关概念

P252遗传算法-模式定理有关概念

P252遗传算法的模式定理有关概念

P253七、数据挖掘方法——遗传算法遗传算法的模式定理

P254分析:第二章管理与决策支持的数据挖掘方法(三)遗传算法的模式定理

P2542)遗传算法的模式定理

P2543)4)遗传算法的模式定理

P2545)七、数据挖掘方法——遗传算法问题描述在城市医疗能力评价中,令X1——病床数,X2——医生数,X3——工作人员数,X4——诊所数,X5——死亡率,Y——医疗能力,若设Xiϵ[1000,10000],i=1,2,3,X4ϵ[10,100],X5ϵ[0,0.2],Yϵ[0,1],X=(X1,X2,X3,X4,X5)要求:设计遗传算法,求达到医疗能力最好且总成本最小的X(即Xi的最优组合)?设计包括:(1)定义医生、病床、工作人员、诊所的成本条件;(2)设计编码、适值函数、选择算子、交叉算子和变异算子;其中,适应值函数要求设计为一般形式;当输入ai、bi、C、、D时,可以建立不同参数下的适值函数:

软件辅助遗传算法的求解七、数据挖掘方法——遗传算法七、数据挖掘方法——遗传算法

为了能够使用Matlab里面的遗传算法工具箱来解决此次问题,需要把Matlab升级到7.10(2012版本)或者以上。打开Matlab之后,直接的窗口中输入optimtool,然后选择ga,或者直接输入gatool,调用遗传算法工具箱。如下图所示:界面分3个板块,其中左边和中间的板块是遗传算法参数的设置区域,第三板块是对于各个参数的说明。在使用遗传算法工具箱之前,需要对之前写好的适应值函数做小小的修改,以使其能应用在遗传算法工具箱里面。

七、数据挖掘方法——遗传算法利用Matlab的多层感知机的神经网络模型,学习后提取的模型参数如下:隐节点1权值1:1.3714阈值:0.29542权值2:3.2134权值3:1.9193权值4:0.66217权值5:1.9782隐节点2权值1:-3.4496阈值:-0.0020444权值2:-1.2138权值3:1.6277权值4:-2.7673权值5:0.043026隐节点3权值1:2.8084阈值:0.5038权值2:-0.93835权值3:3.205权值4:2.5387权值5:2.4553输出节点y权值1:-0.95112阈值:0.10116权值2:2.5511权值3:1.8952七、数据挖掘方法——遗传算法适应值函数设计:functiony=safeval_tel(x)y=cal1([x(1);x(2);x(3);x(4);x(5)])-cal2([x(2);x(3);x(4)]);

其中x为输入变量,x(i)(i=1,2,3,4,5)为每一维的变量。cal1为医疗能力计算函数,cal2为成本函数,综合适应值为前者-后者,因此医疗能力越大,成本越小,最后的综合适应值就越大。医疗能力计算函数:functiony=cal1(x)w=[1.37143.21341.91930.662171.9782-3.4496-1.21381.6277-2.76730.043026;

2.8084-0.938353.2052.53872.4553];b=[-0.951122.55111.8952];

y=w*x+b;fori=1:3y(i)=1/(1+exp(-y(i)));endB=[0.29542-0.00204440.5038];T=[0.10116];y=B*y+T;end

已知成本:1)医生数(平均1万元/个),工作人员数(平均0.6万元/个),门诊所数(平均100万/个)2)医生数(平均2万元/个),工作人员数(平均1万元/个),门诊所数(平均150万/个)

成本计算函数:(第一种成本)functiony=cal2(x)y=(x(1)+0.6*x(2)+100*x(3)+152.4)/304.8;end(第二种成本)functiony=cal2(x)y=(2*x(1)+x(2)+150*x(3)+229.5)/459;end其中成本得分为归一化之后的得分七、数据挖掘方法——遗传算法遗传算法工具箱辅助解决医疗评价与成本优化问题的过程:

1、方法选择:在优化工具箱里面,第一个是选择解决问题的模型(办法),这里我们使用遗传算法,因此选择ga;在problem选项卡这里,分别填入刚刚写好的适应值函数以及自变量的个数:注意:这里在填写适应值函数的时候,前面一定要加@,不然Matlab识别不了,我们此次的医疗问题里面共有5个变量,因此下面的空格填写5。

2、约束条件与变量范围设置:在constraints选项卡里面,前4个空格都是针对问题的线性约束条件,本问题没有约束,因此可以不填。Bounds是对自变量的取值范围,分别写在Lower和Upper里面,由于我们这里最小值为-1.5,最大值为1.5,因此设定的取值范围如上图所示。(Lower和Upper里面都有5维,分别代表5个自变量)最后一个空格是填写非线性约束条件的,本问题也没有,因此不填。七、数据挖掘方法——遗传算法3、Options设置:

Options是规定了算法运行时的参数,包括交叉和变异的概率,采用何种方式进化等等,具体表现为一些参数和函数的选择。1)编码方式设置:有实数编码和二进制编码,默认是doublevector(实数编码),如果选择二进制的话,输

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论