




已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于互信息的特征选择1. 模型定义D1 病集S由有关心脏病病种(i=1,2,n)组成,令患者的疾病信息熵 马笑潇, 黄席樾, 等. 基于信息熵的诊断过程认知信息流分析J. 重庆大学学报:自然科学版, 2002,25(5):25-28.- 王园, 吉国力, 魏磊. 信息熵在临床定量诊断分析中的研究及应用J. 厦门大学学报:自然科学版, 2004,43(B08):353-356.为: (1)显然疾病信息熵具有Shannon信息熵的性质,反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性.定义D2:一个诊断病例库可以表示为关于病例特征的矩阵形式 (2)其中,病例库中第个病例的第个属性值;m病例特征数量;n病例库规模;定义D3:一个信息系统(IS)可以表达为 (3)其中,U 是对象的非空有限集合, R是属性的非空有限集合,是属性值的集合,Vr 表示了属性任意时的属性值范围, 是一个信息函数,它指定U中每一个对象 x 的属性值. 当R中的属性集可进一步分解为条件属性集合C和决策属性集合D,且满足时,信息系统(IS)称为决策系统(DS) 张文宇. 数据挖掘与粗糙集方法M. 西安电子科技大学出版社, 2007: 49. ai为某一条件属性,则决策属性D对某一条件属性ai的依赖程度可以利用下式计算 屈利, 苑津莎, 李丽. 基于事例推理的电力系统短期负荷预测J. 电力科学与工程, 2008,24(2):59-63.- 程其云, 孙才新, 周湶, 等. 粗糙集信息熵与自适应神经网络模糊系统相结合的电力短期负荷预测模型及方法J. 电网技术, 2004,28 (17): 72-75.:(4)式中,RC、RD 分别表示条件属性集合C和策属性集合D在论域上的等价关系.表示RD 相对于RC 的条件熵.的值越大,则条件属性ai对决策属性D的重要性越大.如果,则说明ai对于D不起作用,可以删除.在基于属性信息增益的约简方法中,计算案例库属性集的每个属性的信息增益,并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集,否则弃用属性.1.3 基于互信息的特征选择 Li Y F, Xie M, Goh T N. A study of mutual information based feature selection for case based reasoning in software cost estimation J. Expert Systems with Applications, 2009, 36(3, Part 2): 5921-5931.:三种经典的基于互信息的特征选择算法,分别为信息增益、互信息和交叉熵,以及于互信息最大化的特征选择算法唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用J. 计算机工程与应用,2008,44(13):130-133。结合互信息的计算公式可知,信息增益方法计算出的结果也是一种互信息。若将互信息看成两个随机变量之间的关系,则信息增益表示随机变量C=c1,c2,ck与随机变量T*=t,t之间的关系,而互信息最大化研究的是随机变量C=c1,c2,ck与随机变量T=t1,t2,tm之间的关系。每个特征的信息增益的计算是独立的,与其它特征的分布无关。而互信息最大化将所有的特征看成一个整体,计算随机变量T所能提供的关于随机变量C的互信息,并计算出每个特征对该互信息的贡献。苗夺谦苗夺谦,胡桂容.知识约简的一种启发式算法J.计算机研究与发展, 1999,36(6): 681 - 684.等人提出的基于互信息的知识约简算法,是建立在条件属性对决策属性的互信息基础上的;文贾平,代建华,潘云鹤,等.一种基于互信息增益率的新属性约简算法J.浙江大学学报(工学版), 2006,40(6):1041 - 1044.提出了一种基于互信息增益率的属性约简算法; 颜艳等颜艳,杨慧中.一种基于互信息的粗糙集知识约简算法J. 清华大学学报(自然科学版),2007,47(S2):1903-1906.提出了一种改进的互信息的属性约简算法,基于改进的互信息的启发式算法,并比对互信息、互信息增益率和文中提出的改进的互信息为属性重要性度量方法的启发式知识约简算法。熵的公式:联合熵:条件熵:联合熵和条件熵的关系:1.3.1 互信息(MI)互信息是衡量不考虑特征分布的两个特征之间的一般依赖性.互信息越大,这两个随机变量之间的联系月越紧密.当互信息趋近于零时,这两者之间相互独立.特征和类之间的互信息:P(wi)是特征wi的概率, 表示wi没有发生.P(ci)是类cj的概率,P(cj,wi)是类cj与特征wi的联合概率.是特征之间的互信息.互信息和信息熵之间的联系:互信息和信息熵的关系见图1.图1 互信息和信息熵的关系图连续型时,(p(x), p(y) 和p(x,y)都是连续的)计算连续的基因表达变量的熵或互信息,首先要将其离散化,一般采用直方图方法 SteuerR, Kurths J, DaubC O, eta.l Themutual information: detecting and evaluating dependencies between variables J. Bioinformatics, 2002,18( sup2):231-240.,并根据表达向量的值域范围选择合适的bin值,联合熵计算可采用二维直方图法.连续变量的互信息计算:第一种,histogram 方法 (Moddemeijer, 1989),将数据划分成等尺度(直方图)的间隔.该方法在低维度条件下,可以获得满意解;随着数据维度的增多,histogram估算值的精确度呈递减趋势.第二种,using the continuous kernel based density estimator to approximate I(x;y), as proposed by Kwak and Choi (2002b). 利用基于密度评价者的连续核心近似互信息I(x;y),该方法由Kwak and Choi (2002b)提出.给出一个变量x的N个样本,近似密度函数为:(基于互信息特征选择标准:最大的依赖,最大关联, 最小冗余) Feature Selection Based on Mutual Information Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy其中,是Parzen窗口函数(Parzen window function (Parzen, 1962));是第i个样本;h是窗口宽度.Parzen已证明了,选择适当的和h,当N趋近于无穷时,近似函数趋近于真实的p(x).通常,可用高斯窗口(Gaussian window):其中,d是样本x的维度,是z的协方差,以上计算可以利用peng制作的matlab的互信息计算工具包./matlabcentral/fileexchange/14888-mutual-information-computation1.3.2 基于互信息的特征选择的算法模型建立一个特征选择的模型,可以描述为:设原始特征空间为FR,包含有n个特征,c为分类类别,现要从FR中选择k个最有效的特征,形成一个新的特征空间R ,要求k 直方图计算(2) - 选择准确率最高的一 维作为弱学习机(3) - 根据公式计算相应的权重,调整样本分布(4) - 转向(3)直到到达规定的循环次数 - 输出加权组合后的分类器。Boosting的思想源泉: 将一系列粗略的规则加权组合起来得到高度精确的规则。Boosting的数学实质: 对目标函数(损失函数)的最优化问题;损失函数形式不同,优化方法不同;Boosting的理论联系:熵映射;对数回归;改进方向:用遗传算法学习boosting权重,提出遗传算法优于AdaBoost 算法(存在贪婪行为)为了Boosting目的,将在CBR智能体合作解决问题的多智能体的环境中,应用遗传算法,1.4.2 基于熵的AdaBoost分类器Adaboost方法能够“聚焦于”那些较困难(更富信息)的样本上。令每个样本的权重相等,对于第k次迭代操作,我们就根据这些权重来选择样本点,进而训练分类器Ck,根据这个分类器,来提高被它错分的那些样本点的权重,并减低可以被正确分类的样本权.然后,权重更新过的样本集被用来训练下一个分类器Ck+1 刘天键.基于熵的特征选择的AdaBoost改进算法J. 闽江学院学报,2009,30(2):60-64. 烂文献. 基于Boosting 的条件互信息Conditional Mutual Information based Boosting(CMIB) Caifeng Shan S G, Peter W. Mcowan Conditional Mutual Infomation Based Boosting for Facial Expression Recognition J. 2005 ,1.6 最大熵特征选取宋国杰, 唐世渭, 杨冬青,王腾蛟. 基于最大熵原理的空间特征选择方法J. 软件学报.2003(14):9特征选择方法MEFS(maximum entropy feature selection).MEFS在基于最大熵原理的基础上,运用互信息和Z-测试技术,采用两步方法进行空间特征选择。对MEFS方法和RELIEF方法以及基于MEFS的分类方法与决策树算法ID3分别进行了实验比较。1.7 互信息增益率 贾平,代建华,潘云鹤,朱淼良. 一种基于互信息增益率的新属性约简算法J. 浙江大学学报(工学版).2006(40):6为了获得决策系统中更好的相对属性约简%提出了一种基于互信息增益率的属性约简算法该算法考虑了 所选择条件属性与决策属性的互信息%还考虑了所选择属性的值的分布情况%从信息论角度定义了基于互信息增 益率的属性重要性度量方法%并以此度量为启发式信息%算法从空集开始逐步将最重要的条件属性加入到选择属 性集%直到所选择的条件属性集与决策属性集的互信息等于整个条件属性集与决策属性集的互信息时%算法停止 结果表明%算法能更有效地对决策系统进行约简%同时约简后的对象数目较少.中对以互信息增益和本文的互信息增益率为度量的方法进行了数据集对照 120 mg/dl) (1 = true; 0 = false)7Restecg安静时的心电图结果restecg: resting electrocardiographic results - Value 0: normal - Value 1: having ST-T wave abnormality (T wave inversions and/or ST elevation or depression of 0.05 mV) - Value 2: showing probable or definite left ventricular hypertrophy by Estes criteria8Thalach最高心率thalach: maximum heart rate achieved9Exang是否运动导致心绞痛exang: exercise induced angina (1 = yes; 0 = no)10Oldpeak运动所导致的ST下降oldpeak = ST depression induced by exercise relative to rest11Slope峰值ST倾斜角度slope: the slope of the peak exercise ST segment - Value 1: upsloping - Value 2: flat - Value 3: downsloping12Ca主血管数量ca: number of major vessels (0-3) colored by flourosopy13Thal心跳情况thal: 3 = normal; 6 = fixed defect; 7 = reversable defect14numnum: diagnosis of heart disease (angiographic disease status)- Value 0: 50% diameter narrowing (in any major vessel: attributes 59 through 68 are vessels)2.2样本数据样本数据(大于15)特征样本编号AgeSexDisese(是否患有心脏病)12342.2验证方法利用朴素Bayes(NB)和TFIDF算法进行分类结合新西兰Waikato大学开发的WEKA软件,将选择结果与CFS、Re-lief和InfoGain算法进行了比较,并分别在C4. 5、Bagging和NaiveBayes条件下对每种算法选择的各个数据集的特征子集进行分类精度评价25。3. 预期结果特征筛选与数据处理影响心脏病种类的动脉氧含量的信息熵计算动脉氧含量A1类心脏病A2类心脏病例数概率H1(X)例数概率H2(X)RELIEF、SSGA、MIFS和FMIFS的特征选取的比较 Snchez L, Rosario Surez M, Villar J R, et al. Mutual information-based feature selection and partition design in fuzzy rule-based classifiers from vague data J. International Journal of Approximate Reasoning, 2008, 49(3): 607-62
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 仲夏促销活动策划方案
- 仿生青蛙活动方案
- 企业万圣节活动方案
- 企业人才周活动方案
- 企业全年活动方案
- 企业冰壶团建活动方案
- 企业十周年庆活动方案
- 企业咨询服务公司策划方案
- 企业基金会募捐活动方案
- 企业宣传前期活动方案
- 人力资源服务公司创业项目计划书
- 成本加酬金合同协议书
- AQ 1083-2011 煤矿建设安全规范 (正式版)
- 基于stm32四轴飞行器控制系统设计
- 人防工程竣工监理评估报告
- 2019-2020学年河南省济源市七年级下学期期末数学试卷-(解析版)
- 江苏省苏州市常熟市2023-2024学年五年级下学期数学期末检测
- 血液净化抗凝新进展-萘莫司他
- 重庆市大渡口区2023-2024学年四年级下学期期末测试数学试题
- 珍惜时间三分钟演讲稿小学生(23篇)
- 担保行业现状分析
评论
0/150
提交评论