版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020年8月3日星期一,第七章,粗集理论与概率统计方法,2020年8月3日星期一,粗集理论和概率统计方法在从数据中研究知识表达和决策规则推理时,都假定研究的对象可以由某些特征(属性和属性值)来特性化,如何选取有效的特征对于智能系统设计是至关重要的。但这两者的研究方法似乎完全不同,是否可以在选取关键特征的准则下达到统一?而且,前面介绍的粗集理论模型主要考虑确定性分类问题,是否可以将概率统计方法和粗集理论相结合,为确定性和不确定性知识表达系统提供一个统计粗集模型? 本章首先简要回顾一下信息理论中不确定信息的基本概念,介绍在推理学习中选取有效特征的概率统计方法,讨论粗集理论方法和概率统计方法的统一
2、性,然后提出统计粗集模型的概念,最后将确定性粗集模型和统计粗集模型进行比较。,2020年8月3日星期一,7.1 不确定信息的测度与推理学习的概率统计方法,假定一个可能事件集合,其事件出现的概率为p1,p2,p3,p4.,pn,能否找到一个对结果不确定程度的测度,它应满足下列要求: (1)测度函数应该在pi上连续 (2)如果所有pi都相等即pi=1/n,则测度函数应是n的单调递增函数,当存在更多的可能事件时,对于同样的事件存在更多的选择和不确定性。,2020年8月3日星期一,(3)如果一个选择分为两种选择,原来的测度函数应是每个测度函数值的加权和。 基于上述要求,我们采用shannon提出的熵的
3、概念作为不确定信息的统计测度,即,这里k是一个常数,pi是系统在它的第i个定量状态时的概率。 如果一个系统被分成k1个子系统,H的期望值可以表达为,2020年8月3日星期一,例7.1 一个知识表达系统给出表格表达形式,,2020年8月3日星期一,在表7.1中,“+”类对象出现的概率p+=3/8,-”类对象出现的概率p-=5/8,则初始熵Hi=-(3/8log3/8+5/8log5/8)=0.954. HI度量了系统在初始状态时的信息不确定性 为了对由属性和属性值特性化的对象选出合适的属性子集,我们通过最小化系统的熵值以减小信息的不确定性,为此,我们先考察各属性值对对减小信息不确定性的情况。例如
4、,对于表7.1我们可以根据头发属性的值,把集合U划分称一些不相连的等价类,如图,2020年8月3日星期一,头发,p黑色=3/8,e1 - e2 - e3 -,p红色=1/8,e4 +,e5 + e6 - e7 + e8 -,p黄色=4/8,2020年8月3日星期一,根据图7.1所示的划分系统的头发的熵H头发可以表达为 H头发=p黑H黑+p红H红+p黄H黄其中 p黑=3/8,p红=1/8,p黄=4/8 划分后相应子系统的熵为,2020年8月3日星期一,由此我们得到H头发=4/8(-1log1/2)=0.1515 这表明基于属性头发的属性值对U进行分类可以减少信息的不确定性,即 头发=Hi-H头发
5、=0.954-0.1515=0.8025 类似的有眼睛=0.347,高度=0.003 对于由特征特征化的对象的分类规则可以用决策树的形式表达,即选择最高值的属性为树的根,树的每一分支对应根属性的一个等价类,对这些包含不同专家类的对象的分支节点要进一步分类,对每一分支,通过在属性的可用集合中选取最好的属性,进行同样的过程,已经被用在现行分支的属性不再包含在内。例如,在我们的例子中,因头发为最大值,属性头发被选作树的根。在图7.1中,分支节点黄色包含“+”和“-”两个专家类,这就意味着需要对对象的这个子集作进一步分类,这个子系统的初始熵为1,对于其余的每一个属性,我们可以计算其熵值的减小,,202
6、0年8月3日星期一,头发,黑色,红色,黄色,e1 - e2 - e3 -,e4 +,眼睛,蓝色,e5 + e7 +,棕色,e6 - e8 -,2020年8月3日星期一,7.2粗集方法与概率统计方法的比较,例7.2考虑下面一个知识表达系统,2020年8月3日星期一,根据重量的属性值,把U分成不相连的子集如下图所示,重量,重,中等,轻,e1 + e2 +,e3 + e4 +,e5 + e6 - e7 - e8 - e9 - e10 -,2020年8月3日星期一,系统的熵值为,2020年8月3日星期一,2020年8月3日星期一,命题1 一个知识表达系统S=(U,C,D,V,F),令T=y1,y2,.
7、,y10是U上的一个划分,每一个yi代表一个概念,且,2020年8月3日星期一,例7.3考虑一个类似与表7.2所示的知识表达系统,2020年8月3日星期一,根据“重量”的属性值,我们把7.3中的对象分成三个不相联的子集如下图,重 量,重,中等,轻,e1 + e2 +,e3 - e4 -,e5 + e7 + e6 + e8 - e9 - e10 -,2020年8月3日星期一,Hi=1,H重=0,H中等=0,H轻=1 p重=2/10,p中等=2/10,p轻=6/10, 故 重量=Hi-H重量=1-6/10=0.4,2020年8月3日星期一,2020年8月3日星期一,7.3 统计粗集模型,给定一个有
8、限对象集合U和U上的等价关系R,假定U的子集上定义的概率测度p,定义概率近似空间Ap=,U的每一子集对应代表一定有用概率的随机事件。令P(Yxi)表示在xi条件下Y出现的概率,根据这些条件概率,我们可以定义概率近似空间中Y的概率上近似和概率下近似分别为,2020年8月3日星期一,2020年8月3日星期一,由此可见,当一个对象属于posAP(Y)或negAP(Y)时,我们可以从概率的意义上肯定这个对象满足Y的程度,但我们不能肯定边界中研究对象是否匹配概率Y.因此,A-P(Y)-A-P(Y)时我们称Y在概率近似空间中是统计可定义的。否则是不可定义的。统计可定义的集合可以由AP中的基本集合完全特性化
9、,统计不可定义的集合称为统计粗集,它可以分为下列几类,2020年8月3日星期一,2020年8月3日星期一,假定存在U上的子空间定义的概率测度p,U上的任意划分为随机变量,则X*=(x1,x2,.,xn)和Y*=(y1,y2,y3,.,ym) 分别为表示U上的等价关系X和Y导出的划分,并定义归一化条件熵函数为 H(Y*X*)=,2020年8月3日星期一,2020年8月3日星期一,2020年8月3日星期一,例7.4分析下列知识表达系统的属性集合C对与D的信息依赖性一个小汽车知识表达系统,2020年8月3日星期一,考察条件属性C=(a,b,c)和决策属性D=(d,e)之间的信息依赖性,根据 归一化条
10、件熵函数可得H(D*|C*)=0.125,这表明C与D之间有很强的依赖关系。,2020年8月3日星期一,2020年8月3日星期一,如果H(C*|(C-(c)*)=H(C*|c*),属性c称为C中统计可省略的,否则c称为C统计中不可省略的。 统计核是所有统计不可省略条件属性的集合,是C的全体统计简化的交,2020年8月3日星期一,相对核是相对于D的所有统计不可省略条件属性的集合,是所有相对统计简化的交,即,2020年8月3日星期一,2020年8月3日星期一,7.4统计粗集模型和确定性粗集模型的比较,在信息和智能系统中,知识表达和处理主要是利用论语U中的基本概念x1,x2,x3,.,xn来特性化概
11、念,这里一般有两种情况 (1)已知论域U中全部研究对象的描述 (2)已知论域U中一个子集对象的描述。 决策表知识表达和处理就是第一种情况,它包含了全部条件属性和结果属性。在这里论域中的全部研究对象都是已知的,2020年8月3日星期一,2020年8月3日星期一,2020年8月3日星期一,如在例7.4中根据“类型”的属性值特性化结果概念“加速好”,容易得到,由属性“类型”导出的概念“加速好”的正域和负域在近似的空间上都是空集,故 类型:中不确定 类型:小不确定 类型:大不确定 这表明确定粗集没有获得和利用边界区域中提供的统计信息,而统计粗集模型利用了边界区域中的统计信息,提供了概念Y的一个更完整的
12、特性化。,2020年8月3日星期一,在统计粗集方法中,关于概念Y的决策规则为 (1)如果p(Y|xi)0.5,des(xi)des(y) (2)如果p(Y|XI)0.5,des(xi)非des(Y) (3)如果p(Y|xi)=0.5,des(xi)不确定 这里,确定性因子C可以定义为c=maxp(Y|xi) 可以看出,能用确定性粗集方法做出的决策,用统计性粗集方法可以得到同样的决策结果。反之不然,当所有概率规则的确定性因子c1时,确定性粗集中都判为不确定,但统计粗集方法都能做出决策。,2020年8月3日星期一,小结 在智能信息处理中重要的问题在于,我们是否可以根据获得的符号知识(例如属性、属性值)对给定的一组对象进行专家分类和推理决策,这里包括我们知道论域U中全部研究对象的描述(确定性知识)和仅知道论域U中一个随机抽
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论