




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据分析技术数据分析技术 背景:背景:信息时代,知识爆炸,信息泛滥,需要利用人工智能的信息时代,知识爆炸,信息泛滥,需要利用人工智能的方法对数据进行分析,从海量数据中挖掘出有用的信息,获取方法对数据进行分析,从海量数据中挖掘出有用的信息,获取所需的知识,为决策提供服务所需的知识,为决策提供服务目的:目的:主要介绍数据处理的基础理论与方法,为研究不确定数主要介绍数据处理的基础理论与方法,为研究不确定数据与知识工程领域的问题奠定知识基础据与知识工程领域的问题奠定知识基础范畴:范畴:属于信息科学,是智能科学的基础,知识工程领域一个属于信息科学,是智能科学的基础,知识工程领域一个重要组成部分,是数据库
2、、人工智能和机器学习的一个交叉学重要组成部分,是数据库、人工智能和机器学习的一个交叉学科科特点:特点:应用性强、知识面广、内容多、难度大、更新快应用性强、知识面广、内容多、难度大、更新快课程内容课程内容一、基础理论和软计算一、基础理论和软计算包括:概率论、模糊集、粗糙集、信息熵、包括:概率论、模糊集、粗糙集、信息熵、D-S证据理论、遗证据理论、遗传算法、局部搜索算法传算法、局部搜索算法二、分析技术和模型二、分析技术和模型包括:关联分析技术、聚类分析技术、分类分析技术、异常分包括:关联分析技术、聚类分析技术、分类分析技术、异常分析技术、贝叶斯网、影响图析技术、贝叶斯网、影响图三、应用三、应用挖掘
3、工具、挖掘工具、 BN工具、工具、ID工具工具课程任务课程任务数据数据决策决策概率论、模糊集、粗糙集概率论、模糊集、粗糙集信息熵、信息熵、D-SD-S证据理论、遗传算法证据理论、遗传算法关联分析技术、聚类分析技术关联分析技术、聚类分析技术分类分析技术、异常分析技术分类分析技术、异常分析技术贝叶斯网、影响图贝叶斯网、影响图依赖关系依赖关系概率因果关系概率因果关系关联关系关联关系簇、类、异常簇、类、异常课程时间安排课程时间安排内容内容教学时数教学时数概率论基础概率论基础1 1学时学时模糊集模糊集4 4学时学时粗糙集粗糙集4 4学时学时信息熵信息熵4 4学时学时D-SD-S证据理论证据理论3 3学时
4、学时软计算(遗传算法、局部搜索算法)软计算(遗传算法、局部搜索算法)6 6学时学时关联分析关联分析5 5学时学时聚类分析聚类分析5 5学时学时分类分析分类分析5 5学时学时异常分析异常分析5 5学时学时贝叶斯网贝叶斯网5 5学时学时影响图影响图5 5学时学时工具工具4 4学时学时总计总计 5656学时学时1. 1.刘惟一等刘惟一等智能数据分析智能数据分析. .科学出版社,科学出版社,200720072.2.王丽珍等王丽珍等 数据仓库与数据挖掘原理及应用数据仓库与数据挖掘原理及应用. .科学出版社,科学出版社,200920093.3.张连文,郭海鹏张连文,郭海鹏 贝叶斯网引论贝叶斯网引论. .
5、科学出版社,科学出版社,200620064.4.马少平,朱小燕马少平,朱小燕 人工智能人工智能. . 清华大学出版社,清华大学出版社,20042004参考书参考书基础理论基础理论概率理论概率理论随机试验:随机试验:可以在相同条件下重复试验,试验的所有可能结果可以在相同条件下重复试验,试验的所有可能结果是已知的,但每次试验到底是其中的哪一个结果预先不能确定是已知的,但每次试验到底是其中的哪一个结果预先不能确定样本空间样本空间 :随机试验的所有可能结果的集合,样本空间可以随机试验的所有可能结果的集合,样本空间可以是离散的,也可以是连续的是离散的,也可以是连续的 掷骰子试验,有掷骰子试验,有6种可能
6、的结果种可能的结果 样本空间为样本空间为 =1,2,3,4,5,6随机事件(事件):随机事件(事件):样本空间的子集,用大写字母表示样本空间的子集,用大写字母表示 A=1,3,5 表示表示“掷出结果为奇数掷出结果为奇数”这一事件这一事件样本点:样本点:随机试验中每个可能出现的结果随机试验中每个可能出现的结果如果随机试验的结果包含在一个事件之中,则称该事件发生了如果随机试验的结果包含在一个事件之中,则称该事件发生了样本空间样本空间 是一个一定会发生的必然事件,空集是一个一定会发生的必然事件,空集 是不可能发是不可能发生的不可能事件生的不可能事件概率论基础概率论基础概率论基础概率论基础事件之间有如
7、下几种关系:事件之间有如下几种关系:包含:包含:如果事件如果事件A 发生必然导致事件发生必然导致事件B 发生,则称事件发生,则称事件B包含事件包含事件 A ,记为,记为A B (或(或 B A ),对于任一事件),对于任一事件A ,A , A 相等:相等:如果如果 A B且且 B A ,则称事件,则称事件 A 、B相等,记为相等,记为A =B 并:并:“事件事件 A与事件与事件 B至少有一个发生至少有一个发生”构成的事件,构成的事件,A B, A +B交:交:“事件事件 A与事件与事件B同时发生同时发生”构成的事件,记为构成的事件,记为A B, AB差:差:“事件事件A发生而事件发生而事件B不
8、发生不发生”构成的事件,记为构成的事件,记为AB, A-B互斥:互斥:如果如果 A B= ,则称,则称A与与 B为互斥事件,它们没有公共的为互斥事件,它们没有公共的样本点,不可能同时发生样本点,不可能同时发生补:补: A不发生构成的事件,记为不发生构成的事件,记为 A ,显然,显然 A + ( A)= , A ( A)= A=1,3,5 A=2,4,6 “掷出结果为偶数掷出结果为偶数” 概率论基础概率论基础事件事件A的概率:的概率:满足以下满足以下3个个Kolmogorov公理的实值函数公理的实值函数P(A)(1) P( )=1 (2) 0 P(A), A F (3) P(A+B)= P(A)
9、+ P(B), A,B F , AB= 规范性:必然事件规范性:必然事件 的概率为的概率为1非负性:概率不能为负非负性:概率不能为负有限可加性:互斥事件的并集的概率等于它们各自概率的和有限可加性:互斥事件的并集的概率等于它们各自概率的和 P( )=1 , P( )=0事件域事件域F :设设F是事件的集合,且满足以下条件:是事件的集合,且满足以下条件:(1) F (2)如果)如果A F ,则,则 A F(3)如果)如果Ai F (i=1,2,),),则则 FAii1概率论基础概率论基础事件概率的确定:事件概率的确定:一个事件发生的概率可以通过概率统计方法得到,即通过随机实一个事件发生的概率可以通
10、过概率统计方法得到,即通过随机实验得出统计规律验得出统计规律每一次试验,事件每一次试验,事件A发生与否是确定的,为此可得发生与否是确定的,为此可得nAAn发生的次数发生的概率事件 limn:试验次数,要求:试验次数,要求n充分大充分大随着随着n 的增大,上式趋于一个的增大,上式趋于一个0,1闭区间的值闭区间的值p,这个,这个p就是事件就是事件A发生的概率发生的概率概率论基础概率论基础事件的条件概率:事件的条件概率:设设A、B为两随机事件且为两随机事件且P(B)0 。事件。事件A在事件在事件B发生时的条件概发生时的条件概率率P(A/B)定义为:定义为: )()()/(BPABPBAP)/()()
11、(BAPBPABP)/()()(ABPAPABP事件的独立:事件的独立:对于两个不同的事件对于两个不同的事件A、B,如果如果 成立成立则称事件则称事件A与事件与事件B相互独立相互独立此时此时 )()()(BPAPABP)/()(BAPAP概率论基础概率论基础随机变量随机变量 :定义在样本空间上的函数,通常用大写字母表示,如定义在样本空间上的函数,通常用大写字母表示,如X、Y X:掷出结果除:掷出结果除2的余数的余数 变量的取值随试验的结果而定,通常用小写字母表示,如变量的取值随试验的结果而定,通常用小写字母表示,如x,y变量的所有可能取值的集合称为它的值域,也称状态空间,变量的所有可能取值的集
12、合称为它的值域,也称状态空间, X随机变量可以是离散的,也可以是连续的随机变量可以是离散的,也可以是连续的离散随机变量的状态空间是离散的,包含有限或无限可数个状态离散随机变量的状态空间是离散的,包含有限或无限可数个状态连续随机变量的状态空间是连续的,包含无穷不可数个状态连续随机变量的状态空间是连续的,包含无穷不可数个状态1 , 0 x1)5()3() 1 (XXX0)6()4()2(XXX概率论基础概率论基础概率分布:概率分布:设设X为一个随机变量,为一个随机变量, x是它的一个取值是它的一个取值在样本空间中,所有使在样本空间中,所有使X取值为取值为x的样本点组成一个事件,的样本点组成一个事件
13、, X= x事件事件X= x的概率的概率P(X= x)依赖于依赖于X的取值的取值x 让让x在在 X上变动,上变动, P(X= x)就成为一个的取值于就成为一个的取值于0,1的函数,记为的函数,记为P(X)X的的概率分布概率分布 P(X)满足满足1)(, 0)(XXPXP1 , 0 x5 . 0)0(XP5 . 0) 1(XP多个变量多个变量X1,X2,Xn 的联合概率分布:的联合概率分布:P(X1,X2,Xn)1,3,5概率论基础概率论基础边缘分布:边缘分布:设设X =X1,X2,Xn, Y是是X的的真子集,的的真子集, Z= X Y相对于相对于P(X), Y的边缘分布的边缘分布P(Y)为:为
14、:ZnXXPYP),()(1条件概率分布:条件概率分布:设设X , Y是两个随机变量是两个随机变量)(),()/(YPYXPYXP乘法公式(贝叶斯公式):乘法公式(贝叶斯公式):)/()()(YXPYPXYP)/()()(XYPXPXYP)/()/()()/()()(XYZPXYPXPXYZPXYPXYZP链公式链公式)()/()()()()/(YPXYPXPYPXYPYXP贝叶斯公式贝叶斯公式概率论基础概率论基础条件独立:条件独立:)()()()(ZPYZPXZPXYZP)()()(YPXPXYPX和和Y统计独立统计独立)/()/()/(ZYPZXPZXYPX和和Y条件独立于条件独立于ZX和
15、和Y条件独立于条件独立于Z)/()/()/()/()()(43215321421312154321XXXXXPXXXXPXXXPXXPXPXXXXXP已知(已知(1)X3和和X4条件独立于条件独立于X1X2 (2)X1X4和和X5条件独立于条件独立于X2X3)/()()()()(1)()()/(2142121421332132143213214XXXPXXPXXXPXXXPXXXPXXXPXXXXPXXXXP)/()()()()(1)()()/(325323253241432143215432143215XXXPXXPXXXPXXXXPXXXXPXXXXPXXXXXPXXXXXP基础理论基础理
16、论信息熵信息熵信息是对事物运动状态或存在方式的不确定性的描述信息是对事物运动状态或存在方式的不确定性的描述事物运动状态或存在方式的不确定性与事物运动状态或存在方事物运动状态或存在方式的不确定性与事物运动状态或存在方式的出现概率有关式的出现概率有关事物状态出现的概率越小,其不确定性越大;反之,当事物状事物状态出现的概率越小,其不确定性越大;反之,当事物状态出现的概率接近于态出现的概率接近于1,那它的不确定性就接近于零,那它的不确定性就接近于零为了描述事物的不确定性,香农引入了信息熵的概念为了描述事物的不确定性,香农引入了信息熵的概念 主要介绍信息熵的概念、联合熵与条件熵、离散互信息主要介绍信息熵
17、的概念、联合熵与条件熵、离散互信息信息熵信息熵信息熵信息熵信息熵的概念信息熵的概念)(.)(.)()(2211nnxpxpxxxpxxPX信息熵信息熵 :设离散随机变量设离散随机变量X的的n个可能取值分别为个可能取值分别为各个取值出现的概率分别为各个取值出现的概率分别为 且且对于这种概率分布,可以用密度矩阵加以描述:对于这种概率分布,可以用密度矩阵加以描述:nxxx,.,21)(),.,(),(21nxpxpxp1)(1niixp616161616161654321)(xPX6loglog)(2612iiippXH000010654321) (xPX0) (XH)(XHniiinppppHXH
18、121log),.,()(信息熵信息熵信息熵的性质信息熵的性质(1)对称性:)对称性: 当变量的顺序任意互换时,熵函数的值不变,即当变量的顺序任意互换时,熵函数的值不变,即),.,(.),.,(),.,(1211321nnnnppppHppppHppH(2)非负性:)非负性:熵函数的值大于、等于熵函数的值大于、等于0,即,即0log),.,(121niiinppppH(3)确定性:)确定性:随机变量某个取值一旦确定,其他取值出现的随机变量某个取值一旦确定,其他取值出现的概率为概率为0,即,即0)0,.,0 , 1 (.)0 , 0 , 1 ()0 , 1 (HHH(4)可加性:)可加性: 统计
19、独立的随机变量的联合熵等于各个变量熵统计独立的随机变量的联合熵等于各个变量熵之和,即之和,即)()()(YHXHXYH信息熵信息熵信息熵的性质信息熵的性质(5)递增性:)递增性: 设随机变量设随机变量X的取值概率为的取值概率为若其中某一元素(如若其中某一元素(如pn)被分割成)被分割成m个元素,且这个元素,且这m个元素之和个元素之和等于等于 pn ,记为,记为X ,即,即X的取值概率为的取值概率为则则X的熵增加,熵的增加量即为的熵增加,熵的增加量即为),.,(1npp),.,.,(111mnqqpp),.,(),.,(),.,.,(211111nmnnnnmnpqpqpqHpppHqqppH(
20、6)极值性:)极值性: 随机变量随机变量X的取值为等概率分布时,熵值最大,即的取值为等概率分布时,熵值最大,即nnnnHpppHn221log)/1,.,/1 ,/1 (),.,(等概率分布上的随机变量的不确定性最大等概率分布上的随机变量的不确定性最大最大离散熵定理最大离散熵定理联合熵与条件熵联合熵与条件熵将信息熵的概念推广到多元随机变量,利用联合概率分布和条件将信息熵的概念推广到多元随机变量,利用联合概率分布和条件概率分布定义熵概率分布定义熵1.联合熵联合熵设二元随机变量设二元随机变量XY的可能取值为的可能取值为),.,1,.,1)(,(JjIiyxjiIiJjiiyxp111),().()
21、(.)(.),(,)(2212212212211111yxpyxpyxpyxyxyxyxpyxxyPXY联合概率空间为:联合概率空间为:XY的联合熵的联合熵 :二元随机变量二元随机变量XY不确定性的度量不确定性的度量 )(XYHIijijiJjyxpyxpXYH121),(log)()(联合熵与条件熵联合熵与条件熵2.条件熵条件熵已知已知 时,随机变量时,随机变量Y的不确定性记为的不确定性记为X可取可取 中任意一个,对所有中任意一个,对所有 的可能值进行统的可能值进行统计平均就是已知随机变量计平均就是已知随机变量X的情况下的条件熵,记为的情况下的条件熵,记为 ixX )|(ixXYH,.,21
22、Iixxxx ix)|(XYH)|()()|(log)()|(1121iIiIiiijjiJjxYHxpxypyxpXYH联合熵与条件熵的关系联合熵与条件熵的关系 )|()()(XYHXHXYH)|()()(YXHYHXYH当当X和和Y统计独立时,有:统计独立时,有:)()|()()()(YHXYHYHXHXYH一般情况下,有:一般情况下,有:)()|()()()(YHXYHYHXHXYH联合熵与条件熵联合熵与条件熵IiijiJjijIiIiJjjiijiJjIiijijiJjIijijiJjXYHxpyxpxypyxpxpyxpxypxpyxpyxpyxpXYH121211121121121
23、)|()(log)()|(log)()(log)()|()(log)(),(log)()()|()()(XYHXHXYHIiiiiIiJjijiIiijiJjXHxpxpxpxypxpxpyxp12211121)()(log)()(log)|()()(log)(离散互信息离散互信息互信息的概念互信息的概念 假定随机变量假定随机变量X和和Y之间不是统计独立的之间不是统计独立的在获知在获知Y取值的条件下,取值的条件下, X的不确定度比起未知的不确定度比起未知Y取值时的不确定取值时的不确定度要小,也就是说度要小,也就是说X和和Y之间的互信息之间的互信息 :表示已知表示已知Y后,后, X的不确定度的减
24、少,也就是已知的不确定度的减少,也就是已知Y的取值后所提的取值后所提供的有关供的有关X的信息的信息)()/(XHYXH),(YXI)|()(),(YXHXHYXI离散互信息离散互信息互信息的概性质互信息的概性质(2)确定性:)确定性:当当X可唯一确定可唯一确定Y时,有时,有于是有:于是有:同样,当同样,当Y 可唯一确定可唯一确定X时,有时,有0)|(XYH)(),(YHYXI)(),(XHYXI(1)对称性:)对称性:),(),(XYIYXI相关结论:相关结论:)|()()|()(),(XYHYHYXHXHYXI)()()(),(XYHYHXHYXI离散互信息离散互信息多随机变量的互信息多随机
25、变量的互信息两组多元随机变量两组多元随机变量X和和YZ之间的互信息之间的互信息 :)|()()|()(),(XYZHYZHYZXHXHYZXI),(),(XYZIYZXI)()()(),(XYZHYZHXHYZXI在已知变量在已知变量Z的条件下,随机变量的条件下,随机变量X和和Y 之间的条件互信息:之间的条件互信息: )|()|()|(log),()| ),(2111kjkikjiIiJjKkkjizypzxpzyxpzyxpZYXI可以推出:可以推出: )(-)|()| ),(YZXHZXHZYXI)|()|()| ),(XZYHZYHZYXI)|()|()|()| ),(ZXYHZYHZX
26、HZYXI)| ),(),(),(YZXIYXIYZXI条件熵表示互信息条件熵表示互信息 条件互信息表示联合互信息条件互信息表示联合互信息 )| ),(),(),(ZYXIZXIYZXI离散互信息离散互信息多随机变量的互信息多随机变量的互信息多元随机变量多元随机变量X、Y、Z相互相互之间的互信息之间的互信息I( X、Y、Z) :)()()()()()()(log),(),(2111kjikjikikjjiIiJjKkkjizyxpzpypxpzxpzypyxpzyxpZYXI可以推出:可以推出: )| ),(),(),()| ),(),(),()| ),(),(),(YZXIZXIZYXIXZ
27、YIZYIZYXIZYXIYXIZYXI离散互信息离散互信息离散互信息的应用离散互信息的应用确定文本分类问题中关键字确定文本分类问题中关键字文本分类是判定给定的书(或论文)属于哪一个学科(数学、物文本分类是判定给定的书(或论文)属于哪一个学科(数学、物理、计算机,理、计算机,)文本常常包含大量的单词,为了判定准确和减少计算量,需要抽文本常常包含大量的单词,为了判定准确和减少计算量,需要抽到少量的关键词作为待分类文本的特征到少量的关键词作为待分类文本的特征关键词特性:在文本中的权重要大,对于分类的贡献要大关键词特性:在文本中的权重要大,对于分类的贡献要大关键词对于分类的贡献可以使用文本与关键词之
28、间的互信息度量关键词对于分类的贡献可以使用文本与关键词之间的互信息度量文本与关键词之间的互信息越大,表明增加了关键词后,文本类文本与关键词之间的互信息越大,表明增加了关键词后,文本类别不确定的程度减小越大别不确定的程度减小越大离散互信息离散互信息离散互信息的应用离散互信息的应用单词的权重:单词的权重:每个单词在文本中出现的频度每个单词在文本中出现的频度单词单词Wi在文本在文本Dj中的权重中的权重dij为为 :Nij: Wi在在Dj中重复出现的次数中重复出现的次数 Tj: Dj中的总字数中的总字数Qj: Dj中的不同单词的个数中的不同单词的个数jjijQTNdji1用用v(Wi)表示表示单词单词
29、Wi权重的阈值为:权重的阈值为:v1(Wi)表示表示 v(Wi)=1,Wi权重符合关键词标准权重符合关键词标准v0(Wi)表示表示 v(Wi)=0,Wi权重不符合关键词标准权重不符合关键词标准ijijiddWv, 0, 1)(给定的给定的截值截值离散互信息离散互信息离散互信息的应用离散互信息的应用步骤:步骤:1)为了判定一个单词对分类的贡献,需要训练样本集)为了判定一个单词对分类的贡献,需要训练样本集( D中文本的类别已知)中文本的类别已知)2)计算文本集的不确定度)计算文本集的不确定度3)计算知道文本含有单词)计算知道文本含有单词Wi后文本集后文本集D的不确定度的不确定度KkkilkCWvp
30、CpDH12),(log)()(10121012)(|(1log)(|()()(|(1log),()|(lKkilkilkillKkilkkiliWvCpWvCpWvpWvCpCWvpWDH4)计算)计算表示已知表示已知Wi的取值后,的取值后,D不确定度的减少,即对文本分类的贡献不确定度的减少,即对文本分类的贡献5) , Wi就不能作为关键词就不能作为关键词 )|()(),(iiWDHDHWDI),(iWDI离散互信息离散互信息离散互信息的应用离散互信息的应用训练样本集训练样本集D: 文本文本W1W2W3W4分类分类D11010C1D20101C2D31001C1D41111C1D50010C
31、3文本集文本集D的分类不确定度为的分类不确定度为 :37. 115log5115log5135log53),(log)()(222312kkilkCWvpCpDH离散互信息离散互信息离散互信息的应用离散互信息的应用文本文本W1W2W3W4分类分类D11010C1D20101C2D31001C1D41111C1D50010C3Wi= W1 :0)001log1 (53)(|(1log)(|()(, 12311121111kkkWvCpWvCpWvpl4 . 0)2log212log210(52)(|(1log)(|()(, 022311021010kkkWvCpWvCpWvpl97. 04 .
32、037. 1)|()(),(4 . 0)|(111WDHDHWDIWDH离散互信息离散互信息离散互信息的应用离散互信息的应用文本文本W1W2W3W4分类分类D11010C1D20101C2D31001C1D41111C1D50010C397. 0),(1WDI42. 0),(4WDI42. 0),(2WDI37. 0),(3WDI取取 =0.4,则,则W3不能作为关键词不能作为关键词 ,41)3(42)2(1)1(WWKWWKWK,)5(421)4(KWWWK对文本对文本D5来说,应该把权重阈值放宽来说,应该把权重阈值放宽 基础理论基础理论模糊集模糊集模糊集是模糊概念的一种描述模糊集是模糊概念
33、的一种描述日常生活中有许多概念是模糊的日常生活中有许多概念是模糊的 “高个子高个子”、“年轻年轻”对于对于“张三是个高个子张三是个高个子”这样的命题,主要考虑张三对这样的命题,主要考虑张三对“高个子高个子”概念的符合程度,符合程度用概念的符合程度,符合程度用0,1闭区间内的一个实数度量闭区间内的一个实数度量概率论和模糊数学都是研究不确定现象,但两者不同概率论和模糊数学都是研究不确定现象,但两者不同概率论研究随机现象,其事件本身有明确的含意,由于条件与事概率论研究随机现象,其事件本身有明确的含意,由于条件与事件之间没有决定的因果关系,事件的发生与否出现不确定性件之间没有决定的因果关系,事件的发生
34、与否出现不确定性模糊数学研究的是模糊现象,它所要处理的事物的概念本身是不模糊数学研究的是模糊现象,它所要处理的事物的概念本身是不清晰的(由于概念外延模糊带来的不确定性常被称为可能性)清晰的(由于概念外延模糊带来的不确定性常被称为可能性)主要介绍模糊集的概念、隶属函数、模糊关系、模糊数、模糊集主要介绍模糊集的概念、隶属函数、模糊关系、模糊数、模糊集的距离的距离模糊集(模糊集(Fuzzy Set)给定论域给定论域U(感兴趣的对象组成的非空集感兴趣的对象组成的非空集 ),U上的模糊子集上的模糊子集A用用U到到0,1闭区间的映射闭区间的映射 A 描述描述 模糊集合模糊集合 1 , 0:UA A称为称为
35、A的隶属函数的隶属函数对于对于x U , A表示表示x 对于对于A 的隶属度的隶属度以年龄为论域,以年龄为论域, U =0,200。模糊子集。模糊子集Y表示表示“年轻年轻”这个模这个模糊概念,其隶属函数是糊概念,其隶属函数是20025,)525(1 250, 1)(12xxxxY Y(x)=1:认为认为x完全属于完全属于Y; Y(x)=0:认为认为x完全不属于完全不属于Y;0 Y(x)1:认为认为x属于属于A的程度是的程度是 Y(x)论域论域U为有限点集,为有限点集, ,A 是是U上的模糊子集上的模糊子集A可用可用以下几种方式表示:以下几种方式表示:(1)向量表示:)向量表示:模糊集合模糊集合
36、,.,21nxxxU )(),.,(),(21nAAAxxxA隶属度隶属度 A为零为零的项不能省略的项不能省略 (2)Zadeh表示表示 )(.)()(2211nnAAAxxxxxxA元素元素xi与其隶与其隶属度属度 A之间的之间的对应关系对应关系 集合概念,表集合概念,表示各项汇总示各项汇总 隶属度隶属度 A为零的项可以省略为零的项可以省略 论域为无限域时,论域为无限域时,Zadeh记号记号 表示为表示为iniiAxx / )(1uxAxx / )((3)序偶表示序偶表示 )(,(),.,(,(),(,(2211nAnAAxxxxxxA设论域设论域U=1,2,3,4,5,6,7,8,9,10
37、,A表示表示“接近接近6的数的数”模糊集合模糊集合向量表示:向量表示:2 . 0 , 4 . 0 , 6 . 0 , 8 . 0 , 1 , 8 . 0 , 6 . 0 , 4 . 0 , 2 . 0 , 0AZadeh表示:表示:102 . 094 . 086 . 078 . 06158 . 046 . 034 . 022 . 010A序偶表示:序偶表示:)2 . 0 ,10(),4 . 0 , 9(),6 . 0 , 8(),8 . 0 , 7(),1 , 6(),8 . 0 , 5(),6 . 0 , 4(),4 . 0 , 3(),2 . 0 , 2(),0 , 1(A模糊集间的关系模
38、糊集间的关系如果对一切如果对一切x U均有均有 A(x)= B(x),则称则称A和和B相等,记为相等,记为A=B 如果对一切如果对一切x U均有均有 A(x) B(x),则称,则称B包含包含A,记为,记为 A B如果对一切如果对一切x U均有均有 A(x)=0,则称则称A为空集为空集如果对一切如果对一切x U均有均有 A(x)=1,则称则称A为全集为全集设设A和和B为为U上的两个模糊集上的两个模糊集隶属函数隶属函数 隶属函数往往可以通过模糊统计得到隶属函数往往可以通过模糊统计得到 设年龄论域为设年龄论域为0,120间的整数,间的整数,Y表示表示“年轻年轻”这个模糊子这个模糊子集集 方法方法1:
39、选选N个具有正确判断力的评判员,从个具有正确判断力的评判员,从0岁开始,逐岁表岁开始,逐岁表决决x岁是否属于岁是否属于“年轻年轻”,若有,若有n(x)个评判员认为个评判员认为“年轻年轻”则用隶属函数则用隶属函数 表示表示“年轻年轻”这个模糊这个模糊集集 要求要求N充分大,随着充分大,随着N的增大的增大n(x)/N会统计趋于某一个值会统计趋于某一个值 方法方法2:选选N个具有正确判断力的评判员,在各种年龄均匀分布个具有正确判断力的评判员,在各种年龄均匀分布的人群中逐个进行评判,将的人群中逐个进行评判,将90%以上认为是以上认为是“年轻年轻”的人挑出的人挑出来,当挑出的人足够多时进行统计来,当挑出
40、的人足够多时进行统计计年龄为计年龄为x的有的有n(x)个,记个,记120, 0,)()(xNxnxY)(max120, 00 xnNx120, 0,)()(0 xNxnxY隶属函数隶属函数 在实际问题中,模糊集的运算可通过隶属度来定义在实际问题中,模糊集的运算可通过隶属度来定义 设设A、B为为U中的两个模糊子集,则中的两个模糊子集,则)(),(max)(xxxBABA)(),(min)(xxxBABA的补集表示AAxxCAAC),(1)(模糊集与普通集模糊集与普通集 模糊集模糊集A本身是没有确定边界的集合,但是如果约定,只有本身是没有确定边界的集合,但是如果约定,只有 A(x)达到或超过某个水
41、平达到或超过某个水平 者才算者才算A的成员,那么模糊集的成员,那么模糊集A就变就变成了普通集合成了普通集合 A 截集截集A ( Set Set)设设A为论域为论域U上的模糊子集,上的模糊子集,0,10,1A的的 截集截集A 为:为:A的核:的核: A1 =1=1A的的支集:支集:普通集普通集 正规模糊集:正规模糊集:A的核非空的核非空 非正规模糊集:非正规模糊集: A的核为空的核为空凸模糊集:凸模糊集:对任意的对任意的0,10,1 , A 是闭区间是闭区间)(|xUxAA0)(|supxUxAA模糊集与普通集模糊集与普通集 正规、非凸模糊集正规、非凸模糊集非正规、凸模糊集非正规、凸模糊集正规、
42、凸模糊集正规、凸模糊集模糊集与普通集模糊集与普通集 分解定理分解定理基于分解定理,一个模糊集可以通过普通集来求解基于分解定理,一个模糊集可以通过普通集来求解 分解定理分解定理:设设A为论域为论域U上的模糊子集,上的模糊子集,0,1, A 为为A的的 截集,则截集,则1 ,0AA其中其中 A 表示一个模糊子集,称之为表示一个模糊子集,称之为 与与A 的的“乘积乘积”,其隶,其隶属函数规定为属函数规定为 :为了分析模糊集与普通集,需要讨论分解定理和扩张原理为了分析模糊集与普通集,需要讨论分解定理和扩张原理解决模糊集的分解问题解决模糊集的分解问题模糊集与普通集模糊集与普通集 分解定理分解定理设设43
43、2117 . 03 . 01 . 0 xxxxAA被分解为:被分解为: ,43211 . 0 xxxxA1 . 01 . 01 . 01 . 01 . 043211 . 0 xxxxA,4323 . 0 xxxA3 . 03 . 03 . 03 . 04323 . 0 xxxA,437 . 0 xxA7 . 07 . 07 . 0437 . 0 xxA41xA 1141xA 分解定理得到:分解定理得到:432117 . 03 . 01 . 01 ,017 . 03 . 01 . 017 . 03 . 01 . 0 xxxxAAAAA分解定理表明大量的清分解定理表明大量的清晰事物重叠加在一起,晰
44、事物重叠加在一起,总体上就形成了模糊事总体上就形成了模糊事物物 模糊集与普通集模糊集与普通集 扩张原理扩张原理 设设X和和Y是两个集合是两个集合 ,f: XY是是X到到Y的映射的映射 A为为X中的模糊集,记中的模糊集,记A在在f下的像为下的像为f (A) f (A) 是是Y中的模糊集,且具有如下隶属函数中的模糊集,且具有如下隶属函数 解决模糊集的映射问题解决模糊集的映射问题模糊集与普通集模糊集与普通集 扩张原理扩张原理 设设 ,f: XY为为:,654321xxxxxxX ,4321yyyyY 232231)(,)(,)(yxfyxfyxf362514)(,)(,)(yxfyxfyxf所以所以
45、,)(,)(,)(613153221411xxyfxxxyfxyf设模糊子集设模糊子集 6543218 . 02 . 0017 . 03 . 0 xxxxxxA于是有于是有0)()(41)(4xyAxAf8 .08 .0 , 3 .0)(,3)(61xxAfy0)(4)(yAf12 .0 , 1 ,7 .0)(,2)(532xxxAfy328 .01)(yyAf这样这样模糊关系模糊关系 设设A和和B为两个论域,为两个论域,A与与B的笛卡儿积的笛卡儿积A B的一个模糊子集,序偶的一个模糊子集,序偶(a,b)的隶属度为的隶属度为 R(a,b) 当论域为当论域为n个集合的笛卡儿积个集合的笛卡儿积A1
46、 A2 An时,它所对应的是时,它所对应的是n元模糊关系,它的隶属函数是元模糊关系,它的隶属函数是n个变量的函数个变量的函数 二元模糊关系常用模糊矩阵表示二元模糊关系常用模糊矩阵表示设设 , A B中的模糊关系中的模糊关系R可表示为可表示为 ,| ),(BbAabaBA,.,21naaaA ,.,21mbbbB mnmmnn.212222111211 ij表示表示ai,bj之间之间存在关系存在关系R的程的程度度模糊关系模糊关系 模糊关系是一个模糊子集,因此,根据模糊集的并、交、补运模糊关系是一个模糊子集,因此,根据模糊集的并、交、补运算的定义,模糊矩阵也可做相应的运算算的定义,模糊矩阵也可做相
47、应的运算 设模糊矩阵设模糊矩阵P和和Q是是A B上的模糊关系上的模糊关系模糊矩阵的并、交、补运算定义为:模糊矩阵的并、交、补运算定义为: 模糊关系的运算模糊关系的运算),.,1;,.,1( ,)(,)(mjniqQpPmnijmnij),max(ijijqpQP),min(ijijqpQP)1 (ijCpP模糊关系模糊关系 设设模糊关系的运算模糊关系的运算018 . 012 . 03 . 0P18 . 01 . 07 . 003 . 0Q11.801.20.30108 . 011 . 08 . 07 . 0102 . 03 . 03 . 0QP 00.30108 . 011
48、. 08 . 07 . 0102 . 03 . 03 . 0QP 102 . 008 . 07 . 0CP则则02 . 09 . 03 . 017 . 0CQ模糊关系模糊关系 设设R=(rij)n m为为A B中模糊关系的矩阵中模糊关系的矩阵R的截矩阵的截矩阵 R =( rij)n m,其中,其中模糊矩阵的截矩阵模糊矩阵的截矩阵设设18 . 05 . 07 . 04 . 02 . 06 . 03 . 08 . 0R =0.71101000017 . 0R =0.81100000018 . 0R模糊关系模糊关系 设设R和和S是是A B中的两个模糊矩阵中的两个模糊矩阵性质性质1 R S时对任意时对
49、任意0,1有有R S 性质性质2 截矩阵的性质截矩阵的性质SRSR)(SRSR)(2 . 04 . 05 . 03 . 0R4 . 06 . 08 . 06 . 0S),)(,(BbAabajiji),(),(jiSjiRbabaSR 取取 =0.500105 . 0R01115 . 0S5 . 05 . 0SR0111)(5 . 0SR 01115 . 05 . 0SR0010)(5 . 0SR 00105 . 05 . 0SR模糊关系模糊关系 设设R=(rij)n m是是A B中的模糊关系,中的模糊关系, S =(sjk)m l是是B C中的模糊关系中的模糊关系A C中的模糊关系通过中的模
50、糊关系通过R与与S合成获得合成获得模糊关系的合成模糊关系的合成 R和和S的合成的合成 lnikqSRQ)()()(jkijiksrq设设2 . 04 . 05 . 05 . 007 . 08 . 01R17 . 04 . 006 . 01S2 .04 .04 .05 .05 .05 .006 .07 .08 .07 .01) 12 .0()04 .0()7 .02 .0()6 .04 .0()4 .02 .0() 14 .0() 15 .0()05 .0()7 .05 .0()6 .05 .0()4 .05 .0() 15 .0() 10()07 .0()7 .00()6 .07 .0()4
51、.00() 17 .0() 18 .0()01 ()7 .08 .0()6 .01 ()4 .08 .0() 11 (SRQ模糊关系模糊关系 设设R、S和和T分别是分别是A B、B C和和C D中的模糊关系中的模糊关系模糊关系合成运算的性质模糊关系合成运算的性质 性质性质1 结合律:结合律:)()(TSRTSR性质性质2 并运算上的分配律:并运算上的分配律:)()()(TRSRTSR)()()(TSTRTSR性质性质3 单调性:单调性:若若R S,则,则 且且若若R S,则,则TSTRSTRTSSRR模糊数模糊数 用于表示数量中的模糊概念用于表示数量中的模糊概念 某人身高在某人身高在“175c
52、m左右左右” 若实数域若实数域R上的模糊子集上的模糊子集A的隶属函数的隶属函数 A(x)在在R上连续且具有下列上连续且具有下列性质:性质:性质性质1 A是凸模糊集,即对任意是凸模糊集,即对任意0,1, A 是闭区间是闭区间性质性质2 A(x)是正规的,即存在是正规的,即存在x0 R,使,使 A(x0)=1,则称为,则称为A正规正规模糊数,简称模糊数模糊数,简称模糊数 正规模糊数的隶属函数的图形是单峰的且峰顶的隶属函数为正规模糊数的隶属函数的图形是单峰的且峰顶的隶属函数为1 模糊数模糊数 区间数:区间数:一个模糊数一个模糊数A介于介于l和和r之间,用闭区间之间,用闭区间l,r表示,其间元表示,其
53、间元素的隶属度均为素的隶属度均为1,即,即模糊数的表示模糊数的表示, 1),(),(, 0)(rlxrxlxxA梯形模糊数:梯形模糊数:一个模糊数一个模糊数A介于介于l和和r之间,其间元素的隶属度为:之间,其间元素的隶属度为:三角模糊数:三角模糊数:一个模糊数一个模糊数A介于介于l和和r之间,其间元素的隶属度为:之间,其间元素的隶属度为:模糊数模糊数 区间数运算区间数运算(1)一元运算:)一元运算:对任意区间数对任意区间数A=Al,Ar,有,有1) A的否定的否定2)数)数c(c 0,1)与与A的积的积3) A的正数的正数r次幂次幂 4)数)数m(m 0,1)的的A次方次方 (2)二元运算:)
54、二元运算:对任意区间数对任意区间数A=Al,Ar, B=Bl,Br有有1) A、B的代数和的代数和2) A、B的代数积的代数积3) A除除B ,分母不为分母不为0 1 ,1 rlAAA,rlcAcAcA )( ,)(rlrlrAAA ,rlAAAmmm,rrllBABABA,rrllBABABA/,/lrrlBABABA模糊数模糊数 三角数、梯形数运算三角数、梯形数运算设模糊数设模糊数A, B分别表示分别表示“接近于接近于3的实数的实数”与与“接近于接近于10的实的实数数”,相应的隶属度分别为,相应的隶属度分别为 模糊数模糊数 三角数、梯形数运算三角数、梯形数运算A和和B为三角模糊数,为三角模
55、糊数, A表示为表示为(Al, Am, Ar),Al=0, Am=3, Ar=5B表示为表示为(Bl, Bm, Br),Bl=4, Bm=10, Br=12令令C=A+B, C表示为表示为(Cl, Cm, Cr)4lllBAC13mmmBAC17rrrBAC17,13, 4/ )17(13, 4, 9/ )4(),17()4 ,(, 0 xxxxxxBA17rrrBAC17rrrBAC01234567891011121314151617181ABC模糊数模糊数 模糊数排序模糊数排序用模糊数表示模糊数量,数量有大小问题,因此模糊数需要排序用模糊数表示模糊数量,数量有大小问题,因此模糊数需要排序
56、重心法重心法 :对每一个模糊数赋予相应的实数,根据实数的大小对模对每一个模糊数赋予相应的实数,根据实数的大小对模糊数排序糊数排序 模糊数模糊数 A的加权重心的加权重心Cg(A):若若g(x)=x,则,则Cg(A)为为A的重心横坐标的重心横坐标重心表示较大的隶属度在论域内集中的地方,一般在其峰值左右重心表示较大的隶属度在论域内集中的地方,一般在其峰值左右 模糊数模糊数 A的均方差的均方差 (A):dxxdxxxgARxARx)(/)()(ACg)(x的权重的权重 0实数域实数域2/12R)(/)AC)()(dxxdxxxAARxRxA)(直观上,均方值越大的模糊数,其隶属函数的形状就越平坦直观上
57、,均方值越大的模糊数,其隶属函数的形状就越平坦 模糊数模糊数 模糊数排序模糊数排序重心法比较规则:重心法比较规则: 对三角模糊数对三角模糊数A= (Al, Am, Ar) ,其重心和均方差分别为,其重心和均方差分别为 2/122218/ )()(3/ )()(CrmrlmlrmlrmlgAAAAAAAAAAAAAA模糊集的距离模糊集的距离 x、 y两两“点点”间的距离间的距离d(x, y) 是一个非负实数,满足是一个非负实数,满足yxyxd 0),() 1加权闵可夫斯基距离加权闵可夫斯基距离dq(A ,B):加权海明距离加权海明距离 d1(A ,B):加权欧几里得距离加权欧几里得距离 d2(A
58、 ,B):加权切比雪夫距离加权切比雪夫距离 d2(A ,B):qqiBiAiniqxxwBAd/11)()(),(xi的权重的权重101niiiww,)()(),(11iBiAniixxwBAd2/1212)()(),(iBiAiixxwBAd)()(max),(,.,1iBiAinixxwBAd),(),()2xydyxd),(),(),() 3yzdzxdyxd,.,21nxxxU 论域论域 上的模糊子集上的模糊子集A 和和B间的常用距离:间的常用距离:模糊集的距离模糊集的距离 论域论域U=0,100, A 和和B为为U上的两个模糊子集上的两个模糊子集100,6060,20/1/ 40/
59、)20(xxxxxA80,4040, 0/ 40/ )80(/1xxxxxB)80,60,40/)40()60,50,20/)50()50,40,20/)50()40,20,40/)60(100,8020, 0,1)()(xxxxxxxxxxxxBA假定对任意的假定对任意的 x U,有,有100/1)(xw8 . 0| )()(|1001),(10001dxxxBAdBA827. 010/33.68)()(101),(2/1022dxxxBAdBA01. 0)()(1001max),(100, 0 xxBAdBAx模糊集的距离模糊集的距离 贴近度贴近度 :距离的补:距离的补),(BApq),(
60、1),(11BAdBAp),(1),(22BAdBAp),(1),(BAdBAp模糊集的距离模糊集的距离 模糊等价关系模糊等价关系 :设设R=(rij)n m是论域是论域U上的模糊关系,如果它满足上的模糊关系,如果它满足自反性自反性 rii=1对称性对称性 rij= rji (i,j=1,2,n) 称称R为为相似矩阵相似矩阵还满足还满足传递性传递性 ,称,称R为为等价矩阵等价矩阵模糊集距离的应用模糊集距离的应用等价划分等价划分RRR定理定理1:若模糊关系矩阵若模糊关系矩阵R是模糊等价关系,则对于任意的是模糊等价关系,则对于任意的0,1,所得的,所得的 截矩阵截矩阵R 也是等价关系也是等价关系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年城轨驾驶试卷题库及答案
- 2025年护理专业专升本试题库及答案
- 2025年图书借阅与保管协议
- 2025-2030中国盐化工企业上市路径比较及科创板申报要点解析
- 三级医院评审自查报告规范模板
- 2025-2030中国燃气行业无人机巡检技术应用评估报告
- 2025-2030中国燃气管道材料技术标准对比与选型指南报告
- 2025-2030中国燃气热水器消费行为与品牌竞争格局研究报告
- 2025-2030中国燃气工程设计与施工技术发展趋势报告
- 2025-2030中国燃气壁挂炉市场消费特征与营销策略报告
- 2025年矿业权评估师考试(矿业权评估地质与矿业工程专业能力)全真冲刺试题及答案
- 【公开课】两种电荷-2025-2026学年物理人教版(2024)九年级全一册
- 汽车发动机课件
- 一节好课的标准简短课件
- 殡葬行业专业知识培训课件
- 直播游戏基础知识培训
- 重庆市城市建设投资(集团)有限公司招聘笔试题库2025
- 3.2 中国的矿产资源教学课件 初中地理湘教版(2024)八年级上册
- 学堂在线 高技术与现代局部战争 章节测试答案
- 新房外部电梯拆除方案(3篇)
- 蓝豚医陪陪诊服务发展研究报告2025
评论
0/150
提交评论