浙江大学研究生人工智能引论章节.ppt_第1页
浙江大学研究生人工智能引论章节.ppt_第2页
浙江大学研究生人工智能引论章节.ppt_第3页
浙江大学研究生人工智能引论章节.ppt_第4页
浙江大学研究生人工智能引论章节.ppt_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学研究生人工智能引论课件,徐从富(Congfu Xu) PhD, Associate Professor Email: Institute of Artificial Intelligence, College of Computer Science, Zhejiang University, Hangzhou 310027, P.R. China March 10, 2002第一稿 April 18, 2007第四次修改稿,第四讲 不确定性推理概述 (Chapter4 Uncertainty Reasoning ),Outline,本章的主要参考文献 基本概念 基本问题 不确定性推理方法的分类 不确定性度量的测度理论 不确定性的其它度量方法 Shannon信息熵及在决策树中的应用 模糊推理,1 王永庆. 人工智能原理与方法. 西安交通大学出版社, 1998. pp156-252. (偏重基本概念) 2 张文修, 梁怡. 不确定性推理原理. 西安交通大学出版社, 1996. (偏重数学原理) 3 陆汝钤. 人工智能(下册). 科学出版社, 2000. pp1133-1170. (偏重Bayes概率推理、可信度、模糊推理) 4 史忠植. 知识发现. 清华大学出版社, 2002. pp24-26, pp141-202. (偏重Rough set和贝叶斯网络),本章的主要参考文献,5 Mitchell, T. M.著, 曾华军等译. 机器学习. 机械工业出版社, 2003. pp112-143. (偏重贝叶斯学习) 6 Russell, S., Norvig, P. Artificial Intelligence: A Modern Approach. 人民邮电出版社, 2002. pp413-522. (偏重贝叶斯网络及其应用),本章的主要参考文献(续),“Blessed is the nation whose God is the LORD, the people he chose for his inheritance.” From PSALMS 33:12 NIV,4.1.1 精确推理的局限性 推理 依据已知事实(证据)、相关知识(规则) 证明某个假设成立 or 不成立 精确推理及其不足 将原本为不确定性的关系“硬性”转化为精确关系 将原本不存在明确界限的事物“人为”划定界限 歪曲了现实情况的本来面目 舍弃了事物的某些重要属性 失去了真实性,4.1 基本概念,4.1.2 不确定性推理的定义及意义,1. 定义 也称“不精确性推理” 从不确定性的初始证据(即已知事实)出发 运用不确定性的知识(或规则) 推出具有一定程度的不确定性但却是合理或近乎合理的结论 2. 意义 使计算机对人类思维的模拟更接近于人类的真实思维过程,4. 2 不确定性推理中的基本问题,不确定性的表示与度量 不确定性匹配 不确定性的传递算法 不确定性的合成,4.2.1 不确定性的表示与度量,1. 不确定性的表示 选择不确定性表示方法时应考虑的因素 充分考虑领域问题的特征 恰当地描述具体问题的不确定性 满足问题求解的实际需求 便于推理过程中对不确定性的推算,不确定性的表示与度量(续1),2. 不确定性的度量 针对不同的领域问题采用不同的度量方法 用不同的数值刻画不同的不确定性程度 事先规定不确定性程度的取值范围 3. 常用的度量方法 测度理论(基于概率统计的度量方法) Shannon信息熵 其它度量方法 ,不确定性的表示与度量(续2),在选择不确定性度量方法时应考虑的因素: 充分表达相应知识及证据不确定性的程度 度量范围便于领域专家及用户估计不确定性 便于计算过程中的不确定性传递,结论的不确定性度量不超出规定的范围 度量的确定应直观,且有相应的理论依据,4.2.2 不确定性匹配,解决不确定性匹配的常用方法 设计一个匹配算法用以计算相似度 指定一个相似度的“限定”(即阈值),“To do what is right and just is more acceptable to the LORD than sacrifice.” From PROVERBS 21:3 NIV,4.2.3 证据不确定性的组合,单一证据 & 组合证据 单一证据:前提条件仅为一个简单条件 组合证据:一个复合条件对应于一组证据 前提条件用AND(与)或OR(或)把多个简单条件连接起来构成复合条件,(1)最大最小法 T(E1 AND E2) = min T(E1), T(E2) T(E1 OR E2) = max T(E1), T(E2) (2)概率方法 (要求事件之间完全独立) T(E1 AND E2) = T(E1) T(E2) T(E1 OR E2) = T(E1) + T(E2) - T(E1) T(E2) (3)有界方法 T(E1 AND E2) = max 0, T(E1) + T(E2) -1 T(E1 OR E2) = min 1, T(E1) + T(E2) 【注】:上述T(E)表示证据E为真的程度,如可信度、概率等。每组公式都有相应的适用范围和使用条件。,常用的组合证据不确定性计算方法,4.2.4 不确定性的传递,包含两个子问题 在每一步推理中,如何把证据及知识的不确定性传递给给结论 在多步推理中,如何把初始证据的不确定性传递给最终结论,4.2.5 结论不确定性的合成,用不同知识进行推理得到相同的结论 同个结论的不确定性程度却不相同 需要用合适的算法对它们进行合成,4. 3 不确定性推理方法的分类,4.3.1 不确定性推理的两条研究路线 模型方法 在推理一级上扩展确定性推理 不确定证据和知识与某种度量标准对应 给出更新结论不确定性的算法 构成相应的不确定性推理模型 控制方法 在控制策略一级上处理不确定性 无统一的不确定性处理模型,其效果依赖于控制策略,4.3.2 不确定性推理方法的分类,不确定性推理,模型 方法,控制 方法,数值 方法,非数值 方法,概率统 计方法,模糊推 理方法,粗糙集 方法,绝对概率方法,贝叶斯方法,证据理论方法,HMM方法,发生率计算,相关性制导回溯、机缘控制、启发式搜索等,可信度方法,4.3.3 关于不确定性推理方法的说明,数值方法 对不确定性的一种定量表示和处理方法 其研究及应用较多,已形成多种应用模型 非数值方法 除数值方法外的其它处理不确定性的模型方法 典型代表:“发生率计算方法”,它采用集合来描述和处理不确定性,且满足概率推理的性质,关于不确定性推理方法的说明(续1),概率统计方法 有完整、严密的数学理论 为不确定性的合成与传递提供了现成的数学公式 最早、最广泛地用于不确定性知识的表示与处理 已成为不确定性推理的重要手段 证据理论方法 1967年Dempster首次提出,1976年Shafer完善 可表示并处理“不知道”等不确定性信息,关于不确定性推理方法的说明(续2),模糊推理方法 可表示并处理由模糊性引起的不确定性 已广泛应用于不确定性推理 粗糙集理论方法 1981年Z. Pawlak首次提出 一种新的可表示并处理“含糊”等不确定性的数学方法 可用于不确定性推理、数据挖掘等领域,4.4 描述不确定性信息的测度理论 4.4.1 测度及其分类 设(X) 是有限集合X上的子集合的全体,测度的定义如下: 定义6.1(测度) 若g: (X) 0, 1满足条件: (1) g(X) = 1; (2) 当A B = 时,有 g(A B) = g(A) + g(B) + g(A) g(B) 称为g测度。 【注】:关于测度理论的详细论述请参见夏道行编著的实变函数与泛函分析,复旦大学出版社。,定义4.2(模糊测度) 模糊测度被定义为一个映射 M: (X) 0, 1 具有如下性质: (1) 有界性: M() = 0, M(X) = 1; (2) 单调性: 对任意A, B(X), AB时,有M(A) M(B) 由模糊测度定义可知: (1)有界性表示:一个非空元素不可能属于,它必然属于全集; (2)单调性表示:一个元素隶属于一个集合的确定度不大于它隶属于更大的一个集合的确定度。,定理4.1 当-1时, 测度g是模糊测度。 定理4.2 当-1时, 测度g具有如下性质:,模糊测度及其性质,定义4.3(概率测度) 称P: (X) 0,1为概率测度,若满足: (1)有界性:P(X) = 1 (2)可加性:AB=时,P(AB) = P(A) + P(B) 【注】:可证明概率测度是0时模糊测度。 定义4.4 (条件概率) 如果P是X上的概率测度,EX,且P(E)0,称,为给定条件E下,事件A发生的条件概率。,对于条件概率有如下联合概率公式:,若A1, A2, ., An为X中的n个事件,可得,若A, B两个事件满足P(A|B) = P(A),即A发生的可能性与B无关,称A, B是相互独立的。这时有,若n个事件A1, A2, ., An相互独立,则,Markov条件独立性,定义4.5 (马氏条件独立性) 若A1, A2, ., An是按时间顺序发生的一系列事件,而且具有如下特性:未来某一事件Ak+1发生的可能性只依赖于当前时刻的事件Ak ,而与过去发生的事件无关,即,这时称n个事件具有马氏(Markov)独立性。 对n个满足马氏独立性条件的事件满足,定义4.6(全概率公式) 设Hi (i=m)是X上的分划, Hi Hj (i j),且H1H2 Hm =X。由概率可加性,对于任意事件A,有,对于条件概率有如下全概率公式:,定义4.7 (后验概率公式) :Bayes公式,Bayes公式与全概率公式的区别,全概率公式 由原因到结果的计算公式 不如Bayes公式使用广泛 Bayes公式 后验概率公式 已知某结果发生,寻求这个结果发生的原因 在实际问题中有着十分重要的应用,定义4.8(信任测度) 设X是有限集,称B:(X) 0, 1为信任测度,若满足: (1) B() = 0, B(X) = 1; (2) 对于X中任意子集A1,A2,An有,如果仅仅满足,对于X中任意两个子集A1及A2有,称为弱信任测度。 【注】:可证明信任测度与弱信任测度都是模糊测度。信任测度是证据理论的最基础概念。,定义4.9(似然测度) 设X是有限集,称L:(X) 0, 1为似然测度,若满足: (1) L() = 0, L(X) = 1; (2) 对于X中任意子集A1,A2,An有,如果仅仅满足,对于X中任意两个子集A1及A2有,称为弱似然测度。 【注】:可证明似然测度与弱似然测度都是模糊测度。似然测度是证据理论的最基础概念。,定义4.10(mass函数)称m:(X) 0,1是mass函数,若满足: (1)m() = 0 (2) mass函数是专家的一种评价或确认程度。 比如X=x1, x2, , xn是n中疾病,某专家认为某人得疾病x1的可能性为0.7,于是得到一个mass函数:,在证据理论中,mass函数对构造信任测度与似然测度中有着重要的作用。,定义4.11(必然性测度) 设X是有限集,称N:(X) 0, 1为必然性测度,若满足: (1) N() = 0, N(X) = 1; (2) N(A B) = N(A) N(B) 定义4.12(可能性测度) 设X是有限集,称:(X) 0, 1为可能性测度,若满足: (1) () = 0, (X) = 1; (2) (A B) = (A) (B) 【注】:可证明必然测度与可能性测度都是模糊测度。它们是Zadel提出的可能性理论的最基础概念。,概率测度,必然测度,可能测度,信任测度,似然测度,模糊测度,各种模糊测度之间的关系示意图,4.4.2 模糊测度各类之间的关系,模糊测度各类之间的关系(续),模糊测度是一大类测度,它除了有界性条件外,只要求测度满足单调性,即当AB时,有M(A) M(B)。上述各类模糊测度之间的关系如下: 必然性测度一定是信任测度 可能性测度一定是似然测度 概率测度是信任测度与似然测度的交集 ,4.5 不确定性的其它度量方法 1、不协调度 定义4.17 (不协调度) 设m是X上的mass函数,L为由m生成的似然测度,即,称,为X, m的不协调度。,若m是X上的概率分布,即,这时信任测度与似然测度均为概率测度,于是,显然,这时的不协调度与香农信息量(即信息熵)一致。此时的不协调度就是不确定度。,不协调度(续),2、混淆度 定义4.18 (混淆度) 设m是X上的mass函数,B为由m生成的信任测度,即,称,为X, m的混淆度。其中, = A | m(A) 0 。 【注】:与不协调度相似,当m是概率分布时,混淆度即为不确定度(香农信息熵)。,3、信息量 一个概念是内涵与外延的统一体。内涵的多少表示了信息量的大小,但是内涵一般是无法度量的。由于内涵与外延是某种相反关系,我们可用外延补集作为信息,用外延补集的测度作为信息量。于是就得到如下信息量的概念。 定义4.19 (信息量) 设X是有限集,包含n个元素。P是X上的概率分布,称,是X, P的信息量。其中,,在不确定性推理过程中,经常遇到两类问题: (1) 匹配(检索)问题,需要相似度的概念; (2) 推理规则的条件与结论之间的蕴涵关系,就需要蕴涵度的概念。 经专家研究发现,相似度与蕴涵度的共性即为包含度。 【注】:本课件只简要介绍上述三个概念的定义,有关包含度理论的详细论述请参见文献: 张文修、梁怡不确定性推理原理,西安交通大学出版社,1996。,补充说明:,4、包含度 设X是一个普通集合,(X)表示X中所有子集的全体,(X)表示X中模糊集合的全体。 定义4.19 (包含度):设0(X)(X) ,对A, B 0(X) 有数D(B/A)对应,且满足: (1) 0 = D(B/A) = 1 (2) 对A, B 0(X), A B时,有D(B/A) = 1 (3) 对A, B, C 0(X), A B C时,有 D(A/C) D(A/B) 称D为 0(X)上的包含度。 【注】:关于包含度的数学原理 请详见张文修不确定性推理原理。,B,A,C,X,4.6.1 Shannon信息论 信息论的创立 1948年Shannon首次提出 以数学方法度量并研究通信信号 信息论对不确定性推理的作用 为不确定性知识的度量提供理论依据 用信息熵来衡量不确定性程度的高低 在决策树等方法中发挥重要作用,4.6 信息论及其在决策树中的应用,4.6.2 信息论中的基本概念 定义4.13(自信息量) 在收到ai之前,收信者对信源发出ai的不确定性定义为信息符号ai的自信息量I(ai)。即,其中,p(ai)为信源发出ai的概率,为表达简便起见,本课件的对数lg均以2为底。 【说明】: (1)自信息量只能反映符号的不确定性。 (2)有的文献采用以10 或e为底的对数,但是在某个具体的信息系统中,一旦确定并保持某个底数,对不确定性信息的度量和计算不会有任何影响。,定义4.14(信息熵) 设r为信源X所有可能的符号数, p(ai)为信源发出ai的概率,则信源每发一个符号所提供的平均自信息量即为信息熵。,【说明】: (1)信息熵也称香农信息量,或称不确定度。 (2)信息熵可用来度量整个信源X整体的不确定性。,Shannon信息熵,定义4.15(条件熵) 如果信源X与随机变量Y不是相互独立的,那么用条件熵H(X|Y)来度量收信者在收到随机变量Y之后,对随机变量X仍然存在的不确定性。设X对应信源符号ai ,Y对应信源符号bj ,p(ai | bj)为当Y为bj时X为ai的概率,则有,可得,由于,定义4.16(平均互信息量,也称信息论测度值) 表示信号Y所能提供的关于X的信息量的大小,用I(X, Y)表示,【说明】: 信息论在决策树学习中具有非常重要的意义。在决策树学习方法中,最关键的问题就是如何根据每个属性提供的信息量构造出一棵决策树,以此对整个实例空间进行合理的分类(划分)。,平均互信息量,4.6.3 信息论在决策树中的应用 设训练实例集为X,目的是将训练实例分为n类。设属于第i类的训练实例个数是Ci,X中总的训练实例个数为|X|,若记一个实例属于第i类的概率为P(Ci),则,此时,决策树对划分C的不确定程度为:,【注意】:在无混淆的情况下,习惯将H(X,C)简记为H(X)。,决策树学习过程就是使得决策树对划分的不确定程度逐渐减小的过程。大致过程如下: (1)选择测试属性a进行测试,在得知a=aj的情况下,属于第i类的实例个数为Cij个。记 p(Ci; a=aj) = Cij / |X| p(Ci; a=aj) 为在测试属性a的取值为aj时它属于第i类的概率。 此时决策树对分类的不确定程度就是训练实例集对属性X的条件熵。,决策树的学习过程,训练实例集对属性X的条件熵的计算公式,即,可知属性a对于分类提供的信息量I(X; a)为:,(2)信息量I(X; a)的值越大,说明选择测试属性a对于分类提供的信息量越大,选择属性a之后对分类的不确定程度越小。 (3)依次类推,不断地计算剩余样本的条件熵及信息量,直至构造出完整的决策树。,决策树的学习过程(续),4.6.4 信息熵在决策树中的应用实例ID3算法,属性 Outlook Temperature Humidity Windy 类,Overcast Hot High Not N Overcast Hot High Very N Overcast Hot High Medium N Sunny Hot High Not P Sunny Hot High Medium P Rain Mild High Not N Rain Mild High Medium N Rain Hot Normal Not P Rain Cool Normal Medium N Rain Hot Normal Very N Sunny Cool Normal Very P Sunny Cool Normal Medium P,13 Overcast Mild High Not N 14 Overcast Mild High Medium N 15 Overcast Cool Normal Not P 16 Overcast Cool Normal Medium P 17 Rain Mild Normal Not N 18 Rain Mild Normal Medium N 19 Overcast Mild Normal Medium P 20 Overcast Mild Normal Very P 21 Sunny Mild High Very p 22 Sunny Mild High Medium P 23 Sunny Hot Normal Not P 24 Rain Mild High Very N,属性 Outlook Temperature Humidity Windy 类,(续上表),在决策树方法中,所要做的工作就是构造决策树将数据进行分类。因初始时属于P类和N类的实例个数均为12,故初始熵值为:,(1) 若选择Outlook作为测试属性,其条件熵为:,本实例中的条件熵计算过程,(2) 若选择Temp作为测试属性,其条件熵为:,(3) 若选择Humidity作为测试属性,其条件熵为:,(4) 若选择Windy作为测试属性,其条件熵为:,由上述计算结果可知: (1)H(X | Outlook)最小,即有关Outlook的信息对于分类有最大的帮助,提供最大的信息量,故应选择Outlook属性作为测试属性。 (2)H(X) = H(X | Windy), 即I(X; Windy)=0,说明有关Windy的信息不能提供任何分类信息。 (3)选择Outlook作为测试属性之后,将训练实例集分为三个子集,即生成三个节点,分别对每个节点依次利用上述过程,即可生成决策树:,Humidity,P,Outlook,Windy,N,P,Temp,N,N,N,N,N,Sunny,Overcast,Rain,High,Normal,Not,Medium,Very,Cool,Mild,Hot,依据信息熵对上述实例集进行训练所生成的决策树,【补充说明】: (1)有关“决策树”(Decision tree)的详细内容,请参见史忠植知识发现(清华大学出版社,2002年)中的“第2章 决策树”(pp21-56)和高级人工智能中的“决策树学习”pp116-121。 (2)决策树方法的几个有代表性的研究成果分别是: a) 1966年Hunt等人提出的早期决策树学习算法CLS学习算法; b) 1979年Quinlan提出的以信息熵的下降速度作为选取测试属性的标准的ID3算法。 c) 1986年Schlimmer等人构造了ID4算法,该算法允许递增式构造决策树。 d) 1986年Utgoff提出ID5算法,它允许通过修改决策树来增加新的训练实例,而无需重建决策树。,1 Quinlan J. R. Discovering rules from large collections of examples: a case study. In: Michie D. ed. Expert Systems in the Micro Electronic Age, Edinburgh University Press, 1979. 2 Quinlan J. R. Learning efficient classification procedures and their application to chess and games. In: Michalski, R. S. etc, eds. Machine Learning: An Artificial Intelligence Approach, Tioga, 1983. 3 Quinlan J. R. Induction of decision trees. Machine Learning, 1986, 1(1): 81.,与决策树相关的经典文献,4 Schlimmer, J. C., Fisher, D. A case study of incremental concept induction. in: Proceedings of AAAI-86, 1986. 5 Schlimmer, J. C., Grander, R. H. Incremental learning from noisy data. Machine Learning, 1987, 1(3): 318. 6 Utgoff, P. E. ID5: An incremental ID3. in: Proceedings of ICML-88, San Mateo, CA, 1988. 7 Utgoff, P. E. Perceptron trees: A case study in hybrid concept representations. in: Proceedings of AAAI-88, Saint Paul, Minnesota, 1988.,与决策树相关的经典文献(续),4.7 模糊推理,主要参考文献 模糊推理的发展简况 模糊集合及其运算 模糊逻辑 模糊推理 模糊推理的神经网络算法,4.7.1 主要参考文献,高济. 基于知识的软件智能化技术. 浙江大学出版社, 2000. pp.201-213 张文修, 梁怡. 不确定性推理原理. 西安交通大学出版社, 1996. pp.207-254,4.7.2 模糊推理的发展简况,1965,L. A. Zadeh发表“Fuzzy Sets”论文,提出模糊集理论 1966,Marinos首先提出“模糊逻辑”的概念 1969,Guguen研究不精确概念的逻辑问题 后来,Zadeh又提出可能度理论 随后,Dubois & Prade发展了基于可能度的模糊推理 1974,E. H. Mamdani提出了模糊控制,并给出著名的Mamdani算法,4.7.3 模糊集合及其运算,基本思想 把传统集合论中由特征函数决定的绝对隶属关系模糊化 元素x对子集A的隶属度可0,1上的任何值,以指示元素x隶属于子集A 的模糊程度 定义 在论域U上定义一个模糊集A,其对U的任意元素x均指定一个值uA(x) 0, 1,以表示它对A的隶属程度 uA: 0, 1 (uAA的隶属函数) A = x / uA(x),模糊集合及其运算(续1),当U = x1, x2, , xn ,模糊集A可表示为 A = x1 / uA(x1) + x2 / uA(x2) + + xn / uA(xn) uA(xi)=0 的项可省略 隶属度的概念是构成模糊集理论的基石 模糊集运算公式 uAB(x) = max uA(x), uB(x) uAB(x) = min uA(x), uB(x) uA(x) = 1- uA(x),模糊集合及其运算(续2),模糊集隶属函数举例 论域:人的年龄 以定性(模糊)术语描述年龄,值域为: 年龄 = 青,中,老 隶属函数:uY, uM, uO 图形表示,0,1,30,50,65,Y,M,O,u,年龄(岁),4.7.4 模糊逻辑,基本思想 由定性术语构成模糊命题 定性术语由隶属函数表示 对模糊命题进行合取、析取、取反等逻辑操作 基本公式 uP = max uP1(xp1), uP2(xp2), uPm(xpm) (析取) uP = min uP1(xp1), uP2(xp2), uPm(xpm) (合取) uPi(xpi) = 1- uPi(xpi) (取反),4.7.5 模糊推理,模糊关系 uR: U1U2 Un 0, 1 R = (XU1, XU2, XUn)/ uR(XU1, XU2, XUn) 模糊推理方法 主流方法:基于max-min原则的算法 直接基于模糊规则的推理 基于模糊关系的推理,直接基于模糊规则的推理,适用条件:当模糊推理的输入信息为量化数值时 推理原理 阶段一:计算每条模糊规则的结论 步骤1:输入量模糊化,即求出输入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论