《模式识别》课件全套第1-10章绪论 -半监督学习

上传人：q*** IP属地：山东上传时间：2025-06-09 格式：PPT 页数：662 大小：21.54MB 积分：75 举报 版权申诉

已阅读5页，还剩657页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

模式识别

PatternRecognition课程教材2《模式识别》

张向荣冯婕刘芳焦李成西安电子科技大学出版社第一章绪论第二章统计决策方法第三至第四章分类方法第五至第六章特征选择/提取方法第七章神经网络第八至第十章现代模式识别课程参考书IEEETrans.OnPatternAnalysisandMachineIntelligence(TPAMI)《模式识别与人工智能》，科学出版社，自动化学会主办，季刊背景知识概率论；线性代数（矩阵计算）；学习要求掌握基本概念，了解理论内容；考试形式总学时：40+16，讲授40，实验16；课程分为：讲授+学生展示+实验上机；考试：平时成绩40%（出勤率，平时作业，课堂展示，上机课）+考试成绩60%；相关期刊5文献查找6文献查找作者个人主页7文献查找网址：33/dbNavList.jspx8文献阅读第一章

模式识别概论1.1什么是模式识别1.2模式识别的基本概念1.3模式识别系统（基本框架）1.4模式识别的历史与现状1.5模式识别方法1.6模式识别应用领域第一章

模式识别概论1.1什么是模式识别1.2模式识别的基本概念1.3模式识别系统（基本框架）1.4模式识别的历史与现状1.5模式识别方法1.6模式识别应用领域1.1什么是模式识别？模式识别的定义

Patternrecognition

isthestudyofhow

machines

canobservetheenvironment,learnto

distinguishpatterns

ofinterestfromtheirbackground,andmakesoundandreasonable

decisions

aboutthecategoriesofthepatterns.

——AnilK.Jain，MichiganStateUniversity

/~jain/

Ref:AnilK.Jainetal.StatisticalPatternRecognition：AReview.IEEETrans.onpatternanalysisandmachineintelligence.2000,22(1):4-3712目标识别（人脸识别）：人在环顾四周的时候，可以认出周围的物体是桌子，椅子；能认出你的同学是张三还是李四；语音识别：听到声音，能够区分出是汽车喇叭还是火车鸣笛，是猫叫还是人在说话，是谁在说话；文本分类：通过阅读书籍，可以看出哪些属于艺术类书籍，哪些属于体育类书籍；图像、视频识别：看到图像和视频，可以立刻反映出来是动物的图片，或者讲述动物生活习性的视频；人类所具备的这些认知能力非常的平常，但如何让计算机来模拟人的智能，可以同人类一样具备这种认知，学习这种模式识别能力是这门课关注的问题。1.1什么是模式识别？1.1什么是模式识别？人的模式识别过程：刚出生的小朋友，你不断地给他灌输知识反复训练他，比如，介绍一个动物，介绍这种动物的一些主要的特征，叫声，外形，颜色等，来反复地让他加深印象，下一次见到可以认出这种动物；机器的模式识别过程：如果让机器识别一个动物，需要将动物的抽象特征提取出一些机器可以识别的符号、向量，作为机器的输入；然后，建立一个模型（分类器），让机器识别出来这是猫，这种动物是狗；这里面就是模式识别的两个核心：特征提取和分类器设计，这门课也主要围绕这两大模块进行。因为每一种数据，每一种应用，都有各自的特点，所以要根据不同的应用，设计相应的特征提取方法和相应的分类器模型。14DeepBlue深蓝是美国IBM公司生产的一台超级国际象棋电脑，重1270公斤，有32个大脑（微处理器），每秒钟可以计算2亿步。"深蓝”输入了一百多年来优秀棋手的对局两百多万局。1997年5月11日，“深蓝”超级电脑战胜了人类有史以来最伟大的国际象棋大师卡斯帕罗夫。这场举世瞩目的人机大战以计算机取胜而落下帷幕。深蓝算法的核心是基于暴力穷举：生成所有可能的走法，然后执行尽可能深的搜索，并不断对局面进行评估，尝试找出较佳走法。包括走棋模块，评估模块，以及搜索控制器。1.1什么是模式识别？正在与深蓝下棋的卡斯帕罗夫1.1什么是模式识别？16Watson2011年，IBMWatson参加综艺节目危险边缘（Jeopardy）来测试它的能力，Watson赢得了第一笔奖金100万美元。它包括语音的识别，语义的理解，还有对答系统。首先需要语音的识别，他需要识别出，你说的是人工智能四个字，然后需要理解问题，因为语料库中的问题未必和主持人完全匹配，最后需要在语料库中找到相应的答案。1.1什么是模式识别？17小度小度机器人诞生于百度自然语言处理部。依托于百度强大的人工智能，集成了自然语言处理、对话系统、语音视觉等技术；2014年9月16日，小度机器人现身江苏卫视《芝麻开门》：40道涉及音乐，影视，历史，文学类型的题目全部答对；2017年1月，小度参加江苏卫视《最强大脑》第四季；1.1什么是模式识别？AlphaGo由谷歌（Google）旗下DeepMind公司开发。2016年3月，

AlphaGo与围棋世界冠军、职业九段选手李世石比赛并获胜；2016年末2017年初，该程序在中国棋类网站上以“大师”（Master）为注册帐号与中日韩数十位围棋高手进行快棋对决，连续60局无一败绩。2017年5月，战胜中国选手柯洁战胜。2017年10月，发布AlphaGoZero。核心技术：深度学习+强化学习AlphaGo1.1什么是模式识别？1.1什么是模式识别？什么是模式？模板匹配提取车的轮廓、颜色，这个属于来自图像本身的底层特征；用底层特征来抽象到这种轮廓这种颜色的车身，它有几个车轮，上升到了中层特征；有车身和四个车轮的这种物体，上升到汽车这样一个语义的层次。语义就是人类赋予它的一个定义，这是高层特征。识别的过程是从底层，逐渐抽象到高层，这样的一个过程。其中，汽车作为物体的一个类别属性，根据底层特征，抽象到中层特征，从而获取物体的类别属性，就是一个模式分类的过程。1.1什么是模式识别？车身车轮车型颜色底层中层汽车高层品牌什么是模式？广义地说，存在于时间和空间中可观察的物体，如果我们可以区别它们是否相同或是否相似，都可以称之为模式。狭义地说，模式是对感兴趣的客体的定量的或结构的描述。模式的直观特性:可观察性可区分性相似性1.1什么是模式识别？什么是模式？模式识别的目的：利用计算机对物体（模式）进行分类，在错误概率最小的条件下，使识别的结果尽量与客观物体相符合。Y=F(X)X的定义域取自特征集

Y的值域为类别的标号集

F是模式识别的判别方法1.1什么是模式识别？什么是识别？第一章

模式识别概论1.1什么是模式识别1.2模式识别的基本概念1.3模式识别系统（基本框架）1.4模式识别的历史与现状1.5模式识别方法1.6模式识别应用领域一个例子：鲈鱼和鲑鱼识别问题：某鱼类制品罐头厂需将传送带上的鲈鱼和鲑鱼进行区分，以便于后续对鲈鱼和鲑鱼进行分别处理并装罐。Seabass：鲈鱼Salmon：鲑鱼1.2模式识别的基本概念一个例子：鲈鱼和鲑鱼识别1.2模式识别的基本概念1.需要将鱼输入到计算机，我们搭建一个摄像机，然后拍摄很多鱼的图片收集起来；2.由于在传送带上，摄像机拍照，有背景，也有可能很多鱼交叠在一起，所以要进行一个预处理；3.需要对鱼的图像进行特征提取；比如，长度、光泽、宽度、鳍的数目与形状等；4.设计分类器，对鲈鱼和鲑鱼进行分类。1.2模式识别的基本概念一个例子：鲈鱼和鲑鱼识别传感器：摄像头预处理：统一光照、统一焦距，去除背景，分割…特征提取：长度，亮度，重量，鳍的数目…输入（测量）：重量，长度，宽度，光泽度（亮还是暗）鳍数目设计分类器：线性？非线性？特征选择：长度

从长度上选一个阈值很难区分Salmon：鲑鱼Seabass：鲈鱼1.2模式识别的基本概念特征选择：亮度错误率仍然较高1.2模式识别的基本概念1.如果单一特征不能产生一个满意的结果，我们可以考虑融合多种特征；

2.光泽度与宽度(二维特征)，描述鱼的数据----模式

1.2模式识别的基本概念光泽度宽度特征选择：光泽度+宽度1.2模式识别的基本概念问题1：是不是特征越多越好？二维特征的分类结果看起来好于一维特征；我们可以考虑加入更多的特征来进一步提高分类效果，比如背鳍的顶角，嘴的位置等等；1.特征越多，测量的代价就越多；

2.加入冗余或低辨别力的特征，反而可能会带来负面影响；

3.特征越多，模型就越复杂，分类边界也越复杂，容易过拟合。1.2模式识别的基本概念问题1：训练样本的完美分类面是不是最好的？分类器设计的核心目标是实现对未知样本的正确分类，也就是要有好的推广能力。一个过于复杂的决策界面一般来说不太可能有好的推广能力，它过拟合了个别少量的训练样本。这些训练样本没有真正地反映数据的真实分布。结论：我们必须在训练样本的分类正确率和推广能力之间权衡以得到满意的设计。1.2模式识别的基本概念非线性分类面图中的判决面是对训练样本的分类性能和分界面复杂度的一个折中，可以解决这种线性不可分问题。避免过拟合的方法：避免过于复杂的分类面。样本（sample）：一类事物的一个具体体现，所研究对象的一个个体，也称模式。样本集（sampleset）：若干样本的集合。类或类别（class）：在所有样本上定义的一个子集，处于同一类的样本在我们所关心的性质上是不可区分的，即具有相同的模式，也称模式类。

特征（feature）：用于表征样本的观测信息，通常是数值表示的，有时也称为属性（attribute）；如果是高维则称为特征向量，样本的特征（向量）构成了特征空间，每个样本是特征空间中的一个点。1.2模式识别的基本概念已知样本（knownsample）：事先知道类别标号的样本（训练样本）。未知样本（unknownsample）：类别标号未知但特征已知的样本（待识别的样本，测试样本）。一般来说，模式识别必须经历如下的过程：1.2模式识别的基本概念1.2模式识别的基本概念模式空间特征空间类型空间在模式空间里，每个样本模式都是一个点，点的位置由该模式在各维上的测量值确定。对模式空间里的各坐标元素进行综合分析，以提取最能揭示样本属性的特征，这些特征就构成特征空间。根据适当的判决规则，把特征空间里的样本区分成不同的类型，从而把特征空间塑造成了类型空间。由特征空间到类型空间所需要的操作就是分类判决。特征提取分类决策模式识别过程：

从物理上可以觉察到的世界，通过模式空间、特征空间到类型空间，经历了模式采集、特征提取和选择、以及分类决策等过程，这就是一个完整的模式识别过程。模式识别：是从样本到类别的映射1.2模式识别的基本概念第一章

模式识别概论1.1什么是模式识别1.2模式识别的基本概念1.3模式识别系统（基本框架）1.4模式识别的历史与现状1.5模式识别方法1.6模式识别应用领域模式识别系统传感器(Sensing)：信号采集分割(Segmentation)：使模式之间相互独立，互不重叠，依靠图象处理技术。特征提取(Featureextraction)

可判别特征平移、旋转和尺度变换不变性特征分类(Classification)：由特征向量确定对象所属的类别。后处理(PostProcessing)：利用“上下文”先验信息提高分类性能。1.3模式识别系统39预处理特征测量分类器预处理特征提取/选择学习待识模式(数据)训练模式(样本集)训练过程识别过程1.3模式识别系统收集数据（collectdata）：收集足够的代表性样本特征选择（choosefeatures）：确定哪个目标的属性可以区别不同的目标选择模型(choosemodel)：选择分类器模型，确定分类原理和机理训练分类器(trainclassifier)：确定分类器参数分类器评估(evaluateclassifier)：估计可能的误差率模式识别系统设计的五个步骤:1.3模式识别系统分类器的学习和适应：给定一般模型或分类器的形式，利用样本(例子)去学习或估计模型的未知参数。有监督学习(Supervisedlearning)：已知训练样本集中每个输入样本的类别标记和分类代价，寻找能降低总体代价的方向。已知分类情况，计算各类在特征空间的分布，然后对未知样本进行分类.无监督学习(Unsupervisedlearning)：样本的类别标记和分类代价未知，由聚类器形成“聚类”(clusters)或者“自然组织(naturalgroupings)”。事先不知有多少类，有哪些类，只能根据样本间的相似性进行聚合。1.3模式识别系统第一章

模式识别概论1.1什么是模式识别1.2模式识别的基本概念1.3模式识别系统（基本框架）1.4模式识别的历史与现状1.5模式识别方法1.6模式识别应用领域1929年GustavTauschek(奥地利)利用光学和机械手段发明了阅读机，能够阅读0-9的数字，在德国获得了光学字符识别的专利。20世纪30年代Fisher提出统计分类理论,奠定了统计模式识别的基础。统计模式识别发展很快，但由于被识别的模式愈来愈复杂，特征也愈来愈多，出现“维数灾难”问题。20世纪40年代电子计算机兴起，由于计算机运算速度的迅猛发展，统计模式识别的“维数灾难”问题得到一定克服。统计模式识别仍是模式识别的主要理论。1.4模式识别的历史与现状20世纪50年代人工智能兴起。乔姆斯基（Chemsky）提出形式语言理论，用数学方法研究自然语言（如英语）和人工语言（如程序设计语言）的产生方式、一般性质和规则。由于统计方法不能表示和分析模式的结构，20世纪70年代以后结构和句法模式识别方法受到关注。尤其是美籍华人付京荪提出句法结构模式识别理论，在20世纪70-80年代受到了广泛的关注。但是，句法模式识别中的基元提取和文法推断（学习）问题直到现在还没有很好的解决，因而没有太多的实际应用。1.4模式识别的历史与现状20世纪80年代，BP算法的重新发现和成功应用推动了人工神经网络的研究热潮。神经网络方法与统计学习方法相比具有不依赖概率模型、参数自学习、泛化能力强等优点。20世纪90年代，支撑矢量机（SVM）的提出吸引了模式识别领域对小样本统计学习理论和核方法（KernelMethods）的关注。与神经网络相比，SVM通过优化一个泛化误差界限，自动确定一个最优的分类器结构，具有更好的泛化能力。核方法的引入使统计方法从线性空间推广到高维非线性空间。（经验风险最小化-结构风险最小化）1.4模式识别的历史与现状21世纪以来：蓬勃发展时期统计学习理论越来越多地用于解决具体的模式识别和模型选择问题新的概率密度估计、特征选择、特征变换、聚类算法不断提出模式识别领域和机器学习领域的互相渗透模式识别系统大规模用于实际问题Ref：刘成林,谈铁牛.模式识别研究进展.中科院自动化所,模式识别重点实验室1.4模式识别的历史与现状发展趋势半监督学习（Semi-supervisedLearning）：利用少量的标注样本和大量的未标注样本进行训练和分类

增量学习（IncrementalLearning）：样本逐步积累时,学习精度也要随之提高

迁移学习（TransferLearning）：将从一个环境中学到的知识用来帮助新环境中的学习任务

主动学习（ActiveLearning）：根据已标记样本集合，找到未标记样本的子集，主动提出标记请求，学习器之外的某个系统对这些未标记进行标记后，加入标记样本中，进行下一次迭代

……1.4模式识别的历史与现状第一章

模式识别概论1.1什么是模式识别1.2模式识别的基本概念1.3模式识别系统（基本框架）1.4模式识别的历史与现状1.5模式识别方法1.6模式识别应用领域模板匹配法统计方法结构方法(句法方法)神经网络方法1.5模式识别的方法模板匹配首先对每个类别建立一个或多个模板输入样本和数据库中每个类别的模板进行比较，求相关或距离根据相关性或距离大小进行决策优点：直接、简单缺点：适应性差形变模板1.5模式识别的方法统计方法根据训练样本，建立决策边界(decisionboundary)统计决策理论——根据每一类总体的概率分布决定决策边界判别式分析方法——给出带参数的决策边界，根据某种准则，由训练样本决定“最优”的参数本课程的重点内容1.5模式识别的方法句法方法许多复杂的模式可以分解为简单的子模式，这些子模式组成所谓“基元”每个模式都可以由基元根据一定的关系来组成基元可以认为是语言中的词语，每个模式都可以认为是一个句子，关系可以认为是语法模式的相似性由句子的相似性来决定优点：适合结构性强的模式缺点：抗噪声能力差，计算复杂度高1.5模式识别的方法神经网络进行大规模并行计算的数学模型具有学习、推广、自适应、容错、分布表达和计算的能力优点：可以有效的解决一些复杂的非线性问题缺点：缺少有效的学习理论1.5模式识别的方法几种方法比较方法表达识别函数评价准则模版匹配样本，像元，曲线相关，距离度量分类错误统计方法特征决策函数分类错误句法方法基元规则，语法接受错误神经网络样本，像元，特征网络函数均值方差错误1.5模式识别的方法第一章

模式识别概论1.1什么是模式识别1.2模式识别的基本概念1.3模式识别系统（基本框架）1.4模式识别的历史与现状1.5模式识别方法1.6模式识别应用领域1.6模式识别的应用领域文字处理：文字识别（印刷体，手写体汉字识别，车牌识别）；办公自动化（机器翻译）；银行（支票识别）；邮局（邮政信函的自动分拣）1.6模式识别的应用领域生物特征识别：指纹识别，人脸识别，虹膜识别，声音识别，签名识别，步态识别……1.6模式识别的应用领域生物医学：血细胞计数，染色体分类，心电脑电图，整形外科，癌症检测和分级……1.6模式识别的应用领域遥感：资源普查（地形地貌分析，森林、海洋资源普查，湖水面积计算），地图识别，军事目标检测……1.6模式识别的应用领域文档分类1.6模式识别的应用领域预测决策1.6模式识别的应用领域机器人：机器人是一种可编程的多功能操作装置。机器人研究的四个阶段：遥控机器人——程序机器人——自适应机器人——智能机器人。1.6模式识别的应用领域其它：……1.6模式识别的应用领域第二章贝叶斯决策理论2.1引言2.2基于最小错误率的贝叶斯决策2.3基于最小风险的贝叶斯决策2.4分类器、判别函数及决策面2.5正态分布下的统计决策第二章贝叶斯决策理论2.1引言2.2基于最小错误率的贝叶斯决策2.3基于最小风险的贝叶斯决策2.4分类器、判别函数及决策面2.5正态分布下的统计决策统计决策理论是模式分类问题的基本理论之一贝叶斯决策理论是统计决策理论中的一个基本方法贝叶斯决策的两个要求各个类别的总体概率分布(先验概率和类条件概率密度)是已知的要决策分类的类别数是一定的2.1引言黑色：第一类粉色：第二类绿色：哪一类？统计决策理论就是根据每一类总体的概率分布决定未知类别的样本属于哪一类决策2.1引言评价决策有多种标准，对于同一个问题，采用不同的标准会得到不同意义下“最优”的决策贝叶斯决策常用的准则：

最小错误率准则

最小风险准则

Neyman-Pearson(黎曼皮尔逊)准则最小最大决策准则决策准则2.1引言在连续情况下，假设对要识别的物理对象有d种特征观察量x1,x2,…xd，这些特征的所有可能的取值范围构成了d维特征空间。称向量假设要研究的分类问题有c个类别，类型空间表示为：为d维特征向量。基本概念2.1引言先验概率:类条件概率：后验概率：

几个重要概念2.1引言先验概率:类条件概率：后验概率：

未获得观测数据之前类别的分布几个重要概念2.1引言先验概率:类条件概率：后验概率：

未获得观测数据之前类别的分布表示在类条件下x的概率分布密度几个重要概念2.1引言先验概率:类条件概率：后验概率：

未获得观测数据之前类别的分布表示在类条件下x的概率分布密度在x出现条件下类出现的概率几个重要概念2.1引言第二章贝叶斯决策理论2.1引言2.2基于最小错误率的贝叶斯决策2.3基于最小风险的贝叶斯决策2.4分类器、判别函数及决策面2.5正态分布密度(TheNormalDensity)2.6正态分布的判别函数鲈鱼/鲑鱼例子自然状态下，先验的类别状态，

i,i=1,2

i类别状态是一个随机变量,P(

i)表示为先验概率。捕获鲈鱼和鲑鱼的几率相等。P(

1)=P(

2)(先验)P(

1)+P(

2)=1(排除其它鱼的种类)2.2基于最小错误率的贝叶斯决策仅含先验信息的判别规则这种分类决策没有意义由先验概率所提供的信息太少2.2基于最小错误率的贝叶斯决策采用类条件信息——类条件概率密度函数p(x|

1)：鲈鱼的属性分布p(x|

2)：鲑鱼的属性分布。2.2基于最小错误率的贝叶斯决策采用类条件信息——类条件概率密度函数p(x|

1)：鲈鱼的属性分布p(x|

2)：鲑鱼的属性分布。2.2基于最小错误率的贝叶斯决策鲈鱼和鲑鱼判别中的类条件概率密度函数（以光泽度为例）贝叶斯公式先验概率，后验概率，概率密度函数之间关系贝叶斯公式通过类条件概率密度形式的观察值，将先验概率转化为后验概率。2.2基于最小错误率的贝叶斯决策后验概率含义

P(ω1|x)：当观测向量为x值时,是鲈鱼的概率。P(ω2|x)：当观测向量为x值时,是鲑鱼的概率。2.2基于最小错误率的贝叶斯决策P(error|x)=P(

2|x)判定为

1(错误选择

2);基于后验概率的决策规则：存在一个观察值x(特征)如果P(

1|x)>P(

2|x)类别状态=

1如果P(

1|x)<P(

2|x)类别状态=

2因此，无论何时观测到某一个特定值x，概率误差为：P(error|x)=P(

1|x)判定为

2(错误选择

1);2.2基于最小错误率的贝叶斯决策因此，P(error|x)=min[P(

1|x),P(

2|x)]错误概率的最小化判定规则：如果P(

1|x)>P(

2|x)，判定为

1；否则，判定为

2。(最大后验概率准则可以保证最小错误率，所以又称最小错误率准则)基于后验分布的判别规则：2.2基于最小错误率的贝叶斯决策基于最小错误率的贝叶斯决策：84等价形式2.2基于最小错误率的贝叶斯决策例：假设在某个局部地区细胞识别中正常和异常两类的先验概率分别为正常状态：异常状态：现有一待识别的细胞，其观察值为x，类条件概率密度分别为,试对该细胞x进行分类。

2.2基于最小错误率的贝叶斯决策例：假设在某个局部地区细胞识别中正常和异常两类的先验概率分别为正常状态：异常状态：现有一待识别的细胞，其观察值为x，类条件概率密度分别为,试对该细胞x进行分类。解：2.2基于最小错误率的贝叶斯决策以一维情况为例讨论基于最小错误率的贝叶斯决策确实对应最小错误率统计意义上的错误率，即平均错误率，用P(e)表示87最小错误率的讨论2.2基于最小错误率的贝叶斯决策88最小错误率的讨论2.2基于最小错误率的贝叶斯决策在C类别情况下最小错误率贝叶斯决策规则的后验概率形式：

先验概率与类条件概率密度相联系的形式：89C类别情况下最下错误率2.2基于最小错误率的贝叶斯决策90小结基于最小错误率的贝叶斯决策规则：贝叶斯公式：2.2基于最小错误率的贝叶斯决策第二章贝叶斯决策理论2.1引言2.2基于最小错误率的贝叶斯决策2.3基于最小风险的贝叶斯决策2.4分类器、判别函数及决策面2.5正态分布下的统计决策92例子1：鲈鱼和桂鱼的出售Seabass：鲈鱼Salmon：鲑鱼2.3基于最小风险的贝叶斯决策93例子2：良性和恶性肿瘤的诊断2.3基于最小风险的贝叶斯决策94主要思想：上述最小错误率决策中，使错误率达到最小是重要的。但实际上，有时候需要考虑一个比错误率更广泛的概念—风险，而风险又是和损失紧密相连的。我们对样本的分类不仅要考虑到尽可能作出正确的判断，而且还要考虑到作出错误判断时会带来什么后果。最小风险贝叶斯决策正是考虑各种错误造成损失不同而提出的一种决策规则。2.3基于最小风险的贝叶斯决策(3)决策/行动指将模式x判定为ωi或者是拒判。决策空间是由a个决策组成(4)损失函数为表示当样本x真实状态为ωj而所采取的决策为

时所带来的损失。95x是d维随机向量(2)状态空间Ω由c个自然状态(c类)组成：

2.3基于最小风险的贝叶斯决策96条件风险：由于引入了“损失”的概念，在考虑错判所造成的损失时，就不能只根据后验概率的大小来做决策，而必须考虑所采取的决策是否使损失最小。对于给定的x，如果采取决策αi

，从决策表可见，λ可以在c个λ(αi,ωj),j=1,2,…,c值中任取一个,其相应概率为P(ωj|x)。因此在采取决策αi情况下的条件期望损失(也称为条件风险)R(αi|x)为：2.3基于最小风险的贝叶斯决策期望风险：对于x的不同观察值，采取决策αi时，其条件风险大小是不同的。所以究竟采取哪一种决策将随x的取值而定。这样，决策α可以看成随机向量x的函数，记为α(x)。可以定义期望风险Rexp为：期望风险反映对整个空间上所有x的取值采取相应的决策α(x)所带来的平均风险。2.3基于最小风险的贝叶斯决策98决策规则：在考虑错判带来的损失时，总是希望损失最小。如果在采取每一个决策或行动时，都使其条件风险最小，则对所有的x作出决策时，其期望风险也必然最小。这就是最小风险贝叶斯决策。最小风险贝叶斯决策规则为：2.3基于最小风险的贝叶斯决策992.3基于最小风险的贝叶斯决策100举例例：在某个局部地区细胞识别中正常（

1）和异常（

2）两类的先验概率为：P(ω1)=0.9，P(ω2)=0.1，满足：对于未知细胞x，利用最小风险贝叶斯决策和最小错误率贝叶斯决策，问该细胞属于正常细胞还是异常细胞？决策状态ω1ω2α106α210P(x/ω1)=0.2，

P(x/ω2)=0.42.3基于最小风险的贝叶斯决策101举例例：在某个局部地区细胞识别中正常（

1）和异常（

P(x/ω2)=0.4解：计算出后验概率2.3基于最小风险的贝叶斯决策102举例因为，决策为ω2，即判别待识别细胞为异常细胞。利用基于最小错误率的准则，判定为ω1，这里损失函数起了决定性作用。各种错误造成的损失不同，正常细胞判定为异常细胞的损失远大于异常判定为正常的损失。

计算条件风险：分析：最小风险决策必须要有合适的损失函数λ，实际中要列出合适的决策表很不容易，往往要根据所研究的具体问题，分析错误决策造成损失的严重程度，与有关专家共同商讨来确定，才能做出更有效的决策。2.3基于最小风险的贝叶斯决策103两分类问题下的最小风险准则决策行动：

:对应于类别判别

1；

2:对应于类别判别

2。损失：表示当实际类别为

j时误判为

所引起的损失。条件风险（条件期望损失）：最小风险决策规则：如果，则根据决策行动

，判决类别

1。2.3基于最小风险的贝叶斯决策104似然比形式

等价于：与x无关，对于某个问题，是个可以事先计算的常量。

似然比大于某个阈值，则采取行动决策

1(判决

1)；否则为：

22.3基于最小风险的贝叶斯决策105

两分类问题下的最小风险准则在两类问题中，若有，决策规则变为2.3基于最小风险的贝叶斯决策106

多类问题下的最小风险准则在c个类别的问题中，如果损失函数为“0-1”损失函数：“0-1”损失函数：1）对于c类问题只有c个决策，2）实际类别正确判定为第j类时，损失为0。3）实际类别误判为第类时，损失均为1。2.3基于最小风险的贝叶斯决策107“0-1”

损失函数下的最小风险准则最小错误率贝叶斯决策是在0-1损失函数条件下的最小风险贝叶斯决策，最小错误率贝叶斯决策是最小风险贝叶斯决策的特例。2.3基于最小风险的贝叶斯决策第二章贝叶斯决策理论2.1引言2.2基于最小错误率的贝叶斯决策2.3基于最小风险的贝叶斯决策2.4分类器、判别函数及决策面2.5正态分布下的统计决策判别函数（DiscriminantFunction）：用于表示决策规则的某些函数gi(x）称为判别函数。每个类别对应一个判别函数，。判别函数与决策面方程密切相关，且都由相应的决策规则所确定。表达同样的判决规则可能采用不同的判别函数，只要满足如下条件：例如：

gi(x)kgi(x),k为正常数

gi(x)gi(x)+k,k为任意常数

gi(x)ln(gi(x))用f(gi(x))替换gi(x)，其中f(*)为单调递增函数2.4分类器、判别函数及决策面决策面（DecisionSurface）：对于c类分类问题，按照决策规则可以把d维特征空间分成c个决策域，将划分决策域的边界面称为决策面，在数学上用解析形式可以表示成决策面方程。

判决区域Ri是特征空间中的一个子空间，判决规则将所有落入Ri的样本x分类为类别ωi；判决边界是特征空间中划分判决区域的（超）平面；在判决边界上，通常有两类或多类的判别函数值相等。2.4分类器、判别函数及决策面2.4分类器、判别函数及决策面分类器设计（Classifier）：分类器设计就是设计判别函数，求出判定面方程g(x)分类器最常用的表述方式为判别函数：每个类别对应一个判别函数。基于判别函数的判决：如果：，则属于决策面方程：基于最小错误率的判决函数基于最小风险的判决函数2.4分类器、判别函数及决策面两分类下的判别函数特殊的，对于两分类问题，也可以只用一个判别函数

令：判决规则例如：决策面：如果：则模式为否则为2.4分类器、判别函数及决策面114两分类下的判别函数2.4分类器、判别函数及决策面例子求：利用最小错误率和最小风险决策分别写出判别函数和决策面方程。2.4分类器、判别函数及决策面116例子求：利用最小错误率和最小风险决策分别写出判别函数和决策面方程。利用最小错误率决策，其对应的判别函数为：决策面方程为：利用最小风险决策，其对应的判别函数为：决策面方程为：2.4分类器、判别函数及决策面117多分类下的判别函数判决函数：决策面：则模式为：2.4分类器、判别函数及决策面118多分类下的判别函数分类器设计：它的功能是先计算出c个判别函数gi，再从中选出对应于判别函数为最大值的类作为决策结果。2.4分类器、判别函数及决策面119判别函数、决策面2.4分类器、判别函数及决策面判别函数，决策面2.4分类器、判别函数及决策面第二章贝叶斯决策理论2.1引言2.2基于最小错误率的贝叶斯决策2.3基于最小风险的贝叶斯决策2.4分类器、判别函数及决策面2.5正态分布下的统计决策2.5正态分布下的统计决策为什么研究正态分布？物理上的合理性：较符合很多实际情况，观测值通常是很多种因素共同作用的结果，根据中心极限定理（这组定理是数理统计学和误差分析的理论基础，指出了大量随机变量累积分布函数逐点收敛到正态分布的积累分布函数的条件），服从正态分布。数学上比较简单：参数个数少单变量正态分布多元正态分布123单变量正态分布

2.5正态分布下的统计决策多元正态分布函数期望(均值向量)协方差矩阵(对称非负定)2.5正态分布下的统计决策多变量正态分布

二次型xT∑x≥0●协方差矩阵总是对称阵，协方差矩阵为

的方差就是对角线上的元素非对角线上的元素就是和的协方差。2.5正态分布下的统计决策●协方差矩阵总是非负定阵。●对于任意随机向量x，xT∑x是∑的二次型。如果对x≠0的一切x

有

xT∑x≥0都成立，则称∑为非负定阵。●若xT∑x>0，则∑为正定阵。●对于正定矩阵，各阶主子式非零（包括|∑|≠0）。多元正态分布的性质参数个数：d+d(d+1)/2

均值向量：d个参数协方差矩阵：对称的d维矩阵，d(d+1)/2个参数等密度点的轨迹为一超椭球面要使密度p(x)值不变，需指数项为常数，即：超椭球面2.5正态分布下的统计决策多元正态分布的性质马氏距离：与欧式距离：马氏距离考虑数据各个维度间的相关性，x到的马氏距离为常数时，所组成的超椭球面为等密度点。2.5正态分布下的统计决策2.多元正态分布的性质⑴参数μ和∑对分布的决定性⑵等密度点的轨迹为一超椭球面⑶不相关性等价于独立性⑷边缘分布和条件分布的正态性⑸线性变换的正态性⑹线性组合的正态性⑴参数μ和∑对分布的决定性多元正态分布被均值向量μ和协方差矩阵∑所完全确定。均值向量μ由d个分量组成;协方差矩阵∑由于其对称性故其独立元素有p(x)~N(μ,∑)多元正态分布概率密度函数常记为⑵等密度点的轨迹为一超椭球面从正态分布总体中抽取的样本大部分落在由μ和∑所确定的一个区域里。从一个以均值μ为中心的云团内的二维高斯分布中取出的样本。椭圆显示了等概率密度的高斯分布轨迹。■当指数项为常数时，密度p(x)值不变，因此等密度点应是此式的指数项为常数的点，即应满足■

证明上式的解是一个超椭球面，且它的主轴方向由∑阵的特征向量所决定，主轴的长度与相应的协方差矩阵∑的本征值成正比。在数理统计中上式所表示的数量：为x到μ的Mahalanobis距离的平方。所以等密度点轨迹是x到μ的Mahalanobis距离为常数的超椭球面。这个超椭球体大小是样本对于均值向量的离散度度量。可以证明对应于Mahalanobis距离为超椭球的体积是其中Vd是d维单位超球体的体积。⑶不相关性等价于独立性不相关与独立的定义：若E{xi

xj}=E{xi}·E{xj}则定义随机变量xi和xj是不相关的。若p(xi,xj)=

p(xi)p(xj)则定义随机变量xi和xj是独立的。

■一般情况下相关与独立的关系独立性是比不相关性更强的条件，独立性要求

p(xi,xj)=p(xi)p(xj)对于xi和xj都成立。不相关性是两个随机变量的积的期望等于两个随机变量的期望的积，它反映了xi与xj总体的性质。若xi和xj相互独立，则它们之间一定不相关；反之则不一定成立。■多元正态分布情况对多元正态分布的任意两个分量xi和xj而言，若xi与xj互不相关，则它们之间一定独立。在正态分布中不相关性等价于独立性。（证明见P27)推论:如果多元正态随机向量的协方差阵是对角阵，则x的分量是相互独立的正态分布随机变量。⑷边缘分布和条件分布的正态性多元正态分布的边缘分布和条件分布仍然是正态分布。二元正态分布协方差矩阵∑及其逆矩阵∑-1为根据边缘分布定义其中由于所以x1的边缘分布

就是说边缘分布p(x1)服从以均值为方差为的正态分布。

同理可以推出x2的边缘分布为对于给定x1的条件下x2的分布，有定义p(x2|x1)=p(x1,x2)/p(x1)同理可以写出给定x2条件下x1的分布:⑸线性变换的正态性若对x用线性变换矩阵A(A是非奇异(|A|≠0)的)作线性变换，y

=Ax则y服从以均值向量为Aμ，协方差矩阵为A∑AT的多元正态分布。即p(y)~N(Aμ，A∑AT)⑹线性组合的正态性若x为多元正态随机向量，则线性组合是一维的正态随机变量，则y服从：其中是与x同维的向量。根据最小错误率贝叶斯判别函数，在多元正态概型(p(x|ωi)~N(μi，∑i),i=1,…，c)下就可以立即写出其相应的表达式。判别函数为:决策面方程为:

即

(1)2.5正态分布下的统计决策情况一：各类协方差阵相等，且每类各特征独立，方差相等（对角矩阵）情况二：各类协方差阵相等情况三：各类协方差阵不相等

任意的2.5正态分布下的统计决策情况一：将代入得到决策函数展开决策函数其中，二次项与i无关2.5正态分布下的统计决策正交因此，等价的判决函数为：其中：决策面可以写成：其中：过与的超平面此时，写成了一个线性判别函数的形式。2.5正态分布下的统计决策当，当，向先验概率小的方向偏移。位于两中心的中点；在先验概率相等的情况下，最优判决的规则为：为将某特征向量x归类，通过测量每一x到c个均值向量中心的每一个欧氏距离，并将x归为离它最近的那一类。这样的分类器称为“最小距离分类器”。2.5正态分布下的统计决策情况一：最小距离分类器上述结果表示在二维特征空间里，如下图所示：先验概率大，样本分布多，远离先验概率大的区域。向先验概率两类判决面与垂直，的中点时其交点为为时较小类型的均值点偏移。2.5正态分布下的统计决策情况一：最小距离分类器最小距离分类器判决边界是d-1维超平面，垂直于两类中心的连线2.5正态分布下的统计决策各类的协方差矩阵相等，在几何上，相当于各类样本集中在以该类均值为中心的同样大小和形状的超椭球内。情况二：

决策函数不变，与i无关：2.5正态分布下的统计决策一个特例：当时，各样本先验概率相等。其中：为x到均值点的“马氏距离”（Mahalanobis）的平方。进一步简化：

对于每类样本x，只要计算出x到每类的均值点μi的马氏距离平方，最后把x归于最小的类别。2.5正态分布下的统计决策一般地，决策函数展开决策函数对所有的i是相等的，则其中：2.5正态分布下的统计决策正交决策面可以写成：其中：过与的超平面由于并非沿着方向，因此分界面并非与均值间的连线垂直正交。2.5正态分布下的统计决策当各类先验概率不相等时，不在的中点上，而是偏向先验概率较小的均值点。上述结果表示在二维特征空间里，如下图所示：

当各类先验概率相等时，判决面与的交点2.5正态分布下的统计决策时决策面向先验概率小的方向偏移2.5正态分布下的统计决策情况三：任意的去掉与i无关的项：可以写为：其中二次项，一次项系数和常数项分别为：由于：（二次型）2.5正态分布下的统计决策156判别函数gi(x)表示为x的二次型。若决策域Ri与Rj相邻，则决策面应满足

gi(x)－gj(x)=0即xT(Wi－Wj)x+(wi－wj)Tx+wi0－wj0=0由上式所决定的决策面为超二次曲面，随着∑i，μi，P(ωi)的不同而呈现为某种超二次曲面，即超球面、超椭球面、超抛物面、超双曲面或超平面。2.5正态分布下的统计决策各类协方差不同，决策面为超二次曲面。上述结果表示在二维特征空间里，如下图所示：2.5正态分布下的统计决策第三章线性和非线性判别分析第三章线性和非线性判别分析3.1Fisher线性判别3.2感知准则函数3.3广义线性判别分析3.4k近邻3.5决策树第三章线性和非线性判别分析3.1Fisher线性判别3.2感知准则函数3.3广义线性判别分析3.4k近邻3.5决策树161贝叶斯估计：先验概率和类条件概率密度已知，通过贝叶斯公式，来求解后验概率的问题。实际问题中，类条件概率密度可能并不知道，这种情况下，可以采用非参数估计——当样本比较充足的时候，估计类条件概率密度的方法。但实际中，有时候并没有充分的样本，同时存在样本维数比较高，这种情况下，可能会使类条件概率密度估计不准确，我们就采用另一种方法。线性判别函数：我们直接假设判别函数，我们用样本估计判别函数的参数，这样就省去了估计类条件概率。在这一章之后，都采用这种方式。我们直接估计决策面或判别函数。这种情况下，最简单的是假设判别函数是线性函数。决策面是超平面。3.1Fisher线性判别162假设判别函数是线性的时候，利用样本用什么准则来求解这个判别函数的参数？当判别函数的参数有了，这个判别函数就确定了，这样决策面也就确定了。如果假设判别函数为线性函数，包含参数w和w0。当准则函数不同，求解出的参数就存在不同。贝叶斯决策中，最小错误率和最小风险就是准则函数，不同的准则最终判别函数存在不同。贝叶斯分类器，它使得错误率或风险达到最小，是所有分类器中的最优分类器。而其他准则函数下得到的分类器称为次优分类器。后续章节中介绍的准则函数，求出的是给定准则下的最优解。求得的最优解并不是这个问题的最优解。既然是次优解，为什么去研究？因为在样本有限情况下，简单容易实现，计算代价，存储量，求解速度快。所以，线性判别函数方法广泛使用。3.1Fisher线性判别1633.1Fisher线性判别164方程g(x)=0定义了一个决策面，把归于不同类的点分割开来，当g(x)为线性函数时，这个决策面便是超平面。3.1Fisher线性判别165设计线性分类器的步骤3.1Fisher线性判别166Fisher线性判别出发点：—应用统计方法解决模式识别问题时，一再碰到的问题之一就是维数问题。—在低维空间里解析上或计算上行得通的方法，在高维空间里往往行不通。—降低维数有时就会成为处理实际问题的关键。问题描述：对两分类问题，考虑把d维空间的样本投影到一条直线上，形成一维空间，即把维数压缩到一维，同时保持较好的分类性能。3.1Fisher线性判别引言167如何根据实际数据找到一条最好的、最易于分类的投影方向，这就是Fisher判别方法所要解决的基本问题。（1）降低维数，降低计算复杂度；（2）易于分类的；3.1Fisher线性判别168假设有一集合D包含m个n维样本{x1,x2,…,xm}

第一类样本集合记为D1，规模为N1第二类样本集合记为D2，规模为N2若对xi的分量做线性组合可得标量：yi

=wTxi,i=1,2,…,m这样便得到m个一维样本yi组成的集合，并可分为两个子集D'1和D'2。从d维空间到一维空间的一般数学变换方法—w的值是无关紧要的，它仅使x乘上一个比例因子，重要的是选择w的方向。它将影响样本投影后的可分离程度。—上述寻找最佳投影方向的问题，在数学上就是寻找最好的变换向量w*的问题。3.1Fisher线性判别Fisher准则函数基本思想169最佳投影方向的评价依据：

使两类样本在该轴上投影之间的距离尽可能远，而每一类样本的投影尽可能紧凑。如何度量？评价标准—类内离散度矩阵，类间离散度矩阵x1x2w1H:g=0w23.1Fisher线性判别170

在n维X空间(1)各类样本的均值向量：(2)样本类内离散度矩阵Si和总样本类内离散度矩阵SwFisher准则函数中的基本参量其中Sw是对称半正定矩阵，而且当m>n时通常是非奇异的。(3)样本类间离散度矩阵Sb其中Sb是对称半正定矩阵。3.1Fisher线性判别171

在一维Y空间(1)各类样本的均值:

(2)样本类内离散度

和总样本类内离散度Fisher准则函数中的基本参量(3)样本类间离散度3.1Fisher线性判别172

目标：投影后，在一维Y空间中各类样本尽可能分得开些，即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开，类内样本投影尽可能密集的要求.Fisher准则函数3.1Fisher线性判别173

目标：投影后，在一维Y空间中各类样本尽可能分得开些，即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开，类内样本投影尽可能密集的要求.Fisher准则函数：Fisher最佳投影方向的求解:不同类的投影点尽量分开同一类的投影点尽量靠近Fisher准则函数3.1Fisher线性判别174Fisher准则函数由各类样本均值可推出：投影样本均值之差可以展开为：将J(w)变成w的显函数3.1Fisher线性判别175由类内散布矩阵可推出：于是有：Fisher准则函数准则函数可以写为：3.1Fisher线性判别176要求使J(w)最大的w，可以采用Lagrange乘子法求解。假设分母等于非零常数，即：定义Lagrange函数为：最佳变换向量w*的求取

矩阵/向量求导法则3.1Fisher线性判别177要求使J(w)最大的w，可以采用Lagrange乘子法求解。假设分母等于非零常数，即：定义Lagrange函数为：对w求偏导数，令偏导数为0：即：标量R最佳变换向量w*的求取

3.1Fisher线性判别178由于w的模对问题本身无关紧要，因此降维：对样本集合作线性变换w*Tx，得到n个样本投影后

的样本值y1，y2，……，ynFisher线性判别分析3.1Fisher线性判别179一维空间的分类面是一个点将两类分开即是确定一个阈值分类规则:Fisher线性分类3.1Fisher线性判别180例：两组训练数据D1和D2D1=[-0.4,0.58,0.089;-0.31,0.27,-0.04;-0.38,0.055,-0.035;-0.15,0.53,0.011;-0.35,0.47,0.034;0.17,0.69,0.1;-0.011,0.55,-0.18;-0.27,0.61,0.12;-0.065,0.49,0.0012;-0.12,0.054,-0.063]D2=[0.83,1.6,-0.014;1.1,1.6,0.48;-0.44,-0.41,0.32;0.047,-0.45,1.4;0.28,0.35,3.1;-0.39,-0.48,0.11;0.34,-0.079,0.14;-0.3,-0.22,2.2;1.1,1.2,-0.46;0.18,-0.11,-0.49]例题3.1Fisher线性判别（1）求取两组训练数据D1和D2的均值向量

和由公式：得:例题3.1Fisher线性判别（2）然后求取两组训练数据D1和D2的类内散度矩阵Si和总样本类内离散度矩阵Sw。由公式：得:例题3.1Fisher线性判别（3）求取最佳变换向量w*

由公式：得投影方向（4）求阈值由公式：得例题3.1Fisher线性判别（5）将两组训练数据D1和D2作线性变换，得到20个样本投影后的样本值两组数据投影后的样本值分别为：例题3.1Fisher线性判别185训练效果图：例题3.1Fisher线性判别测试数据和

：计算投影变换和：由：得：判别准则：例题3.1Fisher线性判别1871.Fisher辨别分析要求：在UCI数据集上的Iris和sonar数据上验证算法的有效性；Iris数据3类，4维，150个数据；Sonar数据2类，60维，208个样本；训练和测试样本有三种方式进行划分：（三选一）1）将数据随机分训练和测试，多次平均求结果2）k折交叉验证3）留1法仿真结果+报告。第一次大作业3.1Fisher线性判别第三章线性和非线性判别分析3.1Fisher线性判别3.2感知准则函数3.3广义线性判别分析3.4k近邻3.5决策树几个基本概念线性可分样本的规范化解向量和解区对解区的限制3.2感知准则函数线性可分性假设样本集，为样本个数m，为n维向量，其中包含两类和。如果存在一个向量，满足如下条件，则称样本集是线性可分的，反之是线性不可分的。190几个基本概念3.2感知准则函数样本的规范化对于线性可分的样本集，若令则样本集线性可分的条件可改写为。上述过程就被称为样本的规范化。被称为规范化增广样本向量，后续介绍中，我们简化记为。191几个基本概念3.2感知准则函数解向量和解区对于线性可分的一组样本(规范化增广样本向量)，若存在一个权向量满足则称为一个解向量，在权值空间中所有解向量组成的区域称作为解区。192几个基本概念3.2感知准则函数对解区的限制由于解向量不唯一，我们可以通过加入额外的限制得到更好的选择。一般认为，越靠近解区中间的解向量，似乎越能对新的样本正确分类。因此，我们可以选找一个单位长度的解向量使之最大化样本到分界面的距离，也可以引用一个余量

，寻找对所有样本满足的最小长度的向量。新的解区位于原解区之中，而且它的边界到原解区边界的距离为。实际上，只要解向量严格位于解区之中都能满足要求，这里引入余量主要是为了避免求解权向量的算法收敛到解区边界的某点上。193几个基本概念3.2感知准则函数194几个基本概念解向量和解区的两维示意图解区里面的向量叫解向量；让它线性可分的解不唯一；准则不同，落在这个解区中的解不同；但准则确定，解一般是唯一的。3.2感知准则函数感知准则出发点一旦判别函数的形式确定下来，不管它是线性的还是非线性的，剩下的问题就是如何确定它的系数。在模式识别中，系数确定的一个主要方法就是通过对已知样本的训练和学习来得到。感知器算法就是通过训练样本模式的迭代和学习，产生线性（或广义线性）可分的模式判别函数。感知准则函数，是人工神经网络的雏形，最早的人工神经网络就是感知器神经网络。感知器准则求解过程，线性判别函数形式一但确定，通过样本不断试错纠正迭代来求解更新参数w和w0的过程。给定一个w和w0的初始值，来一个样本，如果这个参数结果不好，就进行修正，如果结果好，就保留，不断这样迭代，等所有样本都可以正确划分，保留这时的参数，就是最终要求解的参数。3.2感知准则函数感知器算法基本思想采用感知器算法(PerceptionApproach)能通过对训练模式样本集的“学习”得到判别函数的系数说明这里采用的算法不需要对各类别中模式的统计性质做任何假设，因此称为确定性的方法。3.2感知准则函数对于权向量w，如果某个样本被错误分类，。我们可以用对所有错分样本的求和来表示对错分样本的惩罚，定义感知器准则函数：当且仅当函数取得最小值0时，求得最优的w。可以用梯度下降法进行求解。3.2感知准则函数样本线性可分满足：其中，梯度下降算法3.2感知准则函数梯度下降算法梯度是一个向量，它的最重要性质就是指出了函数f在其自变量y增加时最大增长率的方向。负梯度指出f的最陡下降方向利用这个性质，可以设计一个迭代方案来寻找函数的最小值3.2感知准则函数讨论若正确地选择了准则函数J(w,x)，则当权向量w是一个解时，J达到极小值（J的梯度为零）。为了使权向量能较快地收敛于一个使函数J极小的解，C值的选择是很重要的。若C值太小，则收敛太慢；若C值太大，则搜索可能过头，引起发散。梯度下降算法3.2感知准则函数3.2感知准则函数感知器算法3.2感知准则函数感知器算法感知器算法实质上是一种赏罚过程对正确分类的模式则“赏”，实际上是“不罚”，即权向量不变。对错误分类的模式则“罚”，使w(k)加上一个正比于Xk的分量。当用全部模式样本训练过一轮以后，只要有一个模式是判别错误的，则需要进行下一轮迭代，即用全部模式样本再训练一次。如此不断反复直到全部模式样本进行训练都能得到正确的分类结果为止。3.2感知准则函数感知器算法的收敛性只要模式类别是线性可分的，就可以在有限的迭代步数里求出权向量。如果有一个样本线性不可分，那么感知器算法就会一直迭代，无法收敛。这是它的局限性。3.2感知准则函数感知器算法采用感知器算法的多类模式的分类讨论这个分类算法都是通过训练样本来确定判别函数的系数，并没有考虑到测试样本，但一个分类器的性能最终用未知的测试样本来检验。要使一个分类器设计完善，必须采用有代表性的正确的训练数据，它能够合理反映模式数据的整体。如果训练样本中有噪声样本，就会影响分类的性能。局限性在于对噪声数据敏感，解不够鲁棒。3.2感知准则函数采用感知器算法的多类模式的分类讨论要获得一个判别性能好的线性分类器，究竟需要多少训练样本？直观上是越多越好，但实际上能收集到的样本数目会受到客观条件的限制；过多的训练样本在训练阶段会使计算机需要较长的运算时间；一般来说，合适的样本数目可如下估计：若k是模式的维数，令C=2(k+1)，则通常选用的训练样本数目约为C的10~20倍。3.2感知准则函数207三种梯度下降优化框架批量梯度下降法（BatchGradientDescent,BGD）每次使用全部的训练样本来更新模型参数/学习；优点：每次更新都会朝着正确的方向进行，最后能够保证收敛于极值点；缺点：每次学习时间过长，并且如果训练集很大以至于需要消耗大量的内存，不能进行在线模型参数更新。3.2感知准则函数208随机梯度下降法（StochasticGradientDescent,SGD）随机梯度下降算法每次从训练集中随机选择一个样本来进行学习；优点：每次只随机选择一个样本来更新模型参数，因此每次的学习是非常快速的，并且可以进行在线更新；SGD波动带来的好处，在类似盆地区域，即很多局部极小值点，那么这个波动的特点可能会使得优化的方向从当前的局部极小值点调到另一个更好的局限极小值点，这样便可能对于非凹函数，最终收敛于一个较好的局部极值点，甚至全局极值点。缺点：每次更新可能并不会按照正确的方向进行，因此会带来优化波动，使得迭代次数增多，即收敛速度变慢。3.2感知准则函数209小批量梯度下降法（Mini-batchGradientDescent,SGD）小批量梯度下降综合了batch梯度下降与stochastic梯度下降，在每次更新速度与更新次数中间一个平衡，其每次更新从训练集中随机选择k(k<m)个样本进行学习；优点：相对于随机梯度下降，Mini-batch梯度下降降低了收敛波动性，即降低了参数更新的方差，使得更新更加稳定；相对于批量梯度下降，其提高了每次学习的速度；MBGD不用担心内存瓶颈从而可以利用矩阵运算进行高效计算；3.2感知准则函数第三章线性和非线性判别分析3.1Fisher线性判别3.2感知准则函数3.3广义线性判别分析3.4k近邻3.5决策树211对于非线性问题，线性判别函数难以正确分类，而且设计非线性判别函数比较复杂。此时，常用的方法是将原特征空间映射到一个高维空间，将低维空间中的非线性问题转化为高维空间中的线性问题，从而降低模式分类的难度。3.3广义线性判别分析例：如右图，212对于非线性问题，线性判别函数难以正确分类，而且设计非线性判别函数比较复杂。此时，常用的方法是将原特征空间映射到一个高维空间，将低维空间中的非线性问题转化为高维空间中的线性问题，从而降低模式分类的难度。3.3广义线性判别分析例：如右图，二次判别函数可以表达为2133.3广义线性判别分析广义线性判别函数这样一个非线性判别函数通过映射，变换成线性判别函数。原始的特征空间是非线性，但通过某种映射，在新的空间能保证是线性函数，原始空间的判别函数为广义线性判

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《模式识别》课件全套第1-10章绪论 -半监督学习

文档简介

温馨提示

最新文档

评论

《模式识别》课件全套 第1-10章 绪论 -半监督学习

文档简介

温馨提示

最新文档

评论

相关文档

《模式识别》课件全套第1-10章绪论 -半监督学习