版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课程目标绪论目标1:理解掌握模式识别的基础知识目标3:编程实现模式识别的算法系统目标2:分析设计模式识别的解决方案第1章绪论主要内容1.1模式识别的基本概念1.2模式识别方法1.3模式识别系统1.4模式识别应用绪论1.1模式识别的基本概念(1)人类的模式识别能力时刻进行人们所做的每一件事情,首先都有一个识别的过程。复杂性绪论Pattern,任何可观测且需要进行分类的对象(2)模式和模式类1.1模式识别的基本概念模式模式类模式所属的类别或同一类中模式的总体从具体模式中抽象出来、表征事物特点或性状的观测,用于对模式的判断和分析,也称特征向量、样本向量。(3)特征和样本一个样本样本矩阵1.1模式识别的基本概念样本特征观测样本的某个方面的变量,也称作属性特征空间例:测量花萼长、宽,花瓣长、宽,单位为厘米,构成4维列向量:如[53.51.30.3]T,特征空间为4维特征空间1.1模式识别的基本概念集合向量
1.1模式识别的基本概念
(3)模式识别作用和目的1.1模式识别的基本概念面对某一具体信息(样本、模式),将其正确的归入某一类。核心技术寻找一个合适的分类器,即分类的准则。1.1模式识别的基本概念例1-2:小米和绿豆混合在一起,如何把二者分开?
学习(4)学习和分类1.1模式识别的基本概念也称为训练,对大量的样本进行分析,从中找出相应的规律或者说事物的共同特征分类也称决策,根据从学习中得到的规律,面对某一个具体的样本,将其归入正确的类别。有监督学习(5)有监督、无监督和半监督学习无监督学习1.1模式识别的基本概念已知要划分的类别,能获得一定数量的类别已知的训练样本(称为标记样本),进行学习找出规律,进而建立分类器,对未标记样本进行分类决策。事先不知道要划分的是什么类别,没有标记样本用来训练,通过考查未标记样本之间的相似性进行区分。半监督学习同时利用标记和未标记样本,以提高分类性能。1.1模式识别的基本概念(6)识别的可推广性在有限样本基础上建立认知(经验),去认识未知事物,识别结果只能以一定的概率表达事物的真实类别。依据有限样本全部正确划分为准则建立决策规则,考虑为未来数据分析时的成功率,即推广性问题(也称泛化)。固有问题。方法1.2模式识别方法(1)模板匹配为每个类建立一个或多个模板,将待识别样本与每个类别的模板进行比对,根据和模板的相似程度将样本划分到相应的类别。简单,在特征稳定、类间区别明显时效果好缺点是需要搜索最优匹配,计算量大,依赖模板,适应性较差。特点算法成熟,应用广泛,理论较复杂1.2模式识别方法(2)统计模式识别经典的基于数据的识别方法;通过判别函数将特征空间划分为几个区域,不同区域的样本归为相应的类别;设计判别函数的思路多样,对应不同的方法。方法特点可用于识别包含丰富结构信息的、极为复杂的对象基元的选择对识别结果有极大的影响1.2模式识别方法(3)句法模式识别方法特点用一组基元和它们的组合关系描述模式,称为模式描述语句根据模式的结构将其组合成语句,按句法分析进行识别,符合指定的语法即被归入该类适合特征值不精确的分类问题缺点是模糊规则的建立具有较大的主观性1.2模式识别方法(4)模糊模式识别方法特点将模糊的概念和其他模式识别方法相结合,判断样本对于模式类的隶属程度,实现分类结果模糊化擅长解决非线性分类问题,学习速度慢,参数选择困难,分类规则不透明、非解析(5)人工神经网络模式识别1.2模式识别方法方法特点人工神经网络,由多层神经元相互连接构成,根据输入信息和输出结果配对的数据进行学习,训练神经元间的连接权重,得到输入和输出的关系,用以对未知类别的样本进行识别。数据采集预处理特征提取和选择分类决策输出结果学习识别分类器设计数据采集预处理特征提取和选择评估(1)监督模式识别数据采集1.3模式识别系统用计算机可以运算的符号来表示物体(1)监督模式识别预处理1.3模式识别系统属于信号处理范围,所采用的处理方法要根据后续提取特征的需要进行,技术与具体问题有关。数据采集预处理特征提取和选择分类决策输出结果学习识别分类器设计数据采集预处理特征提取和选择评估(1)监督模式识别特征提取和选择1.3模式识别系统为有效识别,需从中提取最有代表性的,最反映分类本质的特征来进行识别。关键技术为数据降维。数据采集预处理特征提取和选择分类决策输出结果学习识别分类器设计数据采集预处理特征提取和选择评估(1)监督模式识别分类器的设计1.3模式识别系统确定合适的判别规则数据采集预处理特征提取和选择分类决策输出结果学习识别分类器设计数据采集预处理特征提取和选择评估(1)监督模式识别评估1.3模式识别系统对设计的分类器性能进行评估,根据评估的结果,调整设计方案,以保证分类效果数据采集预处理特征提取和选择分类决策输出结果学习识别分类器设计数据采集预处理特征提取和选择评估(1)监督模式识别分类决策1.3模式识别系统根据已经确定的判别规则,判断数据类别数据采集预处理特征提取和选择分类决策输出结果学习识别分类器设计数据采集预处理特征提取和选择评估(2)无监督模式识别1.3模式识别系统取“物以类聚”的思路,无监督模式识别,根据类间的相似性或分布特性,对样本进行聚集。输出结果聚类(自学习)数据采集预处理特征提取和选择评估(3)半监督模式识别1.3模式识别系统数据采集预处理特征提取和选择分类决策输出结果分类器设计数据采集预处理特征提取和选择评估对新的未标记数据进行分类决策(3)半监督模式识别1.3模式识别系统输出结果聚类(自学习)数据采集预处理特征提取和选择评估仅对已有未标记数据进行分类决策车牌识别系统获取汽车图像图像处理:色彩变换、边缘检测、车牌定位、字符分割等特征提取:字符位置、外部轮廓等分类决策:模板匹配、神经网络等(4)实例1.3模式识别系统(1)根据信源的不同语音识别1.4模式识别应用图像识别1.4模式识别应用其他数据识别1.4模式识别应用电子商务网站的推荐系统,极大促进了商品的购买率各种监测系统的异常数据、情况筛选预警,提高了生产、医疗的智能化程度各种信息管理系统的数据分类预测……(2)根据应用场合的不同交通信息识别医学信息识别1.4模式识别应用工业信息识别军事目标的识别1.4模式识别应用回顾本章相关概念课后思考题模式识别系统组成。模式、模式类、样本、特征之间的关系。有监督、无监督、半监督学习的含义课后作业第2章贝叶斯决策主要内容2.1贝叶斯决策的基本概念2.2最小错误率贝叶斯决策2.3最小风险贝叶斯决策2.4朴素贝叶斯分类器2.5Neyman-Pearson决策规则2.6判别函数和决策面2.7正态分布模式的贝叶斯决策2.8贝叶斯决策的实例2.1贝叶斯决策的基本概念各类别总体的概率分布是已知的;要决策的类别数是一定的。原理用概率统计的方法研究随机模式的决策问题。前提条件2.1贝叶斯决策的基本概念预先已知的、或者可以估计的模式识别系统位于某种类型的概率。先验概率
不能根据先验概率的取值判断某个样本属于哪一类。2.1贝叶斯决策的基本概念系统位于某种类型条件下模式样本x出现的概率。类条件概率
不同类别中有可能出现相同的数据,当获得某个样本x时,不能判断其属于哪一类。2.1贝叶斯决策的基本概念系统在某个具体的模式样本x条件下位于某种类型的概率。后验概率
若获得样本x属于不同类的后验概率,择其一,自然将其归为概率大的一类。2.1贝叶斯决策的基本概念贝叶斯公式贝叶斯决策
2.2最小错误率贝叶斯决策希望在决策中尽量减少分类错误的概率,因此根据贝叶斯公式建立的使错误率最小的分类规则,称之为最小错误率贝叶斯决策。(1)癌细胞识别实例分析有要进行识别的细胞,已经经过了预处理,抽取了n个表示细胞的特征,构成n维向量x,判断该细胞为正常或异常细胞。2.2最小错误率贝叶斯决策根据先验的统计知识做出估计,如某一个地区癌症的发病率为5‰,即:
只说明是正常细胞的可能性大,不能作为正常或异常的判据。
数学表示以往的统计数据
2.2最小错误率贝叶斯决策
根据统计资料判断两类中x出现的概率。
以往的统计数据贝叶斯决策2.2最小错误率贝叶斯决策
分析实际中仅这个结论不能确诊的,需要更有效的化验。
(2)最小错误率贝叶斯决策规则2.2最小错误率贝叶斯决策(3)例题2.2最小错误率贝叶斯决策
解:
信道分类器输入{0,1}噪声判别结果x一般认为x<0.5判为0,x>0.5判为1
2.2最小错误率贝叶斯决策2.2最小错误率贝叶斯决策
假设P(0)=P(1),则决策变为:
2.2最小错误率贝叶斯决策解:先验概率相等,简化决策规则:
0-112341
2.2最小错误率贝叶斯决策(4)验证错分概率对于所有的x值所进行的判断,错误率为最小,从而保证平均错误率P(e)也达到最小。错误率:两类情况:多类情况:2.2最小错误率贝叶斯决策(5)仿真实现
按照最小错误率贝叶斯决策规则,获取训练数据,估算其先验概率,因服从正态分布,估算其类条件概率函数参数,计算后验概率并决策。设计思路2.2最小错误率贝叶斯决策clc,clear;%训练数据及其类别training=[00;20;22;02;44;64;66;46];[N,n]=size(training);species={'one';'one';'one';'one';'two';'two';'two';'two'};%估算先验概率sta=tabulate(species);[c,k]=size(sta);priorp=zeros(c,1);fori=1:cpriorp(i)=cell2mat(sta(i,k))/100;end程序%估算类条件概率参数cpmean=zeros(c,n);cpcov=zeros(n,n,c);fori=1:ccpmean(i,:)=mean(training(strmatch(char(sta(i,1)),species,'exact'),:));cpcov(:,:,i)=cov(training(strmatch(char(sta(i,1)),species,'exact'),:))*(N*priorp(i)-1)/(N*priorp(i));end%数据[31]的后验概率x=[31];postp=zeros(c,1);2.2最小错误率贝叶斯决策fori=1:cpostp(i)=priorp(i)*exp(-(x-cpmean(i,:))*inv(cpcov(:,:,i))*(x-cpmean(i,:))'/2)/((2*pi)^(n/2)*det(cpcov(:,:,i)));end[~,i]=max(postp(:));%找最大后验概率result=sta(i,1)2.2最小错误率贝叶斯决策将在命令窗口输出:result=1×1cell数组{'one'}
2.3最小风险贝叶斯决策作出任何决策都有风险,都会带来一定的后果,错误率最小不一定风险也最小,因此,考虑分类错误引起的损失而产生最小风险的贝叶斯决策方法。(1)问题表述样本x为n维向量:状态空间由c个可能状态(类别)组成:对x可能采取的决策:
2.3最小风险贝叶斯决策(2)风险定义决策表经过分析研究统计得出。…………贝叶斯决策2.3最小风险贝叶斯决策(2)风险定义
条件风险2.3最小风险贝叶斯决策(2)风险定义期望风险
全概率步骤
2.3最小风险贝叶斯决策(3)决策规则规则2.3最小风险贝叶斯决策(4)例题
0160解:后验概率
损失系数
2.3最小风险贝叶斯决策
条件风险2.3最小风险贝叶斯决策(5)最小错误率和最小风险两种决策的关系
正好为求最小条件错误概率最小错误率贝叶斯决策是在0-1损失函数条件下的最小风险贝叶斯决策,即前者是后者的特例。0-1损失函数
条件风险
2.3最小风险贝叶斯决策(6)验证错分风险
2.4朴素贝叶斯分类器(1)原理
贝叶斯决策中存在的问题对已知类别,假设所有属性相互独立。属性条件独立性假设基于属性条件独立性假设,按最大后验概率决策。朴素贝叶斯分类器2.4朴素贝叶斯分类器(2)决策规则
若则决策规则为:2.4朴素贝叶斯分类器(3)仿真实现
获取训练数据后,采用MATLAB提供的fitcnb函数训练朴素贝叶斯分类器,并predict函数进行分类决策2.4朴素贝叶斯分类器程序clc,clear,closeall;training=[00;20;22;02;44;64;66;46];[N,n]=size(training);species={'one';'one';'one';'one';'two';'two';'two';'two'};ObjBayes=fitcnb(training,species);X=[31];[label,posterior,cost]=predict(ObjBayes,X)figure,gscatter(training(:,1),training(:,2),species);holdonplot(X(:,1),X(:,2),'k*','MarkerSize',10);holdoff2.4朴素贝叶斯分类器仿真结果将在命令窗口输出:label=
1×1cell数组
{'one'}posterior=0.99750.0025cost=0.00250.99752.5Neyman-Pearson决策规则(1)原理固定一类错误率使另一类错误率最小的判别准则。
2.5Neyman-Pearson决策规则拉格朗日函数:概率密度函数的性质:拉格朗日函数:
2.5Neyman-Pearson决策规则拉格朗日函数:
同理,拉格朗日函数:2.5Neyman-Pearson决策规则决策规则
2.5Neyman-Pearson决策规则
解:由题意可知Neyman-Pearson决策规则为:
简化为:
2.5Neyman-Pearson决策规则
第一类的错误率为:
2.6判别函数和决策面用数学形式描述分类规则(1)判别函数和决策面的概念把特征空间分成若干个决策域(类别区域),划分这些区域的边界面称为决策面,用数学解析式表达称为决策面方程。决策面判别函数表达决策规则的某种函数。(2)两类情况下的判别函数和决策面方程最小错误率贝叶斯决策的判别函数2.6判别函数和决策面最小错误率贝叶斯决策的决策面方程最小风险贝叶斯决策的决策面方程最小风险贝叶斯决策的判别函数2.6判别函数和决策面(2)两类情况下的判别函数和决策面方程两类分类问题的推广,定义一组判别函数2.6判别函数和决策面
(3)多类情况下的判别函数和决策面方程最小错误率贝叶斯决策多类问题的判别函数最小风险贝叶斯决策的判别函数2.6判别函数和决策面(3)多类情况下的判别函数和决策面方程2.7正态分布模式的贝叶斯决策实际中的许多数据集可以用正态分布来近似,而且,正态分布有利于作数学分析,所以,单独对正态分布时贝叶斯决策作一讨论。(1)单变量正态分布的定义概率密度函数:参数:
2.7正态分布模式的贝叶斯决策(2)多元正态分布的定义概率密度函数参数
2.7正态分布模式的贝叶斯决策(3)例题
2.7正态分布模式的贝叶斯决策解:多类别问题,采用如下判别规则:2.7正态分布模式的贝叶斯决策2.7正态分布模式的贝叶斯决策(4)多元正态分布的性质参数μ、Σ对分布具有决定性等密度点的轨迹为一超椭球面不相关性等价于独立性线性变换的正态性线性组合的正态性Mahalanobis距离
2.7正态分布模式的贝叶斯决策(4)多元正态分布的性质2.7正态分布模式的贝叶斯决策(4)多元正态分布的性质马氏距离和欧氏距离的关系距离在模式识别中是一种很重要的概念,一般认为同一类模式间的距离小,不同类模式间的距离大。欧氏距离最常用。两个向量之间的欧氏距离的定义:当Σ为单位阵时,两种距离相同。2.7正态分布模式的贝叶斯决策(5)仿真实现例2-9:设定参数,生成服从单变量正态分布的样本集,并绘制概率密度函数图。设定先验概率、类条件概率密度函数参数后,采用MATLAB提供的normrnd函数生成样本,计算各点对应的概率密度函数取值并绘制概率密度函数图。同理,可以使用mvnrnd函数生成服从多元正态分布的样本集设计思路2.7正态分布模式的贝叶斯决策程序clc,clear,closeall;P=[0.40.20.4];N=500;
mu1=1;mu2=7;mu3=15;sigma1=0.5;sigma2=0.1;sigma3=2;num1=floor(N*P(1));num2=floor(N*P(2));num3=floor(N*P(3));
rng('default')R1=normrnd(mu1,sqrt(sigma1),1,num1);R2=normrnd(mu2,sqrt(sigma2),1,num2);R3=normrnd(mu3,sqrt(sigma3),1,num3);p1=exp(-0.5*(R1-mu1).^2/sigma1)/sqrt(2*pi*sigma1);p2=exp(-0.5*(R2-mu2).^2/sigma2)/sqrt(2*pi*sigma2);p3=exp(-0.5*(R3-mu3).^2/sigma3)/sqrt(2*pi*sigma3);
holdonplot(R1,p1,'bo');plot(R2,p2,'r.');plot(R3,p3,'g+');legend('1','2','3');boxon;xlabel('x'),ylabel('p(x)'),title('单变量正态分布');holdoff2.7正态分布模式的贝叶斯决策程序2.7正态分布模式的贝叶斯决策结果图(5)正态概率模型下的最小错误率贝叶斯决策2.7正态分布模式的贝叶斯决策判别函数决策面方程
每一类的协方差矩阵相等,类内各特征间相互独立(各协方差为0),具有相等的方差。2.7正态分布模式的贝叶斯决策2.7正态分布模式的贝叶斯决策最小欧氏距离分类器
关于x的线性函数2.7正态分布模式的贝叶斯决策例2-10:二维的两类分类问题,先验概率相等,求最小错误率的贝叶斯判别函数和决策面方程。解:模式呈正态分布,且判别函数为:决策面方程为:
2.7正态分布模式的贝叶斯决策
关于x的线性函数最小马氏距离分类器
2.7正态分布模式的贝叶斯决策解:参数计算2.7正态分布模式的贝叶斯决策2.7正态分布模式的贝叶斯决策2.7正态分布模式的贝叶斯决策
去掉与类别j无关的第一项可化简为x的二次型,决策面为超二次曲面2.7正态分布模式的贝叶斯决策
解:2.7正态分布模式的贝叶斯决策2.8贝叶斯决策的实例例2-16:不同字体数字的图像构成的图像集,实现基于朴素贝叶斯分类器的数字识别。2.8贝叶斯决策的实例设计思路反色:目标变为白色二值化:将图像变为前景和背景获取外接矩形:截取数字所在区域归一化:16×16的子图像预处理2.8贝叶斯决策的实例设计思路由于各个数字上中下宽度不一样,所以统计图像每一行数字所占宽度,生成1×16的向量作为训练样本。提取特征仅适用于不同字体的数字2.8贝叶斯决策的实例设计思路利用训练样本训练朴素贝叶斯分类器,并对测试样本进行分类决策。分类器设计和分类决策程序2.8贝叶斯决策的实例clc;clear;closeall;fmt={'*.jpg','JPEGimage(*.jpg)';'*.*','AllFiles(*.*)'};[FileName,FilePath]=uigetfile(fmt,'选择训练图片','*.jpg','MultiSelect','on');if~isequal([FileName,FilePath],[0,0])FileFullName=strcat(FilePath,FileName);else
returnendN=length(FileFullName);n=16;Image=zeros(50);training=zeros(1,n);labeltrain=[];准备工作初始化2.8贝叶斯决策的实例forj=1:NImage=rgb2gray(imread(FileFullName{j}));Image=255-Image;Image=imbinarize(Image,0.2);[y,x]=find(Image==1);
BWI=Image(min(y):max(y),min(x):max(x));BWI=imresize(BWI,[n,n]);
预处理2.8贝叶斯决策的实例fori=1:npos=find(BWI(i,:));ifposwidth=max(pos)-min(pos)+1;training(j,i)=width;elsetraining(j,i)=0;endend[pathstr,namestr,ext]=fileparts(FileName{j});labeltrain=[labeltrain;str2num(namestr(1))];end提取特征2.8贝叶斯决策的实例ObjBayes=fitcnb(training,labeltrain);训练分类器group=predict(ObjBayes,training);ratio1=sum(group==labeltrain)/N对训练样本进行测试……group=predict(ObjBayes,testing);ratio2=sum(group==labeltest)/N生成测试样本并进行测试将在命令窗口输出:ratio1=1ratio2=0.7000
在分类方法固定的情况下,提高特征的区别度有利于提高识别率。第3章概率密度函数的估计主要内容3.1基本概念3.2参数估计3.3非参数估计3.4最小错误率贝叶斯决策的实例3.1基本概念
贝叶斯决策前提条件是已知各类的先验概率和类条件概率,但实际中所得到的只是样本集,如何由样本集得到所需的概率密度函数,需要进行估计。参数估计:parametricestimation,已知类条件总体概率密度函数形式,未知其中部分或全部参数,用样本来估计这些参数。非参数估计:nonparametricestimation,未知概率密度函数形式,求函数本身。(1)估计方法3.1基本概念
(2)参数估计中的基本概念3.1基本概念(1)最大似然估计3.2参数估计前提假设
似然函数(likelihoodfunction)
3.2参数估计样本集中的样本最有可能来源于概率密度最大的地方。似然函数定义为联合概率密度,样本独立抽取时为概率密度的乘积,已知一组样本,最有可能来自于似然函数最大所对应的密度函数。因此,可以利用似然函数作参数估计。最大似然估计量至此,估计问题转化为求极值的问题。
3.2参数估计最大似然估计求解
防止数值下溢3.2参数估计例题
3.2参数估计例3-2:设x服从正态分布N(μ,σ2),其中参数μ、σ2未知,求它们的最大似然估计量。
3.2参数估计3.2参数估计
3.2参数估计仿真实现例3-4:读取hospital数据,按性别分为两类,对体重数据进行正态分布拟合,并绘制概率密度函数曲线。3.2参数估计设计思路:hospital数据集中有100个病人的数据,包括性别、年龄、体重、是否抽烟、血压等数据采用fitdist函数拟合数据分布,fitdist函数使用最大似然估计拟合多种概率分布另外,可以采用mle函数对不同的分布进行ML参数估计,normfit等函数实现常见分布的参数的ML估计。程序3.2参数估计clc,clear,closeall;loadhospitalx=hospital.Weight;
gender=hospital.Sex;[pdca,gn,gl]=fitdist(x,'Normal','By',gender);%用正态分布对两组数据进行拟合female=pdca{1};
%第一组对应分布male=pdca{2};
%第二组对应分布x_values=50:1:250;femalepdf=pdf(female,x_values);%计算概率密度函数值malepdf=pdf(male,x_values);figureplot(x_values,femalepdf,'Color','r','LineWidth',2);holdonplot(x_values,malepdf,'Color','b',
'LineStyle','-.','LineWidth',2);xlabel('x');ylabel('p(x)');legend(gn,'Location','NorthEast')holdoff程序3.2参数估计结果3.2参数估计female组,估计的均值为130.4717,标准差为8.3034male组,估计的均值为180.5319,标准差为9.1932体重数据对应的正态概率密度函数曲线(2)最大后验估计基本思路把θ看作随机变量,考虑θ本身服从的分布,利用贝叶斯公式计算θ的后验概率,最大后验概率对应的参数值为参数的估计值。这种方法称为最大后验估计。3.2参数估计原理3.2参数估计
求解:或:例题3.2参数估计
3.2参数估计
求极值(3)贝叶斯估计
基本思路把估计问题转化成和贝叶斯最小风险决策形式一致,利用Bayes公式解决问题。3.2参数估计贝叶斯决策贝叶斯估计样本x贝叶斯决策和贝叶斯估计各变量的对应关系概念3.2参数估计贝叶斯风险
3.2参数估计
损失函数平方误差损失时的贝叶斯估计量3.2参数估计贝叶斯估计的步骤
3.2参数估计例题
解:确定μ的先验分布P(μ)3.2参数估计
3.2参数估计应用待定系数法,令两式对应的系数相等3.2参数估计利用定理,求μ贝叶斯估计量3.2参数估计
贝叶斯学习
θ的贝叶斯估计量为:θ的后验分布为:当N>1时,有得递推公式:3.2参数估计随着样本数的增加,得到一系列对概率密度函数参数的估计:称作递推的贝叶斯估计。如果随着样本数的增加,上式的后验概率序列逐渐尖锐,逐步趋向于以θ的真实值为中心的一个尖峰,当样本无穷多时收敛于在参数真实值上的脉冲函数,这一过程称作贝叶斯学习。3.2参数估计
3.2参数估计clc,clear,closeall;rng('default')N=300;mu0=0;sigma0=3;mu_value=-10:0.1:10;Prior=pdf('Normal',mu_value,mu0,sigma0);plot(mu_value,Prior);mu=2;sd=2;training=normrnd(mu,sd,[N,1]);prev=Prior;holdon程序3.2参数估计fori=1:Ntempdata=training(i);npdf=normalDist(tempdata,mu_value,sd);
numerator=npdf.*prev;prev=numerator;TotalP=sum(numerator);Poster=numerator/TotalP;
ifi==10||i==50||i==100||i==200||i==300plot(mu_value,Poster);endend[value,pos]=max(Poster);plot([mu_value(pos)mu_value(pos)],[0value],'k-.');mu_value(pos)holdoff3.2参数估计functionnpdf=normalDist(X,Mu,Sigma)Z=(X-Mu)./Sigma;npdf=exp(-0.5*Z.^2)/(sqrt(2*pi)*Sigma);endN=10μ
N=50N=100N=200N=300N=0一系列的后验概率估计图很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。在这种情况下,就需要非参数估计,即不对概率密度函数的形式做任何假设,而是直接用样本估计出整个函数。3.3非参数估计(1)直方图方法
基本原理3.3非参数估计3.3非参数估计仿真实现例3-10:设定参数生成正态分布数据集,利用直方图方法估计概率密度函数并绘制函数曲线。clc,clear,closeall;rng('default')N=200;mu=0;sd=0.8;x=normrnd(mu,sd,[N,1]);
x_values=-3:0.01:3;px=pdf('Normal',x_values,mu,sd);plot(x_values,px,'Color','k');
[hist1,edge1]=histcounts(x,10,'Normalization','pdf');
%设定10个区间进行估计,大间隔[hist2,edge2]=histcounts(x,30,'Normalization','pdf');
%设定30个区间进行估计,小间隔holdonhistogram('BinEdges',edge1,'BinCounts',hist1,'FaceColor','w');holdofffigure,plot(x_values,px,'Color','k','LineWidth',2);holdonhistogram(x,30,'Normalization','pdf');holdoff3.3非参数估计样本数N=200大间隔小间隔样本数N=2000直方图估计方法分析最好能够根据样本分布情况调整小舱体积过大,设概率密度为常数,估计出的密度函数粗糙过小,有些小舱内可能会没有样本或者样本很少,导致估计出的概率密度函数不连续小舱的选择与估计的效果密切相连随样本数的增加,小舱体积应该尽可能小,同时必须保证小舱内有充分多的样本,但每个小舱内的样本数必须是总样本数中很小的一部分小舱内的样本数与样本分布有关。小舱的选择应与样本总数相适应3.3非参数估计原理n维单位方窗函数:(2)Parzen窗法3.3非参数估计
-0.5-0.50.50.50原点为中心半径为1的正方形
落入以x为中心的超立方体内的样本数为:任意一点x的密度估计表达式为:3.3非参数估计
0
x点为中心半径为h的正方形贝叶斯决策密度估计表达式变形:定义核函数(窗函数):
概率密度估计即在每一点上把所有观测样本的贡献进行平均这种用窗函数(核函数)估计概率密度的方法称作Parzen窗方法或核密度估计3.3非参数估计核函数满足密度函数的要求:非负且积分为13.3非参数估计方窗核函数:高斯核函数:一维单位高斯窗函数:3.3非参数估计一维Epanechnikov窗:Epanechnikov核函数:三角核函数:一维三角窗:例题确定窗函数
选择正态窗函数确定窗口3.3非参数估计计算估计值
两个问题:样本数:样本量越大,估计结果越精确;窗宽的选择对估计结果的影响3.3非参数估计分析窗函数的宽度h对估计量的影响3.3非参数估计
对样本数目需求较大,只要样本数目足够大,总可以保证收敛于任何复杂的位置密度,但计算量和存储量都比较大当样本数很少时,若对密度函数有先验认识,参数估计方法较好3.3非参数估计分析样本数N对估计量的影响3.3非参数估计仿真实现
clc,clear,closeall;rng('default')N=1000;mu=0;sigma=1;x=normrnd(mu,sigma,[N,1]);minx=min(x);maxx=max(x);dx=(maxx-minx)/N;x_values=minx:dx:maxx-dx;px=pdf('Normal',x_values,mu,sigma);plot(x_values,px,'Color','k','LineWidth',2);holdon3.3非参数估计h=0.01;pxe1=kde(x,x_values,h,N);plot(x_values,pxe1,'r:','LineWidth',2);h=2;pxe3=kde(x,x_values,h,N);plot(x_values,pxe3,'b--','LineWidth',2);xlabel('x'),ylabel('p(x)');legend('p(x)','h=0.01','h=2');holdofffigure,plot(x_values,px,'Color','k','LineWidth',2);h=0.3;
pxe2=kde(x,x_values,h,N);holdonplot(x_values,pxe2,'g-.','LineWidth',2);xlabel('x'),ylabel('p(x)');legend('p(x)','h=0.3');holdoff3.3非参数估计%利用高斯窗进行估计的函数functionpxe=kde(x,x_values,h,N)
pxe=zeros(1,N);forj=1:Nfori=1:Npxe(j)=pxe(j)+
exp(-0.5*(x_values(j)-x(i))^2/h^2)/sqrt(2*pi);endpxe(j)=pxe(j)/N/h;endend3.3非参数估计理想及估计的概率密度函数曲线h较小,估计的曲线相对于原始曲线起伏较大,估计不稳定;h较大,估计的曲线相对于原始曲线较平滑,但跟不上函数p(x)的变化;
h适中,估计的较准确。
3.3非参数估计clc,clear,closeall;rng('default')N=[16425610000];h=1./(N.^0.5);
mu=0;sigma=1;x_values=-4:0.01:4;R=zeros(length(N),N(4));form=1:length(N)R(m,1:N(m))=normrnd(mu,sigma,1,N(m));endpx=pdf('Normal',x_values,mu,sigma);len=length(x_values);
3.3非参数估计form=1:length(N)
%针对不同样本数分别估计概率密度函数pxe=zeros(1,len);fori=1:lenforj=1:N(m)ifabs(x_values(i)-R(m,j))<=sqrt(5)*h(m)pxe(i)=pxe(i)+
(1-((x_values(i)-R(m,j))/h(m))^2/5)*3/4/sqrt(5)/h(m);end
%采用Epanechnikov核函数进行估计endpxe(i)=pxe(i)/N(m);endsubplot(1,4,m),plot(x_values,px,'k');holdonplot(x_values,pxe,'r:','LineWidth',2),axis([-3,3,0.001,1.0]);str=strcat('N=',num2str(N(m)));legend('p(x)',str);holdoffend3.3非参数估计利用Epanechnikov核函数估计概率密度函数样本数越多估计效果越好。
3.3非参数估计思路采用可变大小的小舱3.3非参数估计
仿真实现
3.3非参数估计clc,clear,closeall;rng('default')N=1000;mu=0;sigma=0.8;x=normrnd(mu,sigma,[N,1]);kn1=10;kn2=50;kn3=100;x_values=-3:0.01:3;px=pdf('Normal',x_values,mu,sigma);len=length(x_values);index=1;pxe1=zeros(1,len);pxe2=zeros(1,len);pxe3=zeros(1,len);forj=-3:0.01:3distance=pdist2(j,x);
D=sort(distance);V1=2*D(kn1);
V2=2*D(kn2);
V3=2*D(kn3);pxe1(index)=kn1/N/V1;pxe2(index)=kn2/N/V2;pxe3(index)=kn3/N/V3;index=index+1;endfigure,plot(x_values,px,'Color','k');holdonplot(x_values,pxe1,'r:');holdofffigure,plot(x_values,px,'Color','k');holdonplot(x_values,pxe2,'g--');holdofffigure,plot(x_values,px,'Color','k');holdonplot(x_values,pxe3,'b-.');holdoff3.3非参数估计
3.3非参数估计对样本数目需求较大,只要样本数目足够大,总可以保证收敛于任何复杂的位置密度,但计算量和存储量都比较大。当样本数很少时,若对密度函数有先验认识,参数估计方法能取得更好的估计效果。(4)
非参数估计分析3.4最小错误率贝叶斯决策的实例
对3种鸢尾花(setosa,versicolor和virginica)各抽取了50个样本,每个样本含四个特征,分别为花萼长、宽,花瓣长、宽,单位为厘米。fisheriris数据集3.4最小错误率贝叶斯决策的实例设计思路总体思路:3类样本数相同,假设各类先验概率相等,估计类条件概率密度函数,比较样本对应的类条件概率密度的大小即可归类。估计方法:非参数估计样本降维:4维数据,50个样本太少,取原始样本的第3维和第4维构成新的样本。3.4最小错误率贝叶斯决策的实例设计流程对于输入的数据降维进行非参数概率密度函数估计比较样本对应的各类的概率密度函数值的大小,将样本归入取值最大的类。3.4最小错误率贝叶斯决策的实例实验结果估计的setosa类、versicolor类、virginica类概率密度函数待分类样本被归入setosa类第4章线性判别分析主要内容4.1基本概念4.2Fisher线性判别分析4.3感知器算法4.4最小二乘法4.5支持向量机4.6多类问题4.1基本概念(1)贝叶斯决策的局限性前提:对先验概率和类概率密度函数有充分的先验知识;或有足够多的样本,可以较好地进行概率密度估计。局限:若前提条件不满足,采用最优方法设计出的分类器往往不具有最优的性质估计:实际问题中,得到的只是样本集,样本的分布形式很难确定,进行估计需要大量样本;当样本数有限时,概率密度函数估计问题往往是一个比分类更难的一般性问题实际问题中,不去估计类条件概率,直接利用样本集设计分类器。首先给定某个判别函数,利用样本集去确定判别函数中的未知参数。判别函数分类线性判别函数非线性判别函数(2)利用样本集直接设计分类器的思路4.1基本概念(3)线性判别函数实例分析一维数据
ω2
w0
ω1
两类的分界点为w0
,判别函数表示为:g(x)=w1x-w0二维数据两类的判别函数表示为:w、x均为二维列向量4.1基本概念w、x均为n维列向量,w称为权向量(系数)一般表达式决策规则决策面方程
4.1基本概念
几何解释w和超平面H上任一向量正交,即w是H的法向量
4.1基本概念把一些高次判别函数作适当变换,变换成一次的线性判别函数,称为广义线性判别函数。b
a如图所示,一维样本空间x,如果x<b或x>a,则x∈ω1,如果b<x<a,则x∈ω2。采用线性判别函数无法分类但二次判别函数适用(4)广义线性判别函数4.1基本概念二次判别函数一般表达式:选择x→z的映射,变换二次函数为z的线性函数意义:经过以上变换,可以用简单的线性判别函数来解决复杂问题,但增加了维数。
4.1基本概念(5)广义齐次线性判别函数
经过变换,维数增加一维,但分界面变成了通过原点的超平面,给解决问题带来了方便。4.1基本概念
(6)例题线性和非线性判别分析例4-1:设5维空间的线性方程为试求出其权向量与样本向量点积的表达式。4.1基本概念例4-2:设在三维空间中的一个类别分类问题,拟采用二次曲面,如果要采用线性方程求解,试问其广义样本向量与广义权向量的表达式。4.1基本概念(7)线性判别函数的设计核心思想根据样本集去确定权向量w和w0,或a寻找合适的准则函数如何对准则函数求最优确定的方法首先要有一个准则函数,根据这个准则函数去找出满足要求的尽可能好的结果分类器的设计转化为求准则函数的极值两个关键问题4.1基本概念生成样本集:一般通过抽样生成,个别情况下要转化成增广样本集。确定准则函数极值对应最好的决策是w、w0或a等参数的函数求最优值w*、w0*或a*设计步骤4.1基本概念4.2Fisher线性判别(1)原理降维
把多维空间的样本变换到低维,简化问题。这在模式识别中是一个关键问题。降维的方法把n维样本投影到一条直线上,变换成一维样本投影线不能任意选择选择另一个方向的投影线,投影后两类样本相互分开,很容易分类。Fisher法就是要找到这条最易分类的投影线。对于n维样本,总是可以找到某一个方向,样本投影在这个方向的直线上,分开的最好。如图所示:蓝色的星为一类数据,红色的圆为一类数据,选择紫色的直线为投影线,投影后两类的数据混在一起,很难分开。(2)数学表示
4.2Fisher线性判别(3)基本参量4.2Fisher线性判别线性和非线性判别分析样本类内离散度矩阵:总类内离散度矩阵:样本类间离散度矩阵:各类样本均值向量:样本类内离散度总类内离散度:各类样本均值:降维前降维后(4)准则函数及求解
确定函数式定义准则函数4.2Fisher线性判别
4.2Fisher线性判别求极值点w*(用Lagrange乘数法)
4.2Fisher线性判别线性和非线性判别分析这是一个特征方程,求矩阵的特征值w*就是使Fisher准则函数取极大值时的解,也是使两类样本投影后分开得最好的投影方向。(5)利用Fisher法分类数据转化为一维,只需设定一个阈值点,即可分类4.2Fisher线性判别阈值点的设定
(6)例题
4.2Fisher线性判别4.2Fisher线性判别
4.2Fisher线性判别线性和非线性判别分析
实际中,一般有部分已知类别的样本,去求最好的投影方向W*,然后再对未知类别的样本进行投影并分类。3)分类阈值:
4.2Fisher线性判别
(7)仿真实现按照Fisher线性判别原理,获取训练数据,计算两类的均值、类内离散度矩阵,确定投影方向,计算一维阈值点并对数据归类。设计思路4.2Fisher线性判别程序clc,clear,closeall;X=[-5-5;-5-4;-4-5;-5-6;-6-5;55;54;45;56;65];label=[11111-1-1-1-1-1];index1=find(label==1);index2=find(label==-1);N1=length(index1);N2=length(index2);mu1=mean(X(index1,:));mu2=mean(X(index2,:));S1=(X(index1,:)-mu1)'*(X(index1,:)-mu1);S2=(X(index2,:)-mu2)'*(X(index2,:)-mu2);Sw=S1+S2;W=Sw\(mu1-mu2)';z1=W'*mu1';z2=W'*mu2';z0=(z1+z2)/2;
4.2Fisher线性判别plot(X(index1,1),X(index1,2),'ro',X(index2,1),X(index2,2),'b*');x1=-6:0.1:6;x2=-(W(1)*x1-z0)/W(2);holdon;plot(x1,x2,'g--');x=[31]';plot(x(1),x(2),'rp');z=W'*x;ifz>z0result='属于ω1';elseresult='属于ω2';endresult=strcat('(',num2str(x'),')',result);line1='x1';line2=result;xlabel({line1;line2});ylabel('x2');
title('Fisher线性判别');holdoff;4.2Fisher线性判别仿真结果4.3感知器算法(1)基本概念
线性可分
4.3感知器算法样本的规范化4.3感知器算法解向量和解区
4.3感知器算法梯度下降算法
分析
准则函数
4.3感知器算法
求导梯度法(2)感知器准则函数及求解单样本修正分析
4.3感知器算法准则函数
求导梯度法4.3感知器算法任意给定a(1)和系数ρ利用a(1)去对样本集分类按梯度下降算法修正权向量重复以上过程,直到权向量对所有样本正确分类(a不再变化)分类器训练过程
4.3感知器算法(3)例题解:初始工作对样本进行增广化对样本进行规范化设定系数ρ=1,初始权向量a(1)=04.3感知器算法迭代权向量有修正,需进行第二轮迭代权向量有修正,需进行第三轮迭代4.3感知器算法权向量有修正,需进行第四轮迭代权向量无修正,算法结束4.3感知器算法确定权向量、判别函数及决策面方程权向量:设样本:判别函数:决策面方程:4.3感知器算法(4)仿真实现
按照感知器算法原理,获取训练数据,进行初始化,通过迭代运算计算并更新权向量。设计思路4.3感知器算法clc,clear,closeall;X=[000;100;101;110;001;011;010;111];label=[1111-1-1-1-1];[N,n]=size(X);Z=X;Z(:,n+1)=1;pos=label<0;Z(pos,:)=0-Z(pos,:);A=zeros(n+1,1);rho=1;初始化flag=1;whileflagflag=0;fori=1:Ng=A'*Z(i,:)';ifg<=0
A=A+rho*Z(i,:)';flag=1;endendend迭代求权向量程序4.3感知器算法pos=label<0;scatter3(X(pos>0,1),X(pos>0,2),X(pos>0,3),'r*');holdonscatter3(X(~pos,1),X(~pos,2),X(~pos,3),'g*');[x1,x2]=meshgrid(0:.01:1,0:.01:1);x3=-(A(1)*x1+A(2)*x2+A(4))/A(3);mesh(x1,x2,x3),title('训练样本及分界面');xlabel('x1'),ylabel('x2'),zlabel('x3');holdoff绘图4.3感知器算法仿真结果(4)算法分析只适用于线性可分情况算法的收敛速度依赖于初始权向量和系数ρ非线性可分时,算法来回摆动,不收敛;若运算长时间不收敛,无法判断是非线性可分还是运算时间不够长4.3感知器算法4.4最小二乘法
(1)平方误差和准则函数准则函数
4.4最小二乘法准则函数求最优求导令导数为0,解方程a的确定还依赖于b,需要进一步确定b
算法总结4.4最小二乘法4.4最小二乘法(2)例题
规范化增广样本矩阵取余量:得:4.4最小二乘法(3)仿真实现
设计思路MATLAB中提供的regress、regstats函数实现了基于最小二乘法的多元线性回归,利用回归函数实现权向量求解程序4.4最小二乘法clc,clear,closeall;X1=[000;100;101;110;001;011;010;111];label1=[1;1;1;1;-1;-1;-1;-1];[N,n]=size(X1);Z1=ones(N,n+1);Z1(:,1:n)=X1;
%样本增广化,常数项加在了右侧A=regress(label1,Z1)
%计算权向量
(1)最优分类超平面4.5支持向量机
若一个样本集线性可分,存在无数多解,解区中的任何向量都是一个解向量。在这些解中,哪一个更好?
分类间隔:越大,受扰动影响越小H:把两类没有错误地分开的分类线H1、H2:过两类样本中离分类线最近的点且平行于分类线的线不但能将两类无错误地分开,而且要使两类的分类间隔最大。最优分类超平面
4.5支持向量机
求解最优分类面构建拉格朗日函数4.5支持向量机KKT条件:Karush-Kuhn-Tucker,不等式约束条件求解
4.5支持向量机再求解
求解4.5支持向量机最优权向量是训练向量的线性组合
判别函数由于最优分类面的解最后完全由支持向量决定,因此这种方法后来被称作支持向量机(supportvectormachines-SVM)
以上讨论仅是线性可分情况下的线性支持向量机。4.5支持向量机
(2)优化求解算法支持向量机的求解都依赖于下列式子的最优解4.5支持向量机
解:
4.5支持向量机
判别函数:
4.5支持向量机SMO:SequentialMinimalOptimization,序列最小优化算法,一种高效求解支持向量机的算法迭代单数据算法:IterativelySingleDataAlgorithm,ISDA采用二次规划的L1QP算法SMO的基本思路:在一次迭代中,只优化两个变量,固定其他变量,将一个大的优化问题分解为若干个小的优化问题求解。4.5支持向量机(3)非线性可分情况问题分析
4.5支持向量机
要求分类面不但要使两类的分类间隔最大,而且要错分样本尽可能少且错误程度尽可能低。4.5支持向量机C较小,较容忍错误,强调分类间隔;C较大,强调错误惩罚。目标函数:问题求解4.5支持向量机构建拉格朗日函数KKT条件:最优解4.5支持向量机
软间隔支持向量4.5支持向量机
判别函数:
4.5支持向量机
对于原空间中的非线性问题,通过特征变换将到新空间,在这个新空间中求取最优线性分类面。(4)核函数变换与非线性支持向量机问题分析4.5支持向量机
问题求解4.5支持向量机
判别函数:4.5支持向量机结论分析无论变换的具体形式如何,变换对支持向量机的影响是把两个样本在原特征空间中的内积变成了新空间中的内积:
4.5支持向量机核函数
定义4.5支持向量机Mercer条件
选择一个满足Mercer条件的核函数,可以构建非线性支持向量机。进一步证明,该条件可放松为满足如下条件的正定核:
4.5支持向量机多项式核函数径向基(RBF)核函数Sigmoid函数常用的核函数支持向量机通过选择不同的核函数实现不同形式的非线性分类器;核函数需要针对具体问题来具体选择,很难有一个一般性的准则。4.5支持向量机(5)支持向量机概括线性支持向量机:利用支持向量设计最优分类面非线性数据集设计线性支持向量机:引入余量非线性支持向量机:通过非线性变换将输入空间变换到高维空间,然后在这个新空间中求取最优线性分类面非线性变换通过定义适当的内积核函数实现4.5支持向量机(6)仿真实现4.5支持向量机
利用MATLAB中的fitcsvm、predict函数实现。MODEL=fit
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论