版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章概率密度函数的估计主要内容3.1基本概念3.2参数估计3.3非参数估计3.4最小错误率贝叶斯决策的实例3.1基本概念
贝叶斯决策前提条件是已知各类的先验概率和类条件概率,但实际中所得到的只是样本集,如何由样本集得到所需的概率密度函数,需要进行估计。参数估计:parametricestimation,已知类条件总体概率密度函数形式,未知其中部分或全部参数,用样本来估计这些参数。非参数估计:nonparametricestimation,未知概率密度函数形式,求函数本身。(1)估计方法3.1基本概念
(2)参数估计中的基本概念3.1基本概念(1)最大似然估计3.2参数估计前提假设
似然函数(likelihoodfunction)
3.2参数估计样本集中的样本最有可能来源于概率密度最大的地方。似然函数定义为联合概率密度,样本独立抽取时为概率密度的乘积,已知一组样本,最有可能来自于似然函数最大所对应的密度函数。因此,可以利用似然函数作参数估计。最大似然估计量至此,估计问题转化为求极值的问题。
3.2参数估计最大似然估计求解
防止数值下溢3.2参数估计例题
3.2参数估计例3-2:设x服从正态分布N(μ,σ2),其中参数μ、σ2未知,求它们的最大似然估计量。
3.2参数估计3.2参数估计
3.2参数估计仿真实现例3-4:读取hospital数据,按性别分为两类,对体重数据进行正态分布拟合,并绘制概率密度函数曲线。3.2参数估计设计思路:hospital数据集中有100个病人的数据,包括性别、年龄、体重、是否抽烟、血压等数据采用fitdist函数拟合数据分布,fitdist函数使用最大似然估计拟合多种概率分布另外,可以采用mle函数对不同的分布进行ML参数估计,normfit等函数实现常见分布的参数的ML估计。程序3.2参数估计clc,clear,closeall;loadhospitalx=hospital.Weight;
gender=hospital.Sex;[pdca,gn,gl]=fitdist(x,'Normal','By',gender);%用正态分布对两组数据进行拟合female=pdca{1};
%第一组对应分布male=pdca{2};
%第二组对应分布x_values=50:1:250;femalepdf=pdf(female,x_values);%计算概率密度函数值malepdf=pdf(male,x_values);figureplot(x_values,femalepdf,'Color','r','LineWidth',2);holdonplot(x_values,malepdf,'Color','b',
'LineStyle','-.','LineWidth',2);xlabel('x');ylabel('p(x)');legend(gn,'Location','NorthEast')holdoff程序3.2参数估计结果3.2参数估计female组,估计的均值为130.4717,标准差为8.3034male组,估计的均值为180.5319,标准差为9.1932体重数据对应的正态概率密度函数曲线(2)最大后验估计基本思路把θ看作随机变量,考虑θ本身服从的分布,利用贝叶斯公式计算θ的后验概率,最大后验概率对应的参数值为参数的估计值。这种方法称为最大后验估计。3.2参数估计原理3.2参数估计
求解:或:例题3.2参数估计
3.2参数估计
求极值(3)贝叶斯估计
基本思路把估计问题转化成和贝叶斯最小风险决策形式一致,利用Bayes公式解决问题。3.2参数估计贝叶斯决策贝叶斯估计样本x贝叶斯决策和贝叶斯估计各变量的对应关系概念3.2参数估计贝叶斯风险
3.2参数估计
损失函数平方误差损失时的贝叶斯估计量3.2参数估计贝叶斯估计的步骤
3.2参数估计例题
解:确定μ的先验分布P(μ)3.2参数估计
3.2参数估计应用待定系数法,令两式对应的系数相等3.2参数估计利用定理,求μ贝叶斯估计量3.2参数估计
贝叶斯学习
θ的贝叶斯估计量为:θ的后验分布为:当N>1时,有得递推公式:3.2参数估计随着样本数的增加,得到一系列对概率密度函数参数的估计:称作递推的贝叶斯估计。如果随着样本数的增加,上式的后验概率序列逐渐尖锐,逐步趋向于以θ的真实值为中心的一个尖峰,当样本无穷多时收敛于在参数真实值上的脉冲函数,这一过程称作贝叶斯学习。3.2参数估计
3.2参数估计clc,clear,closeall;rng('default')N=300;mu0=0;sigma0=3;mu_value=-10:0.1:10;Prior=pdf('Normal',mu_value,mu0,sigma0);plot(mu_value,Prior);mu=2;sd=2;training=normrnd(mu,sd,[N,1]);prev=Prior;holdon程序3.2参数估计fori=1:Ntempdata=training(i);npdf=normalDist(tempdata,mu_value,sd);
numerator=npdf.*prev;prev=numerator;TotalP=sum(numerator);Poster=numerator/TotalP;
ifi==10||i==50||i==100||i==200||i==300plot(mu_value,Poster);endend[value,pos]=max(Poster);plot([mu_value(pos)mu_value(pos)],[0value],'k-.');mu_value(pos)holdoff3.2参数估计functionnpdf=normalDist(X,Mu,Sigma)Z=(X-Mu)./Sigma;npdf=exp(-0.5*Z.^2)/(sqrt(2*pi)*Sigma);endN=10μ
N=50N=100N=200N=300N=0一系列的后验概率估计图很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。在这种情况下,就需要非参数估计,即不对概率密度函数的形式做任何假设,而是直接用样本估计出整个函数。3.3非参数估计(1)直方图方法
基本原理3.3非参数估计3.3非参数估计仿真实现例3-10:设定参数生成正态分布数据集,利用直方图方法估计概率密度函数并绘制函数曲线。clc,clear,closeall;rng('default')N=200;mu=0;sd=0.8;x=normrnd(mu,sd,[N,1]);
x_values=-3:0.01:3;px=pdf('Normal',x_values,mu,sd);plot(x_values,px,'Color','k');
[hist1,edge1]=histcounts(x,10,'Normalization','pdf');
%设定10个区间进行估计,大间隔[hist2,edge2]=histcounts(x,30,'Normalization','pdf');
%设定30个区间进行估计,小间隔holdonhistogram('BinEdges',edge1,'BinCounts',hist1,'FaceColor','w');holdofffigure,plot(x_values,px,'Color','k','LineWidth',2);holdonhistogram(x,30,'Normalization','pdf');holdoff3.3非参数估计样本数N=200大间隔小间隔样本数N=2000直方图估计方法分析最好能够根据样本分布情况调整小舱体积过大,设概率密度为常数,估计出的密度函数粗糙过小,有些小舱内可能会没有样本或者样本很少,导致估计出的概率密度函数不连续小舱的选择与估计的效果密切相连随样本数的增加,小舱体积应该尽可能小,同时必须保证小舱内有充分多的样本,但每个小舱内的样本数必须是总样本数中很小的一部分小舱内的样本数与样本分布有关。小舱的选择应与样本总数相适应3.3非参数估计原理n维单位方窗函数:(2)Parzen窗法3.3非参数估计
-0.5-0.50.50.50原点为中心半径为1的正方形
落入以x为中心的超立方体内的样本数为:任意一点x的密度估计表达式为:3.3非参数估计
0
x点为中心半径为h的正方形贝叶斯决策密度估计表达式变形:定义核函数(窗函数):
概率密度估计即在每一点上把所有观测样本的贡献进行平均这种用窗函数(核函数)估计概率密度的方法称作Parzen窗方法或核密度估计3.3非参数估计核函数满足密度函数的要求:非负且积分为13.3非参数估计方窗核函数:高斯核函数:一维单位高斯窗函数:3.3非参数估计一维Epanechnikov窗:Epanechnikov核函数:三角核函数:一维三角窗:例题确定窗函数
选择正态窗函数确定窗口3.3非参数估计计算估计值
两个问题:样本数:样本量越大,估计结果越精确;窗宽的选择对估计结果的影响3.3非参数估计分析窗函数的宽度h对估计量的影响3.3非参数估计
对样本数目需求较大,只要样本数目足够大,总可以保证收敛于任何复杂的位置密度,但计算量和存储量都比较大当样本数很少时,若对密度函数有先验认识,参数估计方法较好3.3非参数估计分析样本数N对估计量的影响3.3非参数估计仿真实现
clc,clear,closeall;rng('default')N=1000;mu=0;sigma=1;x=normrnd(mu,sigma,[N,1]);minx=min(x);maxx=max(x);dx=(maxx-minx)/N;x_values=minx:dx:maxx-dx;px=pdf('Normal',x_values,mu,sigma);plot(x_values,px,'Color','k','LineWidth',2);holdon3.3非参数估计h=0.01;pxe1=kde(x,x_values,h,N);plot(x_values,pxe1,'r:','LineWidth',2);h=2;pxe3=kde(x,x_values,h,N);plot(x_values,pxe3,'b--','LineWidth',2);xlabel('x'),ylabel('p(x)');legend('p(x)','h=0.01','h=2');holdofffigure,plot(x_values,px,'Color','k','LineWidth',2);h=0.3;
pxe2=kde(x,x_values,h,N);holdonplot(x_values,pxe2,'g-.','LineWidth',2);xlabel('x'),ylabel('p(x)');legend('p(x)','h=0.3');holdoff3.3非参数估计%利用高斯窗进行估计的函数functionpxe=kde(x,x_values,h,N)
pxe=zeros(1,N);forj=1:Nfori=1:Npxe(j)=pxe(j)+
exp(-0.5*(x_values(j)-x(i))^2/h^2)/sqrt(2*pi);endpxe(j)=pxe(j)/N/h;endend3.3非参数估计理想及估计的概率密度函数曲线h较小,估计的曲线相对于原始曲线起伏较大,估计不稳定;h较大,估计的曲线相对于原始曲线较平滑,但跟不上函数p(x)的变化;
h适中,估计的较准确。
3.3非参数估计clc,clear,closeall;rng('default')N=[16425610000];h=1./(N.^0.5);
mu=0;sigma=1;x_values=-4:0.01:4;R=zeros(length(N),N(4));form=1:length(N)R(m,1:N(m))=normrnd(mu,sigma,1,N(m));endpx=pdf('Normal',x_values,mu,sigma);len=length(x_values);
3.3非参数估计form=1:length(N)
%针对不同样本数分别估计概率密度函数pxe=zeros(1,len);fori=1:lenforj=1:N(m)ifabs(x_values(i)-R(m,j))<=sqrt(5)*h(m)pxe(i)=pxe(i)+
(1-((x_values(i)-R(m,j))/h(m))^2/5)*3/4/sqrt(5)/h(m);end
%采用Epanechnikov核函数进行估计endpxe(i)=pxe(i)/N(m);endsubplot(1,4,m),plot(x_values,px,'k');holdonplot(x_values,pxe,'r:','LineWidth',2),axis([-3,3,0.001,1.0]);str=strcat('N=',num2str(N(m)));legend('p(x)',str);holdoffend3.3非参数估计利用Epanechnikov核函数估计概率密度函数样本数越多估计效果越好。
3.3非参数估计思路采用可变大小的小舱3.3非参数估计
仿真实现
3.3非参数估计clc,clear,closeall;rng('default')N=1000;mu=0;sigma=0.8;x=normrnd(mu,sigma,[N,1]);kn1=10;kn2=50;kn3=100;x_values=-3:0.01:3;px=pdf('Normal',x_values,mu,sigma);len=length(x_values);index=1;pxe1=zeros(1,len);pxe2=zeros(1,len);pxe3=zeros(1,len);forj=-3:0.01:3distance=pdist2(j,x);
D=sort(distance);V1=2*D(kn1);
V2=2*D(kn2);
V3=2*D(kn3);pxe1(index)=kn1/N/V1;pxe2(index)=kn2/N/V2;pxe3(index)=kn3/N/V3;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年老年人冬季防流感保健手册
- 2026年人工智能教育应用的数据隐私保护
- 病毒检测技术改进
- 上海立达学院《安全人机工程学》2025-2026学年第一学期期末试卷(B卷)
- 上海立达学院《Android 系统与开发》2025-2026学年第一学期期末试卷(A卷)
- 上海立信会计金融学院《安全技术》2025-2026学年第一学期期末试卷(A卷)
- 2026年加油站突发环境事件(油品泄漏)应急预案
- 2026年钣金工技能等级评定标准
- 2026年加气站安全隐患排查奖惩制度
- 2026年图书馆古籍书库防火防盗安全管理制度
- 特殊儿童运动康复训练
- 2025年检验科标本溢洒应急演练培训考核含答案
- 大沽炮台课件
- GB/T 46074-2025热切割设备安全
- DG-TJ08-401-2025 公共厕所规划和设计标准
- 2025年广西建筑安全生产管理人员A证试题库及答案
- 高等教育教学成果奖汇报
- 智联招聘出的面试题库及答案
- 用户运营基础知识培训课件
- 高铁调度指挥系统操作规程
- 幼儿综合能力发展评估量表模板
评论
0/150
提交评论