逻辑斯蒂回归与最大熵.ppt_第1页
逻辑斯蒂回归与最大熵.ppt_第2页
逻辑斯蒂回归与最大熵.ppt_第3页
逻辑斯蒂回归与最大熵.ppt_第4页
逻辑斯蒂回归与最大熵.ppt_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章 逻辑斯蒂回归与最大熵模型,逻辑斯蒂回归模型,6.1,第6章.简介,逻辑斯蒂回归是统计学中经典的分类方法. 最大熵是概率模型学习的一个准则,推广到分类问题得到最大熵模型. 逻辑斯蒂与最大熵都是线性模型。,6.1 逻辑斯蒂回归模型,6.1.1 逻辑斯蒂分布 定义6.1 设X是连续随机变量,逻辑斯蒂分布函数和密度函数:,为位置参数, 0 为形状参数,6.1 逻辑斯蒂回归模型,定义 6.2 二项逻辑斯蒂回归模型是如下概率分布:,xRn是输入,y0,1输出,w,b参数,w权值向量,b偏置,w.x内积.,6.1.2 二项逻辑斯蒂回归模型,有时为了研究方便,将权值和输入向量扩充w=(w(1),w(2),w(n),b)T,x=(x(1),x(n),1)T,此时逻辑斯蒂模型:,考察逻辑斯蒂回归模型特点.事件的几率:发生概率与不发生概率的比值. 对数几率:,对逻辑斯蒂回归而言,这就是说,RLM中,输出Y=1对数几率是输入x的线性函数. 换角度,考虑对输入x分类的线性函数w.x,通过LRM模型将线性函数转化为概率:,线性函数值接近正无穷,概率值接近1;反之,负无穷和0,-这就是逻辑斯蒂回归模型。,训练集T = (x1,y1)(xN,yN),xRn,y0,1,用极大似然估计法估计模型参数,从而得到LRM. 设:,似然函数,6.1.3 模型参数估计,对数似然函数,*对L求极大值得到w的估计值.,这样,问题就成为以对数似然函数为目标函数的最优化问题.路径斯蒂回归通常采用梯度下降法,拟牛顿法,假设离散随机变量Y的取值集合1,2K那么LRM为:,6.1.4 多项逻辑斯蒂回归,6.2.1 最大熵原理 表述为在满足约束条件的模型集合中选取最大熵模型。 若离散随机变量X的概率分布是P(X),其熵为:,熵满足下列不等式,6.2 最大熵模型,|X|为X取值个数,仅当X均匀分布时,右等号成立,熵最大。,最大熵理论:熵增原理,在无外力作用下,事物总是朝着最混乱的方向发展 事物是约束和自由的统一体 事物总是在约束下争取最大的自由权,这其实也是自然界的根本原则 在已知条件下,熵最大的事物,最可能接近它的真实状态,以最大熵理论为基础的统计建模 为什么可以基于最大熵建模呢? Jaynes证明:对随机事件的所有相容的预测中,熵最大的预测出现的概率占绝对优势 Tribus证明,正态分布、伽玛分布、指数分布等,都是最大熵原理的特殊情况。,基于最大熵的统计建模:建模理论,最大熵原则下点的分布:,对一随机过程,如果没有任何观测量,即没有任何约束,则解为均匀分布。,增加约束条件,继续增加约束条件,问题描述:设最终输出值构成的语言学类别有限集为Y,对于每个yY,其生成均受上下文信息x的影响和约束。已知与y有关的所有上下文信息组成的集合为X,则模型的目标是:给定上下文xX,计算输出为yY的条件概率p(y|x)。,基于最大熵的统计建模:数学描述,例 6.1 随机变量X取值A,B,C,D,E,要估计各值的概率P(A),P(B) 解:约束条件:P(A)+P(B)+P(C)+P(D)+P(E)=1,有时,能从先验知识得到一些约束条件,如: P(A)+P(B)=3/10 - P(A)=P(B)=3/20 P(A)+P(B)+P(C)+P(D)+P(E)=1 - P(C)=P(D)=P(E)=7/30,6.2 最大熵模型,这时认为A,B等可能,C,D,E等可能。 以此类推,如果有3个约束条件等,以上模型学习方法正是遵循了最大熵原理,满足条件的分布有无穷多,一个办法认为等可能的 P(A)=P(B)=P(C)=P(D)=P(E)=1/5,图提供了用最大熵原理进行概率模型选择的集合解释。,假设模型是一个条件概率分布P(Y|X),给定输入X以P(Y|X)输出Y。 给定训练集T=(x1,y1)(xN,yN),选择分类模型. 先找约束条件.对T可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布,v(X=x,Y=y)表示T中(x,y)出现频数,v(X=x)表示出现频数,N样本容量. 用特征函数f(x,y)定义x,y之间某一事实,6.2.2 最大熵模型的定义,特征函数f(x,y)关于经验分布P(X,Y)的期望值:,如果模型能获取T中信息那么假设这两个期望值相等,即 Ep(f)=Ep(f) 或:,6.2.2 最大熵模型的定义,特征函数f(x,y)关于模型P(X|Y)与经验分布P(X)的期望值:,此为模型约束条件,如果有n个特征函数fi(x,y)就有n个约束条件。,定义6.3 最大熵模型 假设满足约束条件模型集合为,则模型集合C中条件熵H(P)最大的模型称为最大熵模型.,6.2.2 最大熵模型的定义,定义在条件概率分布P(Y|X)上的条件熵为,最大熵学习模型过程就是求解最大熵过程.可以形式化为约束最优化问题. 对于训练集T以及特征函数fi(x,y),最大熵模型学习等价约束最优化,最优化习惯,求最大值问题等价改写为求最小值问题:,6.2.3 最大熵模型的学习,求解约束最优化问题过程 这里将约束最优化原始问题转化为无约束最优化的对偶问题。,下面证明对偶函数极大化等价于最大熵模型的极大似然估计.,已知T的经验概率分布P(X,Y),条件概率分布P(Y|X)的对数似然函数为:,6.2.4 极大似然估计,当条件概率分布P(y|x)是最大熵模型时,对数似然函数Lp(Pw)为:,再看对偶函数 .由6.17及6.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论