第2讲统计自然语言处理的数学基础.ppt_第1页
第2讲统计自然语言处理的数学基础.ppt_第2页
第2讲统计自然语言处理的数学基础.ppt_第3页
第2讲统计自然语言处理的数学基础.ppt_第4页
第2讲统计自然语言处理的数学基础.ppt_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计自然语言处理的基础理论 孙越恒 主要内容 概率论基础一些基本概念贝叶斯法则几种常用的分布估计概率密度的方法信息论基础 模型 如果Output1总是和Ouput接近 Output2总是和Output偏离 我们就认为模型1比模型2好 模型由体系结构和参数两部分构成举例 住宅楼体系结构 多层板楼 高层板楼 高层塔楼参数 层数 户型 三室一厅 两室一厅 层高 供热方式 地热 暖气片 1 一些基本概念 试验一个可观察结果的人工或自然的过程 其产生的结果可能不止一个 且不能事先确定会产生什么结果例如 连掷两次硬币 样本空间是一个试验的全部可能出现的结果的集合举例 连掷两次硬币 HH HT TH TT H 面朝上 T 面朝下 事件一个试验的一些可能结果的集合 是样本空间的一个子集举例 连掷两次硬币 A 至少一次面朝上A HT TH HH B 第二次面朝下B HT TT 概率 probability 概率是从随机实验中的事件到实数域的函数 用以表示事件发生的可能性 如果用P A 作为事件A的概率 是实验的样本空间 则概率函数必须满足如下公理 公理1 P A 0公理2 P 1公理3 如果对任意的i和j i j 事件Ai和Aj不相交 Ai Aj 则有 举例 连续三次掷硬币 样本空间 HHH HHT HTH HTT THH THT TTH TTT 事件A 恰好两次面朝下 A HTT THT TTH 做1000次试验 计数得386次为两次面朝下 估计 P A 386 1000 0 386 继续做7组试验 得 373 399 382 355 372 406 359 共8组试验 计算平均值 P A 0 386 0 373 8 0 379 或累计 P A 386 373 8000 3032 8000 0 379 统一的分布假设为 3 8 0 375 联合概率 A和B两个事件的联合概率就是A和B两个事件同时出现的概率A和B的联合概率表示为 P A B 或P A B 举例 连掷两次硬币 事件A 第一次面朝上 A HH HT 事件B 第二次面朝下 B HT TT 联合事件A B HT 条件概率 conditionalprobability 如果A和B是样本空间 上的两个事件 P B 0 那么在给定B时A的条件概率P A B 为 条件概率P A B 给出了在已知事件B发生的情况下 事件A发生的概率 一般地 P A B P A 概率的乘法原理 P A B P A B P B P B A P A ChainRule 链式规则 P A1 A2 An P A1 P A2 A1 P A3 A1 A2 P An A1 A2 An 1 举例1 词性标注 P det adj n P det P adj det P n det adj 举例2 计算一个句子的概率 p w1 w2 wn p w1 p w2 w1 p wn w1 wn 1 独立和条件独立 独立P A B P A P B P A B P A P B A P B 条件独立 P A B C P A B C P B C P A C P B C P A B C P A C P B A C P B C Na veBayesian 假定各特征之间条件独立 P A1 A2 An B i 1 nP Ai B 全概率公式 1 设 为实验E的样本空间 B1 B2 Bn为 的一组事件 且他们两两互斥 且每次实验中至少发生一个 即 则称B1 B2 Bn为样本空间 的一个划分 全概率公式 2 设A为 的事件 B1 B2 Bn为 的一个划分 且P Bi 0 i 1 2 n 则全概率公式为 随机变量 RandomVariable 随机变量是一个函数X R 是样本空间 R是实数集合 用于讨论和事件空间相关的数值的出现概率 数值也比事件更易于处理 举例 X 0 TT X 1 TH HT X 2 HH X是两次掷硬币面朝上的次数 数值可以是连续值 也可以是离散值 期望 expectation 举例 六面掷骰子问题 E X 1 1 6 2 1 6 3 1 6 4 1 6 5 1 6 6 1 6 3 5 方差 variance 举例 考试名次 协方差与相关系数 协方差 可以衡量随机变量X与Y之间的统计独立程度 任意两个随机变量X和Y的协方差 记为Cov X Y 定义为 相关系数 其中 是随机变量X的标准差 是随机变量Y的标准差 1 1 0正相关 0负相关 0不相关 联合分布和边缘分布 X和Y的联合分布为 则 X Y 关于X的边缘分布为 X Y 关于Y的边缘分布为 2 贝叶斯法则 Bayes theorem 如果A为样本空间 的事件 B1 B2 Bn为 的一个划分 且P A 0 P Bi 0 i 1 2 n 那么当n 1时 2 贝叶斯法则 2 文字描述 后验概率 似然函数 先验概率 证据因子 贝叶斯公式给出了 结果 事件A已发生的条件下 原因 事件B的条件概率 对结果事件的任何观测都将增加我们对原因事件B的真正分布的知识 贝叶斯决策理论 假设研究的分类问题有N个类别 各类别的状态用Ci表示 i 1 2 N 对应于各类别Ci出现的先验概率为P Ci 在特征空间已观察到某一向量是d维特征空间上的某一点 且条件概率密度函数是已知的 那么 利用贝叶斯公式我们可以得到后验概率 基于最小错误率的贝叶斯决策规则 例 假设某一种特殊的句法结构很少出现 平均大约每100 000个句子中才可能出现一次 我们开发了一个程序来判断某个句子中是否存在这种特殊的句法结构 如果句子中确实含有该特殊句法结构时 程序判断结果为 存在 的概率为0 95 如果句子中实际上不存在该句法结构时 程序错误地判断为 存在 的概率为0 005 那么 这个程序测得句子含有该特殊句法结构的结论是正确的概率有多大 解 假设G表示事件 句子确实存在该特殊句法结构 T表示事件 程序判断的结论是存在该特殊句法结构 那么 我们有 3 几种常用的分布 1 二项式分布 二项式分布 在自然语言处理中 我们常常以句子为处理单位 一般地 我们假设一个语句独立于它前面的其它语句 句子的概率分布近似地认为符合二项式分布 2 正态分布 其中和都是常数 任意 0 则称X服从参数为和的正态分布 记作 标准正态分布 的正态分布称为标准正态分布 其密度函数和分布函数常用和表示 4 概率密度估计的方法 类的先验概率的估计 用训练数据中各类出现的频率估计依靠经验类条件概率密度估计的两种主要方法 参数估计 概率密度函数的形式已知 而表征函数的参数未知 通过训练数据来估计最大似然估计Bayes估计非参数估计 密度函数的形式未知 也不作假设 利用训练数据直接对概率密度进行估计Parzen窗法kn 近邻法 1 最大似然估计 先看一个简单例子 一只野兔从前方窜过 是谁打中的呢 某位同学与一位猎人一起外出打猎 如果要你推测 你会如何想呢 只听一声枪响 野兔应声倒下 你就会想 只发一枪便打中 猎人命中的概率一般大于这位同学命中的概率 看来这一枪是猎人射中的 这个例子所作的推断已经体现了最大似然法的基本思想 假设 概率密度函数的形式已知估计的参数 是确定而未知的独立地按概率密度p x 抽取样本集K x1 x2 xN 用K估计未知参数 最大似然估计 似然函数 似然函数 对数 loglarized 似然函数 最大似然估计示意图 计算方法 最大似然估计量使似然函数梯度为0 举例 2 贝叶斯估计 最大后验概率 用一组样本集K x1 x2 xN 估计未知参数 未知参数 视为随机变量 先验分布为p 而在已知样本集K出现的条件下的后验概率为 p K 最大后验概率估计 Maximumaposteriori MAP 贝叶斯估计 最小风险 参数估计的条件风险 给定x条件下 估计量的期望损失参数估计的风险 估计量的条件风险的期望贝叶斯估计 使风险最小的估计 贝叶斯估计 最小风险 续 损失函数 误差平方 信息论基础 自信息量信息熵联合熵条件熵互信息相对熵交叉熵噪声信道模型统计机器翻译框架 信息的度量 我们常常说信息很多或信息很少 但却难以说清到底是多少50万字的 史记 有多少信息量 莎士比亚全集有多少信息量 信息是有用的 那么这个作用如何可观的 定量的体现出来 信息论 1948年美国Shannon 通信的数学原理 用概率测度和数理统计的方法 系统地讨论了通信的基本问题 奠定了信息论的基础 信息的度量有三个基本方向 结构的 统计的和语义的 香农所说的信息是狭义的信息 是统计信息 依据是概率的不确定性度量 为什么用不确定性度量 概念1 自信息量 任意随机事件的自信息量定义为该事件发生概率的对数的负值 设事件xi的概率为p xi 则它的自信息量定义式为 I xi logp xi 小概率事件所包含的不确定性大 其自信息量大 大概率事件所包含的不确定性小 其自信息量小 I xi 的含义 在事件xi发生以前等于事件xi发生的不确定性的大小 在事件xi发生以后等于事件xi所含有或能提供的信息量 概念2 信息熵 熵表示信源X每发一个符号 不论发什么符号 所提供的平均信息量 熵也可以被视为描述一个随机变量的不确定性的数量 一个随机变量的熵越大 它的不确定性越大 那么 正确估计其值的可能性就越小 越不确定的随机变量越需要大的信息量用以确定其值 一本50万字的书有多少信息量 7000汉字 等概率出现 13比特 10 的汉字占了文本的95 8 9比特 上下文相关性 5比特 总信息量是250万比特 概念3 联合熵 jointentropy 概念4 条件熵 conditionalentropy 可以证明 概念5 互信息 mutualinformation 获取到的信息和要研究的事物有 相关性 时 有助于消除不确定性如果 X Y p x y X Y之间的互信息I X Y 为 I X Y H X H X Y 互信息I X Y 是在知道了Y的值后X的不确定性的减少量 即 Y的值透露了多少关于X的信息量 根据定义 展开H X 和H X Y 容易得到 点互信息 比如计算两个词的搭配I 伟大 祖国 log2p 伟大 祖国 p 伟大 p 祖国 I 的 祖国 log2p 的 祖国 p 的 p 祖国 I x y 0 x和y关联强度大 I x y 0 x和y无关 I x y 0 x和y具有互补的分布 互信息在统计自然语言处理中应用非常广泛 如词语聚类和词义消歧等 互信息 条件熵与联合熵的关系 概念6 相对熵 relativeentropy 相对熵 relativeentropy 或Kullback Leiblerdivergence KL距离 两个概率分布p x 和q x 的相对熵定义为 该定义中约定0log 0 q 0 plog p 0 相对熵示意图 概念7 交叉熵 crossentropy 如果一个随机变量X p x q x 为用于近似p x 的概率分布 那么 随机变量X和模型q之间的交叉熵定义为 交叉熵的概念是用来衡量估计模型与真实概率分布之间差异情况的 对于语言L Xi p x 与其模型q的交叉熵定义为 为随机变量 x1 x2 xn 表示长度为n的自然语言序列 其中每个随机变量xi i 1 2 n 代表自然语言序列上的一个语言单位词 xi可在其所代表的词集X中取值 自然语言序列可被视为离散的平稳有记忆信源 我们可以假设这种语言是 理想 的 即n趋于无穷大时 其全部 单词 的概率和为1 那么可以假定语言L是稳态遍历 stationaryergodic 随机过程 信源是各态遍历的 根据Shannon McMillan Brenmain定理 交叉熵可由 求出 xi W 上式可由统计语料库近似求出 假设语料库的容量为R 交叉熵的近似值定义为 对于n gram 其概率为可以计算句子的概率 假定测试语料T由lT个句子构成 t1 tlT 则整个测试集的概率为 对于N gram语言模型 N值越高 其交叉熵越小 困惑度也越小 语言处理的效果也越好 由此 我们可以根据模型q和一个含有大量数据的L的样本来计算交叉熵 在设计模型q时 我们的目的是使交叉熵最小 从而使模型最接近真实的概率分布p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论