




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
朴素贝叶斯 NaiveBayes 重庆大学软件信息服务工程实验室余俊良 1 定义 A B AB 条件概率 若是全集 A B是其中的事件 子集 P表示事件发生的概率 则 为事件B发生后A发生的概率 乘法定理 注 当P AB 不容易直接求得时 可考虑利用P A 与P B A 的乘积或P B 与P A B 的乘积间接求得 乘法定理的推广 1 集合 样本空间 的划分 二 全概率公式 2 全概率公式 全概率公式 图示 证明 化整为零各个击破 说明全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题 分解为若干个简单事件的概率计算问题 最后应用概率的可加性求出最终结果 例1有一批同一型号的产品 已知其中由一厂生产的占30 二厂生产的占50 三厂生产的占20 又知这三个厂的产品次品率分别为2 1 1 问从这批产品中任取一件是次品的概率是多少 设事件A为 任取一件为次品 解 由全概率公式得 贝叶斯公式 Bayes公式的意义 假设导致事件A发生的 原因 有Bi i 1 2 n 个 它们互不相容 现已知事件A确已经发生了 若要估计它是由 原因 Bi所导致的概率 则可用Bayes公式求出 即可从结果分析原因 证明 乘法定理 例2贝叶斯公式的应用 解 1 由全概率公式得 2 由贝叶斯公式得 由以往的数据分析得到的概率 叫做先验概率 而在得到信息之后再重新加以修正的概率叫做后验概率 先验概率与后验概率 贝叶斯分类 贝叶斯分类器是一个统计分类器 它们能够预测类别所属的概率 如 一个数据对象属于某个类别的概率 贝叶斯分类器是基于贝叶斯定理而构造出来的 对分类方法进行比较的有关研究结果表明 简单贝叶斯分类器 称为基本贝叶斯分类器 在分类性能上与决策树和神经网络都是可比的 在处理大规模数据库时 贝叶斯分类器已表现出较高的分类准确性和运算性能 20 贝叶斯分类 定义 设X是类标号未知的数据样本 设H为某种假定 如数据样本X属于某特定的类C 对于分类问题 我们希望确定P H X 即给定观测数据样本X 假定H成立的概率 贝叶斯定理给出了如下计算P H X 的简单有效的方法 P H 是先验概率 或称H的先验概率 P X H 代表假设H成立的情况下 观察到X的概率 P H X 是后验概率 或称条件X下H的后验概率 21 贝叶斯分类 先验概率泛指一类事物发生的概率 通常根据历史资料或主观判断 未经实验证实所确定的概率 而后验概率涉及的是某个特定条件下一个具体的事物发生的概率 22 贝叶斯分类 例如 P x1 0 9 细胞为正常细胞的概率0 9 先验概率 P x2 0 1 细胞为异常细胞的概率0 1 先验概率 对某个具体的对象y P x1 y 表示y的细胞正常的概率是0 82 后验概率 P x2 y 表示y的细胞异常的概率是0 18 后验概率 朴素贝叶斯分类 朴素贝叶斯分类的工作过程如下 1 每个数据样本用一个n维特征向量X x1 x2 xn 表示 分别描述对n个属性A1 A2 An样本的n个度量 2 假定有m个类C1 C2 Cm 给定一个未知的数据样本X 即没有类标号 分类器将预测X属于具有最高后验概率 条件X下 的类 也就是说 朴素贝叶斯分类将未知的样本分配给类Ci 1 i m 当且仅当P Ci X P Cj X 对任意的j 1 2 m j i 这样 最大化P Ci X 其P Ci X 最大的类Ci称为最大后验假定 根据贝叶斯定理 24 朴素贝叶斯分类 3 由于P X 对于所有类为常数 只需要P X Ci P Ci 最大即可 如果Ci类的先验概率未知 则通常假定这些类是等概率的 即P C1 P C2 P Cm 因此问题就转换为对P X Ci 的最大化 P X Ci 常被称为给定Ci时数据X的似然度 而使P X Ci 最大的假设Ci称为最大似然假设 否则 需要最大化P X Ci P Ci 注意 类的先验概率可以用P Ci si s计算 其中si是类Ci中的训练样本数 而s是训练样本总数 25 朴素贝叶斯分类 4 给定具有许多属性的数据集 计算P X Ci 的开销可能非常大 为降低计算P X Ci 的开销 可以做类条件独立的朴素假定 给定样本的类标号 假定属性值相互条件独立 即在属性间 不存在依赖关系 这样 联合概率分布 26 朴素贝叶斯分类 5 对未知样本X分类 也就是对每个类Ci 计算P X Ci P Ci 样本X被指派到类Ci 当且仅当P Ci X P Cj X 1 j m j i 换言之 X被指派到其P X Ci P Ci 最大的类 打网球 的决定 实例 统计结果 统计结果 对下面的情况做出决策 统计结果 对下面的情况做出决策 模型 决策 贝叶斯公式 E为第二个表中的取值 分别计算D yes no的概率 统计结果 对下面的情况做出决策 已经计算出 同理可计算 利用公式 最后得到 决策 对下面的情况做出决策 利用朴素贝叶斯对文档分类 为了对文档进行分类 首先我们需要把文档进行向量化 而组成这个向量的分量 通常是一个文档集合中重要的关键词 Bagofwords 也叫做 词袋 在信息检索中 Bagofwordsmodel假定对于一个文本 忽略其词序和语法 句法 将其仅仅看做是一个词集合 或者说是词的一个组合 文本中每个词的出现都是独立的 不依赖于其他词是否出现 或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的 利用朴素贝叶斯对文档分类 将多个文档转换成一个词袋矩阵后 即可通过朴素贝叶斯方法对文档进行分类 扩展 使用0 1方式表达的词袋模型虽然简单 但它并不能表达出不同词语的重要性 因此在信息检索领域 TF IDF模型更常用 TF 定义 关键词在该文档中出现的次数除以该文档的总字数 我们把这个商称为 关键词的频率 或者单文本词频 termfrequency TF 对关键词的次数进行归一化 以防止它偏向长的文件 同一个词语在长文件里可能会比短文件有更高的词频 而不管该词语重要与否 TF 举例 短语 原子能的应用 可以分成三个关键词 原子能 的 应用在某个一共有1000词的文档中 其中 原子能 的 和 应用 分别出现了2次 35次和5次 那么它们的词频就分别是0 002 0 035和0 005 我们将这三个数相加 其和0 042就是相应文档和查询 原子能的应用 的 单文本词频 TF 概括 因此 度量文档和查询的相关性 有一个简单的方法 就是直接使用各个关键词在文档中出现的总词频具体地讲 如果一个查询包含N个关键词w1 w2 wN 它们在一个特定文档中的词频分别是 TF1 TF2 TFN 那么 这个查询和该文档的相关性就是 TF1 TF2 TFN TF 漏洞 由上例可知 词 的 占了总词频的80 以上 而它对确定文档的主题几乎没有用处这种词叫 停止词 也就是说 在度量相关性时不应考虑它们的频率忽略这些停止词后 上述文档和查询的相关性就变成了0 007 其中 原子能 贡献了0 002 应用 贡献了0 005在汉语中 应用 是个很通用的词 而 原子能 是个很专业的词 后者在相关性排名中比前者重要 因此 我们需要给汉语中的每一个词给一个权重 权重 设定条件 这个权重的设定必须满足下面两个条件 一个词预测主题的能力越强 权重就越大 反之 权重就越小 在文档中看到 原子能 这个词 或多或少地能了解文档的主题 而看到 应用 一词 则对主题基本上还是一无所知 因此 原子能 的权重就应该比 应用 大停止词的权重应该是零 权重 概括 很容易发现 如果一个关键词只在很少的文档中出现 通过它就容易锁定搜索目标 它的权重也就应该大 反之 如果一个词在大量文档中出现 看到它仍然不很清楚要找什么内容 因此它的权重就应该小概括地讲 假定一个关键词w在Dw个文档中出现过 那么Dw越大 w的权重越小 反之亦然 IDF 逆向文件频率 在信息检索中 使用最多的权重是 逆文本频率指数 Inversedocumentfrequency缩写为IDF 它的公式为log D Dw 其中D是全部文档数 比如 假定中文文档数是D 10亿 停止词 的 在所有的文档中都出现 即Dw 10亿 那么它的IDF log 10亿 10亿 log 1 0假如专用词 原子能 在200万个文档中出现 即Dw 200万 则它的权重IDF log 500 8 96又假定通用词 应用 出现在五亿个文档中 它的权重IDF log 2 则只有1 TF IDF 也就只说 在文档中找到一个 原子能 的命中率相当于找到九个 应用 的命中率利用IDF 上述相关性计算的公式就由词频的简单求和变成了加权求和 即TF1 IDF1 TF2 IDF2 TFN IDFN在上面的例子中 该文档和 原子能的应用 的相关性为0 0161 其中 原子能 贡献了0 0126 而 应用 只贡献了0 0035 这个比例和我们的直觉比较一致了 查询 如果结合文档排名 PageRank 算法 那么给定一个查询 有关文档的综合排名大致由相关性和文档排名的乘积决定 TF IDF值 应用 经常会和余弦相似度 cosinesimilarity 一同使用于向量空间模型中 用以判断两份文件之间的相似性比如 新闻分类 新闻分类 找数字 对于一篇新闻中的所有实词 计算出它的TF IDF值 把这些值按照对应的实词在词汇表的位置依次排列 就得到一个向量如果单词表中的某个词在新闻中没有出现 对应的值为零我们就用这个向量来代表这篇新闻 并成为新闻的特征向
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学前卫生学-全部课件
- 《乘法的人生》课件
- 《高分子材料加工技术》课件
- 白酒酿造过程节能减排技术考核试卷
- 1+X运动营养师考试题与答案(附解析)
- 冬季安全教育主题班会
- 货运枢纽站物流企业财务战略与融资考核试卷
- 种子种苗市场细分与目标客户定位考核试卷
- 航空公司航班运行成本分析与控制考核试卷
- 升降机安全防护门的安装考核试卷
- Unit 4 Clothes 单元整体(教学设计)-2024-2025学年人教精通版(2024)英语三年级下册
- TCECA-G 0344-2025《零碳园区评价技术规范》团体标准
- 金融市场学知到智慧树章节测试课后答案2024年秋齐鲁师范学院
- 肾上腺皮质功能减退症的护理
- 壶口瀑布摄影指南课件
- Qt 5 开发及实例(第5版) 课件 第7章 Qt 5绘图及实例
- 《腹泻的临床思维》课件
- DBJT45-003-2014 广西壮族自治区城镇生活垃圾卫生填埋场运行、维护及考核评价标准
- DB31T 1419-2023医疗付费“一件事”应用规范
- Unit1 Greetings(说课稿)2024-2025学年人教精通版(2024)英语三年级上册
- 《中国染织史》第九章-五代、两宋的染织工艺
评论
0/150
提交评论