已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PatternRecognitionMethodsUsingSupervisedLearning 基于监督学习的模式识别方法 模式与模式识别 模式 模式是对某些感兴趣的客体的定量的或结构的描述 模式类是具有某些共同特性的模式的集合 在模式识别学科中 常常不区分 模式 和 模式类 模式识别 把对象根据其特征划分到若干类别中适当的一类 模式指的并不是事物本身 而是对事物的一种描述 也就是我们从事物获得的信息模式识别的过程就是建立分类器的过程一些模式识别的例子 语音识别 字符与文字识别 人脸识别等等 模式识别的方法 模式识别方法主要分为基于知识的方法和基于数据的方法 基于知识的方法 根据人们已知的关于研究对象的知识 整理出若干描述特征与类别关系的准则 对未知样本通过这些知识推理决策其类别 主要利用先验的知识基于数据的方法 不利用先验知识 完全依靠训练样本来建立样本与模式之间的联系 属于一种机器学习的分类方法 基于数据的方法是模式识别最主要的方法 对象 G S LM x y y 基于数据的模式识别方法 基于数据的模式识别方法可以分为两种 监督模式识别和非监督模式识别 监督模式识别 基于一定数量的类别已知的训练样本建立分类器 也是模式识别的主要方法非监督模式识别 事先不知道要划分什么类别 更没有类别已知的样本用作训练 主要进行聚类分析 监督模式识别方法 贝叶斯决策法 核心思想 根据对象归于某个模式的概率来进行决策分类 问题 已知对象的特征x 以及n个类别 1 n 求对象属于哪个类别贝叶斯公式 P i 先验概率p x i 类条件概率密度p x 总体概率密度P i x 后验概率 贝叶斯决策法 最小错误率决策法 样本的错误率 决策的错误率 样本错误概率的期望 最小错误率决策法即让P e 达到最小 由于p x 是固定的 所以等价于对于所有x都让P e x 取最小 由样本x的错误率计算公式可知 最小错误率决策等价于如下一种决策 若 则 贝叶斯决策法 最小错误率决策法 根据贝叶斯公式 重点讨论离散概率模型下的概率估计方法 贝叶斯决策法 朴素贝叶斯分类器 朴素贝叶斯分类器 NaiveBayesClassifier 假定特征各分量是相互独立的 因此类条件概率可写为 即根据的最大值来进行分类决策 贝叶斯决策法 朴素贝叶斯分类器 步骤一 通过训练样本估计先验概率P 3 步骤二 通过训练样本估计P 1 3 P 1 3 步骤三 通过独立假设计算类条件概率P 样本 3 P 1 3 P 1 3 假定要计算该样本属于 3 的概率 步骤四 P 3 样本 P 3 P 样本 3 贝叶斯决策法 朴素贝叶斯分类器 P 1 3 可以采用最大似然估计 若采用最大似然估计 朴素贝叶斯分类器对于稀疏数据非常敏感设想若训练样本中所有 3 在处都没有值 那么计算得到的后验概率等于零 改用其他估计方法来进行平滑处理 贝叶斯决策法 拉普拉斯估计 假如投一次硬币 正面朝上 如何估计正面朝上的概率 假如投100次硬币 有80次正面朝上 如何估计正面朝上的概率 假如投100万次硬币 有80万次正面朝上 如何估计正面朝上的概率 启发 1 在进行估计之前 我们有一些先验的期望2 若样本数量很少 我们应该更依赖先验期望3 若样本数量很多 我们应该更依赖数据 X 为x的取值个数 k为待定参数 贝叶斯决策法 NBC的优缺点 优点 算法复杂度低 不要求很大的训练样本数量缺点 要求特征分量满足条件独立条件 但很多时候这种条件不能满足改进 树增广朴素贝叶斯分类器 TAN 贝叶斯增广朴素贝叶斯分类器 BAN 贝叶斯决策法依赖于样本的概率密度模型 当概率密度模型难以估计时很难建立分类器 判别函数法 核心思想 根据训练样本确定一个判别函数g x 根据g x 的值来对未知样本进行分类线性分类器 判别函数的形式是线性的两类情况 多类情况 非线性分类器 判别函数的形式是非线性的 核心问题是如何根据训练样本确定权向量和阈值向量 线性分类器 Fisher线性判别 核心思想 使投影后两类相隔尽量远 而同时每一类内部的样本又尽可能聚集 通过最优化方法求解该最优投影方向Fisher线性判别法只能得到最优投影方向即权向量 阈值向量需要进一步求解 线性分类器 感知器算法 线性分类器 感知器算法 可以使用迭代方法求解 线性分类器 感知器算法 感知器算法只能解决线性可分问题 线性分类器 最优分类超平面与线性SVM 支持平面支持向量最优分类超平面线性支持向量机 SVM 线性不可分时引入惩罚函数进行求解 非线性分类器 有时候最优分类面并非线性平面 此时可以使用非线性判别函数来进行分类 二次判别函数 分段线性函数 非线性分类器 核心思想 将非线性判别函数转换为广义线性判别函数 然后在线性空间里求解最优分类平面 支持向量机 核函数 核函数目前没有一个通用的选择方法 其他分类方法 核心思想 近朱者赤 近墨者黑 最近邻法和K 近邻法 最近邻算法 以离未知样本最近的样本作为唯一判决依据K 近邻算法 KNN 以离未知样本最近的k个样本作为判决依据 核心问题 k的选择以及计算速度的优化 其他分类方法 非数值特征 颜色 性别 年龄等没有数值意义的变量 也可以称为属性 决策树算法 决策树算法 利用一定训练样本 从数据中 学习 出决策规则 其他分类方法 一个典型的决策树算法为ID3方法 其基础是香农信息论中的信息熵信息熵 信息论告诉我们 如果一个事件有k种可能的结果 每种结果对应的概率为Pi 则对事件结果进行观察的信息熵为 决策树算法 其他分类方法 决策树算法 问题 根据用户的 年龄 youth middleaged senior 收入 high medium low 是否学生 yes no 信用评级 excellent fair 判断其是否会买电脑 yes no 利用所提供的14个训练样本以及ID3算法建立决策树 其他分类方法 决策树算法 第一步 计算总的信息熵是否买电脑5次no 9次yes第二步 计算各属性的信息熵 以年龄为例youth共出现5次 3次no2次yes类似得到middleaged和senior的信息熵分别为0和0 971 因此年龄属性的信息熵为其他属性的信息熵
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年印刷技术专员招聘面试参考题库及答案
- 监理高级职称试题题库及答案
- 2025年素质教育老师招聘面试题库及参考答案
- 2025年趣味教练招聘面试题库及参考答案
- 2025年医院管理人员招聘面试题库及参考答案
- 2025年航空空乘招聘面试题库及参考答案
- 2025年可靠性工程师招聘面试参考题库及答案
- 2025年材料工程师招聘面试题库及参考答案
- 2025年法规专员招聘面试题库及参考答案
- 2025年访客体验管理专员招聘面试题库及参考答案
- 河北省临西县2025年上半年事业单位公开招聘试题含答案分析
- 2025年版小学数学新课程标准测试题含答案【附新课标解读】
- 2025年病历书写规范及病案管理培训试题(附答案)
- 无机化学教学设计案例分享
- 2025年宝武作业长培训考试题库
- 《产品创新设计》课件 第5章 产品创新设计与人工智能
- 小儿流行性腮腺炎护理查房
- 异常事项管理办法
- 生猪销售管理办法
- stm32控制的智能指纹刷卡考勤系统设计
- 支持性心理护理课件
评论
0/150
提交评论