版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1模式识别与机器学习模式识别与机器学习w 任课教师:李冰锋w 单位:电气工程及自动化学院w 办公室:D507w 电话:156391796902第二章 基本监督学习算法模式识别与机器学习模式识别与机器学习感知机算法2021-12-932.1 2.1 监督学习基本概念监督学习基本概念样本空间将每个对象的个特征构成的向量 称为该对象的特征向量。设 是特征向量的所有可能取值构成的集合,称 为样本空间。标签空间在监督学习中,每个训练数据含有一个数值标签 。设 为全体可能的标签取值,称 为标签空间。假设空间监督学习目的是学习一个由输入到输出的映射,称为模型。模型的集合就是假设空间。4 训练集: 测试集:独
2、立同分布(I.I.D)2.1 2.1 监督学习基本概念监督学习基本概念2021-12-952.2 2.2 感知机算法感知机算法 感知机(Perceptron)于1957年由Rosenblatt提出,它是神经网络与支持向量机的基础。o 输入为样本的特征向量,输出为样本的类别为+1和-1;o 感知机是在输入空间中将样本划分为正、负两类的分离 超平面,属于判别模型;o 感知机学习算法具有简单而易于实现的优点,分为 原始形式和对偶形式。2021-12-96山鸢尾维吉尼亚鸢尾变色鸢尾三种鸢尾花区别很明显,主要体现在花瓣和花萼上。1、单株鸢尾花的植物学特征包含花瓣(petals)的长度和宽度、花萼(sep
3、als)的长度和宽度,单位CM;2、标签则确定了此鸢尾花所属品种:山鸢尾 (0)、变色鸢尾 (1)、维吉尼亚鸢尾 (2)。2.2 2.2 感知机算法感知机算法2021-12-97利用花萼长、宽这两个特征预测给定鸢尾花是否为山鸢尾2.2 2.2 感知机算法感知机算法2021-12-98 假设输入空间是 ,输出空间是 ; 输入 表示样本的特征向量,对应于输入空间的点,输出 表示样本的类别; 由输入空间到输出空间的函数: 符号函数: 模型参数:权值向量 ,偏置 ,未知。2.2.1 2.2.1 感知机模型感知机模型2021-12-99o 分离超平面方程:o 分离超平面方程法线方向o 空间内任一点到超平
4、面距离o 对于误分类的样本-损失函数损失函数o 已经被正确分类的花,对于寻找的权重无意义2.2.1 2.2.1 感知机模型感知机模型2021-12-910一般情况下,损失函数的一般情况下,损失函数的 取值取值0最优情况下,损失函数的最优情况下,损失函数的 取值取值=02.2.1 2.2.1 感知机模型感知机模型2021-12-911o 梯度下降法凸函数&凸优化2.2.2 2.2.2 感知机模型求解感知机模型求解2021-12-912o 采用误分类点的数目作为损失函数,直观但关于未知量非连续可导,难以优化。o 采用误分类点到超平面的总距离作为损失函数,关于未知量连续可导,容易优化。-优化
5、方法优化方法2.2.2 2.2.2 感知机模型求解感知机模型求解2021-12-913o 求解最优化问题o 梯度下降法o 最优模型2.2.2 2.2.2 感知机模型求解感知机模型求解2021-12-9142.2.3 2.2.3 感知机模型代码实现感知机模型代码实现2021-12-915Precision = 98.3%Precision = 98.3%2.2.3 2.2.3 感知机模型代码实现感知机模型代码实现2021-12-916testtestpredictpredict2.2 2.2 感知机模型感知机模型2021-12-917 经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平
6、面及感知机模型。o 感知机模型的收敛性2.2 2.2 感知机模型感知机模型2021-12-918误分类的次数k是有上界的,当训练数据集线性可分时,感知机学习算法原始形式迭代是收敛的。感知机算法存在许多解,既依赖于初值,也依赖迭代过程中误分类点的选择顺序。为得到唯一分离超平面,需要增加约束,如SVM。对于线性不可分数据集,迭代震荡。 2.2 2.2 感知机模型感知机模型2021-12-9192.2 2.2 感知机模型感知机模型2021-12-9202.2 2.2 感知机模型感知机模型2021-12-921实现统计学习方法的步骤如下 : 1. 得到一个有限的训练数据集合; 2. 确定包含所有可能的
7、模型的假设空间,即学习模型的集合:3. 确定模型选择的准则,即学习的策略;4. 实现求解最优模型的算法,即学习的算法;5. 通过学习方法选择最优模型;6. 利用学习的最优模型对新数据进行预测或分析。 2.2 2.2 感知机模型感知机模型2021-12-9222.3 2.3 分类问题的评价指标分类问题的评价指标TP(true positive)FP(false positive)FN(false negative)TN(true negative)confusion_matrix2021-12-9232.3 2.3 分类问题的评价指标分类问题的评价指标精确率(Precision) 在被所有预测为
8、正的样本中实际为正样本的概率2021-12-9242.3 2.3 分类问题的评价指标分类问题的评价指标召回率(Recall) 在实际为正的样本中被预测为正样本的概率在实际为正的样本中被预测为正样本的概率2021-12-9252.3 2.3 分类问题的评价指标分类问题的评价指标 实际 有贼无贼预测报警TPFP不报警FNTN精度低精度低 or or 召回率低召回率低 可接受可接受哪哪个个?2021-12-9262.3 2.3 分类问题的评价指标分类问题的评价指标精度低精度低 or or 召回率低召回率低 可接受可接受哪哪个个? 实际放心不放心 预测放心TPFP不放心FNTN2021-12-9272.3 2.3 分类问题的评价指标分类问题的评价指标2021-12-928Roc曲线2.3 2.3 分类问题的评价指标分类问题的评价指标计算多个不同阈值下的Tpr和Frp,然后绘制曲线。2021-12-929ROC曲线是通过遍历所有阈值来绘制曲线的。通过遍历所有阈值,预测的正样本和负样本是在不断变化的,相应的ROC曲线TPR和FPR也会沿着曲线滑动。Roc曲线2.3 2.3 分类问题的评价指标分类问题的评价指标2021-12-930AUC(Area Under Curve) 表示ROC中曲线下的面积,用于判断模型的优劣。理想值是1,即正方形。所以AUC的值一般是介于0.5和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026江西赣州市龙南市汶龙中心敬老院招聘1人考试备考题库及答案解析
- 2026云南玉溪市妇幼保健院就业见习岗位招募4人考试参考题库及答案解析
- 成都市泡桐树小学2026年储备教师招聘考试参考题库及答案解析
- 2026新疆第十师武装部招聘1人笔试模拟试题及答案解析
- 2026西南交通大学力学与航空航天学院系主任招聘1人(四川)笔试模拟试题及答案解析
- 2026河北张家口桥东区东风小学招聘英语志愿者教师考试参考试题及答案解析
- 2026浙江省自然资源集团有限公司社会招聘3人考试参考题库及答案解析
- 2026广西壮族自治区南溪山医院 (广西壮族自治区第二人民医院)人才招聘笔试备考试题及答案解析
- 2026天津市网络数据安全和技术保障中心事业单位招聘2人笔试备考试题及答案解析
- 2026山东潍坊市财金普惠投资发展合伙企业(有限合伙)人员招聘3人笔试参考题库及答案解析
- 2026年预包装食品购销合同(1篇)
- 危大工程与超过一定规模的危大工程(超危大工程)管理手册
- 2026春季开学第一课:马年奔腾策马扬鞭新学期做自己的光
- 2026中国造纸化学品行业发展趋势与供需前景预测报告
- 单位信息保密制度
- 【新教材】人教PEP版(2024)四年级下册英语 Unit 1 Class rules 教案
- 露天矿山节后复工安全培训
- 2026年新年开工安全第一课:筑牢复工复产安全防线
- (2025年)医学基础知识考试试题库与答案
- 《2025年新湘教版六年级下册小学信息科技备课教案》
- 2026年中级消控岗位能力测试题目及答案
评论
0/150
提交评论