版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多模态信号处理Multi-modalitySignalProcessing2.分类模型1.数据表示3.损失函数4.优化算法更新参数目标函数输入
数据集预测值真实值基于机器学习的信号处理数据表示与预处理生成式分类模型判别式分类模型多模型集成学习监督机器学习举例主要内容数据处理:图像表示DCT基函数Gabor小波基函数变换域表示:固定基函数数据表示与预处理数据处理:图像表示变换域表示:可学习基函数稀疏字典DCT字典数据表示与预处理数据处理:图像表示变换域表示:可学习基函数数据表示与预处理数据处理:图像表示1234567891011121314151612345678910111213141516拉直T向量化Vectorization数据表示与预处理预处理:归一化/标准化…ImageNet数据集:mean=[0.485,0.456,0.406]std=[0.229,0.224,0.225]步骤:减去均值,除掉方差包括:样本归一化、批量归一化、特征归一化等特征样本数量数据表示与预处理预处理:数据增强通过图像变换或者编辑操作通过少量训练样本生成大量训练样本,常用的操作包括:平移、旋转、缩放、剪切、翻转、拼接、遮挡、对比度调节、亮度调节、添加噪声等目的:为模型提供更多和更加多变的训练数据,提高模型对特定图像变换的鲁棒性数据表示与预处理数据表示与预处理生成式分类模型判别式分类模型多模型集成学习监督机器学习举例主要内容生成式模型:线性判别分析LinearDiscriminantAnalysisLinearDiscriminantAnalysis是投影向量其中多类LDA请参考:/pinard/p/6244265.html生成式模型:线性判别分析生成式模型:朴素贝叶斯(NaïveBayes)……y
似然类别先验后验概率证据先验各类别各维特征的条件概率分布模型:
模型学习:
模型推理:对任意新样本,通过计算下式确定其类别
生成式模型:朴素贝叶斯(NaïveBayes)监督机器学习概述数据表示与预处理生成式分类模型判别式分类模型多模型集成学习监督机器学习举例主要内容判别式模型:最近邻判别式模型:K最近邻判别式模型:线性回归
目标函数:梯度下降:梯度方向:判别式模型:线性回归参数选择:过拟合判别式模型:线性回归参数选择:过拟合判别式模型:线性回归参数选择:过拟合判别式模型:线性回归参数选择:过拟合判别式模型:线性回归参数选择:过拟合判别式模型:线性回归参数选择:过拟合判别式模型:线性回归参数选择:正则化判别式模型:线性回归参数选择:正则化判别式模型:线性回归参数选择:正则化判别式模型:线性回归参数选择:正则化判别式模型:线性回归判别式模型:线性回归多变量线性回归:Softmax回归:对数线性(Logistic)回归:
判别式模型:稀疏表示分类器传统线性表示稀疏线性表示判别式模型:稀疏表示MKNAfixedDictionaryEverycolumninD(dictionary)isaprototypesignal(Atom).Thevector
isgeneratedrandomlywithfewnon-zerosinrandomlocationsandrandomvalues.Asparse&randomvectorN判别式模型:稀疏表示J.Wright,A.Y.Yang,A.Ganesh,S.S.SastryandY.Ma,"RobustFaceRecognitionviaSparseRepresentation,"in
IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.31,no.2,pp.210-227,Feb.2009判别式模型:稀疏表示J.Wright,A.Y.Yang,A.Ganesh,S.S.SastryandY.Ma,"RobustFaceRecognitionviaSparseRepresentation,"in
IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.31,no.2,pp.210-227,Feb.2009判别式模型:稀疏表示J.Wright,A.Y.Yang,A.Ganesh,S.S.SastryandY.Ma,"RobustFaceRecognitionviaSparseRepresentation,"in
IEEETransactionsonPatternAnalysisandMachineIntelligence,vol.31,no.2,pp.210-227,Feb.2009哪个线性分类器最好?
判别式模型:支持向量机最优的分类超平面:MaximalMargin
支持向量
对正样本对负样本
判别式模型:支持向量机线性不可分怎么办?将样本从原始空间映射到更高维空间,将低维空间的线性不可分问题转化为高维空间的线性可分问题
判别式模型:支持向量机如果原始空间是有限维的,那么一定存在一个高维特征空间使样本线性可分分类超平面
判别式模型:支持向量机
核函数:对偶问题(DualProblem):只要一个对称函数所对应的核矩阵半正定,那么它就能作为核函数使用。任何一个核函数都隐式地定义了一个称为“再生核希尔伯特空间”的高维特征空间判别式模型:支持向量机
常用的核函数:名称表达式参数线性核多项式核高斯核拉普拉斯核Sigmoid核合成核:核函数对于正数的线性组合也是核函数;核函数的直积也是核函数;判别式模型:支持向量机Onev.s.OneOnev.s.RestMultiplev.s.Multiple判别式模型:支持向量机再缩放欠采样过采样SMOTE代价敏感类别不平衡问题判别式模型:支持向量机判别式模型一棵决策树由一个根节点、若干内部节点和叶子节点构成;其中叶子节点对应于决策结果,其它节点对应于一个属性;决策树(DecisionTree)
如何决定属性的先后顺序?决策是是一个递归模型,返回条件有哪些?如何决定一个节点是叶子节点还是内部节点?基于训练集构建的决策树是否有泛化能力,如何防止过拟合?判别式模型决策树(DecisionTree)
不断以最大信息增益为原则,对各个子集进行进一步划分,直到无法取得信息增益为止其它属性选择依据:增益率、基尼指数判别式模型决策树(DecisionTree)在什么种情况下进一步划分无法取得信息增益?1)当前节点包含的样本全部属于同一类别;2)当前属性集为空,或所有样本的所有属性取值相同3)当前节点包含的样本集合为空;第1种情况:当前节点自动成为叶子节点,类别无争议;第2种情况:设当前节点为叶子节点,以最大后验概率确定其类别;第3种情况:设当前节点为叶子节点,以其父节点的样本分布作为当前节点先验分布判别式模型决策树(DecisionTree)过拟合:在训练数据集上表现极好,但在验证集和测试集上效果很差,泛化能力差剪枝(pruning)处理是决策树学习应对过拟合的主要手段预剪枝:在决策树生成过程中,对每个节点在划分前先进行估计,若当前节点的划分不能带来验证集上的性能提升,则停止划分,将该节点标记为叶子节点;后剪枝:在生成决策树之后,自底向上对非叶节点进行考察,若当前节点的划分不能带来验证集上的性能提升,则剪除子树,将该节点标记为叶子节点;判别式模型决策树(DecisionTree)判别式模型决策树(DecisionTree)多变量决策树以树状结构对简单线性分类器进行集成组合,达到类似Adaboost判别式模型决策树(DecisionTree)决策树是对复杂分类边界的分段近似判别式模型决策树(DecisionTree)条件随机场(ConditionalRandomField)判别式模型:条件随机场条件随机场(ConditionalRandomField)判别式模型条件随机场(ConditionalRandomField)判别式模型判别式模型MRF使用团上的势函数定义概率对联合概率建模CRF使用团上的势函数定义概率有观测变量,对条件概率建模MRF与CRF的对比判别式模型监督机器学习概述数据表示与预处理生成式分类模型判别式分类模型多模型集成学习监督机器学习举例主要内容集成学习(EnsembleLearning)Bagging(Breiman,1996)在训练的每一轮中,均从原始样本集S中有放回地随机抽取训练样本集T(T的样本个数同S),这样一个初始样本在某轮训练中可能出现多次或根本不出现(S中每个样本未被抽取的概率为(1-1/|S|)|S|≈0.368,当|S|很大时)。最终的分类规则为简单多数投票法或简单平均法AdaBoosting(AdaptiveBoosting)对每个样本赋予一个权重,代表该样本被当前分类器选入训练集的概率,并根据预测函数的输出与期望输出的差异调整权重:如某个样本点已被正确分类,则它的权重减小,否则,它的权重增大;通过这种方式,使得学习算法能集中学习较难判别的样本。经过T轮训练,得到T个分类函数{f1,f2,…,fT}及对应的权重{w1,w2,…,wT},最终的分类规则为加权投票法集成学习(EnsembleLearning)随机森林是一个树型分类器{h(x,yk),k=1,…}的集合。其中元分类器h(x,yk)是用CART算法构建的没有剪枝的分类回归树;x是输入向量;yk是独立同分布的随机向量,决定了单颗树的生长过程;森林的输出采用简单多数投票法(针对分类)或单颗树输出结果的简单平均(针对回归)得到。集成学习:随机森林(RandomForest)随机选取训练样本集:在训练的每一轮中,均从原始样本集S中有放回地随机抽取训练样本集T(T的样本个数同S),这样一个初始样本在某轮训练中可能出现多次或根本不出现(S中每个样本未被抽取的概率为(1-1/|S|)|S|≈0.368,当|S|很大时)。随机选取分裂属性集:假设共有M个属性,指定一个属性数F≤M,在每个内部结点,从M个属性中随机抽取F个属性作分裂属性集,以这F个属性上最好的分裂方式对结点进行分裂(在整个森林的生长过程中,F的值一般维持不变)每颗树任其生长,不进行剪枝集成学习:随机森林(RandomForest)影响随机森林分类性能的主要因素:森林中单颗树的分类强度(Strength):每颗树的分类强度越大,则随机森林的分类性能越好。森林中树之间的相关度(Correlation):树之间的相关度越大,则随机森林的分类性能越差。集成学习:随机森林(RandomForest)袋外(Out-of-bag)数据误分率计算1(以树为单位,错误):对每颗树,利用未被该树选中的训练样本点,统计该树的误分率;将所有树的误分率取平均得到随机森林的OOB误分率计算2(以样本为单位,正确):对每个样本,计算它作为OOB样本的树对它的分类情况(约1/3的树);然后以简单多数投票作为该样本的分类结果;最后用误分个数占样本总数的比率作为随机森林的OOB误分率OOB误分率是随机森林的泛化误差的一个无偏估计OOB估计是高效的,近似于需要大量计算的k折交叉验证集成学习:随机森林(RandomForest)
集成学习:随机森林(RandomForest)集成学习(EnsembleLearning)Boosting集成学习
其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。可以排除一些不必要的训练数据,并将关键放在关键的训练数据上面最常用的是AdaBoost算法AdaBoosting(Adaptiv
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 台州市专职消防员招聘考试题库及答案
- 项目7 使用Shell脚本管理服务器
- 石嘴山市教师招聘考试题及答案
- 公安基础知识试卷及分析
- 踝关节囊肿护理查房
- 医学26年:人工智能超声诊断进展 心内科查房
- 积极心理赋能成长
- 关节肿胀护理查房
- 强势起诉协议书
- 商品赔偿协议书范本
- 地理俄罗斯课件 -2025-2026学年人教版地理七年级下册
- 蛋鸡养殖卫生免疫制度
- 节水灌溉工程技术标准
- 无人机飞行安全操作标准手册
- 钢筋混凝土雨水管道施工方案
- 2025广东佛山市南海区大沥镇镇属公有企业管理人员招聘3人笔试历年参考题库附带答案详解
- 2026年高考数学二轮复习检测卷(全国一卷01)(全解全析)
- 多源协同驱动主动配电网优化调度:策略、模型与实践
- T-CEPPEA 5027-2023直流配电网规划设计技术规范
- 《黑木相思抚育技术规程》(征求意见稿)
- 数字科创产业园项目可行性研究报告
评论
0/150
提交评论