




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
LogitboostLogitboost 法与累积比数法与累积比数 LogitLogit 模型在模型在 判别分析中的应用分析判别分析中的应用分析(1)(1) 【摘要】 目的:探讨 Logitboost 和累积比数 Logit 模型这两种方法应用于判别分析的优缺点。方法:简 要介绍 Logitboost 和累积比数 Logit 模型的原理,并采用 此两种方法分别对同一个实例进行判别分析。结果:两种 方法的判别正确率均较高。Logitboost 判别效果高于累积 比数 Logit 模型判别。讨论:在迭代轮数适当的情况下, Logitboost 判别正确率更高,受迭代次数影响较大;而累 积比数 Logit 模型的稳定性较强。在对事件进行判别时, 可根据数据资料的具体特点选用判别方法,也可将两种方 法结合应用,取其判别效果较好者。 【关键词】累积比数 Logit 模型判别分析 Logitboost 睡眠质量 LogitboostandCumulativeOddsLogitModelandTheirApplic ationinDiscriminantAnalysis AbstractObjective:TocompareLogitboostwithCumulativ eoddslogitmodel,anddiscusstheircharacteristicswhent heyareusedinDiscriminantanalysis.Methods:Theultima teprincipleofLogitboostandCumulativeoddslogitmodelw illbeintroducedinthispaper,andwewillusethetwomethod stosolvethesameproblem.ResultsLogitboostseffectis betterthanCumulativeoddslogitmodel.Conclusion:Thee ffectofLogitboostwouldbebetterifaappropriateiterati onisgiven,inotherwords,Logitboostisaffectedbyiterat ioninlargemeasure.ButCumulativeoddslogitmodelisstab le.Weshouldchoosethebetteraccordingthedata. KeywordscumulativeoddsLogitmodel;discriminantanalys is;Logitboost;sleepquality 判别分析(discriminantanalysis)是判别样品所属 类型的一类统计方法,其应用之广可与回归分析相媲美。 进行判别时,通常是根据已经掌握的一批分类明确的样品 建立判别函数。从判别准则上分为 Fisher 判别和 Bayes 判 别,但由于这两种传统的判别方法各有利弊,对资料有特 定要求,如 Fisher 判别要求资料服从多元正态分布, Bayes 判别要求已知先验概率,当不满足条件时,判别效果 往往不理想,给人们的实际工作带来许多困难。 本研究以一个实例简介 Logitboost 法和累积比数 Logit 模型在判别分析中的应用。 1 原理 累积比数 Logit 模型判别 累积比数 Logit 模型是二分类 Logit 模型的扩展,主 要用于处理反应变量为有序分类变量的资料。该模型对资 料要求不严,解释变量既可以是连续型变量,也可以是无 序分类变量或有序分类变量1 。只要资料满足比例优势 假定条件(proportionaloddsassumption),即自变量的回 归系数与分割点无关,且各自变量与 Logit P 呈线性关系, 即可应用此方法。 设应变量 Y 为 K 个等级的有序变量,第 k(k=1,2,K)个等级的概率分别为 1,2,k,且ki=1k=1。影响因素 xT=(x1,x2,xP)为自变量,xi(i=1,2,p) 可以是连续变量、无序或有序分类变量。则累积比数 Logit 模型可以表示为: logit)=ln1-P)=-kpi=1ixi(k=1,2,K-1)等 价于:P=11e 每类结果的概率:P=P-P =11e-11ek=1,2,K 式中,k 和 i 为待估参数。该模型实际上是将 K 个 等级人为地分成1,k和k1,K两类,在这两类 基础上定义的 LogitP 表示属于前 k 个等级的累积概率与后 K-k 个等级的累积概率的比数之对数。故该模型称为累积比 数模型。对于 K 类反应变量,K-1 个累积 Logit 模型各有一 个不同的 k 估计,而对于 xi,K-1 个模型的系数 i 均 相同2 。 Logitboost 判别 Boosting 是由 Schzpire 于 1990 年首先提出3 ,后 经 Freud 和 Schapire 改进的一种机器学习方法。 Frieman、Hastie、Tibshirani 于 XX 年又进一步改进,称 为 Logitboost,属于提升算法的一种。其基本思想是:基 于现有样本数据集构建一个基础的“弱分类器” ,反复调用 该“弱分类器” ,通过对每轮中错判的样本赋予更大的权重, 使其更关注那些难判的样本,经过多轮循环,最后采用加 权的方法将各轮的“弱分类器”合成“强分类器” ,从而得 到较高精度的预测模型4 。其算法如下: 首先给定一个样本集:(xi1,xiN,yi) , yiY=-1,1表示不同的类。赋予每一个样品相同的权重, 选定一种基础分类器,根据该权重建立预测模型,回代样 本,其中错判的样本的权重在下一轮将被提升。迭代 T 轮 后得出最终分类器 F(x):F=Tt=1F 式中,t为迭代轮 数,f 表示弱分类器的函数形式,可以是 Logit 函数、决策 树等,根据 F(xi)的正负对第 i 个样品进行判别归类。 此算法也可用于多分类。下面以一个三分类的例子简 介两种方法的特点。 2 实例分析 采用匹兹堡指数为标准,随机抽查了 480 名在校大学 生,男生 254,女生 226 名。以睡眠质量(好、中、差)为 反应变量,属于有序结果的资料。153 名睡眠质量好,赋值 为 0,235 名睡眠质量一般,赋值为 1,92 名睡眠质量差赋 值为 2。包括 7 个显著影响因素,每个因素按严重程度相应 赋值,形成等级资料,将样本分成两份,其中 85%作为训练 样本用来建立预测模型,其余 15%样本用来回代,以检验模 型的判别
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 产房物价收费管理制度
- 会所安全巡查管理制度
- 专项整治台账管理制度
- 给员工培训考核管理制度
- 人员身体不适管理制度
- 中学浴室卫生管理制度
- 企业销售鲜花管理制度
- 自来水公司信用管理制度
- 浅析专业课程中开展育人的实践方法
- 临床药物诊疗管理制度
- 2025年广东省广州市南沙区中考二模道德与法治试题
- 2025届重庆市普通高中学业水平选择性考试预测历史试题(含答案)
- 2025-2030中国眼底照相机行业市场发展趋势与前景展望战略研究报告
- 2024年深圳市大鹏新区区属公办中小学招聘教师真题
- 人教版小学语文四年级下册作文范文2
- 大学语文试题及答案琴
- 实验题(7大类42题)原卷版-2025年中考化学二轮复习热点题型专项训练
- CJ/T 362-2011城镇污水处理厂污泥处置林地用泥质
- 红十字会资产管理制度
- 2025安全宣传咨询日活动知识手册
- T/CSPSTC 112-2023氢气管道工程施工技术规范
评论
0/150
提交评论