




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
非参数统计推断 非参数统计又称为非参数检验 是指在不考虑原总体分布或者不做关于参数假定的前提下 尽量从数据或样本本身获得所需要的信息 通过估计而获得分布的结构 并逐步建立对事物的数学描述和统计模型的方法 更为稳健 非参数统计方法通常称为 分布自由 的方法 即非参数数据分析方法对产生数据的总体的分布不做假设 或者仅给出很一般的假设 例如连续型分布 对称分布等一些简单的假设 结果一般有较好的稳定性 所以适用范围非常宽泛 在经典的统计框架下 正态分布一直是最引人注目的 但是对总体的分布不是随便做出来的 盲目地做出正态分布的假设有时候是起反作用的 当数据的分布不是很明确 特别当样本容量不大 几乎无法对分布作推断的时候 此时使用参数方法就有一定的风险 我们就可以考虑用非参数的方法 但要注意 非参数方法是与总体分布无关 而不是与所有分布无关 非参数统计可以处理所有类型的数据 我们知道 统计数据按照数据类型可以分为两大类 定性数据和定量数据 李金昌老师2014在 统计研究 上发表2篇有关数据及大数据等有详细的说明一般地 参数统计是处理定量数据 如果所收集到的数据不符合参数模型的假定 比如 数据只有顺序 没有大小 则很多参数模型无能为力 此时只能尝试非参数方法 例如 研究急性白血病患儿血液中血小板数与出血症状之间的关系 血小板数可用数据衡量 但出血症状则只能分为 明显 较明显 有出血点和无这4类 类似于这样的 等级资料 参数方法没辙 可用非参数方法中的Spearman等级相关方法来做 经验似然是Owen 1988 在完全样本下提出的一种非参数统计推断方法 它有类似于bootstrap的抽样特性 这一方法与经典的或现代的统计方法比较有很多突出的优点 如 用经验似然方法构造置性区间除有域保持性 变换不变性及置信域的形状由数据自行决定等诸多优点外 还有Bartlett纠偏性及无需构造轴统计量等优点 什么是经验似然 EmpiricalLikelihood 不包含未知参数如何使用它对参数作统计推断 Owen 经验似然比检验统计量 关于求极大值 Lagrange法参数似然比的对数是渐近卡方的 那经验似然比 如Owen 1988 1990 1991 由对总体均值的推断提出经验似然并随后将其应用到线性回归模型的统计推断 例总体均值的经验似然 均值的经验对数似然 经验似然 线性回归模型 经验似然 部分线性模型 经验似然 半参数变系数模型 经验似然 非参数模型 Kolaczyk 1994 应用经验似然于广义线性模型 WangKitamura 2001 2002 等应用经验似然到经济模型的研究 近年来一些统计学家又将经验似然方法应用到不完全数据的统计分析 发展了所谓的被估计的经验似然 调整经验似然及bootstrap经验似然 数据被随机删失数据测量有误差数据missing一些被抽样的个体不愿提供所需要的信息 一些不可控制的因素产生数据丢失 还有一些是调研人员本身的原因不能收集完全的信息等等 总之 数据缺失普遍发生在民意调查 市场调研 邮寄问卷调查 社会经济研究 医药研究及生物遗传等其他科学实验中 在此情况下 通常回归统计分析的方法不能直接应用 一个普遍使用的方法是给每一个缺失数据一个替代值 如此得到一 完全数据集 后 再发展或使用完全数据统计分析方法分析数据并进行统计推断 2020 3 17 19 可编辑 如何将经验似然方法推广应用到上面三种重要类型数据的统计分析是一项重要而困难的任务 正如Hall与LaScala 1990 所指出 尽管经验似然有很多突出的优点 但它很难应用到一些比较复杂数据的统计分析 这一方法的本质是在约束条件下极大化非参数似然比 感兴趣的参数由约束条件带入这一极大化似然比中 Owen 1988 将这一思想方法应用到完全独立同分布样本下总休均值这一简单而重要情形的统计推断 由于Owen 1988 使用线性约束条件 从而表明了这方法有非常一般的应用 这是因为统计中许多估计方程关于感兴趣的参数或参数的某已知函数是线性的或许多统计模型的参数可由关于该参数或它的某已知函数的线性方程决定 Wang与Jing 2001 Wang与 Vang 2001 Wang与Li 2002 Wang与Rao 2001 Wang与Rao 2002a b c 推广Owen在完全样本下的经验似然方法到上面所提到的三种不完全数据类型的统计推断Wang与Jing 2001 Qin与Jing 2001 Wang与Li 2002 及Li与Wang 2002 在随机删失下发展了生存分布一类泛函 处理差异 随机删失线性及部分线性模型的统计推断 至于经验似然在测量误差模型中的应用 Wang Rao 2002 不假设任何误差模型结构而是在核实数据帮助下 推广经验似然方法到协变量有测量误差的线性模型 定义了一种渐近分布是加权卡方的被估计的经验对数似然 由于权未知因而该结果不能直接应用到统计推断 为了克服这一困难 Wang与Rao使用下面三种方法 第一种方法是通过给出未知权的相合估计使得被估计的加权卡方能通过MonteCarlo模拟计算获得 然后应用这一加权分布的近似分布构造被估计的经验似然置信区间 第二种方法是通过调整使得调整后的经验对数似然渐近标准卡方并应用这一结果构造调整的经验似然置信区间 第三种方法是定义一种部分光滑的bootstrap经验似然及部分光滑bootstrap经验似然置信区间 关于数据missing时的经验似然推断 这方面王启华与合作者J N K Rao的做了很多工作 Wang与Rao 2001 Wang与Rao 2002a b c 分别在线性imputation和非参数核回归imputation下发展了反映数据misssing时的经验似然推断 近年祝丽萍 2011 讨论了缺失数据下的经验似然的冗余性问题 谢锦瀚 2015 研究带有不可忽略缺失数据的广义线性模型的经验似然推断 杨志煌 2015 研究不可忽略缺失数据下非线性模型的经验似然推断 他将经验似然方法应用到带有不可忽略响应变量缺失的非线性模型 所有的目标参数的经验似然估计量或者经验似然函数将通过两步获得 第一步 假设缺失机制是一个参数Logistic回归模型后 应用极大似然估计方法可以得到缺失概率 倾向得分函数 的一个相合估计 一旦获得缺失概率的相合估计 基于指数倾斜模型 可获得三个渐进无偏的估计方程 近来的研究情况 1 Empiricallikelihoodforhigh dimensionallinearregressionmodels2 Highdimensionalgeneralizedempiricallikelihoodformomentrestrictionswithdependentdata3 Empiricallikelihoodinferenceinlinearregressionwithnonignorablemissingresponse 什么是高维数据 高维数据的概念其实不难 简单的说就是多维数据的意思 平时我们经常接触的是一维数据或者可以写成表形式的二维数据 高维数据也可以类推 不过维数较高的时候 直观表示很难 目前高维数据挖掘是研究重点 这是它的特点 高维数据挖掘是基于高维度的一种数据挖掘 它和传统的数据挖掘最主要的区别在于它的高维度 目前高维数据挖掘已成为数据挖掘的重点和难点 随着技术的进步使得数据收集变得越来越容易 导致数据库规模越来越大 复杂性越来越高 如各种类型的贸易交易数据 Web文档 基因表达数据 文档词频数据 用户评分数据 WEB使用数据及多媒体数据等 它们的维度 属性 通常可以达到成百上千维 甚至更高 什么是高维数据 由于高维数据存在的普遍性 使得对高维数据挖掘的研究有着非常重要的意义 但由于 维灾 的影响 也使得高维数据挖掘变得异常地困难 必须采用一些特殊的手段进行处理 随着数据维数的升高 高维索引结构的性能迅速下降 在低维空间中 我们经常采用欧式距离作为数据之间的相似性度量 但在高维空间中很多情况下这种相似性的概念不复存在 这就给高维数据挖掘带来了很严峻的考验 一方面引起基于索引结构的数据挖掘算法的性能下降 另一方面很多基于全空间距离函数的挖掘方法也会失效 解决的方法可以有以下几种 可以通过降维将数据从高维降到低维 然后用低维数据的处理办法进行处理 对算法效率下降问题可以通过设计更为有效的索引结构 采用增量算法及并行算法等来提高算法的性能 对失效的问题通过重新定义使其获得新生 李吉妮 2014 研究单指标模型的高维惩罚经验似然 单指标模型是广义回归中一种特殊的半参数模型 是处理多元非参数回归问题的有效工具 应用非常广泛 近二十年 高维数据的变量选择问题已成为统计及其相关领域中研究的热点之一 在处理高维数据时 单指标模型的降维特性不仅有效地避免了 维数灾难 curseofdimensionality 问题 还抓住了高维数据的稀疏特性 有关运用单指标模型讨论变量选择方法的文章层出不穷 但大部分都是针对参数维数p是固定时的情况 然而在很多高维的变量选择问题中 参数维数p一般都会随着样本容量n的增大而同时增大 因此 在本文中 我们对单指标模型提出了一种稳健的变量选择方法 基于SCAD SmoothlyClippedAbsoluteDeviation 惩罚函数及经验似然的惩罚经验似然 在一定正则条件下 发现参数维数p随样本量n同时增大的惩罚经验似然估计仍具有Oracle性质 Agoodpenaltyfunctionshouldresultinanestimatorwiththreeproperties 1 Unbiasedness Theresultingestimatorisnearlyunbiasedwhenthetrueunknownparameterislargetoavoidunnecessarymodelingbias 2 Sparsity Theresultingestimatorisathresholdingrule whichautomaticallysetssmallestimatedcoeffcientstozerotoreducemodelcomplexity 3 Continuity Theresultingestimatoriscontinuousindataztoavoidinstabilityinmodelprediction 韩慧 2011 讨论关于部分线性模型的惩罚高维经验似然 刘琦 2012 广义线性模型的惩罚高维经验似然 4 Empiricallikelihoodtestforhighdimensionallinearmodels 5 Jackknifeempiricallikelihoodtestforhigh dimensionalregressioncoefficients 数据维数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中级健身教练专业资格认证考试模拟题及答案
- 2025年人力资源师考试模拟题及备考指南
- 2025年精密温控节能设备项目合作计划书
- 2025年脚踏自行车及其零件合作协议书
- 2025年智能计量终端项目建议书
- 2025年电容器用钽粉合作协议书
- 抛物线课件教学课件
- 2025年建筑材料及制品专用生产机械合作协议书
- 抗菌药物教学课件
- 2025年安徽省蚌埠市龙子湖区中考数学三模试卷(含答案)
- 一例CAG循证护理查房
- 安全生产投入台账(模板)
- 委托书办理压力容器使用登记证
- 关于房产权属的案外人执行异议申请书
- 举升机检查表
- 高中创作性戏剧课程设计
- 统计造假弄虚作假自查范文(通用5篇)
- (完整版)数字1到10的描红(田字格带笔画提示)
- 2023学年完整公开课版中国疆域
- 机械加工安全隐患排查表
- 12K101-3 离心通风机安装
评论
0/150
提交评论