下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、用稀疏贝叶斯概率模型做文本分类1 全贝叶斯稀疏概率模型简介 现在,通常的协变量涉及数千或数百万的数据集。 一个常见 的问题是在处理脂肪的数据集时,协变量的数量远远超过样品。 例如,文本分类、基因表达分析、盗窃检测、临床诊断和一些商 业数据挖掘任务。 在文本分类中, 我们在几份文件中需要处理几 百甚至上千个词语。考虑到不同的类别,如数学,可以尝试根据 其内容分类的文字, 将其转换为变量回归作为回归协变量。 此外, 我们还需要注意每个特定的类别。 也就是说, 预测基于其词语组 成的文件的类型。然而,然而,许多协变量可以具有对类预测微 小的影响,使得它对一个时间的单个协变量分析不可能准确地确 定类别
2、。因此,这种方法可发现大量的协变量与协变量之间,面 向重要的词语是个好的发现。 很多领域都涉及重要的识别协变量 的回归模型的问题,有时也被称为特征选择。根据响应变量是离散或连续的, 不同的模型可以被用来执行 预测和评估。1.1 离散逻辑回归等用来拟合模型和分类响应变量。 使用逻辑回归的 缺点是:当协变量的数量大时,最大似然估计变成密集计算,有 时难以解决。此外,预测可能导致较差的预测精度差。1.2 连续线性回归模型被广泛应用, 以适应模型和连续反应变量。 然 而,这些模型缺乏准确性, 当设计到高维数据的设置和参数估计。 一个标准的方法是广泛用于回归模型提高预测和参数估计是子 集选择。子集选择是
3、一个离散的过程, 如淘汰, 选择,逐步选择。 然而,使用这些离散的过程可能会导致不一致的选择。 也就是说, 一个小的变化可能会导致非常不同的模型。此外,这些方法计算昂贵且不稳定的样本大小比协变量的数 目少的多。 鉴于上述模型的缺点, 研究人员试图开发出能够同时 分析多个协变量的方法。 在文本分类中, 响应变量或类别可以是 二进制或多项的量, 简单线性回归是不适用的。 替代处理分类响 应变量适于在本文中使用稀疏概率回归的方法。 稀疏概率回归被 用于使用标准正态分布的累积分布来链接协变量的分类响应变 量。在本文中,我们开发了一个稀疏概率单位贝叶斯模型 ( SPBM), 以避免过多问题并获得充分的条
4、件分布的所有参数。 虽然减少一 些不用的协变量为零,SPBM允许我们以识别具有最大的辨别能 力判别协变量较小的子集。 为了创建我们的模型, 我们首先建立 了多层贝叶斯层次模型。然后,根据制定的吉布斯采样算法,我 们使用马尔可夫链蒙特卡洛方法来估计与所述协变量相关联的 参数。发达SPBM自动收缩系数小到零,这是一个很大的灵活性, 以适应许多校正模型中的一个步骤。 最后, 拟合模型被用于执行 不同分类的数据集。 本文的其余部分将作如下安排, 在第 2 节中, 我们将首先简要介绍一下有关参数估计的不同方法相关工作。 然 后,我们将解释我们的方法,其中包括 SPB M采样,以及使用 的预测参数。我们最
5、后证明我们在部分应用程序和结果。2 SVM模型简介在本节中,我们将会使用参数估计的机器学习算法和其他重 要的方法的简单概述。支持向量机(SVM是用在机器学习来处 理高维和数据的稀疏性的一种替代。 虽然样本量小, 支持向量机 通常实现低测试错误。 有几篇论文报告了使用支持向量机用于可 变的选择的目的良好结果。然而,该方法有许多缺点,例如缺乏 概率输出和权衡参数估计的必要性,以利用 Mercer 内核函数。 我们引入了一个机器学习算法和概率主题建模(PTM。PTM旨在从文本中自动提取主题。 例如,如果我们将算法应用于过去几 个话语的政治家,它产生的经济,战争,作为输出。概率的相关 性建模是该算法提
6、取的主题。因此,在某些情况下,可以考虑最 额定主题作为文本的主题。然而,LDA的性能被一些研究人员比较后,无非是迭代键盘搜索算法。 该算法也仅限于文本中使用的 词语。举例来说,如果你正在寻找的意识,并给予有关土木工程 的算法作为输入的文本, 该算法只会告诉你关于建筑和结构。 另 一种方法用于在统计参数估计线性回归。 它是模拟的响应变量和 一个或多个协变量之间的关系的方法。 该方法已被广泛地用在不 同的应用程序。在线性回归模型中,普通最小二乘法(OLS被用来获取参数的估计。OLS通过最大限度地减少残余误差和估计 的参数。然而,该方法存在两个缺点:一是尽管由模型所获得的 估计的参数具有低的偏压,
7、往往有很大的差异, 降低了模型预测 的准确性;二是当有大量的协变量, 期望建立的参数的一小部分, 提供在响应变量作用最强。 OLS估计精度可以提高通过设置无关 紧要的协变量为零, 因此获得更准确的估计协变量。 我们将讨论 这个方法在我们的方法部分加以改进。逻辑回归是一种广义线性模型方法, 当响应变量分类时, 这 种方法可用于建模。 在文本分类中, 逻辑回归方法通常用于查找 最大似然估计。 例如,许多软件包使用牛顿迭代的迭代算法或费 舍尔的评分方法的变化。 要找到最大似然估计, 上述软件包实现 最大化的程序,它使用矩阵求逆。然而,当协变量的数量是非常 大的,矩阵求逆的方法是计算密集型的。因此,所
8、估计的结果往 往受到收敛精度差和缺乏真正价值, 其中相关的真值是全局最大 值。此外, 这些方法失败时参数的数量要远远超过预测数量的观 察。因此,上述方法不能进行参数估计和良好的协变量的分类。 因此,对于文本分类来分析数据集的样本大小远小于协变量的数 量,新方法是必需的。 另一种避免过度拟合高度正规化处罚回归 模型等方法。 这些模型需要确定非零系数, 提高模型的可预测性 并避免过度拟合。 避免过度拟合问题是一种广泛使用的模型, 该 模型可以通过收缩和正则化方法来提高参数估计性能, 通过减少 均方误差引入一些偏见。此外,通过在模型中诱导稀疏性,收缩 的方法突出重要的协变量。这些方法同时促进许多协变
9、量的分 析。为了避免在文本分类过度拟合问题,在文献 2 中,使用了 逻辑回归的贝叶斯方法。他们使用支持稀疏的先验概率分布模 型。这种模型是面向找出最大后验作为参数点估计的优化算法。 然而,它们的优化方法是一种局部优化, 从而导致点估计的参数。 因此,该方法不能提供完整的后验分布的参数。 其中, 最小绝对收缩和选择算子(LASSO,是一种非常有效的惩罚回 归方法之一。被广泛用于预测的模型拟合目的和响应变量。 LASSO 贝叶斯方法提出了双指数是用于实施稀疏模型参数。 允许数据自 适应选择之前,LASSO也可延长表达双指数分布的比例混合正态 分布曲线。在本文中,我们考虑一个稀疏概率单位贝叶斯模型, 通过分配双指数先验分布, 以有利于稀疏中使用的变量在数量方 面的参数。 此外, 这里所采用的完全贝叶斯方法为我们提供的参 数,可用于不同的预测和估算的目的后验分布。3 改进后的方法H (E(yi)=H ( P(yi=1)=x“ 3.1在这个公式中, xi 在文件 i 中是协变量。我们使用链接函 数 3.2 ,其对应于概率回归模型,并适用于二进制和多级的结果 的情况。H( P(yi=1 )=H(Pi )=?椎-1 ( Pi )3.2在该式中,?椎 -1 是标准正态分布的累积分布函数的倒数。 为了能够找到的参数的后验分布, 我们需要整合似然函数乘以所 有参数的联
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年区块链金融服务系统可行性研究报告及总结分析
- 2025年商业航空服务升级项目可行性研究报告及总结分析
- 2025年先进制造技术创新中心建设项目可行性研究报告及总结分析
- 2025年罗非鱼养殖场租赁合同协议
- 2025年城市空气质量监测系统建设可行性研究报告及总结分析
- 2025年零食产品代销合同
- 2022年AOPA无人机多轴题库
- 2025年城市绿地系统建设项目可行性研究报告及总结分析
- 2025年老年食堂服务合同
- 2025年绿色物流行业发展可行性研究报告及总结分析
- 2025年及未来5年中国过硼酸钠行业发展监测及投资战略规划研究报告
- 道路运输企业档案管理制度
- 2025至2030中医医院行业项目调研及市场前景预测评估报告
- 2026年高考作文备考之议论文主体段落写作指导:“五层结构法”详解
- 2025版食管胃交界癌诊疗指南
- 2025年学法考试广东考场一试题及答案本
- 北京市朝阳区2025-2026学年高三上学期期中质量检测化学试题(含答案)
- 2025年法律职业伦理试题和答案
- 2025北京国家电投集团创新投资招聘1人笔试历年常考点试题专练附带答案详解2套试卷
- 集成电路芯片设计企业组织架构详解
- 消音百叶施工方案
评论
0/150
提交评论