




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文本分类概述 互联网使得信息的传播速度以及规模达到了空前的水平 信息爆炸 已成为人们必须面对的问题 从数据海洋中迅速准确获取所需要的信息变得非常困难 当前的知识信息主要以文本作为载体 大部分文本信息以非结构化或半结构化的形式存在 如电子邮件 电子文档以及电子档案等 它们不易被机器理解也不可能完全依靠人工进行管理 因此 采用信息化手段通过机器学习方法对这些文本信息进行处理显得尤为重要 文本分类技术 TextCategorization TC 作为组织和管理文本信息的有效手段 主要任务是自动分类无标签文档到预定的类别集合中 文本可以是媒体新闻 科技 报告 电子邮件 网页 书籍或像微博一样的一段语料 由于类别时事先定义好的 因此分类是有监督的 文本分类过程 现实世界中数据大体上都是不完整 不一致的数据 无法直接进行数据挖掘 或挖掘结果差强人意 为了提高数据挖掘的质量产生了数据预处理技术 数据预处理有多种方法 数据清理 数据集成 数据变换 数据归约等 这些数据处理技术在数据挖掘之前使用 大大提高了数据挖掘模式的质量 降低实际挖掘所需要的时间 分词是将文本处理为独立的特征 即切分成词 主要针对东方语言 如 汉语 阿拉伯语等 因为这类语言是整个句子连接在一起的 每个词 特征 之间不是独立的 对于西方语言 如 英语 法语等 这类语言的每个词之间都有空格相互分隔 也就不需要进行分词处理 去除停用词 即的 了之类的没有实际意义的词 R语言支持用户对停用词表进行自定义 文本不能被计算机识别 特征表示是指将实际的文本内容变成机器内部的表示结果 特征表示有两个步骤 即特征表示与特征权重计算 特征表示指特征提取的方式 权重计算指将特征转换为语言相似度的权重值 向量空间模型 在向量空间模型 VectorSpaceModel VSM 中 文档的内容被表示为特征空间中的一个向量 每条语料中的每个词对应一个数值 即每条语料对应一组数值 形成一个向量 布尔模型 布尔模型本质上是向量空间模型的一种特殊表示形式 这种表示方式同样也是将文档表示为特征空间中的一个向量 主要区别为 第i个特征在文档中是否出现 出现的频率 采用 0 和 1 来代表 0 代表特征在当前文档中没有出现 1 代表特征在当前文档中出现 特征表示方法 权重计算方法 TF IDF TF IDF函数用来表示特征项的重要程度 词频 TF 即一个特征项在某一文档中出现的次数 反映了某一个特征项对该文本的重要性 倒文档频度 IDF 这一分量反映了某一特征项区别于其他文档的程度 是一个关键词在整个数据全局中重要性的全局性统计特征 称为倒文档频度 TF IDF主要基于以下两个理论依据 在一个文本中出现次数很多的单词 在另一个同类文本中出现的也会很多 反之亦然 所以将TF 词频 作为测度 一个词条出现的文本频数越小 它区别不同类别的能力就越大 故引入了IDF 逆文本频数 的概念 特征选择 FeatureSelection 也称特征子集选择 FeatureSubsetSelection FSS 是指从全部特征中选取一个特征子集 使构造出来的模型更好 在机器学习的实际应用中 特征数量往往较多 其中可能存在不相关的特征 特征之间也可能存在相互依赖 容易导致如下的后果 特征个数越多 分析特征 训练模型所需的时间就越长 特征个数越多 容易引起 维度灾难 模型也会越复杂 其推广能力会下降 特征选择能剔除不相关 irrelevant 或冗余 redundant 的特征 从而达到减少特征个数 提高模型精确度 减少运行时间的目的 另一方面 选取出真正相关的特征简化了模型 使研究人员易于理解数据产生的过程 过滤方法 FilterApproach 使用某种独立于数据挖掘任务的方法 在数据挖掘算法运行之前进行特征选择 即先过滤特征集产生一个最有价值的特征子集 或者说 过滤方法只使用数据集来评价每个特征的相关性 它并不直接优化任何特定的分类器 也就是说特征子集的选择和后续的分类算法无关 封装方法 WrapperApproach 将学习算法的结果作为特征子集评价准则的一部分 根据算法生成规则的分类精度选择特征子集 该类算法具有使得生成规则分类精度高的优点 但特征选择效率较低 封装方法与过滤方法正好相反 它直接优化某一特定的分类器 使用后续分类算法来评价候选特征子集的质量 混合方法 HybridApproach 过滤方法和封装方法的结合 先用过滤方法从原始数据集中过滤出一个候选特征子集 然后用封装方法从候选特征子集中得到特征子集 该方法具有过滤方法和封装方法两者的优点 即效率高 效果好 常见的分类算法 朴素贝叶斯分类器 NaiveBayesClassifier 或NBC 是基于贝叶斯定理与特征条件独立假设的分类方法 NBC模型所需估计的参数很少 对缺失数据不敏感 K近邻算法 K NearestNeighbor KNN 核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别 则该样本也属于这个类别 并具有这个类别上样本的特性 由于KNN方法主要靠周围有限的邻近的样本 因此对于类域的交叉或重叠较多的待分样本集来说 KNN方法较其他方法更为适合 支持向量机 SupportVectorMachine SVM 其分类思想是给定给一个包含正例和反例的样本集合 svm算法的目的是寻找一个超平面来对样本根据正例和反例进行分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年机修工考试试题及答案
- 2025年机械设备点检员考试题库及答案
- 2025年航空企业机务工程师安全生产知识考试试题及答案
- 灼痛康复新路径-洞察及研究
- 做财务的面试题库及答案
- 高危边坡治理施工合同(3篇)
- qcc基础知识考试试题及答案
- n4护士考试试题及答案问答
- 大米种植户与收购商保底收购合同
- 个人租赁公共停车场车位使用合同
- 临床基于MDT平台下的“5A”护理模式在改善脑卒中后顽固性呃逆患者中应用
- 洁普利康抗HPVβ乳球蛋白高分子生物肽冷敷凝胶课件
- 坏死性筋膜炎49390课件
- JT∕T 651-2022 牵引杆挂车转盘
- 某公司项目启动会(38张)课件
- 全国水土保持规划国家级水土流失重点预防区和重点治理区复核划分
- DB13(J)∕T 269-2018 电动汽车充电站及充电桩建设技术标准
- 德国凯尔锚固技术公司石陶幕墙设计和施工中的应用
- 机动车交通事故快速处理协议书
- 临床营养支持小组工作方案
- GB∕T 16754-2021 机械安全 急停功能 设计原则
评论
0/150
提交评论