文本分类过程PPT学习课件

上传人：文*** IP属地：广东上传时间：2020-04-19 格式：PPT 页数：18 大小：8.55MB 积分：12 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

文本分类概述互联网使得信息的传播速度以及规模达到了空前的水平信息爆炸已成为人们必须面对的问题从数据海洋中迅速准确获取所需要的信息变得非常困难当前的知识信息主要以文本作为载体大部分文本信息以非结构化或半结构化的形式存在如电子邮件电子文档以及电子档案等它们不易被机器理解也不可能完全依靠人工进行管理因此采用信息化手段通过机器学习方法对这些文本信息进行处理显得尤为重要文本分类技术 TextCategorization TC 作为组织和管理文本信息的有效手段主要任务是自动分类无标签文档到预定的类别集合中文本可以是媒体新闻科技报告电子邮件网页书籍或像微博一样的一段语料由于类别时事先定义好的因此分类是有监督的文本分类过程现实世界中数据大体上都是不完整不一致的数据无法直接进行数据挖掘或挖掘结果差强人意为了提高数据挖掘的质量产生了数据预处理技术数据预处理有多种方法数据清理数据集成数据变换数据归约等这些数据处理技术在数据挖掘之前使用大大提高了数据挖掘模式的质量降低实际挖掘所需要的时间分词是将文本处理为独立的特征即切分成词主要针对东方语言如汉语阿拉伯语等因为这类语言是整个句子连接在一起的每个词特征之间不是独立的对于西方语言如英语法语等这类语言的每个词之间都有空格相互分隔也就不需要进行分词处理去除停用词即的了之类的没有实际意义的词 R语言支持用户对停用词表进行自定义文本不能被计算机识别特征表示是指将实际的文本内容变成机器内部的表示结果特征表示有两个步骤即特征表示与特征权重计算特征表示指特征提取的方式权重计算指将特征转换为语言相似度的权重值向量空间模型在向量空间模型 VectorSpaceModel VSM 中文档的内容被表示为特征空间中的一个向量每条语料中的每个词对应一个数值即每条语料对应一组数值形成一个向量布尔模型布尔模型本质上是向量空间模型的一种特殊表示形式这种表示方式同样也是将文档表示为特征空间中的一个向量主要区别为第i个特征在文档中是否出现出现的频率采用 0 和 1 来代表 0 代表特征在当前文档中没有出现 1 代表特征在当前文档中出现特征表示方法权重计算方法 TF IDF TF IDF函数用来表示特征项的重要程度词频 TF 即一个特征项在某一文档中出现的次数反映了某一个特征项对该文本的重要性倒文档频度 IDF 这一分量反映了某一特征项区别于其他文档的程度是一个关键词在整个数据全局中重要性的全局性统计特征称为倒文档频度 TF IDF主要基于以下两个理论依据在一个文本中出现次数很多的单词在另一个同类文本中出现的也会很多反之亦然所以将TF 词频作为测度一个词条出现的文本频数越小它区别不同类别的能力就越大故引入了IDF 逆文本频数的概念特征选择 FeatureSelection 也称特征子集选择 FeatureSubsetSelection FSS 是指从全部特征中选取一个特征子集使构造出来的模型更好在机器学习的实际应用中特征数量往往较多其中可能存在不相关的特征特征之间也可能存在相互依赖容易导致如下的后果特征个数越多分析特征训练模型所需的时间就越长特征个数越多容易引起维度灾难模型也会越复杂其推广能力会下降特征选择能剔除不相关 irrelevant 或冗余 redundant 的特征从而达到减少特征个数提高模型精确度减少运行时间的目的另一方面选取出真正相关的特征简化了模型使研究人员易于理解数据产生的过程过滤方法 FilterApproach 使用某种独立于数据挖掘任务的方法在数据挖掘算法运行之前进行特征选择即先过滤特征集产生一个最有价值的特征子集或者说过滤方法只使用数据集来评价每个特征的相关性它并不直接优化任何特定的分类器也就是说特征子集的选择和后续的分类算法无关封装方法 WrapperApproach 将学习算法的结果作为特征子集评价准则的一部分根据算法生成规则的分类精度选择特征子集该类算法具有使得生成规则分类精度高的优点但特征选择效率较低封装方法与过滤方法正好相反它直接优化某一特定的分类器使用后续分类算法来评价候选特征子集的质量混合方法 HybridApproach 过滤方法和封装方法的结合先用过滤方法从原始数据集中过滤出一个候选特征子集然后用封装方法从候选特征子集中得到特征子集该方法具有过滤方法和封装方法两者的优点即效率高效果好常见的分类算法朴素贝叶斯分类器 NaiveBayesClassifier 或NBC 是基于贝叶斯定理与特征条件独立假设的分类方法 NBC模型所需估计的参数很少对缺失数据不敏感 K近邻算法 K NearestNeighbor KNN 核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别则该样本也属于这个类别并具有这个类别上样本的特性由于KNN方法主要靠周围有限的邻近的样本因此对于类域的交叉或重叠较多的待分样本集来说 KNN方法较其他方法更为适合支持向量机 SupportVectorMachine SVM 其分类思想是给定给一个包含正例和反例的样本集合 svm算法的目的是寻找一个超平面来对样本根据正例和反例进行分

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

文本分类过程PPT学习课件

文档简介

温馨提示

最新文档

评论

文本分类过程PPT学习课件

文档简介

温馨提示

最新文档

评论

相关文档