




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,文本分类概述,互联网使得信息的传播速度以及规模达到了空前的水平。“信息爆炸”已成为人们必须面对的问题。从数据海洋中迅速准确获取所需要的信息变得非常困难。,当前的知识信息主要以文本作为载体,大部分文本信息以非结构化或半结构化的形式存在,如电子邮件、电子文档以及电子档案等,它们不易被机器理解也不可能完全依靠人工进行管理。因此,采用信息化手段通过机器学习方法对这些文本信息进行处理显得尤为重要。,文本分类技术(TextCategorization,TC)作为组织和管理文本信息的有效手段,主要任务是自动分类无标签文档到预定的类别集合中。,文本可以是媒体新闻、科技、报告、电子邮件、网页、书籍或像微博一样的一段语料。由于类别时事先定义好的,因此分类是有监督的。,文本分类过程,现实世界中数据大体上都是不完整,不一致的数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。,分词是将文本处理为独立的特征,即切分成词,主要针对东方语言,如:汉语、阿拉伯语等,因为这类语言是整个句子连接在一起的,每个词(特征)之间不是独立的。对于西方语言,如:英语、法语等,这类语言的每个词之间都有空格相互分隔,也就不需要进行分词处理。,去除停用词,即的、了之类的没有实际意义的词。R语言支持用户对停用词表进行自定义。,文本不能被计算机识别,特征表示是指将实际的文本内容变成机器内部的表示结果。特征表示有两个步骤,即特征表示与特征权重计算。特征表示指特征提取的方式;权重计算指将特征转换为语言相似度的权重值。,向量空间模型,在向量空间模型(VectorSpaceModel,VSM)中,文档的内容被表示为特征空间中的一个向量。每条语料中的每个词对应一个数值,即每条语料对应一组数值,形成一个向量。布尔模型,布尔模型本质上是向量空间模型的一种特殊表示形式,这种表示方式同样也是将文档表示为特征空间中的一个向量,主要区别为:第i个特征在文档中是否出现(出现的频率)采用“0”和“1”来代表,“0”代表特征在当前文档中没有出现,“1”代表特征在当前文档中出现。,特征表示方法:,权重计算方法:,TF-IDF:TF-IDF函数用来表示特征项的重要程度。词频(TF):即一个特征项在某一文档中出现的次数,反映了某一个特征项对该文本的重要性。倒文档频度(IDF):这一分量反映了某一特征项区别于其他文档的程度,是一个关键词在整个数据全局中重要性的全局性统计特征,称为倒文档频度。TF-IDF主要基于以下两个理论依据:在一个文本中出现次数很多的单词,在另一个同类文本中出现的也会很多,反之亦然,所以将TF(词频)作为测度;一个词条出现的文本频数越小,它区别不同类别的能力就越大,故引入了IDF(逆文本频数)的概念。,特征选择(FeatureSelection)也称特征子集选择(FeatureSubsetSelection,FSS),是指从全部特征中选取一个特征子集,使构造出来的模型更好。在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的后果:特征个数越多,分析特征、训练模型所需的时间就越长。特征个数越多,容易引起“维度灾难”,模型也会越复杂,其推广能力会下降。特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。,过滤方法(FilterApproach):使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行之前进行特征选择,即先过滤特征集产生一个最有价值的特征子集。或者说,过滤方法只使用数据集来评价每个特征的相关性,它并不直接优化任何特定的分类器,也就是说特征子集的选择和后续的分类算法无关。封装方法(WrapperApproach):将学习算法的结果作为特征子集评价准则的一部分,根据算法生成规则的分类精度选择特征子集。该类算法具有使得生成规则分类精度高的优点,但特征选择效率较低。封装方法与过滤方法正好相反,它直接优化某一特定的分类器,使用后续分类算法来评价候选特征子集的质量。混合方法(HybridApproach):过滤方法和封装方法的结合,先用过滤方法从原始数据集中过滤出一个候选特征子集,然后用封装方法从候选特征子集中得到特征子集。该方法具有过滤方法和封装方法两者的优点,即效率高,效果好。,常见的分类算法:朴素贝叶斯分类器(NaiveBayesClassifier,或NBC),是基于贝叶斯定理与特征条件独立假设的分类方法。NBC模型所需估计的参数很少,对缺失数据不敏感。K近邻算法(K-NearestNeighbor,KNN),核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。由于KNN方法主要靠周围有限的邻近的样本,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。支持向量机(SupportVectorMachine,SVM),其分类思想是给定给一个包含正例和反例的样本集合,svm算法的目的是寻找一个超平面来对样本根据正例和反例进行分割。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大学课件被改
- 邢台市中医院作业治疗评估考核
- 邢台市中医院管理潜能如班组管理情景模拟测试
- 衡水市人民医院疑似医院感染暴发时内镜追溯演练试题
- 张家口市中医院Lisfranc损伤诊断与治疗考核
- 大学规划课件
- 2025江西省中小学教师及特岗教师招聘笔试有关事项提示模拟试卷及一套参考答案详解
- 2025第二人民医院不稳定骨盆骨折外固定架考核
- 张家口市中医院内镜治疗术中配合高级护士认证考核
- 2025年安徽省通航控股集团有限公司校园招聘4人考前自测高频考点模拟试题及答案详解(历年真题)
- 体育老师读书分享:运动与人生
- 2025年安全员考试题库及参考答案完整版
- 财务风险防控与内控管理方案
- 动漫艺术概论考试卷子及答案
- 售电入门基础知识培训课件
- 2024年时事政治考试题库有答案
- 知道智慧树林业工程前沿进展满分测试答案
- 小儿镇静课件
- 2025年药店员工培训考试试题(附答案)
- 民办学校招生方案及推广策略实操指南
- 2026届新高考英语热点冲刺复习读后续写十句五定法
评论
0/150
提交评论