基于贝叶斯的文本自动分类的研究和实现.doc

上传人：简*** IP属地：湖北上传时间：2020-04-14 格式：DOC 页数：16 大小：217.01KB 积分：9.6 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

毕业设计论文 I 毕业设计论文任务书题目基于贝叶斯的文本自动分类的研究和实现专业学号姓名主要内容基本要求主要参考资料等近年来随着 Internet 的大规模普及和企业信息化程度的提高有越来越多的信息积累而需要信息的人还没有特别方便的工具去从来自异构数据源的大规模的文本信息资源中提取符合需要的简洁精炼可理解的知识文本挖掘正是解决这一问题的一个方法本课题研究基于贝叶斯的文本分类系统可以用于以下领域和系统中企业知识门户信息增值服务智能搜索引擎数字图书馆情报分析信息安全和过滤电子商务系统文本自动分类不需人工干预的自动分类技术有效提高非结构化信息资源的加工效率利用朴素贝叶斯分类文法的分类器分析已经手动分类的文本根据文本内容计算分类条件概率再利用训练好的分类器分析未分类的文本根据分类器算出的所属领域概率最大的进行分类本课题任务要求 1 学习关于朴素贝叶斯分类文法查找相关的资料以供参考 2 实现朴素贝叶斯分类文法的分类器 3 人工对样本数据进行分类和标注 4 利用贝叶斯分类文法的分类器利用样本进行训练然后对分类数据进行自动分类 5 根据分类结果调整分类阈值弥补分类器的不足 6 根据实验数据和结果按时完成毕业设计论文主要参考资料贝叶斯分类算法的论文和资料未分类文本语料完成期限指导教师签章专业负责人签章年月日毕业设计论文 II 摘要随着计算机技术和通讯技术的飞速发展人们可以获得越来越多的数字化信息但同时也需要投入更多的时间对信息进行组织和管理为了减轻这种负担人们开始研究使用计算机对文本进行自动分类文本自动分类就是在给定的分类体系下让计算机根据文本的内容确定与它相关联的类别自动文本分类是人工智能技术和信息获取技术相结合的研究领域随着网络的发展大量的文档数据涌现在网上用于处理海量数据的自动文本分类技术变得越来越重要已逐渐成为处理和组织大量文档数据的关键技术通过分析 kNN k Nearest Neighbor 朴素贝叶斯 Naive Bayes SVM Support Vector Machine 三种文本分类方法的优点和缺点发现朴素贝叶斯分类器速度极快具有最小的出错率可在线化实现等优点并对该分类方法进行了理论分析和实验对比实验结果表明这种文本分类模型是高效的可行的本文首先介绍了基于贝叶斯的文本自动分类的研究和实现的背景并且叙述了相关问题的概念知识包括文本分类和中文分词等其次对相关的理论知识做了讲解包括先验概率条件概率贝叶斯理论贝叶斯算法等第三对如何实现文本分类进行了概述以及整体讲解通过给出流程图可以更直观的了解实现的过程第四详细介绍了实现本课题所用到的重要工具包括 JBuilder2007 开发工具和全文检索引擎 Lucene 以及 Java 平台第五在前期工作基础上给出了详细的实现过程包括单文本分类和多文本分类以及相关具体操作最后通过多次大量重复试验得出了实验数据在此通过表格的形式直观的给出了实验结果本课题研究基于贝叶斯的文本分类系统根据所讨论的算法构造了贝叶斯文本自动分离器并做出详尽的训练测试从最终的试验结果可以看出贝叶斯算法简单性能优越即使在不考虑贝叶斯假设的前提下仍然取得良好的分类性能关键字文本自动分类贝叶斯分类分类文本语料库毕业设计论文 III Abstract With the computer technology and the rapid development of communication technology people can get more and more digital information but it also needs to devote more time to organize and manage information In order to alleviate that burden people began to study the use of computers for automatic classification of text Automatic text categorization is the classification of a given system the computer determined in accordance with the contents of the text associated with its category Automatic text classification is the artificial intelligence technology and access to information technology research field With the development of network data on the emergence of a large number of documents online to deal with massive data technology of automatic text classification is becoming increasingly important has become an increasingly large number of document processing and organization of the key technologies of data By analyzing the k Nearest Neighbor Naive Bayes Support Vector Machine method of text classification in three strengths and weaknesses found in Naive Bayesian classifier speed with the smallest error rate can achieve the advantages of online technology and the classification of the theoretical analysis and experimental comparison experimental results show that the text categorization model is feasible and efficient This paper first introduces the Bayesian based text categorization of the research and realization of the background and describes the issues related to the concept of knowledge including text classification and Chinese word segmentation Second the relevant theoretical knowledge to do the explaining including a priori probability conditional probability Bayesian theory the Bayesian algorithm Third on how to achieve the outlined text classification as well as on the whole through the given flow chart you can achieve a more intuitive understanding of the process Fourth in detail on achieving this important task by use of tools including development tools and JBuilder2007 full text search engine Lucene and Java platform Fifth prior to the adoption of the work detailed in this paper the realization of the process including single and multi text classification text categorization and related specific operations Finally a large number of repeat tests many times the experimental data obtained in this 毕业设计论文 IV form through the form intuitive experimental results are given The research based on Bayesian text classification system according to the algorithm discussed in the text automatically constructed Bayesian separator and training to make a detailed test results from the final we can see that the Bayesian algorithm is simple superior performance even without taking into account the assumption that the premise of Bayesian still achieve good classification performance Keywords Automatic Text Categorization Bayesian Classifier Classification of text corpora 毕业设计论文 1 目录目录 1 绪论 2 1 1 研究背景 2 1 2 文本分类的研究现状 2 1 3 分类的含义 3 1 4 文本分类的含义 3 1 5 自动分类 3 1 6 中文分词 3 1 7 中文分词的意义和作用 4 1 8 中文分词的应用 4 1 9 本文的组织 4 2 条件概率 6 2 1 条件概率定义 6 2 2 全概率公式和贝叶斯公式 6 2 3 贝叶斯学习理论 6 2 4 朴素贝叶斯分类 7 2 5 贝叶斯文本分类算法 9 2 6 文本自动分类的特点 10 3 设计概述 11 3 1 流程图 11 3 2 概要设计 14 4 系统开发环境 15 4 1 JAVA 15 4 2 开放源代码的全文检索引擎 LUCENE简介 16 5 贝叶斯的文本自动分类的分析与设计 19 5 1 引言 19 5 2 详细设计 19 5 3 程序实现 29 5 4 试验数据 35 6 结论 36 全文总结 36 未来展望 36 致谢 37 参考文献 38 毕业设计论文 2 1 绪论 1 1 研究背景我们正处在一个信息急剧丰富的时代据 1998 年的统计结果显示全世界每年出版大约 15600 种期刊而且这一数字以每年 12000 种的速度递增同期仅美国国内就有近 140 万种图书在付印这一数据还以平均每年 6 万种的速度在增加 1998 年美国国会图书馆藏书约 1700 万种而平均每天接收到的新书就多达 7000 种另一个增长惊人的信息渠道是 Internet 1999 年的统计结果表明 Internet 上约有 3 5 亿个静态 HTML HyperText Markup Language 超文本标记语言页面每天增加将近 100 万这些页面大部分是以文本文档的形式存在而我们日常所接触的信息也绝大部分是文本的形式它们或以印刷品的方式存在或以电子文档的形式出现尤其是近十年来随着网络的飞速发展数字图书馆的出现越来越多的文本信息以电子文档的形式存在面对如此庞大而又急剧膨胀的信息海洋如何有效地组织和管理这些信息并能快速准确全面地从中找到用户所需要的信息是当前信息科学与技术领域所面临的一大挑战文本分类作为处理和组织大量文本数据的关键技术可以在较大程度上解决信息的纷繁杂乱问题方便用户快度准确地定位所需要的信息因此自动文本分类已作为一项具有较大实用价值的关键技术得到了广泛关注取得了很大进展 1 2 文本分类的研究现状国外文本数据分类的研究始于 20 世纪 50 年代末 Luhn 在这一领域进行了开创性的研究其后许多学者在这一领域进行了卓有成效的研究国外文本数据分类研究大体上可以分为三个阶段第一阶段是 20 世纪 80 年代前在这一时期模式识别和信息检索相继发展成一门学科这一阶段主要是集中在对分类理论的研究应用方面则主要是用于信息检索第二阶段是 20 世纪 80 年代到 90 年代这一阶段主要是采用传统的知识工程技术在这一时期信息检索技术逐渐成熟应用为文本分类提供了许多技术支持第三阶段是 20 世纪 90 年代以后互连网技术的发展文本数据量急剧增加这种耗时灵活性差应用难度大的知识工程方法越来越不能满足实际应用的需要于是逐渐被机器学习的方法取而代之基于机器学习的文本分类方法克服了以前手工建立分类器的缺点使得文本分类具有了真正的实用价值这一时期分类器的特点一是分类知识来源于机器对训练集的自动学习不再依赖于专家二是学习和分类过程不需要人工干预分类效率和准确率都有很大提高所谓机器学习是指由计算机代替人来学习关于认识世界改造世界的知识国内文本数据分类研究起步较晚始于 20 世纪 80 年代初期我国文本分类的研究大体上经历了可行性探讨辅助分类自动分类系统三个发展阶段早期对中文文本的分类研究较少采用的技术也主要是把英文文本分类的技术应用到中文文本分类毕业设计论文 3 当中自上世纪 90 年代后期才开始着重于对中文文本分类的研究结合中文文本的特点形成中文文本数据分类研究体系文本分类方面的文献也非常丰富常见于信息检索机器学习知识挖掘与发现模式识别人工智能计算机科学与应用等各种国际会议及相关的期刊或杂志 1 3 分类的含义广义的分类 classification 或者 categorization 有两种含义一种含义是有指导的学习 supervised learning 过程另一种是无指导的学习 unsupervised learning 过程通常前者称为分类后者称为聚类 clustering 后文中提到的分类是指有指导的学习过程给定分类体系将文本集中的每个文本分到某个或者某几个类别中这个过程称为文本分类 text categorization 1 4 文本分类的含义文本分类过程可以分为手工分类和自动分类前者最著名的实例是 yahoo 的网页分类体系是由专家定义了分类体系然后人工将网页分类这种方法需要大量人力现实中已经采用的很少了自动文本分类 automatic text categorization 算法大致可以分为两类知识工程 knowledge engineering 方法和机器学习 machine learning 方法知识工程方法指的是由专家为每个类别定义一些规则这些规则代表了这个类别的特征自动把符合规则的文档划分到相应的类别中这方面最著名的系统是 CONSTRUE 上个世纪 90 年代之后机器学习方法成为主导机器学习方法与知识工程方法相比能够达到相似的精确度但是减少了大量的人工参与下面主要介绍基于机器学习方法的文本分类 1 5 自动分类 1 自动分类基于内容不需人工干预的文本自动分类技术系统提供分类训练工具允许用户自行根据自己的分类需求和数据特点设定分类结构自动生成特征模板进行分类训练 TRS 自动分类支持反馈学习机制可以根据用户的反馈自动对分类模板进行完善从而逐步增加分类的准确率 2 自动分类是利用模式识别技术实现对遥感影像内容的自动标志识别和分类即计算机辅助判读通常采用特征空间识别方法是建立在概率论和数理统计基础上立足于寻找能反映影像特点的一些特征经过信息压缩特征抽取特征选择和决策规划来识别地物的计算机自动分类方法 1 6 中文分词什么是中文分词中文分词与其他的分词又有什么不同呢分词就是将连续的字序列按照一定的规范重新组合成词序列的过程我们知道在英文的行文中单词之间是以空格作为自然分界符的而中文只是字句和段可以通过明显的分界符来简单划界唯独词没有一个形式上的分界符虽然英文也同样存在短语的划分问题但是在词这一层上中文比之英文要复杂的多困难的多毕业设计论文 4 1 7 中文分词的意义和作用要想说清楚中文分词的意义和作用就要提到智能计算技术智能计算技术涉及的学科包括物理学数学计算机科学电子机械通讯生理学进化理论和心理学等等简单的说智能计算就是让机器能看会想能听会讲要想实现这样的一个目标首先就要让机器理解人类的语言只有机器理解了人类的语言文字才使得人与机器的交流成为可能再反观我们人类的语言中词是最小的能够独立活动的有意义的语言成分所以对于中文来讲将词确定下来是理解自然语言的第一步只有跨越了这一步中文才能像英文那样过渡到短语划分概念抽取以及主题分析以至于自然语言理解最终达到智能计算的最高境界实现人类的梦想从现阶段的实际情况来看英文已经跨越了分词这一步也就是说在词的利用上已经先我们一步并且已经展现了良好的应用前景无论是信息检索还是主题分析的研究都要强于中文究其根本原因就是中文要通过分词这道难关只有攻破了这道难关我们才有希望赶上并超过英文在信息领域的发展所以中文分词对我们来说意义重大可以说直接影响到使用中文的每一个人的方方面面 1 8 中文分词的应用中文分词主要应用于信息检索汉字的智能输入中外文对译中文校对自动摘要自动分类等很多方面下面就以信息检索为例来说明中文分词的应用通过近几年的发展互联网已经离我们不再遥远互联网上的信息也在急剧膨胀在这海量的信息中各类信息混杂在一起要想充分利用这些信息资源就要对它们进行整理如果由人来做这项工作已经是不可能的而如果面对中文信息不采用分词技术那么整理的结果就过于粗糙而导致资源的不可用例如制造业和服务业是两个不同的行业和我们出口日本的和服比去年有所增长中都有和服而被当作同一类来处理结果是检索和服的相关信息会将他们都检索到在信息量少的情况下似乎还能够忍受如果是海量信息这样的结果就会令人讨厌了通过引入分词技术就可以使机器对海量信息的整理更准确更合理在制造业和服务业是两个不同的行业中和服不会被当作一个词来处理那么检索和服当然不会将它检索到使得检索结果更准确效率也会大幅度的提高所以中文分词的应用会改善我们的生活使人们真正体会到科技为我所用 1 9 本文的组织本文的第一章是绪论介绍本文的研究背景国内外研究现状主要研究内容和文章的组织其中介绍了重要概念包括文本分类和中文分词第二章详细介绍了条件概率通过举例说明贝叶斯概率公式的应用介绍了文本自动分类的特点描述了贝叶斯文本分类算法通过公式说明了朴素贝叶斯分类还讲解了贝叶斯学习理论以及简单说明了下全概率公式和贝叶斯公式其中主要讲解了贝叶斯分类并且利用表格详细说明毕业设计论文 5 第三章说明了程序的设计思想给出了直观的流程图以及整个设计的框架这里只是粗略的说明了下设计思想在后面章节还有详细说明第四章重点的说明了程序设计的工作环境讲述了其中重要的辅助工具其中包括 JBuilder2007 开发工具和 Lucene 全文检索引擎以及 JAVA 平台第五章也是本文的重点详细说明了程序设计思想以及具体操作过程通过实验得到结果验证了基于贝叶斯的文本自动分类的有效性是一种非常有前途的文本分类最后给出了全文的总结并对今后的研究工作进行了展望毕业设计论文 6 2 条件概率 2 1 条件概率定义定义定义设 A B 是两个事件且 P A 0 称 P B A P AB P A 为在条件 A 下发生的条件事件 B 发生的条件概率乘法公式乘法公式设 P A 0 则有 P AB P B A P A 2 2 全概率公式和贝叶斯公式定义定义设 S 为试验 E 的样本空间 B1 B2 Bn为 E 的一组事件若 BiBj i j i j 1 2 n B1 B2 Bn S 则称 B1 B2 Bn为样本空间的一个划分定理定理设试验 E 的样本空间为 S A 为 E 的事件 B1 B2 Bn为的一个划分且 P Bi 0 i 1 2 n 则 P A P A B1 P B1 P A B2 P B2 P A Bn P Bn 称为全概率公式定理定理设试验 E 的样本空间为 S A 为 E 的事件 B1 B2 Bn为的一个划分则 P Bi A P A Bi P Bi P B Aj P Aj P B Ai P Ai P B 称为贝叶斯公式下面我再举个简单的例子来说明下考虑一个医疗诊断问题有两种可能的假设 1 病人有癌症 2 病人无癌症样本数据来自某化验测试它也有两种可能的结果阳性和阴性假设已经有先验知识在所有人口中只有 0 008 的人患病此外化验测试对有病的患者有 98 的可能返回阳性结果对无病患者有 97 的可能返回阴性结果上面的数据可以用以下概率式子表示 P cancer 0 008 P 无 cancer 0 992 P 阳性 cancer 0 98 P 阴性 cancer 0 02 P 阳性无 cancer 0 03 P 阴性无 cancer 0 97 假设现在有一个新病人化验测试返回阳性是否将病人断定为有癌症呢可以计算极大后验假设 P 阳性 cancer p cancer 0 98 0 008 0 0078 P 阳性无 cancer p 无 cancer 0 03 0 992 0 0298 因此应该判断为无癌症 2 3 贝叶斯学习理论贝叶斯是一种基于概率的学习算法能够用来计算显式的假设概率它基于假设的先验概率给定假设下观察到不同数据的概率以及观察到的数据本身本课题用 P h 表示没有训练样本数据前假设 h 拥有的初始概率也就称为 h 的先验概率它反映了我们所拥有的关于 h 是一个正确假设的机会的背景知识当然如果没有这个先验知识的话在实际处理中可以简单地将每一种假设都赋给一个相同的毕业设计论文 7 概率类似 P D 代表将要观察的训练样本数据 D 的先验概率也就是说在没有确定某一个假设成立时 D 的概率然后是 P D h 它表示假设 h 成立时观察到数据 D 的概率在机器学习中所感兴趣的是 P h D 也就是给定了一个训练样本数据 D 判断假设 h 成立的概率这也称之为后验概率它反映了在看到训练样本数据 D 后假设 h 成立的置信度注后验概率 p h D 反映了训练数据 D 的影响而先验概率 p h 是独立于 D 的 argmax MAP h H hP h D argmax h H P D h P h P D 2 1 argmax h H P D h P h 注意在最后一步去掉了 P D 因为它是不依赖于 h 的常量在某些情况下可假定 H 中每个假设有相同的先验概率即对 H 中任意 hi和 hj P hi P hj 这时可把等式 2 1 进一步简化只需考虑 P D h 来寻找极大可能假设 P D h 常被称为给定 h 时数据 D 的似然度而使 P D h 最大的假设被称为极大似然 maximum likelihood ML 假设 hML P h D P D h P h p D 2 2 argmax ML h H hP D h 从贝叶斯公式可以看出后验概率 p h D 取决于 P D h P h 这个乘积这就是贝叶斯分类算法的核心思想要做的就是要考虑候选假设集合 H 并在其中寻找当给定训练数据 D 时可能性最大的假设 h h 属于 H 简单点说就是给定了一个训练样本数据样本数据已经人工分类好了应该如何从这个样本数据集去学习从而当碰到新的数据时可以将新数据分类到某一个类别中去那可以看到上面的贝叶斯理论和这个任务是吻合的 2 4 朴素贝叶斯分类 12 argmax j MAPjn vV vP va aa 可使用贝叶斯公式将此表达式重写为 12 12 argmax j njj MAP vV n P a aav P v v P a aa 2 3 12 argmax j njj vV P a aav P v 现在要做的是基于训练数据估计式 2 3 中两个数据项的值估计每个 P vj 很容易只要计算每个目标值 vj出现在训练数据中的频率就可以然而除非有一个非常大的训练数据的集合否则用这种方法估计不同的 P a1 a2 an vj 项不大可行毕业设计论文 8 问题在于这些项的数量等于可能实例的数量乘以可能目标值的数量因此为获得合理的估计实例空间中每个实例必须出现多次朴素贝叶斯分类器基于一个简单的假定再给定目标值时属性值之间相互条件独立换言之该假定说明在给定实例目标值情况下观察到联合的 a1 a2 an的概率等于每个单独属性的概率乘积 12 jnij i P va aaP av 2 4 将其带入 2 3 中可得朴素贝叶斯分类器所使用的方法 argmax j NBjij i vV vP vP av 2 5 其中 vNB是朴素贝叶斯分类器输出的目标值注意在朴素贝叶斯分类器中需从训练数据中估计的不同 P ai vj 项的数量只是不同的属性值数量乘以不同目标值数量这比要估计 P a1 a2 an vj P a1 a2 an vj 所需要的量要小的多举个简单的例子让大家对这个算法的原理有个快速的认识假设给定了表 2 1 中训练样本数据学习的目标是根据给定的天气状况判断你对 PlayTennis 这个请求的回答是 Yes 还是 No DayOutlookTemperatureHumidityWindPlayTennis D1SunnyHotHighWeakNo D2SunnyHotHighStrongNo D3OvercastHotHighWeakYes D4RainMildHighWeakYes D5RainCoolNormalWeakYes D6RainCoolNormalStrongNo D7OvercastCoolNormalStrongYes D8SunnyMildHighWeakNo D9SunnyCoolNormalWeakYes D10RainMildNormalWeakYes D11SunnyMildNormalStrongYes D12OvercastMildHighStrongYes D13OvercastHotNormalWeakYes D14RainMildHighStrongNo 表 2 1 可以看到这里样本数据集提供了 14 个训练样本本课题将使用此表的数据并结合朴素贝叶斯分类器来分类下面的新实例 Outlook sunny Temprature cool Humidity high Wind strong 毕业设计论文 9 本课题的任务就是对此新实例预测目标概念 PlayTennis 的目标值 yes 或 no 由上面的公式可以得到 argmax j NBjij i vyes no vP vP av argmax j j vyes no P v jj P Outlooksunny v P Temperaturecool v jj P Humidityhigh v P Windstrong v 2 6 可以得到 P PlayTennis yes 9 14 0 64 P PlayTennis no 5 14 0 36 P Wind Stong PlayTennis yes 3 9 0 33 p Wind Stong PlayTennis no 3 5 0 6 其他数据类似可得代入后得到 P yes P Sunny yes P Cool yes P high yes P Strong yes 0 0053 P no P Sunny no P Cool no P high no P Strong no 0 0206 因此应该分类到 no 这一类中 2 5 贝叶斯文本分类算法根据联合概率公式全概率公式 P C XP C X P XP X C P C 2 7 即得到贝叶斯公式 P X C P C P C X P X 2 8 则贝叶斯文本分类的任务就是将表示成为向量的待分类文本 X x1 x2 xn 归类到与其关联最紧密的类别 C C1 C2 Cj C C1 C2 Cj 中去其中 X x1 x2 xn 为待分类文本 Xq 的特征向量 C C1 C2 Cj 为给定的类别体系也就是说求解向量 X x1 x2 xn 属于给定类别 C1 C2 Cj的概率值 P1 P2 Pn 其中 Pj为 X x1 x2 xn 属于 Cj的概率则maxmax P1 P2 Pn 所对应的类别就是文本 X 所属的类别因此分类问题被描述为求解方程 2 8 式的最大值毕业设计论文 10 12 12 12 njj jn n P x xxc P c P cx xx P c cc 2 9 其中 1 P cj 训练文本集中文本属于类别 cj的概率 2 P x1 x2 xn cj 如果待分类文本属于类别 cj 则类别 cj中包含向量 x1 x2 xn 的概率 3 P c1 c2 cn 给定的所有类别的联合概率显然对于给定的所有类别分母 P c1 c2 cn 是一个常数所以求解 2 8 式的最大值转化为求解下式的最大值 12 argmax j NBnjj cC cP x xxc P c 2 10 又根据贝叶斯假设文本特征向量属性 x1 x2 xn独立同分布其联合概率分布等于各个属性特征概率分布的乘积即 12 njij i P x xxcP x c 2 11 所以 2 10 式变为 argmax j NBjij cC i cP cP x c 2 12 即为所求解的用以分类的分类函数尽管推导出了分类函数但是分类函数中的概率值 P cj 和 P xi cj 还是未知的因此为了计算分类函数的最大值 2 11 式中的先验概率值分别估算如下 1 j j N Cc P c N 其中 N C cj 训练文本中属于 cj类别的文本数量 N 训练文本总数量 2 1 iij ij j N Xx Cc P x c N CcM 其中 N Xi xi C cj 类别 cj中包含属性 xi的训练文本数量 N C cj 类别中的训练文本数量 M 训练文本集合中经过踢出无用词去除文本预处理之后关键字的数量 2 6 文本自动分类的特点文本分类是将一个文本归入预先定义好的几个类别中的一个分类中的过程而文毕业设计论文 11 本的自动分类是使用计算机程序来实现这样的分类第一用于分类所需要的类别体系是预先确定好的这种分类层次一旦确定在相当长的时间内都是不可变的或者即使要变更也要付出相当大的代价第二一个文本并没有严格规定只能被分配给一个类别这与分类的这个问题的主观性有关这就造成了分类的准确性不可能达到 100 的正确本课题的主要目标就是尽最大可能提高分类的准确性毕业设计论文 12 参考文献 1 王丁运海红张辉文本自动分类系统的研究与实现 J 信息技术 2005 年 03 期 68 69 2 卢苇彭雅几种常用文本分类算法性能比较与分析 J 湖南大学学报自然科学版 2007 年 06 期 72 74 3 宋枫溪自动文本分类若干基本问题研究 D 南京理工大学 2004 年 4 董学春胡学钢谢飞吴共庆基于词向量空间模型的文本分类方法 A 计算机技术与应用进展 5 石志伟吴功宜改善朴素贝叶斯在文本分类中的稳定性 A NCIRCS2004 第一届全国信息检索与内容安全学术会议论文集 C 2004 年 6 Jyotishman Pathak Text Classification Using A Na ve Bayes Approaeh J Department of Computer Science lowa State University 7 Aynur Akkus and H Altay Guvenir K Nearest Neighbor Classifications on Feature Projections J Dept of Computer Engr And info Sci Bilkent University Ankara Turkey 袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇羅膃蚈螂羁膂莈蚅袇膁蒀袀螃膀薂蚃肂腿节衿羈腿莄蚂袄芈蒇袇螀芇蕿蚀聿芆艿蒃肅芅蒁螈羁芄薃薁袆芃芃螆螂芃莅蕿肁节蒈螅羇莁薀薈袃莀艿螃蝿荿莂薆膈莈薄袁肄莇蚆蚄羀莇莆袀袆羃蒈蚂螂羂薁袈肀肁芀蚁羆肁莃袆袂肀薅虿袈聿蚇蒂膇肈莇螇肃肇葿薀罿肆薂螆袅肅芁薈螁膅莃螄聿膄蒆薇袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿螀袅膃蒅蝿肈羆莁螈螇芁芇莄袀肄膃莄羂艿蒂莃蚂肂莈蒂螄芈芄蒁袆肀膀蒀罿袃薈葿螈聿蒄葿袁羁莀蒈羃膇芆蒇蚃羀膂蒆螅膅蒁薅袇羈莇薄罿膄芃薃虿羆艿薃袁节膅薂羄肅蒃薁蚃芀荿薀螆肃芅蕿袈芈膁蚈羀肁蒀蚇蚀袄莆蚇螂肀莂蚆羅袂芈蚅蚄膈膄蚄螇羁蒂蚃衿膆莈蚂羁罿芄螁蚁膄膀螁螃羇葿

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于贝叶斯的文本自动分类的研究和实现.doc

文档简介

温馨提示

最新文档

评论

基于贝叶斯的文本自动分类的研究和实现.doc

文档简介

温馨提示

最新文档

评论

相关文档