05-基于类别概念的中文文本分类研究-王琳毕业论文.doc_第1页
05-基于类别概念的中文文本分类研究-王琳毕业论文.doc_第2页
05-基于类别概念的中文文本分类研究-王琳毕业论文.doc_第3页
05-基于类别概念的中文文本分类研究-王琳毕业论文.doc_第4页
05-基于类别概念的中文文本分类研究-王琳毕业论文.doc_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精品文档密级: 保密期限: 硕士研究生学位论文 题目: 基于类别概念的 中文文本分类研究 学 号: 035008 姓 名: 王 琳 专 业: 电路与系统 导 师: 方 勇 学 院: 电信工程学院 年 月 日2欢迎下载2欢迎下载。精品文档声 明独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名: 日期: 关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)本学位论文不属于保密范围,适用本授权书。本人签名: 日期: 导师签名: 日期: 基于类别概念的中文文本分类研究摘 要网络技术的发展和Internet的开放性使它逐步成为一个全方位的资源宝库,越来越多的信息通过互联网被传送到世界各地,互联网中也积聚了越来越多的信息,从发展的趋势来看,网络必将成为人们获取信息的主要来源。但互联网的组织杂乱,缺乏必要的条理,多且杂的信息使得人们从中获取自己感兴趣的内容变得越来越困难。从大量的数据中挖掘出有用的信息是数据挖掘的任务。文本作为互联网上主要的信息载体,随着互联网的迅速发展,文本挖掘也成为数据挖掘的热点之一。文本分类技术是文本挖掘的基础和核心。文本分类的方法包括人工分类和自动分类。传统的文本分类是基于人工方式的,这种方式缺点很多,如周期长、费用高、效率低、需要大量专业人员以及分类结果的一致性低等。20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为主流。相比于人工方式,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但文本自动分类研究开展以来,准确率一直不能达到令人满意的效果。在Internet信息急剧膨胀的今天,为文本分类提供了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点。向量空间模型是文本自动分类应用最广泛的模型之一,以向量空间模型为基础,我们研究发现,对文本的合理向量表示是实现正确分类非常关键的前提,而传统分类方法中,特征选择算法各有优劣,选择出的特征不能很好地代表文本,这在很大程度上制约了文本分类的准确率。我们以此为出发点,分析特征项应当具备的条件,并提出了基于类别概念的特征选择方法。区别于传统的特征选择方法只考虑文本词语的外在形式的做法,它以分析词语的语义概念为主,并且考虑特征的类别信息,选取单类别指示意义强的特征项,建立特征空间。在实验中,我们对相同的数据集,在同一种分类算法上,对传统特征选择方法和我们提出的特征选择方法分别实验,实验数据表明我们的特征选择算法能够得到较高的准确率和召回率。关键词:文本分类 向量空间模型 知网 类别概念A Study on Category Conception in Text ClassificationAbstractThe development of network and the opening of the Internet make it a omnidirectional resource storehouse step by step. More and more information are delivering to everywhere of the world, and more and more information are congregated in internet. At the viewpoint of developmental trend, network will be the main source from which people get information. But the Internets organization is very disordered, the informations hugeness and confusion make it more and more difficult to get interesting information from it.The task of data mining is mining useful information from a mass of data. Texts mining is becoming one of the focuses of data mining with the rapid development of the Internet because that text is the main information carrier of web pages. The text classification is the base and center of texts mining.Text classification include manual method and automatic method. Conventional text classification based on manual mode has a lot of shortcomings, such as long period, high charge, low efficiency, the requirement of large numbers of professional people and low consistency of the results et. The automatic method of text classification based on machine learning was becoming mainstream after 1990s stage by stage. Compared with manual, it has short period, high efficiency, and high consistency of the results. Though automatic text classification has so many merits, the accuracy of its results is not satisfied till now. Text classification gets a wide stage in the age of the information in Internet increasing rapidly. It is confronted with opportunities and challenges, and the study focuses how to improve the accuracy of the text classification result.Vector space model is one of the models that are used far and wide in text classification field. Based on vector space model, we discovered that the vector of texts is a key precondition for accuracy. But in many conventional text classification systems, each one of the feature selection methods has its strong point. The features can not primely express the texts, then restrict the improvement of accuracy. Our study got going from this point, proposed a new feature selection method based on category concept after analyzing the conditions that the features should have. Conventional feature selections take the extrinsic form of the words in texts into account only. Know from them, our feature selection method mainly analyzing the immanent conception of the words, and take the classificatory information of features into account synchronously. It selects the conceptions which has strong single class meaning as its feature space. In our experiment, we made compassion between conventional feature selection methods and our method in the same conditions that include the same corpus and the same class arithmetic. The result showed that the feature selection method based on category concept we proposed could get comparatively high accuracy and recall.Key Word:text classification VSM Hownet category concept3欢迎下载3欢迎下载。目 录摘 要1Abstract3第一章 绪论21.1 研究背景及意义21.2 数据挖掘31.2.1 数据挖掘的由来31.2.2数据挖掘的定义41.2.3数据挖掘研究的内容和本质41.2.4数据挖掘的功能61.2.5数据挖掘未来的研究方向71.3 文本挖掘81.3.1文本挖掘的定义81.3.2文本挖掘的分类91.4本文组织101.5本章小结10第二章 文本分类技术112.1文本分类简介112.1.1文本分类发展及应用112.1.2 文本分类定义132.1.3 文本分类类型132.1.4 文本分类模型132.1.5 基于VSM的文本分类142.2特征提取技术152.2.1文本频率152.2.2 信息增益162.2.3 互信息162.2.4 CHI172.2.5词条权172.2.6期望交叉熵182.2.7几率比182.2.8文本证据权182.3 分类技术192.3.1简单距离向量分类法192.3.2基于TFIDF的Rocchio算法202.3.3 朴素贝叶斯模型202.3.4 K最近邻居算法222.3.5决策树222.3.6神经网络232.3.7支撑向量机252.3 本章小结26第三章 基于类别概念的特征选择方法273.1 问题分析273.2 知网283.2.1 知网简介283.2.2概念排歧293.2.3同义词303.3 类别概念313.3.1 定义313.3.2类别概念特征的选择方法323.3.3 类别概念特征的有效性分析333.2.2 类别概念特征加权343.3 本章小结35第四章系统设计与实验结论364.1支撑向量机364.1.1现状介绍364.1.2 SVM定义374.1.3 SVM优点384.1.3SVM原理介绍384.1.4SVM在分类中的应用424.2 实验424.2.1 系统框架结构424.2.2 实验设计434.2.3 数据集434.2.4 实验结果与分析444.3 本章小结47参考文献48致 谢51攻读硕士学位期间承担的科研任务与主要成果52符 号 说 明 :第 个特征项 :在第篇文本中出现的次数 :在所有文本中出现的次数 :在第类文本中出现的次数 :在第类文本中出现的文本总数 :出现的文本总数 :第类文本包含的文本总数 :语料库文本总数 :分类体系类别数第一章 绪论1.1 研究背景及意义 人类社会已经步入一个信息化的时代,人们在日常生活中无时无刻不在获取信息、分析信息,并以此来决策自己的行为。从某种程度上来说,信息的拥有量已经成为决定和制约人类社会发展的重要因素。获取信息的途径有很多,人类可以凭借自我的分析能力人工获取信息,在不远的过去,我们也都是这样做的。但自从计算机诞生以来,人们获取信息的手段在不断地变化,人们对把握信息快捷、准确的要求也越来越高。近年来,Internet快速发展,互联网上在线发布的网页达亿数量级1,并以每天百万网页的速度增长。其中包含了几乎囊括了人类社会政治、经济、军事、生活、娱乐、体育等各个方面的内容,逐步成为一个全方位的资源宝库。从大量的数据中挖掘出有用的信息是数据挖掘的任务。数据挖掘技术23自90年代产生以来,其研究已经相当深入,研究范围涉及到关联规则挖掘、分类规则挖掘、聚类规则挖掘、趋势分析等方面。然而这些研究基本上是基于结构化数据,比如事物数据库,却很少有工作研究异质、非结构化数据。互联网正在成为人们获取信息的主要来源。可惜,Internet并不是组织严密条理清晰的数字信息库,而是一个杂乱无章的信息仓库。因此,扩大数据挖掘研究对象的范围,更多的研究非结构化数据,如文本、网络页面、Email等,成为数据挖掘的一个新的研究方向,网络挖掘4、文本挖掘、多媒体挖掘便应运而生。由于Internet的信息主要以文本形式存在,所以从文本中获得潜在的知识就成为知识发现领域中的重要方面。数据挖掘的几个热点,包括网站的数据挖掘(Web site data mining)、生物信息或基因(Bioinformatics/Genomics)的数据挖掘及其文本的数据挖掘(Textual mining)中的一个。其中,文本挖掘是一门涉及数据挖掘技术、文本处理技术、人工智能技术的综合学科。从功能上看,文本挖掘可以分为总结、分类、聚类、趋势预测等多种。其中文本分类是指按照预先定义的分类体系,将文本集合中的每个文本归入某个类别。这样,用户不但能够方便浏览文本,而且可以通过限制搜索范围来使文本的查找更为容易。目前,有的门户网站中仍然是通过人工对Web文本进行分类,这大大限制了其索引页面的数目和覆盖范围。可以说研究文本分类有着广泛的商业前景和应用价值。此外,文本分类也是信息检索的重要课题。对信息检索系统而言,它必须操纵大量的数据,其文本信息库可能是相当庞大的,同时,用来表示文本内容的词汇数量又是成千上万的。在这种情况下,如果为文本集提供良好的组织与结构,就能大大简化文本的存取和操纵。文本自动分类系统的目的就是对文本集进行有序组织,把相似的、相关的文本组织在一起。它作为知识的组织工具,为信息检索提供了更高效的搜索策略和更准确的查询结果。其中,高效性来自于用户可以首先确定查询的可能类别,以减小需要进一步匹配的文本数量。有效性在于相似的文本很可能与相同的查询相关。这样,检索的准确率和召回率都得到了提高。数据挖掘、文本挖掘、文本分类、信息检索是息息相关的。在文本分类方面,网络信息的激增增加了对快速、自动文本分类需求的迫切性,另外也为基于机器学习的文本分类方法准备了充分的资源。电子化信息的自动分类处理技术正越发显示着其优越性,文本自动分类及其相关技术的研究也正日益成为一项研究热点。1.2 数据挖掘数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。随着计算机应用的越来越广泛,每年都要积累大量的数据,在这些数据当中,我们可以运用数据挖掘技术找出一些有用的东西来。下面首先从历史和发展方向等方面为数据挖掘做个概述。1.2.1 数据挖掘的由来我们现在已经生活在一个网络化信息化的时代,通信、计算机和网络技术正改变着整个人类和社会。大量信息在给人们带来方便的同时也带来了信息过量,难以消化的问题。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”面对这一挑战,数据开采和知识发现(Data Mining and Knowledge Discovery DMKD)技术应运而生,并显示出强大的生命力。另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。但目前的数据库系统无法发现数据中存在的关系和规则,缺乏挖掘数据背后隐藏的知识的手段,导致了数据爆炸但知识贫乏的现象。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间潜在的联系。现在,支持数据挖掘的三种技术已经发展成熟,他们是:海量数据搜集,强大的多处理器计算机和数据挖掘算法。数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能和机器学习等。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用阶段。1.2.2数据挖掘的定义数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。 这里的知识是广义范畴的,包含概念、规则、模式、规律和约束等。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;或是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。因此,数据挖掘是一门交叉学科,涉及到数据库技术、人工智能技术、数理统计、可视化技术、并行计算等多个研究领域。 数据挖掘与传统的数据分析(如查询、报表、联机应用分析)不同,其本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知、有效和实用三个特征。但数据挖掘不是为了替代传统的统计分析技术。相反,它是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。数据挖掘就是利用了统计和人工智能技术的应用程序,把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。1.2.3数据挖掘研究的内容和本质随着DMKD研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三根强大的技术支柱:数据库、人工智能和数理统计。目前DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用等。 数据挖掘所发现的知识5最常见的有以下五类:(1)广义知识(Generalization) 广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同的性质,是对数据的概括、精练和抽象。广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归纳等。数据立方体方法的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图存储存在多维数据库中。另一种广义知识发现方法是加拿大Simon Fraser大学提出的面向属性的归纳方法。这种方法以类SQL语言表示数据挖掘查询6,收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。(2)关联知识(Association) 关联知识反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项属性值就可以依赖其他属性值进行预测。最为著名的关联规则发现方法是R.Agrawal提出的Apriori算法。关联规则的发现可分为两步,第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。(3)预测型知识(Prediction) 预测型知识根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。1968年Box和Jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季节调整模型等,进行时间序列的预测。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测。(4)偏差型知识(Deviation) 偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。这些知识可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。(5)分类知识(Classification&Clustering) 分类知识反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指导的学习方法。该方法先根据训练子集(又称为窗口)形成决策树。如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分支的属性,该分支对应该属性的某一可能值。最为典型的决策树学习系统是ID3,它采用自顶向下不回溯策略,能保证找到一个简单的树。算法C4.5和C5.0都是ID3的扩展,它们将分类领域从类别属性扩展到数值型属性。分类还有统计、粗糙集(RoughSet)、线性回归和线性辨别分析等方法。这里不作过多介绍。1.2.4数据挖掘的功能数据挖掘通过预测未来趋势及行为,做出基于知识的决策。数据挖掘的目标是从数据中发现隐含的、有意义的知识,主要有以下五类功能。(1)自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户。(2)关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。(3)聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术,其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。(4)概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类的对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。(5)偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。1.2.5数据挖掘未来的研究方向当前,DMKD研究方兴未艾,其研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,以便使DMKD的应用得以普遍推广。预计DMKD的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面:(1)发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;(2)寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;(3)研究在网络环境下的数据挖掘技术(Web Mining),特别是在Internet上建立DMKD服务器,并且与数据库服务器配合,实现Web Mining;(4)加强对各种非结构化数据的开采(Data Mining & Audio & Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;(5)交互式发现;(6)知识的维护更新。就目前来看,数据挖掘将来的几个热点主要包括网站的数据挖掘(Web Site Data Mining)、生物信息或基因(Bioinformatics)的数据挖掘及其文本的数据挖掘(Textual mining)。下面就这几个方面加以简单介绍。(1) 网站的数据挖掘 在对网站进行数据挖掘时,所需要的数据主要来自于两个方面;一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。 就分析和建立模型的技术和算法而言,网站的数据挖掘7和原来的数据挖掘差别不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所作的主要工作是数据准备。(2) 生物信息或基因的数据挖掘 生物信息或基因的数据挖掘则完全属于另外一个领域,例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。 对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂的多。从分析算法上讲,更需要一些新的和好的算法。(3) 文本的数据挖掘 无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。文本的数据挖掘将在下一节中单独讲述。 1.3 文本挖掘前面提到过,由于目前在Internet上大多数的信息表现形式为文本形式,对于这些非结构化的文本,不能通过传统的数据挖掘方法获得其中的知识,只有通过文本挖掘才能充分地利用这些信息资源。因此文本挖掘成为近年数据挖掘的热点之一。在1998年底,我国国家重点基础研究发展规划首批实施项目中,文本挖掘就被列为“图像、语音、自然语言理解与知识挖掘”中的重要内容。1.3.1文本挖掘的定义文本挖掘8作为数据挖掘的一个新的主题,是一个富于争议的研究方向,目前其定义尚无统一的结论,需要开展更多的研究以便进行精确地定义。但类似于数据挖掘定义,可以暂时对文本挖掘作如下定义。 文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程9。 直观地说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘。1.3.2文本挖掘的分类文本挖掘包括对大量文本集合的内容进行总结、分类、聚类、关联分析,以及利用文本集合进行趋势预测等。文本总结是指从文本中抽取关键信息,用简洁的形式对文本内容进行摘要或解释。文本分类是指按照预先定义的主题类别,为文本集合中的每个文本确定一个类别。利用文本分类技术可以对大量文本进行快速、有效地自动分类。 文本聚类与分类的不同之处在于,聚类没有预先定义好的主题类别体系,它的目标是将文本集合分成若干个族,要求同一族内文本内容的相似度尽可能地大,而不同族间的相似度尽可能地小。Hearst等人的研究已经证明了“聚类假设”,即与查询相关的文本通常会聚类得比较靠近,而远离与查询不相关的文本。目前,有多种文本聚类算法,大致可以分为两种类型:以G-HAC等算法为代表的层次凝聚法,以k-means等算法为代表的平面划分法。 关联分析是指从文本集合中找出不同词语之间的关系。像Brin提出了一种从大量文本中发现一对词语出现模式的算法,并用来在Web上寻找作者和书名的出现模式,从而发现了数千本在Amazon网站上找不到的新书籍。 分布分析与趋势预测是指通过对Web文本的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势。像Feldman等人使用多种分布模型对路透社的两万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对经济文章,对每天的股票市场指数进行预测,取得了良好的效果。 以上功能的研究在国外研究得比较多,但都是基于英文环境的。在国内,数据挖掘研究者对中文文本的研究还刚刚开始,如何借鉴现有中文处理技术对文本进行挖掘仍有很多问题有待解决。总之,文本挖掘是近几年来数据挖掘领域的一个新兴分支,是一门涉及数据挖掘技术、文本处理技术、人工智能技术的综合学科。文本挖掘由于它处理的是非结构化的文本,因此,决定它采用的方法与数据挖掘不同。它经常使用的方法来自于自然语言理解和文本理解领域,如文本摘要、文本分类、文本检索等技术。其基本思想是:首先利用文本切分技术,抽取文本特征,将文本数据转化为能描述文本内容结构化文本树,并根据该结构发现新的概念和获取相应的关系。文本挖掘发现的知识往往不是精确的数据,而是定性的规则。而对于中文文本的文本挖掘有一些特殊的地方,体现为汉语分词问题,建立完整的汉语概念体系的困难和汉语语法、语义和语用分析的困难。1.4本文组织本文提出了基于类别概念的特征选择方法。全文共分为四章介绍。其中,第二章首先从宏观上对文本分类作了简要介绍,然后介绍了文本分类中常用的几种技术,主要介绍了常用的特征选择方法和分类算法。第三章是从分析制约VSM准确率的瓶颈出发,提出了解决方案,详细阐述了基于类别概念的特征选择方法。第四章简要介绍了我们实验的框架结构、实验数据集以及对实验结果的详细分析等内容。最后是参考文献、致谢和硕士研究生期间发表的论文。1.5本章小结本章介绍了文本分类的研究背景及其意义,并从发展历史、应用的角度对文本分类作了概括说明。第二章 文本分类技术本章将在对文本分类作简要介绍的基础上,以特征提取算法和分类模型为主,介绍一些相对成熟、常见的文本分类技术。2.1 文本分类简介文本分类最早从20世纪60年代初期开始,在近三十年的时间里,文本分类的发展一直很缓慢,直到20世纪90年代初,由于文本分类良好的应用前景,同时出现了功能更强大的硬件设备,文本分类技术才获得迅速发展,现在文本分类已成为信息系统学科的重要的研究领域之一。2.1.1文本分类发展及应用文本分类的发展历史基本上可分为两个阶段,第一阶段是从20世纪60年代直到20世纪80年代末,在这期间最有效的文本分类系统一直是由专家人工构建的基于知识工程技术的分类系统,比如卡内基集团为路透社开发的著名Construe新闻自动分类系统就是由专家定义一系列逻辑规则10,这些规则包括如何把某一给定文本归类为某一预先指定的类别集合中的一种或几中类别。进入20世纪90年代,形势就发生了改变,基于机器学习(Machine Learning)方法实现文本自动分类运行效果完全超过了基于知识工程的分类方法,从而进入了文本分类的另一个发展阶段。机器学习文本分类算法通常从一个预先分类好的文本集合中,“学习”出各个类别的特性,目前这种自动分类方法所能达到的水平能与人工分类的水平相当,显然由于这种方法不再需要知识工程师和领域专家的接入,节约了大量的专家人力资源,同时加快了分类系统的建立速度。现在,文本分类已被视为几乎所有基于内容的文件管理的学科的基石。国内文本分类技术的研究相对于国外的发展水平起步较晚,最早大约是从20世纪90年代初开始研究,特别中文文献自动分类研究目前还处于发展阶段,1996年,吴菌等在中文信息学报上讨论了有关“汉语语料的自动分类”11;1998年,刘开瑛等在“中文文本中抽取特征信息的区域与技术”一文中12,讨论了如何从各种文本抽取特征信息;1999年,何新贵等发表了“中文文本的关键词的自动抽取和模糊分类方法”13,并将文本分类方法世纪应用于“全国政协提案处理”课题;南京大学软件新技术国家重点实验室的邹涛专题讨论了“Web信息的采集、文本的识别与分类”1415;2000年黄萱菁等提出了“独立于语种的文本分类方法”,讨论如何把同一种分类方法应用于不同的语种16;2004年,赵林等在通信学报上发表的“基于知网的概念特征抽取方法”一文提出了“一种以知网为语义知识库、基于语义信息的文本特征项抽取方法”,以更能体现文本的概念特征提高过滤系统的性能17。自20世纪60年代文本分类诞生以来,它在很多方面得到应用。(1) 文献自动标引标引是指用一个或若干个词来表示文献内容特征的过程。早在1956年,美国的H.P.Luhn就开始了文献自动标引的试验;60年代初,美国的G.Salton教授在自动标引方面取得了令世界瞩目的成就。从1980年以后我国在中文自动分词方面取得初步进展,中文文献自动标引方面的研究不断深入。用于标引的关键词和词组属于一个专业词典,如果把该词典的条目看成不同类别,标引的过程就是一个文本分类的过程,这种文献自动标引功能在数字化图书馆中非常重要。所以,文献自动标引对文本分类的研究也起着非常重要的作用。(2) 文本过滤文本过滤通过排除掉不感兴趣的文本,提供有用的信息给用户。过滤的过程可以看成是一个单一类别的文本分类,输入文本被分类成两种,相关的和不相关的。邮件过滤也是一个差不多的过程,也是一个文本分类的应用范围。(3) 词义排歧词义排歧是遇到多义词时判断出适合于当前环境下的一种正确意思。把该词出现的语言环境如句子或段落作为待分类的文本,该词的几种词义作为类别,词义排歧过程就是一个文本分类的过程。而且是一种单一类别的分类。这对于在机器翻译中遇到多义词时,选择一个正确的词义是常有用的。(4) 网页分类WWW目前是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务等很多方面的内容。一个好的分类系统对于网络用户来说是非常必要的,但是如果手工对上百万的网页进行分类,显然是不实际的,这就需要应用到文本自动分类技术。但是,网页分类相比较一般的文本分类有两点特殊的地方:首先是网页超文本格式,尤其自身的格式和特点;其次是网页的类别结构是多级别的,父类下面有很多子类,不同于一般的分类都是同级类别。2.1.2 文本分类定义文本分类(Text Categorization)是指依据文本的内容,由计算机根据某种自动分类算法,把文本判分为预先定义好的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已经建立的类别体系中。该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联,用数学语言可以描述为:式中,A为待分类的文本集合,B为分类体系中的类别集合。文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别规则,确定文本相关的类别。文本的分类是基于它的内容来分的,不是以文本所存在的数据模式来分的,这就意味着文本与哪一类相关这个概念是主观意义上的。2.1.3 文本分类类型文本分类有两种类型,根据需求的不同,可分为单类别分类和多类别分类1819。在不同的情景需求下,分类的具体任务也各不相同。在单类别分类中1是多个文本对应一个类别的关系,分类器的功能可用函数来表示,1表示文本属于类别,0 则反之。此时,文本分类的任务是建立起分类器,尽量模拟逼近函数。在单类别分类中,分类未知文本时通常会采取阈值的方法,在分类器的框架建立好之后,训练的过程就是根据训练例来调整阈值的过程。分类时根据阈值判断,满足条件则判为1,否则判为0。单类别分类相对简单。在多类别分类18中,是多个文本与多个类别的对应关系,而且通常一个文本只能属于一个类别。在多类别分类中,分类时通常会采用投票法,即分类器会将文本放在所有的类别上完成一次分类过程,得到某种结果。这些结果通常代表了文本属于某个类别的可能性,可以是文本属于某类别的概率,或者是文本与某类别的相似程度等,之后再由分类器从中完成抉择。多文本分类更为复杂,此时文本分类的任务是建立起适用于多类别的分类器。2.1.4 文本分类模型分类模型是文本分类的核心技术,大体上文本分类模型可以分为两种1819即基于规则的文本分类和基于统计的文本分类。在基于规则的分类技术中,首先需要根据某种假设建立起可用于分类的规则。该规则包括了文本的表示方法、类别的表示方法和文本与类别的映射方式等。然后通过训练过程来完成规则的完善和调整,训练后则可以使用该规则来决定文本的类别,完成分类。决策树(Decision Tree, DT)、神经网络(Neural Network, NN)、支撑向量机(Support Vector Machine, SVM)2021等都是数据基于规则的分类方法。基于规则的分类方法理论基础强,合理性高,而且分类的规则易于为人们所理解,也易于改写成其他形式。但基于规则的分类方法实用性差,这是因为现实中的数据集颇为庞大,在此种情况下,训练时规则的建立调整过程效率会很低。应用规则完成分类的效率也较差,此时基于规则的分类方法往往显得力不从心。在基于统计的分类方法中,或者依据某种统计后得到的客观规律,或者采用某种统计学中的定律来完成分类器的建立工作。该种方法中的训练过程多为训练集上的某种统计和计算过程,得到某些可以代表文本与类别之间关系的数据。在分类时分类器给出的通常为某种概率结果,比如朴素贝叶斯(Nave Bayes)模型 、向量空间模型(Vector Space Model, VSM)、K最近邻居法(K Nearest Neighbour classifiers, KNN)等。基于统计的分类方法理论基础不强,但实用性强。我们会在下一章中对一些成熟的分类技术做更为具体详细的介绍。2.1.5 基于VSM的文本分类向量空间模型(Vector Space Model, VSM)是最常用的文本分类模型之一。其基本思想是以特征项作为向量空间的坐标,将文本看作向量空间中的点。特征项可以是字、词、短语、句子等意义单位。一般取词作为特征项。即是说,集合所有的特征项确定一个特征空间,假定为维空间,每一篇文本就可以用的一个向量表示,其中表示在中的权重。其中,为词或短语,对应每个,通常用权重来表示在文本中的出现情况,以区别其文本。这样,就把文本分类问题转化为向量空间的运算问题。基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论