(电路与系统专业论文)基于类别概念的中文文本分类研究[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)基于类别概念的中文文本分类研究[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)基于类别概念的中文文本分类研究[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)基于类别概念的中文文本分类研究[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)基于类别概念的中文文本分类研究[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(电路与系统专业论文)基于类别概念的中文文本分类研究[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士学位论文 基于类别概念的中文文本分类研究 摘要 网络技术的发展和i n t e r n e t 的开放性使它逐步成为一个全方位的 资源宝库,越来越多的信息通过互联网被传送到世界各地,互联网中 也积聚了越来越多的信息,从发展的趋势来看,网络必将成为人们获 取信息的主要来源。但互联网的组织杂乱,缺乏必要的条理,多且杂 的信息使得人们从中获取自己感兴趣的内容变得越来越困难。 从大量的数据中挖掘出有用的信息是数据挖掘的任务。文本作为 互联网上主要的信息载体,随着互联网的迅速发展,文本挖掘也成为 数据挖掘的热点之一。文本分类技术是文本挖掘的基础和核心。 文本分类的方法包括人工分类和自动分类。传统的文本分类是基 于人工方式的,这种方式缺点很多,如周期长、费用高、效率低、需 要大量专业人员以及分类结果的一致性低等。2 0 世纪9 0 年代以后, 基于机器学习的文本自动分类方法越来越成为主流。相比于人工方 式,它具有周期短,效率高,节省人力资源,分类结果一致性高等优 点。但文本自动分类研究开展以来,准确率一直不能达到令人满意的 效果。在i n t e r n e t 信息急剧膨胀的今天,为文本分类提供了广阔的发 展空问,文本自动分类面临前所未有的机遇和挑战,如何提高分类准 确率成为研究热点。 向量空间模型是文本自动分类应用最广泛的模型之一,以向量空 间模型为基础,我们研究发现,对文本的合理向量表示是实现正确分 类非常关键的前提,而传统分类方法中,特征选择算法各有优劣,选 择出的特征不能很好地代表文本,这在很大程度上制约了文本分类的 准确率。我们以此为出发点,分析特征项应当具备的条件,并提出了 基于类别概念的特征选择方法。区别于传统的特征选择方法只考虑文 本词语的外在形式的做法,它以分析词语的语义概念为主,并且考虑 特征的类别信息,选取单类别指示意义强的特征项,建立特征空间。 北京邮电大学硕士学位论文 在实验中,我们对相同的数据集,在同一种分类算法上,对传统特征 选择方法和我们提出的特征选择方法分别实验,实验数据表明我们的 特征选择算法能够得到较高的准确率和召回率。 关键词:文本分类向量空间模型知网类别概念 北京邮电大学硕士学位论文 a s t u d yo nc a t e g o r yc o n c e p t i o ni nt e x tc l a s s i f i c a t i o n a b s t r a c t t h ed e v e l o p m e n to fn e t w o r ka n dt h eo p e n i n go ft h ei n t e r n e tm a k ei t ao m n i d i r e c t i o n a lr e s o u r c es t o r e h o u s e s t e pb ys t e p m o r ea n dm o r e i n f o r m a t i o na r ed e l i v e r i n gt oe v e r y w h e r eo ft h ew o r l d ,a n dm o r ea n d m o r ei n f o r m a t i o na r e c o n g r e g a t e di n i n t e r n e t a tt h e v i e w p o i n t o f d e v e l o p m e n t a lt r e n d ,n e t w o r kw i l lb et h em a i ns o u r c ef r o mw h i c hp e o p l e g e ti n f o r m a t i o n b u tt h ei n t e r n e t so r g a n i z a t i o ni sv e r yd i s o r d e r e d ,t h e i n f o r m a t i o n sh u g e n e s sa n dc o n f u s i o nm a k ei tm o r ea n dm o r ed i f f i c u l tt o g e ti n t e r e s t i n gi n f o r m a t i o nf r o mi t t h et a s ko fd a t am i n i n gi sm i n i n gu s e f u li n f o r m a t i o nf r o mam a s so f d a t a t e x t sm i n i n gi sb e c o m i n go n eo ft h ef o c u s e so fd a t am i n i n gw i t h t h e r a p i dd e v e l o p m e n to ft h ei n t e r n e tb e c a u s et h a tt e x ti s t h em a i n i n f o r m a t i o nc a r r i e ro fw e bp a g e s t h et e x tc l a s s i f i c a t i o ni st h eb a s ea n d c e n t e ro ft e x t sm i n i n g t e x tc l a s s i f i c a t i o ni n c l u d em a n u a lm e t h o da n da u t o m a t i cm e t h o d c o n v e n t i o n a lt e x tc l a s s i f i c a t i o nb a s e do i lm a n u a lm o d eh a sal o to f s h o r t c o m i n g s ,s u c h a sl o n g p e r i o d ,h i g h c h a r g e ,l o we f f i c i e n c y , t h e r e q u i r e m e n to fl a r g en u m b e r so fp r o f e s s i o n a lp e o p l ea n dl o wc o n s i s t e n c y o ft h er e s u l t se t t h ea u t o m a t i cm e t h o do ft e x tc l a s s i f i c a t i o nb a s e do n , m a c h i n el e a r n i n gw a sb e c o m i n gm a i n s t r e a ma f t e r1 9 9 0 ss t a g eb ys t a g e c o m p a r e dw i t hm a n u a l ,i th a ss h o r tp e r i o d ,h i g he f f i c i e n c y , a n dh i g h c o n s i s t e n c yo ft h er e s u l t s t h o u g ha u t o m a t i ct e x ic l a s s i f i c a t i o nh a ss o m a n ym e r i t s ,t h ea c c u r a c yo fi t sr e s u l t si sn o ts a t i s f i e dt i l ln o w t e x t c l a s s i f i c a t i o ng e t saw i d es t a g ei nt h ea g eo ft h ei n f o r m a t i o ni ni n t e r n e t i n c r e a s i n gr a p i d l y i ti sc o n f r o n t e dw i t ho p p o r t u n i t i e sa n dc h a l l e n g e s ,a n d t h es t u d yf o c u s e sh o wt oi m p r o v et h ea c c u r a c yo ft h et e x tc l a s s i f i c a t i o n r e s u l t 3 北京邮电大学硕士学位论文 v e c t o rs p a c em o d e li so n eo ft h em o d e l st h a ta r eu s e df a ra n dw i d e i nt e x tc l a s s i f i c a t i o nf i e l d b a s e do nv e c t o rs p a c em o d e l ,w ed i s c o v e r e d t h a tt h ev e c t o ro ft e x t si sak e yp r e c o n d i t i o nf o ra c c u r a c y b u ti nm a n y c o n v e n t i o n a lt e x tc l a s s i f i c a t i o ns y s t e m s e a c ho n eo ft h ef e a t u r es e l e c t i o n m e t h o d sh a si t s s t r o n gp o i n t t h ef e a t u r e sc a nn o tp r i m e l ye x p r e s st h e t e x t s ,t h e nr e s t r i c tt h ei m p r o v e m e n to fa c c u r a c y o u rs t u d yg o tg o i n g f r o mt h i sp o i n t ,p r o p o s e dan e wf e a t u r es e l e c t i o nm e t h o db a s e do n c a t e g o r yc o n c e p ta f t e ra n a l y z i n gt h ec o n d i t i o n st h a tt h ef e a t u r e ss h o u l d h a v e c o n v e n t i o n a lf e a t u r es e l e c t i o n st a k et h ee x t r i n s i cf o r mo ft h ew o r d s i nt e x t si n t oa c c o u n to n l y k n o wf r o mt h e m ,o u rf e a t u r es e l e c t i o nm e t h o d m a i n l ya n a l y z i n gt h ei m m a n e n tc o n c e p t i o no ft h ew o r d s ,a n dt a k et h e c l a s s i f i c a t o r yi n f o r m a t i o no f f e a t u r e s i n t oa c c o u n t s y n c h r o n o u s l y i t s e l e c t st h e c o n c e p t i o n sw h i c hh a ss t r o n gs i n g l ec l a s sm e a n i n ga si t s f e a t u r es p a c e i no u re x p e r i m e n t ,w em a d ec o m p a s s i o nb e t w e e n c o n v e n t i o n a lf e a t u r es e l e c t i o nm e t h o d sa n do u rm e t h o di nt h es a m e c o n d i t i o n st h a ti n c l u d et h es a m ec o r l :i u sa n dt h es a m ec l a s sa r i t h m e t i c t h er e s u l ts h o w e dt h a tt h ef e a t u r es e l e c t i o nm e t h o db a s e do nc a t e g o r y c o n c e p tw ep r o p o s e dc o u l dg e tc o m p a r a t i v e l yh i g ha c c u r a c ya n dr e c a l l k e yw o r d :t e x t c l a s s i f i c a t i o nv s mh o w n e t c a t e g o r yc o n c e p t 4 北京邮电大学硕士学位论文 符号说明 瓦:第k 个特征项 厶:瓦在第i 篇文本中出现的次数 :瓦在所有文本中出现的次数 厶:瓦在第s 类文本中出现的次数 :t 在第5 类文本中出现的文本总数 n 。:出现瓦的文本总数 n 。:第s 类文本包含的文本总数 :语料库文本总数 m :分类体系类别数 北京邮电大学硕:e 学位论文 声明 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:j 苫翰忙日期:上歪圭止 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 每z 硝二 吼2 盟:主:! 么 日期 北京邮电大学硕士学位论文 1 1 研究背景及意义 第一章绪论 人类社会已经步入一个信息化的时代,人们在日常生活中无时无刻不在获取 信息、分析信息,并以此来决策自己的行为。从某种程度上来说,信息的拥有量 已经成为决定和制约人类社会发展的重要因素。 获取信息的途径有很多,人类可以凭借自我的分析能力人工获取信息,在不 远的过去,我们也都是这样做的。但自从计算机诞生以来,人们获取信息的手段 在不断地变化,人们对把握信息快捷、准确的要求也越来越高。近年来,i n t e r n e t 快速发展,互联网上在线发布的网页达亿数量级,并以每天百万网页的速度增 长。其中包含了几乎囊括了人类社会政治、经济、军事、生活、娱乐、体育等各 个方面的内容,逐步成为一个全方位的资源宝库。 从大量的数据中挖掘出有用的信息是数据挖掘的任务。数据挖掘技术“”自 9 0 年代产生以来,其研究己经相当深入,研究范围涉及到关联规则挖掘、分类 规则挖掘、聚类规则挖掘、趋势分析等方面。然而这些研究基本上是基于结构化 数据,比如事物数据库,却很少有工作研究异质、非结构化数据。 互联网正在成为人们获取信息的主要来源。可惜,i n t e r n e t 并不是组织严密 条理清晰的数字信息库,而是一个杂乱无章的信息仓库。因此,扩大数据挖掘研 究对象的范围,更多的研究非结构化数据,如文本、网络页面、e m a i l 等,成为 数据挖掘的一个新的研究方向,网络挖掘、文本挖掘、多媒体挖掘便应运而生。 由于i n t e r n e t 的信息主要以文本形式存在,所以从文本中获得潜在的知识 就成为知识发现领域中的重要方面。数据挖掘的几个热点,包括网站的数据挖掘 ( w e bs i t ed a t am i n i n g ) 、生物信息或基因( b i o i n f o r m a t i c s o e n o m i c s ) 的数 据挖掘及其文本的数据挖掘( t e x t u a lm i n i n g ) 中的一个。其中,文本挖掘是一 门涉及数据挖掘技术、文本处理技术、人工智能技术的综合学科。 从功能上看,文本挖掘可以分为总结、分类、聚类、趋势预测等多种。其中 文本分类是指按照预先定义的分类体系,将文本集合中的每个文本归入某个类 别。这样,用户。不但能够方便浏览文本,而且可以通过限制搜索范围来使文本的 北京邮电大学硕士学位论文 查找更为容易。目前,有的门户网站中仍然是通过人工对w e b 文本进行分类,这 大大限制了其索引页面的数目和覆盖范围。可以说研究文本分类有着广泛的商业 前景和应用价值。 此外,文本分类也是信息检索的重要课题。对信息检索系统而言,它必须操 纵大量的数据,其文本信息库可能是相当庞大的,同时,用来表示文本内容的词 汇数量又是成千上万的。在这种情况下,如果为文本集提供良好的组织与结构, 就能大大简化文本的存取和操纵。文本自动分类系统的目的就是对文本集进行有 序组织,把相似的、相关的文本组织在一起。它作为知识的组织工具,为信息检 索提供了更高效的搜索策略和更准确的查询结果。其中,高效性来自于用户可以 首先确定查询的可能类别,以减小需要进一步匹配的文本数量。有效性在于相似 的文本很可能与相同的查询相关。这样,检索的准确率和召回率都得到了提高。 数据挖掘、文本挖掘、文本分类、信息检索是息息相关的。在文本分类方面, 网络信息的激增增加了对快速、自动文本分类需求的迫切性,另外也为基于机器 学习的文本分类方法准备了充分的资源。电子化信息的自动分类处理技术正越发 显示着其优越性,文本自动分类及其相关技术的研究也正日益成为一项研究热 点。 1 2 数据挖掘 数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。随着计算机应 用的越来越广泛,每年都要积累大量的数据,在这些数据当中,我们可以运用数 据挖掘技术找出一些有用的东西来。下面首先从历史和发展方向等方面为数据挖 掘做个概述。 1 2 1 数据挖掘的由来 我们现在已经生活在一个网络化信息化的时代,通信、计算机和网络技术正 改变着整个人类和社会。大量信息在给人们带来方便的同时也带来了信息过量, 难以消化的问题。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现 有用的知识、提高信息利用率? ” 面对这一挑战,数据开采和知识发现( d a t am i n i n ga n dk n o w l e d g e d i s c o v e r y d m k d ) 技术应运而生,并显示出强大的生命力。 另一方面,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人 们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够 对其进行更高层次的分析,以便更好地利用这些数据。但目前的数据库系统无法 北京邮电大学硕士学位论文 发现数据中存在的关系和规则,缺乏挖掘数据背后隐藏的知识的手段,导致了数 据爆炸但知识贫乏的现象。 数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进 行查询和遍历,并且能够找出过去数据之问潜在的联系。现在,支持数据挖掘的 三种技术已经发展成熟,他们是:海量数据搜集,强大的多处理器计算机和数据 挖掘算法。 数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智 能和机器学习等。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广 泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用阶段。 1 2 2 数据挖掘的定义 数据挖掘( d a t am i n i n g ) 是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支 持等。 这里的知识是广义范畴的,包含概念、规则、模式、规律和约束等。原始数 据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图 形和图像数据:或是分布在网络上的异构型数据。发现知识的方法可以是数学的, 也可以是非数学的;可以是演绎的,也可以是归纳的。因此,数据挖掘是一门交 叉学科,涉及到数据库技术、人工智能技术、数理统计、可视化技术、并行计算 等多个研究领域。 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 不同,其本质 区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所 得到的信息应具有先未知、有效和实用三个特征。但数据挖掘不是为了替代传统 的统计分析技术。相反,它是统计分析方法学的延伸和扩展。大多数的统计分析 技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对 使用者的要求很高。数据挖掘就是利用了统计和人工智能技术的应用程序,把这 些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功 能,并且更专注于自己所要解决的问题。 1 23 数据挖掘研究的内容和本质 随着d m k d 研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三根 强大的技术支柱:数据库、人工智能和数理统计。目前d m k d 的主要研究内容包括 基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方 北京邮电大学硕士学位论文 法、发现知识的维护和再利用等。 数据挖掘所发现的知识。1 最常见的有以下五类: ( 1 ) 广义知识( g e n e r a l i z a t i o n ) 广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征 的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同的 性质,是对数据的概括、精练和抽象。广义知识的发现方法和实现技术有很多, 如数据立方体、面向属性的归纳等。数据立方体方法的基本思想是实现某些常用 的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实 现视图存储存在多维数据库中。另一种广义知识发现方法是加拿大s i m o nf r a s e r 大学提出的面向属性的归纳方法。这种方法以类s o l 语言表示数据挖掘查询”1 , 收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行 数据推广,包括属性删除、概念树提升、属性闽值控制、计数及其他聚集函数传 播等。 ( 2 ) 关联知识( a s s o c i a t i o n ) 关联知识反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项 属性之间存在关联,那么其中一项属性值就可以依赖其他属性值进行预测。最为 著名的关联规则发现方法是r a g r a w a 提出的a p r i o r i 算法。关联规则的发现可 分为两步,第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持率不低 于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的 核心,也是计算量最大的部分。 ( 3 ) 预测型知识( p r e d i c t i o n ) 预_ i 5 9 0 型知识根据时间序列型数据,由历史的和当前的数据去推测未来的数 据,也可以认为是以时间为关键属性的关联知识。目前,时间序列预测方法有经 典的统计方法、神经网络和机器学习等。1 9 6 8 年b o x 和j e n k i n s 提出了一套比 较完善的时问序列建模理论和分析方法,这些经典的数学方法通过建立随机模 型,如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季节调整 模型等,进行时间序列的预测。由于大量的时间序列是非平稳的,其特征参数和 数据分布随着时间的推移而发生变化。因此,仅仅通过对某段历史数据的训练, 建立单一的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出了 基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数 据时,对模型重新训练,获得新的权重参数,建立新的模型。也有许多系统借助 并行算法的计算优势进行时问序列预测。 ( 4 ) 偏差型知识( d e v i a t i o n ) 偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如 北京邮电大学硕士学位论文 标准类外的特例,数据聚类外的离群值等。这些知识可以在不同的概念层次上被 发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层 次决策的需要。 ( 5 ) 分类知识( c l a s s i f i c a t i o n c l u s t e r i n g ) 分类知识反映同类事物共同性质的特征型知识和不同事物之间的差异型特 征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决 策树,是一种有指导的学习方法。该方法先根据训i 练子集( 又称为窗口) 形成决 策树。如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口 中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名, 中间结点是带有分支的属性,该分支对应该属性的某一可能值。最为典型的决策 树学习系统是i d 3 ,它采用自顶向下不回溯策略,能保证找到一个简单的树。算 法c 4 5 和c 5 o 都是i d 3 的扩展,它们将分类领域从类别属性扩展到数值型属性。 分类还有统计、粗糙集( r o u g h s e t ) 、线性回归和线性辨别分析等方法。这里不 作过多介绍。 1 2 4 数据挖掘的功能 数据挖掘通过预测未来趋势及行为,做出基于知识的决策。数据挖掘的目标 是从数据中发现隐含的、有意义的知识,主要有以下五类功能。 ( 1 ) 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析 的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问 题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户。 ( 2 ) 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量 的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因 果关联。关联分析的目的是找出数据库中隐藏的关联网。 ( 3 ) 聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们 对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统 的模式识别方法和数学分类学。8 0 年代初,l c h a l s k i 提出了概念聚类技术,其 要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内 涵描述,从而避免了传统技术的某些片面性。 ( 4 ) 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概 北京邮电大学硕士学位论文 念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述 不同类的对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象 的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 ( 5 ) 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏 差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与 模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结 果与参照值之间有意义的差别。 1 2 5 数据挖掘未来的研究方向 当前,d m k d 研究方兴未艾,其研究与开发的总体水平相当于数据库技术在 7 0 年代所处的地位,迫切需要类似于关系模式、d b m s 系统和s o l 查询语言等理 论和方法的指导,以便使d m k d 的应用得以普遍推广。预计d m k d 的研究还会形成 更大的高潮,研究焦点可能会集中到以下几个方面: ( 1 ) 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也 许会像s q l 语言一样走向形式化和标准化; ( 2 ) 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解, 也便于在知识发现的过程中进行人机交互; ( 3 ) 研究在网络环境下的数据挖掘技术( w e bm i n i n g ) ,特别是在i n t e r n e t 上建立d m k d 服务器,并且与数据库服务器配合,实现w e bm i n i n g : ( 4 ) 加强对各种非结构化数据的开采( d a t am i n i n g a u d i o v i d e e ) ,如 对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采; ( 5 ) 交互式发现; ( 6 ) 知识的维护更新。 就目前来看,数据挖掘将来的几个热点主要包括网站的数据挖掘( w e bs i t e d a t am i n i n g ) 、生物信息或基因( b i o i n f o r m a t i c s ) 的数据挖掘及其文本的数据 挖掘( t e x t u a lm i n i n g ) 。下面就这几个方面加以简单介绍。 ( 1 ) 网站的数据挖掘 在对网站进行数据挖掘时,所需要的数据主要来自于两个方面;一方面是 客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要 来自浏览者的点击流( c 1i c k s t r e a m ) ,此部分数据主要考察客户的行为表现。 但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登汜表 上,这就会给数据分析和挖掘带来不便。在这种情况下,就不得不从浏览者的表 现数据中来推测客户的背景信息,进而再加以利用。 6 北京邮电大学硕士学位论文 就分析和建立模型的技术和算法而言,网站的数据挖掘”1 和原来的数据挖掘 差别不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式 有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站 进行数据挖掘所作的主要工作是数据准备。 ( 2 ) 生物信息或基因的数据挖掘 生物信息或基因的数据挖掘则完全属于另外一个领域,例如,基因的组合 千变万化,得某种病的人的基因和正常人的基因到底差别多大? 能否找出其中不 同的地方,进而对其不同之处加以改变,使之成为正常基因? 这都需要数据挖掘 技术的支持。 对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂 程度、数据量还有分析和建立模型的算法而言,都要复杂的多。从分析算法上讲, 更需要一些新的和好的算法。 ( 3 ) 文本的数据挖掘 无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的 数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方 面,还有很多需要研究的专题。文本的数据挖掘将在下一节中单独讲述。 1 3 文本挖掘 前面提到过,由于目前在i n t e r n e t 上大多数的信息表现形式为文本形式, 对于这些非结构化的文本,不能通过传统的数据挖掘方法获得其中的知识,只有 通过文本挖掘才能充分地利用这些信息资源。因此文本挖掘成为近年数据挖掘的 热点之一。在1 9 9 8 年底,我国国家重点基础研究发展规划首批实施项目中,文 本挖掘就被列为“图像、语音、自然语言理解与知识挖掘”中的重要内容。 1 3 1 文本挖掘的定义 1 w 文本挖掘”1 作为数据挖掘的一个新的主题,是一个富于争议的研究方向,目 前其定义尚无统一的结论,需要开展更多的研究以便进行精确地定义。但类似于 数据挖掘定义,可以暂时对文本挖掘作如下定义。 文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信 息或知识的过程。3 。 直观地说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就 称为文本挖掘。 北京邮电大学硕士学位论文 1 3 2 文本挖掘的分类 文本挖掘包括对大量文本集合的内容进行总结、分类、聚类、关联分析,以 及利用文本集合进行趋势预测等。 文本总结是指从文本中抽取关键信息,用简洁的形式对文本内容进行摘要或 解释。 文本分类是指按照预先定义的主题类别,为文本集合中的每个文本确定一个 类别。利用文本分类技术可以对大量文本进行快速、有效地自动分类。 文本聚类与分类的不同之处在于,聚类没有预先定义好的主题类别体系,它 的目标是将文本集合分成若干个族,要求同一族内文本内容的相似度尽可能地 大,而不同族间的相似度尽可能地小。h e a r s t 等人的研究已经证明了“聚类假 设”,即与查询相关的文本通常会聚类得比较靠近,而远离与查询不相关的文本。 目前,有多种文本聚类算法,大致可以分为两种类型:以g h a c 等算法为代表的 层次凝聚法,以k - m e a n s 等算法为代表的平面划分法。 关联分析是指从文本集合中找出不同词语之间的关系。像b r i n 提出了一种 从大量文本中发现一对词语出现模式的算法,并用来在w e b 上寻找作者和书名的 出现模式,从而发现了数千本在a m a z o n 网站上找不到的新书籍。 分布分析与趋势预测是指通过对w e b 文本的分析,得到特定数据在某个历史 时刻的情况或将来的取值趋势。像f e l d m a n 等人使用多种分布模型对路透社的两 万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对经济 文章,对每天的股票市场指数进行预测,取得了良好的效果。 以上功能的研究在国外研究得比较多,但都是基于英文环境的。在国内,数 据挖掘研究者对中文文本的研究还刚刚开始,如何借鉴现有中文处理技术对文本 进行挖掘仍有很多问题有待解决。 总之,文本挖掘是近几年来数据挖掘领域的一个新兴分支,是一门涉及数据 挖掘技术、文本处理技术、人工智能技术的综合学科。文本挖掘由于它处理的是 非结构化的文本,因此,决定它采用的方法与数据挖掘不同。它经常使用的方法 来自于自然语言理解和文本理解领域,如文本摘要、文本分类、文本检索等技术。 其基本思想是:首先利用文本切分技术,抽取文本特征,将文本数据转化为能描 述文本内容结构化文本树,并根据该结构发现新的概念和获取相应的关系。文本 挖掘发现的知识往往不是精确的数据,而是定性的规则。而对于中文文本的文本 挖掘有一些特殊的地方,体现为汉语分词问题,建立完整的汉语概念体系的困难 和汉语语法、语义和语用分析的困难。 北京邮电大学硕士学位论文 1 4 本文组织 本文提出了基于类别概念的特征选择方法。全文共分为四章介绍。其中, 第二章首先从宏观上对文本分类作了简要介绍,然后介绍了文本分类中常用 的几种技术,主要介绍了常用的特征选择方法和分类算法。 第三章是从分析制约v s m 准确率的瓶颈出发,提出了解决方案,详细阐述了 基于类别概念的特征选择方法。 第四章简要介绍了我们实验的框架结构、实验数据集以及对实验结果的详细 分析等内容。 最后是参考文献、致谢和硕士研究生期间发表的论文。 1 5 本章小结 本章介绍了文本分类的研究背景及其意义,并从发展历史、应用的角度对文 本分类作了概括说明。 北京邮电大学硕士学位论文 第二章文本分类技术 本章将在对文本分类作简要介绍的基础上,以特征提取算法和分类模型为 主,介绍一些相对成熟、常见的文本分类技术。 2 1文本分类简介 文本分类最早从2 0 世纪6 0 年代初期开始,在近三十年的时间里,文本分类 的发展一直很缓慢,直到2 0 世纪9 0 年代初,由于文本分类良好的应用前景,同 时出现了功能更强大的硬件设备,文本分类技术才获得迅速发展,现在文本分类 己成为信息系统学科的重要的研究领域之一。 2 1 1 文本分类发展及应用 文本分类的发展历史基本上可分为两个阶段,第一阶段是从2 0 世纪6 0 年代 直到2 0 世纪8 0 年代末,在这期间最有效的文本分类系统一直是由专家人工构建 的基于知识工程技术的分类系统,l p , 女n 卡内基集团为路透社开发的著名c o n s t r u e 新闻自动分类系统就是由专家定义一系列逻辑规则“,这些规则包括如何把某一 给定文本归类为某预先指定的类别集合中的一种或几中类别。进入2 0 世纪9 0 年代,形势就发生了改变,基于机器学习( m a c h i n el e a r n i n g ) 方法实现文本自 动分类运行效果完全超过了基于知识工程的分类方法,从而进入了文本分类的另 一个发展阶段。机器学习文本分类算法通常从一个预先分类好的文本集合中,“学 习”出各个类别的特性,目前这种自动分类方法所能达到的水平能与人工分类的 水平相当,显然由于这种方法不再需要知识工程师和领域专家的接入,节约了大 量的专家人力资源,同时加快了分类系统的建立速度。现在,文本分类已被视为 几乎所有基于内容的文件管理的学科的基石。 国内文本分类技术的研究相对于国外的发展水平起步较晚,最早大约是从2 0 世纪9 0 年代初开始研究,特别中文文献自动分类研究目前还处于发展阶段,1 9 9 6 年,吴菌等在中文信息学报上讨论了有关“汉语语料的自动分类”1 :1 9 9 8 年,刘开瑛等在“中文文本中抽取特征信息的区域与技术”一文中u “,讨论了如 何从各种文本抽取特征信息;1 9 9 9 年,何新贵等发表了“中文文本的关键词的 北京邮电大学硕士学位论文 自动抽取和模糊分类方法“”1 ,并将文本分类方法世纪应用于“全国政协提案处 理”课题:南京大学软件新技术国家重点实验室的邹涛专题讨论了“w e b 信息的 采集、文本的识别与分类”“”“;2 0 0 0 年黄萱菁等提出了“独立于语种的文本 分类方法”,讨论如何把同一种分类方法应用于不同的语种“;2 0 0 4 年,赵林等 在通信学报上发表的“基于知网的概念特征抽取方法”一文提出了“一种以 知网为语义知识库、基于语义信息的文本特征项抽取方法”,以更能体现文本的 概念特征提高过滤系统的性能“。 自2 0 世纪6 0 年代文本分类诞生以来,它在很多方面得到应用。 ( 1 ) 文献自动标引 标引是指用一个或若干个词来表示文献内容特征的过程。早在1 9 5 6 年,美 国的h p l u h n 就开始了文献自动标引的试验;6 0 年代初,美国的g s a l t o n 教 授在自动标引方面取得了令世界瞩目的成就。从1 9 8 0 年以后我国在中文自动分 词方面取得初步进展,中文文献自动标引方面的研究不断深入。 用于标引的关键词和词组属于一个专业词典,如果把该词典的条目看成不同 类别,标引的过程就是一个文本分类的过程,这种文献自动标引功能在数字化图 书馆中非常重要。所以,文献自动标引对文本分类的研究也起着非常重要的作用。 ( 2 ) 文本过滤 文本过滤通过排除掉不感兴趣的文本,提供有用的信息给用户。过滤的过程 可以看成是一个单一类别的文本分类,输入文本被分类成两种,相关的和不相关 的。邮件过滤也是一个差不多的过程,也是一个文本分类的应用范围。 ( 3 ) 词义排歧 词义排歧是遇到多义词时判断出适合于当前环境下的一种正确意思。把该词 出现的语言环境如句子或段落作为待分类的文本,该词的j l 种词义作为类别,词 义排歧过程就是一个文本分类的过程。而且是一种单一类别的分类。 这对于在机器翻译中遇到多义词时,选择一个正确的词义是常有用的。 ( 4 ) 网页分类 w w w 目前是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广 告、消费信息、金融管理、教育、政府、电子商务等很多方面的内容。一个好的 分类系统对于网络用户来说是非常必要的,但是如果手工对上百万的网页进行分 类,显然是不实际的,这就需要应用到文本自动分类技术。 但是,网页分类相比较一般的文本分类有两点特殊的地方:首先是网页超文 本格式,尤其自身的格式和特点;其次是网页的类别结构是多级别的,父类下面 有很多子类,不同于一般的分类都是同级类别。 北京邮电大学硕士学位论文 2 1 2 文本分类定义 文本分类( t e x tc a t e g o r i z a t i o n ) 是指依据文本的内容,由计算机根据某 种自动分类算法,把文本判分为预先定义好的类别。 从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射 到已经建立的类别体系中。该映射可以是一一映射,也可以是一对多的映射,因 为通常一篇文本可以同多个类别相关联,用数学语言可以描述为: f :a b 式中,a 为待分类的文本集合,b 为分类体系中的类别集合。 文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结 出分类的规律性而建立的判别规则,确定文本相关的类别。 文本的分类是基于它的内容来分的,不是以文本所存在的数据模式来分的, 这就意味着文本与哪一类相关这个概念是主观意义上的。 2 1 3 文本分类类型 文本分类有两种类型,根据需求的不同,可分为单类别分类和多类别分类 “”。在不同的情景需求下,分类的具体任务也各不相同。 在单类别分类中是多个文本对应一个类别的关系,分类器的功能可用函数 ,来表示,:d x c t o ,1 ,1 表示文本d 属于类别c ,o 则反之。此时,文本分 类的任务是建立起分类器,尽量模拟逼近函数,。在单类别分类中,分类未知文 本时通常会采取阈值的方法,在分类器的框架建立好之后,训练的过程就是根据 训练例来调整闽值的过程。分类时根据阈值判断,满足条件则判为1 ,否则判为 o 。单类别分类相对简单。 在多类别分类“”中,是多个文本与多个类别的对应关系,而且通常一个文本 只能属于一个类别。在多类别分类中,分类时通常会采用投票法,即分类器会将 文本d 放在所有的类别上完成一次分类过程,得到某种结果。这些结果通常代表 了文本d 属于某个类别的可能性,可以是文本d 属于某类别的概率,或者是文 本d 与某类别的相似程度等,之后再由分类器从中完成抉择。多文本分类更为复 杂,此时文本分类的任务是建立起适用于多类别的分类器。 2 14 文本分类模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论