(计算机软件与理论专业论文)文本聚类方法研究及其应用.pdf_第1页
(计算机软件与理论专业论文)文本聚类方法研究及其应用.pdf_第2页
(计算机软件与理论专业论文)文本聚类方法研究及其应用.pdf_第3页
(计算机软件与理论专业论文)文本聚类方法研究及其应用.pdf_第4页
(计算机软件与理论专业论文)文本聚类方法研究及其应用.pdf_第5页
已阅读5页,还剩100页未读 继续免费阅读

(计算机软件与理论专业论文)文本聚类方法研究及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着互联网的不断深入发展,网络上堆积的数据日益庞大,并且大部分数据 以文本的形式存储。文本的非数值性、复杂性等特点使得文本挖掘成为数据挖掘 相关领域中的热点与难点。在与文本相关的一些应用中,如垃圾邮件甄别,文本 分类方法受到了训练样本的限制,无法达到令人满意的效果。文本聚类方法由于 具有无监督的学习能力,成为人们寻求解决这些问题的一个重要方向。 文本聚类方法主要包括文本表示模型和文本聚类算法。目前大多数文本表示 模型都是以词条为基本单位进行建立的,这使得模型数据具有高维与稀疏的特 点。在高维数据空间中,聚类往往只存在于某些子空间中,并且不同的聚类所关 联的子空间也存在差异。受“维度效应”的影响,传统的聚类算法一般无法直接 对高维数据进行有效的聚类,需要通过一些特殊的处理。 本文在常用的矢量空间模型( v s m ) 基础上,以聚类算法为出发点,研究如何 基于不同的聚类算法建立相应的文本聚类方法。通过研究传统文本聚类方法的聚 类过程,分析了传统方法对于聚类算法的要求,继而提出了一种具有鲁棒性的数 据点收缩聚类算法,并在此基础上建立相应的文本聚类方法;通过分析传统文本 聚类方法在维度约简方式上存在的不足,提出了一种子空间聚类算法,并在此基 础上建立相应的文本子空间聚类方法。本文的主要工作如下: 1 研究层次型聚类算法c u r e ,通过将其代表点收缩的思想与网格密度概 念相结合,从而达到对数据分布更为细致的度量,在此基础上提出一种 基于数据点收缩的网格聚类算法,并通过实验验证了算法的有效性; 2 在网格聚类算法基础上建立了相应的文本聚类方法,并将其应用于垃圾 邮件甄别与中文文本聚类领域; 3 着重研究了子空间聚类算法,通过分析现有软子空间聚类算法在聚类结 果稳定性和初始化方面存在的不足,提出一种专门处理文本数据的子空 间聚类算法与相应的初始化算法; 4 基于上述子空间聚类算法建立了文本子空间聚类方法并应用于垃圾邮件 甄别与中文文本聚类领域;通过实验分析了该方法在维度处理上自眦势。 关键词:数据挖掘;文本挖掘;文本聚类;垃圾邮件 r e s e a r c ho nt e x tc l u s t e r i n gm e t h o d sa n dt h e i ra p p l i c a t i o n s a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e r n e t ,d a t ao nt h ew e bi si n c r e a s i n ge x p l o s i v e l y t h em o s t o ft h i sd a t ai st e x t u a l b e c a u s eo fi t sn o n - n u m e r i c a lf e a t u r ea n ds e m a n t i cc o m p l e x i t y , t e x tm i n i n gb e c o m e sah o ta n dd i f f i c u l ts p o to fd a t am i n i n g d u et or e s t r i 吱i o n so n t r a i n i n gs a m p l e s ,t e x tc a t e g o r i z a t i o n c a l ln o tw o r kw e l li ns o m et e x tr e l a t e d a p p l i c a t i o n s ,s u c h 舔s p 搬d e t e c t i o n t e x tc l u s t e r i n g , f o rw h i c hc a nc l a s s i f yo b j e c t s a u t o m a t i c a l l yw i t h o u tt r a i n i n gs a m p l e s , b e c o m e san e wi m p o r t a n ts o l u t i o no ft h e s e a p p l i c a t i o n s 。 t e x tc l u s t e r i n gm e t h o dm a i n l yi n c l u d e s :t e x tr e p r e s e n t a t i o nm o d e la n dt e x t c l u s t e r i n ga l g o r i t h m s 。s of a r , m o s tt e x tr e p r e s e n t a t i o nm o d e l sa l eb a s e do nt e r m s , w h i c hm e a n st h ed a t ag e n e r a t e db yt h e s em o d e l sa l eh i g hd i m e n s i o n a la n ds p a r s e i n 址曲d i m e n s i o n a ls p a c e , d u s t e r so n l ye x i s ti ns o m es u b s p a c e s ,a n dh a v ed i f f e r e n t s u b s p a c e s a f f e c t e db y d i m e n s i o nc u r s e ,t r a d i t i o n a lc l u s t e r i n ga l g o r i t h m sc a n t c o m p u t et h e s eh i g hd i m e n s i o n a lm o d e ld a t ad i r e c t l yu n t i lr e d u c i n gt h ed i m e n s i o n s b a s e do nv e c t o rs p a c em o d e l ( v s m ) ,w es t u d i e so nt e x tc l u s t e r i n ga l g o r i t h m s a sas t a r tp o i n t t h e nt r yt of o r mar e l a t e dt e x tc l u s t e r i n gm c t h o db a s e do nt h e s e a l g o r i t h m s b ys t u d y i n gt h ep r o c e s so ft r a d i t i o n a lt e x tc l u s t e r i n gm e t h o d ,w e a n a l y z e dt h er e q u i r e m e n to ft r a d i t i o n a lt e x tc l u s t e r i n gm e t h o da b o u tc l u s t e r i n g a l g o r i t h m s ,a n dp r o p o s e dar o b u s tc l u s t e r i n ga l g o r i t h mt o f o r mar e l a t e dt e x t c l u s t e r i n gm e t h o d ,b ya n a l y z i n gt h ew e a k n e s so f t r a d i t i o n a lt e x tc l u s t e r i n gm e t h o d i nd i m e n s i o nr e d u c t i o n ,w ep r o p o s e dan o v ds u b s p a c ec l u s t e r i n ga l g o r i t h m b a s e d o ni t ,ar e l a t e dt e x ts u b s p a c ec l u s t e r i n gm e t h o di sg e n e r a t e d t h em a i nw o r k so ft h i s p a p e ri sf o l l o w : 1 s t u d y i n gc u r ea n da s s o c i a t i n gt h ei d e ao fs h r i n k i n gd a t ap o i n t sw i t hg r i d d e n s i t yt og e taf i n e - g r a i n e dm e a s u r e m e n to fl o c a ld e n s i t y , a n dt h e np r o p o s e d ag r i d - b a s e dc l u s t e r i n ga l g o r i t h mu s i n gd a t ap o i n t ss h r i n k i n g ,e x p e r i m e n t a l r e s u l t sh a v es h o w ni t se f f e c t i v e n e s s ; 2 b a s e do nt h e 妒d - b a s e da l g o r i t h m ,ar e l a t e dt e x tc l u s t e r i n gm e t h o di s h l g e n e r a t e dt oa p p l yo ns p a md e t e c t i o na n dc h i n e s et e x tc l u s t e r i n g ; 3 a i m e dt ot h ei n s t a b i l i t yo fc l u s t e r i n gr e s u l t sa n dt h ed e p e n d e n c eo n i n i t i a l i z a t i o n , an o v e ls o i ls u b s p a c ec l u s t e r i n ga l g o r i t h mf o rt e x td o c u m e n t s a n dar e l a t e di n i t i a la l g o r i t h ma r ep r o p o s e d ; 4 b a s e do nt h ea b o v e ,ar e l a t e dt e x ts u b s p a c ec l u s t e r i n gm e t h o di sg e n e r a t e d t oa p p l y0 1 1s p a md e t e c t i o na n dc h i n e s et e x tc l u s t e r i n g , w h i c hi sm o r e e f f e c t i v ea td i m e n s i o nr e d u c i n gt h a nt r a d i t i o n a lt e x tc l u s t e r i n gm e t h o di n e x p e r i m e n t s k e y w o r d :d a t am i n i n g ;t e x tm i n i n g ;t e x tc l u s t e r i n g ;s p a r ee m a i l i v 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成 果。本人在论文写作中参考的其他个人或集体的研究成果,均在 文中以明确方式标明。本人依法享有和承担由此论文产生的权利 和责任。 声明人( 签名) :孳缸妒四 矽钐年月厂日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电 子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学 校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索, 有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适 用本规定。 本学位论文属于 1 保密() ,在年解密后适用本授权书。 2 不保密( ) ( 请在以上相应括号内打“寸) 作者签名 导师签名 e t 期:c 僻年多月f e t 日期:冲么月厂e t 第章绪论 第一章绪论 近年来,文本挖掘成为数据挖掘领域中的研究热点。作为文本挖掘中的基本 技术之一,文本聚类技术得到了活跃的研究并在相关领域中应用广泛。同时,如 何进一步提高文本聚类方法的效率与效果,成为该领域中亟待改善的问题。本章 苁数据挖掘、文本挖掘和文本聚类三个层面阐述了本论文的研究背景,通过介绍 研究现状与存在的问题,阐明了本课题的研究意义。 1 1 研究背景及选题意义 数据采集技术的进步与互联网的普及,让获褥数据变得越来越容易。人们麓 够方便的在互联网上发布数据、共享数据、搜索数据和下载数据,从而造成了互 联网上的数据爆炸【。在这些数量庞大的数据中,大部分是以文本形式进行存储 的,两文本所具有的非数值性、无结构性、复杂性等特点【2 坡得文本挖掘成为数 据挖掘领域中的研究热点与难点。本文主要研究文本挖掘领域中的文本聚类方 法,针对常用的文本聚类方法存在的若干问题,在现有的研究基础上进行相应的 改进,提蹬了一些新方法,并将其应用到相关领域中。以下分剩觚数据挖掘、文 本挖掘、文本聚类等方面阐述本文的研究背景及意义。 1 1 1 数据挖掘概述 随着网络目益深入的发展,互联耀上的数据增长的速度远远超过人们处理的 速度。由于数据量太大、数据形式太复杂【l 3 】,传统的数据分析技术无法有效的 处理它们;而且,随着数据形式的变化,用户提磁的一些需求与问题也是已有的 数据分析方法无法解决的。因此,薪的数据与新的需求使得人们不得不研究掰盼 方法与技术数据挖掘1 1 , 3 , 4 1 ( d a t am i n i n g ) 就这样应运而生了。 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识剐 有效的、新颖的、潜在有用的,以及最终可理解的模式的过程,也就是根据预定 的目标,对大量的数据进行分析,揭示其中隐含的规律,并进一步将其模型化的 先进有效技术过程u l 。数据挖掘并不着重于纯理论的研究,而致力于将各个领域 文本聚娄方法研究及其麻l | 堡成熟的理论和技术与各种有效的算法结合起来,帮助人们发掘这些领域中潜在 的、不为人知的信息与知议。| j l = | 此,数据挖掘是门交叉的学科它与计算机学、 数学、统计学、经济学、生物学、语言学等学科都有密切的联系。 数据挖掘过程包括很多处理阶段,其一般流程主要包括兰个阶段:数据准备、 数据挖掘、结果解释和评价。 图1 1 数据挖掘流程 资科米源:数据挖捌概念与技术1 1 1 如图ll 所示,数据挖掘的流程主要包括以f 步骤: ( 1 ) 数据准备:数据准备又可以分为2 个子步骤:数据选取、数槲预处理【l ”。 数据选取的甘的是确定发现任务的操作对敦,即h 标数据是根搬用户 的需要从原始数据库巾抽取的一组数 l l :。数据预处理般包括消除噪声、 推导计算缺值数据、消除重复 己沫、完成数据类型转换( 如把连续型数据 转换为离敞型数据,以便于符号归纳:或是把离散性数据转换为连续型 数据,以便于神经网络计算) 以及对数据降维( 即从衲始特征巾找出真正有 用的特征以减少数据挖掘要考虑的变量个数) ; ( 2 ) 数据挖掘:数据挖掘阶段首先要确定数据挖掘的目标和挖掘的知谚 类型; 确定挖掘任务后,根据挖掘的知识类l ! 选样合适的挖掘算法;最后实施 第章绪论 数据挖掘操作运用选定的挖掘i 算法从数捌库- f 】抽取所需的知t ; ( 3 ) 结果评估:数据挖掘阶段发现的知识,经过评估叮能存在冗余或无关 的知识,这时需要将其圳除;也有可能知识不满足j j 户的要求需要重 复上述挖掘过程重新进行挖掘。另外,由于数据挖掘是最终耍面临片j 户 的,因此,还需要对所挖掘的知泌进行解释,以一种用户易于理解的方 式( 如可视化方式1 供用户所用。 在常用的数据挖掘系统中,一般将其分为三层结构,如图l2 所示。其中, 第一层是数据源,包括数掘库、数据仓库等。第二层是挖掘层,利用数据挖掘系 统提供的各种数据挖掘方法分析和提取数据库中的数据以达到用,1 的需求。第 三层是用,、层,使用多种方式将获取的信息和发现的知识反映给用,1 。 刖。层 挖勰仨南 隹到 数据层 17 数柑i 。 0 圈1 2 数据挖掘系统的体系结构 资料米源:( 数据挖掘:概念_ 挂术1 1 i 数据挖掘的任务一般可以归纳为两类: ( 1 ) 预测任务:该任务的目标足根据一些属性的值,称为自变量,预测某些 特定变量的值,称为因变量。如预测建模等; 文本聚类方法研究及其应用 ( 2 ) 描述任务:该任务是发现数据中的潜在模式。如:关联分析,分类,聚 类,异常检测等。 数据挖掘经过二十年的发展,在不同领域中的实际应用中产生了大量的算法 与方法,相关的技术也不计其数。通过总结与分类,可以将现有的数据挖掘技术 归纳为以下几种: ( 1 ) 关联规则方法:挖掘关联规则1 ,6 】就是发现存在于大量数据集中的关联性 或相关性,例如关联规则“9 0 客户在购买面包的同时也会购买牛奶 , 其直观意义为顾客在购买某些商品的时候有多大倾向会购买另外一些商 品: ( 2 ) 分类和聚类方法:分类就是假定数据库中的每个对象属于一个预先给定 的类别,从而将数据库中的数据分配到给定的类中。而聚类是将地实体 对象集合依照某种相似性度量原则划分为若干个类似实体对象组成的多 个类或簇的过程。分类和聚类都是对目标进行划分,划分的标准是类内 差别最小而类间差别最大。分类和聚类的区别在于分类事先知道类别数 和各类的典型特征,而聚类则事先不知道; ( 3 ) 数据统计方法:使用这些方法一般首先建立一个数据模型或统计模型, 然后根据这种模型提取有关的知识。例如,可由训练数据建立一个 b a y e s i a n 网t 7 ,引,然后,根据该网的一些参数及联系权重提取出相关的知 识; ( 4 ) 机器学习方法:大多数机器学习【9 ,1 0 1 方法使用人类的认识模型模仿人类的 学习方法从数据中提取知识,由于机器学习经过多年的研究,已取得了 一些较满意的成果,因此,在数据挖掘中可以利用目前比较成熟的机器 学习方法; ( 5 ) 多层次数据汇总归纳:数据库中的数据和对象经常包含原始概念层上的 详细信息,将一个数据集和归纳成更高概念层次信息的数据挖掘技术被 称为数据汇总f l l 】。概念汇总将数据库中的相关数据由低概念层抽象到高 概念层,主要有数据立方体和面向对象的归纳两种方法; ( 6 ) 神经网络方法:神经网络【1 ,1 2 1 由于本身良好的鲁棒性、自组织自适应性、 并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题, 4 第一章绪论 岗此近年来越来越受到人们的关注。典型的神经刚络模型主要分3 人类: 以感知机、b p 反向传播模型、晒数型网络为代袁的,用于分类、预测和 模式谚l 另l 的前馈式神经州络模型;以h o p f i e l d 的离散模型和连续模型为代 表的分别用于联想记忆和优化计算的反馈式神经网络模型;以a r t 模 型、k o h o l o n 模型为代表的,刚于聚类的白组织映射方法; ( 7 ) 决策树方法:利用信息论中的信息增益寻找数据库中具有最大信息量 的字段,建立决策树的个结点,再报船字段的不同耿值建立树的分支: 在每个分枝子集中,重复建赢树的下层结点和分支的过程,即可建立决 策树i 。”】。国际上最有影l 嘲和最早的决策树方法足j r q u i n l a n 提出的 i d 3 t ”1 方法,它对越大的数据库效果越好,在i d 3 基础上后人义发展成各 种决策树方法; r 8 1 序列模式分析方法:主要_ e 于发现定时m i l l | 隔内接连发牛的事件。这 些事件构成个序列【i i ,发现的序列应该具有普遍意义,其依据除r 统 计上的概率之外,还要加上i 寸i i i 】的约束。 1 1 2 文本挖掘概述 随着数据挖掘技术不断深入发展并在大规模的结构化数据上取得成功,人们 j l :始思考如何将其应用到山自然语言排述的文丰上,从而帮助人们从庞大而繁复 的文字海洋中找到潜在的、自意义的、有价值的信息。这些针对文本进行数据挖 _ 5 i i 与知识描述、知泌发现的过程被统称为文本挖掘5 2 ”1 ( t e x tm i n i n g ) 。文本挖掘 也称为文本数据挖掘或文本知识发现。 图1 3 文本挖掘过程 资料柬源:文本挖掘中若干戈键技术研究【”1 文本聚类方法研究及其应用 如图1 3 所示,文本挖掘主要包括三个步骤: 1 ) 预处理过程:选取与挖掘任务相关的文本并将其转化成文本挖掘工具可 以处理的中间形式; ( 2 ) 文本挖掘:在完成文本预处理后,可以利用机器学习、数据挖掘以及模 式识别等方法提取面向特定应用目标的知识或模式; l 。 图1 3 中描述了传统文本聚类方法的流程,在这里我们给出一个更为通用的 文本聚类流程,如图2 1 所示: 图2 1 文本聚类流程 资料来源:文本挖掘中若干关键技术研究【1 5 l 如图2 1 中,文本表示模型包括文本预处理与模型表示两部分。通常,文本 预处理根据表示模型对于文本特征的相关定义进行文本特征的抽取与选择;模型 表示则完成完成对于文本特征的权值计算 1 7 , 4 3 】。文本聚类算法的主要工作是对模 型数据进行相应的处理与计算,完成聚类分析。 在下面的章节,我们分别从文本表示模型、文本聚类算法与文本聚类方法的 应用三个方面对目前主要的文本聚类方法进行概述。 2 2 文本表示模型 文本聚类面临的首要问题是如何在计算机中合理、有效的表示文本,即为半 结构化或非结构化的文本定义一个形式化的数学模型2 7 , 4 4 。首先,这个模型要 能够有效地表示文本,就必须包含足够的信息以反映原始文本的特征。文本特征 1 4 第二二章文本聚类技术及其癍徭 是关于文本的元数据,可以分为描述性特征【2 1 ,如文本的名称、r 期、大小、类 型以及语义性特征2 ,1 9 , 2 8 】,如文本的作者、标题、机构、内容。描述性特征易于 获得,而语义特征较难获得。目前在文本语义特征方面,研究的最多的是内容特 征1 l 2 9 , 4 4 。当文本内容被篱单地看成由它所包含的基本语言单位( 字、词、词组 或短语等) 组成的集合时,这些基本的语言单位被称为词条( t e r m ) 。如果用出现在 文本中的词条表示文本f 17 2 6 1 ,那么这些词条就是文本的特征。 同时,文本的表示模型不应当过于复杂,以至于数据量太过庞大使褥聚类算 法无法处理。因此,在建立模型之前先要对文本的特征进行抽取和选择。这个过 程称为文本预处理过程f 2 1 。 为了使计算机能够真正处理词条集,必须将词条集表示成计算机可以处理的 数学向量。自从文本检索和信息检索概念首次被提出后,出现了许多基于文档和 问题之间相关词语比较的计算模型,最具有代表性的有布尔空间模型【2 】、向量空 闯模型f 搬、概率模型 4 3 1 、图模型【2 0 2 8 , 3 3 3 6 】、概念链模型【1 羽等。这些模型从不同 角度出发,使用不同的方法处理特征加权【l s 】、类别学 - - - 1 1 0 2 6 , 2 8 1 和相似计算【怂,2 8 1 等问题。 2 2 1 文本预处理 值得指明的是,这里所讲的文本特征的抽取和选择强钢与维度约简中的特征 抽取和特征选择方法含义不同,指的是从文本中抽取和选择出有意义的词条。为 了区分两者,以下将文本特征的抽取和选择称为词条抽取和词条选择。 2 2 ,1 1 词条抽取 词条抽取医搭】是指透过一系列的预处理,去掉些无意义的标点符号,将代 表内容的、有意义的词条从文本中分离出来。由于中文与英文单词构成与书写习 惯上的差异,中文文本与英文文本在词条抽取的步骤上有些差异。中文的词与词 之间没有空格分开,因此抽取过程中需要进行词语切分1 3 1 , 4 6 , 4 7 1 ;而英文中代表相 同意义的单词由于词性不同,在书写方式上会有少许差异,这就需要在词条抽取 过程中将代表单词意义的词干抽取 4 6 镐1 出来。 1 5 文本聚类方法研究及其应用 图2 2 词条抽取步骤 资料来源:文本挖掘中若干关键技术研列1 5 l 如图2 2 所示,词条抽取的主要步骤包括: ( 1 ) 词语切分:词语切分是专门用来处理中文的。现有的分词方法可以分为 两类:一类是理解式分词法【3 l4 9 ,即利用汉语的语法知识、语义知识及 心理学知识进行分词;另一类是机械式分词法【3 l 4 7 , 4 9 ,一般以分词词典 为依据,通过文本中的汉字串和词表中的词逐一匹配完成词语切分。第 一类分词方法算法复杂,实际应用中经常采用的是第二类分词方法。机 械式分词法主要有正向最大匹配法,逆向最大匹配法,逐词遍历法等【4 观; ( 2 ) 去除停词:文本集有时包含一些没有意义但使用频率极高的词。这些词 在所有文本中的频率分布相近,从而增加了文本之间的相似程度,给文 本挖掘带来一定困难。解决这个问题的方法是用这些词构造一个停词表 或禁用词表【2 4 5 ( s t o pw o r dl i s t ) ,在词条抽取过程中删去停词表中出现的 词条; ( 3 ) 词干抽取:词干抽取【4 8 ,5 0 , 5 1 j ( s t e m m i n g ) 有四种不同的策略:词缀排除、 词干表查询、后继变化和n - g m m f 4 6 1 。其中词缀排除最直观、简单且易于 实现。多数词的变形是因添加后缀引起的,所以在基于词缀排除策略的 抽取算法中后缀排除最为重要,p o r t e r 算法【4 3 】是后缀排除算法中最常用的 一种。词干抽取将具有不同词缀的词合并成一个词,降低文本挖掘系统 中特征词的总数,从而提高了挖掘系统的性能。值得注意的是,词干抽 取对文本挖掘性能的提高仅在基于统计原理的各种分析和挖掘技术下有 效。在进行涉及语义和语法的自然语言处理时,不适宜采用词干抽取技 术;同时,词干抽取对文本挖掘或信息检索准确性的影响至今没有定论, 1 6 第二章文本聚类技术及其应羽 因此许多搜索弓l 擎和文本挖掘系统不使用任何词干抽取算法。 2 2 1 2 词条选择 词条选择1 2 ,s 2 】也称文本特征子集选择或文本特征集缩减。经过词条抽取获得 的词条数量很多,有时达数万个特征。如此多的特征对许多文本挖掘方法,如文 本分类、文本聚类、文本关联分析来说未必都是有意义的;而过大的词条空间还 会严重影响文本挖掘的效率,因此选择适当的特征子集十分必要。 通常采用机器学习的方法进行词条选择。虽然机器学习中有许多选取文本词 条子集的算法,但有些算法复杂且效率低下,不适于处理庞大的文本词条集。国 外对词条选择的研究较多【蹋,国内对这一闯题以跟踪研究为主,集中在将国外现 有特征评估蘧数用予中文文本特征选择及对其进行改进。 2 2 2 矢量空阊模型 矢量空间模型v s m q ( v e c t o rs p a c em o d e l ) 是目前应用最广泛的文本表示模 型之一,它将文本当作矢量空间中的个矢量,通过某种计算公式计算出文本在 空间中的坐标,从而得到表示该文本的一个特征向量五- - ,其 中是文本口在词条t ,上对应的权值。通常词条的权值由词条对于文档在文档 集中被检索到的贡献度来决定,并与其成正比。 向量空间模型的优点在于:将文本简化为词条及其权重集合的向量表示,其 权重计算可以通过简单的频数统计来完成,从而把文本聚类问题有效的转化为空 间聚类问题,因此被认为是一种很好的文本表示模型【1 0 ,4 5 1 。在这个基础上,引入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论