(计算机软件与理论专业论文)主题数字博物馆信息分类系统的研究.pdf_第1页
(计算机软件与理论专业论文)主题数字博物馆信息分类系统的研究.pdf_第2页
(计算机软件与理论专业论文)主题数字博物馆信息分类系统的研究.pdf_第3页
(计算机软件与理论专业论文)主题数字博物馆信息分类系统的研究.pdf_第4页
(计算机软件与理论专业论文)主题数字博物馆信息分类系统的研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机软件与理论专业论文)主题数字博物馆信息分类系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 主题数字博物馆中的信息具有异构性、多样性及大数量等特点,目前对主题 信息资源的分类主要是由领域专家结合领域知识来完成,如何通过计算机对其进 行自动分类是目前有待解决的一个难题。本文以主题数字博物馆为基础,对其信 息分类系统进行了研究,其目的是为了对主题资源进行有效组织,以及使领域专 家和主题爱好者能够更有效、直观、准确、快速地获取某主题信息。本文主要进 行了以下几方面工作: 首先,本文在分析和研究主题数字博物馆信息资源的基础上,针对体系的可 扩展性、互操作性以及运行效率几个关键问题,设计了一种主题数字博物馆的信 息分类方案,并构建出了一个适合主题数字博物馆信息分类系统的详细体系结 构。 其次,本文对主题数字博物馆信息分类体系的核心部分元数据文本分类 器的关键技术问题进行了研究:提出采用领域中的主题词汇对文本进行向量表示 的方法,其作用是避免因为传统中文词语切分方法的差异而导致分类效率的降 低;提出对文本特征向量进行两次缩减的方法,以弥补传统的采用一种特征缩减 方法的不足;提出在对元数据文本进行具体分类时,对其元素采用不同的权重参 数,以避免对所有文本特征平均用力从而提高分类准确率;设计了元数据文本 的详细分类流程。 最后,以敦煌学数字博物馆遗书元数据文本为语料,对所设计的元数据文本 分类器进行了验证,实验证明经过针对性改进之后的元数据文本分类器,其分类 准确率得到了提升。 关键词:元数据;主题数字博物馆;体系结构;文本自动分类;特征选择 国家科技部社会公益专项资金资助项目:敦煌文物保护数字化研究( 项目编号:2 0 0 1 d i b l 0 0 6 0 ) a b s t r a c t h e t e r o g e n e i t y , d i v e r s i t y , a n d h u g eq u a n t i t y a r et h ec h a r a c t e r i s t i c so ft h e i n f o r m a t i o ni nf o c u s e dd i g i t a lm u s e u m ( f d m ) a tp r e s e n t ,t h e c l a s s i f i c a t i o no f i n f o r m a l i o nr e s o u r c e si nf d mi sc a r r i e do u tb ys p e c i a l i s t si nt h ef i e l db a s e d o nt h e i r e x p e r t i s e ,a n da u t o m a t i c c l a s s i f i c a t i o nb yc o m p m e ri ss t i l l ad i f f i c u l ti s s u et ob e a d d r e s s e d i nt h i sp a p e r , a u t o m a t i ci n f o r m a t i o nc l a s s i f i c a t i o ns y s t e m si nf d m h a v e b e e ns t u d i e d ,a n dt h eo r g a n i z a t i o no fi n f o r m a t i o n r e s o u r c e si nf d mh a sb e e n o p t i m i z e di no r d e r t oe n a b l ee x p e r t sa n da m a t e u r st ol o c a t et h en e e d e di n f o r m a t i o n e f f i c i e n t l y , p r e c i s e l y , a n di n t u i t i v e l y t h i st h e s i si so r g a n i z e d a sf o l l o w s : f i r s t l y , a f t e rs t u d y i n gt h ee x i s t i n gf d m s ,a na u t o m a t i ci n f o r m a t i o nc l a s s i f i c a t i o n s c h e m eo ff d mw a sp r o p o s e d ,a n dad e t a i l e da r c h i t e c t u r ew a se s t a b l i s h e df o r i n f o r m a t i o nc l a s s i f i c a t i o ns y s t e mi nf d mw i t ht h ee m p h a s i so ne x p a n d a b i l i t y , m u t u a l o p e r a b i l i t y , a n de f f i c i e n c y s e c o n d l y ,p r o b l e m s i nm e t a d a t at e x t c l a s s i f i e r ( m t c ) ,w h i c h i st h e k e y c o m p o n e n t o f t h ei n f o r m a t i o nc l a s s i f i c a t i o na r c h i t e c t u r e ,w e r ea n a l y z e d ,a n ds o l u t i o n s w e r ep r o v i d e d :v e c t o r i z a t i o no ft e x tw i t hf o c u s e dv o c a b u l a r yt oa v o i dc l a s s i f i c a t i o n e f f i c i e n c yd e g r a d a t i o nc a w i n gb yd i f f e r e n c eo f c h i n e s ew o r ds e g m e n t a t i o nm e t h o d s ; d o u b l er e d u c t i o no f t e x tf e a t u r ev e c t o r st or e m e d yt h ed e f i c i e n c yo f t r a d i t i o n a lm e t h o d w h i c hb s e so n l yo n ek i n do f r e d u c i n gm e t h o d ;a s s i g n i n gd i f f e r e n tw e i g h tf a c t o r st o d i f f e r e n tf e a t u r e sd u r i n gm e t a d a t ac l a s s i f i c a t i o nt oi n c r e a s ec l a s s i f i c a t i o na c c u r a c y ; d e t a i l e dm e t a d a t ac l a s s i f i c a t i o np r o c e d u r ew a s d e s i g n e d f i n a l l y , m e t a d a t at e x to fd u n h u a n g l i t e r a t u r ef r o mf d mo nd u n h u a n g o l o g yw a s u s e dt ot e s tt h em t cw i t ht h o s ep e r t i n e n tm o d i f i c a t i o n s ,t h ee x p e r i m e n t a lr e s u l t s s h o w e dt h a tc l a s s i f i c a t i o na c c u r a c yw a si n c r e a s e d , k e y w o r d s :m e t a d m a ;f o c u s e dd i g i t a lm u s e u m ;a r c h i t e c t u r e ;a u t o m a t i ct e x t c l a s s i f i c a t i o n ;f e a t u r es e l e c t i o n i l 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立 进行研究所取得的成果。学位论文一卜凡引用他人已经发表或未发表的 成果、数据、观点等,均已明确注j 月出处。除文中已经注明引用的内 容外,不包含任何其他个人或集体已经发表或撰:写过的科研成果。对 本文的研究成果做出重要贞献的个人和集体,均已在义- _ i 以明确方式 标明。 本声明的法律责任i := 本人承担。 呛文作者签名:童牡 e 1期:j 盟咀 关于学位论文使用授权的声明 本人在导师指导1 :所完成的论文及棚关的职务作,锅,知识产权归 属兰州人学。本人完全了解兰州大学有关保存、使删学位论文的规定, 同意学校保存或向因家有关部门或机构送交论文的纸质版和电子版, 允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部 或部分内容编入有关数据库进行检索,可以采_ _ l j 任何复制手段保存和 汇编本学位论文。本人离校后发表、使川学位论文或与该论文直接相 关的学术论文或成果时,第署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 论文作者签名:起蜀! 垒导师签名:舅毒奄t删:芝型:! :岁 主题数i 博物馆信息分类系统的研究 1 1 引言 第一章绪论 2 1 世纪是知识经济的世纪,为迎接知识经济的挑战和信息化时代的到来,并适应新的 资源数字化要求,对于各行各业的领域资源也要进行数字化与网络共享,所以关于主题数字 博物馆的研究尤为重要和突出。 可以将主题数字博物馆理解为专注于特定领域的数字博物馆,主要是为了满足领域专家 和主题爱好者共享领域中数字资源的需要,其中最主要的功能就是对主题资源的浏览和检 索,使其能够更有效地使用主题数字博物馆中的各种信息。为了使主题用户能够直观、准确、 快速地定位到某主题信息,缩小浏览及检索范围,对主题数字博物馆进行信息分类为其提供 了新思路。 现今对于主题数字博物馆中信息资源的研究,大多数都是侧重于对信息如何进行高效、 快捷地检索,并且对于检索技术本身不断进行改进和翻新。诚然,人们忽略了的点就是对 信息进行分类也是提高检索速度的一个重耍方式,并充当了一个非常莺要的角色,成为主题 数字博物馆构建过程中的重中之重。 在进行信息分类时,通常是根据领域专家的知识与经验来进行人工分类,显然这是一件 费时费力的事,为了减轻这种负担,人们开始研究使用计算机来进行自动分类,这样可以大 大提升分类速度,但同时会导致分类准确率的下降。因此就要针对不同的信息特点采用不同 的分类方式,以提高分类准确辜,这种自动分类方式也成为主题数字博物馆中信息分类的一 个趋势,所以探索出一个高效、准确并适合主题数字博物馆信息特性的自动分类系统,成为 主题数字博物馆构建的一个不可或缺的部分。 但是,众所周知,主题数字博物馆中充斥着大量的异构资源信息。一方面对物理存在的 资源进行数字化时,产生的媒体对象资源具有形式多样性;另一方面,各种领域的主题信息 资源都相继出现在i n t e m e t 上,而且它们展现在i n t e m e t 上的方式也困其领域所具有的不同 特性,呈现出各种各样不同的模式。因此,在创建主题数字博物馆时对于这些异构信息进 行自动分类无疑是一个难题。 信息分类就是将具有某种共同属性或特征的信息归并在一起,把不具有上述共性的信 息区分开来的过程。其所要遵循的基本原则是; 1 ) 科学性 信息分类的目的就是将各种各样的信息按一定的体系结构组织起来。便于人们理解和利 用,也有利于信息资源开发利用中的开拓创新。分类的科学性就是要使类别的划分符台信息 的内涵、性质及使用与管理要求。必须选择信息的本质属性和特征作为分类的依据,使分类 体系结构具有稳定性,以供人们方便的使用。 兰州大学颂卜学位论文 2 ) 系统性 信息的分类既要反映各类信息之间的区别,又要反映它们之间的内在联系。分类结构中 各类信息按照相互联系排成一定的顺序,形成一个系统,这样既便丁:人们区分信息、识别信 息,又便于人们从整体上去把握各类信息之间的关系。 3 ) 可扩展性 随着科学技术的进步和社会经济的发展,人们可利用的信息量急剧增长,信息的类别和 分类体系结构也随着这种需要而变化,这就要求分类体系结构在原有的基础上有扩展的余 地。 4 ) 兼容性 信息的分类是一个庞大而复杂的系统,这个大系统中存在着若干层分类系统与子系统, 一些子系统之间存在着相互联系和信息共享问题。 5 ) 实用性 信息分类是根据信息的固有属性与特征来进行,反映信息这一复杂事务的多样性和内在 联系。因而有一定的客观标准,不可随意进行。然而正是由于信息的属性与特征的多样性, 在实际生活中选择何种属性与特征进行分类还应考虑到人们实际应用的需要。 在对敦煌学数字博物馆的开发过程中,我们对信息分类及其相关技术进行了研究与实 践,并探索出了一套适合主题数字博物馆的信息分类方案。 1 2 研究内容 在对主题数字博物馆的构建中,根据其资源特性,分类过程面l 临如下几个问题: 如何对主题数字博物馆中的异构数字资源进行标准化组织与描述。 对主题数字博物馆的信息资源采用何种方式进行分类,如何构建一个合理的体系架 构。 为了提高分类效率,具体的分类流程应该如何。 在构建主题数字博物馆的信息分类系统时,以上问题是每一个开发人员都要面临的,只 有设计一个合理的分类系统体系模型,才能使领域信息自动分类得以完成。而在具体分类实 现时,其分类流程应是研究的重点和必不可少的环节。也是一个比较困难和不断进步的技术, 为了提高其性能,对相关技术的合理运用和改进也是分类时要考虑的首要问题。 1 , 3 本文主要工作 针对以上问题,本文讨论了主题数字博物馆信息分类所涉及到的主要问题及解决方案, 给出了构建主题数字博物馆信息分类系统的信息模式和体系结构,并对其中的具体分类技术 进行了着重研究。本文的主要工作如下: 第一,通过对大量多样性主题数字博物馆信息资源的研究,设计了主题数字博物馆的信 2 主题数字博物馆信息分类系统的研究 息分类方案,卡句建了一个适合主题数字i 尊物馆信息分类系统的体系结构,掰对主题资源信息 分类过程中所遇剑的具体问题给予了相应的解决方案。 第二,将主题数字博物馆中的资源采用元数据【4 和数字对象来表示,在对资源分类时, 借助于对其描述的元数据文本。本文针对主题数字博物馆资源的特性,结合相关的文本分类 技术,设计了主题数字博物馆中元数据文本分类的详细流程,并针对分类过程中的几个关键 技术问题给出了针对性的解决方案。 第三,通过机器学习进行文本自动分类的首要问题,就是文本的向量表示。充分利用主 题数字博物馆的已有资源,即主题数字博物馆中特有的专业词汇及人_ _ 上= 收录的专业辞典,在 训练及分类阶段计算其在文本中的权重从而完成文本的向最表示,这样免去了中文切词的繁 琐及因为分词不理想而导致的分类准确率下降。 第四,文本分类的重要组成部分之一是特征提取。本文对文本特征进行二次提取并在 两次提取过程中采用效果较好并具有互补性的算法,针对中文文本特征我们在第一阶段采用 d f 算法【3 】,第二阶段采用c h i 算法吐以弥补传统只采用一种算法的不足。实验证明达 到了取长补短的效果。 第五,通过采用相关的相似度计算方法来完成分类。根据主题数字博物馆中元数据文本 所具有的特点,基于k n n 分类算法【4 1 进行加权改进。实验证明,分类准确率有所提升。 第六,在文本特征缩减过程中对所采用的领域专业词典也进行了两次缩减,采用这个经 过二次缩减的词典对训练文本进行最终训练和向量表示,并在分类阶段对待分类文本采用这 个词媳直接进行训练和向量表示。这样不仅降低了文本向量表示的维数,而且减轻3 j i i 练和 分类过程的负担,并提高了分类速度。 第七,根据所设计的主题数字博物馆的元数据文本分类流程,以敦煌学主题数字博物馆 的遗书元数据为实例进行系统实验测试,使分类准确率提升,得到了较为满意的实验结果。 1 4 本文组织结构 本论文主要由以下四个章节进行组织: 第二章介绍了信息分类的相关理论及文本分类的定义、应用和关键技术等。 第三章构建了主题数字博物馆中的信息分类体系结构,并对其基本功能组成及分类思 想进行了阐述。 第四章讨论了主题数字博物馆中的元数据文本分类流程和关键方法,并进行实验测试。 第五章对本文的内容进行了总结,并指出了进一步的研究方向。 3 兰卅1 人学硕上学位论文 第二章相关理论与技术 2 1 信息分类的相关理论 2 1 1 数据挖掘 下面对数据挖掘( d a t am i n i n g ) 从定义、功能和未来研究热点几方面来进行说明跚6 m : 1 ) 定义: 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取出 隐含的、事先未知的、但又潜在有用的信息的过程。充分利用有用数据,废弃无用数据,是 数据挖掘领域最重要的应用。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、 神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。 原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图 形、图像数据,同时也可以是分布在网络上的异构型数据。其方法也是多样化的,可以是数 学的,也可以是非数学的;可以是演绎的,也可以是归纳的。挖掘得到的知识可以被用于数 据的信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。 数据挖掘与传统数据分析( 如查询、报表、联机应用分析) 的本质区别为数据挖掘是在 没有明确假设的前提下去挖掘信息、发现知识。数据挖掘得到的信息应具有事先未知、有效 和实用三个特征。先前未知的信息是指信息是预先未曾预料到的,即数据挖掘是要发现那些 不能靠直觉发现的,甚至是违背直觉的信息或知识,挖掘出的信息越出乎意料,就可能越有 价值。 2 ) 数据挖掘的功能 数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下四类功能: 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息。以往需要进行大量手工分析的问题如今 可以直接由数据本身迅速得出结论。 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间 存在某种规律性,就称为关联。关联可分为筒单关联、时序关联、因果关联。关联分析的目 的是找出数据库中隐藏的关联网。 聚类 数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实 的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学 分类学。 4 土题数字博物馆信息分类系统的研究 概念描述 概念描述是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特 征性描述( 某类对象的共同特征) 和区别性描述( 不同类对象之间的区别) 。 3 ) 数据挖掘未来主要研究热点: 网站的数据挖掘( w e bs i t ed a t am i n i n g ) 在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信 息,这部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流 ( c l i c k - s t r e a m ) ,这部分数据主要i = j 于考察客户的行为表现。但有的时候,客户对自己的背 景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。 在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息。进而再加以利用。 生物信息或基因的数据挖掘( b i o i n f o r m a t i c s g e n o m i c s ) 生物信息或基因数据挖掘则完全属于另外一个领域。例如,基因的组合千变万化,患某 种病的人的基因和正常人的基因到底差别多大? 能否找出其中不同的地方,进而对其不同之 处加以改变,使之成为正常基因? 这都需要数据挖掘技术的支持。 文本的数据挖掘( t e x t u a lm i n i n g ) 无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差 很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的 专题。 随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂, 数据挖掘将发挥出越来越大的作用。 2 1 2 文本挖掘 下面对文本挖掘( t e x t u a lm i n i n g ) 从定义、功能及应用领域来进行说明7 】【8 】: 1 ) 定义 文本挖掘是从大量的非结构化的文本数据源中提取用户感兴趣的、潜在的有用模式和隐 藏的信息,并利用这些信息更好地组织文本的过程。文本挖掘是数据挖掘的一个研究分支, 用于基于文本信息的知识发现。直观地说,当数据挖掘的对象完全由文本这种数据类型组成 时,这个过程就称为文本挖掘。 2 ) 文本挖掘的功能 文本总结 文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样, 用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合十分有 用,例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。 文本分类 文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。这样, 5 兰州1 人学坝卜学位论文 片j 户不但能够方便地浏览文档,而且可【| 通过限制搜索范围来使文档的查找更为容易。利删 文本分类技术可以对人量文档进行快速、有效的自动分类。 文本聚类 聚类过程1 9 1 是假定在分类时除去原始资料( 即各个样品及其特征数值) 之外,没有其它 关于分类的先验知识,网而我们进行分类的唯一依据是各个样品点的坐标。换句话说,聚类 的任务是根据各个样品点间的相互关系把它们划分成一些类,使得每个类内的各点在某种意 义下彼此相似,而属于不同类的点则具有不同的性质。 关联分析 关联分析是指从文档集合中找出不同词语之间的关系。比如书籍作者和书名的出现模 式、商品名称与价格的出现模式等。 分布分析 分布分析是指通过对文档的分析,得到特定数据在某个历史时刻的分布情况。如可以通 过多种分布模式对某些文本进行挖掘,从而可以得到多种事物之间的相对分布。 趋势预测 趋势预测是指通过对文档的分析,得到特定数据在某个历史时刻的情况或将来的取值趋 势。如通过分析w e b 上出版的权威性经济文章,对每天的股票市场指数进行预测,指导投 资者进行投资。 3 ) 文本挖掘的应用 在电子邮件管理中的应用 利用文本挖掘构造的电子邮件路由,可以在对电子邮件进行文本挖掘以后。确定由哪个 部门、哪个人来处理这些电子邮件,并且可以根据电子邮件的内容进行相关统计。 在文档管理中的应用 文档管理是许多组织中十分繁琐而义非常重要的工作,通过文本挖掘可以帮助组织对成 千上万的文档实行有效地管理,可以使组织很快地了解需要查询文档的所在位置,以及其包 含的内容。 在客户自动问答系统中的应用 企业可以用文本挖掘来建立一个客户自动问答系统,对客户所寄的信件、电子邮件进行 文本挖掘以后,根据其反映的主要问题,在确定客户的需求置信度以后,自动给客户发送合 适的回信。 在市场研究中的应用 企业可以用连机文本挖掘系统对网上所出现的特定词、概念和主题进行挖掘统计,进而 对市场进行客观地统计分析。 在情报收集中的应用 企业可以用一些具有文本挖掘功能的自动智能网络爬虫,收集与企业有关的市场、竞争 对手以及市场环境的信息,并给出总结性的分析报告。 文本挖掘作为一个新的数据挖掘领域,其目的在于把文本信息转化为人可利用的知识, 6 主题数字博物馆信息分类系统韵研究 这无疑具有巨人的应用价值。目前对于文本挖拥的需求非常强烈,其应用前景也1 f 常j + 阔。 2 2 文本分类的定义和应用 2 2 1 相关概念 文本分类是文本挖掘所具有的重要功能之,其相关概念介绍如r : 1 ) 文本聚类和文本分类 文本分类是在已有数据的基础上构造出一个分类模型( 即通常我们所说的分类器) ,然 后利用这个模型将来知类别的文本文档分类到一个或多个预定义的类别中。 文本聚类与分类的不同之处在于,聚类没有预先定义好的主题类别,其目标是将文档集 合分成若干个簇,要求同一簇内文档内容的相似度尽可能人,而不同簇间的相似度尽可能小。 2 ) 手工分类和自动分类 手工分类是指由专业人员手工编写分类规则来指导分类。 自动分类指通过从一些已分类文本及其相应的分类信息中进行归纳式地机器学习,构造 出自动文本分类器。 3 ) 训练集和测试集 在建立分类器的过程中,需要有相当的语料来进行训练和进行分类器的性能评价。那么 此时就需要将所采用的原始文档集分为两部分,也就是训练集和测试集。 原始文档集为d = d 1 ,d 2 ,d 。) 。类别集为c = e l ,c 2 ,c 。) ,原始文档均 已经被预先定义到类别集中。也就是说d 和c 的关系值是已知的,要么属于该类,值为1 , 要么不属于该类,值为0 。 训练集:d = d l ,d 2 ,呜) ,j e f f t :通过观察这个集合中文档的特征来建立类别集 c = c l ,c 2 ,c n 上的分类器。 测试集:t = d j + l ,d 。 ,这个集合用来测试分类器的性能。将每个文档d i t 输 入到分类器中,会得出一个分类结果类别,将这个结果与最初的专家预分类结果进行比较。 根据比较结果来评判分类器的性能。 4 ) 自动分词技术和词典法1 1 0 1 自动分词技术:该技术较为复杂,主要指借助语法、语义学等方面的知识对文本进行格 式过滤、词性分析、标注、词语切分、短语识别,进而提取特征项。 词典法:该技术较为简单,主要由专业人员事先手工制作出主题词典。以词典为依据在 文档中查找关键词。对于每一篇文档,遍历词典去查找既出现在词典中又出现在文档中的关 键词来表示文档。 兰州大学颁十学位论t 2 2 2 文本分类的应用 1 9 6 1 年,m a r o n 对文本分类作了开创性的工作。从此,人们逐渐认识到文本分类的蘑 要作用,并将文本分类的相关技术应用到很多领域,以f 将简单介绍其中主要的几万面鹿片j : 1 ) 自动标引 建立信息检索系统,首先要对文献进行标引,该标引过程是文本分类的一个丰要应t 【 。 标引是指用一个或若干个关键字或关键词来表示文献内容特征的过程。自动标引【1 1 1 则 指使用计算机从存储的文献信息中自动抽取这些关键字或关键词的过程。用于标引的关键字 和关键词属于一个主题词典,它可以反映关于某一个主题的文献内容。 如果采用人工标引技术则不仅工作量大、效率低_ 卜,而且质量会冈人而异,难以规范化, 容易造成文献库中标引和检索的不一致性。所以则采用计算机辅助自动标引技术,把该主题 词典的条目看成不同的类别,标引的过程就是一个文本分类过程,也就是将一个或多个关键 词赋予每个文献,这样就可以使用文本自动分类技术来完成。 2 ) 文本过滤 文本过滤【4 是指从大量的文本数据流中寻找满足特定用户需求的文本的过程。预先给 定一个用户需求和一个输入文本流,文本过滤系统必须首先根据用户需求建立一个初始的用 户模板( p r o f i l e ) ,然后判断流中的每一文本是否符合用户需求,并将符合用户需求的文本 提交给用户,由用户对文本作是否需要的评判,再根据评判结果自适应地修改用户模板,以 更好地符合用户的需求。文本过滤的过程可以看作一个文本分类的过程,判断文本是否符合 用户需求是一个两类( 是,否) 的分类问题。 3 ) 自动文摘 自动文摘【”i 是利用计算机自动地从原始文献中提取文摘。文摘是准确全面地反映某一 文献中心内容的简洁连贯的短文。它是一个文本精炼的过程,要求机器自动为原文提供一个 基本反映文章主题的精炼版本,也就是将不同的文摘看作类别,并将其赋予每个相应文本的 过程所以也可以利用文本分类的技术来完成。 4 ) 词义消歧 自然语言中存在大量的多义词,如何在一个给定的上下文中,确定各个词语的多个词义 中应选取哪个词义作为正确词义,是词义消歧所应解决的问题。其中,如果这个词的多个词 义之间的词性不同时,则选用其中哪个词义的_ :l = 作可以在词性标注阶段完成。但是当一个词 具有词性相同的多种词义时,如何选出正确词义的问题就很难解决。此时可以将该词出现的 语言环境如句子或段落作为待分类的文本,该词的各种词义作为类别,词义消歧过程就是一 个文本分类过程 t 4 l 。 5 ) 网页分类 w w w 目前是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消 费信息、金融管理、教育、政府、电子商务等很多方面的内容。一个好的分类系统对于网络 8 上题数宁博物馆信息分类系统的研究 州户米说是苛常必要的,但是如果手l :对上百万的网页进行分类,显然是不实际的,而自动 文本分类可以很好地解决这个问题,虽然网页分类与文本分类有所不同,但是它几乎离不开 文本分类,因此网页分类也成r 文本分类的一个重要廊剧f | ”。 6 ) 垃圾邮件过滤 邮件( s p a m ) 过滤也是一类文本分类问题1 1 6 】,即将邮件分类成无用( l 】立圾) 和有用 两类。按照这一思路,可构造“垃圾”邮件过滤器。 过滤器对垃圾邮件和非垃圾邮件的样本组进行分析,将其中的字符信息拆开来做成标 记,然后对一个样本组中所有的标记山现的次数进行计数,将结果利用文本分类算法进行计 算后生成过滤规则。 文本分类技术还可应用于信息检索、词性标注、新闻出版栏目分类等多方面。 2 3 文本分类的关键技术 文本分类大致可以分为三个步骤:文本表示、文本特征选择和分类器训练。本章对这三 个过程中所遇到的关键技术进行介绍。 2 3 1 文本表示 文本中的信息一般都是自然语言,在对它进行分类之前必须将这些自然语言转变成计算 机能够识别的格式,从而实现对非结构化文本的处理,这是一个非结构化向结构化转化的处 理步骤,该过程也是文本表示的过程。文本表示的构造过程就是挖掘模型的构造过程,文本 表示模型有多种,常用的有布尔模型( b o o l e a n m o d e l ) 【1 7 1 、概率型( p r o b a b i l i s t i cm o d e l ) 1 1 8 1 、 向量空间型( v e c t o rs p a c em o d e l ,v s m ) i i ”等。 向量空间模型是使用较多且效果较好的表示方法之一,在该模型中,文档空间被看作是 由一组正交向量组成的向量空间,每一篇文档都被映射成多维向量空间中的一个点,从而将 文档信息的表示和匹配问题转化为向量空间中向量的表示和匹配问题来处理。 该方法是一种文档的词集表示法,将信息获取系统所涉及的词从文档中抽取出来。如果 涉及n 个关键词,则建立n 维向量空间,每一维代表不同的关键词,数据库中的文本都通过 该空问中的向撮来表示。文本向量是一个n 元组,其中的每个坐标都通过对应关键词的权重 来表示。最初的向量表示完全是0 、1 形式,即如果文本中出现了该词,那么文本向量的该 维坐标为1 ,否则为0 。这种方法无法体现这个词在文本中的作用程度,所以逐渐0 、l 表示 法被更精确的词频表示法代替,文本向量中词条的权重基于词条在文本中出现的频率,对于 词频又可分为绝对词频和相对词频,绝对词频指词在文本中出现的频率来表示文本,相对词 频指归一化的词频。 目前已经出现了多种关于相对词频的词条权重计算方法f ”1 。对于词条权值的处理,在 文本学习中最常用的是t f i d f ( t e r mf r e q u e n c y ,i n v e r s ed o c u m e n t f r e q u e n c y ) 表示法i “1 , 9 兰州i 大学碗卜学位论文 它是计算权重的经典方法。 t f i d f 方法考虑两个因素: 1 ) 词语频率t f ( t e r mf r e q u e n c y ) :词语在义档中出现的次数; 2 ) 词语倒排文档频率i d f ( 1 n v e r s e d d o c u m e n tf r e q u e n c y ) :该词语在文档集合中分布 情况的一种量化。 若向量空间维数为1 2 ,则每个文档d 可表示为一个实例特征向量v ( d ) = ( w 1 ,w 2 ,w ) , v 的每一个分量表示对应特征在该篇文档中的权值。计算特征权值w 的t f i d f 方法具体描 述如f : 词条l 在文档d 中的t f i d f 值由( 2 1 ) 式定义: t f i d f 一2 珥x l o g ( + 0 0 1 j ( 2 1 ) 其中,t r 是词条t i 在文档d 中出现的频数,n 表示全部训练文档的总数,d f i 表示包含 词条t 的文档频数。为降低高频特征对低频特征的过分抑制,在实验中计算权值时对t f i d f 值要进行归一化处理,如( 2 2 ) 式: 2 3 2 文本特征选择 缈= t f i d f , 豆丽 ( 2 2 ) 对文本用向量空间模型进行初步表示后,表示文本的向量空间维数很大,而且是数万维 的稀疏向量,该问题不仅是文本分类的最大特点和困难之一,而且维数过大一方面导致分类 算法的代价过高,另一方面导致无法准确地提取文档的类别信息,造成分类效果不佳。 由于中文与英文的文本分类问题具有相当犬的差别,体现在原始特征空间的维数更高, 文本表示更加稀疏,词性变化更加灵活等多方面。在中文文本分类中,通常采用词条作为最 小的独立语义载体,原始的特征空间可能由出现在文本中的全部词条构成。中文的词条总数 有二十多万条,这样高维的特征空间对于几乎所有的分类算法来说都偏大。寻求一种有效的 方法,降低特征空间的维数,提高分类的效率和精度成为文本自动分类中首先需要面对的 重要问题。 因此,在不牺牲分类质量的前提一f 尽可能地降低特征项空间的维数,即进行向量维数压 缩,也即文本的特征选择口”。“特征选择”的任务就是要将信息量小,“不重要”的、对分 类贡献不大的词汇从特征项空间中删除,从而减少特征项的个数,它是文本自动分类系统中 的一个关键步骤,其算法的优劣直接影响到分类质量。它具有简化计算,正确分类,便于计 算机处理等作用。在自动分词技术中,“特征项”在中文文本中主要指切分处理后得到的词 汇,特征项的维数则对应不同词汇的个数;在统计词典法中,“特征项”在中文文本中主要 1 0 土题数字博物馆信息分类系统的研究 指词典中的词汇,特征项的维数则对应词典中不同词汇的个数。 特征选择的过程一般是根据某个特征评分函数计算各个特征的评分,然斤将这些特征按 照评分值进行排序,选取若干个评分最高的特征,特征项的数据量由评价算法控制。目前, 在文本分类中得到应用的特征选择评估函数主要有如下几种:文本频数、z2 统计、信息增 益 2 2 1 、互信息吲、期望交叉熵【2 3 】、文本证据权f 2 3 】等。 ( 1 ) 文本频数( d f ,d o c u m e n t f r e q u e n c y ) d f 是最简单的评估函数,其值表示的是训练集中包含某个特征项t 的文本数。这种衡 量特征项重要程度的方法基于这样一个假设:d f 较小的特征项对分类结果的影响较小,即 稀有单词可能不含有用信息,或者因为太少不足以对分类产生影响,也可能是噪音,故这种 方法优先取d f 较大的特征项,而d f 较小的特征项将被剔除。 显然它在计算量上比其它评估函数小得多,但在实际运用中它的效果却很好。因为d f 是最简单的特征项选取方法,而且该方法的计算复杂度低,所以它能够胜任犬规模分类任务。 ( 2 ) 信息增益( i g ,i n f o r m a t i o ng a i n ) i g 通过统计某个特征项在一篇文档中出现或不出现的次数来预测文档的类别。计算公 式如( 2 3 ) 式: g ( r ) = 一:,只( q ) 1 。g 只( q ) + 只o ) :,只( c fl f ) 1 。g p ( 。i f ) f 2 3 1 + 只( f ) :。e ( qi ) l o g p ,( c ) 、 其中:r 表示某一特征项,g ( f ) 表示的信息增益值。只( c ,) 表示。一类文档在语料库 中的概率;只( ) 表示包含特征项的文档在语料库中的概率;p ( d 表示不包含特征项的 文档在语料库中的概率:只( f - i f ) 表示包含特征项,的文档属于类别。的条件概率 g ( c 。it 3 表示不包含特征项的文档属于类别。一的条件概率。m 是文档类别数。 特征项按照g 值排序,g ( t ) 值越大表示特征t 在训练集中的类别上分布越集中,则被 选取的可能性也越大。该方法的基本思想为分布越集中的特征越重要。 ( 3 ) 互信息( m i ,m u t u a li n f o r m a t i o n ) 在统计学中,m i 方法表征两个变量之间的相关性【”1 。可以直观地理解为:对于每个词, 以它在每个类别中的出现占它在整个文本集中的出现比率作为它对每个类别分类的依据。特 征项f 和类别之间的相关性计算公式如( 2 4 ) 式: m ,v ) “l o g 酉而a x n 兰卅人学硕l j 学位论文 其中,4 表示包含特征f 并属于类。的文档频数;b 表示包含特征,但彳i 属于类。的文 档频数;c 表示属于类。但不包含特征f 的文档频数。n 为训练集中的所有文档数。如果, 和。不相关,则,( r ,c ) 值为0 。如果有m 个类,那么对于每个将会有m 个值,直接将这 些值进行排序,或取它们的平均值得到一个线性序,大的1 值或者i 平均值的特征被选取的 可能性大。这是因为互信息最越大,词汇和类别之间共现的概率也就越大。 ( 4 ) z 统计( c h i ) 使用m i 衡量特征项的熏要程度时,只考虑到了正相关对特征项重要程度的影响。如果 特征项f 和类别。反相关,则说明含有特征项t 的文档不属于。的概率要大一些,这对于判断 一篇文档是否不属于类别c 也是很有指导意义的。c h i 用统计方法度量词条f 和文档类别。 之间的相关程度,并假设f 和c 之间符合具有一阶自由度的z 分布。用r 表示除,之外的 其它词汇,手表示c 除之外的其它类别,那么词汇,和类别。共现情况有4 种,可以表示为 ( f ,。) 、( t ,石) 、( f ,o ) 、( f ,石) 。所以特征项f 和类别c 之间的相关性计算公式如( 2 5 ) 式: z 2 ( f ,c ) = n x ( a d c 拼 ( 2 5 ) 其中,爿为文本特征f 在类别c 中出现的文本数;b 为文本特征r 不在类别c 中出现的 文本数:c 为类c 中没有出现文本特征f 的文本数;d 为非类c 中没有出现文本特征r 的文 本数。n 为训练集中的总文本数。和m i 类似,如果r 和。不相关,则z 峨。) 值为0 。 对最后计算所得值评判方法有两种,即平均值法和最大值法。同m i 相同,平均值法为 如果有m 个类,每个t 就会有1 1 1 个值,取它们的平均值,就可得到特征选取所需的一个线 性序,大的z 。平均值的特征被选取的可能性大。而最大值法为z 统计量的值越高,词汇 和类别之间的独立性就越小,相关性越大。携带的类别信息也就越多。 另外在该方法中,如果a d - b x c o 。说明词条和类别正相关,即词条出现说明某个 类别也可能出现。反之,如果a x d - b x c 0 的词条作为特征项。 ( 5 ) 期望交叉熵( e x p e c t e dc r o s se n t r o p y ) 它与信息增虢的不同之处在于没有考虑单词术发生的情况。反映了文本类别的概率分布 与在出现了某个特定词汇的条件下文本类别的概率分布之间的距离,词汇的交叉熵越人,对 1 2 主题数字博物馆信,g , 9 类系统的列f 究 文本类别的影响也越大。兵足义如( 26 ) 式: c e ( 垆嚷m 哪) l o g 黜 ( 2 6 ) 其中,尸( ,) 表示包含特征项7 的文档在文档集台中的概率,尸( c d 表示包含特征项 t 的文档属于类别c f 的条件概率,p ( c f ) 表示c f 类文档在文档集合中出现的概率。如果词 条与类别强相关( e p ,( c 摩) 值大) ,j i 相应类别出现的概率小,说明词条对分类的影响大, 相应的函数值就大,就很可能被选作特征项。 2 3 3 文本分类 对文本进行特征项的提取和表示之后,就可以对文本运用分类算法进行分类了。目前已 经有很多文本分类算法,其中包括k 近邻算法h 】口“、n b 算法f 2 7 】、决策树算法o ”、r o c c h i o 算法【2 9 】、支持向量机算法【3 0 】、神经网络( n n e t ,n e u r a ln e t w o r k ) 方法i 、潜在语义索引( l s l , l a t e n ts e m a n t i ci n d e x i n g ) 0 2 1 等。在分类时,根据不同的情况选取针对其特征的不同分类方 法。下面就其中的几种基本算法进行介绍: ( 1 ) k n n f k n e a r e s t n e i g h b 0 0 算法 k n n 分类算法是一种传统的基于统计的分类方法”】,是根据测试样本在特征空间中k 个最近邻样本中的多数样本的类别来进行分类。算法思想为:对于一篇待分类文本z ,系 统在训练集中找到与该文本距离最近( 最相似) 的k 个最相近的邻居,如果这k 篇文本多数 属于q 类,则新文本碧属于类别“。其计算公式如( 2 7 ) 式: y ( i ,c ,) = s i m (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论