




已阅读5页,还剩59页未读, 继续免费阅读
(计算机软件与理论专业论文)基于向量空间模型的中文文本分类的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 随着网络技术的发展,每天成指数级剧增的网页和信箱出现的大量垃圾邮 件,一方面给人类生活带来了方便,同时也带来了问题。信息搜索和信息过滤 已成为网络上必不可少的需要。但如今的搜索引擎和过滤工具的性能的确是不 能令人满意。如何提高它们的搜索和过滤的精度已成为亟待解决的问题。文本 分类作为文本数据的整理和组织的重要手段,成为解决以上问题的必经之路。 起初,人们使用的是人工分类,耗时耗力;近几年,随着机器学习理论的发展, 文本自动分类开始蓬勃地发展起来。 本文主要是探讨在空间向量机模型下的中文的文本自动分类问题。考虑到 中文与拉丁语系的区别,本文把重点也放在了中文文本的文本表示上。中文与 拉丁语言不同就在于中文需要分词,因而分词精度的高低直接影响到后面文本 表示上。本文提出了基于语意流交集的思想来生成动态词表,显著地提高了中 文分词的精度。另一方面,在信息检索的向量空间模型中,文本被形式化表示 为由词语权重组成的向量。因此如何让这种向量尽量准确地有效地表示出文本 内容一直是该模型中的基础性问题。在这篇论文中,提出了一种基于文本集密 度的特征词选择与权重计算方案的方法。它是一种使用词对文本集密度的贡献 衡量该词的价值的方法。使用这种方法,我们能找出不损失文本有效信息的最 小特征词语集,并且刨造出更为合理权重计算方案。在文中还用了一种新的衡 量权重好坏的标准:元打分法,来证明提出的方法是有效的。 本文的贡献是: ( 1 )对于中文文本自动分类的技术基础的选择进行详尽的分析,选择了 一套科学地提高分类精度的技术。这些技术基础包括模型选择、文本预处理的 选择、特征的选择方案等等。 ( 2 )对当前的一些主流中文文本分类算法进行了详细地介绍和分析。这 些文本分类算法包括朴素贝叶斯算法、k n n 算法、类中心向量最近距离判别算 法、基于聚类粒度原理的分类算法、支持向量机、l s i 、b o o s t i n g 分类方法和使 用最大熵模型分类算法等等。 山东大学硕士学位论文 ( 3 ) 构造出自己的中文文本分类框架,提出了基于语意流交集生成动态 词表的方法,这种方法的提出能大大减少分词歧义出现的频率。另外,对基于 文本集密度的特征选择和权重计算方案进行了实验,结果显示能更好地表示文 本的内容。并且使用卡内基梅隆大学的m c c a l l u m 等用标准c 语言开发的的文 本分类程序包对部分文本分类算法进行了实验。 关键词:文本分类、向量空间模型、分词、特征选择、权重计算方案 山东大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fn e t w o r kt e c h n o l o g y , e v e r yd a yt h e r ei s e x p o n e n t i a l g r o w t ho f w e bp a g e sa n do u re m a i lb o x e sa r ef i l l e dw i t hal a r g ea m o u n to fj u n k m a i l st h es u r g i n ga m o u n to fw e b p a g e so f f e r t h ec o n v e n i e n c et ot h eu s e r s ,w h i l ei t c a u s et h et r o u b l eo fg e t t i n gu s e f u li n f o r m a t i o ni nt h et i m ea ss o o na sp o s s i b l e t h e r e f o r ei n f o r m a t i o nr e t r i e v a la n di n f o r m a t i o nf i l t e ra r eb e c o m i n gn e c e s s a r yt o o l s t ot h eu s e r so fn e t w o r k h o w e v e r , p e r f o r m a n c eo ft h e mi sn o tw e l l s oh o wt o i m p r o v et h ep r e c i s i o n o ft h et o o l si st h e p r o b l e m a sa ni m p o r t a n tm e t h o do f c o l l e c t i n ga n do r g a n i z i n gt h et e x td a t a ,i ti st h ep a t ht os o l v i n g t h ep r o b l e m a te a r l y t i m e s ,p e o p l ec a t e g o r i z e dt h ew e bp a g e sm a n u m l y t h e w o r kt o o kt o om u c hl a b o r a n dt i m e r e c e n t l y , w i t ht h ed e v e l o p m e n to fm a c h i n el e a r n i n gt h e o r y , a u t o m a t e d t e x tc a t e g o r i z a t i o nb e g a nd e v e l o p i n g t h et h e s i se m p h a s i z e so nt h ea u t o m a t e dc h i n e s et e x tc a t e g o r i z a t i o nb a s e do n v e c t o r s p a c em o d e l t a k i n g a c c o u n to fd i f f e r e n c eb e t w e e nc h i n e s ea n dl a t i n p h y l u m ,t h et h e s i sp u t se m p h a s i so n t h et e x tp r e s e n t a t i o nt h ed i f f e r e n c eb e t w e e n c h i n e s e p r o c e s s i n g a n dl a t i nl a n g u a g e p r o c e s s i n g i sw o r ds e g m e n t a t i o n t h e p r e c i s i o no f w o r ds e g m e n t a t i o nd i r e c t l yi n f l u e n c e st h en e x tw o r k , t e x tp r e s e n t a t i o n w ep r o p o s e dt h a tt h ep r e c i s i o no ft h ew o r ds e g m e n t a t i o ni si m p r o v e dt h r o u g h c o n s t r u c t i n gt h ed y n a m i c w o r dl i s tb a s e do nt h ei n t e r s e c t i o no ft w os e m a n t i cf l o w s i nv e c t o rs p a c em o d e lo fi n f o r m a t i o nr e t r i e v a l ,at e x ti sr e p r e s e n t e da saw e i g h t e d v e c t o rw h i c hi sc o m p o s e do ft e r m sw e i g h t i n go ft h et e x ta n di ti saf u n d a m e n t a l i s s u et oh o wt or e p r e s e n tt h ec o n t e n to fat e x ta se x a c t l ya n de f f i c i e n t l ya sp o s s i b l e i nt h i sp a p e r ,w ew i l lp r o p o s eam e t h o do ff e a t u r es e l e c t i o na n dw e i g h t i n gs c h e m e b a s e do nt e x ts e td e n s i t y ,w h i c hi saw a yo fm e a s u r eo fc o n t r i b u t i o nt ot h et e x ts e t d e n s i t ya b o u ts o m ew o r db yt h em e a n s ,w ec a l l f i n dt h es e t c o n t a i n i n g l e a s t e l e m e n t s ,w h i c hc a nr e p r e s e n ta l lv a l u a b l ei n f o r m a t i o no f at e x t ,a n di n v e n tam o r e r e a s o n a b l ew e i g h t i n gs c h e m ea n dt h i sp a p e rp r e s e n t san e wm e a s u r es t a n d a r do f 山东大学硕士学位论文 t h es e n s eo fg o o d n e s so fs o m ew e i g h t i n gs c h e m e s :m e t a s c o r i n g t h r o u g ht h e c r i t e r i o n ,i ti sp r o v e dt h a tt h ea p p r o a c hh e l p s t h ec o n t r i b u t i o n so f t h et h e s i sa r e : ( 1 ) w e d e t a i l e dt h et e c h n o l o g yb a s ea b o u tt h ec h i n e s et e x tc a t e g o r i z a t i o na n d s e l e c t e das e to f t e c h n o l o g i e s a v a i l a b l et o i m p r o v e t h e p r e c i s i o n o ft e x t c a t e g o r i z a t i o n t h e s et e c h n o l o g i e si n c l u d em o d e ls e l e c t i o n ? p r e - p r o e e s s e dp r o c e d u r e s e l e c t i o na n df e a t u r es e l e c t i o n ,e t c ( 2 ) m a n yp o p u l a rc l a s s i f i c a t i o na l g o r i t h m s a r ei n t r o d u c e da n da n a l y z e di n d e t a i l st h ea l g o r i t h m si n c l u d en a i v eb a y e s i a nc l a s s i f i c a t i o n k n na l g o r i t h m ,t h e a l g o r i t h mu s i n gd i s t a n c ef r o m t h ec a t e g o r yc e n t e r , t e x tc l a s s i f i c a t i o na l g o r i t h mw i t h t h et h e o r yo fi n f o r m a t i o ng r a n u l a r i t y ,s u p p o r tv e c t o r m a c h i n e ,l s i ,b o o s t i n g f o rt e x t c a t e g o r i z a t i o na n d t e x tc a t e g o r i z a t i o nu s i n gm a x i m u m e n t r o p ym o d e l ,e t c ( 3 ) ac h i n e s et e x tc a t e g o r i z a t i o nf r a m e w o r kh a sb e e nc o n s t r u c t e d i n t h e f r a m e w o r k ,c o n s t r u c t i n gt h ed y n a m i cw o r dl i s t b a s e do nt h ei n t e r s e c t i o no ft w o s e m a n t i cf l o w si sp r o p o s e da n dd e c r e a s e st h ec h a n c eo f t h ed i f f e r e n tm e a n i n g si nt h e w o r ds e g m e n t a t i o n a n dam e t h o do ff e a t u r es e l e c t i o na n d w e i g h t i n gs c h e m eb a s e d o nt e x ts e td e n s i t yi sp r o p o s e da n d e x p e r i m e n t e d t h e r e s u l t ss h o wi tc a n p r e s e n t t h e t e x tc o n t e n tb e t t e r a n dw ed om a n y e x p e r i m e n t sa b o u t t e x tc l a s s i f i c a t i o n s u s i n gt h e d e v e l o p m e n tk i tt o o l s ,w h i c hi sd e v e l o p e db ym c c a l l u mi n t h ec a r n e g i em e l l o n u n i v e r s i t yu s i n g s t a n d a r dc k e yw o r d s :t e x tc a t e g o r i z a t i o n , v e c t o rs p a c em o d e l ,w o r ds e g m e n t a t i o n , f e a t u r e s e l e c t i o n ,w e i g h t i n gs c h e m e 、i v 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本 文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律责任由本人承担。 论文作者签名: 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或 向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅; 本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可阻采用影印、缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 屉如 山东大学硕士学位论文 第一章绪论 1 1 文本自动分类研究的背景和意义 所谓文本分类就是对文本集进行有序组织、把相似的相关的文本组织在预 先定义的类别目录里面。它作为知识的组织形式,为信息检索提供了更高效的 搜索策略和更准确的查询结果。其中,高效性来自于用户可以首先确定查询的 可能类别,以减小需要进一步匹配的文本数量。有效性在于相似的文本很可能 与相同的查询相关。这样,检索的查全率和准确率都得到了提高。 随着全球计算机与通讯技术的飞速发展、互联网络的普及与应用,人们越 来越需要能有效地查找、过滤和管理网络中的资源的工具。根据中国互联网信 息中心2 0 0 3 年1 月发布的中国互联网络发展状况统计报告,用户经常使用 的网络服务中搜索引擎占6 8 3 ,用户得知新网站的主要途径中搜索弓l 擎占 8 4 6 “1 。搜索引擎现在已成为用户利用因特网信息资源所不可缺少的工具。但 是搜索引擎现在的性能还不能令人满意,性能亟待优化。搜索引擎必须操纵大 量的数据,其文本信息库可能相当庞大。同时,用来表示文本内容的词汇数量 又是成千上万的。在这种情况下,如能提供文本集良好的组织与结构,就能大 大简化文本的存取和操纵。1 9 9 4 年,作为这方面商业化尝试的先驱y a h o o 网站, 通过人工的方式来组织文本信息,获得了初步的成功。但是,随着网络的普及, 网上的资源成指数级的增长,人工方式显得越来越不能适应时代的发展。越来 越需要计算机自动地进行分类。其实,2 0 世纪五十年代,人们就已经开始了文 本自动分类方面的研究。只是到了二十世纪9 0 年代末,随着机器学习的发展, 文本自动分类才真正开始发展起来,如何把机器学习及相关的知识运用到文本 自动分类中,提高分类的精度,己成为一个非常重要的课题。 1 2 文本自动分类技术发展状况 1 2 1 国外研究状况 国外对于文本自动分类的研究开展较早,2 0 世纪5 0 年代末,美国i b m 公 山东大学硕士学位论文 司鲁恩( h p l u h n ) 的一系列文章文献处理机械化编码和检索用的统计学方 法等,对这一领域进行了开创性的研究,提出了将词频统计的思想用于自动 分类。1 9 6 0 年,m a r o n 发表了关于自动分类的第一篇论文。随后,众多学者在 这一领域进行了卓有成效的研究工作,如k s p a r k 、g s a l t o n 以及r m n e e d h a m 、 mel e s k 、ksj o n e s 等。到1 9 6 4 年,m o s t e l l e r 和w a l l a c e 【4 在鉴别文章作者身 份的工作中开创了文本分类的新阶段,他们考虑单词、句子长度、功能词的频 率和词汇差异等特征项。到目前为止,国外的文本自动分类研究已经从最初的 可行性基础研究经历了实验性研究进入实用的阶段,并在邮件分类、电子会议、 信息过滤等方面取得了较为广泛的应用。其中较为成功的系统有麻省理工学院 ( m i t ) 为白宫开发的邮件分类系统;卡内基集团为路透社开发的c o n s t r u e 系 统;自动分类稿件的文本分类器【1 4 l 【1 5 】;自动分类w e b 页的文本分类器【1 6 】;自 动跟踪用户阅读兴趣的分类分析器【”1 等等。这些系统大多数都建立在向量空间 模型的基础上,看重解决特征项的选择和权重计算方案、机器学习算法等等问 题,以提高系统的性能和效率。至今,在以下方面取得了不错的成果: 1 向量空间模型的研究日益成熟 s a l t o n 等人在6 0 年代末提出的向量空间模型在文本分类、自动索引、信 息检索等领域得到广泛的应用,已成为最简便高效的文本表示模型之一。通过 不同文本分类系统的运行和比较表明,向量空间模型是文本分类领域大规模语 料库较好的表示模型 2 特征项的选择进行了较深入的研究 对于英法德等语种,文本可以由单词、单词簇、短语、短语簇或其他特征 项进行表示。a n d r e w 和l e w i s 等学者对这些特征项进行了分析,并且在 r e u t e r s 2 1 5 7 8 等标准语料库上进行实验,做出了较致的结论:使用优化合并 后的单词作为特征项在文本分类应用中效果最佳【1 8 】。此外,也有不少学者正在 努力突破以上特征项选择空间,定义自己的文本表示空间,例如,s a ms c o t t 定义了一套符号系统,利用单词和附加的符号信息表示文本,也取得了一定的 成果1 1 9 1 。 3 完整的分类算法的研究和比较 国外对于文本分类算法的研究开展褥较早,也较完整。例如,b a y e s 、 k n n 、r o c c h i o 、s v m 、神经网络等算法,都有比较详细地研究和性能比较2 0 1 f 2 1 1 , 山东大学硕士学位论文 但是各位学者都没有得到统一的结论,总体而言,这些算法在分类性能上差别 不大,以k n n 和s v m 稍好。 4 存在比较标准的测试语料库 例如,n e w s g r o u p s 语料库( 约2 0 0 0 0 多篇文章2 0 个类别) ,w e b k b 语 料库( 4 1 9 9 篇文章7 个类别) ,r e u t e r s2 1 5 7 8 语料库( 2 1 5 7 8 篇文章1 3 5 个类别) 都在一定时期较为广泛地使用。而t r e c 也提供了较为标准的语料库。 5 较为规范的测试方法 国外学者在标准的测试语料库上也定义了较为规范的测试方法,除了传统 的测试指标外,还有一些更为细致的测试指标,例如,l e w i s 给出了一套较完 整的分析方法,不但测试系统的整体性能,而且可以较科学地分析多训练文档 类和少训练文档类的分类性能”1 。 6 逐渐开始研究未标记文档对文本分类系统的影响 国外学者在整理语料库的过程中发现收集及分类训练文档是极其费时、费力 的过程,因此提出了在训练文档不充足的情况下如何利用未标记文档提高文本 分类系统的性能,并且开展了一定的研究1 2 3 1 。 7 逐渐将文本分类技术应用到某些特定的信息服务中 例如,将文本分类技术应用到事件跟踪系统中,为用户( 主要是新闻媒体 用户) 收集与事件相关的文章,制作事伺:专题节目 1 3 1 。 另外,将文本分类技术应用于用户个性化服务系统中,跟踪用户感兴趣的 文章,进行类别判别,为用户提供方便的信息服务口4 1 。 1 2 2 国内研究状况 国内对于文本自动分类的研究起步较晚,1 9 8 1 年,候汉清教授对于计算机 在文本分类工作中的应用做了探讨,并介绍了国外计算机管理分类表、计算机 分类检索、计算机自动分类、计算机自动分类、计算机编制分类表类等方面的 概况。此后,我国陆续研制出一批计算机辅助分类系统和自动分类系统。 1 9 8 6 年,上海交大电脑应用技术研究所的朱兰娟、王永成等开发的中文科 技文献( 计算机类) 实验性分类系统。该系统检索并累计特征词在类主题表中 的类归属度,采用b a y e s 分类准则,对每一篇文献计算相应的条件概率,当该 文献属于某一类的条件概率超过一定阈值的时候,就把它划分为该类。但是由 山东大学硕士学位论文 于该系统缺乏全文,并且没有摘要,以文献标题关键词来代替文献特征词,形 成特征向量来进行分类,并且由于“类归属度表”难以获得,类目事先确定, 分类结构粗,不适合专用文献。 1 9 9 5 年,上海交大的王永成与张琪玉教授和上海第二医学院的有关专家合 作开发的以肿瘤学专业文献为侧的自动分类系统。该系统自动抽取文献标题关 键词并赋予分类号,根据有关专家编制的自动分类用关键词分类归属表,获 得关键词的规范化词作为特征词进行分类。该系统标引深度较大,查准率高, 较适合对专业文献的分类。但由于分类用主题词的权重大小以及主次排列均由 人为确定,因此分类结果存在一定偏差,同时系统优化困难。 1 9 9 5 年,清华大学电子工程系的吴军研制的汉语语料自动分类系统,以语 料相关系数作为分类依据,以字频、词频及常用搭配为补充,采用停用词表排 除非特征词,进行人工指导分类。 1 9 9 5 年,南京大学的苏叛宁研制的档案自动分类系统,采用多因素加权分 类法,并且使用了聚类加权、判别归类以及责任者认证等多种手段来力图获取 正确的分类结果。 1 9 9 8 年,东北大学的计算机系的张月杰、姚天顺研制的新闻语料汉语文本 自动分类模型,通过计算预定义类别和文本特征项之间相关性来进行自动分类 的。该分类方法的特征向量规范化,采用多重加权处理方法。2 0 0 0 年研究者对 该系统作了改进,为了提高精度,提出自顶向下,逐层分类,并根据概念词典, 将同义词映射到单一的概念词上,缩小特征向量的维数,减小计算量。 1 9 9 9 年,邹涛、王继成等开发的中文技术文本分类系统c t d s ( c h i n e s e t e c h n i c a ld o c u m e n tc l a s s i f i c a t i o ns y s t e m ) 采用了向量空间模型和基于统计的特 征词提取技术,能够根据文本的具体内容将其分配到一个或多个类别。 1 9 9 9 年北京系统工程研究所的何新贵、彭普阳研制的基于模糊技术的中文 本自动分类系统以及吉林工学院计算机系的许建明和胡明研制的文书类档案的 分类标引系统。 2 0 0 1 年中科院计算所软件研究室的智多星中文文本分类系统。 此外还有,i b m 中国研究中心采用最新中文信息处理研究成果的深思智 能分类系统。 山东大学硕士学位论文 1 3 文本自动分类技术的应用价值 i n t e r n e t 上的应用。通过i n t e m e t 查找诸如书刊、论文、科研资料、会议记 录等时,要想在网上找到自己所需的资料并非易事。即使借助于专门的搜索引 擎( 目前大部分搜索引擎是按关键词搜索) ,精度和速度往往不能令人满意,其 检索结果经常包含许多无关的资料,采用文本自动分类技术则可以大大提高查 全率和查准率。 电子邮件分拣中的应用。随着科技的发展,人们之间的交流和沟通进一步 得到加强,其中电子邮件是现代人类沟通的最重要的手段之一。电子邮件数量 增多,其中又可能包含着大量的垃圾邮件,采用文本自动分类技术对电子邮件 进行整理和过滤,将能给邮件用户提供方便。 电子出版业的应用。随着电子出版业的发展,人们可以直接获取大量的电 子文本。但是对电子文本的处理速度相对落后于文本的搜集速度。目前对电子 文本的分类处理过程仍然以手工为主,效率低,费用高,难度大,专业性强。 如果能够自动分类,无疑大大加快对电子文本处理的速度。 电子图书馆的应用。随着图书馆文本资料管理电子化的逐步普及,也要求 对电子图书进行自动分类处理。 网络安全中的应用。文本自动分类在防火墙技术中也有着广泛的用途,利 用文本自动分类技术可以有效地过滤掉不健康之类的信息。 电视电话会议中的应用。随着网络技术和语音技术的发展,在不同地点同 步进行的电话会议越来越普遍。对会议文档的整理也离不开文本自动分类技术。 1 4 论文的组织结构 本论文共分五章,第一章是对于文本分类的大致介绍,第二、三章为中文 文本自动分类的基本理论和技术基础,第四章为本文的系统构造说明和实验, 最后一章为结论和展望。 第一章为绪论。首先介绍文本自动分类的背景和意义,然后介绍中外文本 自动分类的发展状况,接着介绍它在实际生活中的意义,最后介绍论文的组织 结构。 第二章主要介绍中文文本分类的技术基础。首先概述计算机是如何进行文 山东大学硕士学位论文 本分类的,然后对当前比较流行的空间向量模型进行具体介绍,接着是中文句 子的分词和特征选择。 第三章对一些中文文本自动分类算法进行介绍。分别介绍了朴素贝叶斯算 法、k n n 算法、类中心向量最近距离判别算法、基于聚类粒度原理的分类算法、 支持向量机、l s i 、b o o s t i n g 分类方法、使用最大熵模型分类等等。 第四章具体介绍本文的系统构造,分别从文本预处理、特征选择和权重计 算方案、文本分类算法三个方面来结合实验结果分别阐述。 第五章是系统总结与展望。 山东大学硕士学位论文 第二章中文文本自动分类的技术基础 2 1 文本分类概述 分类实际上是一种知识学习和知识应用的过程。它的特点是根据已经掌握 的每类若干样本的数据信息,总结出分类的规律性,建立判别公式和判别规则, 这是知识学习的过程。然后,当遇到新的样本点时,只需要根据总结出的判别 公式和判别规则,就能够判别样本点所属的类别,这就是知识应用的过程。 计算机并不具有人类的智能,人在阅读文章后,根据自身的理解能力可以 产生对文章内容的模糊认识,而计算机并不能轻易地“读懂”文章,从根本上 说,它只认识0 和1 ,所以必须将文本转换为计算机可以识别的格式。根据“贝 叶斯假设”,假定组成文本的字或词在确定文本类别的作用上相互独立,这样, 就可以使用文本中出现的字或词的集合来代替文本。不言而喻,这将丢失大量 关于文章内容的信息,但是这种假设可以使文本的表示和处理形式化,并且可 以在文本分类中取得较好的效果。 目前,在信息处理方向上,文本的表示主要采用向量空间模型( v s m ) 。向 量空间模型的基本思想是用向量来表示文本:( w l ,w 2 ,w 3 w n ) ,其中w i 为 第i 个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词 组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将 文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量 的维数来表示文本,最初的向量表示完全是0 、l 形式,即,如果文本中出现 了该词,那么文本向量的该维为1 ,否则为0 。这种方法无法体现这个词在文 本中的作用程度,所以逐渐0 ,1 被更精确的词频代替,词频分为绝对词频和相 对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一 化的词频,其计算方法主要运用t f i d f 公式 大规模文本处理的对象是大量的真实文本,要使得计算机能够高效率、高 性能的处理自然文本,就必须找到一种理想的文本表示方法。文本表示最理想 的境界就是模拟人所理解的语义,通过函数f ,使得: 人所理解的语义;f ( 文本) 山东大学硕士学位论文 一旦找到了合适的函数来表示人所理解的语义,那么整个问题就变得简单 了。对文本分类的过程就可以转化为一个搜索问题,即寻找和新文本函数值差 异最小的文本类。 但是,这种精确反映人所理解语义的函数是很难定义的,或者更极端一 点说,也许根本就是不存在的。对于形式语言而言,语义还可以通过机器状态 的改变来描述,我们也是通过这种方式来学习和掌握机器语言的。可是对于自 然语言而言,由于涉及到人这个认知主体的思维活动,不同的认知主体往往会 有不同的理解,自然语言的形式及其意义之间是一种多对多的关系,很难合理 地定义一个反映语义的函数。 既然这种寻求精确反映人所理解语义的道路是不可行的,那么我们只好退 而求其次,寻求一种能够量化、能够形式化、最终可以计算和操作的表示方法。 一种可行的方案就是走统计的路线,研究从大规模语料库中发现出来的统计规 律,利用文本在字集合或词集合上的分布来近似表示语义,并且做如下的假设: 两个分布完全一致的文本被认为是语义相同的。两个分布相近的文本被认为是 语义相近的。自然,仅仅采用这种分布,是不能精确反映人所理解的语义的, 然而这种方案却能够很方便地计算和操作,利于信息处理等应用领域,其表达 效果还是可以接受的。 根据以上思路,我们来考察文本,众所周知,文本是字词等代表特定含义 的符号按顺序连接的字符流,从这里可以看出,文本有两个基本的特征,一是 组成文本的所有字词符号,二是这些符号问的连接顺序,即一个中文文本可以 由特征项( 字词符号) 的频率及其相互关系来完整表达。要表示文本中特征项的 顺序信息,就必然要用到有向的指针结构,这样,整个文本就变成了一个复杂 的图,比如树或网。与之相反的是表示文本中特征项的频率信息。仅仅使用一 个向量就足够了。信息检索和文本分类这些信息处理技术要求定义一种距离函 数,以表示文本之间的相似程度。如果使用复杂的图结构表示文本的话,则很 难定义一种合理的距离函数,因为存在这样的问题,怎样的两棵树才能说很相 似? 又是什么样的两个网才能说是距离比较小呢? 而使用向量来表示文本,则不 会遇到这样的困难,数学中有很多种定义距离的方式可供使用,例如欧式距离、 相关系数等等。正因为存在以上困难,所以我们不得不舍弃不好利用的顺序信 息,只使用频率向量来表示文本。 山东大学硕士学位论文 2 2 空间向量模型 2 2 1 空间向量模型的优势 在文献【6 第一次提出自动文本检索( a u t o m a t i ct e x tr e t r i e v a l ) 和信息检索 ( i n f o r m a t i o nr e t r i e v a l ) 概念后,出现了许多基于文档( d o c u m e n t ) 和问题( q u e r y ) 之间相关词语比较的计算模型,具有代表性的有布尔模型( b o o l e a nm o d e l ) 、 向量空间模型( v e c t o rs p a c em o d e l ) 、聚类模型( c l u s t e rm o d e l ) 、基于知识模 型( k n o w l e d g e - - b a s e dm o d e l ) 和概率模型( p r o b a b i l i s t i cm o d e l ) 等。 在上述几种模型中,向量空间模型由于具有较强的可计算性和可操作性, 被广泛地使用。 知识表示始终是知识处理的主要瓶颈之一,特别是在自然语言为研究对象 的知识处理和知识获取问题中更是如此。 向量空间模型在知识表示上有巨大的优势。在该模型中,文档的内容被形 式化为多维空间中的一个点,通过向量的形式来给出。也正是因为把文档以向 量的形式定义到实数域中,才使得模式识别和其他领域中各种成熟的计算方法 得以采用,极大地提高了自然语言文档的可计算性和可操作性。 s a l t o n 等人于6 0 年代末提出了向量空间模型v s m ( v e c t o rs p a c em o d e o 的 概念,即使用向量表示文本,并成功应用于著名的s m a r t 系统中。该模型及 相关的技术在文本分类、自动索引、信息检索等领域得到了广泛的应用,向量 空间模型己逐渐成为最简便最高效的文本表示模型之一 】o i 。 众多学者的研究表明:向量空间模型是大规模语料库较好的表示模型,并 且在大规模真实文本处理方面( 例如,文本分类、文本检索和文本摘要) 具有 强的优势l ”】。在向量空间模型中,文本不再是字或词符号顺序连接的字符串, 而成为了方便于计算机处理的向量,语料库中所有的文本都统一在向量空间模 型中,从而可以利用计算机快捷地处理它们。虽然文本的向量化丢失了原先蕴 涵的大量信息,但通过实践证明,在文本分类等文本信息处理领域中,基于向 量空间模型的信息处理系统仍然能够达到较高的性能”】f 4 ”。 山东大学硕士学位论文 2 22 向量空间模型的基本概念 向量空间模型的基本概念可以描述如下: 1 文档:泛指一般的文本或文本的片段( 段落、旬群或句子) ,般指一篇文 章。尽管文档可以是多媒体对象,但是在下面的讨论中我们只认为是文本对象, 并且对文本和文档不加以区别。 2 词语( 特征项) :文本的内容由一些特征项来表达,一般由文本所含有的基 本语言单位( 字、词、词组或短语等) 来表示,即文本可以表示为 d o c u m e n t = d 0 l ,1 2 ,i 。) ,其中i i 表示各个词语。换句话说,由这些词语张开 成一个向量空间,每一项表示一个维度。 3 词语的权重:在一个文本中,每个特征项都被赋予了一个权重w 以表示 这个特征项在该文本中的重要程度。权重一般都以特征项的频率为基础进行计 算的,比如采用t f i d f 公式表示。这样文本就可以表示为:d = d ( 1 1 , w 1 ,1 2 ,w 2 i 。,w n ) ,简记为d = d ( w 1 ,w 2 ,w n ) ,这时我们说项i k 的权 重为w k ,其中l k 1 1 。 4 向量空间模型:给定一自然语言文本,我们可以把它用向量d = d ( 1 1 , w 1 ,1 2 ,w 2 i n ,w n ) 表示,由于i k 在文本中既可以重复出现又应该有先后次 序的关系,分析起来有一定难度。为了简化分析,可以暂且不考虑i k 在文本中 的先后次序并要求项之间是互异的。这时可以把i l ,1 2 ,i n 看成是一个n 维的空间,w 1 。w 2 ,w n 为相应的维上的值,因此一个文本就可表示为n 维空间的一个向量,我们称d = d ( w 1 ,w 2 ,w n ) 为文本d 的向量表示或 向量空间模型。 5 相似度度量:两个文本d l 和d 2 之间的相关程度常常用它们的相似度 s i m ( d l , d 2 ) 来度量。在向量空间模型下,我们可以借助向量之间的某种距离来 表示文本间的相似度。相似度常用向量之间的内积来计算: s i m ( d l ,d 2 ) :w l k4 w 2 = 】 或夹角余弦表示: 山东大学硕士学位论文 w l t w 2 女 s i r e ( d 1 ,d 2 ) = c o s o = ;:垒兰:一 f 1 f ( w :) ( ,) vt = l女;1 2 3 自动分词 自动分词是基于字符串匹配的原理进行的;所谓自动分词方法,指的是汉 字字符串匹配的进行方式。 我们知道,“词是最小的能够独立活动的有意义的语言成分。”m 】然而,汉 语文本中词与词之间却没有明确的分隔标记,而是连续的汉字串。显而易见, 自动识别词边赛,将汉字串切分为正确的词串的汉语分词闯题无疑是实现中文 信息处理的各项任务的首要问题。 2 3 ,1 自动分词的关键问题 2 3 1 1 用词表和切分规范 汉语的语素和单字词,合成词和短语之间没有清晰的界限。语言学界虽然对 于词在概念上有一个十分清晰的定义,即,“词是最小的能够独立活动的有意义 的语言成分。”但从一些词典的编撰中,我们仍然可看出一些上述界限难以区分 的问题。比如:“听见”“看见”在很多词典中都有收录,但是有类似结构的“闻 见”却没有收录。在建立分词系统词表时,仍然对于收词的标准难以把握,例如: “鸡蛋”是词,那么“鸭蛋、鹌鹁蛋”是否也作为词收入词表? 至今为止,分词 系统仍然没有一个统一的具有权威性的分词词表作为分词依据。这不能不说是分 词系统所面临的首要问题。除了分词词表,还有一个概念值得我们注意,即“分 词单位”。从计算机进行分词的过程来看,其输出的词串我们称之为“切分单位” 或“分词单位”。信息处理用现代汉语分词规范中对于“分词单位”也有 个定义:“汉语信息处理使用的、具有确定的语义或语法功能的基本单位。包括 本规范的规则限定的词和词组。”由此可见,信息处理中分词单位的定义比传统 意义上的词更宽泛些。这也就避开了理论上对于词的界定难以把握的困扰。分词 山东大学硕士学位论文 系统可以面向解决实际问题的需求和真实语料中使用的频繁程度来规定“分词 单位”。分词单位可咀是同词表中词完全一致,也可以是包含未登录词识别以及 一些词法分析的切分单位,例如,一些人名、地名、机构名、外国人译名,应 予以识别和切分。一些动词和形容词重叠结构,如“高高大大”、“甜甜蜜蜜” 等;一些附加词,如后缀,“亲和性”、“热敏性”等;都可以作为分词单位予 以识别和切分。因此,对于个分词系统丽言,制定一个一致性的分词单位切分 规范无疑也是一个重要的问题。 2 3 1 2 歧义切分字段 分词系统要处理的第二个关键问题是文本中歧义切分字段的判别。汉语中 歧义切分字段最基本有以下两种类型: 1交集型歧义字段 据统计,这种歧义字段占全部歧义字段的85 以上。 4 所以这也是分 词系统所要重点解决的问题。在字段a b c 中,这里,a 、b 、c 分别代表有一 个或多个汉字组成的字串。a 、a b 、b c 、c 分别都是词表中的词,则称该字段 为交集型歧义字段。如:“中国,入”,“中,国人”两种切分结果。 2 多义型歧义字段 在字段a b c 中,a 、b 、a b 分别都是词表中的词,则称该字段为多义 型歧义字段。 如;他具有非凡的才能。 只有他才能举起,这个重物。 这里的“才能”即为多义型歧义字段。 山东大学硕士学位论文 2 3 1 3 未登录词识别 我们知道,词表中不能囊括所有的词。一方面是因为语言在不断的发展和 变化,新词会不断的出现。另一方面是因为词的衍生现象非常普遍,没有必要 把所有的衍生词都收入辞典中。特别是人名、地名等专有名词,在文本中有非 常高的使用频度和比例。而且由于未录词引入的分词错误往往比单纯的词表切 分歧义还要严重。这就要求分词系统具有一定的未登录词识别能力,从而提高 分词的正确性。 除了人名、地名的识别,我们认为,分词系统还需要有一定的词法分析能 力,从而解决衍生词和复合词等词汇平面上的问题,为进一步的中文信息处理 提供坚实的基础。 2 3 2 分词算法 1 ,最大匹配法亦称m m 法; 其基本思想是这样的,假设自动分词词典( 或词库) 中的最长词条是i 个 字,则取被处理材料当前字符串序列中的前i 个字作为匹配字段,查找词典, 若词典中存在这样的一个i 字词,则匹配成功,匹配字段被作为一个词切分出 来;如果在词典中我不到这样一个i 字词,则匹配失败,匹配字段去掉最后一 个字,剩下的字段重新进行匹配,如此进行下去,直到匹配成功,也就是完成 轮匹配,切分出一个词为止。这种分词方法,在由北京航空学院等十多个单 位协同进行的我国第一次大规模现代
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 管理办法与制度区别
- 街道加班制度管理办法
- 行政低耗品管理办法
- 跨境并购贷款管理办法
- 专项科研捐赠管理办法
- 电梯扣如何管理办法
- 设备暂估价管理办法
- 《合作办学管理办法》
- 老干部丧葬管理办法
- 项目管理办法审批单
- CATIA各模块功能全面讲解经典收藏(基础)
- 成瘾心理咨询与治疗权威指南
- 浙江省温州市第二中学2023-2024学年九年级上学期开学考英语卷
- Stevens-Johnson综合征及中毒性表皮坏死松解症课件
- GB/T 2820.1-2022往复式内燃机驱动的交流发电机组第1部分:用途、定额和性能
- SWITCH塞尔达传说旷野之息-1.6金手指127项修改使用说明教程
- 启东事业单位考试真题2022
- 通信专业实务:传输与接入(有线)
- 导尿术导尿术课件
- 梅毒专题知识讲座
- 实联化工(江苏)有限公司100万吨年联碱项目验收监测
评论
0/150
提交评论