




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)基于神经网络的文本自动分类系统的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 文本自动分类是信息处理领域的一个研究热点,它是指在给定的分类体系 下,根据文本内容自动确定文本所属类别。文本自动分类技术是文本挖掘的核心, 是组织和管理海量信息的有效手段,是几乎所有基于内容的文本管理的研究基 础,并被广泛应用于信息处理领域。因此文本自动分类的研究具有广泛的商业前 景和现实意义。 本文对现有文本自动分类领域的关键技术:中文分词、特征选择、权重计算、 分类算法做了深入的研究分析,并在此基础上,对该课题进行进一步的探讨,设 计实现了一个基于神经网络的文本自动分类系统。该系统采用模块化的设计,关 键算法和功能均封装在模块中,使系统具有良好的扩展性。本文设计的文本自动 分类系统的核心模块是预处理模块、文本表示模块和分类器模块。 在预处理模块中首先调用中科院分词算法i c t c l a s 对语料进行分词,接着 进行特征词的提取即剔除文档中的对文本自动分类贡献不大甚至影响分类效果 的虚词、标点等部分。在目前的文本自动分类系统中,一般通过手工建立停用词 表来实现特征词的提取,但这种方式的效果在实际应用中并不理想,本文开发的 系统则采用根据单词词性和停用实词表相结合的方式来实现剔除停用词,较大的 提高了系统的预处理速度。 文本表示模块中采用不同的特征评估函数和权重计算方法选取出相应的特 征项并根据用户的选择确定特征向量的维数,构建文本向量空间。 分类器模块中,分类算法的选择是设计和实现模块功能的关键。在详细研究 了各种分类算法的基础上,本模块选择神经网络作为系统的分类算法。并在分类 器模块中,根据需求的不同选择不同的方式调用神经网络分类器。 本文遵循软件工程的思想,采用v c + + 作为开发平台,设计和开发出一个基 于神经网络的文本自动分类系统。在论文的核心模块开发部分给出了实现这些核 心模块所需的数据结构和算法。本系统的核心功能和算法都采用标准c + + 进行开 发,使得系统有较高的处理效率且易于移植到其他平台环境。同时,在系统中加 入了异常处理机制,保证了系统的稳定性和健壮性。 关键词:文本自动分类,词性,特征选择,权重计算,神经网络 a b s t r a c t a u t o m a t i ct e x tc a t e g o r i z a t i o n 沁c ) h a sa l r e a d yb e c o m ear e s e a r c hf o c u si nt h e f i e l do fi n f o r m a t i o np r o c e s s i n g ;i tr e f e r st ot h et a s ko fa u t o m a t i c a l l ys o r t i n gas e to f i d o c u m e n t si n t oc a t e g o r i e sf r o map r e d e f i n e ds e t i ti sac o r eo ft e x tm i n i n g a t ci sa n e f f e c t i v em e a n so fo r g a n i z i n ga n dm a n a g i n gt h em a s s i v ei n f o r m a t i o nr e s o u r c e s ,a n d a p p l i e dw i d e l yi nt h ef i e l d o fi n f o r m a t i o np r o c e s s i n g t h e r e f o r e ,t h er e s e a r c ho f a u t o m a t i ct e x t c a t e g o r i z a t i o n h a st h eb r o a db u s i n e s s p r o s p e c t s a n dr e a l i s t i c s i g n i f i c a n c e i nt h i sp a p e r , t h et r a d i t i o n a ls o l u t i o n st os o m ek e yt e c h n i c a lp r o b l e m si nt h ef i e l d o fa t ca r es t u d i e da tf i r s t ,s u c ha sc h i n e s ew o r ds e g m e n t a t i o n ,f e a t u r es e l e c t i o n , f e a t u r ew e i g h t i n ga n dc a t e g o r i z a t i o na l g o r i t h m b yc o m p a r i n ga n da n a l y z i n gt h e i m p l e m e n t a t i o nt e c h n o l o g i e s ,w em a k eaf u r t h e r d i s c u s s i o na n dp u tf o r w a r da n a u t o m a t i ct e x tc a t e g o r i z a t i o np r o t o t y p eb a s e do nn e u r a ln e t w o r k t h ep r o t o t y p e d e s i g n e db a s e do nm o d u l a r i z a t i o na n dt h ek e ya l g o r i t h m sa n df u n c t i o n sa r ep a c k a g e d i nm o d u l e s ,s ot h ep r o t o t y p eh a sag o o dp o r t a b i l i t y i nt h ep r o t o t y p e ,t h ec o r em o d u l e s a r ep r e t r e a t m e n t ,t e x tr e p r e s e n t a t i o na n dc l a s s i f i e r i nt h ep r o c e s so fp r e t r e a t m e n t ,w eu s e di c t c l a sw h i c hh a v ed e v e l o p e db yt h e c h i n e s ea c a d e m yo fs c i e n c e sf o rt e x ts e g m e n t a t i o na n dt h e ns e l e c tt h eu s e f u lf e a t u r e f o ra t c n o w , t h em o s ta u t o m a t i ct e x tc l a s s i f i c a t i o ns y s t e mu s e ds t o p l i s tf o rs e l e c t i n g f e a t u r e ,b u ti ti sn o ts a t i s f a c t o r yi np r a c t i c a la p p l i c a t i o n i nt h i sp a p e r , w ep u tf o r w a r da n e wm e t h o dt os e l e c tu s e f u lf e a t u r e i nt h i sm e t h o d ,w es e l e c tt h ef e a t u r eb a s e do np a r t o fs p e e c ha tf i r s t ,a n dw ee l i m i n a t et h eo t h e ru s e l e s sw o r d sb ys t o p l i s ta tl a t e r w ef i n d t h en e wm e t h o di m p r o v e st h ee f f i c i e n c yo ft h ep r o t o t y p e i nt h ep r o c e s so ft e x tr e p r e s e n t a t i o n ,w eu s ed i f f e r e n tm e t h o d so ff e a t u r es e l e c t i o n a n dw e i g h t i n gt ot a k eo u tf e a t u r e sf o rt h ec o n s t r u c t i o no ft e x tv e c t o rs p a c e i nt h i s m o d u l e ,u s e r sc a ns e l e c tt h ed i m e n s i o n o fv e c t o rs p a c eb yt w ow a y s i nt h em o d u l eo fc l a s s i f i e r , w es e l e c tn e u r a ln e t w o r ka so u rc l a s s i f i c a t i o n a l g o r i t h m ,b e c a u s ei th a st h ea d v a n t a g e so fs e l f - l e a r n i n ga b i l i t y , r o b u s t n e s sa n de a s i n g t od e s i g n i nt h i sm o d u l e ,w ec a l lt h ec l a s s i f i e ri nt w ow a y s ,t r a i n i n go rt e s t i n g i i w eu s et h ev c + + a st h ed e v e l o p i n gp l a t f o r mt od e s i g na na u t o m a t i ct e x t c a t e g o r i z a t i o np r o t o t y p eb a s e do nn e u r a ln e t w o r k ,a n dt h ep r o t o t y p eh a sb e e nd e s i g n e d w i t ht h em e t h o do fs o f t w a r ee n g i n e e r i n g a tt h ee n do ft h i sp a p e r , t h em a i nd a t a s t r u c t u r e sa n da l g o r i t h m sh a v eb e e ni n t r o d u c e df o rt h ek e ym o d u l e so ft h i sp r o t o t y p e w es e l e c tt h es t a n d a r dc + + p r o g r a m m i n gl a n g u a g et od e s i g nt h ec o r ea l g o r i t h m s ,s o t h ep r o t o t y p ei se a s yt om i g r a t et oo t h e rp l a t f o r m s w ea l s oe n s u r et h es t a b i l i t ya n d r o b u s t n e s so ft h ep r o t o t y p eb yd e t a i l e de x c e p t i o nh a n d l i n gm e c h a n i s m k e yw o r d s :a u t o m a t i ct e x tc a t e g o r i z a t i o n ,p a r to fs p e e c h ,f e a t u r es e l e c t i o n ,f e a t u r e w e i g h t i n g ,n e u r a ln e t w o r k i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 期:兰! ! 呈:至:三! : 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保 留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) :和次日期:丛丛 武汉理工大学硕士学位论文 1 1 研究背景和意义 1 1 1 研究背景 第1 章绪论 在当今信息时代,信息和信息技术已经成为社会最基本的生产力。随着个 人电脑和企业信息化的普及,大量的数据信息陆续以电子文档的形式存在,并 且其数量每天都在急剧增加。这些电子文档的内容包罗万象且数量庞大,而用 户往彳主只关注其中很少一部分。如果对源始文档集不加以科学的组织和管理, 人们便无法提高信息的利用率,甚至无法找到所需要的信息,最终迷失在信息 的海洋中。 另一方面,随着国际互联蹰在全球范围的普及和迅猛发震,使得各种电子 文本信息近年来鼙指数级增长。用户直接通过i n t e r a c t 查找自己需要的信息显然 已不可能,因此人们往往借助搜索引擎在网络上查找自己感兴趣的信息。然而, 在当前的技术下,大多数搜索弓| 擎仅仅将搜索得到的网页直接呈现在用户面前, 丽并不加以整理分类。据统计,全球最大的中文搜索引擎百度( b a i d u ) 在2 0 0 6 年2 月9 日搜索标注的中文网页数量高达8 亿多,而谷歌( g o o g l c ) 搜索引擎也 声称标注了近6 亿中文网页。在如此海量的网页中仅仅依靠搜索关键字剔除掉 无关阏页,必然导致搜索零| 擎返回的结果通常将用户真正感兴趣的信息“隐藏 在大量的无效信息中,使得用户将无法便捷地找到自己所需的信息,无法为用 户提供满意的服务。 在数据信息保持高速增长的同时,当前的信息处理技术却无法帮助我们高 效快捷的使用这些海量信息,导致我们在获取大量信息盾无法有效地吸收利用, 以提高我们的工作、学习效率。因此,无论针对企业还是个人,对所获得的数 据信息进行科学有效的管理以提高信息的利用率是一个不可回避的问题。而文 本自动分类正是解决这一闯题的有效手段。 武汉理工大学硕士学位论文 王1 2 研究意义 文本自动分类是管理和组织大规模文本处理的关键环节,它可大大提高信 息检索的速度和精度,并被视为几乎所有基于内容的文佟管理的基磊。信息的 获取与过滤、信患的智能化加工、提供个性化的信息服务,都需要我们在文本 自动分类上有所突破。正因如此,文本自动分类技术正逐渐成为众多科研领域 的研究热点和难点。作为文献组织、文本过滤、智能搜索、邮件过滤等领域的 技术基础,文本岛动分类有着广泛的商业静景。 国际上,对文本自动分类的研究主要是针对英文。但是,随着中国经济的 高速发展,中文作为使用人数最多的语言在世界的影响力也越来越大。因此, 对中文文本信息处理的研究,特别是中文文本自动分类的研究,是键进我国经 济发展和民族文化复兴的追切要求,具有极其重要的现实意义。 1 2 国内外研究现状 1 2 1 国际研究现状 国外的文本翻动分类研究始于2 0 世纪5 0 年代末,美毽i b m 公司的h p l u l m 在这领域进行了开宅l j 性的研究,他提豳了词频统计思想,该思想后来被应用 在文本自动分类领域。1 9 6 0 年,m a r o n 发表第一篇关于自动分类的论文,将贝 叶斯定理运用于文本自动分类,推动了文本自动分类技术的发展。随后,众多 学者在这一领域进行了大量卓宥成效的研究工作峨 从2 0 世纪6 0 年代到2 0 世纪8 0 年代末,在文本自动分类领域占主导地位 的一直是应用知识工程( k n o w l e d g ee n g i n e e r i n g ,k e ) 方法,由专业人员手工编写 分类规则来表达领域专家所拥有的知识,将相关文档分到一个给定的类别体系 中。这种方法逶过领域专家和知识工程师之间默契配合,手工编制大量的推理 规则,因此需要耗费大量的人力资源,同时领域专家的知识结构也将影响到最 终的分类效果。其中,最著名的系统是为路透社开发的c o n s t r u e 系统,它的功 能是自动地对路透社每天成千上万的稿件进行分类。健是,这种方法构建的分 类器无法应用于一个新的不同领域中,对于新领域的分类器的构建需要完全重 新开始。 2 武汉理工大学硕士学位论文 2 0 世纪9 0 年代以来,基于机器学习( m a c h i n el e a r n i n g ,m 酗的文本自动分 类1 2 】1 3 1 1 4 j 丕渐取代了基于知识工程的方法,成为文本自动分类的主流技术。该方 法事先由相关领域专家进行人工分类得到类集c = c 1 , c 2 ,) ,然后分类系统通 过自主学习归纳给定文本集合c 的特征,囊动推理出分类器。丽且,随着学习 资料的增加,分类器的效果也会不断改进。当类集c 被更新,或者分类系统应 用于一个新的其他不同领域,通过机器学羽得到的分类器可以通过自主学习推 导滋新的学习规则,产生一个新的分类器,在此过程中无需领域专家的干预。 因此,基于机器学习的文本自动分类方法效果明显超过知识工程方法,而且它 的算法与领域无关,几乎不需要领域专家的参与,节约了大量的人力资源。 文本自动分类算法【5 1 有很多,常用的有朴素贝叶斯( n a i v eb a y e s ,n b ) 算法1 6 j 、 r o c c h i o 算法 7 1 、k 近邻( r e n e a r e s tn e i g h b o r , 州) 算法嘲、支持向量襁( s u p p o r t v e c t o rm a c h i n e ,s v m ) 算法f 9 】f l o l 和神经网络( n e u r a ln e t w o r k ,n n ) 算法【1 l l 。【1 6 】等。 近年来,国外开发的一些文本自动分类系统有美国卡内基梅隆大学的 r a i n b o w l i b b o w 文本自动分类系统i 1 7 】、a t & t 实验室的基于菲确定性分类技术 实现的自动分类系统、美国斯坦福大学计算机系的基于很少语料词汇的层次自 动分类、美国j u s tr e s e a r c h 公司的基于信息熵和贝叶斯理论实现多类的自动分 类、美国马萨诸塞州大学计算机系的针对文本库的自动分类系统、德国多特蒙 德大学计算机系的基于向量空闻模型的自动分类等等瑟引。 1 2 2 国内研究现状 函内对于文本自动分类技术的研究起步相对较晚,始于2 0 世纪年代初 期。1 9 8 1 年,候汉清对计算机在文献分类工作中的应用作了深入的探讨,并介 绍了图外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编 制分类表等方面的概况。露前,关于中文文本自动分类的研究相对较少,国内 对中文文本自动分类的研究基本上是在对英文文本自动分类研究的基础上采取 相应策略,结合中文文本的特定知识,应用于中文之上,继而形成中文文本自 动分类研究体系。 总体来说,中文文本自动分类技术的研究已经逐渐向商业化的软件应用靠 拢,在短短2 0 年时间里开发出不少比较实用的中文文本自动分类系统。例如中 国科学院计算所谭松波博士的d r a p 文本自动分类系统、上海交通大学计算中 3 武汉理工大学硕士学位论文 心的朱兰娟在导师王永成教授的指导下研制的自动分类系统、台湾中央研究院 资讯科学研究所杨允信的自动分类系统、清华大学电予工程系的吴军、王作英、 禹锋、王侠等人研制的中文语料分类系统、东北大学的中文文本自动分类系统 等等。 然而,相对于英文文本自动分类,由于汉语自身的特点以及中文文本自动 分类研究起步较晚,中文文本自动分类仍存在不少需要解决的问题: ( 1 ) 中文文本的表示比较豳难 由予汉语自身的特点,对中文文本进行分类非常丽难。其主要原因是中文 自然语言理解仍存在许多尚未解决的问题,比如对中文文本进行特征项抽取时, 需要先对文本进行分词处理。然而,中文文本不像西文那样,词与词之间有固 定的空格闻隔,丽且由于其特有的表达形式和灵活多变的构词方式以及对句子 采取不同的分词方式可能会产生完全不同的含义,使得对中文文本的自动切分 比较困难1 1 9 】。中文信息处理的基础课题和特有的难题就是中文分词,分词本身 就有一定的错误率,这无疑降低了后续分类处理的实际效果。 ( 2 ) 缺少标准的中文语料库 不存在标准的用于文本自动分类的中文语料库,各个学者、科研机构分头 收集自己的训练文本集,并在此基础上展开研究。因此,系统的性能可比性不 强。同时中文语料痒的规模普遍不大,因此本文选择自悉整理一个中文语料库, 作为系统的训练与测试语料。 ( 3 ) 测试标准不统一 正如上面所提到,缺少标准统一的中文语料库,因此文本自动分类系统的 性能测试同一性比较差,测试方法也很简单,通常仅仅给出系统分类的准确率 而很少去分析文本自动分类系统的其它性能。 1 3 文本自动分类应用 文本自动分类被视为几乎所有基于内容的文件管理的基石,文本自动分类 有着广泛的应用领域。 ( 1 ) 文献组织 1 对文献进行分类组织可以提高用户查找的效率。比如当今的门户网站新浪、 网易等都把网页按照内容进行层次归类,让网民便捷有效地浏览到感兴趣的新 4 武汉理_ 丁大学硕士学位论文 闻。很显然,文献组织属于典型的多类文本分类问题,对文献的恰当分类组织 可提高文献的利用率。 然而,目前大多数文献归类工作都由人工完成,甚至就连新浪、网易等大 部分门户网站的网页归类都壶入工完成。这必然耗费极大的人力物力,耳录信 息也无法得到及时的更新。若能够采用文本自动分类技术来辅助文献归类,这 必将大大地提高分类的效率和信息的更新速度。 ( 2 ) 文本过滤 文本过滤是指从大量的文本数据流中寻找满足特定用户需求文本的过程。 在此过程中,预先给定一个用户需求和一个输入文本流,文本过滤系统首先根 据用户需求建立一个初始的用户模板,将文件流中符合需求的文件呈现给用户, 以便用户方便快捷的有效利用文本资源。更进一步,用户可以根据文本过滤系 统提交的文本进行评判并反馈给系统,而文本过滤系统根据用户的反馈自动地 修改用户模板,以更好地满足用户的需求。 文本过滤主动获取用户特定的文本需求,进而使用这些文本需求信息组成 过滤条件,对文本资源进行筛选,把符合条件的文本掏取出来进行服务。因此, 文本过滤针对不同的用户需求提供不同的服务策略,提供不同的服务内容,而 且在提供服务的过程中,能根据用户的反馈自动调整服务的策略,使用户付出 尽可熊小的努力,获得尽可能好的服务。 ( 3 ) 智能搜索 随着网络的普及和网络信息量的增多,越来越多的人通过互联网来获取信 息,网络逐渐戒为人们获取信患的重要渠道甚至是首要渠道。然两面对网络土 的海量信息,直接查找所需信息显然不可能,人们往往借助搜索引擎来实现信 息的获取,因此搜索引擎已成为网络应用的基础和不可或缺的重要工具。 虽然搜索引擎在人们获取信息时给予了极大的帮助,但并非尽善尽美。以 现在使用率非常高的搜索弓| 擎谷歌和百度为例,尽管它们的检索能力已经非常 有效,但往往呈现在用户面前的结果却非用户所需。用过搜索引擎的人大多有 过这样的经历,查到的结果并非自己想要,而自己想要的结果却不在搜索结果 中。 因此,在构建搜索引擎时可以引入文本自动分类技术,通过文本自动分类 将搜索得到的网页整理成一定的类别体系后呈现给用户,使用户可以直接到自 己感兴趣的相关躁录中查找信息,提高获取所需信息的效率。 5 武汉理工大学硕士学位论文 ( 4 ) 由器件分类 电子邮件是互联网的另个基础应用,是一种非及时的通讯方式,给人们 的日常生活和工作带来了种种便利,已经成为人们工作生活中不可缺少的组成 部分。据2 0 0 7 年7 月中国互联网络信息中心n n l c ) 发布的第二十次中国互 联网发展状况统计报告,1 6 2 亿网民中的5 5 4 使用电子邮件作为常用通讯工 具。然而,电子邮件在给人们带来巨大便利的同时,也网益显示出其负面影响。 我们每天收到的邮件中有很大部分都是垃圾邮件,它们或者是推销广告,或者 是一些不良信息,甚至还有病毒。这些垃圾邮件不仅影响了人们的歪常沟通交 流,也对人们存储在电脑中的重要资料的安全构成了威胁。显然进行垃圾邮件 过滤( s p a mf i l e r i n 蓟1 2 0 】已经刻不容缓。 西前宙器件分类一般是基予邮件内容,因此它可以被看作普通的文本自动分 类问题。邮件分类有两种模式,其一是两类模式,即按照垃圾邮件与非垃圾邮 件来分类;另一种是多类模式,比如工作、生活、广告、垃圾等。 以上所说的只是文本自动分类技术应用的几个主要方面。此外,文本自动 分类还可用于自动标引、数据挖掘等领域。因此,意大利科学家f a b r i z i os e b a s t i a n i 认为文本自动分类技术可以被看作是所有基于内容的文本信息管理的基础【2 j ,由 此可以看出文本融动分类技术在信息处理领域应用的重要性和广泛性。 1 4 论文研究内容 本文对文本囊动分类技术进行了详细、深入的讨论。对文本自动分类的概 念进行了详细的阐述,剖析了文本自动分类中存在的技术难点并介缨了常用的 解决方案,给出了文本自动分类系统的开发流程和主要模块,并在此基础上开 发出个基于神经网络的中文文本自动分类系统。 。论文着重在以下几个环节进行了详细的讨论: ( 1 ) 特征预处理:对传统文本自动分类系统中,通过停用词表来剔除停用 词的方法进行了较为深入分析,指出了其不足,并在此基础上提出了根据词性 和停用实词表褶结合酶方式剔除对文本自动分类贡献不大的停用词,提高文本 预处理的效率和改善分类的效果。 ( 2 ) 特征选择:在特征选择模块详细介绍各种不同的特征评估函数的实现 思想及算法,并在系统中选择实现了其中效果较好的几个特征评价函数。 6 武汉理工大学硕十学位论文 ( 3 ) 文本分类算法:采用何种分类算法及如何构造分类器模型是文本自动 分类的关键问题。本文深入讨论了目前在文本自动分类领域比较流行的几种算 法,并分析了它们各自的优缺点。 ( 4 ) 详细介绍了b p 毒孛经网络的原理、结构和算法,阐述了采用b p 神经网 络作为文本自动分类器的原因,并给出了b p 神经网络分类器的设计方式。 ( 5 ) 分析了文本自动分类系统的关键模块和设计思想,并给出了实现这些 核心模块所需的主要数据结构和算法步骤,著在此基础上实现了一个基于神经 网络的文本自动分类系统。 1 5 论文组织结构 本文首先介绍了文本自动分类的定义、 本自动分类中涉及的几个关键性技术问题, 文本自动分类系统的设计与开发流程。 本文的组织结构如下: 实际应用等问题,接着重点讨论文 并详细讨论了一个基于神经网络的 第1 章简要介绍了论文的研究背景和文本自动分类的国内外研究现状及中 文文本自动分类所特有的技术难点,介绍了文本自动分类的应用领域。 第2 章着重分析了文本自动分类领域的几个关键性技术及其常用解决方案, 并结合自己开发系统的感受,简要比较了几种常用特征评估函数。 第3 章简要概括神经网络的基本原理,对b p 算法的实现流程作了描述,阐 述了选择b p 神经网络作为文本自动分类算法的原因,并给出b p 神经网络分类 器的构造方法。 第4 章详细介绍了一个基于神经网络的文本自动分类系统的设计和开发流 程,给出了实现系统所需的主要数据结构,并描述了核心模块的算法,介绍了 系统的开发平台及实现细节。 第5 章展示了系统界面并通过实验证明了本系统有较好的分类效果和预处 理速度。 第6 章作为结束语,对本文的工作进行总结,并对下步的研究进行展望。 7 武汉理工大学硕士学位论文 1 6 本章小结 本章讨论了论文的研究背景以及文本自动分类的国内外研究现状,阐明了 设计开发文本自动分类系统的巍韭前景和现实意义,余缨了文本自动分类的重 要应用领域,简述了中文文本自动分类特有的技术难点,为后面的研究奠定了 一定的理论基础。 8 武汉理工大学硕士学位论文 第2 章文本自动分类关键技术 2 羔文本自动分类定义 文本自动分类是一个有监督的学习任务,它根据文本的内容,按照预定义 的分类体系,将文本集合中的每一个文本文件归入某个类别。简面言之,文本 自动分类的任务就是,在给定分类体系的情况下,根据文本的内容自动确定与 文本关联的类别【2 。 文献 2 1 给出了文本自动分类的一个形式化定义:文本自动分类的任务就是 将一个二元组 d x c 映射到一个布尔值。该映射过程可以南下面的数学 公式表达: 垂:d c 呻 l f 公式( 2 1 ) 其中,圣为映射函数郎文本自动分类算法;d = d 1 ,蠢2 4 或 ,表示待分 类的文档集合; c - c 1 ,c 2 q c 埘 ,表示类别集合。那么,文本自动分类任务 的关键就是找到一个恰当的分类函数垂,将文档集合中的文档元素与相应的类 别相关联。具体焉言,我们可以用下面表格形象造表示搬来: 表2 - 1 类别文档矩阵 心档 类豪卜 反 d d , c 1 a l i口1 , a 1 q嚷1 露_ i i l c 掰a m l a m 稼m 暑g a 可= 1 ,则表示文档d ,属于类别c f :若= 0 ,则表示文档d ,不属于类别q 。 9 武汉理t 大学硕士学位论文 文本自动分类从根本上说是一个模式识别过程 2 2 1 1 矧,通过提取文本特征对 文本进行类别识别,因此文本自动分类的工作流程和模式识别的工作流程大致 相同,也应分为训练和分类( 测试) 两个部分。文本自动分类中,训练过程就 是通过调练文本集自动推理演绎出文本自动分类规则,完成文本自动分类器的 构建;分类测试过程则是利用建立的文本自动分类器对测试文本进行分类处理。 图( 2 1 ) 给出了文本自动分类系统的典型系统结构: 训练测试 鹜2 一l 文本自动分类系统结构图 本章余下的部分,将随着文本自动分类系统的典型流程来分别介绍有关文 本自动分类所涉及的一些关键技术,为后面的章节中设计实现一个文本自动分 类系统奠定理论基础。 2 2 文本信息预处理 计算机并不具有入类的智麓,其本质是根据久类定义的规则进行运算、操 作的一个工具。人在阅读文章后,根据自身的理解能力可以产生对文章主题和 文章内容的模糊认识;而计算机从根本上说,它只能识别0 、1 组成的一连串数 1 0 _ 武汉理1 二大学硕士学位论文 字,在没有褶应操作规则帮相应处理程序时无法识别并进一步去理解文章的内 容。因此,跟所有模式识别问题一样,要想让计算机自动对文本进行分类,就 需要把一篇文本进行相应的预处理,将它们表示成一个个的特征项,比如词、 短语、句子、概念等等。因此,文本自动分类第一步就是对文本进行相应的分 词处理。 对于英文等蹰文文本而畜,由于其语言以空格分隔词与词,预处理相对比 较容易,只需以空格为界识别嫩单词,然后加以s t e m m i n g 处理即可。然而,由 予汉语的特点,中文的词与词之间并没有固定的间隔,因此中文文本的预处理 情况要复杂的多。对中文文本做预处理时,首要任务是对中文文本进行分词处 理,中文文本分词效果的好坏将直接影响到文本自动分类的最终效果。由于分 词任务的重要性,本节将主要分绍分词的基本理论与方法。 2 2 1 中文分词技术 弱前中文分词方法主要有以下几种【矧渊: ( 1 ) 机械分词法 机械分词法的基本思想是按照一定的策略切取待分析汉字串的子串,然后 与预先建立好的词典中的词条进行匹配,若与词典中某项吻合,则匪配成功, 识别出一个单词;若在词典中找不到项与豳前子串匹配,则匹配失败,当前予 串并非中文单词。 机械分词法根据扫描原始汉字串方向的不同可分为正向匹配法和逆向匹配 法;按照不同长度的优先匹配,可分为最大匹配法和最小( 短) 匹配法;按照 是否和词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的 一体化方法。简单来说,机械分词方法主要是以下几种:最大匹配法( m a x i m u m m a t c h i n gm e 凌o d ,m m ) ,逆向最大匹配法( r e v e r s em a x i m u mm a t c h i n gm e t h o d , r m m ) ,双向扫描法( b i d i r e c t i o nm a t c h i n gm e t h o d ,b m ) 以及最佳匹配法 ( o p t i m u mm a t c h i n gm e t h o d ,o m ) 等等。 ( 2 ) 语义分词法 语义分词法就是在分词的同时进行句法分析和语义分析,通过对中文语言 信息的理解,利用句法和语义信息来进行分词。语义分词法中最具代表性的是 联想一回溯法( a s s o c i a t i o n b a c k t r a c k i n gm e t h o d ,a b ) 。 武汉理工大学硕士学位论文 此外,应用神经网络和专家系统来进行智能化的中文鱼动分词是近年来中 文囱动分词领域中的一个研究热点,该类算法的分词原理是期望对人脑思维方 式的模拟,以数学模型的方式来逼近人们对语言认识的过程。 2 2 2 实用中文分词系统 中文自动分词是机器翻译、文献标引、智能检索、中文文本自动分类等等 应用的基础,因此从8 0 年代初赣以来,审文分词一直是我国信息处理领域的研 究热点。经过二十余年的发展,已经开发出不少实用的中文分词系统,主要有: 中国科学院计算所张华平开发的i c t c l a s ( i n s t i t u t eo fc o m p u t i n gt e c h n o l o g y , c h i n e s el e x i c a la n a l y s i ss y s t e m ) 汉语词法分析系统1 2 棚、北京航空航天大学的 c d w s 分词系统的、山西大学研制出的a b w s 自动分词系统、清华大学的s e g 分词系统、哈尔滨工业大学的统计分词系统等等。 2 。3 文本特征表示 文本的特征表示就是用一定的特征项组成的特征向量来代表文本,方便计 算机理解并做相应的处理。在文本自动分类领域,文本的特征表示有掰个关键 性的问题需要考虑:一是用于表示文本语义的特征;二是这些特征的组织方式 即文本表示模型。 2 3 童文本基本特征项的选取 文本自动分类中,特征项通常可以选择词、短语、句子或者更高语义层次 的单位,如概念。 尽管选择短语或者句子作为基本特征项比选择词作为基本特征顼含有更多 的语义信息,但是在大量的实验研究中发现,选择以短语或句子为基本单位的 表示方法相对于选择以词为基本单位的表示方法,并不能得到更加有效的分类 结采,僵实现算法却更加复杂,也耗费了更多的计算机硬件资源和时间。 概念相比词而言,具有更高的抽象性,将关键词映射到概念空间可以大大 降低特征向量的维数,从而节省了文本自动分类器训练和预测时问。但是,概 念的建立需耗费大量的时间,谣且依赖于专家的领域知识,在实际的分类中效 1 2 武汉理工大学硕士学位论文 果并不十分理想l 掰。 因此,本论文所实现的文本自动分类系统将采用词为基本特征项构建文本 的特征向量,并在选择词汇时采用更能标示文本内容的实词作为基本特征项【2 7 1 。 2 3 2 向量空间模型 在文本分类领域,主要采用向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 1 2 8 h 3 0 1 来表示文本。向囊空间模型由s a l t o n 教授最早在1 9 6 8 年提出的,并成功应用于 著名的s m a r t 系统中。该模型现已成为最简便、高效的文本表示模型之一。 向量空间模型的基本思想是将每一篇文档都表示成一组规范化正交的特征 词组成的特征向量t ( 魏,魄,) ,其中魄为特征项词条k 在特征向量 中的权重。权重越大,表示特征词k 越能反映文档的内容;反之,权重 越小,则该词反映文档d ,的能力就越差,权值的取值范围一般为【0 ,1 】。 向量空间中,项权重的计算方式主要有以下几种:布尔加权法( b o o l e a n w e i g h t i n g ) ,词频加权法( t e r mf r e q u e n c yw e i g h t i n g ) ,t f x l d f 加权法阳p 2 1 1 3 3 1 。 假设氕为特征项气在文档d ;出现的频率,以为文档集中文档总数,n 。为在 文档集中出现特征项t 。的文档数量。 ( 1 ) 布尔加权法( b o o l e a nw e i g h t i n g ) 布尔权重也叫二值权重或二元权重( b i n a r yw ;e i g h t i n g ) ,是最简单的权重计 算方法。 如( 公式2 2 ) 所示,当特征项气出现在文档盔中时,权重毗;为1 ,否则 为0 。 。b 如果特征碱出现在文橼中 即2 i 其它 公式( 2 2 ) ( 2 ) 词频加权法( t e r mf r e q u e n c yw e i g h t i n g ) 用特征频度作为权重是最直观的方法,如公式( 2 3 ) 所示。这种方法基 于的思想是:特征在文本中出现次数越多,它就越重要。词频加权法通常作为 文本标引的第一步,根据特征频度,可以方便地计算其它数值权重。 慨= 吮 1 3 公式( 2 3 ) 武汉理1 二大学硕士学位论文 ( 3 ) t f x l d f 加权法 t f x i d f 是在文本处理领域广泛使用的权重计算方法,它最初用在信息检索 中。t f x l d f 权重的基本思想是:特征在文本中出现次数越多,越重要;特征在 越多的文本中出现,越不重要。 t f x l d f 的基本公式是: 屹。蛾l o g ( n - - ) 壤 公式( 2 4 ) 在( 公式2 4 ) 中当心- - - - n ( 特征项气出现在所有文档中) 时,慨一0 ,在 小数据集上,高频特征词会发生这种情况。此时,为避免权重w 盯为0 的情况, 应做一定的平滑处理,采用如下公式:i 3 3 】 屹:l 。g ( 纯+ 1 o ) 1 。g ( 型) 公式( t 2 5 ) 为消除文本长度对计算特征词权重的影响,需对公式( 2 - - 5 ) 徽规范化处 理,公式如下: 3 3 1 l o g 帆+ 1 o ) l 。g ( 坠垫) w e2 公式( 2 6 ) 尽管t f x i d f 权重基于的思想非常简单,但是在文本处理中,采用t f x i d f 加权法仍然可以得到菲常好的效采。本系统采用公式( 2 6 ) 计算特征项权重。 向量空间模型能够将非结构化的文本以向量的形式定义到实数域中,使得 各种数学理论处理文本成为可能,并且通过对特征向量的操作,能快速有效地 处理文本集合;在向量空阀模型中,为特征项引入了权重,通过调节特征项权 重大小来反映特征项与所在文档的相关程度。 一 但向量空间模型也存在维数过高的缺点,过高的向量维数往往导致计算量 过大,影响分类系统的速度;更严重的是高维向量可能导致过渡拟合( o v e r f i t t i n g ) 现象,影响分类器的学习,进步影响到分类效果。因此,我们必须对原始的 高维向量进行维数约简( d i m e n s i o n a l i t yr e d u c t i o n ,d r ) 1 2 】【3 4 】1 3 5 】处理,以降低向 量的维数。常用的维数约简技术主要分为两类:特征抽取( t e r me x t r a c t i o n ) 和 1 4 武汉理工大学硕士学位论文 特征选择( t e r ms e l e c t i o n ) 。 特征抽取是依据某种原则构造从原始离维空间到低维空间的一个变换,从 而将原始特征空间所包含的分类信息转移到新的低维空间中来,生成一个维数 更小、各维之闻更独立的特征空闻。霹前常用的特征抽取方法有:项聚类( t e r m c l u s t e r i n g ) 和潜在语义索引( l a t e n ts e m a n t i c a n a l y s i s ,l s i ) f 3 6 】f 3 7 1 1 3 8 1 。 特征选择算法般是通过构造一个评价函数,对特征集中的每个特征进行 评估,这样每个特征都获得一个评估分,然后对所有的特征按照其评估分大小 排序,选取预定数西的最佳特征作为结果的特征子集。所以,选取多少个最佳 特征以及采用什么评价函数都要针对一个具体的问题通过实验来确定。特征选 择主要用于排除那些被认为与文档无关或关联性不大的特征f 3 9 】i 柏1 f 4 1 1 。 经过特征选择处理后得到的特征集z 是原始特征集? 的子集,丽经过特征 抽取后得到的特征集r 并不是原始特征集r 的子集。 目前特征选择的技术更加成熟,因此大多数文本自动分类系统采用特征选 择的方法来降低特征向量的维数,本论文涉及的文本自动分类系统也不例外。 在下面的章节中,将重点介绍几种常用的特征选择技术。 2 4 特征选择 2 4 1 文档频度 文档频度( d o c u m e n tf r e q u e n c y , d f ) 1 2 】【3 l 是指在训练集中出现特征项t 的文 档数占总文档数院率。d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论