




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)基于特征权重算法的文本分类研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于特征权重算法的文本分类研究 摘要 文本自动分类是在给定的分类体系下,由计算机根据文本的内容确定 相关联的类别。文本自动分类技术能够有效地将文本信息组织管理起来, 帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支 持。 当前,文本分类主要采用的是基于统计的向量空间模型,涉及文本预 处理、中文分词、特征选取、特征权重计算、分类算法、分类性能测评等 多个过程。其中,特征项权重的计算方法是基于向量空间模型的文本分类中 一个重要问题,关系到最终分类的效果。传统的特征权重算法着重考虑频率和 反文档频率等因素而未考虑特征词在文本中的分布及位置信息,本文研究了文 本自动分类中的基于类分布信息及位置信息的特征词权重算法。 主要工作如下; ( 1 ) 概述了文本分类的基本概念、典型应用、国内外研究现状及存在的问 题。 ( 2 ) 介绍了文本分类过程、向量空间模型、文本预处理、中文分词、降维 技术、测试方法及性能评价指标。 ( 3 ) 分析了经典文本分类算法的原理、特点及性能。 ( 4 ) 在分析传统t f i d f 权重算法的基础上,综合考虑了特征词在类中分 布区分度和处于文本中不同位置时位置区分度对文本内容的区分能力,提出了 基于t f i d f 与类分布信息及位置信息的权重改进算法。文本分类采用k 近邻 分类算法,对改进的权重算法与标准算法进行了比较,实验结果表明改进的权 重算法对分类性能有一定提高。 ( 5 ) 对文本分类技术在垃圾邮件过滤系统中的应用进行了研究。 关键词。文本分类,向量空间模型,特征权重,特征选择,邮件过滤 s t u d yf o rt e x tc a t e g o r i z a t i o nb a s eo n f e a t u r ew e i g h t i n g a b s t r a c t a u t o m a t i ct e x tc l a s s i f i c a t i o ni sd e f i n e da st h et a s kt oa s s i g np r e d e f i n e d c a t e g o r yl a b e l st od o c u m e n t s t e x ta u t o c a t e g o r i z a t i o ns y s t e r mc a no r g a n i z e a n d m a n a g e t h et e x ti n f o r m a t i o n a v a i l a b l y ,l o c a t i n g t h ei n f o r m a t i o n a c c u r a t e l ya n dr a p i d l y ,s u p p o r t i n gt h ei n f o r m a t i o ne x t r a c t i n ge f f e c t i v e l y t h ee s s e n t i a lt e c h n o l o g i e si np r o c e s so ft e x tc a t e g o r i a z t i nb a s e do n v e c t o r s p a c em o d e li np r e s e n tm a i n l yi n c l u d ep r e p r o c e s s ,p a r t i c i p l e t e c h n o l o g y ,w e i g h t i n gc o m p u t a t i o n ,f e a t u r es e l e c t i o na n de x t r a c t i o na n d d i m e n s i o nd e s c e n d i n gt e c h o n o g y a l g o r i t h mo ff e a t u r et e r mw e i g h t i n g b a s e do nv s mi sav e r yi m p o r t a n tp r o b l e ma f f e c t i n gt h et e x tc a t e g o r i z a t i o n p e r f o r m a n c e t e r mf r e q u e n c ya n di n v e r s ed o c u m e n tf r e q u e n c ya r cc o n s i d e r e d b u tt h ed i s t r i b u t i o ni n f o r m a t i o na m o n gc l a s sa n dp o s i t i o ni n f o r m a t i o ni n d o c u m e n ta r ei g n o r e di nt r a d i t i o n a lt f i d f a ni m p r o v e df e a t u r et e r m w e i g h t i n ga l g o r i t h mc o n s i d e r e do fd i s t r i b u t i o ni n f o r m a t i o na m o n gc l a s s a n dp o s i t i o ni n f o r m a t i o no ft e r m si sp r e s e n t e d t h em a i nr e s e a r c hw o r k sa r es h o w na sf o i i o w s : ( 1 ) t h eb a s i cc o n c e p ta n dr e l e v a n tk n o w l e d g e ,t h er e s e a r c hb a c k g r o u n d a n dt h e p r e s e n t s i t u a t i o na n dt h e e x i x t i n gp r o b l e m s o ft h et e x t c a t e g o r i z a t i o na r ei n t r o d u c e d ( 2 ) t h ee s s e n t i a lt e c h n o l o g i e si np r o c e s so ft e x tc a t e g o r i a z t i ns u c ha s p r e - p r o c e s s ,p a r t i c i p l et e c h n o l o g y i nc h i n e s e ,v e c t o r s p a c em o d e l , w e i g h t i n gc o m p u t a t i o n ,f e a t u r e s e l e c t i o na n d e x t r a c t i o n ,d i m e n s i o n d e s c e n d i n gt e c h o n o g y ,r u l e sf o re v a u a t i n gt e x tc a t e g o r i z a t i o np e r f o r m a n c e a r ed i s c u s s e d ( 3 ) t h et h e o r i e sa n dc h a r a c t e r i s t i c so ft r a d i t i o n a lt e x tc a t e g o r i z a t i o n a l g o r i t h ma r ea n a l y z e d ( 4 ) o nb a s i so fa n a l y z i n gt h et r a d i t i o n a lt f - i d fa l g o r i t h m ,an e w i m p r o v e da l g o r i t h mo nf e a t u r ew e i g h t i n gc a l c u l a t e i n gw h i c hc o n s i d e r e do f d i s t r i b u t i o ni n f o r m a t i o na m o n gc l a s sa n dp o s i t i o ni n f o r m a t i o no ft e r m si s p r e s e n t e d e x p e r i m e n t a i r e s u l t ss h o wt h a tt h e i m p r o v e da l g o r i t h m o u t p e r f o r m e dt h et r a d i t i o n a lm e t h o d si nc l a s s i f i c a t i o np r e c i s i o n ( 5 ) s p a mf i l t e r i n gs y s t e mb a s e do nt e x tc l a s s i f i c a t i o nt e c h n o l o g yi ss t u d i e d k e y w o r d s lt e x tc a t e g o r i z a t i o n ,v e c t o rs p a c em o d e l ,t e r mw e i g h t i n g , f e a t u r es e l e c t i o n ,e - m a i lf i l t e r 插图清单 图2 1 文本分类过程8 图3 1 核心分类法示意图2 4 图4 1 权重算法f l 比较图3 8 图4 2k 值对宏f 1 值的影响一3 9 图4 3 特征维数对宏f l 值的影响4 0 图5 1 电子邮件过滤系统框图4 4 表格清单 表2 1 分类可能性表2 1 表4 1 特征项在文本中出现的频率3 2 表4 2 特征项t f i d f 权重3 3 表4 3 特征项t f i d f d i 权重3 5 表4 4 特征词位置权值系数表3 6 表4 5 权重计算测试结果3 8 表4 6k 值对宏f 1 影响3 9 表4 7 特征维数对宏f 值的影响3 9 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得金胆王些太堂或其 他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签字:缶i 吃砭一签字日期谚7 年易月r 日 学位论文版权使用授权书 本学位论文作者完全了解金胆王些太堂有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被 查阅或借阅。本人授权金胆王些太堂可以将学位论文的全部或部分论文内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇 编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名;钤i 矽乏 导师签名; 签字日期:冲1 f 月少日 签字吼 学位论文作者毕业后去向: 工作单位: 通讯地址: 日 够册 加。月 研9 昂“陆隰 ,饥n 电邮 致谢 本论文是在导师胡学钢教授的悉心指导下完成的,感谢胡老师给我的指导 与帮助,使我确立了正确的研究方向,取得了一定的研究成果。胡老师渊博的 知识、严谨的学风和求实的工作态度以及诚挚的学者风范将会使我终生受益。 感谢安徽教育学院谢飞老师论文期间对我提供的帮助。感谢合肥工业大学的全 体老师,是他们使我具有完成论文的专业基础知识。感谢我的亲人、朋友、领 导及同事们给予我的支持与鼓励。 作者:台德艺 2 0 0 7 年5 月 1 1 选题背景及意义 第一章绪论 当前随着信息技术与互联网的迅速发展,信息容量速度增长,信息载体也 呈现出多样化趋势,但文本信息仍是信息的主体,w e b 网页、电子化的科技期 刊和数字图书馆极大地丰富了知识资源。在这些庞大的信息资源中,蕴含着大 量的有价值的知识。人们迫切需要能够从海量、异构和动态的文本资源上快速、 有效地发现所需的知识,但是在这些海量的文本数据中,只有很少一部分与某 个用户相关,而不清楚文档的内容又很难形成有效的查询,不能获取有用的信 息,庞大的数字化信息和人们获取所需信息能力之间的矛盾就变得日益突出。 人们如何从大量纷杂的信息中快速而又准确地获得自己所需的信息是一个非常 值得研究的问题,由于分类技术可以在较大程度上解决信息杂乱现象,方便准 确地定位所需信息和分流信息,因此文本分类就成为文本信息检索、文本信息 数据挖掘的重要的基础与前提条件。 文本自动分类就是在给定的分类体系下,由计算机自动判别文本类别的过 程,其中的文本来自媒体新闻、科技报告、电子邮件、技术专利、网页、书籍 等文字信息载体。近年来,文本分类技术已经逐渐与搜索引擎( s e a r c he n g i n e ) 、 信息推送( i n f o r m a t i o np u s h ) 、信息过滤( i n f o r m a t i o nf i l t e r i n g ) 等信息处理技术 相结合,有效地提高了信息服务的质量。文本分类同时还可被用于抽取符号知 识、新闻分发、排序电子邮件以及学习用户兴趣。它还是信息检索、机器翻译、 自动文摘、信息过滤等技术的基础。意大利科学家f a b r i z i os e b a s t i a n i 认为文本 分类技术可以被看作是所有基于内容的文本信息管理的基础,由此可以看出 文本分类技术在信息处理领域的重要性。 传统的文本分类建立在手工分类的基础之上的,如早期的y a h o o 就是将 网页放在一个巨大的层次分类结构中,对下载的w e b 文本进行索引前,需要 对文本分类处理,以便于用户的查找和提高检索的性能和效率。通过组织维护 这些类别来达到帮助查找知识和信息的目的。这种手工分类的做法在数据量较 小的情况下具有较好的分类准确度,但在数据量激增的情况下,存在着许多弊 端:一是耗费大量的人力,物力和精力。二是存在分类结果与要求的不一致。 即使分类人的语言素质较高,对于不同的人来分类,其分类结果仍然不尽相同。 甚至同一个人,在不同时间做分类其分类结果仍然不尽相同。可见,面对各种 系统中浩如烟海的文本信息,传统的手工分类由于效率太低已经不能适应日益 增加的大量的文本数据处理的需要,无法满足实际的需要,而面临越来越多的 困难。面对信息的日益膨胀,如何快速、准确地从浩瀚的信息资源中寻找到所 要的狭小领域内的相关内容就成了一项十分有意义的课题。正是在这样的背景 之下,基于机器学习( m a c h i n el e a r n i n g ) 的文本分类( t e x tc a t e g o r i z a t i o n ) 正逐 渐成为一个日益重要的研究领域。 网络文本信息的激增使得自动分类处理技术越发显示着其优越性,相对人 工分类,文本自动分类系统具有以下特点1 2 j : ( 1 ) 高效率、高速度。自动分类的效率将是人工分类的百倍甚至千倍,从 而节约了大量的人力。 ( 2 ) 较高的准确度。消除了人为错误产生的可能。 ( 3 ) 良好的自适应性。可快速适应文本的更新及类别设置的变化,适应不 同环境及需求。 1 2 文本自动分类的典型应用 到目前为止,文本分类作为一项基础性研究,在信息技术领域的应用越来 越广泛,已经被应用到基于受控词典的自动文摘( a u t o m a t i cd o c u m e n t i n d e x i n g ) 、文本过滤( d o c u m e n tf i l t e r i n g ) 、词义消歧( w o r d s e n s e d i s a m b i g u a t i o n ) 和文档组织( d o c u m e n to r g a n i z a t i o n ) 等领域【l l 。计算机进行 自动文本分类在以下领域有着广泛的应用前景。 ( 1 ) 邮件分类 这种应用主要是对用户收到的电子邮件进行分类,如:麻省理工学院为白 宫开发的邮件分类系统,能自动地确定每天发送给总统的大量的电子邮件所属 的类别,以安排适当的人员对信件内容进行答复。 ( 2 ) 电子会议意见分类 电子会议是一种新兴的会议方式,所有与会者通过网络电脑系统举行会议, 与会者是匿名的,便于形成平等的气氛,以调动与会者的积极性,因此产生大 量的意见和建议,接下来再由分类系统对这些意见进行分类和组织,最后确定 进一步讨论的主题。 ( 3 ) 智能检索 实际使用过搜索引擎的人想必都有过这种体会:想查找的东西查不着,不 相关的东西倒是很多。在搜索引擎的构建过程中,可以利用文本分类技术来进 行概念区别,改进相关度排序,对被检索的信息按照一定的分类体系进行自动 分类。 ( 4 ) 网络信息过滤及萃取 用户每一天都会得到大量的网上信息,网络信息过滤可以根据用户所关心 的信息过滤网上信息,然后主动形成用户需要的信息。网络信息萃取是根据某 种需要,自动分析网页信息,萃取某一特定内容,进行分析。 ( 5 ) 文本库的建立与重建 机构或个人都会面临建立文本库或重新归类大量文本的任务,这就需要根 据指定的一些文本和类别结构,自动地将所有的文本归于合适的类。若是将新 的文本加入合适的文本类别中也要采用文本分类技术。 ( 6 ) 文献自动标引 标引是指用一个或若干个词来表示文献内容特征的过程。用于标引的关键 词和词组属于一个专业词典,如果把该词典的条目看成不同类别,标引的过程 就是一个文本分类的过程,这种文献自动标引功能在数字化图书馆中非常重要。 ( 7 ) 文本过滤 文本过滤通过滤除掉不感兴趣的文本,提供有用的信息给用户。过滤的过 程可以看成是一个单一类别的文本分类,输入文本被分类成两种,相关的和不 相关的。 ( 8 ) 词义排歧 词义排歧就是在遇到多义词时,根据当前环境判断出其正确意义。把该词 出现的语言环境如句子或段落作为待分类的文本,该词的几种词义作为类别, 词义排歧过程就是一个文本分类的过程。显然这是一种单一类别的分类。这对 于在机器翻译中遇到多义词时,选择一个正确的词义是非常有用的。 1 3 国内外研究现状 文本分类的研究在国外开展时间较早,1 9 5 7 年美国i b m 公司的h pl u h n 在自动分类领域最先进行了开创性的研究,提出了词频统计思想用于自动分类。 1 9 6 0 年m e m a r o n 在j o u r n a lo f a c m 上发表了有关自动分类的第一篇文章o n r e l e v a n c ep r o b a b i l i s t i ei n d e x i n ga n di n f o r m a t i o nr e t r i e v a l ,提出了自动关键词分 类技术,正式宣告了自动分类技术的诞生。目前,文本分类的研究主要集中在 文本的词频统计分析、句法分析和语义分析等三个层次上进行研究。其中,以 基于词频统计分析的自动分类系统较为成功。国外的自动文本分类在经历了可 行性基础研究和实验性开创研究之后,目前己经进入到实用性商业应用,在信 息检索、电子会议、网络安全、机器翻译等方面都得到了广泛的应用。 自动文本分类大致可分为两个阶段,从6 0 年代起步至8 0 年代末主要是以 专家人工构建的知识工程技术为支撑,分类系统包含专家定义的一系列逻辑规 则,依据这些规则可以把新给定的文本归类为某种或几种特定类别,这种方法 的代表是h a y e s 的c o n s t r u e 系统【3 1 。这类系统的优点是精确度高,缺点是 构建自动分类器时必须要有领域专家的参与,采用人工方式书写大量的分类规 则,然后对规则进行组合形成分类系统,但当应用领域改变时这些规则将不再 有效,没有办法从一个领域移植到另一个领域。 第二阶段从9 0 年代开始,这期间随着模式识别、机器学习、统计学习、数 据挖掘等理论研究的发展,文本分类被注入了新的活力。9 0 年代之后,机器学 习的技术开始广泛应用于文本分类中,成为文本分类的主流技术,机器学习的方 法一般是通过归纳文本集的特征自动创建分类器,这些文本训练集是事先经人 工分好类别,各类别相互独立,生成分类器的过程不需要领域专家的参与,可 以方便地移植到另一个领域。1 9 9 4 年,a t & t 实验室的d a v i dd l e w i s 等对基 于非确定性的自动分类技术做了研究。两年后,该实验室将自动分类的技术应 用于电子邮件领域。1 9 9 7 年,德国d o r t m u n d 大学计算机系的t o r s t e nj o a c h i m s 等研究了基于向量空间模型的自动分类系统。同年,美国s t a n f o r d 大学计算机 系的d a p h n ek o l e r 等提出了基于很少语料词汇的层次自动分类算法。1 9 9 8 年, 美国c a r n e g i em e l l o n 大学计算机系的y i m i n gy a n g 等将决策树等聚类算法应用 于在线自动分类。1 9 9 9 年,美国j u s tr e s e a r c h 公司的a n d r e wm c c a l u m 等运用 信息熵理论、b a y e s 理论等实现了多类别的自动分类。随后,美国m a s s a c h u s e t t s 大学计算机系专门针对文本库开发了自动分类系统,美国i b m 和o r a c l e 公司 为推广电子商务而研制了基于文本内容的电子邮件自动分类系统,m i c r o s o f t 公 司也为其浏览器开发了基于内容属性分类的插件。 文本分类在国内研究起步较晚,但在众多专家学者的不断努力下取得了一 定的成绩。1 9 8 1 年南京农业大学侯汉清教授对国外计算机自动分类技术作了介 绍,对中文自动分类技术进行了探讨【4 l 。国内的研究基本上是在英文文本分类 研究的基础上采取相应策略,结合中文文本的特定知识,然后应用于中文之上, 继而形成中文文本自动分类研究体系。由于中文和英文的巨大差异,英语文本 是小字符集上的已充分分隔开的词串,而汉语文本是大字符集上的连续字串, 句子中各词语间没有固有的分隔符,国外的文本分类产品并不能完全适合中文 文本分类。为此很多学者在基于知识和统计的两种方法上对中文文本分类进行 了大量的研究工作,主要有基于词典的自动分类系统和基于专家系统的分类系 统。在1 9 9 8 年底,我国国家重点基础研究发展规划首批实施项目中,文本数据 库挖掘是“图像、语音、自然语言理解与知识挖掘”中的重要内容。此后,我 国陆续研制出了一批中文文本自动分类系统。在9 0 年代,随着国内外学术交流 活动的增多和国内科研力量的持续投入,目前我国在中文文本自动分类领域中 己经取得了令人瞩目的研究成果,其中一些己经被成功地推广和应用,典型的 代表系统有北大天网和百度搜索等。此外,如中文信息学报,中国中文信息 学会、国际中文计算机学会及国内若干著名高校计算机系的中文信息处理实验 室等都对中文文本分类技术进行了深入的研究。 1 4 问题的提出及本文的组织 目前,自然语言处理领域的多项试验表明,在以自然语言为研究对象的知 识处理和知识获取问题中,知识表示始终是其处理的主要瓶颈。 向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 是一种不考虑特征项出现顺序 4 的词袋( b a go fw o r d s ) 文本表示模型,文本内容被形式化为多维空间中的一 个点,通过向量的形式给出,把对文本内容的处理简化为向量空间中向量的运 算,使问题的复杂性大为降低,使得模式识别和其他领域中的各种成熟的计算 方法得以应用,极大提高了自然语言文本的可计算性和可操作性。但是v s m 基于特征向量之间非相关的假设,由于特征项之间存在相关关系,出现分量间 “斜交”现象,而不能完全成立;缺乏语义约束,没有歧义处理机制;由于面 对自然语言文本,其处理的对象急剧增加,表现为高维运算,增加了计算负荷。 v s m 虽然带来了计算和操作上的方便,但是却损失了大量的文本结构信 息。而这些信息在自然语言中也是至关重要的( 如句子中的词序信息等) 。另外, 在权重和相似度的计算中也做了许多简化工作。一是对不同的语言单位构成的 特征项大都只考虑其统计信息并采用统一的权重计算方法,而这种计算只是经 验公式并没有很好的理论基础,所以计算出的权重未必能真实反映各项的重要 性。二是向量空间模型是建立在所有特征项两两正交这一假设基础上的,没有 考虑特征项之间的相关性。对于自然语言这种有着非常丰富语言现象的研究对 象来说,这种假设显然是过于严格的,不能很好地反映自然语言的特征。一些 学者就特征项之间的依赖关系、消除分量间的相关性提出了一些新的思想,如 语义向量空间模型( s e m a n t i cv e c t o rs p a c em o d e l ) 6 1 ,潜在语义索引( l a t e n t s e m a n t i ci n d e x i n g ) ”】i ”,目前已经有许多改进项权重计算的方法,但是效果并 不明显,原因在于语义关系实际上是一个很复杂的运算,采用简单的初等运算 代替它,误差势必存在。 特征词是组成文本向量表示的基本元素。通常根据特征词在文件中是否出 现、出现频率或者其他重要性度量等综合因素,给其赋予一定的权重,可以提 取一定数目的权重较大的特征词作为文本的特征表示。在特征词确定的情况下, 特征词的权重计算是文本分类的关键。特征词权重综合反映了该特征词对标识 文本内容的贡献度和文本之间的区分能力。现有的t f i d f ( t e r mf r e q u e n c y i n v e r sd o c u m e n tf r e q u e n c y ) 算法,虽然同时考虑到了词频和文本频率两个因素, 但是公式本身显得有些过于简单,没有考虑分布情况,同时忽略了词在不同位 置出现时区分能力的差异。因此,提高特征词权重计算方法的准确性,是文本 自动分类研究中的一个重要课题。本文在研究传统权重算法的基础上,对 t f i d f 权重算法进行了深入分析,针对t f i d f 只考虑词频因素和文档集因素 的不足,提出结合t f i d f 与类间分布信息及在文本中的位置信息的改进权重 算法。 文本分类算法是文本分类流程的核心。目前存在多种分类算法,它们基于 不同的理论,有着不同的分类效果,如何继承文本分类算法的长处,又弥补其 不足之处,提高文本分类精度及速度,是众多文本分类研究工作者的努力目标。 本文主要针对基于向量空间模型的分类技术进行了研究与探讨,对于特征权重 算法进行了改进,通过k n n 分类算法实现权重算法对分类性能影响的对比。 本文的组织: 第一章介绍选题的背景及意义,文本分类技术国内外研究现状,本文所做 的工作及论文的组织。 第二章对文本分类的关键技术进行了全面的介绍。向量空间模型是文本表 示的理论基础;文本预处理及汉语分词是文本表示的前提条件;降维技术包括 特征选择与特征抽取是降低文本向量维数,提高计算速度,分类准确度及防止 过度拟合的有效手段: 0 1 i 练集是分类器学习的对象集;评价标准是对分类器性 能的评价。 第三章对经典文本分类算法的工作原理及特点进行了介绍与分析。不同的 分类算法有着不同理论基础,有着不同的优缺点,影响分类性能的因素有多种, 在选择分类算法时要根据实际情况具体选择。 第四章对经典的t f i d f 算法进行分析,虽然它考虑到了词频和文本频率 两个因素,但是公式本身显得有些过于简单,同时忽略了词的分布及位置区分 能力。提出改进权重算法,文本分类采用k 近邻分类算法,对改进的权重 算法与标准算法进行了比较,实验结果表明改进的权重算法对分类性能有 一定提高。 第五章对文本分类技术在垃圾邮件过滤系统中的应用进行了研究。 第六章对全文进行了总结,并阐述了今后的研究方向。 6 第二章文本分类相关技术 本章首先介绍了文本分类的定义、类型及基于统计的向量空间表示模型的 分类过程,然后对向量空间模型的原理及特点点进行了分析,介绍了文本预处 理的内容,分析了中文分词技术的原理及发展、对常用的降维技术进行了分析 与比较。最后对分类语料库、测试方法及评价标准进行了介绍与分析。 2 1 文本分类任务 文本分类是一个有指导的学习过程,它根据一个已经被标的训练文本集合, 找到文本属性和文本类别之间的关系模型,然后利用这种学习得到的关系模型 对新的文本进行类别判断。从数学角度来说,文本分类可以这样定义:设文档 集d = i d l ,d 2 ,d 。 ,预定义类集c = c 。,c 2 ,c 。 ,确定任意一个元组( d ,c ,) , 映射到集合阢, 上的值,故文太分类器实际上就是这样一个函数 o :d x c 一留,f 。 根据分类结果的不同,基于统计学习法的分类系统可以分为三类: ( 1 ) 两类问题 所谓两类问题,就是对给定的一篇文章,分类系统判断该文档是否属于该 类,要么属于,要么不属于,而不存在其它的结果。举例来说邮件分类系统, 对于每封邮件,系统就判断是属于正常邮件还是垃圾邮件。 ( 2 ) 多类问题 所谓多类问题,就是给定一篇文章,分类系统对该文档判断,可能是n 个 类别中的一类。比如说,一个电子邮件服务器在转发电子邮件时,需要把该邮 件同时转发给整个局域网中的9 个员工,那么这样y 的取值可能从1 到9 。 有些文本分类算法可以直接解决多类问题,比如说决策树。有些分类算法 就只能解决两类问题,如支持向量机分类算法。其实一个多类问题可以分为n 个二类问题来解决的方法叫做“一对多策略”( o n e - a g a i n s t t h er e s ts t r a t e g y ) 。另 外还有一个用的比较少,但是也很有前景的算法是p a i r - w i s e 测略【8 l 。该策略是 对n 类问题划分为n ( n 一1 ) 2 个二类问题来解决。一次比较就能计算出某个文 档属于其中某两类的概率大小。最终判断该文档的类别时,就取决于n ( n 1 ) 2 个分类器的投票。 ( 3 ) 多标记问题 多标记问题是指每个文档可能属于一个,多个,或0 个类别。比如说按文 章的语义来分,一篇体育新闻报道既可以归为经济类,也能归于历史类。现有 7 的文本分类算法还不能直接处理多标记问题。 因为很多文本信息具有有限结构或者没有结构,同时计算机很难处理自然 语言中的语义,所以目前文本分类最普遍的技术就是将文本数据结构化以后再 对结构化的数据使用传统的分类方法。 文本分类的过程可用图2 1 来表示。 图2 1 文本分类过程 一般来讲,文本分类过程需要解决五方面问题【9 】 ( 1 ) 获取训练样本集 训练样本选择是否合适对文本分类器的性能有较大影响。训练样本集应该 能够广泛地代表分类系统所要处理的客观存在的各种文本信息类中的样本。一 般地,训练样本集应是公认的经人工分类的语料库。国外文本分类研究都使用 共同的测试样本库,这样就可以比较不同分类方法和系统的性能。 ( 2 ) 建立文本表示模型 计算机没有类似人类的智能,人阅读完一篇文章之后可产生对自身对文章 的理解,而计算机却没有这样的能力。为了便于计算机的处理,文本必须表示 为计算机可以识别的格式【1 0 】,即选用什么样的语言要素( 或者说文本特征) 和 用怎样的数学形式组织这些语言要素来表征文本信息,这是文本分类中的一个 重要问题。本文使用基于统计的向量空间模型。 ( 3 ) 文本特征选择 作为语言的一种书面物化或者电子化的文本信息也是一个开放的系统。它 的大小、结构、包含的语言元素和信息都是开放的,因此它的特征也是无限制 的。文本分类系统应该选择尽可能少而准确且与文本主题概念密切相关的文本 特征进行分类,选择什么样的文本特征由具体的度量准则确定。 ( 4 ) 选择分类方法 也就是用什么方法建立从文本特征到文本类别的映射关系,这也是文本分 类的一个核心问题。 8 ( 5 ) 性能评估模型 即如何评估分类方法和系统的性能或者说分类结果。真正反映文本分类内 在特征的性能评估模型可以作为改进和完善分类系统的目标函数。在文本分类 中,到底使用什么评价参数取决于具体的分类问题。单类别分类问题和多类别 分类问题所使用的评估参数是不一样的。 因此,一个文本分类过程通常包括:文本预处理、文本表示、文本特征选 择、文本分类器设计、文本分类的性能评估,这些关键技术的研究和实现对最 终的分类结果都有一定程度上的影响。 2 2 文本表示 2 2 1 向量空间模型 最常用的文本表示模型是由g s a l t o n 等人在2 0 世纪6 0 年代提出的向 量空间模型( v e c t o rs p a c em o d a l ,简称v s m ) ,v s m 基于这样一个关键假设, 即文章中词条出现的顺序是无关紧要的,他们对于文档的类别所起的作用是相 互独立的,因此可以把文档看作一系列无序词条的集合。 在该模型中,文档空间被视为一组正交词条向量组成的向量空间,每个文 本谚都可以映射为此空间中的一个特征向量( f e a t u r ev e c t o r ) 矿( z ) = 亿。,峨。,f 2 ,w f :,) ,其中为词条项,权重w j ,表示特征项对文本吐分 类的贡献程度,文本砖简化为以特征项的权重为分量的向量表示h ,w j :,) , 文本信息的匹配问题转化为向量空间中的向量匹配问题,大大降低了问题的复 杂性。 特征词权重( t e r mw e i g h t ) ,一般定义为t 在d ,中出现频率的函数,即 砒蚺常用的函数有:布尔函数y - 糍占? ;平方根函数 = 丽;对数函数吲。g ( t f , ( a j ) “) t f i d f 函数矿咧咖l o g 蚓,其中 n 为所有文档的数日,啊为含有t 的文档数目。 文本通过特征向量来表示。通常,文本集中的文本是通过词一文本矩阵a 表示,即a = k j 其中,嘞代表特征词i 在文本j 中的权重向量的元素是由特 征词及其权重组成。该向量称之为此文本的特征向量。特征向量是文本的一个 特征表示,在某种意义上可以完全代表文本的特性。 9 对特征向量有必要进行规范化处理,使其具有相同的长度,经过规范化处 理的特征向量称为规范化特征向量( s t a n d a r d i z e df e a t u r ev e e t o r ) 。设特征向量 “,h :,) 对向量中中的第个:令 2 两个文本之间的相关程度( d e g r e eo f r e l e v a n c e ) 通常用它们之间的相似度 s i m ( d , ,d ,) 来度量。当文本表示为v s m ,可以借助于向量之间的某种距离来表 示文本间的相似度。设向量文本一= ( ,:,) ,目前常用两种相似度计算 式: 向量之间的内积: _ ” 跏( 吐,t ) = t - l 夹角余弦: 二 乙。 s i m ( 4 ,d j ) = c o s ( o ) = f 垒上= = = = 一 1 以2 k - ik - i 在v s m 模型中,空间文本被看作由一组正交词条所张成的矢量空间,每 个文本4 可以由一些规范化矢量来表示v ( d ,) = o 。2 ,w f :,f 。,) 。在该模 型中,文本的一切特性通过由权重较重的特征词构成的特征向量来表示。 v s m 的的文本表示通常包括预处理、取词根、去功能词、统计词频、选择 特征、生成词频数量、规范化等步骤,中文分类还要进行分词处理【j ”。 v s m 的优点是提供了一个理论框架,项的权重评价、相似度的计算没有统 一的规定,可以使用不同的权重评价函数和相似度计算方法,使得此模型有广 泛的适应性,在多种系统中得到了成功的应用。 2 2 2 文本预处理 文本作为一种非结构化的数据类型,其特点表现为特征空间的高维性、文 本特征表示向量的稀疏性及文本主题特征表现不突出等特点。与数据库和数据 仓库中的结构化数据相比,文本具有有限的结构或根本就没有结构。文本信息 源的这些特征使得现有的数据挖掘技术无法直接应用与其上,因此在对文本进 行特征提取前,需要先进行文本信息预处理,抽取其特征并用结构化的形式保 存,作为文本的中间表示形式。 上历 文本自动分类首先要做的工作就是将通常以字符串表示的文本转换为适合 于学习算法以及分类任务的表示形式。大量分析表明,一篇文本的内容主要是 通过名词、动词、形容词等实词来体现的,虚词以及在各种文本里经常出现的 高频词对于分类并无意义。因此,要从文本词汇列表中过滤掉虚词及统计得出 的高频禁用词,从而获得文章的内容词表。预处理通常包括下列几种类型: ( 1 ) 去除标记。 ( 2 ) 去除停用词( s t o pw o r d ) :停用词是指包括介词或冠词等语义内容很 少的词,也指在文本集的每个文本中都可能出现的高频词。停用词有可能出现 在很多文本中,所以对区分文本的内容价值不大,通常在预处理阶段去处掉。 ( 3 ) 词性标注。词性标注是给文本中的每个词选择一个最有可能的词类。 自然语言中的词存在着大量的兼类现象,词性标注可以排除由于词的兼类而形 成的歧义。 ( 4 ) 词根还原。词根还原的主要目的是把一些变形词复原为该词原来的表 示形式。主要包括以下内容:名词复数去除、动词时态转换、动词第三人称转 换、词根还原、简写词复原、。 ( 5 ) 短语辨认。自然语言文本中存在大量的词组,根据词对短语的依赖性, 若把一个词组中的词分开分析则会损坏这个词组的意义,得不到词组原来所要 表达的意思。 如果是对中文进行预处理则首先要进行分词。 2 2 3 中文分词 与英文文本不同,英文文本利用空格作为词的分隔符,而中文文本一般是 无分隔符的字符串,词与词之间没有分隔标志。为了对文本进行表示,对中文 文本需要进行分词h 3 。 所谓分词就是在中文文本的各词条间加入分隔符,将连续的字序列按照一 定的算法划分成词序列的过程。虽然英文存在短语的划分问题,但是在词这一 层上,中文比英文要复杂得多,困难得多。 现有的分词方法可以分为三大类: ( 1 ) 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与 一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则 匹配成功( 识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以分为正 向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配 和最小( 最短) 匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方 法和分词与标注相结合的一体化方法。 在实际应用中,如基于词表的分词,最大匹配( m m ) ,就是一种有着广泛应 用的机械分词方法,该方法依据一个分词词表和一个基本的切分评估原则,即 “长词优先”原则,来进行分词。这种评估原则虽然在大多数情况下是合理的, 但也会引发一些切分错误。根据小规模测试的结果,其正确率为9 5 4 2 2 ,速度 为6 5 ,0 0 0 字分钟。这种切分方法,需要最少的语言资源( 仅需一个词表,不需 要任何词法、句法、语义知识) ,程序实现简单,开发周期短,是一个简单实用 的方法。 对于基于词典的分词方法,影响其精度的因素有【1 4 1 :机器词典中词目的 选择和词条的数量;机器可读词典与待切分文本中词汇的匹配关系;切分 歧义;未登录词;分词方法。词典对分词精度造成的影响远远大于分词方 法本身产生的歧义切分错误和未登录词问题。影响其速度的因素有:机器可读 词典的组织结构、匹配的原则和扫描的顺序。 ( 2 ) 基于理解的分词算法 通常的切分系统,都力图在分词阶段消除所有的歧义切分现象。而有些系 统则在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的 一小部分。其基本思想就是在分词的同时进行语法、语义分析,利用语法信息 和语义信息来处理歧义现象。这类方法通常包括三个部分:分词子系统、语法 语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、 句子等的语法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解 过程。该类分词方法主要有扩充转移网络法、联想一回溯法、邻接约束法、语 境相关法、专家系统分词法、基于神经网络的分词法等。 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果, 也称人工智能法。人工智能是对信息进行智能化处理的一种模式,主要有两种 处理方式:基于心理学的符号处理方法。模拟人脑的功能,像专家系统。即希 望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。 基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制 来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题, 应用到分词方法上,产生了专家系统分词法和神经网络分词法”。 神经网络具有联想、容错、记忆、自适应、自学习和处理复杂多模式等优 点。不足的是网络连接模型表达复杂、训练过程较长、不能对自身的推理方法 进行解释,对未在训练样本中出现过的新的词汇不能给子正确切分。 专家系统具有显式的知识表达形式,知识容易维护,能对推理行为进行解 释,可利用深层知识来切分歧义字段;缺点
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美妆品牌线上营销计划
- 环境监测行业智能化转型关键技术研究与应用2025年数据质量控制报告
- 农产品冷链物流标准化建设与可持续发展研究报告
- 文明行为培训题目及答案
- 海洋安全知识题库及答案
- 编译大赛日语题目及答案
- 2025年陕西省人民法院聘用书记员考试试题及答案
- 2024-2025学年广东省湛江二十一中高一(上)期中语文试卷
- 2025年电气防爆考试题目及答案
- 小学信息试卷及答案
- 短视频剪辑雇佣合同(2024版)
- 人教版部编版三年级语文上册第一单元教案
- DL-T5153-2014火力发电厂厂用电设计技术规程
- 成都旅游宣传课件下载
- 碳化硅外延层厚度测试 红外反射法-编制说明
- 刺骨术原理-西安讲课
- 药物发展简史
- 生猪屠宰厂员工培训方案
- 幼儿园分餐培训课件
- 专项施工方案(模板工程及支撑体系专项施工方案)
- 2023医美术后科学修护指南
评论
0/150
提交评论