




已阅读5页,还剩85页未读, 继续免费阅读
(计算机应用技术专业论文)文本分类与特征选择技术的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着w w w 的迅猛发展,1 i ) 沌b 上聚集了海量的信息,因此如何 浃逡、准确嚣全瑟豹获取鸯臻羡惠已经残凳匿大豹疆竣。基予天工餐 能的信息内容的自动聚类、分类和文摘,以及深层次的文本挖掘为她 接遨个挑战键供了新的支撑技术。本文的舀标就是程文本抡掘的背聚 下,从理论、算法和应用三个层次柬研究文本特征选择与文本分类。 本文首先全面分析了自动分词、文本特征选择、文本分类算法镣 嫂关技末。 随后堂点研究了七n n 文本分类器中决策规则的改进。n n 方法 箨为一静简单、春效、菲参数豹分炎方法,在文本分类串褥掰广泛豹 应用。但是这种方法的一个明显缺点是:当样本分布密度相对不均匀 时,只按照前j 个谶邻顺序而不考虑它们的距离差别会造成误判,彩 确分类器匏魏疑。锤对这令问题,零文采蠲了模獭分类的滕怒,递过 分析相似度、距离、隶属度函数之间的关系,构造了基于文档相似度 静凌策筑簧| j 来克l 鼙遨一袋黧。 接着提出了一种快速有效的文本特征选择新方法。文本分类的酋 要程务就怒进行特征选择,降低原始文本特征空闯的维数和提高分类 精度。基慰揍数作为一种不纯度分裂方法豹原理,很旱就被提出并应 用于决策树中的分裂属性的选择,获得了非常好的分类精鹰。但将其 应攘裂文本特薤选簿熬疆究帮嚣鬻少。我 f 3 使震基露据数簌理逮嚣了 文本特征选择的研究,构造了基于旗尼指数的新的文本特微选择评估 函数。 k 北京交涌大学硕。 :学位论文 论文最后,在中英文两个不同的语料集上,给出了试验结果与分 析。( 1 ) 采用潮种著名的文本特征选择方法进行特征选择,对改进的 模糊霆n n 方法与经典女n n 方法和曩蘸广泛使鲻的基于楣戗度嬲权的 七n n 方法进行实验比较。实验结果表明,这种方法削弱了训练样本分 蠢戆不均匀毪怼分类毪戆懿影旗,霹浚将徽平均准确率提褰大约l 2 ,并且在一定程度上降低对七值的敏感性;( 2 ) 结合两种不同的分 类方法:模糊辅n 和s v m 方法,霹鏊予基尼指数的新的文本特征选 择方法与其它薯名的文本特征选择方法避行比较和分析实验,结果显 示它的性能超过或可与现有的特征选择方法相媲美,但在计算嫩上比 其它方法要小缮多。 关键词:文本分类;模糊女n n :隶属度函数;相似艘i 距离测度; 特征遥铎;基藏指数;特征译佑函数 a b s 仃a d a b s l l 鼍c l w 浦氇e 稼砖l 畦e v e l 印m e 珏to fw o f l dw i d ew e 转,巍e 穗翱瑚醚 o 矬 珏 i n t e 翔e t i s i ns h o r to f o f g a n i z a t i o n ,a n d f u l lo fa m a s so f p a g e s ,s o i t i sa r e a lc h l e n g e 妇u st oo b t a i nt h ei n f o m a t i o nq u i 嘲ya n da e r a t e l y 弧e t e c h 丑i q u eo fd u s l e 撕n 舀c 王a s s i f i c a i m la l l da b s t r a c 蛙n gb a s e do na la n d t e x tm i l i i n g ,h a sp l a y e da ni m p o n a n tr o l e i no r g a n i z i n ga n dp m c e s s i n g l 蠢f g ea 氆o 鞠l 醴t 能l 蠡髓i sl 糖s i sa 主糯s 垂。攒s 鞠s s 攮et e x lf e a 毫n f e s e l e c t i o na i l dc a t e 9 0 r i z a l j 咖t c c h n i q u e sw i t ht h eb a c k g r o u n do ft e x t m i n i n g a tf i 猫t ,w es u m m a i i 粥t h ek e yt e c h i l i q u e su s e di nt e x tc l a s s i f i c a t i o n s u c ha sc h i n e s ew o r d ss c g m e n t a t i o n ,f c a t u r c s e l e c t i o n , a u t o m a t i c c l a s s i 镄l i 勰基静国蠹翔s 。 w ep r o p o s em ei m p r o v e m e n to ft h ed e c i s i o nm l ei n 七n nt e x t c a t e g o 如a 至o n 。a s 鑫s i m p l e ,e f 娃i v e 囊l l dn o 翦p a 糟m e | f i cd a s s 稿c 箍重i o 矗 m e t h o d ,克n nm e t h o di sw i d e l yu s c di nd o c u m e n tc l a s s i 6 c a t i o n b mt h e r c i s 锄o b v i o u ss h o n c o m i n gi nt l l em e t h o d :w h e nt h ed e n s i t yo f t f a j n i n g 如t a su 矗芒v e i t 翔a yd e c r c 8 也ep f e c i s i 锄o fd a s s i 翁c 挂l i o n l yt oc o n s d e r t h e 肌m b e ro f 柏e a r c s tn e i g l l b o r sw h i kn o tt h ed i s t a l l c ed i f f e r e n c e 1 o s 琏v e 潮s 即b l e 搬,氆e 攮e o f yo f 勉z ys e l s 主s 嘲珙o y e d 重oi m 蝌,e 氆e c o n v e n t i o n a l 七n nm c t h o d ah e a v ya n a l y s i sa b o u tt h e 辩l a t i o n s h i po f s i m i l a 嘲y d i s t a n c ea n dm c m b e f s h i p 如嗽i 硼i s 舀v c n ,a ni 琢p 鳓v e d m e m b e i s h i pf u n c l j o nb a s o d 衄t e x ts i m 钉a 填l yi sc o n s t 邝c t e d j 北京交通大学硕士学位论文 w ep r e s e n tan o v e l 印p f o a c hf o rf a s ta n de f f c c t i v et e x tf e a t u r e s e l e c 娃o n 。飘 ef i f 繇a n dm 萄甜p 托l b l e 搬o ft e x 毫c a t e 驴一z 毪蛀o ni sh o w 协 s e l e c tt h eb e s ts u b s e tf r o mt h eo r i g i n a lh i g hf e a t u r es p a c ei no r d e rt o f e d u o e 糯eh i g hd i 氆o n s 主。狂采主耋yo f 氆eo 娃垂n 8 圭恕a 钿撑s p a c ea 珏鑫 m p f o v e t h ec l a s s i f i c a t i o n p e 渤f m a n c e g i n i l n d e xj st h e p r i n c j p l e o f m u l t i - a t l f i b u t es e l e c t i o nv e r ye a r l yu s e df b fa t t f i b u t es e l e c t i o n 主nd e c i s i o 矬 融e ,w h 妯p e 渤潍sn e a rs t a t c 帕f - t h c - a 娃l “e l 。h 瓣e v e 矗r e l a t i v e l y 圳e w o r kh a sb e e nd o n eo na p p l y i n gg i n i l n d e xt ot e x tf e a t u ms e l e c t i o n w e h s ei 搬p 掰v 翻g 珏i i 赣x 垂o f 重e x t 斟鞋f es e l 糕囊。曩,b s 瓤l 睡i n g 镪e m e a s u r ef u n c t j o nb a s e d0 ng i i i i i n d e x 1 氇et e s tr e s u l ta n dt h e 黼a l y s i sa 糟p f o d h e e do 牲氇ec h i n c s e 鞠d e n 垂i 蚰t w od i f f e r e n tl a n g u a g e 妣t c o l l e c t i o na tl a s t f i s t l y ,ac o m p a t i s i o n b e t w e e nt h ep “) p o s e dm e t h o da n do t h e re x i s t i n g 盂n nm e t h o d si sf i n a n y m 翻ob y 懿p e 癔珏鞠t s 鹳主n g 如娃fd i 蠹e 掩n l 毙a l 聪粒辩 c c t i o nm e 氆e d s 。弧i s c o n c l u d e dt h a tt l i em e t h o db a s e do nt h et h e o r yo ff i l z z ys e t s 亡a nn o t 咖l y i m p m v e 西e 瑚i c m - a v 棼f a g c p r c 穗 瀚蘸| c x tc a | e g o 畦z 鑫l l 能姆8 孙娃tl 2 ,b u ta l s or e d u c em e 七v a l u es c 丑s i l i v i t yt oac e f t a i nd e 掣e e s e c o n d l y , w ec o m p a r et h en o v e lf 宅a h h s e l e c t i o nm e t h o db a s e dc i ng i n i - l n d e xt o o | 瞻f 岛珏f 撙e a 如f e s 撼i n g 协ok 洳d so fc l 勰s 强e f s 。卫掉搀鐾n l t s 如 e x p e r i m e n t ss h o wt h a t i t sp e r f b 衄a n c ec o m p 甜e s 、f 押o r a b l yw i t ho t h c r e x s l l 辩gl e x lf e 旌论掉潮e d i o n 嚣p p 髓e h e s 薹| o w e v 姣至ti sb 蜕 嚣溉l 羲el 撙e c o m p l e x i t yo fa l g o f i t l l m k e yw o r d s : t e x tc l a s s i f l c a t i o n ;f l l z z y 露n n ;m e m b e l s h 译f h n c l i 鳓; 4 v - a b 砒f a c t s i m i l a r i t y ; d j s t a n c e m e a s u r e ; f e a t u f e s e l e c t i o n ;g i n i l n d e x ; f c a t u r e e v a l u a t i o nf u n c t i o n v 独创性声明 y8 7 9 8 5 本人声明,所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽本人所知,除了文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得北京交通大学或其他教学机构的学位或证书而使用过的 材料。与我一起工作的同志对本研究所做的任何贡献已在论文中作了 明确的说明并表示了谢意。 本人签名: 日期:过年三月业日 l 绪论 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是 存在大量数据,可以广泛使用,并且追切需要将这些数据转换成有用 的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务 管理、生产控制、市场分析、工程设计和科学探索。 由于电子形式的信息量的飞速发展,如电子出版物、电子邮件、 万维网等,而传统的信息检索技术己不适应同益增加的大量文本数据 处理的需要。用户需要有关的工具完成不同文档的比较,以及文档重 要性和相关性排列,或找出多文档的模式或趋势。因此,文本挖掘就 成为数据挖掘中一个日益流行而重要的研究课题。 1 1 研究背景 自从w w w ( w o r l dw i d ew e b ) 1 9 9 1 年诞生以来,已经发展成为 拥有近亿用户和约4 0 0 万站点、3 亿页面的巨大分布式信息空问,而 且其信息容量仍在以指数形式飞速增长,以4 6 个月翻一倍的速度在 增加。万维网目前是一个巨大的、分布广泛的和全球性的信息服务中 心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商 务和许多其他信息服务。w w w 是以超文本的形式呈现给用户,为用 户提供了一个极具价值的信息源。 然而,w 曲上的信息只有很小的一部分是相关的或有用的。据调 查,9 9 的w 曲信息对于9 9 的用户是无用的。虽然这看起来不是很 明显,但一个人只是关心w 曲上的很小一部分信息确是事实,w 曲所 包含的其余信息对用户来说是不感兴趣的,而且会淹没所希望得到的 1 北京交通人学硕上学位论文 搜索结果。如何快速、准确、全面、及时地检索到自己感兴趣的信息 成为人们关注的焦点。 目前许多基于索引的w 曲搜索引擎,由于精度不高的原因,其效 果远不能使人满意。首先,基于关键字的搜索,对任一范围的话题, 都可能很容易地包含成百上千的文档。这会使得搜索引擎返回的文档 过于庞大,其中很多与话题的相关性并不大,或所包含的内容质量不 高,这被称为多义问题i ”。其次,很多与话题相关的文档可能并不包 含相应的关键字,因而没有被检索到,这被称为同义问题。例如:关 键字数据挖掘可能会带出很多与采掘工业有关的w e b 页面,而可能无 法识别有关知识发现,统计分析,或机器学习方面的论文,原因是它 们不包含关键字数据挖掘。这些挑战已经推动了如何高效且实际地发 现和利用因特网上资源的研究工作。 传统的信息检索技术已不适应日益增加的大量文本数据处理的需 要。典型的大量文档中只有很少一部分与某一个体或用户相关。而不 清楚文档中的内容,就很难形成有效的查询,从数据中分析和提取有 用信息。用户需要有关的工具完成不同比较,以及文档重要性和相关 性排列,或找出多文档的模式或趋势。由于w e b 文本主题分类研究在 改善搜索引擎的检索性能,提高网络信息服务等方面有重要作用,越 来越成为数据挖掘和网络挖掘的一个研究热点。 1 2 国内外研究现状 数据挖掘,被定义为从大量的数据中提取对某一个体或用户真正 感兴趣的知识。目前,有很多资料、文献都把数据挖掘视为数据库中 的知识发现( k n o w l e d g ed i s c o v e r yi nd a t 曲a s e ,k d d ) 的同义词。从 2 绪论 1 9 8 9 年第一届k d d 年会以来,对这一领域感兴趣的研究与丌发从员 即开始专题讨论这一问题,至1 9 9 5 年最终召开第一届关于知识发现与 数据发掘的国际会议,一直到今天,数据挖掘的目标就是利用计算机 自动化及数据库技术,高效率地从浩如烟海的原始信息资源中找出真 正有利用价值的知识,以适应现代信息社会的需求。 数据挖掘系统的理想情况是一个自治的学习a g c n t ,自动地探索 有用的和令人感兴趣的信息,并以适当的形式报告其发现结果。完全 自治的目标是很难做到的,因为究竟什么令人感兴趣最终需要用户而 不是计算机来决定上。事实上,大多数数据挖掘系统或多或少都要依 靠用户的参与。 w e bw a t c h e r 是由c m u ( 卡内基一梅隆大学) 开发的一个可安装在 一个w w w 站点上的导游器( t o u rg u j d e ) 。w 曲w a t c h c f 对来访的用 户的访问模式进行在线的学习,通过对主页的超文本结构和以前用户 浏览路径的学习,建立起一个经验模型。当一个用户进入该站点时, 系统提供一个接口来启动w e bw a t c h e r 的导游功能,它将陪伴用户进 入每一个网页,同时通过对用户兴趣的分析向用户建议下一个要访问 的链接。p c r s o n a lw 曲w a t c h e r 也是由c m u 开发的,功能与w c b w a t c h e r 很相似,区别在于p e r s o n a l w 曲w j t c h e r 是面向特定的个人的, 而w e bw a t c h e r 是面向特定的w w w 站点。 w c ba c e 是由m i n n e s o t au n i v e r s i t y ( 明尼苏达大学) 计算机科学与 工程系开发的用于在w w w 上对文档进行自动分类与搜索的客户端 a g e n i 。当用户通过浏览器上网时,该a g e n 可以帮助用户完成:( 1 ) 对用户检索到的文档进行自动分类,并组织成簇集形式;( 2 ) 为每一 个簇集创建不同的标签:( 3 ) 进一步搜索w 曲以发现更多的与刚爿检 3 北京交通人学硕士学位论文 索到的文档相关的文档。以上三步操作是由w e b a c e 自动并且自治地 完成,几乎不需要与用户进行交互。 此外还有1 b mi n t e l l i g e n tm i n e rf o rt e x t 等。但这些产品在查全率 和查准率方面以及智能化方面还有待于进一步提高。 由于中文和英文的巨大差异,英语文本是小字符集上的已充分分 隔开的词串,而汉语文本是大字符集上的连续字串,句子中各词语间 没有固有的分隔符( 空格) ,国外的产品并不能适合中国的网络资源, 所以我们需要重新开发自己的文档信息提取和自动分类系统。在1 9 9 8 年底,我国国家重点基础研究发展规划首批实施项目中,文本数据库 挖掘是“图像、语音、自然语言理解与知识挖掘”中的重要内容。目 前国内开发的在h t e m e t 上的文档采集、提取、分类系统仍处于实验 阶段,离实用还有一定的距离。 比较知名的有南京大学软件新技术国家重点实验室开发的 i d g s ( i n t e m e td o c u m e n tg r o u p i n gs y s l e m ) 系统。系统采用了向量空间 模型和基于统计的特征的提取技术,由语科库维护模块、词典维护模 块、特征提取模块、r o b o t 模块、特征匹配模块与分类模块等五部分 组成。 此外北京大学、北京师范大学、山东大学、中国科学院计算技术 研究所等很多知名大学和研究机构都在进行这方面的研究和探索。 1 3 本文的工作和组织结构 本文的目标就是在信息检索和文本挖掘的背景下,从理论、算法、 应用三个层次来讨论文本分类与文本特征选择技术。 第一章介绍了论文的研究背景和国内外研究现状。并介绍了本 _ d 论文的组织结构。 第二章阐述了文本分类的关键技术,包括中文自动分词,文本 特征选择的主要方法以及主要的分类算法。 第三章提出女n n 文本分类器中决策规则的改进吼从理论层面 剖析经典n n 分类算法的缺点,采用了模糊分类的思想,通过分析相 似度、距离、隶属度函数之间的关系【引,借鉴模糊c 均值算法中隶属 度函数的计算公式【4 l ,构造了基于文档相似度的决策规则来克服这一 缺陷。 第四章提出了一种快速有效的文本特征选择新方法。首先分析 基尼指数原理卧,7 l 及其在决策树算法中成功的进行分裂属性的选择, 深入理解基尼指数与熵原理可以统一化到一个通用公式的基础上1 6 】, 通过分析文本特征的特点,构造了基于基尼指数的用于文本特征选择 的新的评估函数。 第五章采用v c + + 6 0 编程语言实现本文提出的两个算法,在中 英文两个不同的语料集上,对t n n 文本分类器中决策规则的改进以及 提出的基于基尼指数的文本特征选择新方法进行实验研究,获得了良 好的实验结果。 第六章总结了本文对文本分类及文本特征选择做的一些研究和 工作,并提出了进一步研究方向。 北京交通大学硕上学位论文 2 文本分类相关技术研究 由于i n t e n l e t 技术的发展和w e b 应用的普及,在线文本信息急剧 增加,自动文档分类成为处理和组织大规模文本信息的关键技术,并 广泛应用于文本处理和信息检索的各个领域。 文本分类中使用的技术和方法,主要来自统计学、机器学习、模 式识别、人工智能等相关学科和技术领域。一般说来,不存在一个普 遍适用的方法。一个方法或算法在某个领域非常有效,但在另一个领 域却可能不太适合。因此在实际应用中,需要针对特定领域,精心选 择有效的模型与算法。 文本分类主要涉及到三方面核心技术,它们是:自动分词、特征 选择、自动分类聚类。在研究过程中,需要对相关的技术问题进行调 研,下面将逐一探讨各项核心技术。 2 1 自动分词技术 中文与英文不同,英语文本是小字符集上的己充分分隔开的词串, 而汉语文本是大字符集上的连续字串,句子中各词语间没有固有的分 隔符( 空格) 。因此在进行词频统计、特征选择等处理前,需要先对中 文文档进行词条切分。汉语自动分词是对汉语文本进行自动分析的第 一个步骤。现有的分词的算法可以分为三大类:基于字符串匹配的分 词方法、基于理解的分词方法和基于统计的分词方法。 文本分类相关技术研究 2 1 1 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的 汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中 找到某个字符串,则匹配成功( 识别出一个词) 。 按照扫描方向的不同,基于字符串匹配的分词方法可以分为正向 匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最长( 最 大) 匹配和最小( 最短) 匹配:按照是否与词性标注过程相结合,又 可分为单纯分词方法和与标注相结合的一体化方法。常用的几种机械 分词方法有正向最大匹配,逆向最大匹配,逐词遍历法。 由于此种方法主要依靠词典进行分词,因而,词典中词条的数目, 词条的选择直接影响到最后的分词效果。由于词典中不涉及语法、语 义等有关自身的信息,所以,机械分词法无法避免汉语中最基本的两 种歧义现象。 交集型歧义:假设字串s = x y ,x = a b ,y = c d ,若a ,a b ,b c , c d ,d 都是词典中的词,则a b c d ,刖b c d 都是有效的切分结果。 这就造成了所谓的交集型歧义。例如:字符串“辛勤劳动”,其中“辛 勤”、“勤劳”、“劳动”均为词,并构成交叉,所以对“辛勤劳动”的 切分就构成了交集型歧义。 组合型歧义:假设字串s = x y ,x = a ,y = b ,若a ,b ,a b 均在此 表中,则将造成组合歧义。如:“玩笑”即可作为一个词切分出来,也 可切分成为“玩”、“笑”。 此外,词典中不能囊括所有的词。一方面是因为语言在不断的发 展和变化,新词会不断的出现。另一方面是因为词的衍生现象非常普 7 - 北京交通大学硕十学位论文 遍,没有必要把所有的衍生词都收入词典中。对于词典中未能及时收 录的新词,机械分词法无法予以正确的切分,不具备自适应性是此方 法的一大弱势。但是由于这种方法方便对特定领域内较难切分的词进 行处理,易于实现,因而得到了广泛的应用。 实际使用的分词系统,都是把机械分词法作为一种初分手段,还 需要利用其它语言信息来进一步的提高切分的准确率。一种方法是改 进扫描方式,称为特征扫描或标志切分。优先在字符串中识别和切分 出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较 小的串再来进行机械分词,从而减少匹配的错误率。切分标记可以分 为绝对切分标记和条件切分标记。绝对切分标记指标点符号、数字和 其它非汉字符号。条件切分标记是指那些出现频率高,够词能力差的 单字词,如“啊”,“吧”、“吗”、“也”、“么”、“的”、“很”、“谁”、“你”、 “它”、“要”等。这些字仅能构成极少量有意义的词汇,而能构成反 映文章主题的词则更少,所以将它们作为切分标记。另一种方法是将 分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助, 并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地 提高切分的准确率。 2 1 2 基于理解的分词方法 通常的切分系统,都力图在分词阶段消除所有的歧义切分现象。 而有些系统则在后续过程中来处理歧义切分问题,其分词过程只是整 个语言理解过程的一小部分。其基本思想就是在分词的同时进行语法、 语义分析,利用语法信息和语义信息来处理歧义现象。这类方法通常 - 8 - 文本分类相关技术研究 包括三个部分:分词孑系统、语法语义子系统、总控部分。在总控部 分的协调下,分词子系统可以获得有关词、句子等的语法和语义信息 来对分词歧义进行判断,即它模拟了人对句子的理解过程。 该类分词方法主要有扩充转移网络法、联想一回溯法、邻接约束 法、语境相关法、专家系统分词法、基于神经网络的分词法等。以扩 充转移网络法为例,它是一种普遍应用于数据库自然语言查询中进行 语法分析的方法。在实现中,需要建立一个语法知识集合,用以作为 弧问状态迁移的测试条件。利用这种方法可以大大提高分词的精度, 与机械分词法相比,切分智能性更进一步。这种分词方法需要使用大 量的语言知识和信息。由于汉语语言知识的笼统性、复杂性,难以将 各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分 词系统还处于试验阶段。 2 1 3 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字 同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现 的频率或概率能够很好的反映成词的可信度。可以对语料中相邻共现 的各个字的组合的频度进行统计,计算它们的互现信息为: 螂挪扎s 意耘 ( 2 一1 ) 其中p 偶聊为汉字x ,y 的相邻共现概率,p f 田,p 分别是兄 】,在语料中出现的概率。互现信息体现了汉字之间结合关系的紧密程 度。当紧密程度高于某一个闽值时,便可认为此字组可能构成了一个 北京交通大学顿士学位论文 词。这种方法只需对语料中的字组频度进行统计,不需要切分词典, 因而又叫无词典分词法或统计取词法。但这种方法也有一定的局限性, 会经常抽出一些共现频度高,但并不是词的常用字组,例如“这一”、 “之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度 差,时空丌销大。 2 2 文本特征选择方法 所谓文本特征,就是用于描述文本内容的原始特征,是内容的外 在表现形式。特征项可以看成是文本在词汇级摘要,是文本最简洁也 是比较有效的表示方法。文本特征分为描述性特征,例如文本的名称、 同期、大小、类型等;以及语义性特征,例如文本的作者、机构、标 题、内容等。描述性特征容易获得,而语义性特征则较难得到。文本 的主题特征是从原始的文本特征中提取出最能代表文本内容主题的重 要特征,滤掉那些不能反映文章主题,甚至构成干扰噪声的原始特征。 所以对于中文文本特征的选择,其难度体现在建立完整的汉语概念体 系的困难和语法、语义和语用分析的困难。 一个有效的特征集,必须具有彻底性和专门性。其中彻底性是指 文本所讨论的内容被特征词覆盖的程度;专门性是指特征词必须能反 映文本的具体内容,而不是泛泛而谈。为了满足彻底性要求,对文本 进行结构和内容分析,以保证对文本各部分内容的最大限度的覆盖。 为了满足专门性,需要消除停用词,选择具有实际意义的名词及其短 语,特别要注意选取面向内容的词汇。 目前对文本特征选择的研究中,所采用的特征提取算法一般是构 造一个权重函数,对特征集中的每一个特征进行独立的评估,这样每 1 n 文奉分类相关技术研究 个特征都获得一个评估分,然后对所有的特征按照其评估分大小进行 排序,选取预定数目的特征作为结果的特征子集。所以,选取多少个 最佳特征以及采取什么评估函数都需要针对一个具体的问题通过实验 来决定。 目前用于文本特征选择的评估函数,主要有信息增益,期望交叉 熵、互信息、f 统计、文本证据权、几率比等1 8 9 ,l o l 。这些评估函数可 分为两类:基于统计分析的方法和基于机器学习的方法。 2 2 1 文档频数d f 它是最简单的文本特征选择方法,其值为训练集合中此单词发生 的文档数。文档频率d f 的理论假设是:稀有单词要么不含有用信息, 要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。显 然它在计算量上要比其他的特征选择方法小得多,但是在实际运用中 它的效果却出奇的好。d f 也有缺点,因为稀有单词可能在某一类文 本中并不稀有,而且包含重要的判断信息。我们在实际运用中一般并 不直接使用d f ,而常把它作为评判其它方法的准则。 2 2 2 信息增益 信息增益法是一种在机器学习领域应用较为广泛的特征选择方 法,它从信息论角度出发,根据各特征取值情况来划分学习样本空间 时,所获得信息增益的多少来选择相应的特征,特征f 的信息增益 蜘加f 一计算公式如下: 北京交通大学硕士学位论文 脚一删摹瞩l o g :等 + j p 矽) 善p l 痧) l o g :号裂孚 其中f 是对应于单词的特征,| pr 渺,为单词出现的概率, pf g ) 为第f 粪出现的概率,p l 为单词矽出现对属于f 类的 条件概率( 以下禽义同) 。 2 。2 3 期望交义熵 它与信息增蕴唯一的不尉之处在予没有考虑单词朱发生时的情 况,其公式为: 。幽螂挪) 一帮) 辜粥l o g :号署 ) 2 2 。4 甄信息 互信息用于表征特征词与类别铸间的相关性,其公式为: 胁啪啪聊) = 罩粥) l o g 鼍等 ( 2 - 4 ) 互信息没有考虑单词矿发生的频度,这怒互信息个很大的缺 点,它馨致互痿息浮 妻添数经鬻姣自予选择稀蠢潺。 2 。2 1 57 统计 磐绞诗也楚用于表缝亵令变量阕懿裰关蛙,但它魄嚣售惠瑟强, 1 士 文奉分娄相关技术研究 以即;笔觜弘勋 。 联g ) 渺妒l el 尹| 矽l 2 2 6 文本证据权 这是一种较新豹评估函数,它衡量类豹概率和给定特征时类的条 件概率之间蛇差别。文本处理中,我钓不需裂计算翊舻的殿蠢可能艇, 而只考虑在文本中出现。其公式为: 耽动蝴晰d 黼- 糟矿) 摹联c f ) | l 。g 爱吕蔷竺譬丢勰i ( 2 6 ) 2 2 7 几攀比 定义如下: 一砌阶o s 渊 一器黑勰 乃 。p ( 渺l ,l 曙x 1 一p l | 雕) ) 、 7 为处理奇异憔,定义当p ( 鼍) = 。时,蒯出( 墨) = 盎,当 粥渖对,溅嘿) ;警,酬鼬隧) 一器。式中露 北京交通大学碗十学位论文 是例子的个数。a 妊t 鼬咖不象前面的特征选择方法刃样对所褥类同 等对待,而是只关心剐永类值。这使褥凡率比这种特征选择方法,特 别适用予二元分类器。在二元分类中,我们幕黧雏识别滋尽可能多的 正类,而不关心识别出负类,这使几率比比其它信息测度有额外的优 势。 2 3 文本特征模型的表示 对于内容这个难以表示的特征,我们首先要找到一种能够被计算 秽掰楚溪懿表示方法。逐年来疲震较多曩效采较怒懿文本特 垂表示模 型是向缀空间模型( v s m ) 。向擅空间模型可追溯到j o 于1 9 7 1 年提出豹穗关获馈法 珏l ,其最韵的强弱是为了避行信息检索,筒菲文 本分类。 向鬣空间模型基本稔想是:给定一囱然语害文档x 一( f j ,帅;如, 忱o & ,躲) ,其中鑫是蚨文耥盖孛选出的特征矮,黻是顼躲投重, l = j ;。为了简化分析,通常不考虑“在文档中的先后顺序并簧求“ 匿吴( 翊没有耋复 。遮耩誊可敬挺赴,如,玲看成一个维静坐栝 系,而w j ,岫,w 为相应的坐标值,因而x ( w j ,w ) 被看成怒维空间中的一个向爨,而两个文档鼢和憨之间的( 内容) 相关程度常常用宅 f 之阅的相似度s 妇( 恐,盖2 来度爨。当文档被 表示为文档空间的向量,就可以借助于向量之阃的某种距离来表示文 糨闰戆糖彀度。 在向星空间模型中,基本上都以词作为文本特征项,特征( 词) 期衩采髑豹是s a l 自0 n 在1 9 8 8 年擒出的静t i d f 溺数1 1 2 j : 文本分类相关技术研究 1 岷=( 2 - 8 ) 其中嫒表示镄条致在文档擞中兹出现频数,表承文本集中的 全部文档数,n t 为出现过该词语的文档数。该公式的提出是基于这样 纛馨一静弦没:对速捌文档袋骞意义懿谣语疲该是鄹些在文橙中毽疆频 率足够高,但在熬个文档集合的其它文档中出现频率足够少的词语。 在计算s 砌( 赫,x2 ) 时,肖多种方法可供选择,最简单的方法 是仅考艨嚣个特妊矢量中历包含蚋词袈的重叠程度,即 s 触( 盖z ,x 。) i 嬲,其中,n n ( 犯,置) 是弘和并2 具有的相 同词条数目,托u ( x ,x :) 是蜀和x 2 具商的所有词条数嗣。最常用的 方法是考虑两个特征矢撼之间的夹角余弦,即: 咖( ) 一赤南 萁德域为【0 ,l 】。 2 4 文本分类算法 文本分类是指按照预先定义的主题类别,为文档集合中的每个文 橙确定一个类裂。这祥,穗户不爨髓够方便逮浏燕文档,瑟且哥疆逶 过限制搜索范围米使文档的查找更为容易。文档分类成为处理和组织 丈量文耥数据的关键技术。所戳,研究幂0 用计舅视迸行自动文耥分类 成为垂然语言处理和入王磐能领域中一顼具有黧簧应用价值的课题。 现有的分类方法主要是藻于统计理论和机器学习方法的,比较蔫称的 北京交通夫学硕士学位论文 文档分类方法有支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 【1 3 j 、朴 素贝叶斯( n a v eb a y e s ) 1 1 4 1 、七近邻法( 女n n ) 1 1 5 ,1 6 1 、神经网络( n n e t ) 1 1 7 1 、b o o s t j n 一1 ”、线性最小平方拟合( u f ) 1 1 9 l 。 文本分类是一种典型的有教师的机器学习问题,一般分为训练和 分类两个阶段。基于特征相关性的自动分类算法主要包括以下三个方 面:( 1 ) 为每个需要分类的文本构造规范化特征向量;( 2 ) 为每个 预定义类别构造规范化特征向量;( 3 ) 评价分类文本与每一个预定义 类别特征之间的相关性。具体过程如下。 训练阶段: ( 1 ) 定义类别集合c = “,c 矗“ ,这些类别可以是层次式的, 也可以是并列式的; ( 2 ) 给出训练文档集合s = 昂,品) ,每个训练文档町被标上 所属的类别标识o ; ( 3 ) 统计s 中所有文档的特征矢量妙,确定代表类另q 集合c 中 每个类别的特征矢量坼j ; 分类阶段: ( 4 ) 对于测试文档集合t = 如砒d r ) 中的每个待分类文档巩, 计算其特征矢量矾j 与每个聊d 之问的相似度曲雄扛f b 甜; ( 5 ) 选取相似度最大的一个类别a 蝎m a x 嘲 ( 噍,c i ) 作为诉的类别。 6 日 有时也可以为以指定多个类别,只要西与这些类别之间的相似度 超过某个预定的阚值。如果破与所有类别的相似度均低于阈值,那么 通常将该文档放在一边,由用户来做最终决定。对于类别与预定义类 别不匹配的文档而言,这是合理的,也是必须的。如果这种情况经常 文本分类相关技术研究 发生,则说明需要修改预定义类别,然后重新进行上述训练与分类过 程。 2 4 1 七近邻算法 k n n 全称是七n e a r e s tn e g h b 凹,它是最著名的模式识别统计学方 法之一,已经有四十多年的历史。它在很早就被用于文本分类研究。 它是在r e u t e r s 语料( 包括2 1 4 5 0 版本和a p t e 给出的集合) 上取得最好 结果的文本分类算法之一。 n n 算法相当简单:给定一个待分类的测试文档,系统在训练集 中查找最相似的七个文档( 称为邻居) ,并根据这些邻居的类别所属情 况来给该文档的候选类别评分。可以把邻居文档和测试文档的相似度 作为邻居文档所在类的类权重。如果这七个邻居中的部分文档属于同 一个类,则该分类中的每个邻居的类权重之和作为该类别和测试文档 的相似度。 通过对候选类评分的排序,然后给出一个阈值,就可以判定测试 文档的类别。心m 中的决策规则可写作: y ( i ,c ,) 一一s 拥仃,互) y ( 峨,c ) 一q ( 2 _ 1 0 ) d p 讲“ 其中y ,) o ,1 ) 表示文档互是否属于分类c jo ,= 1 为是,y = o 为否) ;s 拥 ,z ) 表示测试文档蟊 口训练文档五的相似度;6 则是决 策的阈值。一般采用两个向量的夹角余弦作为两个文档的相似度。各 个分类的阈值6 ;则是通过训练集合的交叉检验( c r o s s - v a l i d a t i o n ) 获 北京交通大学碗i :学位论文 得,取训练集合的一部分训练6 ,其他部分作为测试。这些阈值使得 在交叉检验中得到最好的曩测度。 2 4 2 支持向量机 支持向量机( s u p p o r tv c d o rm a c h i n e ,简称s v m ) 是c o n e s 与 v a p n j k 于1 9 9 5 年首先提出的,在解决小样本、非线性及高维模式识 别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器 学习问题中。传统统计模式识别的方法都是在样本数目足够多的前提 下进行研究,所提出的各种方法只有在样本数趋于无穷大时其性能才 有理论上的保证,而在多数实际应用中,样本数目通常是有限的,很 多传统方法都难以取得理想的效果。v i a d i m i rn v a p n i k 等人早在2 0 世纪6 0 年代就开始研究有限样本情况下的机器学习问题,到9 0 年代, 有限样本情况下的机器学习理论研究逐渐成熟起来,形成了一个较完 善的理论体系一统计学习理论( s t a t i s t i c a lh a m i n g1 n h c o r y ) 。1 9 9 2 年 一1 9 9 5 年,在统计学习理论的基础上发展出了一种新的模式识别方法 一支持向量机1 2 1 】。 支持向量机是从线性可分情况下的最优分类面提出的。它在向量 空问中找到一个决策面( d e c i s i 咖s u r f a c e ) ,这个面能“最好”地分割 两个分类中的数据点。为了定义“最好”分割,我们引入两个分类的 分类间隔( m a 晒n ) 的定义:即两个决策面之间的距离。为简单起见, 我们只举了线性可分的例子,s v m 可以推广到高维空问。通过图2 1 和图2 2 予以说明。 文本分娄相关技术研究 。毛? 图2 1 一条具有较小分类问隔的决策线( 实线) f i g u f e2 - 1ad e d s i o nl i n e ( s o l i d ) w i t ha 锄a l k rm a 唱i n 图2 - ,具有最大分类间隔的决策线( 虚线上的数据点为支持向量) f i g u f e2 - 2t h ed e c j s i o n1 i n e ( s o l i d ) w i t l li h em a x i m a lm a 唱i n 图2 1 和图2 2 中的实线显示了两个可能的决策平面,每个面都 可以正确分割两组数据。与实线平行的虚线表示决策平面平移后得到 的平面,这种平移不会造成数据的分割错误。平行线间的距离称为分 类间隔。s v m 就是要在训练集中找到具有最大分类间隔的决策平面。 设线性可分样本集d = ( ”,暑) ) ,咒 1 ) 是对墨的分类( + 1 表 示它是个难例,1 为反例) ,f = 1 ,n ,线性判别函数的一般形式为 g o ) = 谛再一6 ,分类面方程为: 1 吼 北京交通大学硕十学位论文 面i 一6 = 0 ( 2 1 1 ) 将判别函数进行归一化,使两类所有样本都满足ig ( z ) k1 ,即使离 分类面最近的样本的l g o ) i 暑1 ,这样分类间隔就等于2 m i ,因此使间 隔最大等价于使0 叫i 最小;而要求分类线对于所有样本正确分类,就 是要求: 访嘎一6 + 1 斯 以2 + 1 谛嘎一6 s 一1 f 0 2 一l 因此,满足上述条件且使m i 最小的分类面就是最优分类面。 可以通过在s v m 中引入软分类间隔( s o f tm a r g i l l ) 或者将原来的数 据空间映射到更高维空间f 该空间中的新特征包含原空间中特征的交 互作用,该新空间中线性可分) 的方法将解决线性可分情况推广到解决 线性不可分的情况。如果用内积k 0 ,五) 代替艟优分类面中的点积,就 相当于把原特征空间变换到了某一新的特征空间。采用不同的内积函 数将导致不同的支持向量机算法,目前得到研究的内积函数形式主要 有三类,它们都与已有的方法有对应关系: ( 1 ) 采用多项式形式的内积函数,即 k o ,) 叫0 墨) + 1 r , ( 2 1 2 ) 此时得到的支持向量机是一个叮阶多项式分类器。 ( 2 ) 采用核函数型内积 m 小e x p 一呼h ( 2 _ 1 3 ) 义本分类相关技术研究 得到的支持向量机是一种径向錾
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 肿瘤专科护士门诊介绍
- 幼儿园毕业班教育教学
- 护理饼图的制作
- 职业技能面试
- 弱电设计年终工作总结
- 农机报废流程规范与实施
- 缩短句子的技巧与方法
- 湘教版高中必修一课程解读
- 幼儿园肺炎防控知识培训
- 直销业务培训
- 马拉松志愿者培训方案
- 近3年国网系统安全事故(事件)通报+各专业严重违章专项测试题附答案
- 肺孢子菌肺炎护理查房
- 2023年法律职业资格《主观题》真题及答案
- LY/T 3391-2024植物新品种特异性、一致性、稳定性测试指南紫荆属
- 柬埔寨高棉语学习
- 二年级下册期末无纸笔测评方案
- CJJ89-2012 城市道路照明工程施工及验收规程
- 娱乐场所突发事件应急处理
- 2023年新疆维吾尔自治区乌鲁木齐市天山区小升初数学试卷(内含答案解析)
- 20G520-1-2钢吊车梁(6m-9m)2020年合订本
评论
0/150
提交评论