(计算机软件与理论专业论文)面向领域的文本分类与挖掘关键技术研究.pdf_第1页
(计算机软件与理论专业论文)面向领域的文本分类与挖掘关键技术研究.pdf_第2页
(计算机软件与理论专业论文)面向领域的文本分类与挖掘关键技术研究.pdf_第3页
(计算机软件与理论专业论文)面向领域的文本分类与挖掘关键技术研究.pdf_第4页
(计算机软件与理论专业论文)面向领域的文本分类与挖掘关键技术研究.pdf_第5页
已阅读5页,还剩132页未读 继续免费阅读

(计算机软件与理论专业论文)面向领域的文本分类与挖掘关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

r 摹 分类号 u dc 密级 肿j rllfli i iii i iii i i f li #r y 1717 2 4 8 学位论文 面向领域的文本分类与挖掘关键技术研究 作者姓名:胡明涵 指导教师:于戈教授 东北大学信息科学与工程学院计算机软件研究所 申请学位级别:博士学科类别:工学 学科专业名称:计算机软件与理论 论文提交日期:2 0 0 9 年5 月2 0 日论文答辩日期:2 0 0 9 年6 月2 8 日 学位授予日期: 答辩委员会主席:彝菠酱 评阅人:多k 毛等王i 蜀仁 永jk 大学 2 0 0 9 年5 月 鼍 一 l 。 一 嚣 f f l ad i s s e r t a t i o nf o rt h ed e g r e eo fd o c t o ri n c o m p u t e rs o f t w a r ea n dt h e o r y s t u d i e so nk e y t e c h n i q u e so f t e x tc l a s s i f i c a t i o na n dm i n i n g f o rs p e c i f i cd o m a i n s b yh um i n g h a n s u p e r v i s o r :p r o f e s s o ry ug e n o r t h e a s t e r nu n i v e r s i t y m a y2 0 0 9 鼍0 p 瓢l 譬 举0 l 独创性l 声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 二也 思。 学位论文作者签名:稍1 柏冯 日期:加罗皇,l 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年口一年口 学位论文作者签名:书r i 响鸨 签字日期:为吁多、 i 一年半口两年口 导师签名:于戈 签字日期: 为听,妒、j p 瞻 p q 0 嚆 f f 一 东北大学博士学位论文摘要 面向领域的文本分类与挖掘关键技术研究 摘要 大量文本以电子形式存在,人们需要对大量的文本信息资源进行有效的组织和管理, 因此文本分类引起人们的高度重视。近年来,关于文本分类技术的研究取得了很大进展, 并被应用于众多领域。本文深入研究了文本分类与挖掘中的一些关键技术,同时在对政 府公文分类、文本观点极性分析以及专利挖掘任务进行深入分析的基础上,将文本分类 与挖掘技术应用到上述领域,提出了相应的解决方案,并通过大量实验证明了这些方案 的有效性。主要工作包括: ( 1 ) 特征独立性假设在文本处理领域被普遍应用,它虽然能大大简化文本计算,但 与实际情况不符。本文首次将独立分量分析技术应用到文本处理领域,进行面向文本分 类的独立特征抽取,并对其中遇到的由于数据稀疏和维数过高造成的收敛速度慢,稳定 性差的问题进行了解决;将独立分量分析技术与传统的特征选取方法相结合,在通用数 据集上进行了文本分类实验,实验结果验证了这种技术的优越性。 ( 2 ) 政府公文均带有主题词,而主题词携带了大量的类别信息。如何利用这些信息 帮助文本分类? 首先本文针对主题词不足的问题,根据b o o t s t r a p p i n g 学习框架构建了一 个主题词相关词的自动获取模型_ k w b 模型,用于对政府公文主题词集合的扩展;然 后运用随机关键词产生技术,将公文文本表示成主题词空间的条件概率,这样也同时实 现了文本特征空间的降维;将k w b 模型与随机关键词产生技术相结合进行了公文文本 分类实验,结果证明该方法能充分利用主题词的类别信息,提高分类性能。 ( 3 ) 针对主观句子判别正确率不高的问题,应用文本分类技术,提出了三类训练、 两类判别的分类框架。并在公开语料m p q a 上进行了实验,结果证明在语料中间接主 观句子极少的情况下,该框架也能有效提高主观句子判别的准确率。针对训练语料不足 以及对实体多方面的观点极性分析的需要,提出了一种基于弱指导学习的分析技术,实 现句子级的实体方面特征识别和实体多方面观点的极性分析。实验证明该方法取得了较 好的准确率。 ( 4 ) 通过深入分析n t c i r 7 中专利挖掘任务的训练数据及任务难点,提出k n n 分类 框架是完成此任务的很好选择;针对训练数据分布极端不均衡的问题,提出在r a n k i n g 决策时加惩罚因子的方法解决该问题;研究了多种相似度计算方法,并在此基础上提出、 改进了多种r a n k i n g 决策方法:如带有大类惩罚因子的w e a k 方法、n v o t e 方法等。为 东北大学博士学位论文 摘要 了提高系统性能,应用机器学习中的l o g 1 i n e a r 和r a n k s v m 模型提出了基于系统融合 的结果链表二次调序方法。该方法使系统性能得到了很大提升,在n t c i r - 7 的评测中 取得了第一名的好成绩。 总之,本文面向一些特殊领域,对文本分类中的特征抽取、分类器组合、小样本问 题以及样本不均衡等关键技术进行了深入的理论分析和大量的实验验证,提出了一系列 的解决方案,并以实验结果证明了这些方案的有效性。这些算法和模型对今后研究文本 分类以及其它文本处理问题将有很大的参考价值和借鉴作用。 关键词:文本分类;独立特征抽取;b o o t s t r a p p i n g ;空间转换;文本观点极性分析:专 利挖掘 i i i p f 东北大学博士学位论文 a b s t r a c t s t u d i e so nk e yt e c h n i q u e so ft e x tc l a s s i f i c a t i o na n dm i n i n gf o r s p e c i f i cd o m a i n s a b s t r a c t t h el a r g ea m o u n to f t e x ti n f o r m a t i o ni ss t o r e da n dp r e s e n t e di nt h ef o r mo f e l e c t r o n i ct e x t s ,a n d t h et e x ti n f o r m a t i o ni nl a r g eq u a n t i t yn e e d st ob eo r g a n i z e da n dm a n a g e de f f e c t i v e l ya n de f f i c i e n t l y t h e r e f o r e ,t h es t u d i e si nt h ef i e l do ft e x tc l a s s i f i c a t i o nh a v ec a u g h tm o r ea n dm o r ea t t e n t i o n , a n da l o to f m a j o rb r e a k t h r o u g h sh a v eb e e na c h i e v e dr e c e n t l y ,s o m eo fw h i c hh a v eb e e na p p l i e dt om a n y d i f f e r e n tf i e l d s t h i sd i s s e r t a t i o ni n v e s t i g a t e st h ek e y t e c h n i q u e so f t e x tc l a s s i f i c a t i o n , a n a l y z e st h e i s s u e si ng o v e m m e n td o c u m e n tc l a s s i f i c a t i o n , t e x ts e n t i m e n ta n a l y s i sa n d p a t e n tm i n i n g ,a p p l i e st h e t e x tc l a s s i f i c a t i o nt e c h n i q u e st ot h e s ef i e l d s ,a n dp r e s e n t st h ec o r r e s p o n d i n gp r o p o s a l s ,w h i c ha r e s u p p o r t e db yt h el a r g ea m o u n to f e x p e r i m e n t a ld a t a t h em a j o rw o r ki ss u m m a r i z e da sf o l l o w s ( 1 ) t h ea s s u m p t i o nt h a tt h ew o r d sa r em u t u a l l yi n d e p e n d e n to fe a c ho t h e rh a sb e e nw i d e l y a p p l i e di nt h ef i e l do ft e x tp r o c e s s i n g a l t h o u g hi tc a ng r e a t l ys i m p l i f yt h et e x tp r o c e s s i n g ,i td o e s n o tr e f l e c tt h et r u t hi nm o s to ft h ec a s e s t h i sd i s s e r t a t i o n , f o rt h ev e r yf i r s tt i m e ,a p p l i e st h e i n d e p e n d e n tc o m p o n e n ta n a l y s i s ( i c a ) t e c h n i q u e st ot h ef i e l do ft e x tc l a s s i f i c a t i o n , e x t r a c t st h e i n d e p e n d e n tf e a t u r e sf o rt e x tc l a s s i f i c a t i o na n dr e s o l v e st h es t a b i l i t ya n dl o wc o n v e r g i n gs p e e d i s s u e sc a u s e db yt h eh i g hd i m e n s i o no ft h ef e a t u r es p a c ea n dt h es p a r s ed a t ai nat e x t c o m b i n i n g t h ei c at e c h n i q u e sa n dt h et r a d i t i o n a lf e a t u r es e l e c t i o nm e t h o d sh a sl e a dt ot h es i g n i f i c a n t p e r f o r m a n c ei m p r o v e m e n tw h e na p p l i e dt ot e x tc l a s s i f i c a t i o n , a sd e m o n s t r a t e db yt h ee x p e r i m e n t a l r e s u l td a t a ( 2 ) m o s to ft h eg o v e r n m e n td o c u m e n t sh a v et h el i s t e dk e y w o r d s ,w h e r et h ek e y w o r d sc a r r y t h el a r g ea m o u n to ft h ec a t e g o r yi n f o r m a t i o nf o rt h et e x t , w h i c h , o fc o u r s e ,s h o u l db ef u l l yu t i l i z e d f o rt e x tc l a s s i f i c a t i o n t h i sd i s s e r t a t i o ne m p l o y st h es k gm o d e l ,p r e s e n t st h ed o c u m e n tt e x tw i t h t h ec o n d i t i o n a lp r o b a b i l i t yo ft h ek e yw o r ds p a c ea n d ,a sar e s u l t ,l o w e r st h ed i m e n s i o n a l i t yo ft h e t e x tf e a t u r es p a c e f o rt h ei s s u ei ns h o r to fk e yw o r d s ,t h i sd i s s e r t a t i o ne x t e n d st h ek e yw o r d ss e to f t h eg o v e r n m e n td o c u m e n t sb ye s t a b l i s h i n gam o d e l ,t h ek w bm o d e l ,t oa u t o m a t i c a l l ya c q u i r et h e r e l e v a n tw o r d so f k e yw o r d sa c c o r d i n gt ot h eb o o t s t r a p p i n gl e a r n i n gf l a m e t h ee x p e r i m e n t sh a v e s h o w nt h a tt h i sm e t h o dc a nf u l l yu t i l i z et h ec l a s s i f i c a t i o ni n f o r m a t i o nc a r r i e db yt h e s ek e yw o r d s a n di m p r o v et h ec l a s s i f i c a t i o np e r f o r m a n c e ,a sar e s u l t 东北大学博士学位论文 a b s t r a c t ( 3 ) t h ef r a m e w o r ku s i n gt h r e ek i n d so ft r a i n i n gd a t at ot r a i nc l a s s i f i e ra l ep r o p o s e dt op u b l i c i m p r o v et h ea c c u r a c yo fs u b j e c t i v es e n t e n c ec l a s s i f i c a t i o n t h ee x p e r i m e n t sp e r f o r m e do nt h e p u b l i cm p q ac o r p u sh a v es h o w nt h a tt h i sf r a m e w o r kc a l le f f e c t i v e l yi m p r o v et h ea c c u r a c yo f s u b j e c t i v es e n t e n c ej u d g m e n t , e v e ni nt h e c a s e sw h e r et h e r ea r ev e r yf e wi n d i r e c ts u b j e c t i v e s e n t e n c e si nt h ec o r p u s f u r t h e r m o r e ,o n ea n a l y s i st e c h n i q u eb a s e do nt h ew e a k l ys u p e r v i s e d l e a r n i n gi sp r o p o s e dt oa d d r e s st h ei s s u eo fi n s u f f i c i e n tt r a i n i n gd a t aa n dt h ei s s u ei nm u l t i - e n t i t y s e n t i m e n ta n a l y s i s ,a n dt or e a l i t 琵t h ee n t i t yf e a t u r ei d e n t i f i c a t i o na ta n dm u l t i e n t i t yp o l a r i t ya n a l y s i s a tt h es e n t e n c el e v e l t h ee x p e r i m e n t sh a v es h o w nt h a tt h ea c c u r a c yi sq u i t ea c c e p t a b l e ( 4 ) t h ek n nc l a s s i f i e ri sc o n c l u d e d t ob eb e t t e rf o rp a t e n tm i n i n gt a s k sa f t e rt h et r a i n i n gd a t a o fp a t e n tm i n i n gi nn t c i r - 7a n dk e yi s s u e sh a v eb e e ni n t e n s i v e l ys t u d i e d t h ep e n a l t yf a c t o r a d d e di nr a n k i n gm e t h o di sp r o p o s e dt od e a lw i t ht h ee x t r e m e l yi m b a l a n c e ds a m p l e sd i s t r i b u t i o n i s s u e m a n ys i m i l a r i t yc a l c u l a t i o nm e t h o d sh a v eb e e ns t u d i e d , a n ds o m er a n k i n gd e c i s i o n - m a k i n g m e t h o d ss u c ha sw e a k , n v o t e ,w e a k a v e r , a r ep r o p o s e do ri m p r o v e d t h es y s t e mp 础o m m c eh a s b e e ng r e a t l yi m p r o v e dw h e nt h el o g l i n e a ra n dr a n k - s v mm o d e l si nm a c h i n el e a r n i n ga r ea p p f i e d t of u s eaf e ws y s t e m st og e tt h el a s tr e s u l t sl i s t t h es y s t e mp e r f o r m a n c er a n k sn o 1i nn t c i r - 7 e v a l u a t i o nt e s t i n g i ns u m m a r y ,t h i sd i s s e r t a t i o np r e s e n t sas e r i a lo fn e wt e x tc l a s s i f i c a t i o nm e t h o d s ,w h i c ha r e s u p p o r t e db yt h ee x p e r i m e n tr e s u l t s ,b yh a v i n gd o n et h ei n t e n s i v et h e o r e t i c a la n a l y s i sa n d p e r f o r m e dt h el a r g eq u a n t i t yo fe x p e r i m e n t sf o rt h ek e yi s s u e si nt e x tc l a s s i f i c a t i o ns u c ha sf e a t u r e e x t r a c t i o n ,c l a s s i f i e rf u s i o n , a n di m b a l a n c ed i s t r i b u t e ds a m p l e s t h ea l g o r i t h m sa n dm o d e l s p r e s e n t e di nt h i sd i s s e r t a t i o nw i l lb ev a l u a b l ef o rf u t u r es t u d i e si n t e x tc l a s s i f i c a t i o na n do t h e rf i e l d s i nt e x tp r o c e s s i n g k e yw o r d s :t e x tc l a s s i f i c a t i o n ;i n d e p e n d e n tf e a t u r ee x t r a c t i o n ;b o o t s t r a p p i n g ;t e x tf e a t u r e s p a c ec o n v e r s i o n ;e n t i t i e si d e n t i f i c a t i o na n dp o l a r i t ya n a l y s i s ;p a t e n tm i n i n g v p 一 i 东北大学博士学位论文目录 目录 独创性声明i 摘要i i a b s t r a c t i v 第1 章绪论1 1 1 研究背景1 1 2 文本分类定义3 1 3 文本分类的历史3 1 4 文本分类的研究现状4 1 4 1 特征选择与抽取一5 1 4 2 分类器组合6 1 4 3 小样本问题7 1 4 4 层次文本分类7 1 4 5 样本不均衡问题8 1 5 本文的主要研究内容与组织结构8 第2 章文本分类方法概述1 1 2 1 文本表示的表示与计算1 1 2 1 1 文本表示的向量空间模型1 1 2 1 2 文本特征项1 2 2 1 3 文本特征的权重计算1 3 2 2 分类器15 2 2 1k n n 分类器15 2 2 2 朴素贝叶斯分类器16 2 2 3 最大熵分类器1 7 2 2 4s v m 分类器1 7 2 3 文本分类评价体系19 第3 章文本的独立特征抽取方法2 l 3 1 问题的提出2 1 3 2 独立性定义2 3 3 3 独立分量分析原理2 3 v i 东北大学博士学位论文 目录 3 3 1i c a 的前提假设2 3 3 3 2i c a 的定义2 4 3 4i c a 问题求解2 4 3 4 1 独立分量分析的目标函数2 5 3 4 2f a s t l c a 算法2 7 3 5 基于i c a 技术的文本分类实验3 0 3 5 1 传统的特征选取方法3 l 3 5 2i c a 与传统特征选择方法相结合的文本分类算法3 3 3 5 3 实验语料3 3 3 5 4 评价指标3 3 3 5 5 实验3 4 3 6 爿、结4 0 第4 章面向政府公文的文本分类技术4 1 4 1 问题的提出4 1 4 1 1 公文主题词4 2 4 1 2 语料4 3 4 2 政府公文主题词的扩充4 3 4 2 1b o o t s t r a p p i n g 方法4 3 4 2 2 政府公文主题词空间扩展4 4 4 2 3 公文主题词扩展实验4 6 4 3 随机关键词产生技术4 8 4 3 1 随机关键词产生技术模型4 8 4 3 2 条件概率的计算4 9 4 3 3s k g 模型在文本分类中的应用5 0 4 4 基于k w b 模型与s k g 模型相结合的公文分类5 0 4 4 1 基于k w b 模型与s k g 模型相结合的公文分类5 0 4 4 2 政府公文分类实验5 2 4 5 j 、结5 4 第5 章基于弱指导学习的实体特征识别和极性分析技术_ 5 7 5 1 问题的提出5 7 5 2 文本句子的主客观分析5 9 5 2 1 两类训练、两类判别框架6 0 v i i 东北大学博士学位论文 目 录 5 2 2 三类训练、两类判别框架6 0 5 2 3 实验6 l 5 3 基于弱指导学习的实体特征识别和极性分析6 5 5 3 1 实体特征相关词汇的获取6 6 5 3 2 实验6 9 5 4 小结7 2 第6 章面向专利挖掘的文本分类技术7 3 6 1 问题的提出7 3 6 2 相关背景7 4 6 3 任务描述及任务分析7 6 6 3 1 任务基本描述7 6 6 3 2 任务使用数据7 6 6 3 3 任务评价方式7 9 6 3 4 任务的难点分析8 0 6 3 5 实验数据与实验评价8 2 6 4 基于k n n 模型的非专利文档i p c 类别标记技术8 3 6 4 1 文本相似度计算8 4 6 4 2r a n k i n g 调序算法8 8 6 5 基于系统融合的r e r a n k i n g 技术9 l 6 5 1 系统融合方法9 1 6 5 2n t c i r - 7 最终评测结果9 9 6 6d 、结9 9 第7 章总结10 1 7 1 本文的主要贡献与结论1 0 1 7 2 进一步的工作10 2 参考文献。1 0 5 致 射1 15 攻博期间发表的论文1 1 7 攻博期间参与的项目1 1 9 作者简介121 东北大学博主堂堡垒查 璺垂 _ _ _ _ _ _ _ - - _ - - _ - _ _ _ _ _ i _ _ _ _ _ _ - _ _ _ - _ _ - _ _ _ _ _ _ - _ _ _ _ - _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ 一一。 一 p 一, 东北大学博士学位论文第1 章绪论 1 1 研究背景 第1 章绪论 由于近二十年来科技领域硕果累累,相应载体迅速增加,加上信息自身原本难以耗 竭,输入速率过快,形式又非常复杂,所以二十一世纪是一个信息爆炸的时代。全世界 每年出版图书8 0 万种,期刊4 0 万种,其他文献信息资料4 0 0 万种;发表科学论文 大约5 0 0 万篇,平均每天1 4 0 0 0 篇左右,每3 5 秒就有1 篇论文发表,不到1 分钟 就有1 本新书问世,每小时出现近2 0 项技术发明,每天约有4 0 亿个信息单位的信 息量向全世界发送。因特网上的信息量也呈现出爆炸式的增长态势,加利福尼亚大学伯 克利分校的一项研究结果表吲,信息生产量以平均每年3 0 左右的速度递增。对于一 个现代人来说,信息的世界宛若浩瀚无边的海洋,它深不可测,你最多也只能偶尔下去 游一会儿。 随着互联网的飞速发展,信息传播的越来越快,信息量也越来越大。信息渠道功能 成为互联网最基本的功能。据2 0 0 7 年6 月中国互联网络信息中心第2 0 次调查结果显示 【2 】:中国网民人数已经达到1 6 2 亿,其中3 4 ( 7 6 3 ) 的网民的主要信息渠道是互联网, 互联网位居网民信息来源的第一位。很多网民已经有了思维定势,他们认定互联网是当 今最新最快的信息渠道,是获得信息的首选渠道。 各种各样的信息如海水一般包围着人们,人们成了信息海洋中的孤岛! 面对如此浩 渺的互连网海洋,人们一方面感觉自己淹没在信息的海洋里,但另一方面又发现得不到 最急需的信息,当人们的信息需求得不到满足时,就会产生饥渴感,这就是信息稀缺,也 就是常说的客观上信息爆炸,主观上信息稀缺。因此人们迫切需要一种高效快速准确的 技术来组织与管理这些海量信息。其中一个直接而成功的范例就是根据信息的主题对信 息进行分i - j 另o 类的管理。 鉴于因特网上的大部分信息都以文本的形式存在。因此,文本信息的分类就显得更 加迫切、更加与人们的工作与生活密切相关。到目前,文本分类的技术已经取得了长足 的发展,被应用到包括网络非法信息的检测与过滤、邮件分类、主题检测与追踪、信息 检索等等众多的领域。但是其中还有许多的问题没有得到很好的解决,目前,对文本分 类研究的热点主要集中于以下几个方面:特征选择与抽取、分类器组合、小样本问题、 层次分类器、样本不均衡问题等。本文针对其中的一些问题,选择几个有代表性的领域 东北大学博士学位论文第1 章绪论 进行研究,取得了初步成果。 首先,我们研究了独立特征的抽取问题。特征独立性假设,即假设特征之间是相互 独立的。该假设在文本处理领域被普遍应用,它虽然能大大简化文本计算,但与实际情 况不符。如何解决这个问题? 本文首次将独立分量分析技术应用到文本处理领域,进行 面向文本分类的独立特征抽取,并对其中遇到的由于数据稀疏和维数过高造成的收敛速 度慢,稳定性差的问题进行了解决,实验结果验证了这种技术的优越性。 其次,我们研究了如何利用文本的附加信息来提高分类精度的问题。有些文本比如 科技论文、政府公文等均具有特殊的结构,即带有关键词、摘要等附加信息,而这些附 加信息中携带大量的类别信息,如何利用这些信息帮助文本分类? 本文选择政府公文文 本来研究这个问题,运用随机关键词产生技术,将公文文本表示成主题词空间的条件概 率,这样也同时实现了文本特征空间的降维;针对主题词不足的问题,本文根据 b o o t s t r a p p i n g 学习框架构建了一个主题词相关词的自动获取模型- k w b 模型,用于对 政府公文主题词集合的扩展;实验证明,该方法能充分利用主题词的类别信息,提高分 类性能。 再次,我们研究了文本观点分析领域的小样本问题。使用监督学习算法的一个主要 困难是它们需要大量有标记的训练样本来学习。然而在实际工作中,获得加标签的训练 样本常常需要花费较大的人力物力。因此,分类器所能得到的有标签的训练样本往往很 有限。但大量的无标签样本是容易获得的,如何利用这些无标签样本是文本处理的一个 难点。文本观点分析是文本处理领域中新近发展起来的一个分支,有标签的训练语料严 重不足,但网上存在着大量的主观文本。针对这个问题,本文提出了一种基于弱指导学 习的分析技术,实现句子级的实体特征识别和多实体观点极性分析。实验证明该方法取 得了较好的准确率。 最后,类别数量巨大、样本分布不均衡是文本分类领域中难以处理的棘手任务,而 专利挖掘正是这样的任务。专利挖掘任务是要把相关的科技论文标注上专利的i p c 类别 编码,而专利的类别多达3 万多个,并且样本分布极不均衡。本文针对专利挖掘任务, 详细研究了样本分布不均衡问题的处理以及分类器融合技术,使系统性能得到很大提 l 葡。 总之,每个领域都有其各自的特点,如何依据这些特点更好地应用文本分类技术, 提高分类器效能,是我们研究的重点。 - 2 - l 东北大学博士学位论文第1 章绪论 1 2 文本分类定义 文本分类就是在给定分类体系以后,根据文本内容自动确定文本所关联的类别。其 形式化定义如下: 对于给定的每一个数据对 d c 赋予一个布尔值,其中d 为文本集合,c 为预定义的类别集合c = c i , c 2 ,铂) 。如果对数据对 赋值为真,表示判定文本d , 属于类别c ,;如果赋值为假,则表示判定文本d ,不属于类别q 。文本分类的任务就是设 计一个分类器,即找一个最佳映射函数:d c 专 t ,f ) ,使得对每一个数据对 d c 都能通过分类器赋予一个正确的布尔值。这样的矽描述的是一个理想的 分类函数。 1 3 文本分类的历史 文本分类的研究可追溯到上世纪5 0 年代末,其发展过程大致可以分为三个阶段: 第一阶段是2 0 世纪6 0 年代初,在这一时期,主要将文本分类应用于信息检索,提 出了很多经典文本分类的数学模型,如s a l t o n 提出并将其应用于信息检索中的文本表达 的向量空模型【5 】o 值得一提的是1 9 6 1 年m a r o n 发表了有关自动分类的第一篇论文【3 】【4 】, 他开创性地采用了贝叶斯公式来进行文本分类。他采用一组标引词来代表一篇文档,然 后统计每个标引词在每个类别下的概率。然后计算该组标引词同每个类别的后验概率。 挑选后验概率最大的类别作为该篇文档的类别。为了简化后验概率的计算,m a r o n 率先 给出了特征独立性假设与类别排它性假设。特征独立性假设也称为“贝叶斯假设”,就 是假设词与词之间是相互统计独立的。该假设后来被广泛应用于文本处理中来简化文本 的计算,但显然该假设是不成立的。 第二阶段是上世纪6 0 年代到8 0 年代,这一阶段的主要特点是采用传统的知识工 程技术,根据专家提供的知识形成规则,手工建立分类器。这就需要大量的领域专家和 知识工程师的参与。这样会带来两个方面的困难,首先会耗费大量的研发经费;其次难 以保证知识与规则的正确性与一致性。但是这段时期内也涌现了一批性能不错的分类系 统,如路透社使用的c o n s t r u e 系统【6 】。它能够自动地对路透社每天的成千上万篇稿件 进行分类。 第三阶段是上世纪9 0 年代以后,在这一时期,文本分类的主要特点是采用统计机 器学习的方法,自动建立分类器,学习和分类过程来自于机器对训练文本的自主学习,从 而不需要领域专家的支持,不需要人工干预,而分类效率和准确率也得到提高。 - 3 - 东北大学博士学位论文第1 章绪论 几乎所有重要的机器学习算法都被应用到该任务中,比如最近邻算法( k n n ) 1 6 7 1 、 贝叶斯8 】【9 】、决策树1 0 】【l l 】【1 2 】、神经元网络【1 3 】、r o c c h i o 1 4 1 、最大熵模型【1 5 】、l l s f t l 矾、最 小二乘拟和回归模型17 1 、支持向量机【1 8 】【1 1 5 1 等等。其中k n n 分类器的分类质量表现较 为出色。该方法的计算时间和训练文档集合的文档数目成线性关系,而且分类效果很好, 是最有效的文本分类器之一【1 9 】【2 4 1 。支持向量机( s v m ) 训练的理论基础是解一个二次 规划( q p ) 问题,得到的是全局最优解,这使得它有着其它统计学习技术难以比拟的优 越性,是最好的分类器之一。其缺点是核函数的选择缺乏指导,难以针对具体问题选择 最佳的核函数;另外s v m 的训练速度极大地受到训练集规模的影响,计算开销比较大 1 2 1 1 o 目前对文本分类的研究基本上都是基于机器学习的方法【2 2 】【2 3 】【2 0 1 1 2 5 1 2 7 1 。 构建基于机器学习的文本分类系统的过程大致分为三部分:第一部分是文本表示; 第二部分是分类器的训练过程,通过对训练数据进行处理得到分类器;第三部分是分类 器测试阶段,将处理过的测试文本输入给分类器,分类器就会给出该文本的类别。 ( 1 ) 文本表示阶段:包括文本预处理、特征降维、权重计算。文本预处理主要是进 行去禁用词、词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论