




已阅读5页,还剩112页未读, 继续免费阅读
(计算机软件与理论专业论文)文本挖掘若干关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 祷要 砥魁法如烟海的电予信息,如蜒程助人们有效媳收集积逸撵感兴趣的籀愚, 妇俺帮韵鼹户京目盏增多静售怠中发襞潜在有蠲静知滚己成为信惑技术领城豹 燕点简鼷。数据挖掘就怒为解决邈问题而产生的研究领域。囱9 0 年代产生以 来,对数据挖掘的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚 类分橱、趋势分析等多个方恧。由予现实生活中终大部分信息爨源是以非续糖他 数据静形式存在,露数据挖掘粼謦遮嚣结梅化数据船关系数攒簿中韵数摇为对 象,因诧对非结构亿信意进行挖掘成为继数据挖滴之后出现的又课题。 在常见的菲结构化数据如文本、图像、视频中,文本数据是应用最为广泛的 一釉形式,常用予数字图书键、产燕嚣秉、溉阉鳃、医学掇告、缀织及令人主页。 在自然语畜理髂、文本爨凌攘要、信怠提取、信惑过滤、信怠检索等镬域,文本 挖掘技术都肖着广泛浆敷角,灏谣院数据挖掘疑有受高的商娥价值。 奉交潋文本数据为磷究对象,对文本挖掘的蓑于关键披术进行研究,主要包 括文本特征提取和特授逸择、文本关联分掇、文本关联分类,并提爨受有效熬文 本挖掘算法。本文的磺究工炸和剑耱内缛包括以下凡个方瑟: ( 1 ) 剩焉浸,l 、词频阙值韵文档颓特征评估函数减少噤声特征的比铡,提离文 本分类的质鬟。 目前,文本特醒选择簧遍采用特铤评健涵数的方法,鍪秘评悠函数摄掇冀 使用魄是词频逐楚文挡频霄黪不圈。我们针对噪势特程藤调频普遍较低静 特点,提逛剥照最小谢频溺德翁文档频方法进行特征选择。分巍对互信息、 信慰蹭益、z 统计三种特征评估函数采粥该方法进行实验,结果表明最小 词频阈值有效地减少特征集中噪声特征历占的比倒,并且发现睫蘑阕馕的 提离不圃评热函数褥戮的特髹集魏予一致。 ( 2 ) 针对文本关联分析中难以确定最小支持度阕镶的问题,提出n 个疑频繁 项集挖獭算法。 在文本关联分板中,频繁顼熊挖掇是重要鹃环节,值程频繁顼集挖撼过程 中,霜户难黻定义合适静最小支持度闺镇逸一问题始终存在。本文提出基 于最小支持液闽值动态调整篇略的n 个竣频繁项集挖撼算法,算法邋过 指定需要产生的频繁项集的数量n 寒控捌频繁瑷集螅援模。挖掘过程中, 不叛投据已鸯缝暴调离最小支持痰蓠僮,献丽达到降低筏索空间、羧蛰挖 掘襁麓的蟊的。裰裙这策略分别提出类a p r i o r i 算法和纂予例排艇降的 i n w m a t r i x 算法挖掘前n 个频繁项集。 第1 受 攮要 ( 3 ) 通过考虑文档中特征重复出现的次数改迸文本关联分类的性能。 针对现有关联分类方法只考虑特征词在文稻中出现与否,忽略出现次数 这一文本鬟要信怠,本文提出基于带词频的频繁颁集中文文本分类算 法。特剩圭氇,针对现有频繁项集挖掘算法a p r i o r i 或f p g r o w t h 只产生 不带词频静频繁矮集,本文提穗带漏频的频繁顼鬃挖掘算法。研究结莱 表甥,词频懿鞋入可戬提离关联分类懿准礁率。_ 魄终,为解决一般关联 分类算法剥罴攫则修剪提蔫分类效率易导致分类袋量下降瓣阉题,提滋 基予分类嫂则撼熬覆盏攫刘搜索及分类算法。疆究结粜表明,剽焉分类 援则楗分类可以提高分类效率龆不降 氛分类矮量。 h ) 提感基于搬则姬毅和梯本如权薅秘皂适应搬掇方法改善文本关联分类 的稳定性。 在研究文本关联分类的过穰中发现,样本袋的质量葶鞋其特惩的分蠢对分 类结果影响很大,即使是嘲一秘分类算法,在不同的梯本嶷上使用,分 类效果也可能明显不同。特剐是在i i 练样本的特征分布不均时,关联分 类的准确率明照降低。本文提出两籼自适应加权算法解决这一问题: 一种是通过规则自适应加权的方法( w a r c ) 调蕤规则强弱不均的憾 况。提出分类规则强度的概念,并给出有效的分类规则强度计算公式和 规则调蕤因子计算公式。经过调整因子调整后的规则强弱趋于均匀,分 类质量明显改善; 另外一种是通过样本权重自适应调整的方法( s w a r c ) 直接调整训练 样本及特征词分布不均的情况,从根本上改善 l l 练样本集的质魑,从而 达到提高分类质量的目的。 关键词:文本挖掘,特征选择,关联分析,文本关联分类,规则加权,榉本加权 中圈分类号:t p 3 1 1 絷i i 炎 a b s t r a c t a 器s t r a c t w i t ht h er a p i dd e v e l o p m e n ta n ds p r e a do fi n t e r a c t ,e l e c t r o n i ci n f o r m a t i o ng r e a t l y i n c r e a s e s i tb e c o m eah o t s p o tf o ri n f o r m a t i o ns c i e n c ea n dt e c h n o l o g yt h a th o wt o c o l l e c ta n df i n dt h ei n t e r e s t e di n f o r m a t i o no fu s e r , a n dd i s c o v e r yl a t e n t ,u s e f u l k n o w l e d g eq u i c k l y , e x a c t l ya n df u l l y d a t am i n i n gt e c h n o l o g yi sa n e wr e s e a r c hf i e l d s t os o l v et h ep r o b l e m ,s i n c e9 0 st h ec o n c e p to fd mw a sp r o d u c e d ,t h er e s e a r c h e so i l d mh a v eb e e nv e r yd e e p ,a n di n v o l v e da s s o c i a t i o na n a l y s i s ,c a t e g o r i z a t i o na n a l y s i s , c l u s t e ra n a l y s i s 。t r e n da n a l y s i sa n ds oo n 。s t r u c t u r a ld a t as u c ha sr e l a t i o n a ld a t a b a s ei s m a i nr e s e a r c ho b j e c tf o rd m 。b mam a j o r i t yo fi n f o r m a t i o ne x i s t sw i t ht h ef o r mo f u n s t r u c t u r e dd a t ai nr e a l i z a t i o n ;s o m ed a t u ms h o wt h eu n s t r u c t u r e dd a t at a k e8 0 o f e x i s t i n gi n f o r m a t i o ns o u r c e s ,s om i n i n gt h eu n s t r u c t u r e di n f o r m a t i o ns u c c e e d sd m a s an e w c h a l l e n g e t e x td a t ai sak i n do fi n f o r m a t i o nf o r mu s e dm o s ts p r e a d a m o n gc o l o f f n o n u n s t r u c t u r e dd a t as u c ha st e x t ,i m a g e ,a n dv i d e oa n ds oo n i ti so f t e nu s e di nd i g i t a l l i b r a r y , p m d u c tc a t a l o g ,n e w sg r o u p ,m e d i c i n er e p o r t ,o r g a n i z a t i o n o ri n d i v i d u a l h o m e p a g e s ,a n di sa l s oa p p l i e db r o a d l yt on a t u r a ll a n g u a g eu n d e r s t a n d , t e x t s u m m a r i z e 。i n f o r m a t i o ne x t r a c t , i n f o r m a t i o nf i l t e r , i n f o r m a t i o nr e t r i e v a le t c 蠡e l 黯s | 。 i t sv a l u eo f b u s i n e s si sh i g h e rt h a nd m r e s e a r c ho nt h ek e yt e c h n i q u e so ft e x tm i n i n gi sd o n ei nt h ep a p e r , i n c l u d i n gt e x t f e a t u r ee x t r a c ta n df e a t u r es e l e c t ,t e x ta s s o c i a t i o na n a l y s i s ,t e x ta s s o c i a t i o n c l a s s i f i c a t i o n 。s e v e r a lm e t h o d sa n dt e c h n i q u e sa r ep r e s e n t e df r o ma s p e c t so f i m p r o v i n gt h es p e e d ,p r e c i s i o na n ds t a b i l i t y o u rp r i m a r yw o r k sa r ea sf o l l o w , ( 1 ) t h ep a p e rp r e s e mf e a t u r ee v a l u a t i n gf u n c t i o nb a s e dd o c u m e n tf r e q u e n c yw i t l l m i n i m u mt e r mf r e q u e n c yt h r e s h o l dt or e d u c et h ep r o p o r t i o no fn o i s ef e a t u r e sa n d i m p r o v i n gt h eq u a l i t yo f t e x tc a t e g o r i z a t i o n a tp r e s e n t ,t h ef e a t u r ee v a l u a t i n gf u n c t i o n sa r em a i nm e t h o d st os e l e c tt e x tf e a t u r e f o rt e x tc a t e g o r i z a t i o n t h e s ee v a l u a t i n gf u n c t i o n sa r ed i f f e r e n tb e c a u s es o m eo f t h e m u s et e r mf r e q u e n c ya n do t h e r su s ed o c u m e n tf r e q u e n c y f e a t u r ee v a l u a t i n gf i m c t i o n b a s e dd o c u m e n tf r e q u e n c yw i t hm i n i m m nt e r mf r e q u e n c yt h r e s h o l di sp r e s e n ti nt h e p a p e r t h er e s u l to fe x p e r i m e n ts h o w sm u t u a li n f o r m a t i o n ,i n f o r m a t i o ni n c r e a s eo r # s t a t i s t i cw i t hm i m n l t l l nt e r mf r e q u e n c yt h r e s h o l d si sm o r ee f f e c t i v et h a nw i t h d o c u m e n tf r e q u e n c y ( 2 ) r e s e a r c ho nm i n i n gt h et o pnm o s tf r e q u e n ti t e ms e t si nt e x tc o l l e c t i o n t h ef r e q u e mi t e ms e tm i n i n gi si m p o r t a n ts t e pi nt e x ta s s o c i a t i o na n a l y s i s ,b u ti ti s v e r yd i f f i c u l tt oe n s u r ef i tm i n i m u ms u p p o r tt h r e s h o l d 。t h ep a p e rp r e s e n tas t r a t e g y 辩 l l 爰 f o rm i n i n g 也et o pnm o s tf r e q u e n ti t e ms e t s ,i ta d j u s tt h em i n i m u ms u p p o r ta c c o r d i n g t oe x i s t i n gr e s u l td u r i n gi t e r a t i v em i n i n gc u r r e n tt o pn m o s tf r e q u e n ti t e ms e t ss o n e e d n ta p p o i n tam i n i m u ms u p p o r t ,t h ep a p e ri n t r o d u c e sn a p r i o r ia l g o r i t h m sa n d i n t v m a t r i xa l g o r i t h m sb a s e do nt h es t r a t e g y ( 3 ) u s i n gt h et e r mf r e q u e n c yt oi m p r o v et h ep e r f o r m a n c e o ft e x ta s s o c i a t i o n c l a s s i f i c a t i o n d i f f e r e n tf r o me x i s t i n gr e s e a r c ho nt e x ta s s o c i a t i o nc l a s s i f i c a t i o no n l yc o n s i d e r i n g t h ea p p e a r i n go rr i oo ff e a t u r e si nd o c u m e n t sa n di g n o r i n gt e r mf r e q u e n c yi n f o r m a t i o n , t h et e x ta s s o c i a t i o nc a t e g o r i z a t i o na l g o r i t h mb a s e do nc r - t r e ea n df r e q u e n ti t e m s e t w i t ht e r mf r e q u e n c yi sp r o d u c e di nt h ep a p e rc a r lo b t a i nb e t t e rc l a s s i f i c a t i o nq u a l i t y a n db o o s tt h ee f f i c i e n c y ( 4 ) i m p r o v i n gt h ea s s o c i a t i o nc l a s s i f i c a t i o ns t a b i l i t yb yw e i g h i n gm e t h o d t e x ta s s o c i a t i o nc l a s s i f i c a t i o ni sak i n du n s t a b l ec l a s s i f i c a t i o na p p r o a c h , b e c a u s e t h ec a t e g o r i z a t i o nr e s u l ti sa f f e c t e do b v i o u s l yb yd i s t r i b u t i o na n dq u a l i t yo ft h e f e a t u r e si ns a m p l es e t e s p e c i a l l yt h ea c c u r a c yw i l l 出o pr a p i d l yw h e nt h ed i s t r i b u t i o n o ff e a t u r e si nt r a i n i n gs e ti su n e v e n ,t h ep a p e rr e s o l v e se f f e c t i v e l yt h ep r o b l e mb y u s i n gt h es e l f - a d a p t i v ew e i g h t i n gt e c h n i q u e ;c o n c r e t e l y , t h ef o l l o w i n gt w oa p p r o a c h e s a r ei n c l u d e d : o n ei sa d j u s t si n t e n s i t yo fr u l e su s i n gr u l ew e i 曲i n gm e a n s ( w a r c ) t h ef i r s t i n t r o d u c e st h ei n t e n s i t yo fc l a s s i f i c a t i o nr u l e ,g i v ee f f e c t i v e l yc o m p u t i n gf o r m u l ao f r u l e si n t e n s i t ya n dr u l ea d j u s t h a gf a c t o r t h 。r u l e si n t e n s i t yt r e n de q u a l i t ya n dq u a l i t y o f a s s o c i a t i o nc l a s s i f i c a t i o ni si m p r o v e de v i d e n t l ya f t e rr u l e sb e i n gw e i g h e d t h eo t h e ri sa d j u s t sd i r e c t l yt h ew e i g ho ft r a i n i n gs a m p l e s ( s w a r c ) w h e nt h e s a m p l eo rf e a t u r e sd i s t r i b u t i o ni su n e v e n t h em e t h o dc a ni m p r o v er a d i c a l l yt h e q u a l i t yo f t r a i n i n gs e ta n dr e a c hp u r p o s eo f b o o s t i n gc l a s s i f i c a t i o np e r f o r m a n c e 。 k e yw o r d s :t e x tm i n i n g ,f e a t u r es e l e c t i o n ,t e x ta s s o c i a t i o na n a l y s i s ,t e x t a s s o c i a t i o nc a t e g o r i z a t i o n ,r u l ei n t e n s i t y , b o o s t i n gt e c h n i q u e 第贾 目录 图表目录 圈l 。l 文本挖掘视为文本知识发现的一个步骤一3 图1 , 2 文本预处理的一般过程3 强1 3 文本特薤抽取豹一般进程4 图1 ,4 基于i e 的文本挖掘系统框架1 1 醋2 1 分离麓平面1 9 图2 2 保持法2 0 圉2 3k - 折交叉验证2 t 图3 。1 文本嶷的毒尔矩蓐2 6 圈3 2 文本巢的词频矩阵2 6 蛩3 3 用于文本势类戆特镀选择3 0 图3 4 新闻嘲页常见的四种结构倍息3 6 圈4 1 频繁顼集挖摭算法分类4 3 图4 2 全局f p - t r e e 的构造4 6 国4 3 频繁项i 的条件f p - t r e e 4 7 幽4 。4 项i 粒项h 鹩条 牛f p - t r e e 及生成的频繁项集4 8 图4 5 项i 的c o f i 树5 6 鹭4 6 壤i - c o f i 樾翡挖撼过程5 7 图4 7 挖掘项i - c o f i 树腊,其它各项的c o f i 树挖掘过程5 9 图4 8 n a p r i o r i 算法与i n t v m a t r i x 算法e e 较 图5 t 文本关联分类模型一6 3 图5 2 全局关联分类6 4 圈5 3 局郝关联分类6 4 图5 4 分类规则树7 7 国5 5 a 最大词频溺值交纯瓣t r a r c 静徽平垮羁僵静影响8 l 图5 5 b 最火词频闽值变化对t r a r c 训练时间的影响8 1 图5 5 c 最大词频阀值变化对t i l r c 分类时间的影响s 2 图5 6 a 支持度闽德变化对t r a r c 的微平均足值的影响8 2 图5 ,6 b 支持度闽值变化对t r a r c 训练时间的影响8 2 鹫5 6 c 支褥度糍蘧变纯辩t r a r c 努类瓣翔麴澎璃一8 2 图6 1w a r c 算法的主器步骤8 9 图6 2w a r c 算法封闭潮试酶徽平均套全率9 0 图6 3w a r c 算法封闭测试的微平均查准率9 0 图6 4w a r c 算法开放测试的徽平均查全率9 l 图6 ,5w a r c 算法开放测试的微乎均查准率,9 l 第页 基录 图6 , 6s w a r c 算法主要步骤9 2 图6 7s w a r c 算法幅度因子与权蘑系数的关系9 7 囤6 8s w a r c 算法封闭测试的微平均蠢全率9 7 图6 9s w a r c 算法封闭测试的徽平均资准率9 8 萄6 1 0s w a r c 算法开放测试盼徽平均查全率9 8 圈6 i ls w a r c 葬法开放测试静檄平均查准率9 8 袭1 1 文本关联规划示例7 表1 + 2 自然语言处理与文本挖摄的区别,l o 表2 1混淆矩障2 2 表2 2c 类简单混淆矩阵2 3 表3 1 简要记号。,3 2 表3 2 不同评估函数产生的特征集规模( 单位:个词) 3 6 表3 , 3 分别闱f d f ,f d f 4 和# d w 三种评估函数得到类的特征词表3 7 表4 1 项i 的条件模式基4 7 表4 2 频繁词项集。4 9 表4 , 3 文档臻务数据库及倒排袭5 3 表4 4 ( a ) 排序后的文档事务数据库5 4 表4 5 颈x 的c o f i 树挖掘函数s 6 表4 , 6 基于倒排矩阵的n 个最频繁项集挖掘算法5 7 表5 1 简单的分类规贝 j 集及项排序后的分类规则集7 7 袭5 , 2 不同分类方法性能比较8 0 表5 3c r - t r e e 及超规剐修翦对r 值及分类时间产生的影响8 0 表6 1 爿;同分类方法的分类结果。8 5 袭6 2a r c - b c 葬法生成的分类规则8 6 表6 3a r c b c 算法分类备类谰练样本的情况8 7 表6 4w a r c 算法鹄规剐强度及蕊瓣权霾9 0 表6 5s w a r c 分类撬繁静稍练主确率。9 6 表6 6s w a r c 算法t = l 1 0 时瀚参数交仡情况9 6 第v 贸 第一章绪论 第一章绪论 随籍互联网的火规模普及和企业信息化程庹的提高,文本信息的| 夹选积累使 公司、效癃争麓瑟撼棱在信息楚臻和捷强中曩婚蕊隽季泰毒戆糖凌。一方藏,互联 网和企且k 信息系统每天都不断产生大量文本数据,这些文本资源中蕴含着许多有 价值的信息;而另一方面因为技术手段的落后,从大量数据资源中获取需典的信 息十分殴唪。人们迫切需要研究出方便有效的工具去从大规模交本信息资源中提 取符合需要的简洁、精烁、可理鼹褥知识,文本挖掘就是为解决这个问题两产生 的研究方向。 本帝首先阐述本丈的研究背景,包括文本挖掘的基本概念、研究现状岛已有 翡成暴;然后,余缨本囊砖臻突褒容以及生叠织缝稳。 1 1 研究背景 爨然语言是人们在李圭会经济生活中主要戆交滚襄表达憋想豹工其,虽然对垂 然语言的研究已有较长的时滴,倦对理解和使瑙自然语言这种能力的解释仍然有 限。传统的自然语言理解是对文本进行较低层次的理解,主舞进行基于词、语法 和语义信息的分析,并通过词在句子中出现的次序发现有意义的信息。在这一层 次暹到豹润邃多与旬法霜语义竣义往提关。 另一方面,对文本较高层次的理解主要集中在研究如何从各种形式的文本和 文本集中抽取隐含的模式和知识。文本高层次理解的对象可以是仅包含简单句子 兹单个文本也可以楚多个文本缓戏夔文本集,熬楚理有数技术手段虽然基零上鼹 决了单个句子的分析问题,但是逐很难覆盖掰衣的语言现象,特别是对整个段落 或篇章的理解还无从下手。 恰巧在这个时期,在1 9 世纪早螺发展起来的以统计技术为蒸础鲍数据挖掘技 术已经发震静较为袋熟,并在大斌模结掏纯关系数据疼上瘦溺取褥藏功。人们自 然想到将数据挖掘的成果用于分析以自然语言描述的文本,这种方法被称为文本 挖掘( t e x tm i n i n g ,t m ) 或文本知识发现( k n o w l e d g ed i s c o v e r yi nt e x t ,k d n 。与 德统爨然语言处龄a t u r a tl a n g u a g ep r o c e s s i n g ,n l p ) 关注淫语窥句子豹毽簿不 同,文本挖掘的主要秘标是在大溉模文本集中发现隐藏的有意义的知识,即对文 本集的理解和文本间关系的理解。因此,文本挖掘是自然语亩处理和数据挖掘技 术发展到一定阶段的产物。 第l 燹 簿一牵缮论 l 。1 。1 文本挖掘的定义 在现实毽界中,可获取静大帮信感是戬文本形筑存储在文本数据瘴中豹,由 来鲁各耪数据源瓣大霰文挡维藏,翔精阕文档、磷究论交、书籍、数字鬣书镩、 电子邮件秘w e b 页藤。出于电子形式的文本偿息飞速增涨,文本挖掘已经成先 信息领域的研究热点。 文本数据库中存储的数据可能是瘫度非结鞫化的,如w w w 上的嘲页;也 可能是半结构化的,如e _ m a i l 消息和一些x m l 网页;而其它的则可能是良结构 纯韵。鼹结构纯文本数耩瀚典型代袭麓图书馆数据库中韵文档,这些文档可能包 含缭稳字段,翔标戆、豫者、蹬敝霹期、长度、分类等等,落可能包禽大羹菲结 椽豫文本成分,躲攮蘩帮海客。遴常,吴有较簿结构酌文本数据瘁可淡往糟关系 数据库系统实现,丽对非结构化的文本成分震要罴髑特爨的处理方法瓣葵避萼予转 化。 文本挖掘是一个交叉的研究领域,它涉及到数摄挖掇、傣息捡索、皂然语言 处理、机器学习等多个领域的内容,不同的研究者从各自的研究领域出发,对文 本挖掘的禽义有不同拣魏解,不同应角目的文本挖擒项目也备有其铡羹点。因此, 对文本挖箍的定义逮有多稀,其中被瞽遍认可静文本挖掘定义如下: 定义1 1文本挖掘是指从大蹙文本数据中抽淑事先未知的、可理解的、最 终蜀爝静销滋熬过程,溺嚣孛遥丽这些知识燹好穗缀织信息阻便将来参考。 直溉的说,鹭数据挖掘的对象完全由文本这种数据类型缀成时,这个过程就 称为文本挖瓣。 文本挖掘瞧称为文奉数爨挖掇l 戳a 戚9 7 j 或文本箱谈发联 f e l d m a n 9 5 ,文本 挖糕茕主要曩的怒从嚣绻撞纯文本文楼中提取蠢趣瓣、鬟簧的攘式纛知谈。可瑷 看成是黧于数据摩蛇数撰挖掘袋知识发现黪扩麟l f a y y 8 d 9 6 ,s i m o u d i s 9 6 。 文本挖掘是从数据挖掘发展而来,因此矮定义与我们熟知的数据挖掘定义楣 类似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本 身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖 掘的对象以数据痒中的结构化数粥为主,并利稍关系表等存储结构束发现知识。 因魏,有些数据挖握技术并不遥弱予文本挖箍,帮使可躅,落需要建立在对文本 集霰处壤熬纂礁之上。 1 1 。2 文本挖掘的蘧耩 有些人恕文本挖掘秘为另常用术语文零知识发现涨d 的阏义邂,藤另一 些入只跫把文本挖掘视为文本知识发现过程的一个綦本步骤。文本知识发现主要 第2 受 蒸二璧垡鲨一 圭默下步骤缀残,魏图l + l : 霸 评估与表示片u ? 。 _ t 。? 文本挖掘, 一j 再三日 模式 文本礞鲶器rl 一一j 。! :一“豇i 7 7 7 文档中问形式 文档蕞 圈1 ,l 文本挖辎视为文本知识发现的一个步骤 ( 1 、文本疆处理; 选取任务相关的文本并将其转化成文本挖掘工具可以处理的中闻形式。 通常包括两个主舞步骤罅日图l 。2 ) : 1 )特征抽敬:建立文档集的特征表示,将文本转化成一釉类似关系数 据盛能表现文本内容的结构化形式,如信息检索领域经常采用的向量空间模 墼藏蔻邀样一秘镰筏讫模溪。 2 )特援选择:一般说寒缕擒讫文本懿将筑空弱维数较赢,需要对箕进 行缀躐,只保爱对表达文本滤褰圣霉臻较大熬一鼗特缓。 掣一f 鐾乍鼹尹 交本聚 文本特征表示 1 。j 虿茹夏i ;。 ( 2 ) 文本挖攘: 在宠成文本鞭照灌爱,哥淡裁震戳器学习、数据缆瓣潋及模式浚搿等方 法掇取顽向特定皮用目标的知识鳢模式。 ( 3 ) 模式评髂与裘示 最磺一个环节魑利用已经定义好的评传指标对获取的知识或模式迸霉亍 评价。如果评价缩采符合要求,就存储该模式以备用户使用;否则返回到阿 西静菜个环节垂新调整和敬滋,然后再避行新一轮的发现。 1 2 文本挖掘研究现状 在文本挖握过撵中,文本懿将,珏袋示楚整个挖辍过程静蒸础;蔼荚联分祈、 文零分炎、文本聚类楚三秘景主要迄怒最基本懿功栽。下瑟,黻文本特,疰袭示稆 文本挖撅的三种核心功栽为线索,黠文本挖握的研突现状昶裁缝取褥懿威祭掺簿 第3 页 第一章绪论 要地回顾。 1 2 1 文本特征表示 传统数据挖掘所处理的数据是结构化的,其特征通常不超过几百个;而非结 构化或半结构化的文本数据转换成特征向量后,特征数可能高达几万甚至几十 万。所以,文本挖掘面临的首要问题是如何在计算机中合理的表示文本。这种表 示法既要包含足够的信息以反映文本的特征,又不至于太过庞大使学习算法无 法处理。这就涉及到文本特征的抽取和选择。 文本特征指的是关于文本的元数据,可以分为描述性特征,如文本的名称、 日期、大小、类型以及语义性特征,如文本的作者、标题、机构、内容。描述性 特征易于获得,而语义特征较难获得。在文本特征表示方面,内容特征是被研究 得最多的问题。 定义1 2 项 当文本内容被简单地看成由它所包含的基本语言单位( 字、词、词组或短语 等) 组成的集合时,这些基本的语言单位被称为项( t e r m ) 。如果用出现在文本中的 项表示文本,那么这些项就是文本的特征。 对文本内容的特征表示主要有布尔模型、向量空问模型、概率模型和基于知 识的表示模型。因为布尔模型和向量空间模型易于理解且计算复杂度较低,所以 成为文本表示的主要工具。 ( 1 ) 特征抽取 中文文档中的词与词之间不像英文文档那样具有分隔符,因此中、英文文档 内容特征的提取步骤略有不同。 英 中文文档集 图1 3 文本特征抽取的一般过程 消除停词: 文本集有时包含一些没有意义但使用频率极高的词。这些词在所有文本中的 频率分布相近,从而增加了文本之间的相似程度,给文本挖掘带来一定困难。解 决这个问题的方法是用这些词构造一个停词表或禁用词( s t o pw o r dl i s t ) 第4 页 第一章缝论 f r i c a r d 0 9 9 ,在特征抽鞭过程中删去停词表中出现的特征词。 常用的停词包括虚词和实词两种,如 ( 1 ) 廉词: 英文中的“a t h e ,o f , f o r ,w i t h ,i n ,a t ,”; 中文中的“的,地,得,把,被,就”。 ( 2 ) 实词:数据库会议上的论文中的“数据库”一词,可视为停词。 词千抽取: 定义 。3 令v ( 0 是枣铍越要淹语法变形的词缝成鹣菲空溺集,v 固熬燕范形 式称为谰干( s t e m ) 。 缁摇,螽莱v ( s ) = c o n n e c t e d ,c o n n e c t i n g ,c o n n e c t i o n ,c o n n e c t i o n s ,那么s = c o n n e c t 是v 国翡谲干。 词干抽取( s t e m m i n g ) 有朗种不同的策略:词缀稚除( a f f i xr e m o v a l ) 、词千表查 询( t a b l el o o k u p ) 、盾继变纯( s u c c e s s o rv a r i e t y ) 和n - g r a m 。其中词缀排除最直观、 篱鼙量弱予实现。多数词的变形是阖添加后缀引起的,所以在基于词缀排除策略 的摘取算法中后缀莽 除最为重要,p o r t e r 算法 p o r t e r 8 0 是后缀排除算法中最常 耀静一种。 运予抽敬将其有不闷词缀静词台并成一个词,降低文本挖掘系统中特征词的 总数,驮蔼提高了挖掇系统静褴能。 当然,也有两点需要注意: ( 1 ) 援于抽鞭对文本挖掘性能懿提高仅在基予统计原疆的各种分析弱挖掘 技术下毒效。在进行涉及语义魏语法的巍然语言处理对,不适宣采蠲谲干摘取技 术。 ( 2 ) 词予撼取对文本挖握或岩惑检索矬确性兹彩噙至今没有令人信鼹酌结 论,因| b 许多搜索引擎葶珏文本挖掘瑟统不使用镁每谈于接取算法。 汉谱拐分: 汉语的分词问题已经基本解决,并出现了多种分词方法。这些分词方法可以 分为两类:一类是理解式分词法,即利阁汉语的语法知识、语义知识及心理学知 谚 进行分词;另一类是丰凡械式分词法,一般以分词词典为依据,通过文本中的汉 字串和词表中的词逐一甑配完成词语切分。第一类分词方法算法复杂,实际应用 中经常采甭的是第二类分词方法。机械式分词法主要有正向最大匹配法,逆向最 大匮配法,逐谲逮掰法。 峦予词典的容量有限,在大瓶模真实文本处理中,会逼掰许多词典中未出现 的词,鄂未登录词。未登录臻象是影晌分词准确率的重要原因。为解决这个问题, 第5 贯 第一牵绪论 人们提出利用n g r a m 谗言模銎! 进行调项划分【周0 1 a ,0 1 b ,从露摆脱基于词典的 分词方法对词典的依赖。与基于词典的分词方法不同,基于n - g r a m 技术得到的 词瑷不一定具有实际意义。 例如:“文本挖掘”的所有n g r a m 项为: 1 - g r a m :文,本,挖,掘 2 - g r a m :文本,本挖,挖掘 3 - g r a m :文本挖,本挖掘 4 g r a m :文本挖掘 其中除1 g r a m 是单字外,2 - g r a m 中的“本挖”,3 - g r a m 中的“文本挖”,“本 挖攒”都不其枣实嚣意义。 ( 2 ) 特征选撵 特征选择也称特征子集选择或特征集缩减。经过特征抽取获得的特征词数量 缀多,畜裂达数万令特髹。如魏多静特征对诲多文本挖藕方法,懿文本分类、聚 类、文本关联分析来说米必都魁有意义的;而过大的特征空间避会严重影响文本 挖掇酌效率,因魏选择遥当的特征子集十分必要。 通常采用机器学习的方法进行文本特征选择。殿然机器学习中有许多选取特 征子集的算法,但有些辫法复杂且效率低下,不适于处理庞大的文本特征集。 国外对特征选择盼磅究较多 m l a d e n i c 9 9 ,m l a d e n i c 0 3 ,l e w i s 9 2 ,l i u 9 6 ,特裂是 已有专门针对文本分类特征选择方法的比较研究 y a n 9 9 7 。国内对这一问题的研 究隧鼹踪戮究为主,集中在将嚣乡 堍蠢特鬣评 舂磊数髑予中文文本特征遥择周 0 2 及对其进行改进 李9 9 1 。本文将在第三意中继续讨论这一问题。 1 2 2 基于关键字的关联分析 文本数裾一曼棱转亿成结梅纯中润形式磊,这种中阊形式就作为文本挖搁过 程的基础。 与关系数据艨中关联规则的挖掘方法类似,基于关键词的关联规则产生过程 包搔薅个阶段: 关联挖掘阶段: 这一玲羧产拳瘊寄酌支持痰大等予最小支持瘦溺篷豹关键词集,帮频繁顼 集。 规鲻生成阶段: 利用前一阶段产生的频繁颂集构造满足最小置信度约束的关联援则。 f e l d m a n 等人实现了基于上述思想的文本知议发现系统k d t f e l d m a n 9 6 1 、 f a c t f e l d m a n 9 7 ,表l 。1 绘毽k d t 系线在r e u t e r 2 2 1 7 3 语精藤中发爱懿关联 第6 贾 舞一牵缝论 舰则示例: 表1 1 文本奖联规则示例 【i r a n , n i e a r a g u a ,u s a - - r e a g a n6 1 。0 0 【g o l d ,c o p p e r - - c a n a d a5 0 5 6 6 g o l d ,s i l v e r - - - * u s a1 9 0 6 9 2 根据不同姻挖掘需要,可以利用不阉
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 互联网医院入驻协议及入伙前信息化建设合同
- 股权激励与员工持股计划设计合同范本
- 触发式驱鸟装置研发-洞察及研究
- 垃圾回收调优-洞察及研究
- 智能装备感知技术-洞察及研究
- 2025至2030支柱机械手行业发展趋势分析与未来投资战略咨询研究报告
- 2025至2030乙酸萜品酯(CAS8007350)行业发展趋势分析与未来投资战略咨询研究报告
- 2025至2030连锁酒店行业市场深度分析及供需形势与投资价值报告
- 2025至2030中国苗木培育行业项目调研及市场前景预测评估报告
- 税务局税务稽查案件管理系统短信验证码合作协议
- 耳部微波治疗技术解析
- 新药研究与开发技术 课件1.概论
- 2024年企业所得税年度纳税申报表(A类2017 年版2025年01月修订)-(2025 0323)
- 2025年时事政治考试116题及参考答案
- 2025年宪法知识竞赛全套题库及答案(共150题)
- 特种设备安全风险管控清单
- 电子版全国普通高等学校毕业生就业协议书模板
- 设备事故培训课件
- 人武专干考试题型及答案
- 岐黄天使中医药理论和中医护理技术专项培训考核答案
- 《体育新课程标准》课件
评论
0/150
提交评论