




已阅读5页,还剩49页未读, 继续免费阅读
(计算机应用技术专业论文)文本数据挖掘在工程图文档中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学坝- :学位论义 摘监 摘要 文本数据挖掘技术是自然语言处理研究的重点问题之一,而工程图文档是工 业技术中的重要数据媒体之一。在信息时代,同其他多媒体数据一样,工程图文 档作为一种在网上共享传输的数据媒体,有着信息保护和信息检索的需求。传统 的信息保护和信息检索技术均基于文本,而工程图文档中存在的大量文本信息, 于是我们将文本数据挖掘技术引入工程图文档中。本文对文本数据挖掘在工程中 的应用进行了研究,内容文本信息抽取、文本分类、信息隐藏、信息检索等等。 本文主要研究了如下两个问题: 一、到目前为止,尚没有大型搜索网站将工程图纳入自己的搜索数据类型。 本文将文本数据挖掘的方法,引入到工程图文档的信息检索技术中。研究了工程 图文档的信息检索方法,比较了工程图文档检索和一般文本检索的区别,提出了 工程图信息检索中的几种新方法,详述了一个构建工程图信息检索系统的实验步 骤。 二、工程图的信息隐藏在c a d 领域中具有重大的意义。为了技术保密,工 程图在发布时往往需要将其中的关键信息( 如尺寸和材料) 隐藏起来,其中大部分 需要隐藏的信息是以文本方式存在的。传统的信息隐藏是通过人工的方式进行关 键文本抽取并加以隐藏而实现的。本文提出了用线性分类的方法,来实现工程图 关键文本的自动抽取,从而达到工程图文档信息隐藏的目的。 关键词:文本数据挖挪,一科目信息检索,文本分类,信息隐藏 濒江大学硕士学位论文 a b s t t a c t a b s t r a c t w i t ht h e r a p i dd e v e l o p m e n to fb o t h i n f o r m a t i o ns c i e n c ea n di n t e r n e t t e c h n o l o g i e s , i n f o r m a t i o nr e t r i e v a lb e c o m e sa t t r a c t i v ei nc o m p u t e rs c i e n c e 。t e x tm i n i n g ,a san e wb o r nb r a n c h o f n a t u m ll a n g u a g ep r o c e s s i n g 烈l p ) w h i c hh a sa l m o s t5 0y e a r sh i s t o r y , p l a y sa ni m p o r t a n tr o l e 融i n f o r m a t i o nr e t r i e v a l e n g i n e e r i n gd r a w i n g s ,a sas i g n i f i c a n td a t af o r m a ti ni n d u s t r y , , ,a r e w & l ys p r e a do nt h ei n t e r n e t ,t h et r a d i t i o n a lc o u r s eo f i n f o r m a t i o nr e t r i e v a li sb a s e do nt e x td a t a f o r m a t ,a n dn o w a d a y st h em u l t i m e d i ad a t af o r m a t sa l s ot a k ep a r ti nt h ec o u r s e ,s u c ha sa u d i o f o r m a t ,v i d e of o r m a t + h o w e v e r , t h ed r a w i n g sf o r m a ti sn o ti nt h el i s t i nt h i sp a p e r , w et r yt om a k e u s eo f t e x tm i n i n gi nt h ei n f o r m a t i o nr e t r i e v a lc o u r s eb a s e do nd r a w i n g sf o r m a t s p e c i f i c a l l y , w e w i l lp a ya t t e n t i o nt ot w op a r t s :d r a w i n g ss e a r c ha n di n f o r m a t i o nh i d i n go f d r a w i n g s f i r s t l y , w ew i l l t a k ea d v a n t a g eo ft e x ti n f o r m a t i o ne x t r a c t i o ni n t oas e a r c hs y s t e mo f d r a w i n g s b yc o n s t r u c t i n gap r o t o t y p eo ft h es e a r c hs y s t e mo fd r a w i n g s ,w ep r o v i d es e v e r a l m e t h o d ss u c h 鑫st h es i m p l e s to n ea n dt h ec o m p l e xb u te f f e c t i v eo n e ;a l lo ft h e mc a np r o b a b l y f u l f i l lt h ee n t i r es y s t e m f u r t h e gw eg i v ead e t a i l e dd a s c d p t i o no fe x p e r i m e n tw i t hs i m p l e s t m 鞋h o d ,a l lt h er e s u l t so f e x p e r i m e n t sw i t he a c hm e t h o da e v a l u a t e df i n a l l y , s e c o n d l nw ew i l lm a k eu s eo ft e x tc l a s s i f i c a t i o ni n t oi n f o r m a t i o nh i d i n go fd r a w i n g s ,w e p r o p o s e am e t h o do fe x t r a c t i n gt h e c o n f i d e n t i a l p a r tf r o md r a w i n g sa u t o m a t i c a l l yb yt e x t c l a s s i f i c a t i o n w et a k eas i m p l eb u te f f e c t i v em e t h o do ft e x tc l a s s i f i c a t i o n ,l i n e a rc l a s s i f i c a t i o n , t ot h ee x t r a c t i o no f t h ec o n f i d e n t i a lt e x t ,b yt h ee x t r a c t i o no f c o n f i d e n t i a lt e x t ,w em a k et h ek e y t e x ta w a yf r o md r a w i n g s , a n dk e e pi t c o n f i d e n t i a l 。f i n a l l y , w ed i s c u s ss e v e r a lm e t h o do ft e x t c l a s s i f i c a t i o nt h a tw o u l dp r o b a b l yl e a dt h es h e c e s so f t h es y s t e m k e y w o r d st e x tm i n i n g ;e n g i n e e r i n gd r a w i n g s ;s e a r c h ;t e x tc l a s s i f i c a t i o n ;i n f o r m a t i o nh i d i n g 浙江大学颂j 学位论义 第一章史奉数据挖掘简介 第一章文本数据挖掘简介 1 。1 文本数据挖掘的概念 文本数据挖掘( t e x tm i n i n g ) 是指从文本数掘中抽取有价值的信息和知识的计 算撬处理技术 h e r 9 9 。躁名愚义,文本数撵笼握楚鼹文本中避嚣数据挖鬟| ;( d a t a m i n i n g ) 。从这个意义上讲,文本数据挖掘熄数据挖掘的一个分支。文本数据挖 掇楚一个边缘学辩,盘梳嚣学习、数理统计、自然谮害处理等多种学科交叉形成。 文本数据挖掘是成用驱动的。它在钽能商务0 3 u s i n e s si n t e l l i g e n c e ) 、信息检索 ( i n f o r m a t i o nr e t r i e v a l ) 、生物信息娥理( b i o i n f o h n a t i c s ) 等方筒都有广泛的应用;例 如,客户关系管理( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) ,互联网搜索( w e bs e a r c h ) 等等。 在理实生活中,谗多镁域舔不叛产生海燕数攥,特舅是海量鲍文本数掇。怎 样从这些数据中抽取和发搠有用的信息和知识已成为一个f j 趋重要的问题。由于 这个愿嚣,文本数据挖掘越是一个凝兴学糕,翟邑成为一个弓| 入骥嚣,发壤逐速 的领域。 我髓辩文本数搬挖掘瀚理解可豁甭萄1 来说萌。这个潮由三部分组成:底层 是文本数摄挖掘的藻础领域,包括机器学习、数理统计、岛然语鲁处理:农此基 础上是文本数据挖掘的基本技术,商五丈类,包括文本信息抽取、文本分类、文 本凝类、文本数据压缩、戈本数撼处理;农基本技术之上怒嚣个主要应用领域, 包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息 投豢,知谈发现包惩数据分氍、数据颈测。 浙江人学坝l 学位论义辩一章史本数据挖撒筒舟 l竺璺翌望:竺塑兰兰j ! i 5 匝区园匿豳 i 总之,我们把对文本数撼的分类、融合、压缚、攘要、以及从文本中撼致发 现知识与信息都看作是文本数据挖掘。以下我们主簧对文本数据挖掘的五大撼本 技术缀一个练述。程五项基零技术中,文本傣惑撞取帮文零数据压缝是文本数搽 挖搦特有的技术,其它三项技术在其它数据挖掘领域中也会用到。 1 ,2 文本数据挖握基本技术 1 2 。1 文本信息擒取 文零售惑撞取怒觚文本数据孛麴馥久爨荚注静特定翡镶悫。文零数据胃驻溢 句、段落、篇章为单位;抽取信息既可以以牢、词、词组、旬、或段落为单位, 遣蜀濒是班上基本单位酶组合。 壶凝信惠搿戳是关于个体静( 晓如,入、组织、 时渊、地点) ,也可以是关于事实、事件、蛾个体阃关系的。抽取的信息还霹以 作为文本数据的特镀,用于萁它数据挖掘处理。 文本信息抽取所锚取的傣息可以是各耪类型鲍,比如,文本中蛉名 ;霹短语、 人名、地名、机构名、产品名等实体名称 m u c 9 5 ,c s 0 4 ,电子文件的题目、作者、 馋者鼹摄单位等元数攥】,专、监本诿瓣定义,阏上黧耱信患,凝阕投遥中鼹攀搀 等。 胃鞋磐文本蓿惑李垂致誊佟蹩一个椽注国g g i n g ) 溺题。它怒有捂替狡器学习的 一个应用。下面,我们通过机器学习的框架米统观这个问题。它分为学习和抽取 两个过程( 甏2 ) 。首先有一魑有标液豹数据样本,每一个样本由文字单元序列及 楣成的标注序列组成,我们用鼍;t 。3 l 鼍。卷褒示第i 个样本匏文字单元序列,用 2 浙江大学硕”学位论文第一章文奉数据穰翻简介 蛳* :l 咒。来表示相应的标注序列,其中i = l ,a ,m 。每一个,( ,= 1 ,l ,m ) 是一 段文字,燕我稍避磐处理瓣最基本攀元,簿一个鼓。,( 歹= i , l ,捧) 是一个拣注。援 器学习系统基于已有的标浓数据构建一个模型,它可以由一个条件概率分夼柬表 示,即在给定随机变量五局l 五的条件下随机变撬i 匕lt 的条件概率分布。 这攫每一个萎( i = l ,2 ,l 纛取麓荧袋窍霹怒戆处瑾文字蕈元,每一个 z ( f = l ,2 ,lk ) 取馕为所有可能的橼注。一般宥k 撑。信息抽取系统参照学习得 到的条件概率分布模型,对一些新的文字单元序列j 琏行标浚,找到相应的标往序 歹l 。具转来滋,对一个文字擎元痔翔“ ,l “。找至l 镬 户( + l ,l 欺+ l ,2 l + l ,。1 + t ,1 吐2 l i + i , n ) 最大的标注序列吨l 靠“2 l 虬 + l ,。 f 乇,l 气2 ,。1 ly l , 1y l , 2 。九。j 哪m 瓤尹( y m 圳oy m + 1 n x m + l 。1 x m + 1 h ) 图1 2 。1 文本信怠孛蠹毁 文字单元在具体实现中可以魑一个文本、一个句子、个词、甚至可以是中 文豹一个字。禄注霹琵是袭示售怠籀致对象的开始、结束、及其它。在信怠擒欷 时我们将从标注为开始到橼注为结束的文字单元作为信息抽取。例如,在从英文 文章中擒敬基本名词短语的信息擒取中,样本是英文句子,文字荤元是词,抽取 信息是基本名词短语,标淀是名词短语的开始、绻束、或其它f 以b 、e 、0 表 示) 。输入以下的燕文句子,抽取系统输出相应的标淀序列,即输出相应的抽取 信愚。 浙江夫学瑚l :攀证论羹 旃一章文本数据挖掘瓣介 输入;a tm i c r o s o f tr e s e a r c h ,w eh a v ea r ti n s a t i a b l ec u r i o s i t ya n dt h ed e s i r et o a t er l e wt e c h n o l o g yt h a t w i l lh e l pd e f i n et h ec o m p u t i n ge x p e r i e n c e 输出:a t om i c r o s o f t br e s e a r c h e ,w e oh a v e oa r l | oi n s a t i a b l e bc u r i o s i t y e d ot h e od e s i r e b et o oc r e a t e on e w bt e c t m o l o g y et h a t o w i l i oh e l p o f i n e ot h e oc o m p u t i n g be x p e r i e n c e e 。 文本僚息抽敬常用的模型霄:隐马尔可夫模型( h i d d e nm a r k o vm o d e l ) f m 0 0 、最大熵舄尔珂夫模型( m a x i m u me n t r o p ym a r k o vm o d e l ) r a t 9 6 。m f p 0 0 、 条件随瓣场( c o n d i t i o n a lr a n d o mf i e l d ) 、表决感知枫( v o t e dp e r c e p t r o n ) 。它们怒 以上一般模型的耱个舆体实现。 篱先,可以炽每一个y 嚣终怒独立予冀它y 秘冀它x 鲍。这袋,鼹每对 并和y ,w 以定义个条件概率分布 p ( k a ! 并 a 并 ) = 尹( 嚣| 鬈i ax t ) p ( 马;善 a 并女) ap ( 致| 盖l ax 女) 这耩静祭俘凝率分布实隧上藏是个分类器模毅,我们瑟以精往何一稀分类 ( 誓j 船盼_ :xj 最大熵横懋 瀚1 2 2 文本惰憩 寅取横裂 最大熵马尔科必横坚 器来窝瑗它。配翔说遮藏大熵模鼙,热瀚4 莸所示( 为简单越见,我们只蕊戡备 令嚣只菝羰于攘应置熬憾瑷) 。 箕次,藏销逮可戳骰设不同的y 之阀舆裔一阶舄尔可煮眭,即 尹( 夏a x ;ax 女) = p ( y ii 爿l a a ) p ( 匕li x l ax ) ap ( kl 疋1 菇,ax 。) 碡 写yl瓦 一 础 一囊 k融 p 浙江大学硼】j 学位论文笫一章业奉数缸挽椭简介 每一个条件概率努希又是一个分类器模型。僵运些分类器是瑟于前一个标注 确定的条件下的分类器,如图3 右所示。当利用最大熵模型作为分类器时,模型 就成为最大熵马尔可夫模溅。 出于最大熵马尔可夫模型愁一个髑部的模型,如果我们只髑局部魄数据 对它进行训练,丽用若干模型进行全局的信息抽取时,效果不一定很好。这个问 题被穆俸怒爨注镳差( l a b e lb i a s ) 闽题。c o l l i n s 提出了一个全爨牲酶学习最大 熵马尔可夫模型的方法,可以一定程度上避免这个问题。 我们瞧霹戳爰燹复杂静全鼹摸篷寒解决糠注德篾润题。常焉懿蠢条件醚梳场 模型。这甬,我们假设各个1 只依赖于其相邻的z 一。和f + 。 p ( fe 人r l e + l ay , x 】a 爿 ) = p ( 51 只一;蔓+ 搿 ax 女)v i = l ,a ,k 我们可以用一个用图4 来表示( 为端单起见,我们只谶出各个z 只依赖于提 应的置情况) 。条件随机场模型可以更精确地描述企局的标注情况,所以精度也 往往眈最大熵马尔可夫模黧高。毽是,它所需要的训练时间也更多。 隐式玛尔可夫模型也被用于文本信息抽取。便是,出予它是数据生成模型 ( g e n e r a t i v e m o d e l ) ,不能对其加入标注有用的特征,所以通常不如以上判剐模型 ( d i s c r i m i n a t i v em o d e l ) 如爱大燧马尔可夫模型受鸯效。实鼯上,最大缱马尔可夫 模型等可以通过定义特征把隐式马尔可夫模型包含在其中。 我髑毽霹敷怒文本售慧 盎取嗣惩撵为霹法分辫趣瑟采餐,特鬟是当撞墩魏信 息比较复杂的时候。 嚣。卜一z 一并一j t l ,x 霆l ,2 3 条穆隧毫莲瑾模型 1 2 2 文本分类 交卒分类是羧据文本熟特,珏穗箕分登颥先定菇的类剐中。它也跫有猎浮视器 浙江人学硕0 学位语文 第一章文本数据挖搁简介 学习的应绢问题。下面,我们通过祝器学习拘框絮涞摇述遮个问题。它分为学习 和分类两个过程。如图5 所示,首先有一些文本lt 。及其所属类龅标注q lc j f , 学习系统从标注的数据中学到一个函数f ( t ) 或条件概率分布p ( cj t ) ,我们称其 为分类器。e 和f 淑所有可能鹊类郛文本( 通常是文本懿将征) 。对新绘出酌文本 f 。,分类系统利用学到的凳类嚣对其进行分类。类别可以只有两类,通常厢0 和1 ,或+ 1 和一1 表示,称为两类问题。当类别超过两类时,可以采用“类对 群窍其它炎”懿方法,把润霆分解为秀类润踅楚壤。也哥袋曩其它技术,院魏 ( e c o c ) 邈星,我们只考徽两类问题。 文零分类有嚣常广泛的应蠲。文本静类塑可戳是新闻报道、丽页、电子女b 件、 学术论文、n e w s g r o u p 文章。文本分类时的炭往往憋表示内容的,比如,”经济”、” 政治”、”体荐”可阻成为类。也有檄据其它特点的,眈如,”e 面意见”、”及面意 见气也可以是根掇应用要求靛,比如,“垃圾郝伟”、“非蛙圾自5 l 譬”。文本分类 时,我们从文本中取出特锻,将每个文本变成一个属性向赞。通常,我们把文本 中的调撼驳出褒,憋它们馋必特缝,戆剽怒透簿羧攥痰褰黪分类懿辩候;这等于 是把文本当作一个“词包( b a go f w o r d s ) ”。 ( 气气) t ( 稻 嘲1 2 4 文本分类 分类楚鸯毽嚣学习兹竣心逮嚣,鸯疆多分类嚣骥磴捉密,它们都霹以薅予文奉 分类,事实上也被广泛地成用到文本分类。常用的模型或算法有:支持向擞桃或 s v m ( s u p p o r tv e c t o rm a c h i n e ) 、边缘感翔梳p e r c e p t nw i t hm a r g i n ) 、最邋邻法 ( n e a r e s tn e i g h b o o ,决策树( d e c i s i o nt r e e ) 、决策表( d e c i s i o nl i s t ) 、中心法 ( c e n t r o i d ) 、朴素爱时斯( n a i v eb a y e s ) 、a d ab o o s t 算法、l o g i s t i c 回归( l o g i s t i c 6 浙江大学硕l :学位论文 辩帝文奉数据挖搠简介 r e g r e s s i o n ) 、w i n n o w 算法、神经网络( n e u r a ln e t w o r k ) 、贝叶斯黼络( b a y e s i a n n e t w o r k ) a 支持向量机 向鼙奎湖 图1 2 5 文本分类靠法 囱黄空间 最近邻法 中心意法 圈1 2 6 变零分类旁法2 瓣6 袭鹫7 分绥凡静紫爝戆摸羹等方法翡基零穰忿。支掩淘燮辍s v m ( 袋边 缘感知机) 用向爨空间的点液示样本,谯向擞空闻巾寻找将避负侧分开的边缘最 大的趣平蕊;这墨最大边缀( m a r g i n ) 是遂个方法的麓要概念。鼹避邻法同榉鼹国 爨空溺豹煮表示样本,分粪时祷样本纛分裁离其最近邻静样本点的类中去 簸邋 郐怒霪要概念。凌策树或决策表怒定义在特征空湖的,能们怒基予兢刘的方法, 学习瓣找剩姆正受捌分熬避开鲍分裁 ( p a r t i t i o n ) 。申心法又叫 乍r o c c h i o ,敬爨箕 发明者:它走在向爨警闽中找烈西三受例既中心点,分类时按离中心点的距离分炎。 下面避一步介绍一下s v m ,它被认为怒在各种情况下都能达到较高分类耩 度的方法,因雨在文本分类中被广泛成用。 已探渡好豹训练榉本中豹正旋辆攘往会各秘聚集在藏( 不辩涂有黧例 外) 。在s v m 学习过稷中我们试豳找到擐佳的超乎藤,它可以最大稷度上分离延 受剿( 注意捩们这里必关心分离调练樽本数据) 。燹撩确地谈,这个趣平露援蠢凝 7 辑江麦学鹾士学位论文 簿一零变本数整拨攒燕舟 大的正负例间的边缘。边缘概念有精确燧义,直戏上它魑正负例隧域边界歪趣乎 谣靛距离。歪煎镶孛有铡辨时,也可以爝扩震的这个穰檠处理。我霄j 拣以上的越 平嚣楚线键s v m 。送襻,s v m 戆学习勰转德笼稔定魏停下懿二次饶纯瓣趱。联 论上可驭诞鲷寻找最大边激的怒平越会键使泛德谈麓蠼小,期对零期数据韵勰镑 分类误蓑鼓,l 、f 这怒瓣器举溜鹣秘标) ,这瞧裁说臻了为静么s v m 会肖效。既夕 , 剃麓棱溺鼗摄零,蜀戳褥茂经s v m 避莎扩震斑g # 绫幢s v m ,逡爱不予缝述。 1 2 + 3 文本聚类 文零聚类韪港将文零校瓣冀黪程懿炎。壤裁燕蠛,将绘宠辩文本巢合分为蔫 平子集,称之必必,使褥释个类岗酃静文漆相钕,蔼樊与突之间酌文本不糟懿。 文零熬赘缎往缝壤爨褒翅之季鼹露蓉嚣。文零之鬻懿稳戳缝篷 雯经囊盛鬻嚣宠。 文本分燕掰鼓用捌舔粹坛台。文本辩熊鍪可跌蕊瑟阉羧遂、丽激、电子豁穆、 论文、n e w s g r o u p 文章 b k n 0 1 。z h c 0 4 。 聚类辩,鳓鬃一枣襻本哭巍嚣予一个樊,我稻称遨榉魏浆粪为磷聚娄,懿慕 个样本w 戳糯予多个不黼的类,我们称遮榉鲍聚擞为软聚炎。聚撰还蠢分臻聚 焚茸弱非分鼷浆炎之分,蓑袋分剐莛树袄瀚或洋邀的。 冬耪黎焚方法暴刘上都蘑瓠爰袁支本聚类主。紫爝予文奉聚爨瓣方法窝 垮蕊法深m e a n s ) 、模黧德诗法( m o d e le s t i m a t i o n ) ( 将潮蹩瀑台摸赘德诗法( m i x t u r e m o l le s t i m a t i o n ) ) 、分艨羧类法( h i e r a r c h a lc l u s t e r i n g ) ( 分爨聚类滋中又泰国上磷 下法( d i v i s i v e ) , 粒警下嚣法a g 辩糍般馥畦v 勘。爨邋逐有一鎏薪方法羧疆滋泰。 遮萋介终鼯均馕法,它矮子嚣分鼹熬矮聚黉方法。k 蟓篷法利惩纛爨登麓 横整,即将簿样本看做为向量空间中的一个点( 向嫩) ,向爨空删的维数怒文本 特援瓣数爨。穗簸凄爱蚤悬平方敦晁爨缮蹙鬻。爨髂冀法爨个遮鼗箕蘧。宅热 结果依赖予翩始傻,不熊僳诞找到整体黢偬。我们娆时襻零遴行嬲擞,裳如各个 装躺均德簿爨( 中心煮) ,掰姆各个棒零点鹅劐与其激避的均佼向激黝类中;绷溅 爱复,努黧8 暴戆。 浙江大学硬士学位论发第一擘文本数锸挖耩简介 将样本妇九最近均值黉 1 2 。4 文本数据压缩 图1 。2 7k 坶蠖法 文本数据挖撼申,常嚣鬟要或照褥要将文本数撂中妻簧黪特槎糖凝蹬来,这 簸蒺闲到文零数据医镶的技术。文本数攒撼臻有嚣耪,一葶孛怒对藤壁空阎中熬文 本数据遴纾篷缩,麴定成分分析( p r i n c i p a lc o m p o n e n t sa n a l y s i s ) 、对废关系分析 ( c o r r e s p o n d e n c e a m a i y s i s ) ;舅一种链辩文零内容避彳亍凝缩,如觚文本中摘取关键 溺、鲮自动鸯成捕黉。翦畿遵常骆为效援姆缎使髑,蜃豢邋辫戈方甓人们瓣读。 主成分分析在统计学教科书照常见,这里不予赘述。奎成分分析目的在于将 态维空霹瓣榉零点投影至舔缝窆阉孛去。箕薷捷怒程这个数攒变换中我们力求保 持样本点之间的相对位蛩关系,也就是说烬擞虫转换带来骢缤息损失最小f 熟墨 9 ) 。 鞠1 2 8 燕成分分桥 奎 浙江大学硕士学位论文 第一章立本数据挖掘蔺舟 将样本归 最近均值粪 1 2 4 文本数据压缩 图1 2 7k 均值法 文本数据挖掘中,常常需要或只需要将文本数据中主要的特征抽取出来,这 就要用到文本数据压缩的技术。文本数据压缩有两种,一种是对向量空间中的文 本数据进行压缩,如主成分分析( p r i n c i p a lc o m p o n e n t sa n a l y s i s ) 、对应关系分析 ( c o r r e s p o n d e n c e a n a l y s i s ) ;另一种是对文本内容进行压缩,如从文本中抽取关键 词、或自动生成摘要。前者通常作为数据特征使用,后者通常为方便人们阅读。 主成分分析在统计学教科书里常见,这里不予赘述。主成分分析目的在于将 高维空间的样本点投彰到低维空间中去。其前提是在这个数据变换中我们力求保 持样本点之间的相对位置关系,也就是说尽量由转换带来的信息损失最小( 见围 持样本点之间的相对位置关系,电就是说尽量由转换带来的信息损失最小( 见凰 9 1 。 图l f 2 s 主成分分析 糍龋大学硕士学位论文 第一爨变本数攫控掘裁介 主成分分板,以及对应关系分粝,骞多秘应用,毖如文本捡襄,枣场调蠢。 缓竣我铜育一些关于汽牵燕牌印簿韵诵奁数据( 觅黼i o 上) 。这爨霄满意震,客 户年龄毂等有结构的数舔,也裔露户攒述的对汽擎麴印象餐辩缩掬化的文本数 撼。我嚣j 霹以从文本数攥皆撼出头镳试,势黠汽率黯薄及芙键溺数撼进 予对应芙 紧分橱,撼荚键溺及麓牌寤戆关系撬缝到二熊空阀上( 霓圈l o 下) 。 s t r u c t u r e dd a t au n s t r u c t u r e dd a t a b r a n ds a t i s f a c t i o n a g e e a f a52 0 e a r a40 c 簌f b c 8 f 8 b r a n d 棚a g e s e a s y 把d r i v e p o p u l a ra m o n gy o u n g p e o p l e c h e a p ,b u te n g i n ei sg o o d 。 3 0 il i k et h ec o o td e s i g n 2 0f a s t ! t h ea c c e l e r a t i o ni sm a g i c ! r一一 :peslhontng聚呻 氇啦栅p c o p e 。 :i 。 - n 一一一e ,味 i 口f m 封。 :,一:;4 a r 8 :,:。一一| e “n 。 :o h 瓣f 4 l: ;。a j 、? 8 p : :; k + 一+ 一一“一一- * 一一m 。w ,一、“ 一一”“1 h _十一h p “。( ;0 i ? 鑫l i d 矗ri 鲰1 82 一一_ 一。 鞫l 。2 。9 汽擎潞牌窜象调查 。 文本摘辫自动夔成瞧肖广泛豹醭必:爆零见鹣方法蹙从文零孛撼取爨蓬要 翅,程将黉蘩旬遴犊成文。搿戳辩这个方法来说,莺簧旬谖剐怒零震滴戆。鬻踅 1 0 游疆火学颁学位论文 第一黎文本数据挖掘蕊奔 的方法也魁通道指母学习的方式梅建一个分豢嚣f k p c 9 5 】,如决懿树、柃豢贝时 藏,臻这个分类器游行蘩蘩奄谈臻。鬻鬻瓣穗繇鸯翅子整嚣( 文霉孛靠蘩鹚句子 建锺重簧) ,萄予楚紧鑫铤镬率文审鬻出蕊簸关键谰,等等。a 对黧要餐鳃谈鬟 基程一定斡妻鼹挂,瀵瓣锦学习数掇拣拣拨往谨憨缀霾难懿。蜀羚,对文零摘要 绻搽的谨馀也是一令蠛攥邀一步研巍戆谡趱。 1 2 。s 文零数擐缝理 文本数据处理这熙指对文本数据避霞嚣; 申统诗鲍快速冀法。文本数掇匙避一 般不渗获其体翡摸爨。宅憩搔关联援则播载( a s s o c i a t i o nr u l em i n i n g ) 、s u f f i xt r e e 算法、s u f f i x a r r a y 冀涟簿。 蓑联黧粼接敬爨熬攒携攘嚣皴穗按塔乏一,密践教瓣建数爨炼镳孛蠢整广溅 蕊盛嚣,惑丽越黎产裂变零鼗蠢稳瓣主荣。凌絮,获黻斌爨戆最霹虢嚣予疆纂蕊 辫频数大予定闽馈瀚制的n 元缀。张对数据席数掇谶特燕联黼则抽取魁,邋 誉苓需簧簿憋攀嚣鼹鞭搿辫蕊,褥霞瓣文零遴霉装赣惩瓣虢敬澎,邋鬻器簧鸯蕊 遮辩穰塞。蛾霸谈,插凝蕊文本审露礴凌黼蠢爨蠲“装”器鬻蘸褒谲灌,蘩笨磺 簿戆重癸瓣。 蓑联瓣裂皴联遴鬻辩;越a p r i o r i 然渣。爨锩鹣黼麓鼙嚣缀蕊菠攀溪擞 ( a n t i - m o n o t o n i c - ) , 攀n 燕懿耱骧数窥夺予等等鼗懿子攀鹃b l 嚣鳃魏激数,? 鬻瀑浚瀵造靛 黼溪毒游戆祭黪瀚挺笼燃。 、 美蘩瓣鬻糖敲遣霹臻麓褰常矮璃粪土。窀懿,态溪l 棼浚攀懿簿帮蒙溪囊瓣 棚子中,拽们珂戳从文零巾抽出关键词,辫拽器个晶牌与头键谰姻胱霄关联规则。 藏稿霹菰茨虢8 c a r a 专f a m i l y , c a r a 专o 楚i n a r yp e o p l e 逡撵憋爨疆筑爨。 i l 浙江大学硕士学位论文 第二章工穗暇与文本数据驰关系 第二章工程图与文本数据的关系 2 工程闰孛薛文本数据 工疆錾寰要密绘裁黪凡谤体,袭捺,符芍窝涟麓文本强个部分缀戒。箕审表 将,终号毅注解文本皆妇为文本数据,瑟绘裁翳凡露体剐癌为凡何数据。 u 工程圈文档 l 绘制熬a 褥髂 卤 与 l注解文本 卤i 蠡添鋈蠢露卤 黼2 ,1 1 王程阐文档的缩构 绘剁黪凡蔼体兹疑蹩工程匿瓣激塞鬟遣簸走狻心熬都分,德缝将工稷鬻瓣穰 凝瀵楚鲍反映在读卷嚣 l 彗。褥文本数据劐翳榉毒一部分不对藏缺,懿凡秘体黔掾 注尺寸,耪辩信怒,工艺信患等蒋。缺少这黉文本数据的工程图楚没有实瑙价值 匏。鲡缺少了尺寸栎注,鄹么工疆凿静几何体就无法棱礁确酾描述;缺少了材料 信息和工艺信息,就无法按照工程豳的标准造出实体。 不同类激的工强国的几何信惑的表示方法大闽小异,均可以邋过点,线,面 等基本图元组合而成;不同炎型工程图的文本数据的差异较大。不难想象,电气 工稳图鄹水觏工臻蹦的几僻傣息均霹以髑愚元群寒袭示,瞧蔟文本数援戈其跫誊孝 料信息和工麓信息则基本上没礴粗嘲的。 本文仅仅考察王程黪审鹣文本数据。鬻辩工程潮豹死簿信患,本文不律进一 步戆磺突。 毪 港注大学联学使论文 第二章工程鬣与文奉数据觞美蒜 2 。2 文本数据挖掘_ 裘王程匿中的主要旌用 在1 t 中,我们曾掇劐当翦的文衣数掇撼撼主荣毒5 个方怠,即文零信息撼 敬、文本分类、文本聚类、文本数掇压缩瓤文零鼙摄处理。其中文本馈惑撼取、 文本分类期文零聚必已经自广泛戏用于工程瀚的黢璞。 2 2 12 1 2 程餮文趟瓣信息梭索 最常勰酌一个应瘸便怒工稷瀚信息检索。在i n t e g e r 辩戗,售患检索融绞成 为i n t e m e t 爨藿要熬功钱之一。广义黥僚怠检索蹙将信息按定的方式缀织和存 德起来,并根撼信感髑户瓣需要找感窍关穰惠静遘糕;瑟狡义豹是指扶髂惑熊合 中找趱所鬻僖患瓣过程,稽警予人们所说鹣馕息查谗。最初敢信息捡索双仅为文 率捡索,瑟穰据倍感糟户的稀要,找出所有确关韵文本。而如今的信息检索,除 了煎向文誊以外,述翁大鬟戆以爆像、载频、音频簿多媒体必载体瀚蓦# 鳐搦纯熬 数错,因就需要从中提取出特征,建立起快速有效的索引机制,以及提供荫效的 捡索芋段,开发爨蹩先避鹊鬣商多媒俸文稍静搜索弓 擎,殴透应从滤瀚的数攒海 洋中快速谳礴效地检索出簿合要求蛉参媒体文档。 随着菲绩稳纯数据僖慧梭素的骛及,工程圈梭索已经款遐论礤究黔毁逐步变 成现实。露搬械、魄气、建筑辞行犍豹办公自动纯,键使倍惠角户澍工程阐返一 嚣缝槐化数掇检索的褥式黟懿增翅。褥与鬻豫、褥频、音频等完全稚结构 乇的数 据不褥豹楚,i 稷黼中含蠢大爨鹣文本数据( 龟撼表掺,符号秘注瓣文字) f m f p 0 0 ,迭麓大燮韵交本数据使褥工程图的特征摄取可以完全依赖予文本,其 索弓 椒铡鄢文零完全一榉,爨姥嚣j 彼熙文零文挡懿攘索弓 攀,开发掘袭戳酌工程 图文稻搜索引擎。 鞠文本文档酌索攀 税案爽儆,工稳固文糨的索霉l 钒制嗣榉依赖予文本傣息接 取。对于一般的文本文档恧誊,熬取镶愚熟单位碍以楚字、调、谶缀、司、鬣段 落,毽可以是以上蒸零单使麴组硷。其撼取类型食蒺文本中瓣名浏短语、入名、 地名、规构名、产器囊等嶷体名称,墩子文符的题秘、作者、作者饼麟单谴等元 数攥,专池零语懿定义,瘸上赡耪髂惫,新闻掇道牛的事件等。然而工程图文档 辨 援支学轿圭学位谂烹 幕三章工程糕哥文奉救榷嚣燕慕 与般的文零文档的区别谯于,工程图文档的文本热以标淀说明瞧旗的为主,掇 少裔一整段瀚连续文本,谶烧箕文率臻惑撷敬静攀位谯和一簸文本文稿不同。囊 予王翟瑟文橙熬文零箍敬蘩登毽努然魄一较蘸文零文档蘩爨赞怼佼,豫了佟赣、 标题、l 三l 期镣一般文零文娥赡具蠢敬爱索,还应该稳燃瓣馈崽、工蕊售惑攘楚予 只寸缀合绩慰等等;弱辨,辩不简炎嫠的王褪图文籀建立索 ,篡文率摘敬菸黧 瞧餐掰蓑雾。 2 2 2 工程霆文档熬僚息戆藏 柽许多威掰领域,僖慧瓣藏技术ie :越来越受掰徽税。数字纯静频、视频和潲 冀燕逐激被嚣珏胃酸嚣剃鼹,不霹避翁标惑,这鎏稼恚冒辘稳含了些藏捩瓷磺、 序鳓专、蒜麓可辘誊接限潮束授投瓣复潮。零蠲遥诫黎统不凝捂袋髂藿安全技术 麴使用 l p 0 1 j ,他们不仪仪建使用加密技术采加密条消恿的内容,还力瀚隐溅 迷惑夔获送喾、搂羧者,嫠至是漕惫本鸯懿存在。嚣棒懿技零迄镁溺在移动奄镂 系统筘恕予选举方寨中。撼嚣分予褥之耀予瓒有鑫拳嫌谶系统, i i 警方刚试鞠陵麟 傀稍躺使髑。在这个新袋的、迅速发熊姻领域,谗多这类技术愁缎棱提出。 ” 王疆黪窿王垃技零书起饕关键躲捧溺。王疆霭遗过茎联辫黄输发毒拣凝激, 瞧鼹蒙将箕审魑一帮分絷键麓惠黪藏怒采,激跨技洙逡凌。裁文撼过工耧鬻文槠 搿分为凡秘数据秘文档数精两部分,黼礴的技术日缀能戚葫遗实飙工程圈文襁躺 交零辫据霸足簿羧撰耱努壤 x 澍鹬2 j 。晁侮数据襁跨妻溪,王程髑文褴程袭巍辩 蕊撞将a 秣熬援簿分保懿,露隐藏耱则蹙支零镑惑审较鬟簧静一部分( 懿尺曹瓣 材料) ,i 耐熬余的文本信息( 如工程国稿,翻期等) 则成和几何信息一并傈簧。 菇筵,我 耩嚣鬟然文零蓿塞中糖彀鲤关穗薅蕊。一般魏工疆黧文糖搜 :至台巍 较多蠹孽文本信息,翔穗人工酶方法籀取关键文本,将怒一终极为繁琐熬焚秘。零 文尝试蕉文本分粪熬方法,蒋关键穗蕊掇取趣来。邂过文零分类嶷璐工程湖楼愍 爨藏抟丈鼗流程据亨霪辑拳。 浙强大学硕士学位论文第二二誉工糕凰乓文本数挺热关系 国2 + 2 ,l 工程图文傅的隐藏流程 在图中我镪敬看到,工程豳数文本数据经道文本分类瓣实蜣# 关键文本数 据秘关键文本数据的分离。简其中的非关键文本数据和工程阑文档中的几何数据 缀戚的薪的工程阉文件,已经成功晌实现了信息隐藏。 2 3 本文生要研究肉容 鑫然语塞疑疆n 己p ) 潺蕊鼹磷突跫经蠢骢透5 9 冬浆魇交,文本挖撬雩霉楚舞然 语鬻处理方向中一个极为黧瓣的谍越,也醴缝发展樽辕为成熟。多媒体数据挖掘 s s 0 4 _ 量然粼起步不久,毽感燕一个磷究憝热点。程互联弼瓣最,入 | 、j 将文零挖 掘的知识,f 入到多媒体数据的应用中,融烃取得冰少成效。然而,至令为止, 摄少有天褥文奉数援控撼孳l 入霸王獠嚣文搂孛去,嚣霖爨寒泰方穷藤瑟,魏工蓬 图的应用尚不如多媒体数撼浓得广淡,工程憋在嘲络上鲍突溅发襁擞不始多媒髂 数攥频繁譬等。然麓,蘧饕王鲎按零信感稳程度翁慧速增长,以及王盟技术对工 程蹦的依赖,工摆鳞这一效掇载俸程要联掰上拣交流将会越寒越多。零文渗及戮 工赣强幸# 为一数据媒体,在凝联嗣上传输发布时的两个重簧应用方黼:信息梭索 和镶怠臻溅,奉文瓣主要磷窕蠹雾殷裁錾魏下: 1 工程圈鼹正业搜术中羹鬻的数措媒体之。随着强联网襁工业技术中 菠挥藿越来薅黧要稳俸爝,麓户怼“工程鬻”这类黧数攥簸素斡鼗滚遣 越来越想迫。截至2 0 0 5 年底;尚没有大型搜索耀站婚工程圈纳入皂跫熟攫 浙江大学醐士学位论文 第二掌王鞭圈支率数据瓣荚燕 索数据类型【i u o o 】。本文将文本数搽挖掘的方法,垮i 入到工程阁的信息检索 技术串,最终邋遭蜜验寒谖髓冀可行瞧。 2 工穰图的信息隐藏谯c a d 领域中舆囊冀大的意义。为了技术保密, 工鼹鬻程笈蠢鬟雩嫠镶蒿器姆箕黪装键倍惑( 舞足寸黟毒考料) 漶藏越袋,其中 大部分嚣簧隐壤黪髅怠是以文本方式存在熊。传统跳僖息溅藏楚遴过人王抟 方戏避行荚键文零拯取并熬黻黪藏稀实蕊鹣。率文撬出了瘸线拣努熊韵方滋 f l c n 0 3 ,来实瑗工程辫美缝文本鼹蠡旗撼彀,扶霞这飘王疆强僖怒隐藏熬 蠢翡。 本文在编构上菸分穴章,其体安排如下; 纂鬻奔鬃交零觳稚笼瓣懿穰念鬻鹜黎窳谖;瞒述了文零散据拣掇戆五矮麓 本搜术。 第二霉贫缮了工稷辫孛魏文零数爨,溪遴了文本数攮携巍凌工稔潮中翁耋婺 嶷熙;激基列出本文主溪匏穰究趱嚣。 嚣三露捺述了偿悫稔索耱綦本技术。研究了z 糕鬻文稻酌稿息校索方法,皖 袋了工程熙文撩捻豢郡簸文零捡豢瓣篷鬟,撬瞧了王雅霞镰惫竣豢审懿a 耱錾 方法,洋述了一个构建z 程图信息裣索系统的窳验步骤。 第器襄骜斑奔爨了髂塞豫簸黢赣装技术。奔缀了工疆餮交糖镶惫豫藏翁臻褒 意义,将文本分擞的方法引入到誓稳豳文档信息隐城中。比较了几个县体方法魄 霹簿魏,详述了一令懑遗文零线壤分类实襞王獠嚣串关键文零戆蠡旗瓣藏熬实骚 步骤。 熬玉枣臻囊誓羲粼瓣偿患羧索帮髅患戆溅鼹部分寝尉,实凝了个凝脊倍感 憋缀姥熊憋工稷毽梭紫系绫爨爨。 第六鬻我们对全文滋孝亍了憨辅,并捂出了潋焉迸步的研究方向。 l 舂 浙泼大学骠士学位论文 簿三_ 骜文本数播挖撼在王糕舞文挫梭索串靛瘟愆 第三章文本数据挖掘在王程图文档检索中 的应用 随着信患检索技术凌计算极匿联网越袋越广泛躲被蠖耀,各秘雾媒体数据纷 纷加入傣息检索对象魄才亍列。用户嚣要从互联鼹上庞大越数据集中找出慕秘类型 戆数据,裹不开薄渡类型数据懿倍感检索。尽管倍感检索菠术强前蔗轿究静熬点, 毽懊处予拐级蹬段,已投入产业、较为残熬浆文本文档倦惠检索箕麓户满意程度 较 螽,焉溺潮起步静多媒俸数据信惫裣索尚没有较好的实验结栗,部分类型的常 爝类型数撵涌没有加入劐馈怠检索韵行列。“任萋甜道遗”是当前信息梭索的较 为中肯的评价。 工程匿 怒工渣技术串鲎要盼数攒媒髂之。髓餐互联嬲在工业技术中发挥骜 越来越冀要的作用,用户对“工程闺”这一类型数据检索的需求也越来越急追。 截黧2 0 0 5 每底,巡没鸯丈逛搜索灏菇爨王攫璺缒入垒己的搜索数攒类羹。本节 将文本数据挖掘的方法,引入到工糕图的信息检索技术中,最终逶j 连实验寒涯黢 英霹抒浚。 3 。1 信惠检索的基本理论 信息检索是一个处于成长期麴鬏域,宅濑羞了与各耱媒体静襟撩帮检索宵关 熬广泛芰戆。霹寝谎信惑检索按零的应麓还簿常商黻。酋先,信惑梭索的对象数 攥类型鸯蹶。除了交本文褴的蓿患梭索技术叠经产簸纯懿外,其如诸如视频、音 频、图像游数据媒体的信息检索均停留在理论研究阶段,用户仅仅能通过互联网 检索到极少蓬真难需要的数据。其次,信息梭索躲鸯询方式有限。目前绝大多数 的信息检索系统均采用关键字匹配谶询方式,关键字套询的优点是系统复杂度较 低,其缺点为查询缝果灵滔性小、人牲化程度低 c o i 0 2 l ;镶息竣索控本终为7 一个经欺的人机交曩例子,与人机交互的橱獭相悸,说明了现有教系绞蹩鲣褥大 努改进懿。觳后,偿患检索瓣数据露更裁速发溪,眷禳多过辩的藏者已经被证明 1 7 浙江大学硕士学位论义第三章文本数据挖掘在工程瞬文耥检索中的应用 为谬误的干扰数搠往往能被检索到,还得到较高的优先级,给用户带来极大的不 馁 b b m 0 4 。 三个问题中的第一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中西医结合耳鼻咽喉科学知到智慧树答案
- 基于WPF的教育数据分析与可视化系统-洞察及研究
- 2025年度铁路货运代理货物装车及卸车服务合同
- 2025年酒店行业客房服务员派遣服务合同
- 2025车库使用权转让及车位配套维修合同
- 2025版跨境电商商业采购合同
- 2025版建筑垃圾清运及处置劳务分包合同范本
- 2025年大数据中心采购合同签订与数据安全协议
- 2025版企业文化墙定制墙体彩绘合同
- 2025版水泥运输服务标准合同样本
- 超声新技术新项目应用与发展
- 2025年全国新高考语文一卷评讲课件(共66张)
- 工程专项考核管理办法
- DB45∕T 1098-2024 橡胶沥青路面施工技术规范
- 2025年 江苏苏州昆山国创投资集团有限公司第一期招聘考试试卷附答案
- 应急管理局应急物资储备项目方案投标文件(技术方案)
- 公路养护应急培训课件
- 2.2 养成亲社会行为 课件+内嵌视频 统编版八年级道德与法治上册
- 2025秋数学人教二年级(上) 校园小导游:第1课时 认识东、南、西、北
- 洁净间5s管理制度
- 公交开通活动方案
评论
0/150
提交评论