




已阅读5页,还剩68页未读, 继续免费阅读
(计算机应用技术专业论文)互联网页文字信息分析技术研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在这个谂惑增筏簿常迅遥的时代,人们对信息的需求越来越多,越来越专业, 对信息的筛选要求也越来越商。一方面人类在学习过程中所获取的知识的来源途 径已经走向了互联网,露另一方嚣信息爆炸麴闯题越来越严羹。为了解决这个邃 题,全世界大量的研究人员尝试提供晕中更有效的机制来寻找翻表现海霪的接 爨。 本文瓣疆究菠是探求这方瑟斡些瑾论,实践与虚瘸攫絮。 第一黎耩述鹭联阐知识获取技术豹背潢。 第二章麓示献向蓬奎闯模整掰麓的知识点分类和多文襁摘簧绩台研究的成 果,其中主黉分析了k n n ,s v m 以及本文提出的模糊k n n 三种方法对知识点 划分的效果;提出了结合分类与链接分辑的多文楼擦要方法,以及利用涉及度进 行数据挖掘的原瑷。 熬三寒奔绥本文瓣实戏嶷鼷;a n t a r e s 嘲茭搜索系统。鼗章详纲浚嚼一个结 合镕怠过滤秘选撵的搜索弓l 擎的方方霆嚣。为熟秘实瑷羁类黧系缆撼供了一个良 好静范铡和僚签。 第器颦萼i 入谶义概念的耩率摸懋,对酶禽语义稔索( l s i ) 和w o r d n e t 徽了 简筚介绍,并提出了一个新的框架,作为对朱来发展的方向的一个探索。 嫒螽一章为总结与展袋。 关键字:搜索弓l 攀,要联翳凝,文本分类,多文楼撩要,链接分耩,隐鸯瓣义捡 索,概念空阅,词疆鼹络 a b s t r a c t a b s t r a c t n o w a d a y s ,t h ea m o u n to fi n f o r m a t i o ni ns c i e n t i f i cf i e l da n dh u m a ns o c i e t i e si s e x p l o d i n gr a p i d l y p e o p l ea r ee x p e c t i n gt h ei n f o r m a t i o nr e t r i e v a lt e c h n o l o g yt ob e m o r eo na m o m l t , h i g h e ro ns p e c i a l t ya n db e t t e ro nf i l t e r i n g 。t h e nt h en e w p r o b l e m s o c c u r :t h ew a yo f l e a r n i n gh a sa l r e a d ys t e p p e di n t ot h ei n t e m e ta n dw e b sf i e l d a n d o nt h eo t h e rh a n dt h ek n o w l e d g ei sb u r s t i n g 雌t os o l v eo u tt h e s ep r o b l e m s ,m a n y r e s e a r c h e r sa n dt e c h n i c i a n sa r et r y i n gt of i g u r eo u ta l le f f i c i e n tf r a m e w o r kt os a i l i n gi n t h ei n f o r m a t i o nw a r e h o u s e t h i sa r t i c l ei sf o c u s e do nt h ef r a m e w o r kt h a th a n d l i n gt h ei n f o r m a t i o ni nw w w b a c k g r o u n d w ew i l le x p l m nr e l e v a n tt h e o r i e sa n ds o m ei m p l e m e n t a t i o n s c h a p t e r1g i v e sa no v e r v i e wo nt h eb a c k g r o u n do f i n f o r m a t i o nr e t r i e v a l 。 c h a p t e r2i l l u s t r a t e st h ea c h i e v e m e n t o fk n o w l e d g ec l a s s i f i c a t i o na n d m u l t i d o c u m e n ts u m m a r i z a t i o nb a s e d0 1 1v e c t o rs p a c em o d e l f o rd e t a i l ,am e t h o d c a l l e df u z z yk n ni sb r o u g h tf o r w a r da n di sc o m p a r e di tw i t ht r a d i t i o n a lk n na n d s v mm e t h o d s t h e nam e t h o do fm u l t i d o c u m e n ts u m m a r i z a t i o nt h a ti n t e g r a t e d w i t ht e x tc l a s s i f i c a t i o na n dl i n ka n a l y s i si se x p r e s s e d f i n a l l y , a l la u t h o r i a lc o n c e p t n a m e dr e l e v a n td e g r e ei sb o u g h tf o r w a r df o r t h eu s eo f d a t am i n i n g c h a p t e r3s h o w sa ni m p l e m e n t a t i o no f a w e bs e a r c he n g i n es y s t e mt h a ti n t e g r a t e d w i t ht h et e c h n o l o g i e sm e n t i o n e di nc h a p t e r2a n do t h e re x i s t i n gm e t h o d s i ti sc a l l e d 蠢群翱嘞w e bs e a r c h s y s t e m t h i sc h a p t e rp r o v i d e sm a n yd e t a i l so nh o wt o i m p l e m e n ta nw e bs e a r c he n g i n ew i t hi n f o r m a t i o nf i l t e r i n ga n df u r t h e rp r o c e s s i n g t h i ss y s t e mp l a y sar o l eo f a ne x a m p l ef o rf u t u r ew o r k sw h i c hf o c u so ns u c hf i l e d c h a p t e r4i n t r o d u c e st h el a t e n ts e m a n t i ca n a l y s i sa n di n d e x i n gp r o b a b i l i t y m o d e la n dw o r d n a tp r o j e c t an e wf r a m e w o r kf o rf u t u r es t u d yi sp r o p o s e da tt h e e n do f t h i sc h a p t e r c h a p t e r5i st h ec o n c l u s i o na n dp r o s p e c t k e y w o r d s :s e a r c he n g i n e ,w w w , c l a s s i f i c a t i o n ,s u m m a r i z a t i o n , l i n ka n a l y s i s ,l a t e n t s e m a n t i ci n d e x i n g ,c o n c e p ts p a c e ,w o r d n e t 第一章概述 在这个信息增长非常迅速的时代,人们对信息的需求越来越多,越来越专业, 对信息的筛选要求也越来越高。一方面人类在学习过程中所获取的知识的来源途 径已经走向了互联网,而另一方面信息爆炸的问题越来越严重。为了解决这个问 题,全世界大量的研究人员尝试提供一种更有效的机制来寻找和表现海量的信 息。 第一代瓦联网搜索技术是在九十年代以手工阅读网页并主观分类归档为基 础的。典型的搜索门户网站的主页便是几个大类目录,其中再由小目录,更小的 目录来检索用户所需要的信息。这如同生态学中定义物种的门纲目科属种一样的 树状检索。这种机制的只有唯一的好处就是门类比较准确,很少无关信息,然而 几个缺点却非常明显而且严重,比如数据量过少,人力花销非常昂贵。而且在只 有第一代搜索引擎存在在互联网世晃网站只能通过其他渠道推销自己才能让其 他人知道,因为,做搜索的人可能根本不知道有这个网站存在而无从去阅读。 第二代搜索技术诞生之后,互联网世界开始有了翻天地覆的变化。搜索技术 最大的变化是用爬虫代替了人类,用机器学习代替了人类阅读。搜索引擎的存储 量变成了千亿级的海量数据。互联网世界中不再是一个个孤立的小岛,而成了错 综复杂结合一体的庞然大物。网站不再需要其他媒介,而只需在其他网站或者搜 索引擎上发布少量链接,全世界的用户就有机会找到这个网站。检索更为彻底, 其内容更为全面。而这种搜索机制的缺点就是检索得到的结果太多太杂,绝大多 数都是不相关,用户不关心的网页。再g o o g l e 出现之后,这一问题得到了解决。 p a g e r m l k 和其他一些对链接进行分析的算法使第二代搜索引擎从可用的搜索服 务发展成高效的搜索服务。而且当今的互联网世界充满了以搜索引擎为中心的商 业运营模式,机器爬虫给全球各地的公司企业带来了一种新的广告平台。 基于机器爬虫的搜索引擎是搜索领域的主流技术,在这个基础上,人们对其 进行着商业上,学术上等各方各面的研究和实践。本文从学术上研究这种搜索引 擎,提出使其更进一步过滤无关信息,满足用户快速浏览,为用户创造高速获取 知识的办法。这些研究的着眼点都指向了“信息爆炸”这个问题。 网页用户使用各种查询语句来寻找自己所关心的领域里的知识。没有经验的 第一躐概述 瓣页雳户猩蔼对茫然静海激文本辩。会不知所措。雨即使怒有经验豹用户仍然无 法摆脱不断的通过大量关键字获取信息的冗繁操作。一个通过特定训练得到的文 本分类系统,可以自动的鬻合文章,使用户可以鲞按获得他自己所感兴趣的莱一 个方向或类别的文章。同时,一个遁当的文本擒要暴统,更遴一步黠信息避行过 滤。在此以前的搬多研究多文档摘骚都集中在寻找相似,降低冗余,主题探测和 叁然语言生成豹方嚣【l ,司,嚣在溉联瓣这耱特殊驰茹| :凌下,运焉链接分橱寨灌 强多文档摘要的质爨和有效性。因此,搜索引擎和分类,摘要的结合,是一个值 褥发震豹方向。 第三代搜索引擎将以谢义分析技术为旗础来对文字和媒体进行更进一步的 分析和索弓| 。因为依靠简单的机器学习并不能很好的对海擞的,质缀无法保证的 嘲凝进行准确的详判。因为用户希塑的到翼准确,更橱关,更德仑人类自然语言 的分类和摘要机制。而且猩充满商桃的互联网中,商人会利用机器学习智能低下 戆漏漏链突子发霉误导程廖匏文字,扶嚣牟取嚣澜。奁逶义努辑戆技寒结合下, 文字将被机器更准确的理解。本文将对此徽一些开放型的探讨。 本文懿维缓结构鞠下;第二章介绍躲谈点分类亵多文档耩要络会磅究豹成 果;第三章介绍本文应用第二章的成果所实现的一个自定义网页搜索系统;第三 章警i 入对翻然语言分析静飘联网知识体系的框架和主要算法;第四章做出总结和 展耀。 本文的主要贡献是s c i 收录论文一篇: j i a n g q i nw u ,y 赫w n ,j i a nl i u ,y u e t i n gz h u a n g , m u l t i - d o c u m e n t s u m m a r i z a t i o nb a s e do nl i n ka n a l y s i sa n dt e x tc l a s s i f i c a t i o n ,i n t e r n a t i o n a l c o n f e r e n c eo fa s i a nd i g i t a ll i b r a r i e s ( i c a d l2 0 0 4 ) ,l n c s3 3 3 4 ,p 。6 4 9 , 2 0 0 4 菝及一令完整麴其蠢说明文穗窝技零掇告豹痘羯糕痔:a n t a r e s 隧凝攘索系统。 2 第二章知识淼转类与多文档摘要 第二章知识点分类与多文档摘要 2 。1 绪论 传统的藻于荚义文档分类主要没着两个方向走网:一种是基予参数蟾,在参 数化模型上分别对备种分类类别给出一个估计;而另一种则是非参数化的,通过 绕诗分橱帮逸囊投镶亲诗爨鞠。瑗今蓐者堡海淀露窥被广泛应爱予英文文橙分 类系统。然而在中文领域熙,单词并非简单的就能用空格分割。不过在嘲提供 了专霜熬串文訇法鞠词法分褥。 单文档自动摘鞭的发展追朔至1 9 5 0 年【6 l 。在w w w 茅h 搜索引擎的兴起后, 这个领域炎得越来越热门,已经有若干现成方法被开发出来f 1 ,2 1 。在单义裆的 领域里,几乎所有的早期研究工作都集中在“字段抽取黪摘要方法” ( s u m m a r i z a t i o nb yt e x t - s p a ne x t r a c t i o n ) 上,其中最一般的字段单位是一个句子。 在多文档攮要孛,晕期懿按本包括了图甄酝,最大边爨程哭,语言震残,袋黉矮 心聚类等【l l 。 圈2 。1 本章维织结构凝 第= 章知识点分类与多文挡摘要 本章芰器研究在互联溺搜索弓 擎中文零分类鞠文档摘簧的一熬薪辐麓和实 现。以下章节如图2 - 1 组织。 2 2 基于向量空间的文本分类 2 2 1 文本分类的任务 文本分类的任务是在给定的知识点空间中,对一篇文字内容进行分析,得到 一个关于这篇文本在知识点空间中的类别。计算机自动对文档分类,对人们进行 海量资料的分析和处理的工作有很大的帮助。现今的基于中文切词闸的文本分 类算法,其中比较流行的是对文本进行特征提取得到向量空间模型( c v s m : c h a r a c t e r i s t i cv e c t o rs p a c em o d e l ) 的算法1 9 1 。 本文也主要是用这种方法。其主要思路是: ( 1 ) 首先用已分类的具有一定数量的文章作为训练样本,对这些样本进行特 征提取,以向量模型表示,并产生词典。 ( 2 ) 然后,对未知分类的文章,进行相同的特征提取,然后同样以向量模型 表示。 ( 3 ) 接着,对训练样本集的向量和预测向量进行如k 最近邻域法或支持向 量机等的模式识别计算,得到预测向量的分类。 对文本分类的评估方法,本文采用中华大百科全书作为权威资料。训练库的 样本来自百科全书,并且遵循其分类。同时测试样本也来自百科全书,通过本系 统结果与百科全书规定的分类进行统计比较,以正确率反应评估结果。 2 2 2 向量空间模型 2 2 2 1 向量模型定义 向量模型是文本的一种表示。用向量y 表示一篇文章,向量的每个分量代表 4 第二章知识点分娄与多支档摘要 本章主要研究在互联网搜索引擎中文本分类和文档摘要的一些新拓展和实 现。以下章节如图2 】组织。 2 2 基于向量空间的文本分类 2 2 。l 文本分类的任务 文本分类的任务是在给定的知识点空间中,对一篇文字内容进行分析,得到 一个关于这篇文本在知识点空问中的类别。计算机自动对文档分类,对人们进行 海量资料的分析和处理的工作有很大的帮助。现今的基于中文切词翻的文本分 类算法,其中比较流行的是对文本进行特征提取得到向量空间模型( c v s m : c h a r a c t e r i s t i c v e c t o rs p a c e m o d e l ) 的算法例。 本文也主要是用这种方法。其主要思路是: ( 1 ) 首先用已分类的具有一定数量的文章作为训练样本,对这些样本进行特 征提取,以向量模型表示,并产生词典。 ( 2 ) 然后,对未知分类的文章,进行相同的特征提取,然后同样以向量模型 表示。 ( 3 ) 接着对训练样本集的向量和预测向量进行如k 最近邻域法或支持向 量机等的模式识别计算。得到预测向量的分类。 对文本分类的评估方法,本文采用中华大百科全书作为权威资料。训练库的 样本来自百科全书,并且遵循其分类。同时测试样本也来自百科全书,通过本系 统结果与百科垒书规定的分类进行统计比较,以正确率反应评估结果。 2 2 2 向量空间模型 2 2 2 1 向量模型定义 向量模型是文本的一种表示。用向量r 表示一篇文章,向量的每个分量代表 向量模型是文本的一种表示。用向量r 表示一篇文章,向量的每个分量代表 第二孽知识点分类与多文档摘要 文滚菜一个特征的权重。通常,将鬣可以题字,词,词组短语或者英他文本信息。 普遍认为,以词作为特征效果最好。因此,通过对文本切诞,产生文本的调集, 大擞的我们蓑心的文章的词集的并榘,作为词典,规定了每个不同的词是向量的 一令维,赋以一个投重,褥到文本戆囱量模型。即: v = 甑弗浮甑撑) 其中彬是词,彬v 燧这个词的权重( 2 1 ) 肆爨遮典d 巾词懿数量,- f 挺裁表调龚d 孛籀玲词 逶遘逶经过滤其中麴遣常认必没有实意,不髓代表文耄内容豹瘫词,| 三i 及各 种成语,或者使用非常广泛的实词,可大大向量的维度,提高效率。另外,词的 权藏可班使用布尔挺值,如用1 表示该词濑现在文章里,0 表示束蹴现,滚样y 是一个由0 ,l 组成的向囊。这种向量无法体现在一簇文章中出现多次的词与出 现一次的词产生的不同效果,因此又有用调频或者含有词频的权值代替0 ,1 的 表零方法,效果更好。篾擎戆调鬏霹以统诗每令诞鼹中懿谰在文耄密现懿次数; 另外目前流行的1 p i d f ( t e r mf r e q u e n c yi n v e r s ed o c u m e n tf r e q u e n c y ) 计簿公 式,氇是蒸予谣菝豹投篷袭示。 2 2 2 2 特征的权值表示 如上所述,权值可以用所谓t f * i d f 量值表示。这个t f 。i d f 的计算公式有 缓多,设蔑y 秀簌意递增丞数,掰键t f * i d f 捂豹是热下一羧遁数: v = x ( t f ) y 旁叫缈y 其审妒为该词在该文搂中瓣投重稼2 ) 为该词的在该文档中出现的次数,即词频 磅徙训练露中出现该词的榉本个数,i 霸其倒数 瑟本文采曩的这秘爨:较滚费弱诗算公式终戈t f t i d f 投重。 第= 墩知识点分类与多文档摘要 啊嘲哪北毖 赫) 其中,为诵练瘁静文章徉本慧数 表示训练库麓f 篇样本中的第_ j 个词( 2 3 ) 颤耪么) 受黪蔫襻零孛戆爨蕊这个诵瓣次数 咿( 。t ) 为训练库中如现这个词的文章样本个数 这种表示某个词在某麓文章中的权重方法的优点是,阏时考虑了两个影响运 的作用的方面: ( 1 ) 矿越大,一篱文章中莱令调出瑗戆越多,表示该谶越能反应文章痰容, 与文章主要内容关联也越火,因此权重应该与矿成正关系。 2 ) 移越大,爨现菜令逶熬文章越多,表示该键越酱遴,越没骞特豫会义, 与菜特定的分类的关系也越小,因此权墓威该与够成反关系。 3 谈鞴方法 忿& l 蠛( 薹【最近罄域法) 方浚 怼嘻n 舞法煞穰要蹩,疆取羲涎样本静特征终海蠢薰,对谖练疼垂瑟蠢戆诵 练样本进行求距离运算( 点乘距离) ,在与预测样本距离最近的前詹个样本中, 氇就是与预溯样本袋邻近豹孟个群零中,按照祥奉所属的分类分荆进行邻邋度的 累加。累计最大的分类,即算法所预测的结果。这就是所谓最近邻域算法。参数 量的取值并没有很好的确定方法,本文选用詹= 3 0 。 具体步骤如下; ( 1 ) 对选取的醴分类的文章进行特征提取,产擞词典和训练库。 ( 2 ) 戳滔典失鹜景,诗爨要霰涎静襻零擎戆淘繁鹣。葵势量为样本p 熬遮静 t f * i d f 中,矿为p 的词频,而妒在训练靡中统计。实际上,训练库确定厩,够 茸虢谎是诵豹霾定耩经,放入词典中,每次预测其嚣调霜邳可,不祷毳次统计。 当避换训练库时,熏做( 1 ) ,随即重新统计。 ( 3 ) 计算p 与各个训练样本海擞k ,i 的邻近度群娥k ,k ,i ) ,其中下标# 表示 6 第= 雅知识点分类与多文档摘要 诵练榉零所属豹分炎,下标i 为谢练样本的穿号。其中邻近度如下定义; 螂陟隔 ( 2 4 ) 秘) 对邻近发蒙大戆k 令撵零孛,禳据祥本承演熬类麓,分鬟累诗每令努类 c 的邻近度: c l a s s ( e , c ) - - z 6 ,( 匕,圪,。) i ( 2 - 5 ) ( 5 ) 馒o a r s ( p , 囝最大瓣分类瑚,便是这令羧溅样本袋瘸戆k n n 努类。 2 2 3 2s v m ( 支持向量机) 方法 支持向照机是目前新兴的模式识别算法i l o l ,为了更全面分柝中文文本分类 静技术,本文将s v m 篓法与k n n 算法遗短跑较。因为不露懿摸疆逶蜀懿领域 也不相同。在一些领域中s v m 算法有很好的表现,但也不能排序另一些领域里 煞羧采羝下。 s v m 紫用的有四种定义内积的核溺数,即线性( l i n e a r ) ,多项式 ( p o l y n o m i a l ) ,径向基函数( r b f ) 以及s 型函数( s i g m o i d ) 。在我们的测试中, 选择s i g m o i d 内积蘧数,爨为这个梭函数的表现最佳,分类效果最好,其中参数 选取b = l ,c = 2 。其核函数如下: 蛳,= 蛐掣+ c ) 本文s v m 模式识巍分蹙的算法步骤魏下: ( 1 ) ( 2 ) 与k n n 算法致,进行训练艨特征提取与相关准备。 ( 3 ) 输入库中每个分类的诩练样本的特征到s v m ,建立以内积为s i g r a o i d 函 7 第二章知识赢分巢与多文档摘要 数黪模型 ( 4 ) 用模型鞭溅p 样本蛉定量羚,褥到琢爨耩瓣分类 2 2 3 3 搂襁势类( 垂锄帮c l a s s i f i c a t i o nm e t h o d ) 农大参数媾况下,一令文狴势誉只毒一个类登属牲。犬郯癸文章霹熬涉及一 令或多个瓣知识点。然露,上述懿方法在分类上都是缝对姥熬。爨戴,本文提老 了一释模糊酌分类方法。这个方法邋孺与戤n 酌分类。在船畸n 分类静结聚, 实际上是褥戮了一个豁分类类巍为下标静数缀,簿个元素辩皮子文档p 鹣对桶瘟 分类的邻近魔c ( 由算法所示,实际上是与该分类所有训练样本邻近度的累加) 。 最后通过幽大到小韵摊序,凝大的瑚膊辩成的分类为文档所属分类炎剐。貌们 可以在邻近魔数组的c o ,c 1 。c 2 序列中,得知该文档除了与最大邻近度对陂类 裂豹属性,与第二大戆邻避度对瘛类别巍骞摆当大瓣关系。毖较冀众瓣邻趣度 c l ,也与粕的值的大小,我们褥到了模糊分粪的定义:若掰鸯类别中螅累计邻近 痰最大僮为童i m 。,麴莱莱个类别熬爨诗懿邻近度数德蚤大予拜萤i m 。,戢者程菜 常数蕊滋上,都么邀麓群本僵潢予逡个类裁。实验审,取或一0 3 ,寤= o 。5 。事 实上,用歪低韵参数一定会使正确率上升,但这必然导致不精确,因为降低参数 籀当子让这个预溯样本也属予稆对不都么邻避豹类渤,导致类澍太潞。用公式表 迭如下: r ( e , c ) = 1 1 l 。d 。0 + 3 5 1 0 其能 当y ( p ,0 = 1 时,袭永文橙臌糊属予蹼 模凝分类鸵其镕效果,将在套厦露测试谔菇黪辩娱佟洋缎说骥t 葚 ( 2 - 7 ) 第二肇知识点分类与多文档摘要 2 3 基于文本分类与链接分析的多文档摘要 2 3 1 文耥摘要任务 文档摘鼹是用计算机自动对一篇文档进行分析,用远少于原文耥长度的宇数 反疲原文档瓣主要内容。长期戡= 来,文档攒要裁鸯薅秘思路,印撼炼窥攘聚。对 于人为的摘要,人们倾向乎理解文章内容,提炼出简要的文字概括藏篇文章的内 窖。餐黠予诗算撬寒诞,瓣囊誊受会瑾窝有效豹是镬霜攘录l l l ,甏在文摆孛选择 最能代表该文档内容的若干句子,作为这个文档摘要。 快速文档攘要楚磊前激为流幸亍豹一释擎文挡藏藉算法 1 1 1 。它的特熹怒舞法 简单快速,效果也较好。我们的系统以这个算法为蕤准,提如了基予网页锻接分 析的多文档摘要的瓣路。 2 3 2 多文挡的数据结构 酋先说明文章的数据结构。多文档集擞由若干篇文档缌成,褥文档r 是句 子的集合,任意句子s 是词的集合,而这数词矿怒词典静中所存在的词。即: t s = 五,e ,正,五, 霉= 篷p s p 基j ,s t 舻 s i j = 彬 l ,彬 2 ,彬 3 ,形 4 ,。 彤j j d ( 2 - 8 ) 其中,i 代表文档集中文档戆下栝,歹代袭每簇文搂孛锈子熬下耩, 嚣k 姣表 每个句子中词的下标,这燎下标在后文中还会出现。句子s 和词胪都有单一的 教燕1 | | 墓经,分鬟记沟爱甲耧缪v 。 第二谁知识点分类与多文档摘要 2 3 3 文档摘要的算法 2 3 3 1 快速文档耩簧的基本恩想 快速文褥孺要算法仍然是基予向量空淘模垄静算法。萁主要步骤是: ( 1 ) 对髓标文鬻t 进行特征提取,获褥以词典中的词为维的向爨h 这个晦 量每个维上的值该维对应的词的t f * i d f 鼙值。这个向量矿反映了每个词在文章 中以及整个训练摩紫景中的霆要程发。这部分与文本分类方法据嗣。鄄多文档孛 出现的所有词的权值w v ( 任意下标) 在邋尾全部可求得。 ( 2 获褥了这篇文章墨调豹投豢。在经溶一令锈子焉孛( 因戈遮重善笼讨论 单一文档,所以下标f 舍去) ,对词的权重进行累加作为句子最的权值。 薯v - - ( 2 - 9 ) j ( 3 ) 文寒r 赝鸯的句子都其毒投蠖,经过 澎,句子权僮最袁豹羞于甸诿传 为摘要。 2 3 3 2 文横据题的影嚷 一麓文摩中的匈予如果稠这篇文章的题垦有特征楣近螅话,这个句子与文章 主蹶也会比较接近。因此,我们对每个句子除了原本的t f * i d f 外,还可以对每 个镲子辫热一令与撂蘧豹关联度投蓬。这令权重毒定义兔镣令匀予拳謦薤囱鬃每禄 题特征向量的余弦距离,即: 。褊 其中巧是文中第f 匈的t f + i d f 向量,k 是标题的t f + i d f 向t 因此,在任意个句子岛的枚俊可如- f 修正: s r v = ( 1 + d ,) 。 1 0 ( 2 1 0 ) 弦- 1 i ) 第= 精知识点分类与多文档摘要 其指数秽是标磁粳重的影响参数,为了使文档标题的影响变大,我们设定疗 - - - - - 3 。 2 3 3 3 评绱方法 对手豁何签定摘要豹搿环,我雷j 采用准确率,鸯金率评嵇方法。这个方法酱遍 应用于文字处理方渐的研究。我们荫先对摘要对象进行人工的阅读,标出主题相 关向,以及冗余旬。一个好的摘要系统,如果摘要禽有所脊的主越相关旬,而不 含冗余旬,我们就称这个系统是优秀鲶了,尽管在一致性,可读性上还与人工擒 要脊一定豢距。因此,我们假设: 霸攘要串烹题据关每懿个数 芷为摘要中旬子的个数 a g 必原文章孛主题攘关甸豹令数 那么,准确率p 与查全率置,还有f l 黼数如下定义: 户。上 置 r 。 材 f :塑 1 ( p + 盖) ( 2 - 1 2 ) 但是,当文章比较长,主题相关旬比揍囊本身还要多的时候,焱全率盼值便 有所偏差,因此,我们采用标准化了的查仝率置,以及相应的f l 弋 r ,: 生 m i n ( m ,置) 。, 2 2 p r 片2 两丽 1 ( p + 冀) 陀- 1 3 ) 第二鞲知识点分类与多文档摘要 结合链接分析的多文档摘要 2 3 。4 1 根据互联潮络结构瓣链接分析确定摊序权黧 霭页链揍结构分析是黼予阏页攘索弓| 擎的一琐技术。裔前p a g e r a n k 算法与 h i t s 算法簿,都照对互联网络图的幂次迭代方法,计算出网页的价值度,或者 中心性,权威性隅8l 。因此通过链接的结构,是可以得到来自网版的多义档集 的文档的毅 廖权耋( d o c u m e n tr a n k i n gw e i g h t ,d r w ) 。这对羁贾性质数多文栏 集,或者嚣相引用的学术论文集有很好的使用价值。 本文采雳p a g e r a n k 算法俸为鬻茭文毯捧事瓣依握嘲,详缨霎法将在繁二章 详述。其绪果是对察文档集器中的每个元索文档船给定一个权重,记为最如。 2 3 4 2 一羧海量羲蕹炎辩豹簿序鬏熏 一些麴图书馆瓣录分类,或考旗案瘴鬟魏姿辫,没毒明显鲍链接缝稳,羹l 霉 以根据目录来对这魑文档指定排序权重( d r w ) 。这个排序权重甚麓可以表达是 我稍关注豹菜部分文撞,黻久秀豹方式影响擒要终莱。 同样,我们把权重记为噩邯。 2 3 4 3 捧稳粳重瓣影响 在诗冀句子投蒸薅懿2 ,1 1 ) 式,考感到多文毯,霆魏各顼多7 下标厶褥黯入 对文章权慎的计算变成如下等式: 篷= g 。v p ) 8 x l + 癖。) 8 鬈 滞 d 稼一l 餐 其中指数口为文档权徽的影响参数,待定,与p a g e r m l k 方法或者其他排序 鬏覆( d r w ) 嚣取馕毒关,魄熟联馕0 。5 ,霹摇霹骚铯这个权篷懿影穗( 取l 戆 话,p a g e r a n k 影响太大,导致大缀排在前面的句子都来自少数几个文章,并不 2 第二章知识点分类萄多文档捕受 符食摘要盼圭罄) 。 第二步,对所有文档的所有句子的枚煮进行排序,找出枚值最高的若干旬作 为这个多文档集的摘要。 2 3 毒结合翔识煮努类静多文档擒娶 2 3 5 1 多文楼攮要与魏谖点努类缝合 多文档集禽有很多番不相同的内容和文章时,并不能很好的进行合理摘要。 这一点是菲常驻然的。嗣为不同的知识点的文章,其中作为特征的词的分布程不 一致,这样导披相差很远的词,在不同的知识点范畴下获得棚近的t f * i d f 量值。 然两簧说对文章静贡献翱近,却叉无法比较,甚至怒不台理韵托较。西北,若闾 时进行分类和摘要,可有效地集中摘要对簸,使摘援效果更好,也更合理。在前 面艨运静两个舞法串,褚| 练痒曹景弱是平氖的律为一个统一静知 昃背最,绘矗鑫 一般的情况f 哪些词是震要的。然而在分类的方法中,训【练库就作为分燕的一个 稳檬。晓鲡辩于新闻黧的攘要鬟彀,调练瘁可鞋逸耩镑对耨闻分类鹣健表文章。 2 3 5 2 知识点分类酌选择 本文戆系统选弱煎燕中蓬犬嚣辩垒警规定豹分类,一一共选取3 9 个分类,在 本章最后的结粜部分有详细说明。以这个知识点空间建立的训练库,可以将文本 在基本上是全范基豹知谖轰癸类主遴螽划分。贯一穷舔,选取捌熬翔谈轰空闯静 划分,也可阱建立相应的训练库,比如对体育新闻锵兴趣的人,会建立只有体育 薪闻类与其德类这鼹摊势类螅铡练疼,然爱霉建巍各秘蒋蠢运动静分类( 拯避 球,稠径等) 的训练库。这样他可阱通过两次分类远到他对体育新闻范畴的文章 进撑分类譬懿。因此,我们强调豹是一耪个性纯匏分裘系统,劳且试鼙遥过篱擎 的方法,使个性化的自动分类得阱实行,再配合摘簧功能,实现实用的阙页学习, 以及海量数挺的知识获嘏。 第二章知识点分类与多义裆摘要 2 3 5 3 魏谈赢分类粳重酌澎瞻 蓄先,瓣指定瓣菜一类銎c ,辩多文档集露熬每个文档迸嚣k n n 分类方法 的处理,选择分类为c 的文章进行摘要,其他文章禽去。并且,以对该分类的邻 近度作为文档分类粳重( d o c u m e n tc a t e g o r yw e i g h t ,d c w ) ,与文档摊净权重 ( d r w ) 一样,趋摘要所考虑权羹的一个因子,记为噩蚝。 第二步,对所有属于这个分类的文章谶行多文档摘要算法,如前所述,但算 法中的绉- 1 4 ) 式要遴行修改,添热一个文楼分类投鬟( d c w ) ,嚣: 卅 最,“= ( 霉b ) 8 ( 霉v o ) 芦( 1 + 最,) 8 彬 女_ v ( 2 1 5 ) k - l 其中指数,为分类权重的影响参数,特定,与分类方法的结果有关,比如取 值o 5 ( 取l 的话,分类影晌太大,导致夫薰排在前面的甸子都来自少数几个文 章,著不符合攘要的主罄) 。 最后,对所有参加摘要的文档的所有甸子对分类的权羹进行排序,找出权值 最舞戆若予霹终鸯遮令多文档集对分类e 豹揍要。 2 3 6 自动且完全的分类的多文档摘要:一种新的数据挖掘角度 2 3 6 1 自动且完全的分类 对未知的多文耥集,有时并不知道这个多文档榘含有哪些内容威主题,因此 鬟簧菜秘方法,诗冀辫表示多文档繁孛熟谈蔗靛分农。当霉瓣这令躲谖熹分毒嚣, 才对其主要的知识点进行掇取摘要,这便可以更为鼹体细致地反应一个多文档集 豹主要蠹客。这是本章鬟麓,也怒集中前两掰述的所有技术豹方法。 对一个多文档集嚣,用一组数米表示这个多文档集的内容所涉及的知识点。 首先,为了达成可能的方法可以是掰聚类算法,即将多文档集根据提取特征所得 的向量进弦模糊k n n 聚类或者其锻方法蛉聚类,使多文掇骞动分成若干类别, 每个类别若干个文梢,得到分类的效果。然而聚类分类的结果是不确定的,人们 1 4 第二黛知识点分类与多文挡摘要 掰笑心确定静分类静莓静不能满慧。眈如在指定域德或指定粪剐数两的聚炎结莱 会存在中心与训练麾不合的聚类,但我们必须给每个类别一个名词表示这个类 别,此时将无从下乎。因此,在自动分类的算法中采用确寇类别的分类,也即上 一糖分类的拓展。 2 , 3 6 2 涉激度( d e g r e eo f r e l e v a n c e ) 如上掰述,要表示多文档集数内容所涉及的知识点的藿要程度,或者关联 程度,本文提出一个目q 傲沙及度敕爨:通过对每个分类累加匈予枚重磊,可获 得指定类别c 的涉及度露c ,即涉及这个类的一个测度,用以标定这个多文档集 鸯多少售感食量霾予菜令撩定鳕类: 鬈。冀。+ v 怒2 轰 ( 2 一1 6 ) 显然,当最= 1 时,整个多文档完全只禽一个类别的信息。此时其余类型的 题一0 。藩簿令分类的涉及度维成酶涉及爱蠢量我袭着该多文搂集鹃实际蠢容谈 向: 哭= 慷憋您) ( 2 - 1 7 ) 显然这个涉及溲彝量黄艨有分鼙静弱等予l 。震在菜耱程凄上蹴擎纯静分类 更细致的描述了多文档集的属性。通过涉及度向量,可以脊针对性的按分类提取 摘疆,满足人们对海量信息挖掘知识的目的。由予盈的各个分量的和为1 ,将r 的分量数德均换成羲分数,在表示多文档集的知谈时有比较好的效果。 第二章知识点分类与多文档摘要 2 3 6 3 多文档自动与完全分类的摘要流程 简而言之,就是先计算多文档集的涉及度向量,选出涉及度最大的若干个分 类,分别进行提取摘要。其中涉及度的计算,首先要按( 2 1 7 ) 式得出每个句子的 权重,然后再通过( 2 - 1 6 ) 式进行累加求得。最后,可以得到按训练库的分类,每 个分类各占百分之几的图表( 在本章2 4 节实验结果部分) 。 2 4 实验结果与讨论 2 4 1 实验模型说明 本文的实验数据来自中华大百科全书。理由是百科全书有完整的知识点分 类,并且有大量的文章可供做训练样本以及测试样本。为了更好的测试,我们首 先找出几组文档集,或者样本集。 ( 1 ) 全训练库:全训练库是我们在大百科全书里选用3 9 个分类,其分类如表 2 1 。 1234567891 01 l1 21 3 地地 电 享 法纺化环 箍 建交 警 经 筑通 鋈 学 织学 錾磊 理 霎 影 蓑 学 1 41 51 61 71 81 92 02 12 2 2 32 42 52 6 置 考矿力美民 农轻杜 生数 水 薯事古冶学 术 族业 工 会物学利 学学 学 2 72 8 2 93 03 13 23 3 3 43 53 63 73 83 9 天土 外 物戏 器 心 囊 霎 哲政 d a 宗 学 治 田 教 学 文 理 耄宇史 文 束 田理剧 攀 学学 t 文学 程史 表2 - 1 大百科全书所有的3 9 个类别 其中每个分类挑选了2 0 篇有代表性的文章,总共7 8 0 篇文章作为训练样本。 1 6 第二荣知识点分类与多文档摘要 经过特征撬取后,生成词鼗和诩练库,便怒全训练库。 ( 2 ) 全测试集:企测试豢含有如上所述分类的6 3 0 0 多篇文章,每个类别文章 数麓不等,随机从酉科全书中抽取。测试遮些文章的分类,与百科众书的分类比 较,以检测分类的派确率。 ( 3 ) 部分训练库;部分训练库怒只含脊电子学与计算机炭,体育类,以及宗 教类三令势类豹慧共国繁铡练襻本生盛懿溺葵巍溺练痒。准备这个湄练滗静嚣 的是用三种距离很远的知识点,可以有效撤观察系统的性能。 ( 部分溅试集:与部分调练库一样袋含有电予学与计算机粪,体育癸,以 及宗教类三个分类的样本,菇中“电子学与计算机”类9 4 篇,“体育”类9 s 篇,“宗 教”类2 3 0 篇,共4 1 9 篇。这个测试集用于对应部分训练庠的分类测试,以及对 应众调练露的接要测试。 2 4 2 各种知识点分类方法的测试与比较 2 4 2 1k n n 和s v m 比较测试与络果讨论 用前筒所述的k n n 与s v m 为识别方法的文本分类算法进行系列测试。采用 郝努测试集( 对应部分训练疼) 蛉结果以及全测试集 a c o者岱罐,菰谈失羲测群本霾予这令分类。黧祭滚是条终鹣 分类多于四个,那么取近似度最大的四个。并且,如果最大的近似度秭 d ,那 么认为预测样本不属于任何分类。 分类线程进入下一个循环,再获取一个未分类页面,进行分类。若数据库表 中所有页面已经分类,线程中止。 管理员可以通过应用程序界面输入停止线程的命令,通过分类器中止线程。 这个中止是非精确的,如图3 - 1 0 可以看出,只能在循环与循环之间中止线程。 3 3 2 5 监视器 图3 - 1 1 删晤 塔监视器数据流图 第三章自定义网页搜索系统的实践 监视器w a t c h e r 的数据流图如图3 “。 每个项目的监视器可产生指定数量的监视线程。监视线程对项目给定的监视 地址下,以监听间隔参数指定的时间间隔进行反复的连接和下载,监视其页面是 否更新。管理员可以对每个要监视的u r l 指定查询串,以便在报表器中获得更 好的服务,跟有效的反映使用者所关心的页面与内容。 监视线程的构造与爬虫线程类似,都是读取w w w 环境的信息,并对数据库 进行更新。区别在获取u r l 的方式以及对页面进行的处理方法。 监视线程从管理员由界面输入的监视u r l 列表处获取u r l ,如果这个u r l 在数据库“页面数据表”中已存在,则由数据库中获取。倘若上一次读取这个u r l 的时间至此已超过监听间隔,监视线程获取这个u r l ,并建立连接,下载页面。 在分析完页面文本后,若“页面数据表”中这个页面不存在,则将页面插入数据 库;若已存在这个页面,比较两者,若新下载的页面没有更新,那么只修改页面 的更新时间,否则更新页面内容,并标记页面己更新,这个标记将在报表器中被 使用。接着线程进入下一个循环。 管理员可以通过应用程序界面输入停止线程的命令,通过监视器中止线程。 这个中止是非精确的,如图3 1 1 可以看出,只能在循环与循环之间中止线程。 3 3 3 前台功能模块 3 3 3 1s e r v l e t 服务界面 s e r v l e t 服务界面由t o m c a t5 0 提供。 在来自用户对服务的请求中,系统只处理用户的两个请求,即g e t 请求和 p o s t 请求。其中,对g e t 请求的u r l 后以“? ”传入的参数进行分析,可以分成 初始g e t 请求,分别对应检索和报表的“新查询p o s t 请求”,“翻页g e t 请求” 以及对应于摘要器的“摘要g e t 请求”。因此,服务界面有六个入口。其中g e t 请求所得的页面参数都是前一次新查询p o s t 请求所确定的值,g e t 请求不进 行新的查询操作,并不产生新的页面参数值,而是使用u r l 参数与已建立在内 存里的数据进行翻页或摘要操作。p o s t 请求都会刷新当前会话中所保存的数据。 第三章自定义网页搜索系统的实践 图3 - 1 2a n t a r e s 服务界面数据流图 当s e r v l e t 确认了用户请求入口后,根据参数调用各个模块,获取用户所需要 的信息,形成响应返回给用户。其中,摘要器不能从初始页面启动,必须在检索 器或报表器产生了结果响应页面之后,才能在响应页面里产生g e t 请求。 具体流程如图3 1 2 所示。 一 差三蔓旦塞墨旦要堡室墨堕塑壅堕 淘3 - 1 3a n t a r e s 藏务秘始舞西 图3 1 3 所示为初始g e t 的晌寂界面。而表3 3 列出这些入口传入参数的详 缨帱况。 模块餐麴捡素器缀表器撬要嚣 请求初始新查询翻页新查询翻页 摘要 r e q u e , t g 玎 o 鳃g l 塾瞅6 i 滓g e 攀 i 藏面参蕺 s e t h lm 碍非 n u l l“s e a r c h ”“s e a r c h r e p o r t r e p o r t r e p o r t 勾选静类勾选静懿垂数组匈选静娄蠹数垂 簸箍参羲 n u l jn u l ln u l l id 盔型数组 ( 前次i ,o s t )( 前次p o s t ) 第三章自定义罔碾擅索系统的实践 援
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 抚州市中石化2025秋招面试半结构化模拟题及答案油田工程技术岗
- 国家能源济源市2025秋招半结构化面试模拟30问及答案
- 中国广电漯河市2025秋招行业常识50题速记
- 中国联通贵港市2025秋招综合管理类专业追问清单及参考回答
- 中国联通山东地区2025秋招面试无领导高频议题20例
- 2025年职高冲刺考试题及答案
- 七台河市中石化2025秋招笔试行测50题速记
- 四平市中石化2025秋招笔试模拟题含答案新材料与新能源岗
- 信阳市中石油2025秋招面试半结构化模拟题及答案新材料与新能源岗
- 中国移动白银市2025秋招面试无领导高频议题20例
- 2025年职业培训学校建设项目可行性分析与初步设计方案报告
- 旅游项目可行性分析报告
- 保险业务员述职报告
- 中心静脉深静脉导管维护操作评分标准
- 导尿术操作护理课件
- 推进班组信息化建设:利用信息技术提高工作效率
- 2023年上海市虹口区初三一模语文试卷(含答案)
- 优势视角课件完整版
- 花城版音乐课时15-第12课 走近戏曲(一)观赏京剧学习念白-京剧丑角的念白《报灯名》-课件
- 《食品安全法》与粮食质量安全专题培训课件
- 2023年安康市交通建设投资集团有限公司招聘笔试题库及答案解析
评论
0/150
提交评论