




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)web文本摘要技术的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 中文摘要 随着万维网的迅猛发展,用户可在线获得的信息量呈指数级增长。面对如 此浩瀚的信息,人们迫切需要寻找一条能够快速、准确获得所需信息的途径, 因而出现了多种文本处理技术,包括信息检索、文本分类、文本摘要等。 文本摘要技术因其既可以压缩文本,减少用户的浏览负担,又可以为其他 文本处理技术提供支持,逐渐成为国内外研究的热点。本文研究了以w e b 文本结 构为指导、以机械摘要为基本手段的自动摘要方法,并对其中涉及的文本结构 分析、关键词提取、摘要生成等关键技术进行了深入研究;然后对获得的摘要 进行聚类处理;最后,给出实验结果并进行深入分析。本文主要的研究工作包 括以下几个方面: ( 1 ) 本文首先概述了w e b 挖掘的定义和分类,以及w e b 文本挖掘产生的背 景、基本概念和应用方向;同时阐述了自动文本摘要的发展历史、类型、技术 和评价方法。自动w e b 文本摘要是本文重点研究的内容。 ( 2 ) 本文在深入分析w e b 文本的结构特征的基础上,研究了在j a v a 语言 中运用正则表达式实现w e b 文本解析的关键技术,并给出核心实现过程。 ( 3 ) 本文研究了基于扩展的t f - i d f 方法的摘要技术,其主要步骤包括: 首先过滤停用词,然后计算词和句子的权重,再将句子按照权重高低排序,排 在前面的若干句子按照在原文中的位置顺序输出即为该文章的摘要。经过内部 评价,该技术获得的摘要效果较好。 ( 4 ) 本文深入研究了各种聚类方法,并对这些方法的优缺点进行总结和比 较。同时给出获得摘要的具体实验过程,最后对摘要采用经典的平面分割聚类 算法:k - m e a n s 算法,进行聚类处理。最后将摘要进行聚类的结果与对w e b 文本 直接聚类的结果进行比较,证明本文研究的摘要技术获得的摘要效果较好。 关键词:w e b 文本摘要,正则表达式,t f - i d f ,w e b 文本聚类,k 均值 武汉理工大学硕士学位论文 a b s t r a c t a st h ee x p o n e n t i a l l yi n c r e a s eo fu s e r sa c c e s s i b l eo n l i n ei n f o r m a t i o n , t h e t r a d i t i o n a lp r o c e s s i n ga n dm a n a g e m e n tt e c h n i q u e so nt e x td a t a 啪n o tb es a t i s f i e dt o t h ev a r i o u sd e m a n d so fu s e r sa n yl o n g e r i nd e m a n do fa ne f f i c i e n ta p p r o a c hf o rs e a r c h i n gt h eu s e f u li n f o r m a t i o n , r e s e a r c h a n da p p l i c a t i o no fa u t o m a t i ca b s t r a c t i o nh a sr e v i v e dt h e s ey e a r s o n em e t h o do f a u t o m a t i ca b s t r a c t i o nb a s e do nt h es t r u c t u r eo ft h ew e bt e x ta n dm e c h a n i c a le x t r a c ti s g i v e ni nt h i st h e s i s t h ed e 印r e s e a r c ho ns o m ei m p o r t a n tt e c h n o l o g i e si n c l u d i n gt h e a n a l y s i so ft h et e x ts t r u c t u r e ,e x t r a c t i n gt h ek e yw o r d s , a n df o r m i n ga b s t r a c t i o ni s i n t r o d u c e d t h e n , t h ec l u s t e ro nt h eo b t a i n e de x t r a c t si sd o n e a n dt h ee x p e r i m e n t r e s u l t sa n dt h ea n a l y s i sa r eg i v e n t h em a i np o i n t so ft h i st h e s i s c o n t a i n : ( 1 ) t h ed e f i n i t i o na n dc l a s s i f i c a t i o no ft h ew e bm i n i n ga r ea b s t r a c t e da tt h e b e g i n n i n g a sw e l la st h eb a c k g r o u n d , b a s i cc o n c e p t sa n dt h ea p p l i c a t i o n so f t h ew e b t e x tm i n i n g a tt h es a m et i m e ,t h ed e v e l o p m e n th i s t o r y , s t y l e , t e c h n u l o g ya n d e v a l u a t i o no ft h et e x ta u t o m a t i ca b s t r a c t i o na r ee l a b o r a t e d t h ea u t o m a t i cw e b a b s t r a c t i o ni st h em o s t i m p o r t a n tp o i n ti nt h i st h e s i s ( 2 ) t h ew e bt e x ta n a l y s i sm e t h o d sb yt h ej a v ar e g u l a re x p r e s s i o nb a s e do n a n a l y z i n gt h es t r u c t u r eo ft h ew e b t e x tt h o r o u g ha r ed e s c r i b e di nt h i st h e s i s ,i n c l u d i n g t h ec o r ei m p l e m e n t a t i o np r o c e s s ( 3 ) s o m er e s e a r c hw o r k so ft h ea u t o m a t i ca b s t r a c t i o nb a s e do ut h ee x t e n d e d t f - i d ft e c h n o l o g ya r ed o n e i t sm a i ns t e p sc o n t a i n :l e a c h i n gd i s p e n d i n gw o r d s c o m p u t i n gt e 珊s a n ds e n t e n c e s w e i g h t s a n do r d e r i n gt h es e n t e n c e sb yt h ew e i g h t t h es e n t e n c e sw i t hh i g h e s tw e i g h ta r et a k e na sd i g e s t - s e n t e n c e , w h i c hw i l lb e e x p o r t e di na c c o r d a n c ew i t ht h e i ro r i g i n a lt e x t a c c o r d i n gt ot h ei n t r i n s i ce v a l u a t i o n , t h et f - i d ft e c h n o l u g yw o r k sm o r ee f f i c i e n t l y ( 4 ) l o t sk i n d so fc l u s t e rm e t h o d sa r ed e s c r i b e d , a n dt h ec o n c l u s i o na n d c o m p a r i s o no nt h e i rm e r i t sa n dd e f e c t sa r eg i v e n m e a n t i m e , t h ep r o c e s so ft h e a u t o m a t i ca b s t r a c t i o ni s g i v e na n dt h ec l u s t e ro p e r a t i o no ua b s t r a c t i o nm e n t i o n e d a b o v eb yt h ec l a s s i cm e t h o dk - m e a n si si m p l e m e n t e d a f t e rc o m p a r i n gt h er e s u l t so f 武汉理工大学硕士学位论文 b e i n gc l u s t e r e dw i t ht h er e s u l t sf r o mw e bt e x tc l u s t e r e dd i r e c t l y , i tp r o v e s t h a t a b s t r a c t i o nt e c h n o l o g yt h a tp u t sf o r w a r di nt h i st h e s i sc a nw o r km o r ee f f i c i e n t l y k e yw o r d s :w e bt e x t a b s t r a c t ,r c g i l l a re x p r e s s ,t f - i d f ,w e b t e x tc l u s t e r , k m e a n s 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:盔庭盗日期:塑z ! 至! ! 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:j 避导师签名:趁日期:2 型z = 竖 武汉理工大学硕士学位论文 第1 章绪论 1 1 课题研究背景和意义 由于以i n t e r n e t 为主体的信息高速公路的不断普及和发展,信息技术已经 渗透到社会生活的各个角落,正以前所未有的速度和能力改变着我们的生活和 工作方式,我们正处于一个“信息爆炸”的时代。一方面,i n t e r n e t 上面蕴涵 的海量信息远远超过人们的想象;另一方面,面对信息的汪洋大海,人们往往 感到束手无策,无所适从,出现所谓的“信息过载”和“信息迷失”的现象。 于是,一个极富挑战性的课题:如何帮助人们快速有效地选择和利用感兴趣的 信息,即信息处理技术,成为学术界和企业界所关注的焦点。近年来,在线文 本的日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网 上图书馆等等,如此众多的信息,仅仅依靠人工来收集和整理所需要的信息显 然是不现实的。所以自动收集和整理所需要的各类信息成了信息处理领域面临 的新挑战和新契机【”。 目前,网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯 接受的形式,因此,我们主要研究文本信息的处理技术,简称文本处理技术。 根据不同的应用背景和不同的使用目的,文本处理技术已经演化为文本检索, 文本分类,文本摘要,文本可视化与过滤等多个研究方向。 面对日益增多的信息,人们无法通过一一阅读来了解信息,能否将信息压 缩,从而帮助人们快速阅读并选择感兴趣的信息昵? 在这种背景下,文本摘要 技术应运而生,成为信息处理领域的一个重要分支。文本摘要是一种文本压缩 技术,即利用计算机自动分析并提取文本表述的中心内容,将全文信息压缩为 一个简洁连贯的短文。人们可以通过阅读摘要来了解文本内容,从而进行快速 阅读和选择感兴趣的信息。 文本摘要和文本处理的其他分支也有十分密切的关系。例如:人们可以利 用文本摘要来对文本检索的结果进行选择,由于摘要对全文表达全面准确,因 此效果好于仅仅依靠标题和关键字来进行选择;同样,可以通过分析摘要来进 行文本分类;对于文本层次可视化,文本的每一层次中都包含代表下一层次的 信息的摘要信息,人们通过阅读摘要来选择是否要阅读下一层。 武汉避工大学硕士学位论文 蔟予以上的需求,自动文摘技术受到了越来越多的关淀。美溯、欧洲、亚 洲等嫩区的研究人员均开始重视并进行研究。同时,自动文摘技术得到了越来 越多的商业领域的鬻昧,例如电讯、数据挖搬、网络信息过滤和文本处理工具 簇壤。赉子售惠笺蠡魂压缩与文臻生成技寒爨蠢 零遥镯翁箱户需求,蘸当蘸 已有的文摘系统又雉以满足这一需求,因此,研究开发一个高质量的文摘系统 将具有广阔的应用前景。 2 豳内外研究现状 所谓自动摘要就是利用计算机自动地从原始文献中提取文摘。文摘照准确 全瑟戆爰浃菜一文簸中心蠹容懿饕活连贯豹餐文。在翼e b 籍患捡索孛,“瘸要” 是对文档内容提供简要概括的元数据,对文档的“标题”、“主题类别”起着 补充作用。人们有时仅从检出文档的标题和分类无法判断疑是否符合要求。如 果毙遴一步绘出文耧戆攮要,那么翅户不必浏戮全文蓑可数敲出稳关缝翔黪, 这无疑将提商检索鹃效果和效率。此外,用户还能通过摘瑟来检索所需文档。 可见,w e b 文档的自幼摘要在智能化检索系统中占有相当重骤的地位。 自渤摘要的研究是由h p l u h n 于1 9 5 2 年开始的。1 9 5 8 z ,他发表了一篇题 秀“t h ea u t o m a t i cc r e a t i o no fl i t e r a t u r ea b s t r a c t s ( 矗u t o - a b s t r a c t s ) 8 的论文,从此揭开了计算机编制文摘的序幕。此后,此项研究相继出现了一系 列的熏溪成果,比较藩名的工作有1 2 1 :i b m 公司a c s i - m a t i c 项目的研究( h p l u h n , 1 9 鳓( 瓣c o r p o r a t i o n ,1 9 6 1 ) ,e d m u n d s o n 等入翡工 筝及罩瓣公司熬磅究艇p 。 e d m u n d s o n ,1 9 6 9 ) ,7 0 年代由俄蔽俄( o h i o ) 州蠢大学r u s h 蒋人开发的a d a m 自动 文摘系统( a m a t h i s ,1 9 7 2 ) ,8 0 年代末到9 0 年代初g e 公司p s j a c o b s 和l f r a u 等人的_ 歼发的s c i s o r 系统和a n e s 系统( l f r a u ,1 9 8 9 ) ( j a c o b s ,1 9 9 0 ) ( j a c o b s , 1 9 9 3 ) ( 1 1 b r a n d o w ,k m i t z e ,1 9 9 5 ) ,菇及酬d a g s t u h ls e m i n a r i ) 究小缀酶工 作( j o n e s ,1 9 9 5 ) 。 9 0 罐代以来,随着i n t e r n e t 和w w w 的发展,世界范围内掀起了自动文摘研究 熬热灏掰。疆究戆系统趸趋囊于大艇模秘实矮豫,滤瑗爨了缀多疆究,l 、缀,萋名 的如m i t r e 公司的i n d e r j e e t 豫n i 和e r i cb l o e d o r n ,卡奈潦梅隆大学的j a d e g o l d s t e i n 和j a i m ec a r b o n e l l ,南加州大学的d a n i e lm a r e u ,哥伦比亚火学的 k a t h l e e nm c k e o w n ,密歇攫大学的d r a g o m i rr a d e v 等人。1 9 9 3 年1 2 胃焱德国 2 武汉理工大学硕士学位论文 w a d e r n 召开了历史上第一次以自动文摘为主题的国际研讨会。1 9 9 5 年,国际期 刊i n f o r m a t i o np r o c e s s i n g m a n a g e m e n t 出版了一期题为s u m a r i z i n gt e x t 的 专刊,编者在序言中指出,这一期专刊的出版标志着自动文摘的时代己经到来。 中文文摘系统的研究是在8 0 年代开始的。研究单位主要有上海交通大学、 哈尔滨工业大学、北京邮电大学、山西大学以及杭州大学等。上海交通大学通 过少量的预置关键词自动构建主题词词典,根据主题词词典选取相关的句子作 为文摘候选句,再按文摘长度要求加工成为摘要;哈尔滨工业大学通过对词频 的加权统计进行特征词抽取,再用某种加权函数计算句子权值,按权值高低选 取语句组成文摘;北京邮电大学用统计方法生成文摘句后,又采用依存框架法 计算句子之间的语义距离来提高文摘质量;山西大学对特征词的抽取采用了两 种方法,一种基于统计( 词频、词长等因素进行加权计算) ,一种基于分类( 把 倾向某种应用的文本中重要的词进行人工分类,再加权计算) ,在此基础上计 算段落的向量相关系数,综合信息计算句子的权值形成文摘;杭州大学通过训 练语料利用单字后邻字符树进行字频统计,得到关键字,从而确定语句形成文 摘。哈尔滨工业大学采用格文法、语法语义规则对文本进行了理解尝试;上海 交通大学利用扩充转移网络与部分规则相结合,探讨了信息的浓缩1 4 】。 近几年,从事自动文摘的企事业单位不断增加,彼此之间的交流与合作也 在增多。例如,i b m 中国研究中心和大陆微软公司都在研制中文自动文摘的产品。 信息时代的飞速发展,对于自动文摘的研究工作者既是机遇也是挑战。回顾自 动文摘四十余年的发展历史,我们有理由相信自动文摘必将会在不远的将来为 人类做出应有的贡献。 1 3 本文研究工作和内容组织 本文的主要研究工作有以下几点: ( 1 ) 本文首先概述了w e b 挖掘的定义和分类,以及w e b 文本挖掘产生的背 景、基本概念和应用方向;同时阐述了自动文本摘要的发展历史、类型、技术 和评价方法。自动w e b 文本摘要是本文重点研究的内容。 ( 2 ) 本文在深入分析w e b 文本的结构特征的基础上,研究了在j a v a 语言 中运用正则表达式实现w e b 文本解析的关键技术,并给出核心实现过程。 ( 3 ) 本文研究了基于扩展的t f i d f 方法的摘要技术,其主要步骤包括: 3 武汉理工大学硕士学位论文 蓄先过滤停用谲,然后计算词和句子的权重,褥将旬予按照投重高低播窿,排 在前面的若干句予按照在原文中的位置顺序输出即为该文章的摘要。经过内部 评价,该技术获得的摘要效果较好。 ( 4 ) 本文深入戮完了各静聚类方法,势辩这些方法瓣绕缺点透露慧臻耪弱二 较。同时给出获得摘要的具体实验过程,最精对摘要采用缀典的平面分割聚类 算法:k - m e a n s 算法,进行聚类处理。最后将摘要进行聚类的结果与对w e b 文本 壹接聚类戆续暴避露滋较,适臻零义骚究豹攒甏技零获褥黥攘要效果较磐。 本文共有五章绦成: 第1 章为绪论,说明了课题的背景和研究意义,并给出论文的主要研究工 作和缀织结构。 第2 章秀w e b 攘撵与自动w e b 交本摘要技零,首先穰透了w e b 挖燕镌定义 和分炎,以及w e b 文本挖掘产生的背景、基本概念和应用方向;同时阐述了自 动文本摘要的发展历史、类型、技术和评价方法。 繁3 章隽墓手绞诤方法豹w e b 支零蘩要,罄先深天分掇w e b 文本豹缨携特 征的綦础,研究了在j a v a 语言中逡用正则表运式实现w e b 文本解析的关键技术, 并给出核心实现过獠。然后研究了基于扩展的怀一i d f 方法的摘要技术,篡主要 步骤包括:首先过滤停用词,然爝诗募词和訇予豹权重,秀将甸子按照牧重离 低捧謦,排在裁蟊的若干甸子按照在原文孛鹣德置顺序输蹴鼯为该文章鹃摘要。 经过内部评价,该技术获得的摘骚效果较好。 第4 章为基于w e b 文本摘嚣的聚类研究,深入研究了备种聚类方法,并对 这些方法懿优蚨煮遂霉瑟缝窝魄较。霹嚣绘壅获 罨蘩要戆暴髂实验:蓬稷,簸蓐 对摘瑟采用经典的平面分割聚类算法:k - m e a n s 算法,进行聚类处理。最盾将摘 要进行聚类的结果妨对w e b 文本赢接聚类的缡果进行比较,证明本文提出的摘 要技寒获褥懿摘要效果较好。 蒙器章为结论麓展望,本章蹙全文的总魏,首先对本文筋研究工作遴行了 总结和回顾,然后说明了需要避一步研究的内容和亟待解决的问题,并探讨和 展望了本课题未来的研究方向。 4 武汉理工大学硕士学位论文 第2 章w e b 挖掘与自动w e b 文本摘要技术 2 1w e b 挖掘概述 近年来,i n t e r n e t 正以令人难以置信的速度在飞速发展,在网络世晃普遍 存在着“信息爆炸”的问题,即信息极大丰富而知识相对缺乏。据美国基础软 件开发商英克托米( i n k t o m i t o m ) 去年1 月1 8 日公布的意向研究结果表明,因特 网上可编索引的网页己超过1 0 亿,如果加上大量无法索引的页面,因特网网页 的总数则更多。所以w e b 已经发展成为拥有l o 多亿页面的分布式空间【5 。在这些 大量、异质的w e b 信息资源中,蕴涵着具有巨大潜在价值的知识。人们迫切需要 能够从w e b 上快速、有效地发现资源和知识的工具。w e b 上的搜索引擎部分地解 决了资源发现问题,但由于精度( p r e c i s i o n ) 不高、召回率( r e c a l l ) 有限等原因, 其效果远不能使人满意。此外,搜索引擎的目的在于发现w e b 上的资源,不能针 对特定的用户给出特殊的服务。因为每个人感兴趣的东西是不一样的,因此不 具有个性化。就w e b 上的知识发现而言,即使检索精度再高,搜索引擎也不能够 胜任。为此,我们需要开发比信息检索层次更高的新技术。 从本质上来说,w e b 挖掘可以被认为是数据挖掘技术在处理复杂数据类型上 的一个扩展。目前,对于w e b 挖掘的含义、功能等尚无统一的结论,需要国内外。 学者在理论上开展更多的讨论以进行精确地定义。此外,w e b 挖掘系统的开发对 其研究也起到很大的推进作用。 2 1 1f f e b 挖掘的定义 w e b 挖掘是一项综合技术,涉及数据挖掘、机器学习、模式识别、人工智能、 统计学、计算机语言学、计算机网络技术、信息学等多个领域。不同研究者从 自身的领域出发,对w e b 挖掘的含义有着不同的理解,项目开发也各有其侧重点。 例如,有些计算机语言学家认为,w e b 文档为自然语言理解提供了丰富的语料, 可以从中自动地学习词语意义,以进行词义辨析或确定词语所属的概念嘲。w e b 挖掘是- - n 交叉性学科,从广义的角度出发,可以对w e b 挖掘作如下的定义【6 】。 定义2 1 :w e b 挖掘是指从大量非结构化、异构的w e b 信息源集合中发现有效 5 武汉理工大学硕士学位论文 的、新颖的、潜在可用的及最终可理解的知识( 包括概念( c o n c e p t s ) 、模式 ( p a t t e r n s ) 、规则( r u l e s ) 、规律( r e g u l a r i t i e s ) 、约束( c o n s t r a i n t s ) 及可视 化( v i s u a l i z a t i o n s ) 等形式) 的非平凡过程。 以上定义借鉴了数据挖掘的传统定义。因此w e b 挖掘在部分方法和技术研究 方面也与数据挖掘相似,具有相通之处。 如果从实用性开发的角度来考虑的话,可以对w e b 挖掘做出如下的定义【9 - 1 0 。 定义2 2 :w e b 挖掘是针对包括w e b 页面内容、页面之间的结构、用户访问信 息、电子商务信息等在内的各种w e b 数据源,在一定基础上应用数据挖掘的方法 以发现有用的知识帮助人们从w 聊中提取知识,改进站点设计,更好地开展电子 商务等应用。 w e b 挖掘从数据挖掘发展而来,因此其定义与熟知的数据挖掘定义【1 1 l 相类 似。但是,w e b 挖掘与传统的数据挖掘相比有许多独特之处。 ( 1 ) w e b 挖掘的对象是大量、异质、分布的w e b 文档。以w e b 作为中间件对 数据库进行挖掘,以及对w e b 服务器上的日志、用户信息等数据所开展的挖掘工 作,仍属于传统的数据挖掘的范畴。 ( 2 ) w e b 在逻辑上是一个由文档节点和超级链接构成的图,因此w e b 挖掘所 得到的模式可能是关于w e b 内容的,也可能是关于w e b 结构的。 ( 3 ) 由于w e b 文档本身是半结构化或无结构的,且缺乏机器可理解的语义, 而数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构 来发现知识,因此有些数据挖掘技术并不适用于w e b 挖掘,即使可用也需要建立 在对w e b 文档进行预处理的基础之上。 2 1 2w e b 挖掘的分类 图2 1w e b 挖掘的分类 6 武汉理工大学硕士学位论文 w e b 上信息的多样性决定了w e b 挖掘任务的多样性。按照处理对象的不同, 我们可以将w e b 挖掘分为三大类:w e b 内容挖掘( w e bc o n t e n tm i n i n g ) 、w e b 访问 信息挖掘( w e bu s a g em i n i n g ) 和w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) ,如图2 一l 所示。 ( 1 ) w e bc o n t e n tm i n i n g ( w e b 内容挖掘) 就是从w e b 页面内容或其描述中 进行挖掘,进而抽取知识的过程。其中内容的挖掘从挖掘对象上来分又可以分 为两类:对于文本文档的挖掘( 包括t e x t ,h t m l 等格式) 和多媒体文档( 包括 i m a g e ,a u d i o ,v i d e o 等媒体类型) 的挖掘。 w e b 内容挖掘有两种策略:直接挖掘文档的内容,或在其它工具搜索的基础 上进行改进。采用第一种策略的有针对w e b 的查询语言w e b l o g ,w e b s q l 等,利用 启发式规则来寻找个人主页信息的a h o y ,等等。采用第二种策略的方法主要是 对搜索引擎的查询结果进行进一步的处理,得到更为精确和有用的信息。属于 该类的有w e b s q l ,及对搜索引擎的返回结果进行聚类的技术等等。 w e b 文本挖掘可以对w e b 上大量文档集合的内容进行总结、分类、聚类、关 联分析,以及利用w e b 文档进行趋势预测等。文本总结是指从文档中抽取关键信 息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就 可以了解文档或文档集合的总体内容。文本总结在有些场合十分有用,例如, 搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。目前,绝大部 分搜索引擎采用的方法是简单地截取文档的前几行。佩若利( p i r o l l ip ) f 1 2 】提 出了使用中心文档来代表文档集合,使用中心词汇来表示文档的方法,并给出 了求取中心文档和中心词汇的算法。 文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一 个类别。这样,用户不但能够方便地浏览文档,而且可以通过限制搜索范围来 使文档的查找更为容易。利用文本分类技术可以对大量文档进行快速、有效地 自动分类。目前,文本分类的算法有很多种,比较常用的有词频反文献频率( t f - - i d f ) 【”l 和n a i v eb a y e s | 1 4 j 等方法。 文本聚类与分类的不同之处在于,聚类没有预先定义好的主题类别,它的 目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大, 而不同簇问的相似度尽可能的小。研究证明“聚类假设”,即与用户查询相关 的文档通常会聚类得比较近,而远离与用户查询不相关的文档。因此,可以利 用文本聚类技术将搜索引擎的检索结果划分为若干个簇,只需要考虑那些相关 7 武汉理工大学硕士学位论文 的簇,大大缩小了所需要浏览的结果数量。目前有多种文本聚类算法,大致可 分为两种类型:以g - h a c 等算法为代表的层次凝聚法【1 5 1 ,以k - m e a n s 等算法为代 表的平面划分法【1 6 1 。 分布分析与趋势预测是指通过对w e b 文档的分析,得到特定数据在某个历史 时刻的情况或将来的取值趋势。需要说明的是,w e b 上的文本挖掘和通常的平面 文本挖掘的功能和方法比较类似,但是,w e b 文档中的标记,例如 , ( h e a d i n g 等蕴含了额外的信息,可以利用这些信息来提高w e b 文本挖掘的性能。 ( 2 ) w e bu s a g em i n i n g ( w e b 访问信息挖掘) 的主要目标是从w e b 的访问记 录中抽取感兴趣的模式1 1 1 ”。通过分析和探究w e b 日志记录中的规律,识别电子商 务的潜在客户,增强对最终用户的因特网信息服务的质量和交付,并改进w e b 服 务器系统的性能和结构。网络中的每个服务器都保留了访问日志( w e ba c c e s s l o g ) ,记录了关于用户访问和交互的信息。分析这些数据可以帮助理解用户的 行为,从而改进站点的结构,或为用户提供个性化的服务。这方面的研究主要 有两个方向:一般的访问模式追踪和个性化的使用记录追踪。一般的访问模式 追踪通过分析访问记录来了解用户的访问模式和倾向,以改进站点的组织结构。 而个性化的访问记录追踪则倾向于分析单个用户的偏好,其目的是根据不同用 户的访问模式,为每个用户提供定制的站点。目前研究较多的w e b 访问信息挖掘 技术和工具可分为两大类:模式发现和模式分析。 w e b 访问信息中的模式发现 用户访问模式的发现采用了人工智能、数据挖掘、信息论等领域的成熟技 术,从w e b 使用记录中挖掘知识。但在新的环境中,有许多新的问题需要考虑和 研究。在模式发现中,首先要解决的问题就是数据的预处理,它主要包括如下 两个部分:数据清洗,包括无关记录的剔除、判断是否有重要的访问没有被记 录、用户的识别等问题;事务识别,指将页面访问序列划分为代表w e b 事务或用 户会话的逻辑单元。 在对事务进行了划分后,就可以根据具体的分析需求选择访问模式发现的 技术,如路径分析、关联规则挖掘、时序模式以及聚类和分类技术。路径分析 可以用来发现w e b 站点中最经常被访问的路径,从而可以调整站点的结构。在w e b 使用记录挖掘的环境下,关联规则挖掘的目标是发现用户对站点各页面的访问 之间的关系,这对于电子商务是非常有用的。时序模式的发现及各种聚类和分 类技术的采用对于w e b 使用记录中的模式发现都有其各自的作用。 8 武汉理工大学硕士学位论文 模式的分析 如果没有合适的技术和工具来辅助分析人员的理解,采用各种技术挖掘出 来的模式将不能得到很好的利用。所以开发各种分析技术和工具也是非常必要 的。目前这个领域的工作还不是很多,是一个较新的领域。 可视化技术在其它领域中的应用己经取得了巨大的成功,因此对于理解w e b 用户的行为模式来讲也是一个自然的选择。此外,联机分析处理技术也可以应 用到模式的分析中来【堋。在w e b m i v e r l l 9 】系统中还提出了类似于s q l 形式的查询机 制。由于w e b l o g 可以提供很多关于w e b 的信息,通过对日志文件的多维分析,可 以提供各种各样的统计报告,完成日常管理工作,发现潜在的客户、用户和市 场等。 ( 3 ) w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 。由于w e b 中包含的结构信息处 理起来比较困难,因此通常的w e b 搜索引擎等工具仅将w e b 看作是一个平面文档 的集合,而忽略了其中的结构信息。w e b 结构挖掘的目的在于揭示蕴含在这些文 档结构信息中的有用模式。文档之间的超级链接反映了文档间的某种联系,例 如包含、从属等。超级链接中的标记文本对超级链接页面也起到了概括作用, 这种概括在一定程度上比超级链接页面作者所作的概括要更为客观、准确。一 阶学习方法用以对w e b 页面问的超级链接类型进行分类,以判断页面问的关系; 同时,还可以利用超级链接中的标记文本对超级链接页面进行分类【硎。超级链 接还反映了文档间的引用关系,一个页面被引用的次数体现了该页面的重要性。 通过综合考虑页面的引用次数和链接页面的重要性来判断超级链接页面的重要 性,从而设计出能够查询与用户请求相关的“权威”页面的搜索引擎1 2 1 1 。 在w e b 挖掘的三种模式中,w e b 页面内容对知识采集者来讲是最重要的,通 过页面所表述的内容采集所需的知识。而在内容挖掘中,w e b 文本挖掘又是重中 之重。目前,与w e b 挖掘有关的各种项目涉及了上述w e b 分类的某个方面,也有 一些项目综合考虑了w e b 的内容和结构因素,将文本挖掘与结构挖掘结合起来, 以取得更好的效果。尽管与多媒体信息相比,文本信息显得比较普通,但文本 仍然是记载和传播信息的最主要媒体。此外,文本挖掘又相对容易取得技术突 破,其中的许多研究成果也可以为多媒体挖掘和结构挖掘所借鉴,对文本挖掘 技术的研究具有十分重要的意义和广泛的应用前景。因此,本文选择基于w e b 文 本挖掘的知识采集方法进行更加深入的研究。在网络资源中,具有半结构化数 据特征的w e b 文档占有很大的比例,在后面的内容中,处理对象就是这些w e b 文 9 武汉理工大学硕士学位论文 档。 2 2w e b 文本挖掘 从上面对w e b 挖掘的概述中可以知道,w e b 文本挖掘系统中属于w e b 内容的 挖掘是知识发现在复杂文本数据的一种扩展;并且它与信息检索( i r i n f o r m a t i o nr e t r i e v a l ) 和信息提取( i ei n f o r m a t i o ne x t r a c t i o n ) 等自然语言 理解的研究方向密切相关。 2 2 1w e b 文本挖掘的产生背景 在当今信息急速增长的时代,信息挖掘成为使人们免隐于信息海洋的有效 工具。它可以从大量的冗余信息中迅速发现对您有用的信息,是信息科学的一 个重要分支。它融合了众多学科的内容,是最近几年国际上兴起的交叉研究领 域。目前,信息挖掘主要存在着两个方向,其一是:数据挖掘( d a t am i n i n g ) 即 k d d ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。数据挖掘是数据库中知识发现的核 心。它适用以结构化、数值型的数据为特点的领域,如:股市、大型超市、银 行等。它以处理结构化、数值型数掘见长,其原型架构在关系数据库上,故有 时候该领域的研究也被看作是关系型数据库的一个智能拓展。其二是:文本挖 掘( t e x tm i n i n g ) 。与前者不同的是,它主要处理半结构或无结构、字符型数据。 其早期的研究分支是信息检索( i r ) 和信息提取( i e ) ,此后文本挖掘借鉴并结合 了数据挖掘的部分理论方法及技术,并取得了一定的成果。所以文本挖掘是建 立在信息检索、信息提取和数据挖掘的理论基础之上,但是它的应用领域较数 据挖掘更为广泛,同时它涉及了自然语言处理领域。它适用的领域有:电信业、 图书馆、媒体工业、政府和情报机关。 由于文本挖掘的信息源越来越多地来自于w e b 上分布的、异构的w e b 文档, 例如,客户的电子邮件、公司内部网积累的文档资料、专家撰写的技术白皮书 及新闻、广告等信息。因此文本挖掘的研究范围拓展到w w w 中,称为w e b 文本挖 掘。随着网络世界的不断扩张,w e b 文本挖掘的适用范围将更加广泛,应用前景 也更加乐观。 l o 武汉理工大学硕士学位论文 2 2 2w e b 文本挖掘的基本概念 w e b 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人 工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。从数 据挖掘的角度来看,文本挖掘是指将数据挖掘技术应用在大量的文本集合上, 发现其中隐含的知识的过程。大多数基于数据库的数据挖掘方法均可作用于文 本挖掘,如数据归纳、分类、聚类、关联规则挖掘等。文本挖掘的数据对象既 可以是结构化的,也可以是非结构化的、半结构化的。文本挖掘的结果既可以 是对某个文本内容的概括,也可以是对整个文本集合的分类结果或聚类结果等。 从广义的研究角度出发,对w e b 文本挖掘可以作如下的定义l 硐: 定义2 3 ;w e b 文本挖掘是指从大量非结构化、异构的w e b 文档的集合c 中发 现有效的、新颖的、潜在可用的及最终可理解的模式p 的非平凡过程。如果将c 看作输入,将p 看作输出的话,那么w e b 文本挖掘的过程就是从输入到输出的一 个映射;:c 一 p 。 2 2 3w e b 文本挖掘系统的应用方向 目前,w e b 文本挖掘的主要应用方向为:文本分类系统,文本聚类系统、w e b 文档中关联规则发现系统、文献资料的浏览导航系统、文摘自动生成系统及w e b 文档的分布分析与趋势预测系统【挂2 6 】。 ( 1 ) 文本分类系统 文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一 个类别。这样,用户不但能够方便地浏览文档,而且可以通过限制搜索范围使 文档的查找更为容易。目前,y a h o o ! 通过人工来对w e b 上的文档进行分类,这大 大影响了索引的页面数目( y a h o o ! 索引的覆盖范围远远小于a l t a - v i s t a 等搜索 引擎) 。利用文本分类技术可以对大量文档进行快速、有效地自动分类。文本分 类的算法有很多种,比较常用的有距离测度函数、n a i v eb a y e s ,i ( n n ( k n e a r e s t n e i g h b o u r ) 、支持向量机及神经网络等方法。如果将文本分类工具应用于 i n t e r n e t 上,与信息检索工具相结合可以形成智能检索系统,因此具有巨大的 应用前景。 ( 2 ) 文本聚类系统 1 1 武汉理工大学硕士学位论文 文本聚类与分类的不同之处在于,聚类没有预先定义好的主题类别,它的 目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大, 而不同簇间的相似度尽可能地小。h e a r s t 等人的研究已经证明了“聚类假设”, 即与用户查询相关的文档通常会聚类得比较靠近,而远离与用户查询不相关的 文档。因此,我们可以利用文本聚类技术将搜索引擎的检索结果划分为若干个 簇,用户只需要考虑那些相关的簇,大大缩小了所需要浏览的结果数量。目前, 有多种文本聚类算法,大致可以分为两种类型:以g - 姒c 等算法为代表的层次凝 聚法,以k m e a n s 等算法为代表的平面划分法。还有将g - h a c 和k - m e a n s 集合起来 的b u c k s h o t 方法和f r a c t i o n a t i o n 方法。 ( 3 ) w e b 文档中的关联规则的发现系统 关联分析是指从文档集合中找出不同词语之间的关系。b r i n 提出了一种从 大量文档中发现一对词语出现模式的算法,并用来在w e b 上寻找作者和书名的出 现模式,从而发现了数千本在a m a z o n 网站上找不到的新书籍。w a n g 等人以w e b 上 的电影介绍作为测试文档,通过使用o e m ( o b j e c te x c h a n g em o d e l ) 模型从这些 半结构化的页面中抽取词语项,进而得到一些关于电影名称、导演、演员、编 剧的出现模式。 ( 4 ) 文献资料的浏览导航系统 通过导航系统地帮助,将引导科学领域的研究人员对大量的科学文献资料 进行快速和有效的查询,以便发现有用的、与其研究方向有关的知识。它的实 现步骤主要是:首先将原始数据库进行转换和预处理。这是因为文献资料的数 据源是无结构的或是半结构的,需要重建以便形成易于发掘的目标数据库。其 次需要给出在目标数据库上进行挖掘或搜索的知识模式和与这些模式相关的文 献挖掘算法。最后要给出相关的结果评价和解释。在国内外,基于文献资料的 浏览导航系统已经在医学研究、药理学研究等科学领域取得了初步的成果。 ( 5 ) 文摘自动生成系统 该系统为人们快速浏览信息,确定自己的兴趣点提供了有力的帮助。该技 术的关键所在是寻找一种有效的词典表示方法,因为它对后续工作的难易程度 起着决定性的作用。对于中文文摘生成系统而言,寻找一种能够包含词的词法、 词义及其词用信息的全信息词典,使得在正确进行自动分词的同时,为后续的 文本分析提供尽可能多的词法、词义及词用信息,以便生成具有理解能力强
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年第十三届贵州人才博览会省委金融办所属事业单位人才引进1人考前自测高频考点模拟试题及答案详解(典优)
- 2025春季北方华创招聘考前自测高频考点模拟试题及参考答案详解
- 2025广东珠海市金湾区招聘公办中小学编制内教师160人考前自测高频考点模拟试题及答案详解(名师系列)
- 2025广西广西民族大学招聘1人(国际合作与交流处外事科工作人员)考前自测高频考点模拟试题附答案详解(完整版)
- 2025广西钦州市钦南区林业局招聘1人模拟试卷附答案详解(典型题)
- 安全培训教师会课件
- 安全培训教导员介绍课件
- 2025贵州铜仁职业技术学院引进人才57人考前自测高频考点模拟试题参考答案详解
- 2025年河北石家庄协和医学中等专业学校公开招聘教师20名模拟试卷及答案详解(全优)
- 2025年延吉市党史地方志办公室招聘公益性岗位的模拟试卷及答案详解(网校专用)
- 企业职工基本养老保险待遇申报表
- 幼儿园大班数学:《层级分类》 课件
- 质量管理体系建立运行情况报告
- 涉河建设项目审查管理体会及探讨课件-涉河建设项目管理及建设方案审查技术标准课件
- DB44∕T 1168-2013 轮扣式钢管脚手架构件
- 世界汽车工业课件
- 单层工业厂房设计(全部)PPT课件.ppt
- 第二章_平面机构的平衡
- elements-of-communication
- 平面构成形式美法则
- 校运动会安全教育课件(PPT33张)
评论
0/150
提交评论