




已阅读5页,还剩76页未读, 继续免费阅读
(计算机应用技术专业论文)文本挖掘及其在UDDI+Registry智能检索中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
昆明理工大学硕士学位论文 摘要 随着w e bs e r v i c e s 技术的不断成熟和发展,存储在u d d ir e g i s t r y 中的w e b s e r v i c e 信息将会变得越来越庞大,如何从u d d ir e g i s t r y 浩如烟海的信息资源中 为用户快速、方便、准确地检索出满足需求的w e bs e r v i c e ,将变得十分重要。而 传统的基于关键词匹配的检索技术己不能满足用户准确而全面定位信息的要求, 因此,本文就以w 曲s e r v i c e 的文本描述信息为研究对象,提出了应用于u d d i r e g i s t r y 的智能信息检索技术。 对文档集进行特征化表示是文本挖掘和信息检索的前提和基础。本文用频繁 序列模式挖掘算法挖掘出扩展短语,用扩展短语代表文档的特征项,并用概念秩 算法和h i t s 算法挖掘出文档的主题概念,文档的特征就用主题概念加以表示。 智能检索的核心是概念检索和个性化服务。为了对文档进行概念检索,必须 发现某个领域内的概念及其之间的关系,即构建出概念空间。本文通过文本挖掘 相关技术挖掘用户访问文档信息,从而构建出用户私有的概念空间,核心算法是 改进的k m e a n s 文档聚类算法和f p - 树频繁模式发现算法。由于概念空间是通 过挖掘用户访问文档信息生成的,它也包含用户的个性化信息,在概念检索时候, 也实现了个性化服务的目的。 概念检索是智能检索的具体体现。在概念检索过程中,为了帮助用户更加准 确的表达自己的查询意图,本文采用h o p f i e l d 神经网络算法对用户的检索关键词 集进行概念联想,将联想的结果供用户再次反馈。对用户反馈后的查询表示与文 档特征表示,本文给出了概念匹配运算的方法,并讨论了检索结果如何组织的方 法。 虽后,为验证本文的研究结果,提出了一个将上述几个方面有机结合起来的 智能检索系统模型,并给出了个具体的检索验算。 关键词:文本挖掘智能检索u d d ir e g i t r y 概念空间概念检索个性化 昆明理工大学硕士学位论文 a b s t r a c t w i t ht h ec o n s t a n t d e v e l o p m e n t o fw e bs e r v i c e s t e c h n o l o g y ,t h e nt h ew e b s e r v i c ei n f o r m a t i o ns t o r e di nu d d i r e g i s t r yw i l lb e c o m eh u g e ra n dh u g e r ,h o wt o f a s t ,c o n v e n i e n t l y ,a c c u r a t e l ys e a r c ho u tt h ew e b s e r v i c ew h i c hm e e tt h eu s e r s n e e d f r o mv o l u m i n o u si n f o r m a t i o nr e s o u r c e ss t o r e di nu d d i r e g i s t r yw i l lb e c o m ev e r y i m p o r t a n t b u t t h et r a d i t i o n a li n f o r m a t i o nr e t r i e v a lm e t h o db a s e do n k e y w o r d m a t c h i n gc a n tm e e tt h eu s e r s n e e da n ym o r e ,t h e r e f o r e ,t h i sp a p e rr e g a r dt h et e x t d e s c r i p t i o ni n f o r m a t i o no fw e bs e r v i c ea st h er e s e a r c ho b j e c t ,p r e s e n t sai n t e l l i g e n t i n f o r m a t i o nr e t r i e v a lt e c h n o l o g ya p p l y i n gt ou d d i r e g i s t r y t h ed o c u m e n tc h a r a c t e r i s t i cr e p r e s e n t a t i o ni st h ep r e r e q u i s i t ea n df o u n d a t i o no f i n f o r m a t i o nr e t r i e v a la n dt e x t m i n i n g t h i sp a p e r u s e st h e f r e q u e n ts e q u e n c e s a l g o r i t h m t od i s c o v e rt h e e x p a n d i n gp h r a s e ,t h e d o c u m e n tc h a r a c t e r i s t i ct h e n r e p r e s e n t e db yi t ,a n di t u s e sc o n c e p tr a n ka l g o r i t h ma n dh i t sa l g o r i t h mt oe x t r a c t t h et h e m ec o n c e p t sf r o md o c u m e n tc o l l e c t i o n s t h e nt h ed o c u m e n tc h a r a c t e r i s t i c r e p r e s e n t a t i o ni sr e p r e s e n t e db yt h e s et h e m ec o n c e p t s t h ec o r eo ft h e i n t e l l i g e n t r e t r i e v a l t e c h n o l o g y i s c o n c e p t r e t r i e v a la n d p e r s o n a l i z e ds e r v i c e t or e a l i z ec o n c e p tr e t r i e v a lo nd o c u m e n t s ,i tn e e d t od i s c o v e r t h o s ec o n c e p t sa n dt h er e l a t i o n sa m o n gt h e mi nr e l a t e df i e l d so ft h e s ed o c u m e n t s , n a m e l yb u i l d i n gt h ec o n c e p ts p a c e t h i sp a p e r u s e sr e l a t i v em e t h o d so ft e x tm i n i n gt o b u i l dt h eu s e r sp r i v a t ec o n c e p ts p a c et h r o u g hm i n i n gt h eu s e r sa c c e s sp a t t e r n ,t h e k e r n e la l g o r i t h m sa r ei m p r o v e dk - m e a n sc l u s t e r i n ga l g o r i t h ma n df r e q u e n t - p a t t e r n g r o w t ha l g o r i t h m b e c a u s et h ec o n c e p ts p a c e i sg e n e r a t e db ym i n i n gt h eu s e r sa c c e s s p a t t e r n i t a l s oi n c l u d e st h eu s e r si n d i v i d u a l i z e di n f o r m a t i o n ,w h e nw er e t r i e v e d o c u m e n t sb a s e do nc o n c e p tr e t r i e v a l ,t h es y s t e mh a sr e a l i z e dt h ep u r p o s eo ft h e p e r s o n a l i z e ds e r v i c et o o t h ec o n c e p tr e t r i e v a li st h ec o n c r e t ee m b o d i m e n to fi n t e l l i g e n ti n f o r m a t i o n r e t r i e v a l i nt h ep r o c e s so fc o n c e p tr e t r i e v a l 。i no r d e rt oh e l pu s e re x p r e s sh i sq u e r y i n t e n t i o na c c u r a t e l y ,t h i sp a p e ru s e st h eh o p f i e l dn e u r a ln e t w o r ka l g o r i t h mt os e a r c h t h ea s s o c i a t i o nk e y w o r d sw h i c ha r er e l a t e dt ot h ek e y w o r d st h a tu s e ri n p u t ,t h e a s s o c i a t e dr e s u l ti sr e t u r n e dt ou s e rt os e l e c ta g a i n f o rt h eu s e r sq u e r ye x p r e s s i o n w h i c hi st h eu s e r sf e e d b a c ka n dd o c u m e n tc h a r a c t e r i s t i cr e p r e s e n t a t i o n ,t h i sp a p e r 一一 垦塑墨三盔堂塑主兰垡丝塞 : g i v e sac a l c u l a t i o n a lm e t h o d b a s e d0 nc o n c e p tm a t c h i n gf o rt h e m ,a n dd i s c u s s e st h e m e t h o dh o wt oo r g a n i z et h er e t r i e v a lr e s u l t f i n a l l y ,i no r d e r t ov e r i f yt h es t u d y i n gr e s u l to f t h i sp a p e r ,w ed e s i g nam o d e lo f i n t e l l i g e n ti n f o r m a t i o nr e t r i e v a ls y s t e mw h i c hi s t h ec o m p r e h e n s i v ea p p l i c a t i o no f a b o v e m e n t i o n e ds e v e r a lr e s p e c t sa n dg i v eac o n c r e t ec o m p u t a t i o ns a m p l e k e y w o r d s :t e x tm i n i n g ,i n t e l l i g e n tr e t r i e v a l ,u d d ir e g i s t r y ,c o n c e p ts p a c e , c o n c e p t r e t r i e v a l p e r s o n a l i z a t i o n i f i f6 6 9 0 2 3 昆明理工大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下( 或 我个人) 进行研究工作所取得的成果。除文中已经注明引用的内 容外,本论文不含任何其他个人或集体已经发表或撰写过的研究成 果。对本文的研究做出重要贡献的个人和集体,均已在论文中作了明 确的说明并表示了谢意。本声明的法律结果由本人承担。 学位论文作者签名: 详德,冲 日 期:劢畔年岁月2 1 日 关于论文使用授权的说明 本人完全了解昆明理工大学有关保留、使用学位论文的规定,即: 学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布 论文的全部或部分内容,可以采用影印或其他复制手段保存论文。 ( 保密论文在解密后应遵守) 导师签名:毖笔论文作者签名:堡垒! 生 日 期:型壁垒鱼旦三! 旦 昆明理工大学硕士学位论文 1 1u d d l r e g is t r y 简介 第一章绪论 随着w e b 应用的不断发展,由i b m 、m i c r o s o f t 等知名i t 业巨头提出的基于 互联网的w e bs e r v i c e s 技术体系。一经提出即受到业界的广泛推崇,被称为“i t 技术的第三次革命”。w e bs e r v i c e s 是一种基于标准的应用集成方式,它将各种异 构平台以通用的方式进行连接和集成。 为了满足应用连接和集成的目的,w e bs e r v i c e s 技术体系必须解决如下问题; 商家怎样才能互相发现和连接彼此的w e bs e r v i c e s ? 为此,w e bs e r v i c e s 技术体 系中的u d d i ( u n i v e r s a ld e s c r i p t i o n ,d i s c o v e r y ,a n di n t e g r a t i o n ) 统一描述、发现 与集成协议标准提供了商业w e bs e r v i c e s 的注册和发现机制,它用于发现和发布 w e b 服务。它包含三部分的内容:首先服务提供者在u d d i 注册中心( u d d i r e g i s t r y ) 发布那些希望被服务使用者发现的w e bs e r v i c e 信息:其次,服务使用者 利用u d d i 注册中心提供的分类目录、关键字等的发现机制,找到服务提供者提 供的适合自己的w e bs e r v i c e ;最后,服务使用者将众多服务提供者提供的w e b s e r v i c e 集成在一起,完成其商业目标。 由此可见,u d d ir e g i s t r y 实质上是w e bs e r v i c e 的中介代理,它存放了所有 服务提供者所提供的w e bs e r v i c e s 信息,包括商业实体信息( b u s i n e s s e n t i t y ) 、商 业服务信息( b u s i n e s s s e r v i c e ) 、技术绑定信息( b i n d i n g t e m p l a t e ) 及调用规范( t m o d e i ) 等。它还为w e bs e r v i c e 提供和使用者提供发布和查询接口。 1 2 文本挖掘 1 2 1 数据挖掘概述 信息时代使得可以存储大量的信息和数据。在i n t e r n e t 以及企业i n t r a n e t 上, 存储的结构化数据和自由语言文本文件呈爆炸般的趋势增长。但是,我们处理和 吸收这些信息的能力却没有跟上,我们面临着信息极大丰富而知识相对匮乏的问 题。而i n t e r n e t 和i n t r a n e t 上的这些电子信息中蕴含着具有巨大潜在价值的知识。 在这种情况下,数据挖掘技术应运而生。 数据挖掘( d a t am i n i n g ) 这个术语首先出现于1 9 8 9 8 美国底特律召开的第 l l 届国际人工智能联合会议上,开始是在人工智能和数据库领域流行。它是指在 昆明理工大学硕士学位论文 大量数据中提取有用知识( 规则、规律、模式、约束) 的方法。它强调的是数据 驱动的知识发现,通过检查、分析数据来演绎出知识。 数据挖掘的定义有多种,一种通用的定义【2 1 是:数据挖掘就是从大量的、 不完全的、有噪声的、模糊的、随机的应用数据中,提取出隐含在其中的可信的、 新颖的、有效的并能被人理解的信息和知识的过程。这种处理过程是一种高级的 处理过程。 数据挖掘的任务就是发现隐藏在海量数据后面的未知的知识。常用的数据挖 掘方法有如下几种:关联规则发现( a s s o c i a t i o nr u l e sd i s c o v e r y ) 、分类 ( c l a s s i f i c a t i o n ) 、聚类( c l u s t e i n g ) 、序列模式发现( s e q u e n t i a lp a t t e r n sd i s c o v e r y ) 、 回归( r e g r e s s i o n ) 、总结概括( s u m m a r i z a t i o n ) 及偏差检测( d e v i a t i o n d e t e c t i o n ) 等等。 数据挖掘是一个交叉、融合众多学科且有广阔应用前景的新兴领域,其中, 比较典型的技术方法有:人工智能、机器学习、模式识别、数理统计、数据库知 识库技术及数据可视化等。 1 2 2 文本挖掘的产生 在现实世界当中,可获得的大部分信息是存储在文本数据库中,有数据表明, 8 0 的电子化信息是文本的,由于文本类型数据缺乏严格的结构,缺乏组织的规 整性,因此,人们对它的利用率却很低。如何发现大量文本信息内的知识将对 我们有效利用文本信息资源具有十分重要的意义,这时,文本挖掘应运而生,它 采用数据挖掘的相关方法,以及自然语言处理、信息检索和知识管理等领域的技 术来处理和分析无结构或半结构的文本,提取其中潜在的有价值的知识,我们就 可利用这些知识进行文档信息检索、文档分类等各方面的应用。从发现数据间的 相互关系这一点上来看,文本挖掘和数据挖掘有很大的相似性,但文本挖掘处理的 对象主要是大量的、无结构或半结构( 如h t m ! 及x m l 文本) 的文本信息。可以认为, 文本挖掘是数据挖掘领域的一个新兴分支。 1 2 ,3 文本挖掘的定义 文本挖掘( t e x tm i n i n g ) ,也叫文本数据挖掘( t e x td a t am i n i n g ) ,或文本数 据库中的知识发现( k n o w l e d g ed i s c o v e r yi nt e x t ) ,最早由r o n e nf e l d m a n 等人 提出【6 1 : “t h ep r o c e s so fe x t r a c t i n gi n t e r e s t i n gp a t t e r n sf r o mv e r yl a r g et e x tc o l l e c t i o n s f o rt h ep u r p o s eo f d i s c o v e r i n gk n o w l e d g e ” 昆明理工大学硕士学位论文 其含义为:文本挖掘即文本数据库中的知识发现,就是从文本或大量文本集 合中提取隐含的,以前未知的,有潜在使用价值的有用模式( 即知识) 的过程。 1 2 4 文本挖掘的层次模型 整个文本挖掘体系可分为四个层次:语义学分析自然语言处理,特征分析, 挖掘运算,可视化人机交互。如图2 所示: 图2 文本挖掘的四个层次 最底层是语言学分析和自然语言处理。这一层次主要目的是从文本中识别出 特征词、特征概念。其主要处理步骤有中文分词( 英文不需要这一步) 、过滤停用 词、建立特征词的索引,对英文而言,对提取出的特征词还要进行去词根处理。 第二层是特征分析。分析提取出的特征词之问的关系,即概念上的关联模式, 分析方法有共现分析技术、概念秩算法以及利用现存的语料库。 第三层是挖掘运算。这个层次就是选用数据挖掘领域合适的挖掘算法对文档 进行挖掘运算,使用户利用挖掘所得到的知识可以对文档集合有一定的大致了解, 便于用户使用。 最上层是可视化人机交互。这个层次可以帮助揭示概念之间的关联以及文档 之间的关联。不同的表示结构( 例如树、网络等结构) 及不同的交互技术可以帮 助用户更好的理解结果。 1 2 5 文本挖掘的过程 文本挖掘从采集到最终有用知识的发现和使用是一个复杂的过程,可将其分 解为以下5 个步骤,如图3 所示: 昆明理工大学硕士学位论文 知识源 圈3 文本挖掘的过程 知识 岱 龠钠 ( 1 ) 确定应削范围 包括收集应用所涉及领域内的背景知识,理解应用要求并确定应用所要达到 的目标。 ( 2 ) 确定目标文本集合 选取待处理和分析的文本。 ( 3 ) 文本预处理和特征表示 利用自然语言处理技术从文本中抽取代表其特征的元数据( 如特征词) ,并存 放在文本特征库中,作为文本挖掘的基础。 ( 4 ) 选择文本挖掘算法 根据文本特征及用户需求,选择合适的挖掘算法,并运行挖掘算法。 ( 5 ) 知识评估和使用 以某种方法列发现的知识进行评估,还可根据需要返回前面的步骤进行优化, 直到满足要求为止。 解释说明发现的知识,以易于理解的方式提供给用户。 利用发现的知识解决实际问题。 在文本挖掘中,文本特征的抽取和表示是挖掘工作的基础和核心。 1 2 6 文本挖掘的功能 剩用文本挖j j 6 技术,可以对文本集合进行文本总结( t e x ts u m m a r i z a t i o n ) , 一4 一 昆明理工大学硕士学位论文 文本分类( t e x t c l a s s i f i c a t i o n ) ,聚类( c l u s t e r i n g ) ,关联规则分析( a s s o c i a t i o n r u l e a n a l y s i s ) ,趋势预测( t r e n dp r e d i c t i o n ) 等。 文本总结 文本总结从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。 这样,用户不需要浏览全文内容就可以了解文档或文档集合的总体内容。 文本分类 文本分类是指根据已有类别文本集合( 称分类模板) 的特点,找比分类模板 的特征,生成已分类模型,根据该模型可以把其它未分类的文本进行分类,从而 实现文本的自动分类。这样,用户不但能够方便地浏览文档,而且可以通过限制 搜索范围来使文档地检索更为容易。y a h o o ! ,s o h u ,a l t a v i s t a 等搜索引擎都是 利用文本分类技术对大量文档进行快速有效地自动分类,从而便于用户检索。 文本聚类 聚类是将文档集合分成若干个簇,要求同一簇内文档内容尽可能相似,而不 同簇问的文档尽可能相异,从而发现整个文本集合的整体分布特点。它与分类的 不同之处在于,聚类没有预先定义好分类类别,是一种无教师指导的分类。根据 h e a r s t 等人的“聚类假设” 8 1 ,即与用户查询相关的文档通常会聚类的比较靠近, 而远离与用户查询不相关的文档。因此,我们可以对用户的检索结果进行聚类, 将检索结果划分为若干个簇,用户只需考虑那些相关的簇,从而大大缩小了所需 浏览的检索结果数量。 关联规则分析 关联分析从文本集合中找出不同词语之间的关系。 趋势预测 趋势预测是指通过对文档的分析,得到特定数据在某个时刻出现的情况或取 值规律。 1 3 智能信息检索 1 3 1 传统信息检索面临的问题 近年来,i n t e r n e t 尤其是w w w 得到了飞速的发展,i n t e r n e t 上提供的信息以 指数级的速度在膨胀。这给人们带来了前所未有的信息共享与交流的机会。但与 此同时,人们也面临着在这庞大的信息空间中迷失方向的困惑,人们必须消耗大 量的时间和精力从这个浩瀚的信息空间中查找自己所需的信息。因此开发一种好 的信息检索工具( 或搜索引擎) 将对人们获取w e b 应用具有巨大的意义。 昆明理工大学硕士学位论文 但是传统韵信息检索技术使用完全的关键词匹配,只要发现文档中含有检索 关键词,就将该文档作为查询结果返回给用户。因此它存在如下三方面的缺陷: 一是返回的检索结果太庞大,而且结果的组织没有层次,缺乏重点,相关性 很大的文档没有排在返回列表的前面。因为关键词匹配只是匹配词的外形,而不 是它们所表达的概念,因此检索结果中包括了很多关键词一致但与用户检索意图 相去甚远的文献。例如g o o g l e ,当用“北大”检索时,检索结果不仅没有北京大 学的主页,大部分均是不相关的信息:如“西北大学”、“湖北大学”、“北大荒粮 贸网”等。而真正跟检索意图有一定关系的“北大在线”却排在后面。 二是用户希望的检索结果得不到满足。由于对同一概念的检索,不同的用户 可能使用不同的关键词,例如用户想检索“数据挖掘”方面的知识,其实“知识 发现”或“数据采掘”其实也是符合用户需求的,但关键词检索却没法检索出来。 第三是无法体现用户个性化的信息需求。传统的信息检索工具无法分析用户 的检索意图,也无法追踪分析用户的使用记录来捕捉用户的偏好和兴趣,不能为 用户提供个性化的信息服务。 为了解决这些问题,人们开始寻找新的途径来弥补这些缺陷和不足,智能信 息检索技术被提了出来。 1 3 2 智能信息检索的概念和优点 智能信息检索就是把人工智能、数据挖掘、自然语言处理等技术引入到信息 检索系统中,使后者具有联想、比较、判断、推理、学习等智能特征,能在更高 层次上完成其功能。智能检索不仅能完成简单的匹配检索,而且能在某种程度上 “理解”文档包含的信息内容和用户的信息需要。智能信息检索具有如下优点: ( 1 ) 检索技术的智能化。智能检索将传统信息检索从目前基于关键词层面提 高到基于知识( 或概念) 层面,对知识有一定的理解和处理能力,能进行概念检 索,即用户的检索需求与文档在概念层次上的匹配。 ( 2 ) 信息服务的快捷化。智能信息检索能对检索结果进行分类和组织,并将 与用户查询最相关的文档排在前面,从而使用户使用信息更方便、快捷。 ( 3 ) 信息服务的个性化。智能信息检索能分析用户的检索和测览行为来学习 用户的需求,有选择地为用户提供个性化地检索服务。 1 3 3 智能信患检索的主要方法 智能信息检索的实现可采用不同的方法,这些方法主要有以下类型: ( 1 ) 统计方法 一 垦翌墨三查堂堡主堂壁塑塞 信息处理和信息检索中,统计方法是一种最基本的方法。最典型的方法是词 频统计法,其最早的理论依据是z i p f 定律。早在2 0 世纪5 0 年代l u h n 就注意到 z i p f 定律,并在此基础上提出自动抽取标引词的思想。指出标引词应该在某特定 文献中的出现频率较高,在整个文献集合中出现的频率较低的特征词。现在许多 自动标引的工作都是在l u h n 频率统计思想的基础上展开的,如自动标引的向量 空间模型、概率标引原理等。统计方法是智能信息检索的基本方法。 ( 2 ) 自然语言处理方法 智能信息检索的文本处理离不开自然语言处理。进行自然语言处理时,首先 处理文本源,这种文本源可能是几个词组、句子、段落乃至篇章。计算机首先通 过文本上下文中的一些线索来识别文本源所使用的词汇。对于汉语文献,一个难 点在于汉语的分词,汉语的分词涉及到汉语的语法、句法、语义各个层面上。由 于汉语的多义性,语义消歧也是文本分析的另一个难题。对于英文文献,不存在 分词处理,但要对词语进行去词根处理。将文献中的特征词提取出来后,文本分 析需要确定各个词在文献中的重要程度以及多义词的具体语义。而特征词提取的 方法决定文本分析方法的质量。 ( 3 ) 语料库方法 语料,又被称为素材,是自然发生的语言材料的集合。而语料库( c o r p u s ) 是一个由大量在真实文本经过词法、句法、语义等多层次加工形成的语言材料库。 这些加工的方式包括在语料中标注各种记号,标注的内容包括每个词的词性、语 义项、短语结构、句型和旬间关系等。随着标注程度的加深,语料库逐渐熟化, 成为一个分布的、统计意义上的知识源。 语料库所包含的知识为语言学的研究提供了无穷无尽的资料来源,是计算机 对文本进行各种分类、统计、检索、综合、比较等研究的基础。它是信息检索中 文本分析的一种很重要的工具和资源。 ( 4 ) 数据挖掘方法 数据挖掘技术是智能信息检索中最重要的前沿技术之一,是信息产业最有前 途的交叉学科。数据挖掘技术是比信息检索更高层次地技术,但它并不是用来取 代信息检索技术的,二者是相辅相成的。在传统信息检索技术的基础上融入数据 挖掘技术,可以提高信息检索的查准率和查全率,改善检索结果的组织,增强检 索用户的模式研究,为用户提供个性化的信息服务。使传统的信息检索具有更多 的智能性。由于检索的信息源多为文本格式,因此数据挖掘在检索领域的应用形 式多为文本挖掘。 一一 苎曼! 三查竺璺主竺簦丝兰 数据挖掘( 或文本挖掘) 在智能信息检索中的应用主要有以下几种方式: 文档的自动分类。可以利用文档分类技术对索引数据库中的文档进行整 理,从而提高用户的捡索速度和检索的精确度。 自动文摘。通过文本挖掘中的文本总结技术,可以从检索结果文档集中提 炼出重要的信息形成文档摘要,使用户能快捷、全面地了解文档地内容。 检索结果聚类。检索结果中包含大量信息,且其中大部分是与检索无关的 信息。我们可以对检索结果的文档进行聚类,把与用户需求相关的检索结果聚类, 而远离那些不相关的文档,从而大大缩小用户所浏览的检索结果的数量。 概念检索。文本挖掘是一种智能化的工具,它能挖掘出信息与信息之间的 关联,通过挖掘出的概念之间的关联知识,可用于概念检索。 个性化服务。通过挖掘用户的检索记录,从而挖掘出有意义的访问模式, 发现用户的检索兴趣,为用户提供个性化的服务。例如可以通过关联规则分析, 发现些与用户检索关键词密切相关的文档,通过聚类分析,可以发现用户经常 感兴趣的文档簇。 1 4 研究课题的提出及关键点 从1 1 节可知,u d d i r e g i s t r y 存储了所有的u d d i 商业注船信息,它维护了 一个企业和企监提供的w e bs e r v i c e s 的全球目录,使用考要使用自己领域的w e b s e r v i c e 以集成商业应用时,必须到u d d ir e g i s t r y 站点去查找自己感兴趣的w e b s e r v i c e 。随着w e bs e r v i c e s 技术的不断成熟和发展,存储在u d d ir e g i s t r y 中的 w e bs e r v i c e 信息将会交得越来越庞大,如何从u d d ir e g i s t r y 浩如烟海的信息资 源中为用户快速、方便、准确地检索出满足需求的w e bs e r v i c e ,将变得十分重要。 而传统的信息检索技术是基于关键词的匹配来检索信息,只要发现文档中含有检 索关键词,就将该文档作为查询结果返回绘用户。这种方式的固有缺陷是参与匹 配的只是字符的外在形式,而非所表达的概念,因而导致了传统信惠检索中主题 概念相同或相似的文档不能完全被检索出来,或检索结果中包括了很多关键词一 致但主题相去甚远的文档。另方面,查询结果完全依赖用户所提交的关键词, 而未考虑用户的检索意图和兴趣,对所有用户均是“千入一面”,不能提供个性化 的检索服务。 为此,我们利用文本挖掘相关技术。对u d d ir e g i s t r y 进行智能检索,为解 决上述阚题进行了有益地研究和尝试。本文有如下凡个关键点: 一是对检索文档的特征表示,传统的向量空间9 】f 1 0 1 方法是抽取其中的实词作 昆明理工大学硕士学位论文 为文档特征项,而且认为特征词之间是正交的( 即语义上无关) ,我们对此做了修 正。用最长频繁序列挖掘算法挖掘出扩展短语,用扩展短语代表文档特征项,用 概念秩算法及h i t s 算法提取出枢纽概念及主题概念,并考虑了它们之间语义上 的关联。 二是利用聚类及关联规则挖掘方法构建出用户概念空间。传统的概念空间是 面向通用领域的,多用词频统计方法构建出概念之间的关联权重。词频统计法将 那些在所有文档中均频繁共现的词语赋予较大的关联权重,但对某个用户而言, 只有那些他经常关心的文档的特征词,他才会感兴趣,只有通过用户检索兴趣构 建出的概念空间才有意义。我们首先利用聚类方法分析用户的检索情况历史记录, 生成用户的概念空间,通过关联规则挖掘出项与项之间的关联,由此生成它们之 间的关联权重。 三是利用已生成的用户概念空间( 即用户私有概念知识库) 进行概念检索, 概念检索不但考虑了基于关键词的匹配,而且还考虑了检索词跟w e bs e r v i c e 信 息概念上的匹配,使得跟用户检索关键词在概念上有较大关联度的w e bs e r v i c e 也能被检索出来。由于用户概念空间是由用户的兴趣特征项组成,特征项之间的 关联权重也反映了用户的喜好,因此概念检索实际上也实现了个性化检索服务。 在概念检索的时候,我们还利用文本挖掘中的人工智能方法一t i o p f i e l d 神经网络 算法挖掘出与检索关键词相关的概念或词语,为用户提供联想检索的功能。最后 对返回的大量检索结果进行相关度排序,将与用户检索意图最相关的文档( 即相 关度值较大的文档) 优先提供。 可以看出,文本挖掘技术是实现我们智能检索的核心。 1 5 本文的组织结构 第一章对u d d i r e g i s t r y 、数据挖掘及文本挖掘作了简要介绍,并对智能信息 检索技术的相关知识进行了简要的回顾,由此引出本文的研究课题:文本挖掘及 其在u d d ir e g i s t r y 智能检索中的应用。 第二章介绍文档特征的表示,即利用已有的语料库( w o r d n e t 及h o w n e t ) 及 文本挖掘技术抽取文档特征项,生成文档特征库。首先通过语义分析,提取出文 档实词,然后用最长频繁序列挖掘算法挖掘出扩展短语,用扩展短语表示文档的 特征项,接着通过已有语料库获得特征项之间的语义关联,最后用概念秩算法抽 取出主题概念及枢纽概念。 第三章介绍用户概念空间的建立,利用聚类及关联规则方法挖掘用户检索情 一9 一 昆明理工大学硕士学砬论文 况历史记录,从而发现用户的检索兴趣,生成用户概念空间,该概念空间即是用 户的私有概念知识库。 第四章是概念检索模型的建立,利用前面生成的用户概念知识库进行概念检 索,首先利用h o p f i e l d 神经网络方法进行联想检索,然后将检索词与文档特征词 库进行语义相关性计算,检索出相同、相似或相近文档,最后对检索结果进行相关 度排序,将那些与用户检索意图最相关的文档优先返回给用户使用。 第五章是实验部分,通过模拟数据验证我们提出的智能检索理论的正确性。 第六章结束语,对本文工作的小结,并对今后的研究课题提出展望。 最后是参考文献和致谢。 昆明理工大学硕士学位论文 2 1 引言 第二章文档特征表示 在u d d i r e g i s t r y 中,有两种信息对我们找到自己合适的w e bs e r v i c e 最为重 要,它们是商业实体信息( b u s i n e s s e n t i t y ) 和商业服务信息( b u s i n e s s s e r v i c e ) 。我 们可以将上述两种格式的信息看成是一篇小型的文档。例如我们在m i c r o s o f t u d d ib u s i n e s s r e g i s t r y ( u b r ) n o d e 输入关键词“c o n s u r ”,则得到某个 b u s i n e s s s e r v i c e 的描述如下: 3 9 c o n s u l t i n g c o n s u l t i n g s e r v i c e s f o rk e yi n t e r n e tt e c h n o l o g i e si n c l u d i n gx m l - 翼乩z s o a ku d d lw s d l j s p w e bs e r v i c e s e b x m l a n dr o s e t t a n e t a l s o p r o v i d ea s s i s t a n c ew i t h w e bs i t ed e s i g n ,c o n t e n t , f u n c t i o n a l i t y a n d s t r a t e g y 在这里,“c o n s u l t i n g ”表示文档的标题,而后面段落里的信息则代表文档的 内容,实际上这小段信息就是传统韵一小篇说明文档。则对w e bs e r v i c e 信息的 挖掘和检索就可以使用传统的文档信息处理方法。 文档特征表示是文本挖掘及信息检索的基础工作。由于文档的内容是人类使 用的自然语言,计算机很难处理其语义。为了便于计算机处理其语义,需要对文 档进行处理,抽取代表其特征的元数据,即文档特征,这些特征可以用结构化的形 式保存。选取什么样的元数据来表示文档特征以及对特征项语义层次上的理解, 将是关系信息检索精度和文本挖掘质量的一个重要问题。 传统的特征表示模型是g s a l t o n 等人提出的向量空间模型( v s m ,v e c t o r s p a c e m o d e l ) 1 3 1 ,在该模型中,文档用一个特征向量d = ( ,岛,t d 表示,其中表 示特征词,1 i s n 。由于特征词在表达文档内容的重要程度不同,我们可以对其 赋予一定的权重彬加以量化,这样文档就可表示为d = ( ,w 1 :t 2 ,w 2 :0 ,w ) 。由 于向量空间模型未考虑特征项语义上的理解,我们对其加以了改进:用短语来表 示特征项,并利用已有语料库( w o r d n e t 及h o w n e t ) 对特征项通过词性标注、语 义排歧以及语义关系表示对其进行了概念层次上的扩展,然后用概念秩算法抽取 出主题概念,特征项的权重计算策略为改进的t f - - i d f 方法。 昆明理工大学硕士学位论文 2 2w o r d n e t 与h o w n e t w o r d n e t i l 4 1 是一个在线的词汇参照系统( 一个在网上可机读的英文词库) , 它由普林斯顿大学认知科学实验室g m i l l e r 教授等研制完成。w o r d n e t 用大家熟 悉的拼法来表示词形,用同义词集s y n s e t s ( 在一定上下文中可以互换的同义词或 近义词集) 来表示词义。w o r d n e t 目前包含大约9 5 6 0 0 个词条,其中包括单纯词 5 15 0 0 个,复合词4 4 l o o 个,这9 5 6 0 0 个词,构成了由7 0 1 0 0 个词义或同义词集, 它描写了上下位、同义、反义、部分一整体等词汇语义关系。w o r d n e t 将所有英 语词汇分成五类:名词、动词、形容词、副词和功能词。实际上,它只包括名词、 动词、形容词和副词。名词按层次结构组织,动词按搭配关系组织,而形容词和 副词则是以n 维矩阵方式组织。w o r d n e t 最显著的特点就是以词义丽不是词形来 组织词汇信息。一个词义的表达用一个同义词集来表征。 w o r d n e t 有自带的检索软件,现在已经推出了w o r d n e t1 5 舨。词典内部数 据的表示是个互相关联的链表的网络。其用户界面可以有多种形式,标准的界 面是一个xw i n d o w s 应用程序。只要输入某个词语,则其同义词集s y n s e t s 以及 具有上下位关系( 或部分一整体、反义等) 的词汇均罗列出来。w o r d ne t 软件套 件中含有有关英语形态的智能处理的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45782-2025生物技术生命科学中数据格式和描述的要求
- GB/T 21964-2025农业机械修理安全规范
- 2020-2025年中国浮动装置行业竞争格局分析及投资规划研究报告
- 2025年中国内蒙古园林绿化行业发展监测及投资战略研究报告
- 华洪新材2025年财务分析详细报告
- 2025年中国儿童饼干行业发展前景预测及投资方向研究报告
- 中国小程序市场竞争策略及行业投资潜力预测报告
- 2025年 物业管理师三级考试练习试题附答案
- 中国双机容错软件行业竞争格局及市场发展潜力预测报告
- 2025年 陇南徽县消防救援大队招聘政府专职消防员考试试题附答案
- 降低制粉单耗(集控五值)-2
- 电力分包项目合同范本
- 2024年急危重症患者鼻空肠营养管管理专家共识
- 2024年法律职业资格考试(试卷一)客观题试卷与参考答案
- 国家开放大学《Web开发基础》形考任务实验1-5参考答案
- 山东师范大学学校管理学期末复习题
- 《进一步规范管理燃煤自备电厂工作方案》发改体改〔2021〕1624号
- LS-DYNA:LS-DYNA材料模型详解.Tex.header
- 大学生体质健康标准与锻炼方法(吉林联盟)智慧树知到期末考试答案章节答案2024年东北师范大学
- 新疆警察学院面试问题及答案
- 小学三到六年级全册单词默写(素材)-2023-2024学年译林版(三起)小学英语
评论
0/150
提交评论