




已阅读5页,还剩51页未读, 继续免费阅读
(计算机软件与理论专业论文)基于xml的文本数据挖掘的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着互联网应用的迅速发展,现有的信息搜索技术严重落后于w w w 的发展, 如何从繁杂的互联网数据中高效的寻找到用户感兴趣的有用信息,是当前网络信 息搜索的研究重点。本文在数据挖掘和信息检索技术的基础上引入了基于x m l 的 文本数据挖掘模型,其模型设计包括以下几部分: 1 x m l 页面的信息搜索 首先在引入数据联合查询思想的基础上,提出了一种网络数据联合查询的优 化方案,将互联网上的信息来源根据测试标准分为大、小数据源,在进行r o b o t 搜索时优先搜索大数据源中的数据,缩短搜索时间提高搜索效率。然后在面向 x m l 文档的信息检索中,将结构检索和语义检索相结合,通过结构检索帮助用户快 速定位到文档结构细节,利用语义检索则满足读者语义层次的需求,从而实现较 全面的概念检索。 2 ) 臼v i l 页面的信息抽取及数据模式的转换 根据x m l 文档的结构形式,利用x m l + d o m 技术提取文档中的数据信息转化为 记录存储到关系数据库中。在这个过程中,d o m ( d o c u m e n to b j e c tm o d e l ) 技术, 实现对x m l 文档的解析和定位。另外通过建立x m l 虚拟数据源,可以为应用系统 提供更为方便的数据访问服务,完成由异构数据源向单一x m l 文档的转换工作之 后,可在逻辑层上采用x m l 数据存储机制对x m l 数据源进行访问。 3 用户查询接口设计 将向量空间模型和隐含语义索引模型作为文档信息的检索模型,通过相关反 馈技术进一步提高检索的质量。信息检索强调使用种好的检索模型,将文档和 用户查询表示成相同的形式,并计算它们之间的相似性,然后将检索结果按照一 定的顺序呈现给用户,并且检索模型还应当提供一种比较灵活的机制,让用户参 与到检索的过程,以期进一步发现满足用户检索需求的相关文档。 本课题主要包括) m l 页面信息搜索模块、x m l 页面信息抽取及模式转换模块 和用户查询接口模块,除此之外还对网络数据联合查询的优化:x m l 到关系数据 库的映射等方面内容进行了较深入的研究,并指出了基于x m l 的文本数据挖掘模 型存在的不足以及改进的方向。 关键词:文本数据挖掘;联合查询;信息检索;虚拟数据源 a b s t r a c t a l o n g w i t hr a p i dd e v e l o p i n go f i n t e r n e t ,t h ec u r r e n t - e x i s t i n gi n f o r m a t i o ns e a r c h t e c h n o l o g yg r e a t l yl a g sb e h i n dt h ed e v e l o p m e n to fi n t e r n e t n o w , t h ee m p h a s i so f n e t w o r ki n f o r m a t i o nr e t r i e v ei sh o wt os e a r c ht h eu s e f u l i n f o r m a t i o ne f f e c t i v ef r o m m u l t i f a r i o u sd a t ao f i n t e r a c tb a s e do nd a t am i n i n ga n di n f o r m a t i o nr e t r i e v n t e c h n o l o g y , t h i sa r t i c l ei n t r o d u c e sx i v i l s t e x td a t a m i n i n g m o d e lt h em o d e li n c l u d e : 1 x v i lp a g e si n f o r m a t i o n s e a r c h i n g f i r s t ,i n t r o d u c e dt h ei d e ao ff u s i o nq u e r y ,a n dp u tf o r w a r dak i n do fo p t i m i z e s c h e m eo fi n t e r a c td a t af u s i o nq u e r ya n dd i v i d e di n t e r n e ti n f o r m a t i o ni n t ot w op a r t : b i gd a t ar e s o u r c e ,s m a l ld a t ar e s o u r c e w h e np r o c e s s i n gr o b o ts e a r c h i n g ,i tp r i o r i t y s e a r c hd a t ao fb i gd a t ar e s o u r c ei no r d e rt os h o r t e ns e a r c h i n gt i m ec o m b i n e d s t r u c t u r es e a r c h e sa n ds e m a n t i cs e a r c h e si ni n f c ) r m a t i o ns e a r c ho r i e n t e d 皿st e x t v i as t r u c t u r es e a r c h e sc a l l f l e e t l y d o c u m e n ts t r u c t u r ed e t a i l u s i n go fs e m a n t i c s e a r c h e sc a ns a t i s l yr e q u i r e m e n to ns e m a n t i cl a y e r 2x m l p a g e si n f o r m a t i o nd r a w o u ta n dd a t am o d e ls h i f t m a k i n gu s eo fx m l + d o mt e c h n o l o g y , w ed r a wo u td a t af r o md o c u m e n ta n d s h i f tt or e c o r ds a v e di nr e l a t i o nd a t ab a s e i nt h i sp r o c e s s ,d o mp a r s ea n do r i e n t a t i o n x m ld o c u m e n t b ys e t t i n gu px m l v i r t u a ld a t ar e s o u r c e ,i tc a np r o v i d ec o n v e n i e n t d a t aa c c e s s i n gs e r v i c ef o ra p p l i c a t i o ns y s t e mt r a n s f o r m e di s o m e r o u sd a t ar e s o u r c et o s i n g l ex v l ld o c u m e n t ,i tc a na d o p tx m ls t o r a g em e c h a n i s mt o a c c e s sx v l ld a t a r e s o u r c eo n l o g i cl a y e r 3 u s e rq u e r yi n t e r f a c ed e s i g n v e c o rs p a t i a lm o d e lc o n n o t a t i v es e m a n t i ci n d e xm o d e lc a nb em a d ea sd o c u m e n t i n f o r m a t i o n ss e a r c h e sm o d e lt oi m p r o v es e a r c h i n gq u a l i t yb yf e e d b a c kt e c h n o l o g y e m p h a s i z eu s i n g f i n e rs e a r c h e sm o d e l ,i n f o r m a t i o ns e a r c h e sd o c u m e n ta n du s e rq u e r y w e r ee x p r e s s e da ss a m ef o r ma n dc a l c u l a t e dc o m p a r a b i l i t y t h es e a r c h i n gr e s u l tw i l l b eh a n d e dt ou s e ks e a r c h e sm o d e ls h o u l dp r o v i d eak i n do ff l e x i b l em e c h a n i s mt of i l l u s e r sd e m a n df o rc o r r e l a t i o nd o c u m e n t t h i s p a p e r i n c l u d ex m lp a g ei n f o r m a t i o ns e a r c h e sm o d u l e ,x m lp a g e u 山东大堂硕士茎位论文 i n f o r m a t i o nd r a wo u ta n dm o d es h i f tm o d u l e ,u s e rq u e r yi n t e r f a c em o d u l e b e s i d e s t h i s ,o p t i m i z eo f i n t e r n e td a t aa s s o c i a t e de n q u i r y , m a p p i n go f x v l la n dr e l a t i o nd a t a b a s ew e r es t u d i e dd e e p l yt h i sp a p e ra l s op o i n to u ts h o r t a g ea n di m p r o v e m e n to f t e x t d a t am i n i n gb a s e do nx m l k e y w o r d :t e x td a t am i n i n g ;f u s i o nq u e r y ;i n f o r m a t i o nr e t r i e v a l ;v i r t u a l d a t a m 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 孝t 尘 论文作者签名:堡:j日期: ;、i2 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意 学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手 段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:袁窒导师签名:继 第一章引言 1 1 课题提出的意义 随着i n t e r n e t 和w e b 的迅速发展,i n t e m e t 上的资源日益丰富。截止至u 1 9 9 9 年2 月 网上大约有3 0 0 万台服务器,存储了8 亿个页面,信息量高达1 5 t b 。面对海量的数 据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。用户 可以依赖于各种搜索引擎快速、准确、高效地检索信息,但是现有的搜索引擎也 为用户带来了一些不必要的麻烦。由k e e n 所作的调查显示,人们平均每天有四个 问题需要从外界获取答案,其中3 1 的人使用搜索引擎寻找答案;并且使用i n t e r n e t 查找答案的,半数以上都不成功。另p f r o p e rs t a r c h 的调查指出,3 6 的i n t e r n e t 用户一个星期花两个小时的时间在网上搜索;7 1 的用户在使用搜索引擎时遇到 麻烦;平均搜索1 2 分钟以上发现搜索受挫;搜索受挫中4 6 都是因为链接错误; 绝大部分( 8 6 ) 的i n t e m e t 用户感到应当出现更有效的、准确的信息搜索工具。 造成这些问题的根本原因在于信息检索技术严重落后于i n t e m e t 的发展,尤其 是w w w 的发展。目前许多搜索引擎系统在对中文信息处理时,使用的是机械的 关键词匹配技术。参与匹配的只有外在的表现形式,而非它们所表达的全部概念, 因而在很大程度上影响了搜索引擎的查准率和查全率。 数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质 量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要 的应用。将数据挖掘应用于i n t e m e t 可以提高查询的速度和效率,这种技术被称之 为w e b 数据挖掘。 相对于w e b 的数据而言,传统的数据库中的数据结构性很强,即其中的数据 为完全结构化的数据,而w e b 上的数据最大特点就是半结构化。所谓半结构化是 相对于完全结构化的传统数据库的数据而言。显然,面向w e b 的数据挖掘比面向 单个数据仓库的数据挖掘要复杂得多。 以煳l 为基础的新一代w w w 环境是直接面对w e b 数据的,不仅可以很好地兼容 原有的w e b 应用,而且可以更好地实现w e b 中的信息共享与交换。x m l 可看作种 半结构化的数据模型,可以很容易地将x m l 的文档描述与关系数据库中的属性一 一对应起来,实旌精确地查询与模型抽取。x m l 可以实现标准的h t m l 无法完成w e b 出盔盔鲎巫鲎垡坌盎 应用,如需要w e b 客户端在两个或更多异质数据库之间进行通信的应用;试图将 大部分处理负载从w e b 服务器转到w e b 客户端的应用:需要w e b 客户端将同样的数 据以不同的浏览形式提供给不同的用户的应用:需要智能w e b 代理根据个人用户 的需要裁减信息内容的应用。显而易见,这些应用幕d w e b 的数据挖掘技术有着重 要的联系,基于w e b 的数据挖掘必须依靠它们来实现,) ( m l 为解决w e b 数据挖掘难 题带来了希望。 1 2 国内外研究的现状 从广义上讲,w e b 数据挖掘可以被定义为w e b 上有用信息的发现和分析,这个 定义一方面指出了对大量w e b 站点和在线数据库上可用信息资源的自动搜索和检 索,即w e b 内容挖掘;另一方面也指出了用户对一个或多个w e b 服务器或者在线服 务访问模式的发现和分析,p w e b 访问信息挖掘。本文主要讨论作为w e b 内容挖 掘之一的基于) ( m l 的文本数据挖掘,当前世界上的一些大学、机构和公司都致力 于w w l v 的文本数据挖掘系统的开发,下面对i n t e r n e t 上存在的文本数据挖掘系统作 一下简要的介绍。 ( 1 ) w e b w a t c h e r 与p e r s o n a lw e b w a t c h e r w e b w a t c h e r 是由c m u ( 卡内基一梅隆大学) 开发的一个可安装在一个w w w 站点上的导游器,w e b w a t c h e r 对来访的用户的访问行为进行在线学习,通过对 站点上主页的超文本结构和以前用户浏览路径的学习,建立起一个经验模型。当 一个用户进入站点时,系统提供一个接口来启动w e b w a t c h e r 的导游功能,它将 陪伴用户进入每一个网页,同时通过对用户兴趣的分析向用户建议下一步他要访 问的链接。p e r s o n a lw e b w a t c h e r 是一个个性化的导游器,它与w e b w a t c h e r 的功 能很相似,也是由c m u 开发的。p e r s o n a lw e b w a t c h e r 与w e b w a t c h e r 的区别在于 前者是面向特定的个人而后者是面向特定的w w w 站点。 ( 2 ) a l t a v i s t ad i s c o v e r y 和l w e b a c e a l t a v i s t ad i s c o v e r y 是i 拍d e c 公司开发的一个新型的桌面信息检索工具,它提 供了对桌面、i n t e m e t 、u s e n e t 数据的无缝集成。3 。它可以基于内容在不同的搜索 空间进行检索,如本地盘、网络盘、i n t e r n e t 。可以自动对所搜索到的文档进行总 结,寻找与当前网页相关联的网页。 与a l t a v i s t ad i s c o v e r y l j 类似,w e b a c e 是由明尼苏达大学计算机科学与工程 山东大鲎硕士堂位论文 系开发的用于在w w w 上对文档进行自动分类与搜索的客p 端a g e n t 。当用户通 过浏览器上网时,该a g e n t 可以帮助用户完成:对用户检索到的文档进行自动分 类,并组织成簇集形式:为每一个簇集创建不同的标签;进一步搜索w e b 以发现 更多的与刚才检索到的文档相关的文档。 ( 3 ) w e b a n a l y s t w e b a n a l y s t 是i 虫m e g a p u t e ri n t e l l i g e n c ei n c 开发的一种智能电子商务服务器, 通过增加数据挖掘和文本挖掘的能力来进一步提高w e b t 日务器的功能。m e g a p u t e r i n t e l l i g e n c ei n c 是世界上先进的数据挖掘、文本挖掘和智能电子商务的软件开发 商和分销商。w e b a n a l y s t 主要功能体现在:用户访问站点时可以了解用户的兴趣; 自动发现站点访问者感兴趣的资源,因此站点设计者可以放置有意义的广告条, 推荐相关链接,或提供动态、个性化的内容;实时响应预测;实时前景估计:发 现用户的访问模式;增加站点的客户满意度o 3 。 1 3 本文主要研究的内容 w e b 文本挖掘( w e bt e x tm i n i n g ) 是信息挖掘的一个研究分支,用于基于 文本信息的知识发现。w e b 文本挖掘是利用智能算法,如神经网络、基于案例的 推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源( 如文 档、电子表格、客户电子邮件、问题查询、网页等) ,抽取或标记关键字概念, 文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。w e b 文本 挖掘的早期研究是信息检索,包括了基于关键字检索和全文检索“1 。数据挖掘是 揭示存储在数据库中的结构化数据的数值属性之间的关系,而w e b 文本挖掘是分 析和发现大量非结构化文本中的关系。 国内在w e b 文本挖掘方面的研究还处于实验阶段,由于中文和英文的巨大差 异,我们不得不开发自己的w e b 信息检索和数据挖掘系统。 本文在分析了w e b 文本数据挖掘的一般方法之后,提出了一种基于x m l 的 w e b 文本数据挖掘模型。该模型首先通过基于x m l 文档的概念检索技术智能化的 在i n t e r n e t 上搜索x m l 页面,然后利用x m l 的异构信息交换技术将x m l 数据保 存到传统的关系数据库中,从在用户查询界面获得用户的查询要求,通过向量空 间模型进行x m l 文档的信息检索,然后利用相关反馈技术提高信息检索的质量, 最后将检索的结果传送给用户。 山东大茔硕士堂位论文 1 1 本文第二章简要介绍了x m l 、w e b 信息检索和文本数据挖掘的基本知识,第 三章详细介绍了基于x m l 的文本数据挖掘模型的设计,第四章对模型设计中存在 的问题进行了深入探讨,最后指出了基于x m l 的文本数据挖掘的进一步发展和研 究方向。 第二章基本知识概述 2 1x m l 简介 1 9 9 6 年1 1 月,波士顿s g m l 世界年会产生一项重大变革:与会代表一致公认将 目前i n t e r n e th o m e p a g e 撰写标准h t m l 宣告终结,取而代之,采用最新电子文件 格式化通用标准可扩展的标识语言x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 。 根据美国电子商务专家预测,x m l 可以改善传统网页设计语言h t m l 的描述方 式,未来将可取代h t m l 成为新一代的网页标示语言,这转变将革命性地改变以w e b 为基础的电子商业应用型态”1 。利用x m l 所具有的可扩展性以及自我描述 ( s l e f d e s c r i p t i v e ) 特性,w e b 文件可以在企业间的应用程序中自动传输、处理 及储存,不同厂商的电子商品可以在同一个使用者界面同时展现,资讯的搜寻变 得更为精确快速,不同系统间可以流畅的互通,而中小企业也可以轻易享受e d i 的好处。 i n t e r n e t 的广泛应用,需要人人都易上手的描述语言。作为s g m l 的子集,超 文本标识语言h t m l 应运而生。它受到i n t e r n e t 和全球资讯网热潮的推波助澜,很 快地就成为在网上制作页面的标准语言。 x m l 也是从s g m l 所衍生出来的简化格式,它取名叫做可以延伸的标示语言 ( e x t e n s i b l em a r k u pl a n g u a g e ) 的原因主要是有别于h t m l 那种单一固定的语法, 要让制作页面时,有一个更具弹性、更容易添加新功能,而又不失统一标准的语 言格式。相对于h t m l 只是s g m l 衍生出来的一种文件格式,x m l 则免除了s g m l 的繁 复但仍保持其威力,这使s g m l 的优秀品质能方便而直接地被用在w e b 开发上“3 。 x m l 继承t s g m l 具有的可扩展性、结构性及可校验性,与h t m l 语言相比,区 别主要在三方面: ( 1 ) 可扩展性方面:h t m l 不允许用户自行定义他们自己的标识或属性,而在 x m l 中,用户能够根据需要,自行定义新的标识及属性名,以便更好地从语义上 修饰数据。 ( 2 ) 结构性方面:h t m l 不支持深层的结构描述,x m l 的文件结构嵌套可以复 杂到任意程度,能表示面向对象的等级层次。 ( 3 ) 可校验性方面:h t m l 没有提供规范文件以支持应用软件对h t m l 文件进 出盔盔堂巫圭堂焦逾盎 行结构校验:而x m l 文件可以包括一个语法描述,使应用程序可以对此文件进行 结构确认。 2 1 1x m l 的语言结构 表面上看,x m l 文件与h t m l 文件比较相似,都以一对相互匹配的起始和结束 标记符来标记信息,但二者功能不同,h t m l 的标记符用来显示数据,x m l 的标记 符则是描述数据对角,后者可以多种方式显示,这和把地址簿的信息放在数据库 的字段和记录中而不是放在字处理器产生的清单中的道理一样,数据库可以让你 把地址簿中的信息合成到标签、信封、信件或其它任何想要的载体上面”1 。最终, 就是把这份x m l 菜谱文件合成到一种表现语言中,如h t m l 或c s s 上显示出来。 x m l 的标记符也可以由其他应用软件进行深入的处理,你可以告诉其它程序 如何使用这些有意义的标记符;也可以通过编码把标记符中的内容放入数据库的 某个域中,然后把它输出到一本书的硬拷贝中:还可以用一个支持x m l 的字处理 器使网页的出版轻而易举;等等。这就是x m l 的本质:使标记对人和机器都可读。 一个x m l 文件必须满足以下三项基本规则: ( 1 ) 文档以x m l 定义开始。1 0 表示其版本编号:( 2 ) 有一个包含所有其 它内容的根元素,如上面例子中的和标记符;( 3 ) 所有元素必须合理地嵌套,不 允许交叉嵌套。这在h t m l 中可能不算什么,因为浏览器已经被设计成可以处理 这种问题。但是在x m l 中却是致命的应用程序将拒绝处理没有组织好的文 件。 2 1 。2x m l 的应用 x m l 是一种网络标准,能够简化互联网和企业网上的数据交换,自1 9 9 6 年开 发以来已取得了巨大进展。按照x m l 工作组的b o s a k 的看法,x m l 的应用范围可 分为4 大类: ( 1 ) 要求w e b 客户机在两个或多个不同的数据库之间传递信息的应用; ( 2 ) 希望将w e b 服务器的大量处理负荷转移给w e b 客户机的应用; ( 3 ) 要求w e b 客户机把同一数据以不同的表现方式提供给不同用户的应用; ( 4 ) 适应特定用户需求的智能w e b 工具应用。 电子商务属于第一类应用,尤其是以电子数据交换( e d i ) 为基础的电子商务。 山东大鲎硕士芏位论文 x m l 赋予w e b 数据的结构使其更容易添加上数字签名,同时更容易对文档或文档 的一部分进行加密。w 3 c 数字签名倡议从事的正是x m l 的安全和认证研究。在要 求自动化和信息重复使用的其他应用方面,) c m l 也将对h t m l 有所补充。3 。将来不 管什么时候,从h t m l 向x m l 的过渡将是顺畅的,不会给用户带来任何不便。 本文所研究的课题就是基于x m l 的这些特点和优点而提出的。虽然现在绝大 多数的网络页面是h t m l 的,但是随着人们对网络信息搜索的要求的不断提高, x m 。所具有的优越性会越来越明显,x m l 页面也会逐渐在网络中占有越来越重要 的地位。因此,研究基于x m l 的文本数据挖掘具有非常重要的现实意义,也是网 络数据挖掘的一个重要分支。 2 2w e b 信息检索 w e b 于1 9 9 1 年由欧洲量子核物理实验室c e r n 开发出来,发展十分迅速,已经拥 有】亿用户,上千万个站点和难以计数的信息,其信息容量已经远远超过a r c m e 、 g o p h e r s d w a i s ,而且w e b 上的信息正以半年翻番的速度递增。面对如此丰富的信 息资源,用户试图通过浏览w e b 来发现信息已经变得非常困难。在这种情况下, w e b 信息检索应运而生,使检索方式和检索结果都有了质的飞跃。 2 。2 1w e b 信息检索系统的分类 w e b 信息检索系统作为用户层和w e b 信息层之间的中间层,可以分为:搜索引 擎( s e a r c he n g i n e s ) 、个性化信息滤波系统( p e r s o n a l i z e d i n f o r m a t i o n f i l t e r i n gs y s t e m s ) 和浏览式检索系统( a s s i s t e db r o w s i n gs y s t e m s ) 。w e b 信 息检索首先要帮助用户查找各个服务器在网上的网络地址( u r l ) ,并通过该地址 去访问该服务提供的信息。人们把为这一目的开发的检索工具称为网络搜索引擎 ( w e bs e a r c he n g i n e s ) 。搜索引擎是搜索数据库的相关信息,而信息滤波系统是 将无关文献从确定的文献流中过滤掉”1 。个性化信息滤波系统通过简档反映用户 感兴趣的主题,使用简档进行信息过滤,用户在浏览结果时,提供相关反馈并及时 更新简档。信息滤波的目的主要有两点,即过滤掉不相关的文档以及将相关文档 列表为新的文档和已经查阅过的文档。浏览式检索系统提供给用户的信息是全局 的,用户通过这种全局信息逐步深入发现自己感兴趣的信息。系统通过对用户选 择“链路”或站点跟踪学习来改善导航的质量。如w e b w a t c h e r 、l e t i z j a 就是采 山东大堂硕士堂位论文 刚的这种方式。 在上述几种检索方法中搜索引擎的使用相对广泛,根据搜索方式的不同,搜 索引擎可分为两类: ( 1 ) 全文( 网页级) 搜索引擎。例如:a l t a v i s t a ,它通过运行一软件“r o b o t ” 或“s p i d e r ”,沿着w e b 文件问的链接自动在网上漫游,不断搜集各类新网址及网 页,记录u r l 文件的简明概要、关键字或索引,形成成千上万记录的数据库“”。只 要用户输入查询的关键字在某主页中出现,则这主页就会作为匹配结果返回给用 户。 ( 2 ) 目录( d i r e c t o r y ) 分类式( 网站级) 搜索引擎,如y a h o o ,它与全文搜索引擎 的工作方式不同,它并不使用r o b o t 下载w e b 文档,而是由人工收集或者由w e b 站 点的作者主动提交,它一般也不对文档内容进行自动分析和建立索引,而是由人 工对w e b 站点和文档进行评价、分类并给出简要描述。经过上述处理的w e b 信息 资源按照主题分类并以树状的形式加以组织,从树的根节点逐层向下列出了从一 般到特殊的分类及各级子类,而叶节点则包含指向w e b 信息资源的链接,用户可 以通过浏览目录中的分类来查询w e b 信息1 。 2 2 2 w e b 检索技术 w e b 查询技术要解决的两个问题是查全率和查准率的问题。解决查全率的问 题主要依靠索引数据库的建设,其覆盖面越广,查到的信息就越多:查准率的提高 主要依赖查询语言的设计与实现,同样地,查询语言的功能越强,对所需资源的描 述越细,查询的准确率也越高“。要解决这样一对矛盾,须依赖于我们将要讨论的 查询技术。 【1 )词组表示和布尔运算 词组表示和布尔运算在几乎所有的查询语言都得到了支持,这个技术实现简 单,运用广泛。 ( 2 )通配符与词形变化 许多查询站点也支持通配符和词形变化。a l t a v i s t a 允许使用通配符号 代替任意字符,还有的站点例如i n f o s e e k 支持词形变化,用户输入一个名词,该 搜索引擎会自动检索其复数形式。 ( 3 )范围查询 山东大茔硕士堂位论文 范围查询就是查询满足一定条件的w e b 文档集合。例如y a h o o 可以将时间范 围限定在某一个特定的时间段内。h o t b o t 可以把查询限定在一定的i n t e r n e t 域 内。i n f o s e e k 允许用户在前一个查询结果的基础上再进行深入的查询“。对 y a h o o 等提供可见的分级目录索引结构的站点,用户常常可以把目录浏览与关键 字查询结合起来,通过浏览确定文档所在的子目录,然后在子目录范围内进行查 询。 ( 4 )结构查询与模式识别 一般而言,检索引擎查询时利用h t m l 文档的结构可以提高查询的准确性。 a l t a v i s t a 要求查询关键字出现字t i t l e 、t e x t 、l i n k 、u r l 等特殊的标记处。 h t m l 文档作者还可以使用meta 标志来指引索引项和文档的简短索引。除了 h t m l 本身的结构,w e b 文档还有更深层次的模式结构,如何识别这些模式是提高 查询质量的关键。 ( 5 )自然语言查询 w e b c r a w l e r ,i n f o s e e k 都支持一些简单的自然语言查询。由于自然语言的理 解非常复杂,目前还远远做不到完全的理解,搜索引擎只能“懂得”一些诸如“w h a t i sw h a t ”的简单句子。 ( 6 ) 基于超链接的网上搜索 超链接是制作网页必不可少的一个元素,访问者也是通过超链接浏览网上资 源的。这种新的搜索技术基于这种假设:超链接与本网页内容相关。通过分析超 链接信息,搜索引擎可以将网分为两种类型:典据型和链接型。前者表示含有特定 主题相关的信息,后者表示含有特定主题的超链接。在具体的检索过程中,先就某 一个主题找到一些侯选网页,从这些侯选网页出发寻找相关的链接型站点,然后 根据这些链接型站点提供的信息细化原来的典据型站点。对于这些网页,可以采 用如下的评分标准:典据型站点的分数等于指向它的链接型站点分数的总和:链 接型站点的评分等于其指向的典据型点分数的总和“。也就是说,如果典据型站 点被许多高评分的链接型站点指向,它也必然获得较高的评分。搜索引擎不断地 重复上述计算,直到确定出最好的站点。 随着w e b 上用户群体、信息量的迅猛发展,信息检索技术已经不仅仅满足于 简单的基于字面匹配的全文检索,而是正在向概念层次提升,以期达到更深入的 出盔垄鲎巫堂焦逾盎 应用。“概念检索”这一术语也频繁出现于信息检索、人工智能等领域的有关文 献中,但迄今为止直没有看见明确严格的定义。概念检索可以有广义和狭义两 种理解:广义上讲,只要不仅仅局限于单纯的字面匹配的检索,都可以称之为概念 检索:而狭义上则专指语义检索( 包括同义词、广义词、相关词等等) 。因此,在广 义上,文档的结构信息也从一个侧面反映了一定程度上的主题概念信息。 概念检索通过对文献中的原文信息进行语义上的自然语言处理来析取各种 概念信息,并由此形成一个知识库。然后根据对用户提问的理解来检索知识库中 相关的信息以提供直接的问答。根据检索与人工智能领域中的自然语言处理在语 义层次上的分析和理解有着密切的关系“。传统的关键词检索只是为用户提供那 些可能的相关文献,而这些文献是否真正相关,则需用户阅读以后才能确定。概 念检索立足于语义层次上的分析和理解来处理文献原文与用户提问之间的相关 性信息,将相关的信息从不同的文献原文中滤出并归纳成对用户提问的直接回 答。传统检索提供的是知识文献内容的标识,而概念检索提供的则是文献内容的 意义。 2 3w e b 文本数据挖掘 w e b 挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类 似。但是,w e b 挖掘与传统的数据挖掘相比有许多独特之处。首先,w e b 在逻辑上是 一个由文档节点和超链接构成的图“。因此w e b 挖掘所得到的模式可以是关于w e b 内容的,也可以是关于w e b 结构的。其次,w e b 文档本身是半结构化或无结构的,且 缺乏机器可理解的语义,而数据挖掘的对象局限于数据库中的结构化数据,并利 用关系表格等存储结构来发现知识。 以w e b 文本文档为对象的文本挖掘被称为是w e b 文本挖掘。w e b 文本挖掘属于 w e b 内容挖掘的范畴,可以对w e b 上大量文档集合的内容进行概括、分类、聚类、 关联分析。 2 3 1w e b 文本挖掘的方法 在w e b 文本挖掘中,文本的特征表示是挖掘工作的基础,而文本分类、聚类是 最重要、最基本的挖掘功能。 ( 1 )文本特征表示 出盔盔茎巫圭茎焦逾塞 与数据库中的结构化数据相比,w e b 文档具有有限的结构,即使具有一些结构 也只是着重于格式,而非文档内容。不同类型文档的结构也不一致。此外,w e b 文 本是人类所使用的自然语言,计算机很难处理其语义。所以,文本挖掘面临的首要 问题是如何在计算机中合理的表示文本,这种表示方法既要包含足够的信息以反 映文本的特征,又不至于太过庞大使学习算法无法处理。这里所讲的文本特征是 指文本中包含的能够反映文本内容的标题、关键词、作者、机构、时间等的特征 词条。 ( 2 )文本分类 试图对w e b 上的所有文档进行分类是不可行的,分类方法更适合于对特定的 专业领域的w e b 文档进行分类。文本分类是一种典型的有指导机器学习问题。一 般分为训练和分类两个阶段,具体过程如下: 训练阶段: ( a ) 根据该专业领域已有的分类体系,事先确定类别的集合 c = c 1 ,c i ,c m 】,这些类别可以是层次式的,也可以是并列式的: ( b ) 选择适量具有代表性的w e b 文档,给出训练文档集合s = f s l ,s j ,s n ) ( c ) 对于s 中的每个训练文档s j ,确定其所属的类别c i 。 ( d ) 抽取训练文档s j 的特征,得到特征向量v ( s j ) ( e ) 统计s 中所有文档的特征矢量v ( s j ) ,以此确定代表c 中每个类别的持征 矢量v ( c i ) : 分类阶段: ( f ) 对于测试文档集合t = d l ,d k ,d r 】中的每个待分类文档d k ,计算其 特征矢量v ( d k ) 与每个v ( c i ) 之间的相似度s i r e ( d k ,c i ) : ( g ) 选取相似度最大的一个类别作为d k 的类别有时也可以为d k 指定多个类 别,只要d k 与这些类别之间的相似度超过某个预定的闽值“。如果d k 与所有类 别的相似度均低于阈值,那么通常将该文档放在一边,由用户来做最终决定。对于 类别与预定义类别不匹配的文档而言,这是合理的,也是必须的。如果这种情况经 常发生,则说明需要修改预定义类别,然后重新进行上述训练与分类过程。在计算 s j m ( d k ,c i ) 时,有多种方法可供选择。最简单的方法是仅考虑两个特征矢量中所 包含的词条的重叠程度。即 s i m ( d k ,c j ) :n l ( d k , c i ) 一 n y ( d k ,c i ) 其中,n 1 ( d k ,c i ) 是v ( d k ) 和v ( c i ) 具有的相同词条数目,n y ( d k ,c i ) 是v ( d k ) 和v ( c i ) 具有的所有词条数目。最常用的方法是考虑两个特征矢量之间的夹角余 弦,即 。i 。( d k 。i ) :! 堕2 :兰塑 l v ( a k ) l + i v ( c i ) l ( 3 )文本聚类 文本聚类是一种无指导的机器学习问题,即不是按照预先的类表进行归类, 而是从给定的文档本身出发,根据文档特征词矢量,将相关者聚成一类“。根据文 本聚类的结果不同,可以将聚类方法分为层次聚类法和平面聚类法两种类型。 对于给定的文档集合d = d l ,d i ,d n ) ,层次聚类的过程如下: a ) 将d 中的每一个文档d i 作为一个聚类中心c i = d i ) ,形成d 的一个聚类 集合c = c l ,c i ,c r t 】: b ) 计算c 中每个聚类对( c i ,c j ) 之间的相似度m m ( c i ,e j ) : c ) 选取具有最大相似度的两个聚类( c i ,e j ) 1 m a x s i m ( c i ,c j ) ,将合并成一个 新的聚类c k = c i uc j ,同时合并c i 和c j 的特征矢量,从而构成了d 的一 个新聚类集合c = c l ,c k ,o r l 一1 ) : d ) 重复上述步骤,根据所要产生聚类的数目和相似度阈值限制,得到最终聚 类结果。 2 3 2 w e b 文本挖掘的应用 ( 1 )利用文本挖掘实现w e b 智能服务 目前网络服务个性化成为人们关注的焦点,许多大型网站纷纷推出个人化主 页服务,由用户事先定制自己感兴趣的信息类型,然后只需他们从的主页链接进 入个人化服务,就能得到自己关心的新闻、天气、体育、股市信息、电视节目、 影讯等最新消息。为用户主动提供信息能够真实反映用户的个性化需求,但同时 也存在问题。首先,个人化主页需要预先定义,当用户兴趣发生转移时,只能手工 编辑该网页以适应变化,即个人化主页的维护需要用户主动完成,系统本身对此 无能为力“。其次,文档的分类基于相关性原则,而文档的相关性是一个主观概念 用户对于某个具体文档类型的主观看法有可能与系统产生偏差。 以上两个问题的解决都依赖于w e b 服务智能化的提高,这是以系统对用户需 求的分析为基础的,w e b 日志能够为这种分析提供数据源。而w e b 日志是以文本 形式存在的、所以利用文本挖掘技术从日志中发现用户感兴趣的内容是一个很自 然的选择。 ( 2 )挖掘引擎 由于目前搜索引擎的局限性和人们知识发现( i ( d ) 的需求,数据挖掘技术必将 被用于搜索引擎的设计以改变其性能,这样搜索引擎就变成了具有知识发现功能 的挖掘引擎。正如美国s e a r c h c a f e 公司的c e o p a t r i c i a s o t o 女士指出:“挖掘引 擎超越了搜索技术,并正在将搜索技术推向一个新层次。”搜索引擎和挖掘引擎处 理的都是字串和文本,从这一点上它们是相同的。但是,搜索引擎提供的功能是单 一的,主要是查找定位符合用户查询需要的资源在网络上的位置,因此它需要用 户提供由一个或若干关键字串组成的查询表达式。它开始于用户的查询表达式, 结束于个按照某种方式( 大部分是相关程度) 排序的文献以及文献位置的列表, 基本是一个简单的顺序过程。支持这一过程的核心技术是数据库和索引。尽管挖 掘引擎的确也提供定位文献位置的功能,但这不是它的主要功能。好的挖掘引擎 自动地提取相关资源之间的有价值的关系知识,并且将这些知识以可视的、动态 改变的方式反馈给用户。可视方式给用户以直观的、易于快速理解的知识掌握途 径,而动态改变特性提供用户以及时性“。因此,挖掘引擎开始于一些文本,结束 于文本之间的潜在关系知识。支持这一过程的核心技术是特征提取、分类、聚类 和关联规则发现、知识评价等。 出东大堂硕士堂位论文 第三章 基于x m l 的文本数据挖掘模型的设计 基于x m l 的文本数据挖掘模型首先通过r o b o t 到i n t e r n e t 上搜索x m l 页 面,为了提高搜索的效率,减少搜索的时间,可以引入网络数据联
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甲方房屋租赁合同范本
- 车辆外包租赁合同范本
- 2025至2030中国立式充填封口机行业发展研究与产业战略规划分析评估报告
- 2025至2030中国移动统一通信与协作行业发展研究与产业战略规划分析评估报告
- 2025至2030中国白色水泥行业项目调研及市场前景预测评估报告
- 电气专业名校试题及答案
- 人民币中长期借款合同书范本
- 环境专业面试试题及答案
- 软件产品代理合同
- 警卫安全培训试题及答案解析
- 2023年北京市中考物理试卷(解析版)
- 幼儿园学生近视防控工作领导小组及岗位职责
- 沙盘游戏在自闭症中的运用课件
- 青稞栽培管理培训课件
- 桥梁施工过程中的安全检查要点
- 化学纤维制造中的聚丙烯酸酯纺丝技术
- 二年级科学上册跨学科项目化学习案例做一个小鸟餐厅
- 迎送幼儿时与家长沟通的技巧迎送幼儿时与家长沟通的技巧
- 正式员工正规劳动合同范本
- 1.3.2空间向量运算的坐标表示 课件
- 2023年湖北成人学士学位英语真题及答案
评论
0/150
提交评论