




已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)neuwiis系统中信息获取与展示技术的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文摘要 n e u - w i i s 系统中信息获取与展示技术的研究与实现 摘要 随着i n t e r n e t i n t r a n e t 的快速发展和普及,丰富的w e b 资源构成了一个巨大的全球 信息仓库。一方面,w e b 信息数量庞大,门类齐全,几乎任何信息都可以在w e b 上找 到:另一方面,相对于海量的w e b 信息空问,用户感兴趣的信息只是其中极少的一部 分,从纷繁芜杂的海量信息中找到需要的信息十分困难。帮助用户快速准确的获取需要 的信患、实现“个性化、一站式”服务己成为w e b 应用领域的迫切需求,w e b 信息集 成技术已经成为研究热点之一。 在对w e b 信息特点和w e b 信息集成原理大量研究的基础上,本文提出了基于分类 本体的w e b 信息集成机制。在基于分类本体的w e b 信息集成中,重点考虑网站本身的 组织结构:根据网站组织结构,抽取网站分类体系,并使用该体系进行基于结构的页面 信息分类;在网站分类本体的支持下,集成各信息源网站的分类体系,并合并列应类别 下的倍息,得到通过集成分类体系组织的集成视图,实现多网站集成。 本文给出了实现基于分类本体的w e b 信息集成系统n e u w i i s ( n o r t h e a s t e r n u n i v e r s i t yc a t e g o r yo n t o l o g yb a s e dw e bi n f o r m a t i o ni n t e g r a t i o ns y s t e m ) 。深入研究了 n e u w i i s 系统中的两个核心问题:信息获取及信息预处理;集成视图构建及个性化支 持。信息获取部分研究并实现了包含网站结构获取的页面下载程序,和网站分类体系抽 取程序;信息预处理部分研究并实现了h t m l 内容抽取,和基于结构的w e b 信息分类; 集成视图构建部分研究了基于p o r t a l 和基于分类浏览两种视图模式,并分别阐述了其中 的个性化支持机制。 关键词:w e b 信息集成;信息获取;分类本体;自动分类;个性化信息展示 东北走学硕士学位论文a b s t r a c t r e s e a r c ha n di m p l e m e n to fi n f o r m a t i o nr e t r i e v a la n d d i s p l a yt e c h n o l o g y i nn e u - w i i s a b s t r a c t a si n t e r n e f f i n l r a n e td e v e l o p i n gq u i c k l ya n db e i n g p o p u l a r ,a f f l u e n tw e br e s o l l r c e sh a v e c o m p r i s e dah u g eg l o b a li n f o r m a t i o nw a r e h o u s e ,o no n eh a n d , w e br e s o u r c e sa r eh u g ei n m o u n t ,c o m p l e t ei nc a t e g o r y , a n yi n f o r m a t i o nn e e d e dc a l lb ef o u n do nw e b o nt h eo t h e rh a n d , i n f o r m a t i o nu s e f u lf o ra g i v e nu s e ri sa l i t t l ei nc o m p a r i n g 耐l ht h eh u g ew e bs p a c e a n dh o w t of i n dt h ev e r yi n f o r m a t i o ni s d i f f i c u l t t h e r e f o r e ,b u i l d i n gw e bi n f o r m a t i o ni n t e g r a t i o n s y s t e m ,w h i c hp r o v i d e s p e r s o n a l i z e d , o n - s t o p i n f o r m a t i o ns e r v i c e ,a n dh e l p su s c tf i n dt h e v e r yi n f o r m a t i o nq u i c k l y , b e c o m e sa ni m m e n c er e q u i r e m e n to nw e ba p p l i c a t i o nd o m a i n ,a n d r e s e a r c ho ni ti sg e t t i n gh o t t e ra n dh o t t e r b a s e do nm u c hr e s e a r c ho nf e a t u r e so fw e bi n f o r m a t i o na n dp r i n e i p m so fw e b i n f o r m a t i o ni n t e g r a t i o n ,w ep m p o s e dn o r t h e a s t e r nu n i v e r s i t yc a t e g o r yo n t o l o g yb a s e dw e b i n f o r m a t i o ni n t e g r a t i o nh at h i sp a p e r i nw h i c hw e b s i t eo r g a n i z a t i o ns t r u c t u r ei sp a i dh e a v e i m p o r t a n c e :c a t e g o r ys y s t e m , u n d e rw h i c hi n f o r m a t i o na r ec l a s s i f i e db a s e do nw e b s i t e $ t r u c t u r e , i so b t ;f i n e db a s e do nw e b s i t es t r u c t u r e w i t hs u p p o r to f c a t e g o r yo n t o l o g y , c a t e g o r y s y s t c m sf r o md i f f e r e n ts i t e sa r ei n t e g r a t e d ,a n di n f o r m a t i o ni nc o r r e s p o n d i n gc l a s s e si su n i t e d , s om u l t i s o u r c e sa r ei n t e g r a t e d w ed e v e l o p e dn e u - w i i s ,w h i c hi sap r o t o t y p e s y s t e mi m p l e m e n t i n gt h ea b o v e i n t e g r a t i o nm e c h a n i s m a f t e rt h a t ,t h ep a p e rf o c u s e do ut w ob a s i cp r o b l e m si nn e u w i i s , o l l ei sw e bi n f o r m a t i o nr e t r i e v a la n dp r e - p r o c e s s i n g ;t h eo t h e ri si n t e g r a t e dv i e wb u i l d i n ga n d p e r s o n a l i z a t i o n d e t a i lt o p i c si n c l u d e da l et h ef o l l o w s :p a g ed o w n l o a dw i t hw e b s i t es t r u c t u r e o b t a i n i n g ,w e b s i t ec a t e g o r ys y s t e mo b t a i n i n g , w e b s i t es t r u c t u r eb a s e dp a g ec l a s s i f i c a t i o n , p o r t a lb a s e dv i e wa n dc a t e g o r i z e dv i e wb u i l d i n ga n dp e r s o n a l i z a t i o n k e yw o r d s :w e bi n f o r m a t i o ni n t e g r a t i o n ;i n f o r m a t i o nr e t r i e v a l ;c a t e g o r yo n t o l o g y ;, a u t o m a t i c c l a s s i f i c a t i o n ;p e r s o n a l i z a t i o n - i - 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的 研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文作者签名:私勿鸣 日 期:阳z 、j 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规 定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文 被查阅和借阅。本人授权东北大学可以将学位论文的全部或部分内容编入有关数据 库进行检索、交流。( 如作者和导师同意网上交流,请在下方签名:否则视为不同 意。) 肫 学位论文作者签名:手移霭嘭 导师签名: 签字日期: 加f签字日期: 东北大学硕士学位论文 第一章前言 1 1 问题提出 第一章前言 上世纪9 0 年代以来,i n t e m e t 迅速发展并普及到社会生活的各个领域。w e b 信息空 间也随之出现爆炸性增长,搜索引擎的重要目标之一是索引整个网络空间中的所有w e b 页面:1 9 9 4 ,最早的搜索引擎之一w o r l d w i d e w e b w o r m 1 】索引了1 1 0 ,0 0 0 网页及通过网 络可以获取的文档:到1 9 9 7 年的1 1 月,最好的搜索引擎都宣称索引页面超过 2 0 0 ,0 0 0 ,o o o ;到2 0 0 4 年1 2 月,最好的搜索引擎g o o g l e 宣称索引页面超过8 ,0 0 0 ,0 0 0 ,0 0 0 。 目前,w e b 上的信息页面是如此之多,以至于g o o g l e 放弃索引整个w e b ,不在同竞争 对手在索引页面数量上进行竞争。 当前,w e b 已发展成为分布的全球共享信息空间,并且仍在持续快速增长中,已经 成为人们获取信息的重要资源。由于w e b 空阔数据量大,增长迅速,变化和失效不确 定,用户要在信息海洋里查找信息,就像大海捞针一样。构建信息获取辅助工具,帮助 用户在浩瀚的信息海洋中快速,准确地获取所需信息,成为w e b 上的重要服务需求。 这类工具主要分为两种:搜索引擎和w e b 信息集成系统。 经过多年的发展,搜索引擎已经成为成熟的商业应用,极大地方便了w e b 信息的 查找和获取。但它还存在着以下问题【2 ,3 】:大量非专业用户,难以使用简单查询串准确表 达自己的信息需求,从而造成大量查询结果并不是用户需要的信息;信息搜索过程和结 果集排序对所有用户使用同一标准,难以使不同知识、工作背景的用户都满意;返回的 结果集过于庞大,用户往往只用到前面几页。当前搜索引擎研究的重点主要集中在查询 串重构,结果集分类组织和排序改进等方面1 2 :另外,在搜索引擎中引入用户注册机制, 基于用户注册信息进行个性化处理,提供个性化服务也是一个新兴的发展方向【4 l 。由于 搜索引擎工作方式的限制,这些问题在当前搜索引擎工作模式下,都很难再有突破性的 改进。 对某一用户,感兴趣的信息仅仅集中在几个主题,对于某一主题的信息,往往有几 个信息源权威并且内容丰富。建立w e b 信息集成系统,根据用户信息需求搜集、过滤 和组织信息,向用户提供“个性化,一站式”服务,成为当然的选择【5 1 。信息系统集成 技术已经历了2 0 多年的发展过程,研究者已提出了很多信息集成的体系结构和实现方 东北大学硕士擘位论文 第一章前言 案,然而这些方法所研究的主要集成对象是传统的异构数据库系统。与传统数据相比, w e b 数据有如下特点f 6 ,7 】:数据不由任何组织和个人控制,没有固定的数据模型;数据 的组织是任意的,只要能在w e b 上展现即可:数据的内容和表现方式是动态变化的: 数据量巨大并且增长迅速。集成系统需要在各数据源之上,构建统一的集成视图,相对 于传统数据库和文件系统为集成提供的良好接口和可控性支持,w e b 数据的集成面临更 大的挑战。 1 2 研究的主要问题 w e b 作为一种新的资源环境,为新技术的产生开辟了新的领域,同时也为传统技术 的研究提出了新的方向。w e b 信息集成作为传统信息集成技术与w e b 相结合的新技术 从2 0 世纪9 0 年代起就成为国内钋研究的热点。当前w e b 信息集成的研究主要集中在 如下几方面: ( 1 ) w e b 信息获取。为了对其w e b 做集成处理,必须获取页面h t m l 源文件,从 h t m l 源文件中抽取内容信息积元信息,并进行适当的集成预处理。网络是一个通过超 级链接连接的结构复杂的连通图,使用蜘蛛程序从某一页面出发,沿着其中的超级链接, 按深度优先或广度优先原则遍历,都能获取网络中所有页面。对蜘蛛程序的研究主要集 中在并行性、任务分配和执行效率几个方面。网页总是通过h t m l 组织,h t m l 语言 是结构隐含、不规则和不完整,从半结构的页面h t m l 中抽取内容信息和元信息,是 一项十分复杂的任务,网络上各信息源风格独立,变化迅速也增加了h t m l 内容抽取 的难度。根据集成处理的要求,对信息进行适当的预处理也是信息集成中重要的一步。 ( 2 ) 多信息源网站异构处理和集成。进行多网站集成,需要处理结构异构问题, 语义异构问题,冲突和冗余问题。w e b 信息的提供者往往按照自己的习惯和知识来组织 信息,不同的入对相同信息的理解会产生偏差,从而造成了结构和语义上的异构性。为 使来自不同信息源的信息结合并形成逻辑统一,从语义理解方面来说,应该建立适当的 机制,协调各信息源的异构问题。各w e b 信息源之间是独立的,信息内容出现冗余, 冲突都是不可避免的。集成系统要建立相应的发现,处理机制。 多w e b 信息源集成要考虑的另一个问题是用户参与机制:从各信息源抽取的被集 成信息需要通过合并、融合、重构等处理,并进行过滤和重组织,从而形成全局统一集 成视图。信息集成过程是语义处理的过程,完全自动地完成是不可能的:另外集成处理 过程需要用户参与并提供个性化信息,从而完成其中的个性化处理。但太多的用户参与 一2 一 东北大学硕士学位论文 第一章前言 会造成用户的负担,降低系统的易用性。 ( 3 ) 集成视图构建。访问w e b 应用的标准工具是浏览器,最终建立的集成系统用 户视图,应该以标准h t m l 形式向用户展示。因此,必须提供根据集成视图,动态生 成h t m l 文件的技术,以便能够获得集成信息源的最新信息。 总的说来,w e b 信息来源于各种组织和个人,不由任何组织和个人控制,没有统一 的数据模型,是语义缺失的;w e b 信息面向人工浏览,通过h t m l 组织,h t m l 本身 没有语义信息,并且语法松散,没有严格结构;w e b 信息内容和组织方式动态变化,来 自不同发布者的信息大量重复,质量参差不齐。如何根据w e b 信息的这些特点,给出 对应的解决方案,并结合传统信息集成技术进行w e b 信息集成,是当前w e b 信息集成 研究的主要内容。 1 3 本文的工作和组织结构 在深入研究w e b 信息特点和w e b 信息集成原理的基础上,本文提出了基于分类本 体的w e b 信息集成机制,给出了实现系统n e u w i i s ( n o r t h e a s t e r nu n i v e r s i t yc a t e g o r y o n t o l o g yb a s e dw e bi n f o r m a t i o ni n t e g r a t i o ns y s t e m ) ,并深入研究了n e u - w i i s 系统中的 两个核心问题;( 1 ) 信息获取及信息预处理;( 2 ) 集成视图构建及个性化支持。 本文研究主要内容包括如下几部分:基于分类本体的w e b 信息集成机制:包含网 站结构获取的页面下载:基于网站组织结构的网站分类体系抽取;基于结构的w e b 信 息分类和页面主题内容抽取;集成视图构建部分研究了基于p o r t a l 和基于分类浏览两种 视图模式,并分别阐述了其中的个性化支持机制。 本文共分为六章:第一章主要介绍了w e b 信息集成研究的背景和主要内容;第二 章介绍了w e b 信息集成研究领域的最新动态,本文研究内容的相关工作和本文研究用 到的支持技术;第三章阐述了基于分类本体的w e b 信息集成机制思想来源,理论分析, 实现系统n e u w i i s 的总体设计和工作流程;第四章详细阐述了基于分类本体的w e b 信息集成中信息获取和预处理部分的研究思路,实现机制和相关实验分析;第五章阐述 基于分类本体的w e b 信息集成中集成视图生成,同时给出了系统中的个性化支持机制 及实现;最后,在第六章对本文进行了总结。 东北大学硕士学位论文第= 章研究基础 第二章研究基础 2 1w c b 信息集成 信息集成通常针对某个既定目标,或面向某特定任务对信息进行组织和管理,它 包含一种使午口关的多元倩息有机融合并优化使川的理念。网络环境下,数据极人丰富的 同时也带来了数据泛滥的问题,w e b 信息集成技术是从巨量的信息中获取有效信息的方 法。利用此项技术,用户只需关心自己的真正需求而无须登录多个网站;它提供的集成 技术,能去除来自1 i 同网站的数据的不一致性及冗余性;同时在搜集不到数据时,它提 供的代理服务还能定时去自动获取数据。w e b 信息集成系统由以f 几个部分构成: 信息提取与转换模块,负责从各个信息源提取并转换需要的数据。其构造方式有手 工和自动两种,现在也有很多两者结合的半自动构造方式。 数据集成模块,协渊各个信息源的语义和结构上的异构性,解决多数据源之间的冲 突,构建全局统一集成视图。 查询处理模块,接收用户以高级语言形式提交的复杂杏询,在全局统一集成视图上 进行查询,并从各个信息源提取数据,经转换合并后形成查询结果返回给用户。 2 1 1w 曲信息集成的方法 目前,建设w e b 信息集成系统有两种方法8 一”,分别是物理集成法和逻辑集成法。 ( 1 ) 物理集成法。物理集成法又称数据仓库集成法。使用这种方式进行集成,将 根据应用需求确定全局模式,并按照全局模式抽取、转换各数据源的数据,存储在数据 仓库中,用户的查询就是对这个存储仓库的查询。数掘仓库法集成的示意图如图21 所 示。通过这种方式进行集成的优点是系统建立过程简单对于特定应用,往往十分有效。 但也有难以克服的劣势:由于众多的w e b 数据源包涵了海量的数据,而且数据不断增 加、变化和失效,初始数据装载和数据变化后的更新问题都是难以逾越的困难。 加、变化和失效,初始数据装载和数据变化后的史新问题都是难以逾越的困难。 东北大学硕士学位论文第二章研究基础 2 1w e b 信息集成 第二章研究基础 信息集成通常针对某个既定目标,或面向某特定任务,对信息进行组织和管理,它 包含一种使相关的多元信息有机融合并优化使用的理念。网络环境下,数据极大丰富的 同时也带来了数据泛滥的问题,w e b 信息集成技术是从巨量的信息中获取有效信息的方 法。利用此项技术,用户只需关心自己的真正需求而无须登录多个网站;它提供的集成 技术,能去除来自不同网站的数据的不一致性及冗余性;同时在搜集不到数据时,它提 供的代理服务还能定时去自动获取数据。w e b 信息集成系统由以下几个部分构成: 信息提取与转换模块,负责从各个信息源提取并转换需要的数据。其构造方式有手 工和自动两种,现在也有很多两者结合的半自动构造方式。 数据集成模块,协调各个信息源的语义和结构上的异构性,解决多数据源之问的冲 突,构建全局统一集成视图。 查询处理模块,接收用户以高级语言形式提交的复杂查询,在全局统一集成视图上 进行查询,并从各个信息源提取数据,经转换合并后形成查询结果返回给用户。 2 1 1w e b 信息集成的方法 目前,建设w e b 信息集成系统有两种方法 8 ,研,分别是物理集成法和逻辑集成法。 ( 1 ) 物理集成法。物理集成法又称数据仓库集成法。使用这种方式进行集成,将 根据应用需求确定全局模式,并按照全局模式抽取、转换各数据源的数据,存储在数据 仓库中,用户的查询就是对这个存储仓库的查询。数据仓库法集成的示意图如图2 ,l 所 示。通过这种方式进行集成的优点是系统建立过程简单,对于特定应用,往往十分有效。 但也有难以克服的劣势:由于众多的w e b 数据源包涵了海量的数据,而且数据不断增 加、变化和失效,初始数据装载和数据变化后的更新问题都是难以逾越的困难。 东北大学硕士学位论文第二章研究基础 图2 1 数据仓厍法集成 f i g 2 1i n t e g r a t i n gb y d a t aw a r e h o u s e ( 2 ) 逻辑集成法。逻辑集成法 1 0 3 1 1 的结构如图2 1 所示。这种方法基于视图集成, 数据仍保存在局部各w e b 数据源中,通过各数据源的“包装程序”( w r a p p e r ) ,数据虚 拟成集成视图,用户的赢询基于虚拟的集成视图,不必知道每个专门的数据源的特点, 查淘执行引擎直接与包装程序打交道,将基于集成视图的套询转换为基于备局部数据源 视图的查询。由于这种方法不需要存储大量数据,并能保证查询到最新数据,更适应于 数据源数日多、各局部数据源的自治性很高且局部数据经常变化的w e b 环境。但是, 每一个数据源通常都需要专用的包装程序进行信息抽取和转换,如何商效、快速地为 w e b 数据源建立包装程序成为研究的重点和热点。 图2 2 逻辑法集成 f i g 2 2l o g i ci n t e g r a t i o n 由于物理集成法无法很好地解决数据更新问题,当前,除了少数大型企业内部仍采 用此方法外,通用w e b 信息集成系统通常采用逻辑集成法。逻辑集成法中,对数据源 进行包装的方式有两类1 :以查询为中心的包装和以视图为中心的包装。以查询为中心 的包装中,包装器把用户查询分解成在各信息源上分别执行的子查询,再把执行结果汇 总返回;以视图为中心的包装,使用全局模式定义各信息源从而形成全局视图,用户查 5 东北大学硕士学位论文第二章研究基础 询在全局视图上直接执行。 由于包装器与信息源风格、内容和形式相关,逻辑集成中的一个重要问题是包装器 生成,目前包装器生成方法可以分为如下几类1 3 : 1 ) 包装器程序语言法。开发专门的包装器语言( w r a p p e rl a n g u a g e ) 帮助用户建立 包装器,是解决包装器生成问题的最早方案之一。采用这种方法的著名应用有 m i n e r v a t l 4 】,t s i m m i s t l5 1 ,w e b q q l 1 6 1 等。 2 ) h t m l 分析法。基于h t m l 文档内部结构,实现信息抽取的w r a p p e r 建立。这 中方法在信息抽取之前,先建立h t m l 页面的文档树,通过文档树表现h t m l 标记的 层次关系。自动或半自动的抽取规则作用于文档树。使用这种方法建立包装器的代表有 w 4 f t l7 1 ,x w r a p t l 引,r o a d r u r m e r 【1 9 】等。 3 ) 基于自然语言处理的包装器建立法。很多方法使用自然语言处理( n i p ) 技术, 学习从自然语言文档中抽取相关信息的规则。这些方法通常使用过滤,标签分解,词法 和语义标注技术,建立短语和句子间的关系,从而导如抽取规则。导出的规则是基于语 法和语义约束,这些约束有助于文档中相关信息识别。基于n l p 的方法对有格式的网 页文档尤其适用,如任务列表,商品列表等。使用n l p 方法建立包装器的代表系统有 r a p i e r t 2 们,s r v l 2 1 】和w h i s k 2 2 1 。 4 ) 基于自动推理的包装器构造法。根据调练集,自动推理工具生成基于分隔符的 信息抽取规则。这种方法与n i p 法主要区别在于它不依赖于语言学约束,而是依赖于 训练样本数据中包含的格式、结构特征,从而使这种方法比前面的方法更加适合于 h t m l 文档。w i e n l 2 3 1 ,s o f f m e a l y 2 4 1 和s t a l k e r l 2 5 1 等是这种方式的代表。 5 ) 基于模型的包装器生成法。使用这种方法建立包装器,首先建立感兴趣对象的 目标结构,然后在w e b 上发现匹配该结构的页面。目标结构最初由原始的简单模型给 出,使用类似于推理方式建立包装器的方法,可以在网页中发现匹配该结构的目标。使 用这种方法的系统有n o d o s e 2 6 1 ,d e b y e 2 7 】等。 6 ) 基于本体的包装器生成法。前面的所有以方法中,进行数据抽取的规则或模式 都依赖于文档中数据的展示特征和结构。实际上,抽取可直接依赖于数据。考虑一个具 体的领域应用,本体可以用来确定文档中的内容,并建立文档中对象的结构。使用这种 方式最具代表性的是伯明翰大学数据抽取小组研究的系统【2 8 】。 w e b 设计者经常调整页面的格式,用户对页面的变化没有控制权,页面变化使包装 器失效,需要重新建立包装器以保证包装器的有效性。逻辑集成的另一个重要问题是包 。6 一 东北大学硕士学位论文第二章研究基础 装器的维护,这方面的相关工作有有:k u s h m e r i c k 通过回归测试进行变化检测;k n o b l o c k 获取抽取规则中的内容特征;c o h e n 使用信息检索中文本相似方法重新定位数据项; c h i d l o v s k i i 将语法特征和内容特征作为分类的标准,对多页面进行多种分类和多遍扫 描;s g w r a m :提出基于模式的w r a p p e r 维护方法。 2 1 2 w 曲信息集成的质量 w e b 信息集成的质量主要由以下三个方面决定: ( 1 ) 单个信息源信息提取的准确性、全面性和及时性。 ( 2 ) 多信息源的异构协调和集成的合理性,其中包括结构异构、语义异构、冲突 和冗余处理。 ( 3 ) 个性化支持机制的易用性和有效性,即在信息处理过程中,提供全方位的、 直观有效的用户参与机制,给系统用户提供个性化信息过滤、视图设置等支持。 在w e b 信息获取方面,经过多年的研究,已经有很多成熟有效的技术。当前w e b 信息集成的研究主要集中在如何有效集成异构信息源方面。但是w e b 上的信息纷繁芜 杂,数量巨大且增长迅速,这种简单的集成,即使各步处理都完美无缺,也会使用户淹 没在信息海洋中。用户对信息的需求是因人而异的,提供用户设定自身特点及信息需求 的机制,基于用户的设定进行信息过滤,是建立网络信息服务系统十分重要的部分。 2 2w e b 信息获取与预处理 w e b 信息获取包括两个部分:通过蜘蛛程序从网络中下载网页;分析页面h t m l 源文件,从中抽取主题内容信息及其它元信息。w e b 信息预处理根据集成处理的需求而 各不相同。 2 2 1 蜘蛛程序研究现状 任何需要抽取大规模信息的网络蜘蛛,都应考虑如下几个方面的问题。灵活性:任 何运行于复杂环境的网络蜘蛛,都需要对平台软硬件资源、网络性能等具有很好的自适 应能力,以及对于不同性能需求有相应的调节能力;健壮性:蜘蛛系统需要很强的容错 能力,主要包括处理不规范的h t m l 代码以及各类异常、应对服务器端和客户端的异 常行为( 如跳转) 、选择合适的传输协议( h t t p h t t p s ) 等,以求将损失减少到最低,并 具有错误恢复机制;可维护性和可配置性:系统需要有良好的人机接口,能够监控系统 东北大学硕士学位论文 第二章研究基础 运行状态,统计各个节点下载页面数量,增删未被处理的l r r l ,终止系统运行等。 目前,网络蜘蛛实现策略有多种,并一直被人们不断的改进和扩充,下面是几种常 用的实现策略: ( 1 ) 广度优先的蜘蛛程序。这类蜘蛛一般从一个初始w e b 页面集合出发,进行页 面发现和下载。广度优先是指首先沿着初始w e b 页面的导出链接进行爬行。在实际应 用中,一般都会对蜘蛛程序进行各种改进,增加约束,例如限制在同一站点内页面的下 载数量、下载特定主题相关的页面例等。 ( 2 ) r e p e t i t i v e 蜘蛛程序。为了保持所抓取w e b 页面和索引的有效性,系统会周 期性的调用蜘蛛程序来重新采集信息页面。这类蜘蛛通常采用各种启发式算法,以提高 更新的效率。例如,对于系统认为重要的页面、站点等,更加频繁的进行爬行。大量文 献1 30 】研究了w e b 站点的信息更新规律,优化更新频率等。 ( 3 ) 定题爬行蜘蛛程序。现在很多定题搜索引擎采用一定的启发式算法,针对特 定领域主题的w e b 信息进行蜘蛛爬行,例如,针对新闻、视频、购物、m p 3 、图片、学 术论文等。除了采用启发式算法,还有基于超链接结构分析3 1 1 和机器学习【3 2 1 的方法设计 定题爬行蜘蛛。 ( 4 ) 深层次爬行蜘蛛程序。在n t e m e t 上,除了大量以w e b 页面组织的信息外, 数据库、文件系统中的信息量也是可观的,如何从这些数据源中抽取和索引信息,以提 高检索系统的信息覆盖面以及查全率已经成为蜘蛛程序的另外一个研究方向。 此外,还有根据概率论进行可用w e b 页的数量估算,用于评估互联网w e b 规模的 抽样蜘蛛3 3 】;采用爬行深度、页面导入链接量分析等方法,限制蜘蛛下载不相关的w e b 页的选择性爬行蜘蛛刚等等。 2 2 2 h t m l 内容抽取 w e b 信息抽取,就是以w e b 信息为信息源的信息抽取。w e b 信息抽取承接了传统 信息抽取技术研究的成果,其核心是将半结构化的h t m l 页面中隐含的信息点抽取出 来,并以更为结构化、语义更为清晰的形式表示,为用户在w e b 中查询数据、应用程 序直接利用w e b 中的数据提供便利。 将信息从网页中抽取出来通常是h t m l 解析器( h t m l p a r s e r ) 完成的,所谓解析 器就是一个能够将数据从w e b 页面中抽取出来并且将它们还原为结构化的数据( 例如 x m l 数据,或者数据库表中的记录) 的软件程序。h t m l p a r s e r 能够代替人或者其它的 东北大学硕士学位论文 第二章研究基础 软件而自主地工作,将一种格式的数据或检索结果转换为另一格式的数据。h t m l 内容 抽取的关键技术有 3 5 , 3 6 , 3 7 : ( 1 ) 抽取规则的表示。不同的系统抽取规则的定义和表示方法也各不相同,有的 专门定义一种高级语言或脚本语言,描述复杂的文本模式和语言结构,如l i x t o 3 8 l 采用 的e l o g 语言,有的基于h t m ld o m 树定义,有的采用了正则表达式表示等。采用专门 的高级语言描述抽取规则的缺点是需要掌握这种语言的语法,也不容易移植到别的系 统,而只采用d o m 或正则表达式不足以描述待抽取信息的各方面特征。 ( 2 ) 抽取规则的生成。从对信息抽取技术分析中不难看出,所有的抽取技术都在 抽取规则的生成上下尽了功夫。抽取规则对于抽取工作的自动化程序至关重要,同时又 对抽取的质量有着重大的影响,因此是信息抽取系统的一个关键组成部分。抽取规则描 述的是要抽取信息的各种特征和规律,作用是要确定需要抽取哪些信息,用于在w e b 上识别和定位待抽取的信息。抽取规则的生成方法主要有人工获取方式和自动学习w e b 两类。 人工获取方式是人类专家依靠自身的知识和技术,审阅一定量的待处理文本文档, 归纳出相关信息出现的规律,然后按照信息抽取系统内部对抽取规则格式书写的要求表 述抽取规则。显然,人类专家掌握相关领域知识的水平和技能状态对系统的性能起着相 当关键的作用。另外,w e b 页面更新( 内容或格式的变化) 或者出现新一类的w e b 页 面时,都需要人工识别,更新或重新生成抽取规则,这样导致了系统可扩展性较差。 自动学习方式也需要一定的人工成分。主要是依靠人工在训练集合中的文档中用适 当的方式标出相关信息的出现,生成系统自动学习抽取规则需要的训练集( t r a i n i n g e x a m p l e ) 。学习模块就可以在训练数据的基础上运行了。 2 2 3 w e b 信息预处理 数据预处理是数据挖掘领域和数据集成领域共同关注的问题。获取的原始数据往往 不完整,含噪声,不一致。在w e b 信息集成领域,面对的是从网上抽取的信息,它们 通常组织方式杂乱,内容大量重复,内容质量参差不齐,内容可能相互矛盾,必须进行 适当的预处理,才能做进一步的集成处理。 信息预处理包括信息格式转换和过滤两个不同层次。信息集成系统需要访问不同信 息的机构,访问不同组织形式的数据信息,如各种数据库、不同文件系统以及网络w e b 页面等。同时,信息预处理也能够过滤不同格式的文档。如m i c r o s o f tw o r d 、w p s 、t e x t 东北大学硕士学位论文 第二章研究基础 和h t m l 等。这使得集成系统不仅能够处理标准h t m l 文档,而且能够处理其他格式 的文档信息。信息预处理主要包括如下几个方面: ( 1 ) 使用信息预处理( u s a g ep r e p r o c e s s i n g ) 。使用信息预处理的目标是将输入的 数据转换为目标格式数据。数据源可以是其它的应用日志文件或者包侦测( p a c k e t s n i f f i n g ) 。 ( 2 ) 内容预处理( c o n t e mp r e p r o c e s s i n g ) 。内容的预处理将文本、图形、s c r i p t 类 型文档以及其它文件如多媒体等转换为w e b 集成过程可以使用的形式。为了对页面使 用内容预处理算法,信息必须被转换成量化的形式,目前已经存在一些向量空问模型的 算法可以被用来处理这步工作。 ( 3 ) 结构预处理( s t r u c t u r ep r e p r o c e s s i n g ) 。通过页面之间的超文本链接,形成了 一个站点的结构。结构的预处理与站点内容的预处理类似。 2 3 w e b 信息自动分类 文本分类( t e x tc a t e g o r i z a t i o n ) 是在给定的分类体系下,根据文本的内容自动地确 定文本关联的类别。基于机器学习的文本自动分类已经取得了很好的成绩,提出了多种 特征抽取方法和分类器。对w e b 信息进行分类,可以使用传统文本分类技术。当前研 究的热点是在借鉴传统文本分类技术基础上,结合w e b 信息自身特点,实现w e b 文档 高效、准确分类。 2 3 1 传统文本分类技术 传统文本分类多为基于机器学习的文本分类,通常由训练和分类两个阶段组成。在 训练阶段,从训练文本学习分类知识,建立分类器;在分类阶段,根据分类器将输入文 本分到最可能的类别中。基于机器学习的自动分类研究已经取得了很多成果,提出了多 种特征抽取方法和分类器,如回归模型、最近邻分类、朴素贝叶斯分类、决策树、支持 向量机等,还建立了o h s u m e d 、r e u t e r s 等标准的分类语料库和统一的评价方法。常 用的分类方法有: ( 1 ) 最近邻居分类( n e a r e mn e i g h b o r ) 。 ( 2 ) 朴素贝叶斯分类( n a i v eb a y e s ) 。 ( 3 ) 决策树( d e c i s i o nt r e e ) 。 ( 4 ) 支持向量机( s u p p o r t v e c t o r m a c h i n e s l 。 东北大学硕士学位论文第二章研究基础 ( 5 ) 相关反馈( r e l e v a n c ef e e d b a c k ) ( 6 ) 神经网络( n e u r a l n e t w o r k ) 2 3 2w r e b 页面分类 由于网络文档往往内容不充实。结构不完整,从而直接使用传统分类技术进行分类 效果往往不佳。w e b 信息所具有的链接关系,页面组织结构信息等,在传统文本分类中 也无法使用。根据w e b 信息特有的特征,结合传统文本分类技术,可以设计专用于w e b 信息分类的高效算法。 w e b 信息都通过网页组织和展示,w e b 信息分类也可以转化为网页页面分类。网页 总是聚合出现在网站中,网页之间通过超级链接相互指引。把页面看成顶点,页面间的 链接看成有向边,网站和网络都可以看成有向图,对这个有向图进行分祈,可以得出很 多页面分类的依据。另外,网页的风格、组织形式内部结构,也可以作为w e b 信息分 类的分析依据。 2 3 ,3 文本分类和w 曲页面分类比较 文本分类和页面分类归根到底都是对文本信息的分类,都存在着文本信息的表示、 分类信息的获取等。正是基于这样的共性,可以借鉴文本分类中的技术来处理页面分类 问题。 文本分类和页面分类又有所不同,如:网页信息相对于文本信息更开放,风格不固 定;两页分类的类别比文本分类的类剐更多,为了便于用户敦览和选择,一般要求类别 有层次关系;网页的分类体系随着信息的变化会做一些变动,并且很难有一个统一的标 准。网页是采用h t m l 编写的、半结构化的文本文件。除了纯文本内容,网页本身还 包含一定的标记( t a g s ) 和许多指向其它页面的链接( h y p e r l i n k s ) 。h t m l 标记语言包 含了丰富的信息, 、 等标记都表明了其与众不同的信息。超链接提供了网 页间内在关系的信息3 9 】,很明显,如果网页a 指向网页b ,那么网页a 的作者会认为 网页b 包含有价值的信息或者它们之间存在某些关系。已经有一些分类工作涉及用超链 接及h t m l 结构来提高网页分类的精确奉 4 0 j 1 ,扪。 2 ,4w e b 信息集成中的视图构建和个性化支持 对w e b 信息集成的研究,大多集中在如何准确的获取w e b 信息,如何处理多信息 一1 1 东北大学顾士学位论文 第二章研究基础 源的结构异构,语义异构,内容冲突和冗余问题等方面,对集成视图构建和集成处理中 的个性化支持机制的研究相对较少。当前的w e b 集成系统多为用户提供单一的查询接 1 3 ,用户使用类s q l 进行信息查询。另外,建立链接到多个各数据源的p o r t a l ,为用户 提供集成网站视图也是一个新的方式。 2 4 。1 集成视图构建 传统集成系统中,多为用户提供单一的查询接1 3 ,用户通过类s q l 语言进行查询。 根据集成系统的内部机制,用户的查询语句可能直接在集成视图之上执行并返回结果, 也可能分散到各数据源处,分别查询,再将结构回传汇总后返回给用户。 传统的集成系统使用方式,与搜索引擎十分相似。在当前各搜索引擎公司纷纷提供 企业内部搜索,桌面搜索服务的情况下,这种集成系统使用方式无法体现集成系统的特 点和功能。集成系统是面向应用、面向用户的,可以更加符合用户需求,在初始页面中 向用户展示大量用户感兴趣信息,并提供各类详细信息的链接入口,引导用户通过简单 的鼠标点击操作,找到并浏览所需信息。构建新的集成系统视图和用户接口,实现上述 功能,正开始受到重视,其中的解决方案之一是建立p o r t a l 集成视图。 2 4 2 集成个性化处理 通常,把用户偏好和兴趣描述称之为用户个性化模式叫s e l p r o f i l e ) 。一般来说,个性 化技术主要包含两点,即个性化模式应该能较好反映用户的兴趣偏好;为适应用户兴趣的 变化,用户个性化模式应该能做适应性的改变。值得指出的是用户的个性化模式描述的是 用户相对稳定的、时间相对长久的信息需求。因为它是比较稳定的需求,所以需要保存这 种需求,并可以根据用户对于所推荐信息的反馈信息( r e l e v a n c ef e e d b a c k ) 加以修改,以 便于获得更好的效果。当前,个性化支持机制通常通过用户行为挖掘和用户个人信息设 定两方面实现。 为了满足用户的个性化需要,许多研究者提出了各种解决方法,m yy a h o o 实现了 定制个性化页面,用户可以定制网页内容和布局等 殷华蓓研究了p p m i n e r ,从用户的 历史访问信息中挖掘关联规则,根据这些规则生成个性化页面:卡耐基梅隆大学( c m u ) 研究了p e r s o n a l w e bw a t c h e r ( 简写为p w w ) 。p w w 是具有导游功能的智能浏览器原型, 可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 项目竣工验收报告范本
- 企业财务CMA等级考试章节重点梳理
- 职场心理健康培养及压力管理方法
- 酒店前台接待服务标准培训教材
- 小学五年级英语听力训练题汇编
- 小学生课外阅读测评试题范例
- 快递物流分拣流程改进方案
- 2025年泉州丰泽城市建设集团有限公司招聘第二批招商专员3人笔试备考题库及答案解析
- 2025湖南怀化市辰溪县机关事务中心公益性岗位招聘1人笔试备考题库及答案解析
- 2024年世界500强企业排行榜报告
- 科技公司员工管理规章制度范文
- 院感相关知识课件
- 2025-2030中国网络直播行业市场深度调研及前景趋势与投资研究报告
- 糖尿病基础知识课件
- 《中国脑卒中防治报告(2023)》
- 项目经理转正述职报告
- 葡萄胎完整课件
- 2025年事务所年度工作总结(3篇)
- 代办离职委托书模板文档
- 急性颈髓损伤病情观察护理
- 洗浴中心转让合同
评论
0/150
提交评论