(计算机应用技术专业论文)基于kps的web信息抽取mas模型的研究与设计.pdf_第1页
(计算机应用技术专业论文)基于kps的web信息抽取mas模型的研究与设计.pdf_第2页
(计算机应用技术专业论文)基于kps的web信息抽取mas模型的研究与设计.pdf_第3页
(计算机应用技术专业论文)基于kps的web信息抽取mas模型的研究与设计.pdf_第4页
(计算机应用技术专业论文)基于kps的web信息抽取mas模型的研究与设计.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机应用技术专业论文)基于kps的web信息抽取mas模型的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着计算机技术、通讯技术的飞速发展和个人计算机的普及,i n t e r n e t 作 为一个全球网络。越来越融入到人们的生活、工作、学习、商务活动中。而w e b 在给我们带来便捷、快速、廉价、丰富的信息的同时,也给我们带来了一个问 题。w e b 上浩大的信息量和用户的需求之问产生了严重的不平衡和矛盾,人们 很难在短时间内在海量的信息中找到自己真正感兴趣的数据,于是人们对高效 率的信息获取技术的需求越来越迫切。w e b 信息抽取系统,可以使人们高效地获 取真正感兴趣的信息,并可在此基础上进一步完成数据挖掘,信息检索等后续 信息处理,为海量的w e b 信息的再利用提供了可能,因此有着明显的优势和广 阔的应用前景,是当今多个领域的研究热点。 a g e n t 系统是目前计算机科学领域中一个非常重要、研究活跃的内容。a g e n t 系统特别适合复杂、难以预测、动态变化的问题的处理。i n t e r n e t 固有的开放、 分布、异构、复杂等特性为a g e n t 提供充分的应用基础。多a g e n t 系统 ( m u l t i - a g e n ts y s t e m ) 是由多个a g e n t 协调合作所形成的问题求解网络。多 a g e n t 系统中的每个a g e n t 都有它自己独立的局部知识库、目标和能力,a g e n t 之问能够协调相互之问的行为,通过协商解决冲突,通过合作达到共同的目标。 在现有相关研究的基础上,本文提出个基于k p s ( k e y w o r d s ,p a t t e r n s , s a m p l ep a g e s ) 的w e b 信息抽取的多a g e n t 系统( m a s ) 模型。基于k p s 的w e b 信息抽取方法集合了分别基于关键字、模式和样本的信息抽取技术的优点,有利 于满足抽取高精度、高复杂度和高性能信息的要求。一个多a g e n t 系统( 姒s ) 可以把问题由大化小,由复杂变简单,每个a g e n t 完成一个小目标,a g e n t 间通 过协调和合作,共同完成复杂的w e b 信息处理。而将基于k p s 的w e b 信息抽取 方法与多a g e n t 系统进行有机的结合,可以大大降低w e b 信息抽取的难度,提高 信息抽取的精度,从而更大地满足用户的需求。 关键词:w e b 信息抽取,k p s ,雌s ,a g e n t w i t ht h ev e r yd e v e l o p m e n to fc o m p u t e rc o m m u n i c a t i o nt e c h n o l o g ya n dt h e p o p u l a r i z a t i o no fp e r s o n a lc o m p u t e r , a san e t w o r kf o rt h e5 e c e ns e a s ,i n t e r a c tc o m e s i n t om o r ea n dm o r ed o m a i n ss u c ha sp e o p l e sl i f e , j o b ,s t u d ya n db u s i n e s s i ti sb u i l t b e t w e e nt h eg r e a tc o n t e n t so fw e bi n f o r m a t i o na n dt h eu s e r s d e m a n d st h a tb a d i m b a l a n c ea n dc o n f l i c t , s op e o p l ef i n di td i f f i c u l tt og e tt h e i rr e a l l yi n t e r e s t e dd a t a f r o mam a s so fi n f o r m a t i o na tas h o r tt i m e a n dt h e nt h en e e d sf o ra c q u i s i t i o n t e c h n i q u eo nh i g h e f f i c i e n c yi n f o r m a t i o nb e c o m e sm o r ea n dm o r ee x i g e n tt op e o p l e t h r o u g hw e bi n f o r m a t i o ne x t r a c t i o ns y s t e m , p e o p l ec a l la c q u i r et h e i rr e a l l yi n t e r e s t e d i n f o r m a t i o nw i t hh i g he f f i c i e n c ya n da l s o 伽f i n i s ht h ef u r t h e rs t e pa f t e ri n f o r m a t i o n e x t r a c t i o n , s u c h 嬲d a t am i n i n ga n dm e s s a g er e t r i e v a l w h i c hc a ns u p p l yt h ep o s s i b i l i t y f o rm a k i n gu s eo f am a s so f 、bi n f o r m a t i o na g a i ns oi t ss a i dt h a tw 曲i n f o r m a t i o n e x t r a c t i o ns y s t e mo w n so b v i o u ss u p e r i o r i t ya n dv a s ta p p l i c a t i o np r o s p e c t s ,a n di st h e h o ts p o ti ns om a n yr e s e a r c h i n gd o m a i n sn o w a d a y s a tp r e s e n t , s y s t e mb a s e do na g e n tb e c o m e sav e r yi m p o r t a n tc o n t e n ti n c o m p u t e rs c i e n c ef i e l d ,t h e r e f o r e ,a g e n ts y s t e mf i t sf o rh a n d l i n gt h ep r o b l e m sw h i c h a l ea l lc o m p l i c a t e d , u n p r e d i c t a b l e ;v a r i a t i o n a l t h ec h a r a c t e r i s t i c so fi n t e r n e ta l s o s u p p l ys u f f i c i e n ta p p l i c a t i o nf o u n d a t i o nf o ra g e n t am u l t i a g e n ts y s t e m ( m a s ) i sa n e t w o r kf o rp r o b l e ms o l , ,i n gw h i c hi sm a d eu po fm a n ya g e n t s i nam u l t i - a g e n t s y s t e m , e v e r ya g e n th a si t so w nk n o w l e d g eb a s e ,a i ma n da b i l i t i e s m a n ya g e n t sw o r k t o g e t h e rf o rc o m p l e xa s s i g n m e n t st oa c h i e v eaw h o l ea i m t h i sa r t i c l ew i l lp r o p o s eam u l t i a g e n ts y s t e mm o d e lb a s e do nk p sf o rw e b i n f o r m a t i o ne x t r a c t i o na f t e rs t u d i n gt h ee x i s t e dr e l a t e dr e s e a r c h e s t h em e t h o do f w e b i n f o r m a t i o ne x t r a c t i o nb a s e do nk p si n t e g r a t e sr e s p e c t i v e l yt h ea d v a n t a g e sf r o mt h e o n eb a s e do nk e y w o r d s , o n eb a s e do np a t t e r na n do n eb a s e do ns a m p l ep a g e s ,w h i c hi s g o o d f o rm e e t i n gt h ed e m a n df o re , m a c t i i l gt h ei n f r o m a t i o nw i t hh i g hp r e c i s i o n , h i g h c o m p l e x i t ya n dh i g hp e r f o r m a n c e am u l t i - a g e n ts y s t e mc a nm a k et h eb i gp r o b l e m b e c o m es m a l la n dm a k et h ec o m p l e xo n eb e c o m es i m p l ee v e r ya g e n tc 锄a c h i e v ea s m a l la i m , a n da g e n t sc 锄w o r kt o g e t h e rf o rh a n d l i n gc o m p l e xw e bi n f o r m a t i o n t h a t c o m b i n i n gt h ew e b i n f o r m a t i o ne x t r a c t i o nw i t hm u l t i a g e n ts y s t e mc a nr e d u c et h e d i f f i c u l t y o fw e bi n f o r m a t i o ne x t r a c t i o n , e n h a n c et h ep r e c i s i o no fi n f o r m a t i o n e x t r a c t i o n , a n dt h e nm e e tu s e r s d e m a n d st om o r ee x t e n t k e yw o r d s :w e bi n f o r m a t i o ne x t r a c t i o n , k p s ,m a s ,a g e n t 学位论文独创性声明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得直昌盍堂或其他教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 学位论文作者签名( 手写) :钱雹签字日期:劢刁年胡2 外 学位论文版权使用授权书 本学位论文作者完全了解直昌杰堂有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权直昌太堂可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究 所将本学位论文收录到中国学位沦文全文数据库,并通过网络向 社会公众提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:钱磊 导师签名:翟隆砺钨 签字日期:叼年忙月柙签字日期:加7 年7 己月即日 第1 章引言 i 1 研究背景 第1 章引言 随着计算机技术、通讯技术的飞速发展和个人计算机的普及,i n t e r n e t 作 为一个全球网络,越来越融入到人们的生活、工作、学习、商务活动中去。企 业及个人通过建立网站或网页及时发布自己的信息、资源、需求,同时又通过 网络来寻求帮助,获取信息。w o r l dw i d ew e b ( 略作w w w ,w e b ) 作为一个全球 化信息空间,正越来越受到人们的重视,成为继书籍、报纸杂志、电视后的又 一大信息载体。然而w e b 在给我们带来便捷、快速、廉价、丰富的信息的同时, 也给我们带来了一个问题。越来越多的企业和个人通过w e b 发布信息,使得w e b 上的信息量以指数级的增长速度在增长,w e b 上浩大的信息量和用户的需求之间 产生了严重的不平衡和矛盾,用户为了获取自己需要的一点点信息,可能需要 花费几十分钟、几个小时、甚至更长时间来搜索、浏览网页,查找信息,一不 小心就会淹没在信息的海洋中。 上述问题的关键在于w e b 信息的发布与浏览都是通过基于h t m l 或x m l 语法 的页面实现的,而h t m l 或x m l 是非结构化或半结构化的语言,它们无法被计算 机所理解,也无法像传统的数据库那样,提供结构化的、功能强大的、高效的 查询语句。如何让计算机从w e b 数据源中获取用户所需的信息,这正是信息抽 取的任务。w e b 信息抽取技术的核心是识别h t m l 页面中隐含的信息点,并将其转 换为结构化、语义更为清晰的格式。成功的w e b 信息抽取系统将把互联网变成 巨大的数据库。 随着需求的增加,近年来国内外涌现了多种信息抽取方法。在w e b 上,h t m l 文本信息仍然占主导地位,因此,面向h t m l 内容的信息抽取方式一直是我们 研究的重点。目前,此类抽取方式主要有三种:基于关键字的信息抽取、基于模 式的信息抽取和基于样本的信息抽取。第一种抽取方法主要适用于抽取与关键 字相关的简单信息,如某人的e - m a i l 地址信息等;第二种抽取方法则主要依靠 p a t t e r n 的匹配来实现,抽取过程易被具有类似结构的其他信息所干扰;而第三 种抽取方法则需要事先找到一个完美的样本页面,这一点在如今追求个性化的 第1 章引言 页面风格背景下是很难做到的。而基于胂s 的信息抽取方法,可以集成前三者的 优点,大大降低信息抽取的难度,同时提高信息抽取的精度。 a g e n t 和多a g e n t 系统是当今计算机科学领域、信息工程领域和网络与通信 领域十分活跃的前沿研究方向之一。a g e n t 的概念源于人工智能领域,常译为代 理,由于a g e n t 具有自主性、交互性、反应性、主动性的特点,能够主动感知 环境的变化,能够自主调整行为、目标等,使得一个多a g e n t 系统,通过a g e n t 之间以及a g e n t 与环境的交互与协作,能够解决复杂、难以预测的问题。i n t e r n e t 固有的开放、分布、异构、复杂等特性,为a g e n t 提供了广阔的应用基础和发 展空间。 1 2 本文工作 本文通过分析现有的w e b 信息抽取技术以及已实现的信息抽取系统的特点 与不足,提出一种新的信息抽取方式基于k p s ( k e yw o r d ,p a t t e r n ,s a m p l e p a g e s ) 的信息抽取。然后结合智能a g e n t 技术来完成一个基于k p s 的w e b 信息 抽取m a s ( m u l t i - a g e n ts y s t e m ) 模型。文章将详细阐述各a g e n t 的目标、行为, 各个知识库的划分以及a g e n t 之间的通信,并初步检验系统的可行性和有效性。 ( 1 ) 设计一个多a g e n t 系统来实现基于k p s 的w e b 信息抽取。将w e b 信息抽 取的总目标分配为六个a g e n t 完成:用户接口a g e n t ,查询处理a g e n t , 抽取a g e n t ,存储a g e n t ,预处理a g e n t ,页面获取a g e n t ,分别对各a g e n t 的功能与实现中的关键技术进行较为详尽的解释。 ( 2 ) 系统存在四个知识库,分别为:领域知识库、抽取请求库、抽取规则库、 网站信息知识库。本文将阐述各个知识库的组成、表示和获取方法。 ( 3 ) a g e n t 之间的通信。 ( 4 ) 设计系统的相关实验,来证明系统的可行性和有效性。 总之,文章将详细讨论当前w e b 信息抽取系统需要解决的问题,给出了一 个多a g e n t 系统在一定程度上针对这些问题的解决方案的分析、研究与设计。 1 3 本文结构 全文除引言外共分5 章: 2 第1 章引言 第二章,w e b 信息抽取概述。简单介绍了信息抽取的概念和发展,概述了现 有w e b 信息抽取系统的特点与不足,介绍了当前w e b 信息抽取技术,指出w e b 信息抽取研究正面临的问题,提出一种能降低信息抽取的难度,同时提高信息抽 取的精度的w e b 信息抽取方法基于k p s 的信息抽取,并且对x 札技术也进行 了一定的介绍。 第三章,智能a g e n t 技术。在w e b 信息抽取中引入人工智能之a g e n t 的概 念,概述性介绍了a g e n t 技术,包括a g e n t 的定义,特征,对象,表示,推理 和体系结构等等,此外,对多a g e n t 系统也进行了一定的概述,指出了a g e n t 技术的现状以及面临的问题。 第四章,基于肝s 的w e b 信息抽取m r s 模型。说明了本文所述系统的设计 思想、体系结构,详细介绍了系统中知识库和数据库的划分,并介绍了系统中 各a g e n t 的功能、行为,最后,说明了a g e n t 之间以及a g e n t 和用户之间的交 互。 第五章,实验设计。设计实验,对系统的信息抽取a g e n t 学习抽取规则和 信息抽取的功能进行验证 第六章,总结。总结了本文所做的工作,并提出了进一步的工作和研究方 向 第2 章w e b 信息抽取的概述 第2 章w e b 信息抽取的概述 2 i 信息抽取与w e b 信息抽取 2 1 1 什么是信息抽取 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,简称z e ) 是近十几年来发展起来的新 领域,起源于文本理解,是自然语言处理领域里特别有用的一个子领域。信息 抽取的普遍定义为:各种不同的文本里定位、识别和提取出需要的信息点,表 示成一种统一的、结构化的形式“1 。信息抽取的目标是把文本里包含的信息进行 结构化处理。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。 举例来讲,一类信息抽取是从报道恐怖袭击活动的新闻中析取袭击者、所属组 织、地点、受害者等信息点,另一类信息抽取是从华尔街金融杂志的文章中识 别出公司管理层的人事更迭事件,抽取出公司名称、职位、新任人员的姓名、 卸任人的姓名等。 由于信息抽取的处理对象是文本,因此信息抽取的发展受到自然语言处理 技术的影响,但信息抽取并不试图全面理解整篇文档,只是对文档中包含相关 信息的部分进行浅层分析。自然语言处理中对文本的深度理解,即包括所有层 面( 词汇、语法结构、语义、篇章处理) 的理解是传统的困难问题,信息抽取技 术就是希望能回避这些困难而复杂的问题,不作深度的理解,利用己有的一些 比较可靠的技术对实际应用产生比较良好的效果。 信息抽取系统不仅能帮助人们方便地找到所需信息,而且信息的内容经过 合理的分析和组织后,人们可以高效地获取所感兴趣的信息,并可在此基础上进 一步进行数据挖掘、文本生成等后续信息处理。这在信息量迅速增长的今天无 疑是一件极有意义的工作,因此信息抽取作为一门应用性的语言处理技术,近年 来正受到越来越多的重视。 2 1 2w e b 信息抽取 w e b 信息抽取是将w e b 作为信息源的一类信息抽取。目前w e b 上的数据大部 4 第2 章w e b 信息抽取的概述 分都是以超文本标记语言描述的。主要目的是为了显示,让人通过浏览器浏览, 缺乏对数据本身的描述,不含清晰的语义信息,模式也不太明确。这使得应用 程序无法直接解析并利用w e b 上海量的信息,造成资源极大的浪费。 w e b 信息抽取正是研究如何将分散在i n t e r n e t 上的半结构化的h t m l 页面中 的隐含的信息点提取出来并以更为结构、语义更为清晰的形式表示,为用户在 w e b 中查询数据、应用程序直接利用w e b 中的数据提供便利。 w e b 信息抽取帮助人们在纷繁复杂w e b 信息海洋中快速准确地查找所需信 息,加快人们获取信息的速度,从而提高生产效率。另外,信息抽取得到的结 构化信息可以直接被其它的应用程序利用,进一步完成信息搜索、数据挖掘、 机器翻译、文本摘要等后续w e b 信息处理,具有广阔的应用价值和前景。 2 2h b 信息抽取的应用 自8 0 年代以来,国内外许多大学、公司和研究机构对信息抽取技术展开了 有计划的、长期系统的研究与应用工作,取得了一些成果并有许多相关的应用。 在国外,有专门的机构组织各种评测活动,对当前的信息抽取技术的研究成果进 行评估,如著名的姗c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e s ) 是一个由美国国防 部高级研究计划署资助的系列工程,有许多大学、研究所参加,至今已主办了7 届。其宗旨是评价当今信息提取技术的水平,促进机器理解信息技术的发展由 其定义的概念、模型和技术规范在国际上对整个w e b 信息提取领域起着主导的 作用。目前在w e b 信息处理中,w e b 信息抽取技术应用的范围很广泛啪,如: l 、w e b 信息抽取技术可以应用于传统的信息检索系统之中。把信息检索和信 息抽取结合为一体的信息获取系统,信息检索中,只用关键字来表达用户的查询 是不够精确的,在信息检索完成之后再对相关的文本进行指定的信息提取,使单 纯的信息查找过程进一步变成信息匹配( 理解) 过程,检索结果的输出不只是文 档地址或整个文档内容,而是用户所需要的特定内容,例如所有包含关键字的句 子。这样在不降低通用性的基础上可以提高信息查询的查准率,从而把传统的信 息检索系统变成智能系统,以用户要求的方式输出信息,满足用户对输出结果的 要求。例如,大型联机检索系统、图书情报检索系统、网页搜索引擎等都可加入 信息抽取技术进行改进。 2 、w e b 信息抽取技术集成到数据库应用系统中从非结构化或半结构化的 第2 章w e b 信息抽取的概述 信息中生成结构化的信息,从而构成数据库。这些结构化的信息具有广泛的用途, 如数据查询,生成总结,建立文本索引等。使用户能够快速方便地抽取指定的信 息。如s c i s o r 系统采用文本部分分析技术,对所有关于公司信息进行信息过滤, 然后从文本中抽取关于公司名字等条目存入数据库中,供查询使用。 3 、在线新闻信息的抽取。如d e j o n gg 实现的f r u m p 系统把有线新闻网络 作为数据源,使用一些新闻故事的简单脚本来对有线新闻网络进行监控。f r b l 4 p 系统采用关键字检索、概念句子分析、脚本匹配方法寻找相关的新闻故事。 3 、网页信息抽取系统,从w e b 网页中抽取出所需要的信息,已成为互联网信 息搜索与集成研究领域中一个重要的研究课题。这个新的研究课题。虽只有几年 的研究历史,却已取得了许多重要的研究成果。其中具有代表性的就有w h i s k 、 r a p i e r 、s r v 、s t a l k e r 等。 4 、自动文摘和深层的文本信息挖掘、数据库的深加工等。 理想的信息抽取系统应该是实现用户提交查询式,就马上返回所有符合要 求的信息,并且不被那些不相关的内容所打扰。这引出了对信息抽取系统的两 个基本评价标准:查全率和查准率。查全率是在当前数据库中所有符合抽取要 求的文档之中被检出的文档所占的比例。查准率是检出文档中真正符合抽取要 求的文档所占比例。查全率和查准率必须综合考虑,不可偏废。如果只考虑查 准率,那么尽管可以达到相当高的查准率甚至1 0 0 ,但是必然导致抽取返回的 数量文档太少,不能满足用户全面了解相关信息内容的要求;同样的,如果只 追求查全率,那么把所有的信息都返回给用户,这样用户就会淹没在大量无关 信息的海洋之中,无法找到自己真正需要的信息。尤其对于w e b 信息抽取来说, 由于网上信息过于庞大,所以w e b 信息抽取以提高查准率为首要目标,同时保 持一定的查准率。 查准率和查全率并不是互不相关的,而是相互影响的,也就是说期望得到 较高的查准率,那么得到的查全率就会低一点,反之亦然。当我们在比较不同 信息抽取系统的性能时,应该同时考虑查准率和查全率。这里有一个公式叫,如 2 - 1 所示: f :( f 1 。2 + 一i ) p r p + j r ( 2 - 1 ) p 指p r e c i s i o n 值,r 指r e c a l l 值p 是查准率,用来测量抽取信息多少是正确 6 第2 章w e b 信息抽取的概述 的。r 是召回率,指被正确抽取信息的比例。p 和r 的取值在o 和i 之间,通常 存在反比的关系,即p 增大会导致r 减小,反之亦然。f 即为评估综合性能设立 的一个指标。其中b 是一个预设值,决定对p 侧重还是对r 侧重,通常设定为l 。 通过调节b 的值来反映召回率和查准率的相对重要性。b 越小,p 的重要性得到 加强,反之r 的重要性得到加强。 2 3w e b 信息抽取的关键问题 2 3 1 抽取规列的生成与表示 信息抽取系统的关键组成部分是一系列的抽取规则,其作用是确定需要抽 取的信息。抽取规则描述要抽取的信息的各种特征和规律,用来在w e b 页面中 识别和定位待抽取的信息。 ( 1 ) 抽取规则生成方法 人工获取方式是人类专家依靠自身的知识和技能,审阅一定量的待处理文 本文档,归纳出相关信息出现的规律,然后按照信息抽取系统内部对抽取规则 格式书写的要求表述抽取规则。 显然,人类专家掌握相关领域知识的水平和技能状态对系统的性能而言是 很关键的因素。另外,w e b 页面更新( 内容或格式变化) 或者出现新一类的w e b 页 面时,都需要人工识别,更新或重新生成抽取规则,这样的系统可扩展性较差。 自动学习的方式也需要一定的人工成分。主要是依靠人工在训练集合中的 文档中用适当的方式标注出相关信息的出现,生成系统自动学习抽取规则需要 的训练集( t r a i n i n ge x a m p l e ) 。学习模块就可以在训练数据的基础上运行了。 与人工获取抽取规则方式相比,自动学习方式大大降低了对用户的知识和经验 要求,提高了自动化程度。 ( 2 ) 抽取规则的表示 不同的系统抽取规则的定义和表示方法也各不相同、各有千秋。有的专门 定义一种高级语言或脚本语言,描述复杂的文本模式和语言结构,如l i x t o 采 用的e l o g 语言,有的基于h t m ld 伽树定义,有的采用正则表达式表示等。采 用专用的高级语言描述抽取规则的缺点是需要掌握这种这种语言的语法,也不 容易移植到别的系统,而只采用d o m 或正则表达式不足以描述待抽取信息的各 7 第2 章w e b 信息抽取的概述 方面特征。 我们的系统中,在借鉴d o g 树和正则表达式等从语法角度对抽取规则描述 的基础上,加入抽取规则的语义特征描述,多方面对抽取规则加以约束,并且 采用己被广泛使用的) a 儿文档的形式表述抽取规则。这些将在以后的章节中详 细说明。 2 3 2 机器学习 在w e b 信息抽取系统中,处理动态的海量信息需要自动化程度高的技术, 因此机器学习的方法将成为主流。 学习能力是智能行为的一个非常重要的特征。学习是获取知识、积累经验、 改进性能、发现规律、适应环境的过程。其基本机制是设法将在一种情形下成 功的表现行为转移到另一类似的新情形中去。学习是系统所作的适应性变化, 使得系统在下一次完成同样或类似的任务时更为有效。具体到w e b 信息抽取, 以学习信息的抽取规则为例,学习机制体现为:不断积累、改进有关知识,使 信息抽取的范围越来广、精度越来越高。 使用机器学习的应用系统可以用图2 1 所示的学习模型来描述0 1 。 ( 环境卜叫学习单元卜_ “知识库) _ - - 叫执行单元卜1 图2 1 学习模型 环境为学习单元提供外界信息源( 如经验实例) 。学习单元利用该信息对知 识库作出改进( 增加新知识或重新组织己有知识) 。执行单元利用知识库中的知 识执行任务,任务执行后的信息又反馈给学习单元作为进一步学习的输入。知 识库用来存储知识,包括系统原有的领域知识( 这种知识是长期的、相对稳定不 变的) ,以及通过学习而获得的各种新知识( 这种知识是短期的、相对不稳定, 变化的) 。执行单元既是使得学习系统具有实际用途,又是评价学习算法性能好 坏的关键部分。 对于w e b 信息抽取,环境主要是:( 1 ) 开放、分布、异构、复杂的w e b 网, 包括数以亿计且动态变化的w e b 页面;( 2 ) 使用系统的用户及领域专家等人知 识库的内容包括所有与信息抽取有关的知识,如领域知识、抽取信息特征、用 8 第2 章w e b 信息抽取的概述 户兴趣知识、异常处理知识等;学习单元学习抽取规则、用户的兴趣、页面扩 展知识、w e b 页面变化规律等;执行单元进行信息抽取、抽取结果格式变换等。 用于w e b 信息抽取的机器学习方法有很多,如符号化学习法,i l p ( 归纳逻 辑设计法) ,包装器归纳法,统计法和语法归纳法。总的来说,应用最广泛的是 归纳学习。 归纳学习是一种基于假设的学习。在最高层次,归纳学习法是从一些实例 中完成未知概念的计算任务,是对现象的一种概括。主要思路是,如果归纳出 来的规则能解释观察到的实例,或者在新事例出现时能做出准确的预测,那么, 这种归纳是成功的。在分类、知识获取、知识发现等任务中归纳学习被证明是 有用的。 归纳学习从具体实例出发,通过归纳推理,得到新的概念或知识。归纳学 习的基本操作是泛化和特化。泛化是使规则能匹配应用于更多的情形或实例。 特化操作则相反,减少规则使用的范围或实例。 2 4 现有的w e b 信息抽取技术 国外大约在8 0 年代初就展开信息抽取的研究,并取得了一些成果,那时比 较好的信息系统有f r u m p 系统、a t r a n s 系统和m e s s a g eu n d e rs t a n d i n g c o n f e r e n c e 等。到了9 0 年代,由于w e b 的流行,研究人员开始把目光转向w e b 页面的抽取工作,这个时期提出了很多崭新的技术,也开发出了很多工具。 根据自动化程度可以将w e b 信息抽取分为人工方式的信息抽取、半自动化 方式的信息抽取和全自动化方式的信息抽取3 大类。采用人工方式信息抽取的 系统主要有:w 4 f 、i n f o r m i a 、e s 等,采用自动半自动化方式信息抽取的系统主 要有:x w r a p 、w i e n 、s o t m e a l y 、s t a l k e r 等。 根据各种工具所采用的原理不同可以将w e b 信息抽取分为基于自然语言处 理方式的信息抽取、包装器归纳方式的信息抽取、基于o n t o l o g y 方式的信息抽 取、基于h t m l 结构的信息抽取和基于w 曲查询的信息抽取“1 。 a 基于自然语言处理方式的信息抽取 这类信息抽取主要适用于源文档中包含大量文本的情况( 特别针对于合乎 文法的文本) ,在一定程度上借鉴了自然语言处理技术,利用字句结构、短语和 字句间的关系建立基于语法和语义的抽取规则实现信息抽取。目前采用这种原 9 第2 章w e b 信息抽取的概述 理的典型系统有r a p i e r 、s r v 和w 硪s k 。这种基于自然语言理解方式的信息 抽取技术是将w e b 文档视为文本进行处理的( 主要适用于含有大量文本的w e b 页面) ,抽取的实现没有利用w e b 文档独特于普通文本的层次特性。获得有效的 抽取规则需要大量的样本学习。 b 包装器归纳方式的信息抽取 包装器归纳方式的信息抽取根据事先由用户标记的样本实例应用机器学习 方式的归纳算法,生成基于定界符的抽取规则。其中定界符实际上是对感兴趣 语义项上下文的描述,即根据语义项的左右边界来定位语义项。目前采用这种 原理的典型系统有s t a l k e r 、s ot m e a l y 和w i e n 。这种包装器归纳方式的 信息抽取和基于自然语言理解方式的信息抽取技术的不同点在于仅仅使用语义 项的上下文来定位信息,并没有使用语言的语法约束。 c 基于o n t o l o g y 方式的信息抽取 基于o n t o l o g y 方式的信息抽取主要是利用对数据本身的描述信息实现数据 抽取,对网页结构的依赖较少。目前采用这种原理的典型系统有b y uc b n g h a m y 0 n gu n i v e r s i t y 信息抽取小组开发的信息抽取工具) 、q u i x o t e 。 d 基于m m 结构的信息抽取 基于h n ,结构的信息抽取技术的特点是根据w e b 页面的结构定位信息, 在信息抽取之前通过解析器将w e b 文档解析成语法树,通过自动或半自动的方 式产生抽取规则。将信息抽取转化为对语法树的操作实现信息抽取。目前采用 这种原理的典型系统有l i x t o 、x w r a p 、r o a d r u n n e r 和w 4 f 。 e 基于w e b 查询的信息抽取 由于上述的信息抽取技术,采用了不同的原理,抽取规则的形式和感兴趣 信息的定位方式也各不相同,因此均不具有通用性。基于w e b 查询的信息抽取 和它们最大的不同之处在于它将w 曲信息抽取转化为使用标准的w e b 查询语言 对w e b 文档的查询,具有通用性。目前采用这种原理的典型系统有w e b - - o q l 和p q a g e n t 不同的抽取工具有其不同的实现方式,对不同的w e b 网页也有不 同的抽取效果和效率,有其优点也各有不足。 2 5w e b 信息抽取面临的挑战 通过分析已有的w e b 信息抽取技术,可以发现w e b 信息抽取面临的挑战, 1 0 第2 章w e b 信息抽取的概述 也就是有待进一步研究的方向,主要有以下几方面“1 : ( 1 ) 目前各类信息抽取技术中生成抽取规则的依据主要有三类:页面结构信 息( h t m l 语法) 、页面的内容和自然语言语义、语法信息。基于结构的方式过份 依赖网页的结构、可扩展性弱,基于内容的方式又需要复杂的语言知识和自然 语言处理技术。如何将基于结构的方式和基于文本的方式有效的结合起来来 克服各自的缺点。 ( 2 ) 机器学习能提高获取规则的自动化程度,但通常需要大量的样本页面, 而且需要经过较长时间的学习,信息抽取才能获得较好的查准率。如何简化机 器学习的过程,在较短时间内准确获得需要的信息。 ( 3 ) w e b 上的信息内容和网页结构处于不断的更新和变化中,如何感知这种 更新和变化,进而修改己有规则,保证信息抽取的正确性。 ( 4 ) 无论是自然语言处理,还是包装器技术往往针对一个特定的信息源,一 个特定主题和领域每出现一个新的信息源就要重新构造一套抽取程序。造成 系统的可扩展性差。如何最大程度地利用己有的资源( 程序、数据等) ,通过最 小程度地改造适应新的信息源,增强系统的可扩展性。 2 6 基于i ( p s 的信息抽取技术 在w e b 上,h n _ 虹,文本信息仍然占主导地位,因此,两向町页面结构 的信息抽取方式一直是我们研究的重点。目前。此类的抽取方法主要有三种:基 于关键字的信息抽取方法、基于模式的信息抽取方法和基于样本的信息抽取方 法。为了能够更有效地对w e b 信息进行抽取,本文结合包装器思想和基于h t m l 的抽取方式,采用一种基于关键字( k e yw o r d s ) 、模式( p a t t e r n s ) 和样本( s a m p l e p a g e s ) 的抽取方式对w e b 信息进行抽取。基于k p s 的信息抽取方法“1 ,是分别集 成了基于关键字、模式和样本的信息抽取的优点,能够大大降低信息抽取的难度。 同时提高信息抽取的精度。下面就对这种抽取方式进行介绍。 基于关键字的信息抽取”1 其方法的主要思想是:首先分析人们发布信息的日 常习惯,建立一套启发式规则,然后根据给定的关键字,在h 眦。文档中查找 此关键字,找到后再应用这些启发式规则,抽取出所需要的目标信息。基于关 键字的数据抽取方法主要用于抽取跟某个关键字相关的简单数据值,如某人的 e m a i l 地址、电话号码等。 第2 章w e b 信息抽取的概述 基于模式的信息抽取“1 是用户给定一个模式串,在w w w 页面中进行串匹 配。根据匹配结果,从中抽取出所需要的值。所谓模式,是指含有常量和变量 的字符串,该字符串包含在一对方括号中。其中变量用“”作为开始符号, 后跟变量名。如 m r n a m e ,其中“m r ”为常量。“n a m e ”为变量,整个字符串 即是一个模式。进行基于模式的信息抽取时,用户指定一个模式后,系统首先 在网页中定位模式中的固定单词,匹配成功后,提取出相应的值赋给变量。比 如上例中,系统首先定位到“m r ”,然后将其后的字符串赋给变量“n a m e ”。一 般来说,我们主要关心的是名词性短语,因为大多数我们感兴趣的信息多是用 名词短语或数值来表示的。而动词经常用来表示行动或状态。 根据用户给定的一个样本来抽取信息,它基于以下假设“1 :一个小范围的 w e b 页面具有相似的结构和风格。一个典型的例子是一个学院的所有w 曲页面 均由同一人设计,而这些w e b 页面具有相似的结构和风格。因此,当一个使用 者想要查询所需信息时( 如e m a i l 地址) ,他会先手动地从一个w e b 页面中定位一 个样本,然后告诉系统他想从其他w e b 页面获得相似的信息。系统再自动帮他 完成。而这种方法所追求的完美样本页面在如今追求个性化的页面风格背景下 是很难做到的。 网珊一 i 经预处理的 w e b 页面 抽取规则与知识 厣r1 司 图2 2 基于k p s 的信息抽取模型 基于k p s 的信息抽取方法的主要思想是:首先,根据信息需求给出关键字、 模式和样本页面;第二,根据给定的关键字进行第一阶段的基于关键字的信息 抽取工作,抽取出简单信息:第三,根据给定的样本页面和模式信息,生成抽 取规则,完成样本页面信息抽取;最后,将抽取规则应用于其他w e b 页面,完 成信息的自动抽取。基于k p s 的信息抽取模型如图2 2 所示。如图所示,这种 抽取方式一定程度上采用了包装器归纳学习的思想,根据指定的关键字,样本 和模式生成抽取规则和知识,同时利用h t m l 结构特征,将抽取规则定义为h t 肌 第2 章w e b 信息抽取的概述 标识集,便于对类似页面的自动抽取。 在抽取规则的生成中,现有的许多信息抽取系统都只是采用单纯地基于模 式或者是样本页面的方法。而仅基于模式的抽取过程易被具有类似结构的其他 信息所干扰,而仅基于样本的抽取同样存在问题,它需要完美的可作为标准的 样本页面,这是现在的w e b 页面不可能具备的。而将两者有效地结合,可以最 大限度的弥补两者的不足,从而提高系统的查全率和查准率。 2 7 硼l 技术 2 7 1x 卧的特点 咀,是e x t e n s i b l em a r k u pl a n g u a g e 的缩写,译为可扩展标记语言。它是一 套定义语义标记的规则,这些标记将文档分成许多部件加以标识。它也是元标 记语言( m e t ai a n g u a g e ) ,定义了用于定义其它与特定领域有关的、语义的、结构 化的标记语言的句法语言。 x m l 的出现源于i n t e r n e t 的飞速发展。运用于i l l t e r n e t 上的描述网页信息的 h t m l 语言的元素类型是通用和描述性的,既不具备可扩展性,也不能有效地 表示信息结构和意义。1 9 9 6 年w 3 c 开始设计x m l ,使其能够将s g m l ( s t a n d a r d c - , e a e r a l i z e dl a n g u a g e ) 的灵活性和强大功能与已经被广泛使用的h t m l 的简单易 用性结合起来。具体来说,与h t m l 相比,x m l 所作的改进即x m l 的主要特 点及带来的好处表现在“。1 : ( 1 ) 自描述性 如下所示是一个咀,文档的片断: p e t e r s o n l a r s 2 5 0 0 0 每一个项目都有自己的名字,这个名字与项目所表示的内容相关,表达了 第2 章w e b 信息抽取的概述 项目的语义。h t l v i l 描述数据的外观,仅仅面向数据显示。而x m l 描述数据本 身。自描述性使x i v i l 成为一种广泛使用的数据表示和存储方法。越来越多的应 用开始选用x m l 作为其数据、配置信息、消息以及服务的语法描述模式。迄今 为止,以l 已经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论