(计算机软件与理论专业论文)基于xml的web信息抽取技术研究(1).pdf_第1页
(计算机软件与理论专业论文)基于xml的web信息抽取技术研究(1).pdf_第2页
(计算机软件与理论专业论文)基于xml的web信息抽取技术研究(1).pdf_第3页
(计算机软件与理论专业论文)基于xml的web信息抽取技术研究(1).pdf_第4页
(计算机软件与理论专业论文)基于xml的web信息抽取技术研究(1).pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机软件与理论专业论文)基于xml的web信息抽取技术研究(1).pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 互联网的飞速发展使其成为全球信息传播与共享的重要资源,w e b 上的数据 一直呈几何级数增长,要想从w e b 上获取一条有用信息的难度却越来越大,“信 息过载 已经成为一个亟待解决的问题。一种理想的情况是:人们可以像查询数 据库一样查询w e b 上的信息。然而,如何从浩繁的w e b 数据中抽取出有用的信 息成为众多研究工作希望解决的问题。 i n t e m e t 具有的海量、异构、动态变化等特性使w e b 信息抽取( ,i n f o r m a t i o n e x t r a t i o n ) 不同于传统信息抽取,同时带来了新的挑战。抽取技术随着需求的增 加而不断丰富,近年来国内外涌现了多种信息抽取方法。这些方法各有侧重地解 决了上述w e b 信息抽取中面临的问题,总体上取得了良好的效果,但在某些方 面存在不同程度的局限或缺陷。为了更好地解决w e b 信息抽取面i 临的诸多问题 和不足,有必要对w e b 信息抽取问题作进一步研究。 本文使用标准的x m l 技术来解决网页信息抽取问题,开发出了一个专业化 的诈骗事件信息抽取系统( c e i e s ,c h e a t i n ge v e n ti n f o r m a t i o ne x t r a c t i o ns y s t e m ) 。 基于标准的x s l t ,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽 取规则。首先获得目标h t m l 页,并将h t m l 文档转换成符合x m l 语法的 x h t m l 文档,然后通过x m l 强大的数据查询能力对构建的x m l 文档库进行 查询,并利用d o m 树将产生的抽取规则存入规则库中。根据格语法表示的关键 动词用法,抽取句子的局部信息,用知识图表示。通过知识图的合并,对局部抽 取信息进行综合,最后,把得到的抽取结果存储在数据库中,从而完成用户所需 的数据的抽取。 由于c e i e s 事是一个基于自然语言理解的方式的专业化w e b 信息抽取系统, 可以从任何类型网站上的抽取诈骗事件信息。因而具有良好的可扩展性和适应 性。经测试,本信息抽取系统的准确率和召回率都达到了较满意的水平。 关键词:信息抽取,自然语言理解,x m l ,d o m 树,知识图 a b s t r a c t a b s t r a c t t h er a p i dd e v e l o p m e n to ft h ei n t e r n e th a sb e c o m ea l li m p o r t a n ts o u r c eo f g l o b a l i n f o r m a t i o nd i s s e m i n a t i o na n ds h a r i n g d a t ao nt h ew e bh a sg r o w n g e o m e t r i c a l l y t o o b t a i nu s e f u li n f o r m a t i o nf r o mt h ew e bh a sb e c o m ei n c r e a s i n g l yd i f f i c u l t “i n f o r m a t i o no v e r l o a d ”h a sb e c o m ea nu r g e n ts o l u t i o n t h ei d e a ls i t u a t i o ni st h a t p e o p l ee n a b l el i k es e a r c h i n gt h ed a t a b a s ef o ri n f o r m a t i o no nt h es a m ew e bi n q u i r i e s h o w e v e r ,h o wt oa c c e s st oa n du s eu s e f u l i n f o r m a t i o nf r o mw 曲h a sb e c o m et h e p r o b l e mf o rr e s e a r c hw o r k t h ec h a r a c t e r i s t i c s ,s u c ha sm a g n a n i m i t y ,d i f f e r e n tc o n s t r u c t i n g ,a n dd y n a m i t e c h a n g et h a ti n t e m e th a s ,m a d ew e bi n f o r m a t i o ne x t r a c t i o nd i f f e r e n tf r o mt r a d i t i o n a l i n f o r m a t i o ne x t r a c t i o n ,b r o u g h tt h en e w c h a l l e n g ea tt h es a m et i m e e x t r a c t i o n t e c h n o l o g yi se n r i c h i n gc o n s t a n t l yw i t hi n c r e a s eo ft h ed e m a n d ,m a n yk i n d so f i n f o r m a t i o ne x t r a c t i o nm e t h o d sh a v ee m e r g e db o t ha th o m ea n da b r o a di nr e c e n t y e a r s t h e s em e t h o d sh a v ef o c u s e ds o l u t i o np r o b l e m sc o n f r o n t i n gt h ew e b i n f o r m a t i o ne x t r a c t i o nt ot h ea b o v e ,a c h i e v e dg o o dr e s u l t so v e r a l l ,b u ti nc e r t a i na r e a s t h e r ea r ev a r y i n gd e g r e e so fl i m i t a t i o n so rf l a w s i no r d e rt ob e r e ra d d r e s st h em a n y p r o b l e m sa n ds h o r t c o m i n g st ot h ew e bi n f o r m a t i o ne x t r a c t i o n ,i ti sn e c e s s a r yf o rw e b i n f o r m a t i o ne x t r a c t i o nf o rf u r t h e rr e s e a r c h i nt h i st h e s i s ,a u t h o ru s e so fs t a n d a r dx m l t e c h n o l o g yt os o l v et h ep r o b l e mo f w e bs i t ei n f o r m a t i o ne x t r a c e t i o na n dt od e v e l o pa p r o f e s s i o n a lc h e a t i n ge v e n t i n f o r m a t i o ne x t r a c t i o ns y s t e m ( c e i e s ) b a s e do ns t a n d a r dx s l t ,u s i n g i t sp o w e r f u l a n df l e x i b l ep r o p e r t i e sc a l lc o d es i m p l e ,h e a l t h ya n dt h eg e n e r a lr u l e s f i r s tg e tt a r g e t h t m l p a p e r ,a n dt r a n s l a t i n gh t m l f i l e si n t ox h t m lf i l ew i t ht h ex m l p a r s e r t h e nu s ex m ld a t aq u e r yc a p a b i l i t yt oi n q u i r yp o w e r f u lx m l l i b r a r y d o mt r e e s w i l lb eu s e dt or e s t o r et h er u l e si n t ot h er u l eb a s e b a s e do nt h eu s a g eo ft h ek e yv e r b t h a ti se x p r e s s e db yt h ec a s eg r a m m a r , p a r t i a li n f o r m a t i o no fs e n t e n c ei se x t r a c t e d a n di se x p r e s s e db yk n o w l e d g eg r a p h s t h r o u g ht h e j o i no fk n o w l e d g eg r a p h s , p a r t i a li n f o r m a t i o ni si n t e g r a t e d f i n a l l y ,s o m ei t e m so fi n f o r m a t i o ni ss t o r e di nt h e u a b s t r a c t d a t a b a s eo fc e s k e y w o r d s :i n f o r m a t i o ne x t r a c t i o n ,n a t u r a ll a n g u a g ec o m p r e h e n s i o n ,x m l ,d o m t r e e s ,k n o w l e d g eg r a p h s i i i 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。 本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研 究所等机构将本学位论文收录到中国学位论文全文数据库或其它 相关数据库。 墨裹蓑妻嚣罢裹雯:了叛指导教师签名:二盟 学位论文作者签名:i 弩殇 指导教师签名:缢 卯孑年月8 日2 c 熠年月6 日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经 发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 学位论文作者签名: 争鸸年 第一章绪论 1 1 选题背景和意义 第一章绪论 随着计算机技术、通讯技术的飞速发展和个人计算机的普及,i n t e r n e t 作为 一个全球网络,越来越融入到人们的生活、工作、学习、商务活动中去。企业及 个人通过建立网站或网页及时发布自己的信息、资源、需求,同时又通过网络来 寻求帮助,获取信息。w o r l dw i d ew e b ( 略作w w w ,w e b ) 作为一个全球化信息空 间,正越来越受到人们的重视,成为继书籍、报纸杂志、电视后的又一大信息载 体。w e b 给我们的工作学习带来了很多的便利:首先它是快速便捷的。一台电脑, 一根网线( 当然要有一定的软硬件设备与环境) ,用户就能够自由邀游网络,浏览 新闻、阅读书籍、发布信息,真正做到“足不出户而知天下事”;其次它是信息 共享的。i n t e m e t 在提出时,就讲究资源共享,这样大大加快了信息交流,知识 的传播速度:同时它也是内容丰富的。w e b 上的内容五花八门,包罗万象,上至 天文,下至地理,即使是个人的随心所想,人生感悟也是应有尽有,这是其他信 息载体所无法比拟的;最后它还是互动互惠的。所有其他的信息载体,如书籍、 报纸杂志、电视,它们都是单向的,用户只能接受或不接受,而广域网却给我们 带来了互动性,用户可以通过它发布问题、回答问题、甚至是在线交流,如大富 翁( 一个比较好的编程技术交流网站) 。 w e b 在给我们带来便捷、快速、廉价、丰富的信息的同时,也给我们带来了 一个问题。由于越来越多的企业和个人通过w e b 发布信息,使得w e b 上的信息 量以指数级的速度在增长,w e b 上浩大的信息量和用户的需求之间产生了严重的 不平衡和矛盾,用户为了获取自己需要的一点点信息,可能需要花费几十分钟、 几个小时、甚至更长时间来搜索、浏览网页,查找信息,一不小心就会淹没在信 息的海洋中。虽然现在出现了形形色色的搜索引擎( s e ,s e a r c he n g i n e ) ,但是 这种基于关键字的搜索,得到的却还是一个庞大的结果集,这个结果集只是给出 了相关网页内容的概要,具体的信息还是要用户进入到具体网页中查找,同时这 个结果集也并不一定都是用户想要的,这和具体的搜索引擎的性能有关,这样就 浪费了大量的人力、物力和时间。即使获得了相关内容的网页,如何将这些网页 第一章绪论 中有用的信息抽取出来加以保存,作为自己信息库中的信息,也不是一件简单的 事情。 上述问题的关键在于w e b 信息的发布与浏览都是通过基于h t m l 或x m l 语法的页面实现的,而h t m l 或x m l 是非结构化、半结构化【1 心的语言,它们 无法被计算机所理解,也无法像传统的数据库那样,提供结构化的、功能强大的、 高效的查询语句。如何让计算机从w e b 数据源中获取用户所需的信息,这正是 信息抽取的任务3 1 。 信息抽取技术的核心是能够从w e b 页面所包含的无结构或半结构的信息中 识别用户感兴趣的数据【4 1 ,并将其转化为更为结构化、语义更为清晰的格式。传 统方式下,信息抽取是通过被称作“包装器的程序来实现的。可以用以下语言 来形式化地描述包装器的制作:对于给定的包含一组隐含对象的w e b 页s ,确定 一个映射w ,它将s 中的对象映射到一个更为结构化、语义更为清晰的数据结 构中( 如x m l 、关系数据库) 并且映射w 对与s 相似的页面s 1 必须具有同样的 功能。这里的相似页面指的是语义和结构都相似的页面( 主要是同一站点或同一 服务所提供的页面,它们具有相似的风格) 。由此,包装器可定义为执行映射w 的程序【4 1 。 为了更好地解决w e b 信息抽取面临的诸多问题和不足,有必要对w e b 信息 抽取问题作进一步研究。 1 2 信息抽取技术的发展 从自然语言文本中获取结构化信息的研究最早始于2 0 世纪6 0 年代中期,这 被看作是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言处理项 目为代表【5 1 。 美国纽约大学开展的l i n g u i s t i cs t r i n g 项目【6 】开始于6 0 年代中期并一直延续 到8 0 年代。该项目的主要研究内容是建立一个大规模的英语计算语法,与之相 关的应用是从医疗领域的x 光报告和医院出院记录中抽取信息格式( i n f o r m a t i o n f o r m a t s ) ,这种信息格式实际上就是现在所说的模板( t e m p l a t e s ) 。模板是遵循消 第一章绪论 息理解系列会议( m u c ,m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 建立的术语,我们把 信息抽取最终的输出结果称为模板( t e m p l a t e ) ,模板中的域称为槽( s 1 0 0 ,而把信 息抽取过程中使用的匹配规则称为模式( p a t t e r n ) 。另外,我们把要提取的特定事 件或关系称为一个场景( s c e n a r i o ) ,而领域( d o m a i n ) 的概念要宽泛一些,通常一个 领域可以包含多个场景。 另一个相关的长期项目是由耶鲁大学r o g e rs c h a n k 及其同事在2 0 世纪7 0 年代开展的有关故事理解的研究。由他的学生g e r a l dd ej o n g 设计实现的f r u m p 系纠7 】是根据故事脚本理论建立的一个信息抽取系统。该系统从新闻报道中抽取 信息,内容涉及地震、工人罢工等很多领域或场景。该系统采用了期望驱动 ( t o p d o w n ,脚本) 与数据驱动( b o t t o m - u p ,输入文本) 相结合的处理方法。这种方 法被后来的许多信息抽取系统采用。从2 0 世纪8 0 年代末开始,信息抽取研究蓬 勃开展起来,这主要得益于消息理解系列会议m u c 的召开。正是m u c 系列会 议使信息抽取发展成为自然语言处理领域的一个重要分支,并一直推动这一领域 的研究向前发展。从1 9 8 7 年开始到1 9 9 8 年,m u c 会议共举行了七届,它由美 国国防高级研究计划委员会( d a r p a ,t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t s a g e n c y ) 资助。m u c 的显著特点并不是会议本身,而在于对信息抽取系统的评测 i 引。只有参加信息抽取系统评测的单位才被允许参加m u c 会议。在每次m u c 会议前,组织者首先向各参加者提供样例消息文本和有关抽取任务的说明,然后 各参加者开发能够处理这种消息文本的信息抽取系统。在正式会议前,各参加者 运行各自的系统处理给定的测试消息文本集合,由各个系统的输出结果与手工标 注的标准结果相对照得到最终的评测结果,最后才是所谓的会议,由参与者交流 思想和感受。后来,这种评测驱动的会议模式得到广泛推广,如1 9 9 2 年开始举 行的文本检索会议( t r e c ,t e x tr e t r i e v a lc o n f e r e n c e ) 等。 近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重于以 下几方面:利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章 分析技术、多语言文本处理能力、w e b 信息抽取( w r a p p e r ) 以及对时间信息的 处理等等。在应用方面,信息抽取应用的领域更加广泛,除自成系统以外,还往 往与其他文档处理技术结合建立功能强大的信息服务系统。至今,已经有不少以 信息抽取技术产品为主的公司出现,比较著名的有:c y m f o n y 、b h a s h a 、 第一章绪论 l i n g u a m a t i c s 、r e v s o l u t i o n s 等。 目前,除强烈的应用需求外,正在推动信息抽取研究进一步发展的动力主要 来自美国国家标准技术研究所( n i s t ,n a t i o n a li n s t i t u t eo fs t a n d a r d sa n d t e c h n o l o g y ) 组织的自动内容抽取( a c e , a u t o m a t i cc o n t e n te x t r a c t i o n ) 评测 会议【9 1 。这项评测从1 9 9 9 年7 月开始酝酿,2 0 0 0 年1 2 月正式开始启动,迄今已 经举办过六次评测。这项评测旨在开发自动内容抽取技术以支持对三种不同来源 ( 普通文本、由自动语音识别( a s r , a u t o m a t i cs p e e c hr e c o g n i t i o n ) 得到的文 本、由光学字符识别( o c r ,o p t i c a lc h a r a c t e rr e c o g n i t i o n ) 得到的文本) 的语言 文本的自动处理,研究的主要内容是自动抽取新闻语料中出现的实体、关系、事 件等内容,即对新闻语料中实体、关系、事件的识别与描述。与m u c 相比,目 前的a c e 评测不针对某个具体的领域或场景,采用基于漏报( 标准答案中有而 系统输出中没有) 和误报( 标准答案中没有而系统输出中有) 为基础的一套评价 体系,还对系统跨文档处理( c r o s s d o c u m e n tp r o c e s s i n g ) 能力进行评测。这一新 的评测会议将把信息抽取技术研究引向新的高度。 随着w e b 的出现和繁荣,信息抽取研究人员逐渐将兴趣转移到w e b 信息提 取的研究上,涌现了许多算法和系统。其中最知名的研究项目是卡耐基梅隆大 学“自动学习和发现中心( c a l d ,c e n t e rf o r a u t o m a t e dl e a r n i n ga n dd i s c o v e r y ) 的“w e b 挖掘”项目。该项目的目标是通过自动的从w e b 中提取信息,来创建 大型的、结构化的数据库。他们的技术途径是研究机器学习算法,通过训练,能 够自动提出信息。用户首先定义要被提取的类( 比如公司、产品、雇员) 和关系 ( 比如“被雇佣) ,并通过w e b 提供训练样本,系统然后使用这些训练数据学 习通用的信息提取步骤,然后按照这个步骤从其他w e b 页面中提取信息。 1 3 本文的研究的主要内容 人们通常根据自己职业、爱好的不同,经常要查找某种特定信息。现有的搜 索引擎都是基于关键字匹配的方法查找信息,这些信息没有根据搜索者的不同而 做不同的处理,所以会产生大量无用信息,使得查询效率很低。本文就是针对传 第一章绪论 统的信息查询方法的弊端而设计出能够满足人们对某种特定信息的处理愿望而 设计出的,专业化的w e b 信息抽取系统。系统将分散在不同w e b 页面的动态专业 信息抽取出来,以简单明晰的结构显示给用户,帮助他们尽快找到满意的信息。 本文采用基于自然语言理解的方式来进行w e b 信息抽取: 首先,利用网络蜘蛛( w e bs p i d e r ) ,在i n t e r n e t 上的查找网站并抓取相关网页: 其次,将w 曲s p i d e r 搜索到的w 曲页面经过处理用文本的形式保存起来; 然后,应用基于自然语言理解的信息抽取模块将文本抽取成结构化信息并 存入数据库: 最后,将用户所关注的信息清楚地显示在界面上。 1 4 本文的结构安排 全文共分五章,各章的内容概括如下: 第一章,研究背景与现状,指出本文的研究内容; 第二章,简单介绍在w e b 信息抽取技术中会用到的基础知识:x p a t h 表达式、 h t m l 语言、x m l 语言和d o m 树等: 第三章,本章在对传统的基于自然语言理解的抽取方法以及语言模型改进的 基础上进行系统的分析与设计。着重论述了w e b 诈骗信息抽取系统分析、设计、 框架结构、实现方式; 第四章,系统实现与评测。本章实现w e b 信息抽取系统c e i e s ,并进行分 块和整体测试; 第五章,总结与展望。对全文的工作进行总结,并指出进一步的研究方向。 第二章w e b 信息抽取技术与相关标准 第二章w e b 信息抽取技术与相关标准 w e b 上的信息抽取技术是目前热点的研究项目。这项技术处于不断地更新和 发展中,目前w e b 信息抽取研究的重点之一,是探索怎样能够较容易地获得构 造一个包装器所需规则的有效方法【4 l 。本章2 1 节从方法的原理出发,介绍几种 w e b 信息的抽取技术,并分析这几类技术。 本文研究的信息抽取方法涉及到x d v i l 及其相关标准技术,这些标准技术是 本文工作依靠的技术基础,本章2 2 节介绍这些相关的技术。 2 1w e b 信息抽取技术 2 1 1w e b 信息抽取的概念 顾名思义,w e b 信息抽取是将w e b 作为信息源的一类信息抽取【1 l 】。信息抽 取是近十几年来发展起来的新领域,起源于文本理解,是自然语言处理领域里特 别重要的一个子领域。 信息抽取的普遍定义为【1 2 1 :从各种不同的文本里定位、识别和提取出需要的 信息点,表示成一种统一的、结构化的形式。信息抽取的目标是把文本里包含的 信息进行结构化处理。输入信息抽取系统的是原始文本,输出的是固定格式的信 息点。 由于信息抽取的处理对象是文本,因此信息抽取的发展受到自然语言处理技 术的影响,但信息抽取并不试图全面理解整篇文档,只是对文档中包含相关信息 的部分进行浅层分析。自然语言处理中对文本的深度理解,即包括所有层面( 词 汇、语法结构、语义、篇章处理) 的理解是传统的困难问题,信息抽取技术就是 希望能回避这些困难而复杂的问题,不作深度的理解,利用已有的一些比较可靠 的技术对实际应用产生比较良好的效果。 目前w e b 上的数据大部分都是以超文本标记语言( h t m l ,h y p e rt e x t m a r k u pl a n g u a g e ) 描述的,主要目的是为了显示,让人们通过浏览器浏览,缺乏 第二章w e b 信息抽取技术与相关标准 对数据本身的描述,不含清晰的语义信息,模式也不太明确。这使得应用程序无 法直接解析并利用w e b 上海量的信息,造成资源极大的浪费。 w e b 信息抽取正是研究如何将分散在i n t e m e t 上的半结构化的h t m l 页面中 的隐含的信息点提取出来,并以更为结构化、语义更为清晰的形式表示,为用户 在w e b 中查询数据、应用程序直接利用w e b 中的数据提供便利1 2 1 。 2 1 2 信息抽取的任务 为了填充复杂的模板,研究人员发现系统必须能执行多种简单任务,分别学 习和评价这些子任务证明了这是信息抽取研究的一种有用途径。这些任务包括实 体抽取、属性抽取、关系抽取和时间抽取。 1 实体抽取 命名实体是文本中基本的信息元素,是正确理解文本的基础。常用的实体类 型有: ( 1 ) 命名实体:如组织、人、地点、书、电影、宾馆等名称。 ( 2 ) 命名类型:如蛋白质、化合物、药物、疾病、飞行器等。 ( 3 ) 时间:时间表达式日期、时刻等。 ( 4 ) 量度:金钱表达式、距离大小、重量等。 对于每个参考文本必须识别它的范围和类型,比如m 和m i c r o s o t t 今天宣 布,其中下划线被识别为组织或者公司名。但“戴尔 是公司名还是人名呢? 需 要根据具体情况来判断。 在信息抽取研究中,命名实体识别是目前最有实用价值的一项技术。根据 m u c 评测结果1 3 】,英文命名实体识别任务的f 指数( 召回率与准确率的加权几 何平均值,权重取1 ) 能达到9 0 以上。 命名实体识别的难点在于:在不同领域、场景下,命名实体的外延有差异: 数量巨大,不能枚举,难以全部收录在词典中;某些类型的实体名称变化频繁, 并且没有严格的规律可以遵循;表达形式多样;首次出现后往往采用缩写形式。 命名实体识别的方法主要分为:基于规则的方法和基于统计的方法。一般来说, 基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语 第二章w e b 信息抽取技术与相关标准 言、领域、文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言 学家才能完成。相比而言,基于统计的方法利用人工标注的语料进行训练,标注 语料时不需要广博的计算语言学知识,并且可以在较短时间内完成。因此,这类 系统在移植到新的领域时可以不做或少做改动,只要利用新语料训练一遍即可。 此外,基于统计的系统要移植到其他自然语言文本也相对容易一些。 2 属性抽取 实体常常是由感兴趣的属性联系起来的,如:西北大学肇始于1 9 0 2 年的陕 西大学堂,1 9 1 2 年始称西北大学,1 9 2 3 年8 月改称国立西北大学。1 9 3 7 年抗战 爆发后,国立北平大学、国立北平师范大学、国立北洋工学院等内迁来陕,组成 国立西安临时大学,1 9 3 8 年更名为国立西北联合大学,1 9 3 9 年8 月复称国立西 北大学。建国初期,西北大学为中央教育部直属的综合大学,1 9 5 8 年归属陕西 省主管,1 9 7 8 年被确定为全国重点大学。现为国家“2 1 1 工程重点建设院校和 国家“一省一校计划重点支持建设院校。 对于上面这段文字,西北大学的属性信息可以用如下所示: := o r gn a m e : 西北大学 o r gd e s c r i p t o r : 综合大学 o r g _ t y p e :大学 o r gl o c a t e :陕西西安 o r g c o u n t r y :q b 国 属性值的发现常依赖于共指分析,即知道哪些属性是属于同一个实体。 3 关系抽取 在抽取实体和它们的属性之后,下一步就是抽取除实体之间的各种关系。如 e m p l o y e e _ o f 是p e r s o n 和o r g n i z a t i o n 之间的关系;p r o d u c t o f 是a r t i f a c t 和 o r g n i z a t i o n 之间的关系等。 e m p l o y e e o f ( 张三,西北大学) ,p r o d u c t o f ( p c ,i b m ) 。 4 事件抽取 我们知道,很多领域是由一些关键的事件或场景来刻画的,因此需要抽取指 定的事件,包括参与这些事件的各个实体、属性或关系。例如: 8 第二章w e b 信息抽取技术与相关标准 召开会议( t i m e ,p e r s o n ,l o c a t i o n ,t o p i c 等) 。 2 1 3w e b 信息抽取的关键技术 1 抽取规则的生成 从对信息抽取技术分析中不难看出,所有的抽取技术都在抽取规则的生成上 花费了很大的精力。抽取规则对于抽取工作的自动化程序至关重要,同时又对抽 取的质量有着重大的影响,因此是信息抽取系统的一个关键组成部分。 抽取规则描述的是要抽取信息的各种特征和规律,作用是要确定需要抽取哪 些信息,用于在w 曲上识别和定位待抽取的信息。 抽取规则的生成方法主要有两类: ( 1 ) 人工获取方式 这种方式是人类专家依靠自身的知识和技术,审阅一定量的待处理文本文 档,归纳出相关信息出现的规律,然后按照信息抽取系统内部对抽取规则格式书 写的要求表述抽取规则。显然,人类专家掌握相关领域知识的水平和技能状态对 系统的性能起着相当关键的作用。另外,w e b 页面更新( 内容或格式的变化) 或者 出现新一类的w e b 页面时,都需要人工识别,更新或重新生成抽取规则,这样 导致了系统可扩展性较差。 ( 2 ) 自动学习方式 自动学习的方式也需要一定的人工成份。主要是依靠人工在训练集合中的文 档中用适当的方式标出相关信息的出现,生成系统自动学习抽取规则需要的训练 集( t r a i n i n ge x a m p l e ) 。学习模块就可以在训练数据的基础上运行了。 不同的系统抽取规则的定义和表示方法也各不相同。有的专门定义一种高级 语言或脚本语言,描述复杂的文本模式和语言结构,如l i x t o 1 4 】【1 5 】采用的e l o g 语言,有的基于h t m l d o m 树定义,有的采用了正则表达式表示等。采用专门 的高级语言描述抽取规则的缺点是需要掌握这种语言的语法,也不容易移植到别 的系统,而只采用d o m 或正则表达式不足以描述待抽取信息的各方面特征。 2 机器学习与归纳学习方法 在w e b 信息抽取过程中,面对的是海量的数据,如果采用人工的方式生成 第二章w e b 信息抽取技术与相关标准 抽取规则或是抽取信息并不现实。因此,机器学习被应用于这个领域,并在多年 的应用中发挥着重要的作用。 人们一直在努力使机器能够模仿人的思维进行自动学习,r s h a n k 曾说“一 台计算机若不会学习,就不能称为具有智能 ,机器学习( 自动获取新的事实及新 的推理算法) 是使计算机具有智能的根本途径1 4 。 目前很多信息抽取系统都结合了归纳学习的方法,在实用过程中相当广泛, 也较易实现。 归纳学习是一种基于假设的,从特殊情况推导一般规则的学习方法,其主要 思路是,如果归纳出来的规则能够解释观察到的实例,或者在新实例出现时能做 出准确的预测,那么这种归纳则是成功的。可以说,人类知识的增长主要得益于 归纳学习方法。归纳学习存在很强的可证伪性,对于认识的发展和完善具有重要 的启发意义。 2 1 4 国内外现有的w e b 信息抽取方法 根据自动化程度可以将w e b 信息抽取分为人工方式的信息抽取、半自动化 方式的信息抽取和全自动化方式的信息抽取3 大类【1 6 】。这种分类方式主要根据 w 曲信息抽取的核心w r a p p e r ( 包装器) 生成方式的不同来分类的。采用人工方式 信息抽取的系统主要有:i n f o r m i a t l 6 1 ,a n d e s 1 6 1 ,w 4 f 1 7 1 等,采用自动半自动化方 式信息抽取的系统主要有:s t a l k e r t l 8 】【1 9 】【2 0 】【2 l 】,s o f l a n e a l y l 2 2 1 ,w i e n 2 3 1 , x w r a p 2 4 】【2 5 】等。 根据各种工具所采用的原理不同可以将w e b 信息抽取分为基于自然语言处 理方式的信息抽取、包装器归纳方式的信息抽取、基于o n t o l o g y 方式的信息抽 取、基于h t m l 结构的信息抽取和基于w e b 查询的信息抽取。 1 基于自然语言处理方式的信息抽取 这类信息抽取主要适用于源文档中包含大量文本的情况( 特别针对于合乎文 法的文本) ,在一定程度上借鉴了自然语言处理技术,利用字句结构、短语和字 句间的关系建立基于语法和语义的抽取规则实现信息抽取。目前采用这种原理的 典型系统有r a p i e r 2 6 1 ,s r v 2 7 】和w h i s k 2 8 1 。 第二章w e b 信息抽取技术与相关标准 下面以w h i s k 为例说明基于自然语言处理方式的信息抽取。 w h s i k 适用于结构化、半结构化的文本,同时也适用于自由文本( f r e e t e x 0 。 系统使用语法分析器和语义类( 如人名、机构名) 分析器,分析出用户标记信息的 语法成分和对应的语义类,生成基于语法标记和语义类标记的抽取规则,实现信 息抽取。w h i s k 中所用的抽取规则主要是建立在词或词类间句法关系的基础上。 信息抽取的实质是根据语义项对应的语义类、语义项的上下文和所处的句子 成分实现信息的定位( 如,某个语义项只能出现在句子的关系从句中) ,即根据语 义和语法的双重约束实现信息抽取。 这种基于自然语言的信息抽取技术是将w e b 文档视为文本进行处理的( 主要 适用于含有大量文本且句子完整、适合语法分析的w 曲页面) ,其缺点也较为明 显: ( 1 ) 抽取的实现没有利用w e b 文档独特于普通文本的层次特性,抽取规则表 达能力有限,缺乏健壮性;获得有效的抽取规则需要大量的样本学习,达到全自 动的程序较难,而且速度较慢,对于操作网上海量数据来说这是一个大问题。 ( 2 ) 只支持记录型的语义模式结构,不支持复杂对象的抽取。 ( 3 ) 由于w e b 页面中的文本通常不是结构完整的句子,所以适用范围较窄。 2 基于包装器归纳方式的信息抽取 包装器归纳方式的信息抽取根据事先由用户标记的样本实例应用机器学习 方式的归纳算法,生成基于定界符的抽取规则。其中定界符实际上是对感兴趣语 义项上下文的描述,即根据语义项的左右边界来定位语义项。目前采用这种原理 的典型系统有s t a l k e r 1 8 】【1 9 l 【2 0 】【2 1 1 ,s o f t m e a l y t 2 2 】和w i e n 2 3 1 。 包装器由一系列的抽取规则以及应用这些规则的程序代码组成。通常,一个 包装器只能处理一种特定的信息源。从几个不同信息源中抽取信息,需要一系列 的包装器程序库。每一类w b e 页面对应一个包装器,其对应关系如图2 1 所示。 第二章w e b 信息抽取技术与相关标准 包 各类w e b 页筒 图2 - 1w r a p p e r 与w e b 页面的关系 包装器归纳法可以自动分析出待抽取信息在网面中的结构特征并实现抽取, 其主要思想是用归纳式学习方法生成抽取规则,基于归纳学习的信息抽取模型如 图2 2 所示。该方法首先由n i c h o l a sk u s h m c r i k 于1 9 9 6 年提出。 网页 询问 q q r 图2 2 基于归纳学习的信息抽取模型 标记 l l 与自然语言处理方式比较,包装器较少依赖于全面的句子语法分析和分词等 复杂的自然语言处理技术,更注重于文本结构和表格格式的分析。使用这一方法 的工具主要有三种:w i e n 、s o f l m e a l y 和s t a l k e r 。其中w i e n 和s o f l m e a l y 必 须依靠紧挨着数据前的分隔符来定位数据,而且不能抽取复杂格式的数据。 s t a i k e r 引入了e c t 树来表示复杂格式的数据。 使用包装器的困难在于: ( 1 ) 包装器的针对性强,可扩展性( s c a l b a i l i t y ) 较差。由图2 - 1 可以看出,由 于一个包装器只能处理一种特定的信息源,所以若从几个不同的信息源中抽取信 息,就需要一系列的包装器集。这样使得信息抽取的工作量巨大。 ( 2 ) 可重用性( r u e s a b i l i t y ) 差。包装器对页面结构的依赖性强,当出现一类新 的w e b 页面或旧的页面结构发生了变化后,原来的包装器就会失效,无法从数 1 2 第二章w e b 信息抽取技术与相关标准 据源中获得数据或得到错误的数据。这使得一个新的问题出现,即包装器的维护 问题。 ( 3 ) 缺乏对页面的主动理解。目前的包装器主要依赖于原网页或其后台数据 库的模式,基本上是一种数据模式的还原,缺乏对数据语义的主动理解。 包装器归纳方式的信息抽取和基于自然语言理解方式的信息抽取技术的不 同点在于仅仅使用语义项的上下文来定位信息,并没有使用语言的语法约束。 3 基于o n t o l o g y 方式的信息抽取 基于o n t o l o g y 方式的信息抽取主要是利用对数据本身的描述信息实现数据 抽取,对网页结构的依赖较少。目前采用这种原理的典型系统有b y u ( b r i g h a m y o n gu n i v e r s i t y 信息抽取小组开发的信息抽取工具1 2 3 1 , q u i x o t e 2 4 1 1 2 5 1 。 按照s t a n f o r da i 专家t o mg r u b e r 的定义,o n t o l o g y 是为了帮助程序和人共 享知识的概念化规范,在知识表达和共享领域,o n t o l o g y 描述了在代理之间的概 念和关系( c o n c e p t sa n dr e l a t i o n s ) 。 基于o n t o l o g y 的信息抽取主要利用了对数据本身的描述信息实现抽取,对 页面结构的依赖较少。由b r i g h m a y o n g u n i v e r s i y t 开发的信息抽取工具就采用了 这种方法。 采用该方法,事先要由领域知识专家采用人工的方式书写某一应用领域的 o n t o l g y 。并且根据。o n t o l o g y 中常值和关键字的描述信息产生抽取规则,对每 个无结构的文本块进行抽取获得各语义项的值。另外系统根据边界分隔符和启发 信息将源文档分割为多个描述某一事物不同实例的无结构的文本块。还将抽取出 的结果放入根据o n t o l o g y 的描述信息生成的数据库中。 基于o n t o l o g y 方式的最大的优点是对页面结构的依赖较少,只要事先创建 的应用领域的o n t o l o g y 足够强大,系统可以对某一应用领域中各种页面实现信 息抽取。主要缺点是: ( 1 ) 需要由领域专家创建某一应用领域的详细清晰的o n t o l g o y ,工作量大。 ( 2 ) 由于是根据数据本身实现信息抽取,因此在减少了对页面结构依赖的同 时,增加了对网页中所含的数据结构的要求,如要求内容中包含时间、日期、d 号码等有一定格式的内容。 第二章w e b 信息抽取技术与相关标准 ( 3 ) 从大量异构的文档中提取公共模式工作量繁重,并且不支持对超链接的 处理。 4 基于h t m l 结构的信息抽取 基于h t m l 结构的信息抽取技术的特点是根据w e b 页面的结构定位信息, 在信息抽取之前通过解析器将w e b 文档解析成语法树,通过自动或半自动的方 式产生抽取规则,将信息抽取转化为对语法树的操作实现信息抽墩。目前采用这 种原理的典型系统有l i x t o 1 4 j 【1 5 】,x w r a p 2 4 j 【2 5 】,r o a d r u n n e r 3 2 坪口w 4 f 17 1 。 下面以l i x t o 为例说明基于h t m l 结构的信息抽取。 在该系统中,用户以可视交互的方式对样本页面中的信息进行标记,系统通 过记录用户标i 己的信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论