(计算机软件与理论专业论文)基于框架语义标注的web信息抽取技术研究.pdf_第1页
(计算机软件与理论专业论文)基于框架语义标注的web信息抽取技术研究.pdf_第2页
(计算机软件与理论专业论文)基于框架语义标注的web信息抽取技术研究.pdf_第3页
(计算机软件与理论专业论文)基于框架语义标注的web信息抽取技术研究.pdf_第4页
(计算机软件与理论专业论文)基于框架语义标注的web信息抽取技术研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机软件与理论专业论文)基于框架语义标注的web信息抽取技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理工大学硕士研究生学位论文 基于框架语义标注的w e b 信息抽取技术研究 摘要 随着i n t e r n e t 的快速发展,w e b 已经成为全球化的信息源,它为信息 共享和资源共享提供了一个良好的平台。然而,用传统的搜索引擎人们很 难迅速准确地找到所需要的信息。信息抽取技术正是在这样的前提背景下 产生的,信息抽取是从网页( 文本) 中自动地抽取出有用的信息的一种技 术,它是目前智能信息处理的一个重要研究课题。信j 息抽取系统在w e b 上 抽取的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数 据挖掘系统的基础,有着广阔的应用前景。 本文首先介绍了信息抽取系统的产生背景、发展历史,研究了信息抽 取技术的研究现状,分析了当前几种重要的信息抽取工具和当前信息抽取 工具的一些缺陷一一缺乏语义或语义模型过于简单。然后针对这一不足之 处,利用框架语义在语义信息标示方面的优势来解决信息抽取结果中语义 信息缺失或语义信息过于简单这一问题,提出了一种信息抽取的方法一一 基于框架语义标注的信息抽取。 本文通过构造一个基于框架语义标注的w e b 图书信息抽取系统来说明 基于框架语义标注的信息抽取技术的思想一一将框架语义网络技术、领域 本体知识和信息抽取技术相结合。对自由文本进行信息抽取时,首先进行 框架语义标注,再根据标注结果结合领域本体知识生成抽取规则。该方法 的特点在于在抽取过程中以框架语义标注作为构建信息抽取规则的基础, 太原理工大学硕士研究生学位论文 用统一的方法来指导信息抽取过程一一以语义角色为核心构建信息模式, 将信息模式的建立上升到语义角色一级,从而达到所抽取出信息的带有明 确的语义信息。 本系统对于实现基于语义的信息抽取研究具有重要的现实意义。不仅 如此,它的体系结构和主要模块的设计思想,对于其他文档的信息抽取系 统的设计和实现也具有较高的借鉴价值。 关键词:信息抽取,框架语义,领域本体,包装器,抽取规则 太原理工大学硕士研究生学位论文 r e s e a r c ho f 砸bi n f o r m a t l 0 n e x t r a c t l 0 nt e c h m c a l b a s e do nf ram 匝s e m a n t i ct a g g i n g a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e m e t ,w e bh a sb e c o m e dt h eg l o b a l i n f o r m a t i o n s o u r c e ,w h i c hp r o v i d e s a ni d e a l p l a c e f o r s h a r i n g a n d c o m m u n i c a t i o ni n f o r m a t i o n h o w e v e r , i t 。sh a r df o ru s e rt og e ta c c e s st ot h e n e e d e da n du s e f u li n f o r m a t i o nq u i c k l ya n dc o r r e c t l yb yt r a d i t i o n a ls e a r c he n g i n e an e wt e c h n i c a l 一- i n f o r m a t i o ne x t r a c t i o nh a sb e e np u tf o r w o r d i n f o r m a t i o n e x t r a c t i o nc a ne x t r a c ta u t o m a t i c a l l yu s e f u li n f o r m a t i o nf r o mw e b ( t e x t ) i th a s b e e nb e c a m ea n i m p o r t a n tr e s e a r c ht o p i c i nt h e i n t e l l i g e n ti n f o r m a t i o n p r o c e s s i n gf i e l d t h e s ei n f o r m a t i o ne x t r a c t e df r o mt h ew e bs i t ec a nn o to n l y p r o v i d et h eu s e rb u ta l s ob ea f o u n d a t i o nr e s o u r c eo ft h ei n t e l l i g e n tq u e r ys y s t e m a n dd a t am i n i n gs y s t e m i n f o r m a t i o ne x t r a c t i o nh a sv e r yb r o a d a p p l i c a t i o n p r o s p e c t s t h i sp a p e rp r e s e n t st h eb a c k g r o u n d ,h i s t o r yo fi n f o r m a t i o ne x t r a c t i o n , r e v i e w st h ei n f o r m a t i o ne x t r a c t i o ns t a t eo fi n t e m e t ,a n a l y s i ss e v e r a li m p o r t a n t t o o l so fi n f o r m a t i o ne x t r a c t i o n a n dw ea n a l y s i ss o m ed i s a d v a n t a g e so fc u r r e n t i n f o r m a t i o ne x t r a c t i o n t e c h n i q u e s b a c a u s e o ft h e a d v a n t a g e s o ff r a m e s e m a t i c si ns e m a t i c si n f o r m a t i o ni n d i c a t e d ,an e wm e t h o do fi n f o r m a t i o n i i i 太原理工大学硕士研究生学位论文 e x t r a c t i o nb a s eo nf l a m es e m a t i c st a g g i n gw a s p u tf o r w o r dt or e s o l v et h i si s s u e o fl o s i n gs e m a t i c so rt o ob r i e fs e m a t i c si n f o r m a t i o ni nt h er e s u l t so fi n f o r m a t i o n e x t r a c t i o n ,f r a m es e m a t i o c sh a v es o m ea d v a n t a g e s i ns e m a t i c si n d i c a t e d t h i sp a p e re x p l a i nt h et h i n k i n go fi n f o r m a t i o ne x t r a c t i o nt e c h n i c a lb a s e do n f r a m es e m a n t i ct a g g i n gt o c o n s t r u c t i n gt h ew e b sb o o ki n f o r m a t i o ne x t r a c t i o n s y s t e mb a s e do nf r a m es e m a n t i ct a g g i n g - - i n t e r g r a t i n gf r a m es e m a n t i cn e t w o r k t e c h n o l o g y , d o m a i no n t o l o g y a n di n f o r m a t i o ne x t r a c t i o nt e c h n o l o g y w h e n t e x t si n f o r m a t i o ne x t r a c t e d ,f i r s t l y , i tw a st a g g i n g e d t h e ns u m m a r i z e dt h er u l e s o fe x t r a c t i o na c c o r d i n gt ot h er e s u l t so ft a g g i n ga n dd o m a i lo n t o l o g y s k n o w l e d g e t h em e t h o d sc h a r a c t e r l i e si nf r a m es e m a t i c st a g g i n ga sb a s i sf o t h eb u i l d i n gi n f o r m a t i o ne x t r a c t i o nr u l e si ne x t r a c t i o np r o c e s s ,a n dg u i d et h e i n f o r m a t i o ne x t r a c t i o np r o c e s sb ya nu n i f i e dm e t h o dw h i c h b u i l d i n gi n f o r m a t i o n m o d e la sc o r eo fs e m a t i c sr o l e ,t h em o d e lo fi n f o r m a t i o nr i s et ot h es e m a n t i c r o l e ,s o a s t oa c h i e v et h ei n f o r m a t i o ne x t r a c t e dw i t hac l e a rs e m a n t i c i n f o r m a i t o n t h es y s t e mi so fg r e a ti m p o r t a n c eo ni n f o r m a t i o ne x t r a c t i o nb a s e do n s e m a n t i c f u r t h e r m o r e ,t h ea r c h i t e c t u r eo ft h es y s t e ma n dd e s i g no ft h em a i n c o m p o n e n t sa r ea l s ov a l u a b l ef o ro t h e r i es y s t e m s k e yw o r d s :i n f o r m a t i o ne x t r a c t i o n ,f r a m es e m a t i c ,w r a p p e r , o n t o l o g y , e x t r a c t i o nr u l e s i v 声明芦剐 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:量必一目期:2 垒壑j 生么一 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为酱的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) 。 签:名:鱼逝年一啉盈也l 导师繇华兰塑。隰 妒忠。毒专 太原理工大学硕士研究生学位论文 1 1 问题提出的背景 第一章引言 随着i n t e r n c t 的快速发展,i n t c r n c t 上的信息资源正以惊人的速度增长,越来越多 的人们通过i n t e r n c t 发布信息、查找信息。w e b 已经发展成一个全球的、巨大的、分布 和共享的信息仓库。然而,这些信息资源无论是从物理上还是逻辑上多是以散落无序的 状态存在于i n t c r n e t 上,信息的获取存在诸多问题: 首先,用户难以定位所需信息的网络位置。现有的搜索引擎只能根据用户提交的关 键字返回一组u r l ,为了获得所需的信息,用户必须逐一浏览对应的网页,采用人工定 位方法获得最终信息。显然,现有的搜索引擎本身难以直接定位到用户所需要的信息, 更谈上不上为这些信息增加语义。并且由于对查询关键词的依赖导致其准确率的低下。 此外,这种基于网络爬虫的方式完全遗漏了大量隐藏在站点后台数据库中的信息资源。 其次,随着人们对信息的需求日益增长,用户所需的信息往往须从多个不同的信息 源获得,用户不得不以人工的方式一一定位这些信息源,逐个查询,再将查询结果以一 定的方式合并、组织,过程繁琐且效率不高。 再次,包含所需的信息的网页中充斥着大量的广告和无关链接,有用信息与无用信 息混杂在一起,增加了信息获取的难度。 因此,目前的信息获取方式难以满足用户日益增长的信息需求。为了应对信息爆炸 带来的严重挑战;为了帮助人们在海量信息源中迅速找到真正需要的信息;为了让应用 程序能直接利用网上的资源,都需要一种技术能自动从这些数据中提取出有用的信息, 信息抽取技术正是在这种背景下产生的。 1 2 信息抽取研究的发展历史 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,缩写为i e ) 技术是一种面向具体任务的实用的 文档理解技术。与复杂的自然语言理解技术不同,i e 技术通常采用浅层的文档分折技术, 提取出设计者关注的特定主题或特定领域的信息。该技术适用于具有特定主题及相对确 定的信息结构的文档如广告、新闻、数据库自然语言查询、特定领域的文本等等。 信息抽取是一个以自由文本作为输入,产生结构化的输出数据的过程。这些数据可 l 太原理工大学硕士研究生学位论文 直接向用户显示,也可作为自由文本信息检索的索引,或存储到数据库、电子表格中, 以便于以后的进一步分析利用。从广义上讲,信息抽取的处理对象可以是文本、图像、 语音、视频等多种形式的文件。但随着文本信息抽取的强势发展,特别是在美国国防高 级研究计划局( d a r p a ) 所资助的消息理解会议( m u c ) 以及后来由美国国家标准技术 研究( n i s t ) 组织的自动内容抽取( a c e ,a u t o m a t i c c o n t e n te x t r a c t i o n ) 评测对不同文 本信息抽取系统组织统一评估后,信息抽取已被用来专指文本信息的抽取。 信息抽取的目标是从h t m l 网页或文本中抽取出特定的事实信息( f a c t u a l i n f o r m a t i o n ) 。比如,从书店的货品栏记录中抽取出书名、类别、价格、作者、出版社等; 从图书的内容简介中抽取出图书中具体包含的内容、作者背景信息、图书的评价、用途 等等信息。通常,被抽取出的信息要以结构化形式描述,可以直接存入数据库,供用户 查询以及进一步进行集成分析。 w e b 信息抽取,就是将w e b 作为信息源的一类信息抽取。它的主要任务就是如何 将分散在i n t e m e t 上半结构化的h t m l 上的信息或非结构化的页面中隐含信息提取出 来,并以更为结构化、语义更为清晰的形式表示,为用户在w e b 查询数据,应用程序直 接利用w e b 中的数据提供便利。 从自由文本中获取结构化的信息的研究最早开始于2 0 世纪6 0 年代中期,这被看作 是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言处理项目为代表。美 国纽约大学开展l i n g u i s t i cs t r i n g 的项目开始于6 0 年代中期并一直延续到9 0 年代。该项 目的主要研究内容是建立一个大规模的英语计算语法,与之相关的应用是从医疗领域的 光报告和医院出院记录中抽取信息格式,这种信息格式实际上就是现在所说的模板。 另一个相关的长期项目是由耶鲁大学r o g e rs c h a n k 在2 0 世纪7 0 年代开展的有关故 事理解的研究。由他的同事设计实现的系统是根据故事脚本理论建立的一个信息抽取系 统。该系统从新闻报道中抽取信息,内容涉及地震等很多领域或场景。近几年,信息抽 取技术的研究与应用更为活跃。在研究方面,主要侧重于以下几方面: 利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多 语言文本处理能力、w e b 信息抽取以及对时间信息的处理等等。在应用方面,信息抽取 应用的领域更加广泛,除自成系统外,还往往与其他文档处理技术结合建立功能强大的 信息服务系统。至今,己有不少以信息抽取技术产品为主的公司出现。如c y m f o n y 、 r e v o s u l t i o n 等。 2 太原理工大学硕士研究生学位论文 信息抽取技术研究最早于2 0 世纪8 0 年代由美国提出,最初的目的是希望从大量关 于海军的信息中自动找到所需的内容,这得益于因特网的出现和美国国防高级研究计划 委员会( t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ,d a r p a ) 资助的m u c ( m e s s a g e u n d e r s t a n d i n gc o n f e r e n c e ) 会议的推动。m u c 定义的信息抽取任务的各种规范以及确立 的评价体系已经成为信息抽取研究事实上的标准。 从历次m u c 会议,可以清楚地看到信息抽取技术发展的历程。从1 9 8 7 年开始到 1 9 9 8 年,m u c 会议共举行了七届,有许多大学和研究机构参加。1 9 8 7 年5 月举行的首 届m u c 会议基本上是探索性的,没有明确的任务定义,也没有制定评测标准。m u c 2 开始有了明确的任务定义,规定了模板以及槽的填充规则,抽取任务被明确为一个模板 填充的过程。m u c 3 开始引入正式的评测标准,其中借用了信息检索领域采用的一些 概念,如召回率和准确率等。从m u c - 4 开始,m u c 被纳入t i p s t e r 计划。t i p s t e r 计划由美国国防部、d a r p a 及c i a ( c e n t r a li n t e l l i g e n c ea g e n c y ) 共同资助,目的是推动 和促进提高文本处理的技术水平,重点是文档检索( d o c u m e n td e t e c t i o n ) 、信息抽取 ( i n f o r m a t i o ne x t r a c t i o n ) 、自动文摘( s u m m a r i z a t i o n ) 等技术。m u c 5 于19 9 3 年8 月举行, 在本次会议上,组织者尝试采用平均填充错误率( e r r , e r r o rp e rr e s p o n s ef i l l ) 作为主要 评价指标。与以前相比,m u c 5 抽取任务的复杂性更大。还有一个重要创新是引入了 嵌套的模板结构。m u c 6 的评测更为细致,强调系统的可移植性以及对文本的深层理 解能力。除了原有的场景模板( s c e n a r i ot e m p l a t e s ) 填充任务外,又引入三个新的评测任 务:命名实体( n a m e de n t i t y ) 识别、共指( c o r e f e r e n c e ) 关系确定、模板元素( t e m p l a t e e l e m e n t ) 填充等。最后一届m u c 会议m u c 7 除m u c 一6 已有的四项评测任务外,又增 加了一项新任务一模板关系任务,它意在确定实体之间与特定领域无关的关系,如地点 关系、雇佣关系和生产关系等。 在m u c 会议的停办以后,美国国家标准技术研究院( n i s t ) 组织了自动内容抽取 ( a c e ,a u t o m a t i c c o n t e n te x t r a c t i o n ) 评测,旨在开发自动内容抽取技术以支持对三种 不同来源( 普通文本、自动语音识别得到的文本、由光学字符识别得到的文本) 的语言 文本的自动处理。对这些内容的处理包括了分类,过滤和基于数据源语言内容的选择等。 a c e 研究的主要目的就是对实体、关系、事件的识别与描述。同时,a c e 测评并不针 对某个具体的领域或场景,而是采用基于漏报( 标准答案中有而系统输出中没有) 和误 报( 标准答案中没有而系统输出中有) 为基础的一套评价体系,并对系统跨文档处理能 3 太原理工大学硕士研究生学位论文 力进行测评。这一测评会议对信息抽取技术研究发展具有很大的影响。 从19 9 9 年开始继续进行信息抽取方面的评测。迄今已经举办过八次评测( 2 0 0 0 年 5 月、2 0 0 2 年2 月、2 0 0 2 年9 月、2 0 0 3 年1 0 月、2 0 0 4 年8 月、2 0 0 5 年8 月、2 0 0 6 年l o 月、2 0 0 7 年1 月) 。a c e 评测提供的语料不仅是英文,还包括中文和阿拉伯文。 目前a c e 评测主要有实体探测和识另w j ( e n t i t yd e t e c t i o na n dr e c o g n i t i o n ,e d r ) 、数值探 测和识;另l j ( v a l u ed e t e c t i o na n dr e c o g n i t i o n ,v a l ) 、时间表达识别和规范化( t e m p o r a l e x p r e s s i o nr e c o g n i t i o na n dn o r m a l i z a t i o n ,t e r n ) ) 、关系探测与描述( r e l a t i o nd e t e c t i o n a n dr e c o g n i t i o n ,r d r ) 、事件探测与描述( e v e n td e t e c t i o na n dc h a r a c t e r i z a t i o n ,e d c ) 的五项主要任务和三项标示级任务:实体标示( e n t i t ym e n t i o n ) 、关系标示( r e l a t i o n m e n t i o n ) 、事件标示( e v e n tm e n t i o n ) 。2 0 0 7 年1 月a c e 测评还增加了针对西班牙语数据 的e d r 及t e r n 试点的测试和基于实体翻译( e n t i t yt r a n s i t i o n ,e t ) 的试点测试。 1 3 信息抽取技术的研究现状 随着需求的增加,近年来涌现出多种信息抽取工具,它们采用的技术也各不相同。 下面将结合典型的系统,从语义的附加方式、模式的定义方式、规则的表现形式、自动 化程度、效率和健壮性以及语义丰富程度等方面对它们进行分析比较。其中结构化的数 据称为对象模式的定义方式主要有两种,信息抽取之前给出对象模式的称为先模式,反 之称为后模式。 s c i s o r 2 j :由美国g e 研究与开发中心的l i s ae r a u 等研制的概念信息缩写、组织 和检索系统( s y s t e mf o rc o n c e p t u a li n f o r m a t i o ns u m m a r i z a t i o n ,o r g a n i z a t i o na n dr e t r i e v a l ) 。 s c i s o r 首先采用关键词过滤和模式匹配的方法对待处理文献进行主题分析,然后采用 与领域无关的自底向上的分析器t r u m p ( t r a n s p o r t a b l eu n d e r s t a n d i n gm e c h a n i s m p a c k a g e ) 识别每个句子的结构,生成类似于框架( f r a m e ) 的概念表示;最后运用自顶向下 的预期驱动的分析器t r u m p e t ( t r u m pe x p e c t a t i o nt 0 0 1 ) 从概念表示中提取预期的内 容。 r o a d r u r m e r 3 】:该系统通过对两个页面( 一个为样本,另一个为页面包装器即抽 取规则) 结构的比较,获得一个利用正则表达式表示的该类页面的通用结构,然后根据 该结构实现相似页面的信息抽取。系统根据结构模式h t m l 中标记间的关系,以嵌套 的形式组织抽取出的数据。该系统实现了全自动的信息抽取,能抽取所有符合抽取规则 4 太原理工大学硕士研究生学位论文 中正则表达式描述的结构的数据,抽取出的数据仍然没有语义信息,如果要利用的话可 以以后模式的方式为其附加语义,另外该系统需要大量的样本训练。 w h i s k 4 】:由s s o d e r l a n d 开发的。该系统适用于结构化、半结构化、自由文本。 用户在可视化环境下根据系统提供的实例标记出感兴趣的信息并定义模式。系统用语法 分析器和语义类分析器分析出用户标记信息的语法成分和对应的语义信息,生成基于语 法标记和语义标记的抽取规则,实现信息抽取。通过交互式的方式,由用户在样本页中 指定抽取区域,并确定区域的类型,然后通过可视化的方式,用户在样本页中指定语义 项及与之对应的实例,系统产生抽取规则并实现信息抽取,最后系统利用启发式信息获 得数据间的层次结构关系,生成文档。w h i s k 属于机器学习算法家族中的覆盖学习法, 与自上而下的学习分类归纳法相关。首先,找到一个最宽泛( g e n e r a l ) 的能覆盖规则种 子的规则,然后一次加一个条件,直到错误率为零,或者满足一个事先设定的标准为止。 x w a p :该系统可以表达复杂的语义模式结构,采用用户在网页中指定语义项的方 式附加语义信息。但是该系统只适合对含有明显区域结构的网页进行信息抽取,不支持 对普通网页的抽取,模式的表达能力也非常有限,在学习阶段需要过多的用户参与。 p q a g e n t ”:使用先模式机制,采用了机器学 - - - j 方法。该系统由用户选定样本页面, 然后在可视化界面中,对样本页面进行标记,系统通过学习生成基于x q u e r y 的抽取规 则,利用生成的抽取规则实现对相似结构页面的信息抽取。该系统信息抽取转化为利用 x q u e r y 对w e b 页面的查询,该系统的抽取规则相对来说健壮,有很强的表达力。该系 统不仅便于最终用户使用,也便于作为封装器,由应用程序调用,这是其他方法无法比 拟的优点。但是该系统对网页的依赖性很强,尽管抽取的范围相对广泛,但仍需要进一 步扩大。 。 s t a l k e r 5 】:该系统中事先由用户以嵌入式分类树形式定义语义模式,然后标记样 本页面,接着应用逐步覆盖算法,逐步归纳生成基于定界符的精确的抽取规则,实现信 息抽取。该系统中语义的附加和模式的定义是在用户定义嵌入式分类树时完成,属于先 模式的方式。该类信息抽取不但对页面的结构有所依赖,而且对网页的内容也有所依赖, 要想获得精确的抽取规则必须进行大量的样本训练,自动化程度不高。 w i e n :该系统中事先由用户标记样本页面,系统根据页面逻辑结构的不同,使用 不同的启发式归纳算法生成不同的w r a p p e r 。该系统语义和模式信息由用户添加。通过 感兴趣信息的左右边界实现信息的定位。但该系统中不能表达复杂的语义模式结构,无 5 太原理工大学硕士研究生学位论文 法实现复杂对象的抽取,且抽取规则表达能力有限,缺乏健壮性。 l i x t o :系统允许用户以可视化、交互式的方式对样本页面中的信息进行标记,它 通过用户标记的信息生成抽取规则,实现对相似结构网页的抽取。这在一定程度上简化 了信息抽取工作,增强了信息抽取技术的实用性。该系统的不足之处在于抽取规则实现 和优化较困难,抽取规则中对抽取信息的描述不够丰富,不支持图像信息和文献信息的 处理。 f a s t u s 【6 】:是美国加里福尼亚斯坦福研究所人工智能中心从1 9 9 1 年开始开发的 一个基于多层,非确定有限状态自动机模型的自然语言文本信息抽取系统。它共有六层 转换机制,即:切分标一记层、预处理层、名称项识别层、简单短语识别层、复杂短语 识别层和指同求解层。独立的语言处理使系统能够处理大量的与专业领域无关的句法结 构,与专业领域相关的语义和语用处理能被应用到相当大部分的语言结构上。 1 4 信息抽取的研究意义 信息抽取作为自然语言处理领域中最活跃的研究分支之一,其涉及到多学科领域的 交叉合作,主要包括:信息的组织、存储、数据库、异构数据源的集成和人工智能等技 术,信息抽取技术的研究与发展和这些相关领域的发展是息息相关的,同样的,信息抽 取技术的研究也能推动相关科研领域的发展。因此,信息抽取是计算机科学与技术和信 息科学相结合的前沿课题,具有前瞻性和创新性,既有重要的学术价值,又有很强的实 际应用背景和社会经济效益。 1 5 研究内容和研究重点、难点 虽然上述基于各种原理的信息抽取技术已日趋成熟,但是还有很多问题有待解决。一 是自动化程度与性能的不一致。性能准确性、适应性、实用性等好的信息抽取技术,需 要大量的人工参与而自动化程度较高的信息抽取技术,性能相对较低;二是效率和健壮 性也有待提高。目前的信息抽取技术均采用定制的语言表达抽取规则,缺乏通用性,系统 不易升级;三是语义性较低。大部分的信息抽取工具都是一种基于模板的信息抽取,也 就是说机器无法通过抽取的内容进行推理、解释、造成了应用程序之间交互等诸多不便, 虽然有些系统也附加了一些语义的信息,但它们采用的语义模型过于简单,无法表达网 页中的复杂数据,同时采用的数据模型也不灵活,不易于向多种数据模型转换,降低了抽 6 太原理工大学硕士研究生学位论文 取结果的利用率。针对上述信息抽取缺乏语义或语义模型过于简单这一不足之处,本文 提出了一种基于框架语义标注的w e b 信息抽取技术。 基于框架语义标注的w e b 信息抽取技术是基于目前w e b 上信息的无组织、异构、 分布和动态的特点提出的,用于解决信息抽取中“信息过载 、“资源迷向”、“信息粗糙 等问题,实现w e b 信息个性化主动服务。 本文的研究内容 : 研究目前主要的信息抽取工具的技术特点 构建图书信息领域本体 设计一种基于框架语义标注的w e b 信息抽取系统 基于框架语义标注的信息抽取规则的生成 本文的研究重点: 设计一个基于框架语义标注的信息抽取系统 设计一个图书信息领域的本体 研究这种信息抽取系统的设计思想 设计这种信息抽取系统的各个功能模块 侧重点的设计分析各个功能模块。 本文的研究难点: 图书信息领域的本体的构建 如何归纳基于框架语义标注的信息抽取规则 设计并实现一种算法,它能将非结构化的信息转化成带有语义的、结构化信息。 1 6 本文的组织结构 第一章阐明了本文的研究背景、目的和意义,说明了研究的主要内容、研究重点和 难点。最后介绍了论文各章节的内容安排。 第二章介绍框架语义学的理论、框架语义网络( c f n ) 和框架语义标注的方法。 第三章对本体及本体的作用、本体的构建规则和本体的构建方法等基本知识进行 了介绍,并且构建了图书领域本体,对本体的构建方法及过程进行实践。 第四章介绍信息抽取的各种方法的技术和各自具有的特点。 第五章为了说明一种基于框架语义标注的信息抽取系统的应用环境,首先提出一 7 太原理工大学硕士研究生学位论文 个基于框架语义标注的问答系统的框架。信息抽取只是这个框架中的一个模块,也是它 的核心。本文提出的基于框架语义标注的信息抽取系统的设计是基于这个问答系统框架 需求而产生的。 第六章本章设计了一个基于框架语义标注的信息抽取系统,并详细地对其各功能 模块的构建、使用进行设计与分析。还对信息抽取的算法进行了说明并设计算法流程图, 最后对算法进行实现,基本上获得较好的效果。 第七章,总结本文的研究工作,包括其创新及优点,以及不足之处,并对未来研究作 出规划。 8 太原理工大学硕士研究生学位论文 2 1 框架语义学 第二章汉语框架语义网络( o f n ) 框架语义学( f r a m es e m a n t i c s ) 是由f i l l m o r e 提出的研究词语意义和句法结构意义的 一种理论方法,即试图用经验主义方法,寻找语言和人类经验之间的紧密关系,并研究 一种可行的描述方式,表示语言和经验之间的这种关系。词语代表了经验的分类( 即范 畴化) ,范畴中的每一个词语背后都有一定的基于知识和经验的激活性情境,框架语义 学试图理解一个言语社团为何会创建一个范畴并以词语来表达它;同时通过将背景动因 进行描述,来解释这个词语的意义。该理论出自经验主义语义学传统,而不是形式语义 学,它跟形式语义学的差别主要在于,前者强调语言与经验之间的连续性( c o n t u n u i t i e s ) , 而后者是非连续的。但它与形式主义又并不矛盾,f i l l m o r e 表示,框架语义学应该说是 “先于形式化的”( p r e f o r m a l ) ,而不是“非形式化的”( n o n f o r m a l i s t ) 。 框架语义学r 7 】把词义、句子意义和文本意义统一用“框架 进行描述,框架是跟一 些激活性语境相一致的一个结构化的范畴系统,是储存在人类经验中的图式化情境,这 种范畴系统所描述的既可能是一个实体,也可能是一种行为实践模式,甚至是一些社会 制度、习俗等。f i l l m o r e 使用“框架”这个术语,来涵盖以往讨论自然语言理解问题的 文献中提到过的一系列概念,诸如“场景( s c e n e ) ”、“图式( s c h e m a ) 、“脚本( s c r i p t ) 、 “情境( s c e n a r i o ) 、“观念框架( i d e a t i o n a l ) 、“认知模式( c o g n i t i v em o d e l ) 、“民俗 理论( f o l kt h e o r y ) ”等等,但是这些术语属于人类认知或经验范畴,“框架 则是语言学 术语,一个“框架 虽然表示的是一个认知结构,但它的意义在于这个认知结构的各个 部分是和词语挂钩的,为语言理解服务。 框架语义学试图用语义框架对语义包括词义、句义和情境义进行系统的描述和解 释,不光描述基本的框架,还要建立框架和框架之间抽象的概念联系。框架语义学对词 语之间的语义联系,考察单位并不限制在句子层面,而是扩展到篇章。框架语义学对动 词的论旨角色进行了细化和丰富,框架元素只适用于个别框架。 9 太原理工大学硕士研究生学位论文 2 2c f n ( o hin e s ef r a m e n e t ) 工程简介 汉语框架语义知识库( c 踟【8 1 是一个以f i l l m o r e 的框架语义学【9 , 1 0 为理论基础、以加 州大学伯克利分校的f r 锄e n e t 【1 1 】为参照;以汉语真实语料为依据的供计算机使用的汉 语词汇语义知识库,研究内容涉及语义知识库内容的编写;辅助软件的开发和应用研究 扫莹 守o 2 0 0 6 年1 0 月1 1 日,国内有关专家对有限汉语框架语义知识库构建技术研究课题进 行了科技成果鉴定。与会专家认为,该课题运用框架语义分析方法构建汉语框架语义知 识库,开创性地研制了汉语框架、框架元素体系以及句子标注体系。在信息处理用汉语 框架语义研究领域中达到了国际领先水平。 山西大学与太原国家高新共同成立的语义w e b 研发小组目前就有限范围的词语所 取得的阶段性成果,为扩展领域的c f n 构建提供了成熟的技术和样本。与此同时,课 题组还研究用语义w e b 标记语言表示该语义知识库的各种资源,以期为语义w e b 等的 应用提供一部计算机可读、可理解的语义词典,为实现语义w e b 中的语义知识共享以 及智能化、个性化的w e b 服务提供基础资源。 目前,c f n 课题组已就汉语1 7 6 0 个词元构建了1 3 0 个框架,涉及动词词元1 4 2 8 个、形容词词元1 4 0 个、事件名词( 即有配价的名词) 词元1 9 2 个,标注了8 2 0 0 条句子; 涉及认知领域用词、科普文章常用谓词以及部分中国法律用词。框架库以框架为单位, 对词语进行分类描述,明确给出框架的定义和这些词语共有的语义角色( 框架元素) ,并 进而描述该框架和其他框架之间的概念关系;句子库记录带有框架语义标注信息的句 子,即按照框架库所提供的框架和框架元素类型,标注句子的框架语义信息和句法信息, 它可以作为训练数据供计算机处理语言使用;词元库记录词元的语义搭配模式和框架元 素的句法实现方式,它们是从句子库提供的标注结果中自动生成的。 c f n 数据库由框架库、句子库和词元库三部分组成。框架库以框架为单位,对词语 进行分类描述,明确给出框架的定义和这些词语共有的语义角色( 框架元素) ,并进而描 述该框架和其他框架之间的概念关系;句子库记录带有框架语义标注信息的句子,即按 照框架库所提供的框架和框架元素类型,标注句子的框架语义信息和句法信息,它可以 作为训练数据供计算机处理语言使用;词元库记录词元的语义搭配模式和框架元素的句 法实现方式,它们是从句子库提供的标注结果中自动生成的。本文即对这三个子库的语 义描述体系分别加以说明。汉语框架语义知识库( c f n o 是用框架语义学理论构建语义词 】o 太原理工大学硕士研究生学位论文 典:首先是看哪些词语的概念相近、所带语义角色相同,将其归入一类( 即一个框架) , 明确给出框架的定义和这些词语共有的语义角色( 框架元素) ;然后,描述该框架和其 他框架之间的概念关系( 如继承关系、部分和整体关系等) ;再为每一个词语搜集一批 例句,标记出句子中表示框架元素的语言成分;然后,从标注例句中,总结出每个词语 的框架元素的句法实现方式。 1 2 1 2 3c f n 框架 c f n 框架( f r a m e ) 是跟一些激活性语境( m o t i v a t i n gc o n t e x t ) 相一致的一个结构化的 范畴系统,是储存在人类认知经验中的图式化情境;框架中的各种参与者称为框架元素 ( f r a m ee l e m e n t s c ) ,它们在使用中与“语义角色 、“格角色 等概念相当。框架语义 学认为,框架是词语理解的背景和动因。因此,可以根据背景框架的不同,对词语( 主 要是动词、形容词和事件名词) 进行分类描述。传统的格语法的“格角色 是相对于所 有词汇而言的,而框架元素仅适用于具有共同背景框架的一小组词语,摆脱了格语法难 以确定的问题,具有个性特征的框架元素更适合用来描述自然语言语义j 例如讲述、介 绍、阐述等汉语词语有共同的意义基础都表示说话者用语言向听话者传达信息的行 为。因此,汉语框架语义网络( c 烈) 的框架库中用一个框架“陈述( s t a t e m e n t ) 进行 描述,该框架涉及的框架元素包括( 括号中的字母是标记符号) :媒介( m e d i u m ) 、信息 ( m s g ) 、说话者( s p k r ) 、听话者( a d d ) 、致因( c a u s e ) 、程度( d e g r ) 、修饰( m a n r ) 、 时间( t i m e ) 、形容( d e p i c ) 等等。 框架元素分为核心框架元素和非核心框架元素。核心框架元素是一个框架在概念理 解上的必有成分,它们在不同的框架中类型和数量不同,显示出框架的个性,以上所列 举的框架元素都属于“陈述”框架的核心框架元素。非核心框架元素并不显示框架的个 性,表达时间、空间、环境条件、原因、目的等外围语义成分。 框架库中每个框架都按照以下四方面进行描述:( 1 ) 框架的定义;( 2 ) 框架元素的基 本定义以及部分框架元素的示例;( 3 ) 该框架所涉及的词元;( 4 ) 框架和框架之间的抽象 关系。例如陈述、介绍、阐述、讲述等都有共同的意义基础都表示说话者用语言向 听话者传达信息的行为,归为一个框架进行描述,表2 1 简略地展示了该框架的内容。 太原理工大学硕士研究生学位论文 表2 - 1c f n 框架样例 t a b l e 2 - 1c f nf r a m ee x a m p l e 框架名( f r a m e ) 陈述 框架定义( d e f i n i t i o n ) 该框架表示说话者用语言向听话者传达信息的行为 核心框架元素 媒介m e d i u m m e d i u m 】 媒介是说话者用来传达信息的物理实体或渠道。 ( c o r ef r a m e 信息m e s s a g e m s g 说明说话者向听话者传达的内容,通常用小旬或 e l e m e n t s ) 名词短语的形式表现。 说话者s p e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论