(计算机应用技术专业论文)基于internet的信息抽取技术研究.pdf_第1页
(计算机应用技术专业论文)基于internet的信息抽取技术研究.pdf_第2页
(计算机应用技术专业论文)基于internet的信息抽取技术研究.pdf_第3页
(计算机应用技术专业论文)基于internet的信息抽取技术研究.pdf_第4页
(计算机应用技术专业论文)基于internet的信息抽取技术研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 随着i n t e m e t 上信息的迅猛增长,网络已成为最为重要的知识库,人们对高效率的 信息获取技术的需求越来越迫切。因此,应用信息抽取技术,从网页中自动地抽取有用 信息是的智能信息处理的一个重要研究课题。信息抽取系统从i n t e m e t 上抽取的信息不 仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广 阔的应用前景。目前,信息抽取技术的研究已成为国际上自然语言处理领域的研究热点 之一。 , 本文首先介绍了信息抽取技术的发展历程、关键技术、困难问题和评价标准,回顾 了信息抽取技术研究的进展,对几种典型的w e b 信息抽取技术进行了综合比较。 本文提出一种改进的w r a p p e r 归纳方法,半自动地生成w r a p p e r 程序,提供一个很 友好的可视化的交互式用户界面,让用户以可视化、交互式的方式对样本页面中的信息 迸行标记,用户既不需要手工地转换h t m l 文档,也不需要更多相关语言学知识,只 需要直接在浏览器显示的样本页面中对文本做出标记。系统通过学习用户标记的信息 集,实现包装器的自动生成,对同类网页进行信息抽取。 考虑到中文处理的特点和信息抽取的目标要求,本文利用基于最大熵模型的中文组 块分析方法,对文本进行浅层句法分析。文中明确了中文组块的定义,列出了模型中所 有的组块类型及组块标注符号,然后讨论了模型中组块的划分识别及特征选取,给出了 相关的特征选择过程和算法。本文引入基于聚类的模式生成方法自动生成抽取模式,采 用模式匹配的方法,实现中文自由文本信息的自动抽取。本文利用数据库与x m l 相结 合的方式组织信息库,实现信息的w e b 表示。 在此基础上,本文设计并实现了一个基于i n t e m e t 的军事演习信息抽取系统,并就 信息获取、信息抽取、信息库组织及用户查询进行详细介绍,最后给出了实验结果和系 统分析。 关键词:i n t e m e t 信息处理;信息抽取;最大熵模型;模式匹配 基于i n t e r n e t 的信息抽取技术研究 r e s e a r c ho fi n t e r n e t - b a s e di n f o r m a t i o ne x t r a c t i o n t e c h n o l o g y a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e t , t h ei _ n t e m e th a sb e c o m eo n eo ft h em o s ti m p o r t a n t k n o w l e d g er e p o s i t o r i e s i ti sh i g h l yd e s i r a b l et oa c h i e v ee f f i c i e n ti n f o r m a t i o ne x t r a c t i o n i th a s b e c o m ea i li m p o r t a n tr e s e a r c hi s s u eo fh o wt oo f f e re f f i c i e n ti n f o r m a t i o na u t o m a t i c a l l yf r o m i n t e m e tt ot h eu s e r s t h ei n f o r m a t i o ne x t r a c t e db y i e ( i n f o r m a t i o ne x t r a c t i o n ) s y s t e m sn o to n l y c a l lp r o v i d ef o rt h ee n d u s e r ,b u ta l s oi st h ef i r s ts t e pt ob u i l da ni n t e l l i g e n tq u e r ys y s t e ma n d a d a t am i n i n gs y s t e m t h ei es y s t e mh a san i c ep r o s p e c t ,a n dt h er e s e a r c ho ni et e c h n i q u e b e c o m e st h ef o c u so f n a t u r a l l a n g u a g ep r o c e s s i n gi n t e r n a t i o n a l l y t h i sp a p e rp r e s e m st h eh i s t o r y ,k e yt e c h n o l o g i e s ,d i f f i c u l t i e sa n de v a l u a t i o ns t a n d a r d so f i n f o r m a t i o ne x t r a c t i o n ,r e n e w st h es t a t eo f i n t e m e ti n f o r m a t i o ne x t r a c t i o n ,a n dc o m p a r e sk i n d s o f f o r e g o n ei n t e m e t i n f o r m a t i o n e x t r a c t i o n t e c h n o l o g ys y n t h e t i c a l l y an e w t e c h n i q u ef o rs u p e r v i s e dw r a p p e rg e n e r a t i o ni sp r o p o s e d i nt h i sp a p e r i ta s s i s t st h e u s e rt os e m i - a u t o m a t i c a l l yc r e a t ew r a p p e r p r o g r a m sb yp r o v i d i n g af u l l yv i s u a la n di n t e r a c t i v e u s e ri n t e r f a c e n e i t h e rm a n u a lf i n e - t u n i n gn o rk n o w l e d g eo f t h ei n t e m a ll a n g u a g ei sn e c e s s a r y i nt h i sc o n v e n i e n tu s e r - i n t e r f a c ev e r ye x p r e s s i v ee x 订a c f i o np r o g r a m sc a l lb ec r e a t e d t h eu s e r c a l lw o r kd i r e c t l ya n ds o l e l yo nb r o w s e r - d i s p l a y e de x a m p l ep a g e s w i 也t h i ss y s t e m v e r y e x p r e s s i v e l yv i s u a lw r a p p e rg e n e r a t i o ni sp o s s i b l e :i ta l l o w st oe x l r a c tt a r g e tp a t t e r n sb a s e do n s u r r o u n d i n gl a n d m a r k s ,o nt h ec o n t e n t si t s e l f , o nh t m la t l a i b u t e s ,o nt h eo r d e ro fa p p e a r a n c e a n do ns e m a n t i ca n ds y n t a c t i cc o n c e p t s u s i n gm a x i m u me n t r o p y ( m e ) m o d e lt oc o n d u c tc h i n e s ec h u n kp a r s i n gi sp r o p o s e di n t h i sp a p e r f i r s t l yi td e f i n e sc h i n e s ec h u n k sa n dl i s t sa l lc h u n k c a t e g o r i e sa n dt a g su s e d i nt h e m o d e l t h e n ,i td i s c u s s e sh o w t os e l e c tu s e f u lf e a t u r e s a tl a s t ,i ti n t r o d u c e st h ep r o c e d u r ea n d a l g o r i t h m so f f e a t u r es e l e c t i o n t h i sp a p e ru s e sas e to fe x t r a c t i o np a t t e r n st ol o c a t es p e c i f i c i n f o r m a t i o na n dr e l a t i o n sa m o n gd i f f e r e n ti n f o r m a t i o ni t e m sa u t o m a t i c a l l y i tc o m b i n e st h e x m l t e c h n i q u e 、析md a t a b a s et e c h n i q u et oc o n s t r u c tt h ei n f o r m a t i o nd a t a b a s e w h i c hf l l r t h e r i m p r o v e s t h ep e r f o r m a n c eo f t h e s y s t e m i ta l s og i v e sd e t a i l e di n t r o d u c t i o n sa n dd e s c r i p t i o n so n w e bi n f o r m a t i o n e x p r e s s i o n b a s e do nt h e o r e t i c a la n a l y s i s ,t h ep a p e rd e s i g n sa n di m p l e m e n t st h ep r a c t i c a ls y s t e mo f s b i e s ( t h es h a m b a t t l ei n f o r m a t i o ne x t r a c t i o ns y s t e m ) i ta l s og i v e sd e t a i l e di n g o d u c f i o no n t h es y s t e m a tl a s ti tt e s t st h em o d e l ,a n dg i v e se x p e r i m e n t a lr e s u l t s k e yw o r d s :i n t e r n e ti n f o r m a t i o np r o c e s s i n g ;i n f o r m a t i o ne x t r a c t i o n ;m a x i m u m e n t r o p yp r i n c i p l e ;p a t t e r nm a t c h i n g 一 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或其他单位的学位或证书所使用过的材料。与我一同工作 的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名:查丛垫日期:兰竺三翌 大连理工大学硕士学位论文 在当今信息社会,随着计算机的普及以及i n t e r a c t 的迅猛发展,互联网成为人们取 之不尽、用之不竭的多语种和多媒体信息源,同时也带来了信息爆炸的严重挑战。二方 面,人们不能对巨大的信息资源予以合理高效的运用,另一方面人们从浩瀚的信息海洋 中搜寻感兴趣的内容时,而得到的是大量含金量很低的文档,却耗费了大量时间和精 力。所以,人们迫切需要自动化的工具以便在海量信息源中迅速找到真正需要的信息, 不仅需要信息的自动获取技术,而且还要求信息是经过分析处理的、高质量的、便于查 询的。 信息检索c t n f o r m a t i o nr e t r i e v a l ) 不能很好的解决这个问题,它通常是根据用户所提供 的关键字进行查找,将可能存在要查找信息的网页提供给用户,至于其中是不只含有用 户所需信息,要用户通过阅读这些网页才能知道,所以信息检索在查询信息的准确性以 及数据粒度上远远不能达到用户的最终需求。 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,i e ) 技术正是一种能解决上述问题的新型技术。 信息抽取是指从一段文本中抽取指定的一类信息( 例如事件、事实) 、并将其( 形成结 构化的数据) 填入一个数据库中供用户查询使用的过程。一个典型的信息抽取系统可以 被看作输入内容不可预知的文本,输入有固定格式且意义明确的数据的系统。 信息抽取系统不仅能帮助人们方便地找到所需信息,而且信息内容经过合理的分析 和组织,人们可以高效地获取感兴趣的信息,并可在此基础上进一步完成数据挖掘、机 器翻译和文本生成等后续信息处理,这在信息量迅速增长的今天无疑是件极有意义的 工作。 本文研究的核心内容是中文信息抽取技术,包括它的模型结构和关键算法,并在些 基础上实现了一个原型系统军事演习信息抽取系统,该课题是国家自然科学基金项 目( 项目号:6 0 3 7 3 0 9 5 ) “可视化文本挖掘模型及其应用”的重要组成部分。 ( 1 ) 课题的主要研究内容 本文着重研究了w e b 内容抽取的理论和算法,中文信息抽取技术。信息抽取结果 的结构化存储及查询分析,具体研究内容包括:一种改进的w r a p p e r 归纳生成的机器学 习算法:基于最大熵模型的组块分析方法:抽取模式的自动生成;以数据库与几相 结合的方式组织信息库,并实现抽取结果的w 曲表示;设计并实现一个i n t e m e t 上的信 息抽取原型系统军事演习信息抽取系统。 ( 2 ) 论文的组织 基于i n t e m e t 的信息抽取技术研究 正文共分为五章。 第一章主要介绍信息抽取的背景和研究现状,信息抽取的关键技术、信息抽取系统 设计方法及评估指标,并对现有系统进了简要分析。 第二章介绍信息抽取系统的通用体系结构,并对各个模块进行详细阐述和说明。 第三章主要介绍作者在信息抽取上的主要研究工作,包括改进的w r a p p e r 归纳方 法,基于最大熵模型的语句组块分析方法,基于聚类的信息抽取模式生成,以及皿 相关技术。 第四章讨论军事演习信息抽取系统的设计实现工作。首先叙述了系统的组织结构及 模块划分,然后对系统的各模块的功能及具体实现技术进行了详细说明。 第五章总结与展望,对本文所做工作进行总结并就军事演习信息抽取系统的改进研 究提出进一步思考。 2 大连理工大学硕士学位论文 1 绪论 1 1 信息抽取研究的发展历史 信息抽取技术研究最早于2 0 世纪8 0 年代由美国提出,最初的目的是希望从大量关 于海军的信息中自动找到所需的内容,这得益于因特网的出现和美国国防高级研究计划 委员会( t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ,d a r p a ) 资助的m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 会议的推动 1 。m u c 定义的信息抽取任务的各种 规范以及确立的评价体系已经成为信息抽取研究事实上的标准。 从历次m u c 会议,可以清楚地看到信息抽取技术发展的历程【2 。从1 9 8 7 年开始到 1 9 9 8 年,m u c 会议共举行了七届,有许多大学和研究机构参加。1 9 8 7 年5 月举行的首届 m u c 会议基本上是探索性的,没有明确的任务定义,也没有制定评测标准。m u c - 2 开 始有了明确的任务定义,规定了模板以及槽的填充规则,抽取任务被明确为一个模板填 充的过程。m u c 3 开始引入正式的评测标准,其中借用了信息检索领域采用的一些概 念,如召回率和准确率等。从m u c 4 开始,m u c 被纳入t i p s t e r 计划 3 】。t i p s t e r 计 划由美国国防部、d a r p a 及c i a ( c e n t r a li n t e l l i g e n c ea g e n c y ) 共同资助,目的是推动和促 进提高文本处理的技术水平,重点是文档检索( d o c u m e n td e t e c t i o n ) 、信息抽取、自 动文摘( s u m m a r i z a t i o n ) 等技术。m u c 5 于1 9 9 3 年8 月举行,在本次会议上,组织者尝 试采用平均填充错误率( e r r ,e r r o rp e rr e s p o n s ef i l l ) 作为主要评价指标。与以前相 比,m u c 一5 抽取任务的复杂性更大。还有一个重要创新是引入了嵌套的模板结构。 m u c 一6 的评测更为细致,强调系统的可移植性以及对文本的深层理解能力。除了原有的 场景模板( s c e n a r i ot e m p l a t e s ) 填充任务外,又引入三个新的评测任务:命名实体 ( n a m e de n t i t y ) 识别、共指( c o r e f e r e n c e ) 关系确定、模板元素( t e m p l a t ee l e m e n t ) 填充等 4 】。最后一届m u c 会议m u c 7 除m u c 6 已有的四项评测任务外,又增加 了一项新任务书l 板关系任务,它意在确定实体之间与特定领域无关的关系 5 】。 随着i n t e m e t 的发展,几乎所有的网上信息都是以结构化( s t r u c t u r e d ) 、半结构化 ( s e m i s t r u c t u r e d ) 文本的形式呈现给用户,由于处理的文本格式的特点不同,所以信息 抽取领域分为了两个研究方向: ( i ) 基于n l p 的信息抽取系统,其处理的对象是自由文本,这样的系统利用自然 语言处理技术,例如语法分析和语义分析来构造抽取规则。一个典型的基于n l p 的信息 抽取系统的过程如图1 1 所示。 3 - 基于i n t e m e t 的信息抽取技术研究 图1 1 基于n l p 的信息抽取过程 f i g 1 1i n f o r m a t i o n e x t r a c t i o np r o c e s sb a s e do nn l p ( 2 ) 基于i n t e m e t 的信息抽取系统。这样的系统处理的对象是来n i n t e m e t 的结构化 与半结构化的文本,一般都不借助自然语言处理技术,而是利用网页描述中使用的标识 符以及文本自身的文字特点来定义抽取规则。一个典型的基于i n t e m e t 的信息抽取系统的 过程如图1 2 所示。 图1 2 基于i n t e r n e t 的信息抽取过程 f i g 1 2i n f o r m a t i o ne x t r a c t i o np r o c e s sb a s e d o ni n t e r n e t 近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重于以下几方 面:利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多 d 大连理工大学硕士学位论文 语言文本处理能力、w e b 信息抽取以及对时间信息的处理等等。在应用方面,信息抽 取应用的领域更加广泛,除自成系统以外,还往往与其他文档处理技术结合建立功能强 大的信息服务系统。 】2 信息抽取技术与其他相关技术的区别 1 2 1 信息抽取与信息检索的区别 信息抽取与信息检索( i n f o r m a t i o nr e t r i e v a l ) 存在差异,主要表现在三个方面: ( 1 ) 功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档 列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。 ( 2 ) 处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词 的集合( b a g so f w o r d s ) ,不需要对文本进行深入分析理解;而信息抽取往往要借助自 然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。 ( 3 ) 适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信 息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。 1 2 2 信息抽取与自动文摘的区别 信息抽取与自动摘要( a u t o m a t i ca b s t r a c t i o n ) 也有实质的差别,信息抽取是对一个 预先定义好的信息模板进行填充,是一种高度受限的信息处理过程;而自动文摘则没有 预先选定目标的特性,需要对多种多样的内容进行分析和处理。信息抽取技术更注重工 程性和可操作性。信息抽取的应用前景更好:自动文摘产生的文摘往往质量较低,而且 容易产生不全面、不连贯和冗余多等问题;而信息抽取则针对有价值的相关领域的文本 进行结构分析,其效率和质量显著较高,也更容易面向实际应用。 1 2 3 信息抽取与文本挖掘的区别 信息抽取与文本挖掘( t e x tm i n i n g ) 的区别不是很明显,信息抽取是从文本中抽取 已有的信息,而文本挖掘是从文本集中发现新的知识和模式。 1 3 信息抽取的关键技术 1 3 1 命名实体识别 命名实体是文本中基本的信息元素,是正确理解文本的基础。狭义地讲,命名实体 是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯的标 志符( 专有名称) 表示,如人名、组织名、公司名、地名等。广义地讲,命名实体还可 以包含时间、数量表达式等。命名实体识别就是要判断一个文本串是否代表一个命名实 - 5 - 基于i n t e m e t 的信息抽取技术研究 体,并确定它的类别。在信息抽取研究中,命名实体识别是目前最有实用价值的一项技 术。命名实体识别的方法主要有基于规则的方法和基于统计的方法。 1 3 2 句法分析 通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合,是计 算机理解自然语言的基础。在信息抽取领域一个比较明显的趋势是越来越多的系统采用 部分分析技术,完全分析技术的鲁棒性以及时空开销都难以满足信息抽取系统的需要。 但部分分析技术只能使信息抽取系统的处理能力达到目前的水平( f - 指数小于6 0 ) , 要想使其性能有大的飞跃,必须探索更有效的分析技术。 1 3 3 篇章分析与推理 为了准确而没有遗漏地从文本中抽取相关信息,信息抽取系统必须能够识别文本中 的共指现象,进行必要的推理,以合并描述同一事件或实体的信息片段。信息抽取系统 还需要解决文本间的( 跨文本的) 共指问题,为了避免信息的重复、冲突,信息抽取系 统需要有识别、处理这些现象的能力。因此,篇章分析、推理能力对信息抽取系统来说 是必不可少的。 1 3 4 知识获取 知识获取问题已经成为制约信息抽取技术广泛应用的一个主要障碍。它除了影响系 统的可移植性外,也是影响系统性能的主要因素。领域知识获取可以采用的策略通常有 两种:手工十辅助工具( 图形用户接口) ;自动半自动+ 人工校对。前者相对简单一 些,人工工作仍然是主体,只是为移植者提供了一些图形化的辅助工具,以方便和加快 领域知识获取过程。后者采用有指导的、无指导的或间接指导的机器学习技术从文本语 料中自动或半自动获取领域知识,人工干预程度较低。 1 4 信息抽取系统设计方法 i e 系统设计主要有两大方法【7 :一是知识工程方法( k n o w l e d g ee n g i n e e r i n g a p p r o a c h ) ,二是自动训练方法( a u t o m a t i ct r a i n i n ga p p r o a c h ) 。 知识工程方法主要靠手工编制规则使系统能处理特定知识领域的信息抽取问题。这 种方法要求编制规则的知识工程师对该知识领域有深入的了解。这样的人才有时找不 到,且开发的过程可能非常耗时费力。自动训练方法不一定需要如此专业的知识工程 师。系统主要通过学习已经标记好的语料库获取规则。任何对该知识领域比较熟悉的人 都可以根据事先约定的规范标记语料库。经训练后的系统能处理没有见过的新文本。这 种方法要比知识工程方法快,但需要足够数量的训练数据,才能保证其处理质量。 - 6 - 大连理工大学硕士学位论文 1 5 信息抽取系统的评价指标 信息抽取技术的评测一般采用召回率a b c a l l ) 和抽准率( p r e c i s i o n ) 6 7 。召回率是信 息抽取结果中正确对象数目与抽取结果应抽取的正确对象总数的比例,反映了信息抽取 系统的完备性;抽准率是信息抽取结果中正确的对象数据占实际抽取的对象数据的百分 比,它反应的是信息抽取系统的准确性,计算公式如下: p = n : nr 吨1 r = n 。n ( 1 2 ) 其中:p 是抽准率,r 是召回率,表示实际抽取的对象总数,表示抽取结果 应抽取的对象总数,表示抽取结果正确的对象数目。p 和r 的取值在0 和1 之间,通 常存在反比的关系,即尸增大会导致r 减小,反之亦然。 评价一个系统时,应同时考虑尸和月,但同时要比较两个数值,毕竟不能做到一目 了然。许多人提出合并两个值的办法。其中包括f 值评价方法: f ;( f l 。+ 1 ) 一p r ( 1 3 ) 8 p + r 其中口是一个预先设置的值,决定x c p 侧重还是对r 侧重,通常设定为1 ,这样召 回率和抽准率的权重相同,用f 一个数值就可以看出系统的好坏。若声 1 ,抽准率的权 重较大,若 a n i s e e d 1 0 0 0 需抽取的内容由下划线标出,则页面p 对应一个包h t l r 包装器: w 抽取该页面p 的过程为: e x e c h l r t ( , 页p ) 3 1 2 2v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论