毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计.docx_第1页
毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计.docx_第2页
毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计.docx_第3页
毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计.docx_第4页
毕业论文-数字图书馆中基于机器学习的信息抽取及跨库检索系统设计.docx_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学硕士论文 摘要摘 要2ABSTRACT4第一章 绪论51.1 数字图书馆中跨库查询系统概述51.2 信息抽取和关键词提取的研究背景81.2.1 信息抽取的研究背景81.2.2 关键词提取的研究背景81.3 网页信息抽取的研究现状81.4 关键词提取的国内外研究现状111.5 本文的主要工作131.5.1基于学习的信息抽取技术131.5.2 文章摘要中关键词的提取131.6 本论文的组织结构13第二章 信息抽取的相关技术和标准152.1 信息抽取系统体系结构152.2 信息抽取中的一些关键技术152.2.1 命名实体识别152.2.2 句法分析172.2.3 篇章分析与推理172.2.4 知识获取182.3 HTML(Hyper Text Markup Language)182.4 XML192.4.1 XML的产生192.4.2 XML语法202.4.3 元素(Element)与标记(Tag)212.4.4 属性(Attribute)212.4.5 XML模式222.5 DOM (Document Object Model)222.6 XPath242.7 决策树算法262.7.1 决策树定义262.7.2 决策树算法26第三章 网页信息抽取平台的设计与实现283.1 半结构化数据283.1.1 半结构化数据出现的原因283.1.2 半结构化数据的特点283.1.3 现有的半结构化Web页面分类293.2 网页信息抽取难点293.3 网页信息抽取平台的目标313.4 抽取模板313.4.1 抽取模板的作用313.4.2 模板在信息抽取流程中的位置313.4.3 基于路径学习的模板构造方法323.5 利用模板抽取信息343.6 模板抽取的实验结果353.7 同时应用“网页结构和内容”进行信息抽取技术和实验结果363.7.1 信息抽取的目标网上问答对信息的抽取背景363.7.2 信息抽取模型373.7.3 利用一阶马尔可夫链修正结果的方法383.7.4 实验结果40第四章 关键词抽取平台的设计与实现424.1 关键词的概念424.1.1 关键词的定义424.1.2 关键词的定义424.2 关键词抽取需要解决的问题434.3 关键词抽取模型454.3.1 候选词的选择454.3.2特征的提取464.3.3 机器学习方法决策树C4.5474.3.4关键词的抽取474.4.模型的实验结果474.4.1 数据集474.4.2 评判标准474.4.3 实验结果48第五章 跨库检索系统495.1 设计目标495.2 设计原理495.3 脱机跨库检索与联机跨库检索的比较505.3.1 联机跨库检索的流程505.3.2 脱机跨库检索与联机跨库检索的比较50第六章 总结与展望526.1 总结526.2 本文主要创新之处536.3 未来工作536.3.1 信息抽取方面536.3.2 脱机跨库检索系统54参考文献55致谢61攻读硕士学位期间发表论文与参加项目62 摘 要随着Internet的迅猛发展,人们对高效率的信息获取技术的需要越来越迫切,对海量信息进行采集、分析、整理,得到高质量的分门别类的结构化信息,方便用户快捷地浏览查询,是极具现实意义的重大课题。为适应广大师生教学和研究的需要,中科大图书馆先后购买了90多种网络数据库,涉及的门类非常齐全,为我校建设一流研究型大学打下了坚实的基础。由于各个数据库的查询界面以及查询结果的返回界面各异;各个数据库中信息不能统一起来为用户提供更深入的服务,我们设计了脱机的跨库检索系统来解决以上问题。脱机检索系统的最终目的是建立一个脱机的跨库检索系统,实现查询界面和结果界面的统一化,同时深入挖掘文章的信息,为用户提供更深入的服务。本文所研究的就是该跨库检索系统中最重要的两个关键点:文章信息抽取和关键词提取技术。针对图书馆各网络数据库文章信息的显示结果都是同构的网页这一特征。本文提出了一种基于学习的模板构造方法,这种基于学习的模板构造方法只需要人工标注两个网页即可生成模板,节省了构造者的时间并且构造出的模板非常准确。同时本文还提出了一种把网页结构信息和网页内容结合起来来实现互联网上问答对信息抽取的方法。为了解决有的文章在网络数据库中并没有给出我们关键词这个问题。本文提出了一种在文章的摘要中抽取关键词的方法。关键词:信息抽取 关键词抽取 跨库检索系统 DOM树14中国科学技术大学硕士论文 Abstract ABSTRACTWith the rapid development of Internet, the need of high efficient information-capture techniques has become more and more impendency. It is a very meaningful problem to gain、analyse or settle information of huge capacity to generate high quality structural information in classified.In order to meet the needs of teach and research, USTC library has purchased over 90 network databases involved almost every aspect, which lay solid foundations for building top-ranking academic university. As the diversity of query-interface of each database and returning-interface of each query result, we cant uniform the information of each database to supply more in-depth services, so the offline multi-database retrieval system was designed to solve such problems.Offline retrieval system is aiming at building an offline multi-database retrieval system which implementing unification of query-interface and result-interface, and at the same time deeply digging information of papers to supply more in-depth services to users. The two key points: paper information extracting and keywords extracting techniques are just what this paper is researching on.This paper proposes a learning method of constructing template, which only need to manually label two web pages to generate template. Therefore, it has the merit of timesaving and high precision. At the same time, this paper also proposes a method of extracting question-answer pairs through combining web page information and content.In order to solve the problem of lack of keywords in some papers, this paper proposes a method to extract keywords in paper abstract.Keyword information retrieval, Key-Phrase extraction, multi-database retrieval system, DOM tree中国科学技术大学硕士论文 第一章 绪论第一章 绪论1.1 数字图书馆中跨库查询系统概述目前科大图书馆已购买使用或者试用的网络数据库有将近90个。这些网络数据库相互独立,并集成于不同的网站,它们具有自己独立的访问网址和网络用户接口,通过国际专线或者国内镜像站点的IP地址进行访问。读者通过网络进行访问时,从网络用户接口填写接口界面表单并提交请求数据,到达网站相应的应用程序,从而访问网站后台的数据库,获取所需要查找的内容,图书馆对这些不同的网络数据库的使用,是将它罗列成页面上的一个链接,点击后分别进入不同的网络数据库检索主页,新的网络数据库的添加也仅仅是在网页上增加一个链接如图1-1所示。导致读者访问这些网络数据库时,没有统一的数据库界面访问标准。 图1-1 中科大图书馆网络数据库链接页面这些网络数据库网址各不相同,呈现的检索表单接口也不一致,像图书馆引进的IEEE/IEE数据库,该数据库提供1988年以来的美国电气电子工程师学会和英国电气工程师学会出版的120多种期刊、600多种会议录,近900种标准的全文信息。它的检索界面如1-2所示。像ACM(美国计算机协会),广泛地收录多种ACM电子出版物,包括了15 年的期刊及杂志、ACM 9年的会议记录以及超过25万页的全文资料。图1-3是ACM数据库的检索界面。这些网络数据库,除了检索界面各不相同,检索返回结果的内容以及格式也是相互独立的。当检索”Information Retrieval”一词时,图1-4是IEEE检索数据库返回的结果页面,而图1-5是ACM检索数据库返回的结果页面。 图1-2 IEEE检索界面 图1-3 ACM检索界面 图1-4 IEEE检索结果 图1-5 ACM检索结果综上所述,网络上各个异构的检索数据库都带有自己独立检索逻辑的检索界面以及不同内容和不同格式的返回结果的输出界面。跨库检索系统目的就是将这些各异的网罗检索数据库集成在一起,通过一个统一的检索界面进入,返回一个统一格式但内容各异的结果列表。本论文研究的就是跨库检索系统中信息抽取和关键词提取的技术。1.2 信息抽取和关键词提取的研究背景1.2.1 信息抽取的研究背景随着 Internet的迅猛发展与广泛应用,万维网(WWW)已经成为人们数据资源共享和信息交流的重要平台。人们通过万维网发布信息,同时能够从网上得到想要的信息。由于目前Web数据大都以HTML形式出现,缺乏对数据本身的描述,不含清晰的语义信息,模式也不明确,结构上也不良好,使得应用程序无法直接解析并利用Web上的海量信息,为了增强Web数据的可用性,出现了Web信息抽取技术,它通过包装现有Web信息源,将网页上的信息以更为结构化的方式抽取出来,为应用程序利用Web中的数据提供了可能。现有的Web的信息抽取技术不但可以直接定位到用户所需的信息,而且采用一定的方式增加了语义和模式信息,为Web查询提供了更为精确的方法,使Web信息的再利用成为可能,因此有着明显的优势和广阔的前景,是当今多个领域的研究热点。1.2.2 关键词提取的研究背景随着互联网的迅速发展,越来越多的电子文档出现在互联网中。人们面对众多的文档,如何在很短的时间内知道文档的大概内容,成为了一个极为重要的研究课题。关键词可以为文档提供一个简短的概括,使读者能够在短时间内了解文档的大概内容;关键词还是信息检索系统中对文档进行索引、聚类等操作的基础。不幸的是,大多数文档并没有提供相应的关键词,因此关键词提取技术的研究成为了目前研究的热点。1.3 网页信息抽取的研究现状 学者们通常利用网页信息的结构特征,使用包装器(Wrapper)实现网页信息抽取,并以此为基础实现对网页信息的管理Florescu et al., 1998; Kosala et al., 2000。包装器由一系列抽取规则及应用这些规则的程序组成,用于从特定的信巳源中抽取相关内容Eikvil,1999.通常一个包装器只能处理一种特定的信息源。如果从几个不同的信息源中抽取信息,需要一系列包装器程序库。包装器的生成方法分为三类:人工方法、半自动方法和自动动方法。其中,人工生成包装器的方法指为一种特定的信息源编写专用的代码。这种方法需要花费很多时间理解信息源的结构井将其转换成代码,比较繁琐并且容易出错。半自动方法指利用工具半自动地生成包装器Baueret al. ,2000;Sahuguet et al .,1998;黄豫清等,2000;李效东,2002;朱明等, 2001。例如使用向导让用户标记出需要抽取的信息,再根据标记的信息人工编写包装器图1-6Sahuguet et al., 1998。该类方法在包装器编码时不需要专业知识,与人工方法相比可以减少错误,但是也需要对新的站点进行重新学习。全自动的包装器生成方法Kushmerick et al .,1997; Kushmerick, 2000; Kushmerick et al., 2003; Brin, 1998; Crescenzi et al., 2001;郭志红,2002利用机器学习技术自动从信息源中利用归纳学习生成抽取规则,用户仅需在网页中标记出需要抽取的数据,系统就可以在这些学习实例的基础上自动生成包装器(图1-7)Kushmerick et al., 1997。因此,全自动包装器生成方法已成为网页信息抽取的研究重点。在全自动包装器生成方法中,基于包装器归纳(WrapperIn duction)的信息抽取方法使用范围最广。该方法由Kustunerick提出Kushmerick et al., 1997; Kushmerick, 2000.Kushmerick设计了6类包装器(Wrapper),这些包装器由一组标记组成,用以判断目标信息的首尾边界。其中最基本的类型为Left-Right (LR)包装器。 图1-6 The W4F toolkit图1-7 基于包装器归纳的信息抽取流程 一个LR包装器由2K个分隔符(,)组成,其中一组分隔符表示一类目标信息的边界Kusumericket al .,2003.图1-3是一个典型的目标网页(a)及其其抽取信息(c) Kuslunerick et al., 2003。针对该网页的LR包装器 根据这个LR包装器,目标信息可通过图1-8(d)所示的算法抽取出来。在LR包装器的基础上,Kuslunerick又设计了其余5类包装器(Kuslunericke tal .,2003),分别为:. Head-Left-Right-Tail(HLRT)包装器:用于忽略位于网页首尾的不确定信息;. Open-Close-Left-Right (OCLR)包装器:用于确定具体的抽取范围,并在该范围内利用LR包装器进行信息抽取;. Head-Open-Close-Left-Right-Tail (HOCLRT)包装器:综合了HLRT包装器和OCLR包装器的功能;. Nested-Left-Right (NLR)包装器用来抽取网页中的嵌套信息,例如书目信息等;. Nested-Head-Left-Right-Tail (NHLRT)包装器:综合了NLR包装器和HLRT包装器的功能。实验证明,上述包装器可以以较高的效率,利用网页信息的重复结构,从真实网页中自动学习得到Kushmerick et al .,2003,井且,上述包装器可以针对70%的网站实现信息抽取。但是,由于Kushmerick提出的包装器归纳方法以规范化、规律化的网页作为信息抽取的目标,因此在实际应用中还存在着一些不足,例如无法抽取多取值信息和无法针对自然语言文本抽取信息等Kushmerick et al .,2003. 图1-8 一个典型网页及其LR包装器和信息抽取算法(a) 网页 (b)源文件 (c)目标信息 (d)该网页LR包装器的抽取算法;(e)针对所有LR包装器的抽取算法针对上述问题,C.Hsu等人Hsu et al.1998利用有限状态传感机(finite-statetransducers)实现包装器归纳,使用两组状态分别确定每类信息的开始边界及结束边界。实验结果表明,在Kuslimerick的包装器无法处理的网站中,C.Hsu等人的包装器可以成功地处理30% Kushmerick et al., 2003. I.Muslea等人Muslea, 1998; Muslea et al., 1998(a)Muslea et al., 1998(b); Muslea et al., 1999 使用一组分隔符判断目标信息位置,以利用信息之间的顺序关系提高信息抽取的准确率,还使用“嵌入式目录(embedded catalog)”实现嵌套信息抽取。此外,D.Freitag与N.Kuslmierick合作提出了“Boosted wrapper induction Freitag et al.,2000(b),以实现针对自然语言文本的信息抽取。该方法在LR包装器的基础上定义抽取模式,并在抽取模式中利用通配符代替具体文本。然后,通过boosting方法,将一组具有高准确率和低召回率的抽取模式相结合,来实现自然语言文本的信息抽取。S.Soderland Soderland,1997; Soderland, 1999 则使用有限状态自动机生成包装器,用于抽取目标信息或者判断目标信息边界。基于包装器归纳的信息抽取方法利用网页的重复结构自动归纳学习抽取规则,具有抽取效率高和可移植性较好等优点。然而,该方法仅利用网页的局部规律归纳学习抽取规则,难以考虑网页的全局信息,因此当网页中存在局部特征相似的多类信息时,会出现冗余信息抽取问题,导致该方法针对信息类型的适应能力降低。1.4 关键词提取的国内外研究现状关键词是一个很重要的概念,它既可以由一个词语组成(如:learnin)也可以由多个词语组成(如:machine learning),关键词简单的说就是能够反映文档主要内容的词组。获得关键词有两种主要的方法Yaakov HaCohen-Kerner et al, 2005:关键词指定和关键词抽取。两种方法都是利用有监督的机器学习方法从标注的例子中归纳出规则,而这些标注的例子是由人手工标注的关键词。关键词指定方法,关键词是从一连串预先指定的词组中选择出来的(可以认为这些词组组成了一个词典) Dumais et al., 1998。关键词的提取过程如下:首先利用学习方法对标注的例子进行学习,得到对文章进行分类的分类器;然后对于要进行关键词提取的文档利用分类器进行分类;最后在得到文档的类型后,用表征这一类型的关键词表示该文档Leung and Kan, 1997; Dumais et al., 1998。这种方法的优点是简单,同一类型的文档将用相同的关键词表示出来。这种方法的缺点是(1).要得到预先指定的词典代价很大;(2).不能实时保证词典的有效性,使得待提取关键词的文档中某些很重要的词语由于没在词典中出现而被忽略。Gelbukh等实现了一个利用这种方法抽取关键词的系统Gelbukh et al., 1999,利用这个系统,与文档内容相关但不在文档中出现的关键词也可以被提出来。关键词抽取方法,利用这种方法抽取的关键词是待抽取关键词的文档中出现过的。在文档中出现的所有词和词组都有可能是关键词。该方法首先通过有监督的机器学习方法对人工标注的例子进行学习,得出一个词语分类器用以判断每一个词或者词组是否为文档的关键词;然后利用所得的分类器判断待抽取关键词的文档中哪些是关键词Turney, 1999, 2000; Frank et al.,1999; Witten et al., 1999, 2000。这种方法的优点:不需要产生和维护一个比较大的词典,并且产生的关键词在文档中出现过。缺点是:(1).缺少一致性,相似的文档可能用不同的关键词描述;(2).很困难选择最恰当的关键词来描述文档。Turney在文章中指出当文章作者为文章定义关键词时,大约70%80%的关键词是在文章中出现的Turney, 2000。这为利用文章作者指定的关键词做为关键词提取系统的训练例子提供了可能。在关键词提取的过程中,首先用一系列的候选词表示文档;然后对每一个候选词计算它的各个特征值;最后将得到的各候选词的特征值序列输入到关键词提取系统,得出每一个候选词是否为关键词的判断结果。Turney设计了一个关键词抽取系统GenEx Turney, 2000。该系统利用了遗传算法和基本特征相结合(如:词频特征,词语在文章中第一次出现的位置特征等)生成一个参数启发式的抽取模型。这种系统首先是利用遗传算法通过学习标注的例子(同一领域)调整规则的参数,得到抽取模型;然后利用得到的模型对待抽取关键词的文档进行关键词抽取。Turney同时证明了GenEx在跨领域抽取关键词时的效果,即首先通过对标注的同一领域的文章进行学习得到一个抽取模型,然后在对来自不同领域的362篇文章通过抽取模型进行关键词提取,实验结果表明准确率达到了24,并且人的主观性评估认为80GenEx系统抽取的关键词是可以接受的。在这篇文章中Turney通过把GenEx系统与利用C4.5决策树的系统Breiman, 1996在同一个数据集上的结果进行比较,证明了利用GenEx系统的效果比利用C4.5决策树算法系统的效果好很多。Frank等提出了另一个关键词提取系统KEAFrank et al., 1999。在KEA系统中只利用了两个基本的特征:(表明一个词语对整篇文档的重要性)和(词语在文档中第一次出现的位置)。该系统首先通过对标注的例子的学习构造出朴素贝页斯模型;其次对待求关键词的文档中的候选词求和特征值;然后把两个特征值输入到贝页斯模型得到每个候选词是关键词的概率;最后对所有候选词按分值排序,取前几个分值大的候选词作为关键词。实验结果表明当测试文档均为某一相同领域时,该系统抽取的关键词的正确率达到了28,与GenEx系统可以媲美。该系统缺点是主要针对某一领域的文档的关键词提取,对于不同领域的文档效果不强;该系统的优点是学习方法比GenEx方法更简单,快速。KEA算法的一个限制是通过该算法抽出的关键词的相关性不高。例如:在一个文档中利用KEA算法抽取的10个关键词中也许只有8个非常适合用来概括文档内容,其它两个可能就完全脱离了文章主题,即与其它8个词语语义不相关。针对这个限制Turney在文章Turney, 2003中对利用朴素贝页斯学习方法的KEA关键词抽取方法进行了改进,使得抽取出来的关键词之间的相关性大大加强。Turney主要利用统计的方法来获得各个关键词之间的语义相关程度,并在抽取关键词时把该相关程度考虑进去。各个关键词之间的语义相关程度是在网页搜索引擎上计算得到的,因此在增加各关键词相关性的同时也增加了算法的复杂度。实验结果表明这种改进使得抽取的关键词的质量有了很明显的提高,更重要的是通过改进使该算法更不再局限于某一特殊的领域,当用在某一领域的实例训练出的模型应用另外一个领域文档进行关键词抽取测试时,效果也很好。Humphreys在文章中提出了一种专门针对HTML网页进行关键词抽取的方法Humphreys, 2002。该方法首先找出网页中的重要标签和词组,利用标签给文档中的每一个词组确定一个权值;然后利用一种称作RatePhrase的方法对词语进行排序,找出最高的9个词语作为该HTML文档的关键词。实验结果表明这种方法的效果可以与GenEx相媲美。美中不足的是在该文章中没有给出具体的评价结果,如准确率、找回率和FScore等,并且该方法并没有用到机器学习的方法。Hulth提出了一种在杂志文章的摘要中抽取关键词的方法Hulth, 2003a。在该方法中除了应用一些我们常见的特征(如:词频等)外,还利用了一些基于语义的特征(如:名词短语等)。该方法首先利用规则归纳的学习方法对标注的例子进行学习,得到一系列的规则;然后利用学习得到的规则对文档进行关键词的抽取。在文章中Hulth称这种方法的试验结果比GenEx方法和KEA方法要好,在对2000篇学术论文进行关键词抽取后,准确率达到了29.7,并且F-Score达到了33.9%。DAvanzo等提出了另外一种利用词语的语义特征的关键词抽取系统LAKE(Learning Algorithm for Keyphrase Extraction) DAvanzo et al., 2004。这种系统利用的词语特征包括词性,实体识别等特征。D Avanzo等得出以下结论:(1).词性信息可以带来很多噪音,利用词性信息使得一些完全没用的与文档不相关的词语被抽出;(2).在确定候选词时利用一个过滤器过滤掉所有动词会对结果的提高有显著作用。1.5 本文的主要工作1.5.1基于学习的信息抽取技术各个网络检索数据库中检索出来信息是半结构化的信息即数据库中所有的符合检索条件的条目信息以固定的形式呈现在检索结果页面上。(1) 各数据库检索结果的半结构化使得可以用构造模板的方法抽取有用的信息,但是利用人工的方法构造抽取模板是一个繁琐的工作。本论文中针对数字图书馆特点提出了一种基于路径学习的模板构造方法,使得模板的建立工作更快更好。(2) 开发了一个论文信息抽取平台,并且实现了网页信息抽取过程中需要的各种工具,包括将网页分析成DOM树的程序、生成Xpath的程序。(3) 开发了一个基于网页结构和内容的问答对抽取平台,实现了网页结构和网页内容在信息抽取过程中的结合。(4) 构造出一个脱线的跨库查询系统模型,以及其能够提供的更深入的服务。1.5.2 文章摘要中关键词的提取一般论文都要求给出关键词,由于这样那样的原因,在网络数据库的检索结果中关键词不存在的情况很多,为了能够为用户提供更完备的符合条件的论文。本论文提出了一种对论文的摘要进行关键词提取的技术。(1) 提出基于词性和n_gram相结合选定候选关键词的方法。(2) 首次提出以句子为单位对关键词进行抽取(1)1.6 本论文的组织结构第一章、绪论。概括介绍跨库检索系统的概念,介绍信息抽取和关键词抽取的研究现状。第二章、信息抽取的相关技术和标准。简要介绍本文方法所涉及到的相关标准技术,这些技术将是支撑整个系统的基础。 第三章、详细介绍了文章信息抽取系统的设计与实现和问答对信息抽取系统的设计与实现。 第四章、详细介绍了文章摘要中抽取关键词系统的设计与实现。 第五章、详细介绍了我们自己设计的脱机跨库检索系统的结构和优点。 第六章、总结了本论文的主要工作,介绍了本论文的创新之处和未来的工作。此外,整篇论文的最后还列出了基于本硕士论文的研究工作所发表的学术论文以及本人在攻读硕士学位期间参与的科研项日.中国科学技术大学硕士论文 第二章 信息抽取的相关技术和标准中国科学技术大学硕士论文 第二章 信息抽取的相关技术和标准第二章 信息抽取的相关技术和标准 本章首先讲了信息抽取的系统结构和一些比较关键的技术,然后讨论了WEB中的一些标准技术,这些标准技术是本文的工作基础。2.1 信息抽取系统体系结构Hobbs曾提出一个信息抽取系统的通用体系结构,他将信息抽取系统抽象为“级联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信息,增加新的结构信息”Ho bbs认为典型的信息抽取系统应当由依次相连的十个模块组成李保利等,2003:1) 文本分块:将输入文本分割为不同的部分块。2) 预处理: 将得到的文本块转换为句子序列,每个句子由词汇项(词或特定类型短语)及相关的属性(如词类)组成。3) 过滤 : 过滤掉不相关的句子。4) 预分析: 在词汇项(LexicalIte ms)序列中识别确定的小型结构,如名词短语、动词短语、并列结构等。5) 分析: 通过分析小型结构和词汇项的序列建立描述句子结构的完整分析树或分析树片段集合。6) 片段组合: 如果上一步没有得到完整的分析树,则需要将分析树片段集合或逻辑形式片 段组合成整句的一棵分析树或其他逻辑表示形式。7) 语义解释: 从分析树或分析树片段集合生成语义结构、意义表示或其他逻辑形式 。8) 词汇消歧: 消解上一模块中存在的歧义得到唯一的语义结构表示。9) 共指消解或篇章处理: 通过确定同一实体在文本不同部分中的不同描述将当前句的语义结构表示合并到先前的处理结果中。10) 模板生成: 由文本的语义结构表示生成最终的模板。当然,并不是所有的信息抽取系统都明确包含所有这些模块,并也未必完全遵循以上的处理顺序,比如3). 4)两个模块执行顺序可能就相反。但一个信息抽取系统应当包含以上模块中描述的功能。图2-1给出了美国纽约大学Proteus信息抽取系统的体系结构,具有一定的代表性。2.2 信息抽取中的一些关键技术2.2.1 命名实体识别命名实体是文本中基本的信息元素,是正确理解文本的基础。狭义地讲,命名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯一的标志符(专有名称)表示,如人名、组织名、公司名、地名等。广义地讲,命名实体还可以包含时间、数量表达式等。至于命名实体的确切含义,只能根据具体应用来确定。比如,在具体应用中,可能需要把住址、电子信箱地址、电话号码、舰船编号、会议名称等作为命名实体。命名体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别。在信息抽取研究中,命名实体识别是目前最有实用价值的一项技术。根据MUC评测结果,英文命名实体识别任务的F-指数(召回率与准确率的加权几何平均值,权重取1)能达到90%以上。命名实体识别的难点在于:. 在不同领域、场景下,命名实体的外延有差异;. 数量巨大不能枚举,难以全部收录在词典中;. 某些类型的实体名称变化频繁,并且没有严格的规律可以遵循;. 表达形式多样;. 首次出现后往往采用缩写形式;命名实体识别的方法主要分为:基于规则的方法和基于统计的方法。一般来说,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域、文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言学家才能完成。相比而言,基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的计算语言学知识,并且可以在较短时间内完成。因此,这类系统在移植到新的领域时可以不做或少做改动,只要利用新语料训练一遍即可。此外,基于统计的系统要移植到其他自然语言文本也相对容易一些。图2-1 纽约大学PROTEUS信息抽取系统体系结构2.2.2 句法分析通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合,是计算机理解自然语言的基础。在信息抽取领域一个比较明显的趋势是越来越多的系统采用部分分析技术,这主要是由于以下三方面原因造成的。首先是信息抽取任务自身的特殊性,即需要抽取的信息通常只是某一领域中数量有限的事件或关系。这样,文本中可能只有一小部分与抽取任务有关。并且,对每一个句子,并不需要得到它的完整的结构表示,只要识别出部分片段间的某些特定关系就行了,得到的只是完整分析树的部分子图。其次是部分分析技术在MUC系列评测中的成功。SRI公司在其参加MUC-4评测的FASTUS系统中开始采用层级的有限状态自动机分析方法。该方法使FASTUS系统具有概念简单、运行速度快、开发周期短等优点,在多次CAD评测中都居于领先地位。最后,部分分析方法盛行也是因为目前尚没有其他更好的选择。现在,完全分析技术的鲁棒性以及时空开销都难以满足信息抽取系统的需要。但是,另一方面,也要清醒看到:部分分析技术只能使信息抽取系统的处理能力达到目前的水平(F-指数小于60%),要想使其性能有大的飞跃,必须探索更有效的分析技术。2.2.3 篇章分析与推理一般说来,用户关心的事件和关系往往散布于文本的不同位置,其中涉及到的实体通常可以有多种不同的表达方式,并且还有许多事实信息隐含于文本之中。为了准确而没有遗漏地从文本中抽取相关信息,信息抽取系统必须能够识别文本中的共指现象,进行必要的推理,以合并描述同一事件或实体的信息片段。因此,篇章分析、推理能力对信息抽取系统来说是必不可少的。初看起来,信息抽取中的篇章分析比故事理解中的篇章分析要简单得多。因为在信息抽取中只需要记录某些类型的实体和事件。但是,大多数信息抽取系统只识别和保存与需求相关的文本片段,从中抽取出零碎的信息。在这个过程中很可能把用以区分不同事件、不同实体的关键信息给遗漏了。在这种情况下要完成篇章分析是相当困难的。除此之外,目前尚缺乏有效的篇章分析理论和方法可以借鉴。现有篇章分析理论大多是面向人、面向口语的,需要借助大量的常识,它们设想的目标文本也比真实文本要规范,并且理论本身也没有在大规模语料上进行过测试。信息抽取系统除了要解决文本内的共指问题外,还需要解决文本间的(跨文本的)共指问题。在文本来源比较广泛的情况下,很可能有多篇文本描述了同一个事件、同一个实体,不同文本间还会存在语义歧义,如相同的词有不同的含义、不同的词代表一个意思。为了避免信息的重复、冲突,信息抽取系统需要有识别、处理这些现象的能力。由MUC-6和MUC-7对信息抽取系统部分篇章处理能力即指称短语的共指消解)的评测结果看,篇章处理能力是目前信息抽取系统的弱项,是一个瓶颈,急需深入研究与改进。2.2.4 知识获取作为一种自然语言处理系统,信息抽取系统需要强大知识库的支撑。在不同的信息抽取系统中知识库的结构和内容是不同的,但一般来说,都要有:一部词典(Lexicon ),存放通用词汇以及领域词汇的静态属性信息:一个抽取模式库(Extraction Patterns Base),每个模式可以有附加的(语义)操作,模式库通常也划分为通用部分和领域(场景)专用部分;一个概念层次模型ontology),通常是面向特定领域或场景的,是通用概念层次模型在局部的细化或泛化。除此之外,可能还有篇章分析和推理规则库、模板填充规则库等。如前所述,信息抽取系统通常是面向特定应用领域或场景的。这种领域受限性决定了信息抽取系统中用到的主要知识是所谓的浅层知识。这种知识的抽象层次不高,通常只适用于特定应用领域,很难在其他领域复用。如果要把一个信息抽取系统移植到新的领域或场景,开发者必须要为系统重新编制大量的领域知识。一般说来,手工编制领域知识往往是枯燥的、费时的、易错的,费用较高,并且只有具有专门知识(应用领域知识、知识描述语言知识,熟悉系统的设计一与实现)的人员才能胜任这种工作。另外,由于自然语言中存在的“长尾”综合效应(long tail syndrome)或称Zipf法则,人工编制的知识库很难达到很高的语言覆盖面。因此,知识获取问题己经成为制约信息抽取技术广泛应用的一个主要障碍。它除了影响系统的可移植性外,也是影响系统性能的主要因素。正因为如此,近几年召开的多次专题学术研讨会都是以解决知识获取问题、建立具有自适应能力的信息抽取系统为主题的。领域知识获取可以采用的策略通常有两种:手工+辅助工具(图形用户接口);自动/半自动+人工校对。前者相对简单一些,人工工作仍然是主体,只是为移植者提供了一些图形化的辅助工具,以方便和加快领域知识获取过程。后者采用有指导的、无指导的或间接指导的机器学习技术从文本语料中自动或半自动获取领域知识,人工干预程度较低。实际上,这两种策略不是完全对立的,只是自动化程度高低不同而己。某种意义上讲,第一种策略仍然是一种人工编制知识库的过程,知识瓶颈问题只是得到某种程度的缓解。第二种策略才是解决信息抽取系统知识获取瓶颈问题的真正出路。近几年有不少研究者采用自扩展(Bootstrapping)抽取模式。2.3 HTML(Hyper Text Markup Language)HTMLHTML是一个用于创建网页的标记语言。它是一个由W3C组织创建并维护的Internet标准。最新的版本是HTML4.01。HTML通常表现为连接到互联网的计算机中的文本文件。这些文件中包含很多标记,这些标记是告诉浏览器如何表现或者处理文本内容的指令。考虑下面的例子图2-2: 图2-2 一个简单的HTML源文档使用IE浏览器查看这个文件,结果如图2-3所示: 图2-3 简单的HTML页面 在上面的文件中,被两个尖括号括起来的内容就是标记,比如html、title等。一般来说,每个标记都由开始标记和结束标记组成。整个HTML文档可以看作是一棵树。不加斜杠的标记为开始标记,比如。如加斜杠的标记为结束标记,比如。开始标记和结束标记之间的内容为这个标记的作用内容。比如,b标记中的内容显示为粗体。Title标记中的内容为文档的标题。 尽管HTML在展示数据方面十分成功,但是对于机器来说,一个HTML文档是很难理解的。因为HTML着重于数据的表现而不是数据的描述。比如,根据这样的标记根本无法获得它们所包含文本究竟是什么内容。着重于数据描述的一种新语言是XML。2.4 XMLXMLXML的全名是可扩展标记语言(Extensible Markup Language)。它允许开发人员制定自己的标记,从而使得文档具备自描述性。2.4.1 XML的产生首先,让我们来了解一下可扩展标记语言XML的发展简史。XML有两个先驱SGML和HTML,这两种语言都是非常成功的标记语言,但是它们都在某些方面存在这与生俱来的缺陷。SGML(Standard Generalized Markup Language)的全称是标准通用标记语言,它为语法标记提供了异常强大的工具,同时具有极好的扩展性,因此在分类和索引数据中非常有用。但是SGML非常复杂,并且价格昂贵。几个主要的浏览器厂商都明确拒绝支持SGML,使得SGML在网上传播遇到了很大的障碍。相反,超文本标记语言HTML(Hyper Text Markup Language)免费、简单。在世界范围内得到了广泛的应用。它侧重于主页表现形式的描述,大大丰富了主页的视觉、听觉效果。为推动WWW的蓬勃发展、推动信息和知识的网上交流发挥了不可替代的作用。可是HTML也有如下几个致命的弱点,这些弱点逐渐成为HTML继续发展应用的障碍。 HTML是专门为描述主页的表现形式而设计的,它疏于对信息语义及其内部结构的描述,不能适应日益增多的信息检索要求和存档要求。 HTML对表现形式的描述能力实际上也还非常不够,它无法描述矢量图形、科技符号和一些其它的特殊显示效果。 HTML标记集变得日益臃肿,而其松散的语法要求使得文档结构混乱而缺乏条理,导致浏览器的设计越来越复杂,降低了浏览的时间效率与空间效率。正因为如此,1996年人们开始致力于描述一个新的标记语言,它既具有SGML的强大功能和可扩展性,同时又具有HTML的简单性。这样XML诞生了。正像SGML和HTML一样,可扩展标记语言XML也是一种标记语言,它通过在数据中加入附加信息的方式来描述结构化数据。不过XML并非象HTML那样,只提供一组事先已经定义好的标记。准确地说,它是一种元标记语言,允许程序开发人员根据它所提供的规则,制定各种各样的标记语言。2.4.2 XML语法XML的语法规则很简单而且非常严格。正因如此,开发读取和操纵XML的软件很简单周津, 2004。下面是一个简单的XML文档图2-4: 图2-4 一个简单的XML文档文档的第一行是一个声明,它定义了XML的版本和文档所使用的字符编码。第二行描述了文档的根元素,接下来四行是根元素的子元素,最后一行是根元素的结束标记。从这个例子可以看出,XML文档是自描述的。我们很容易理解每个元素的意义,这是因为每个元素都有标记信息来描述元素的内容。XML是一个元标记语言,也就是说,允许开发人员定义自己的标记。如上面的文档所示,所有的标记都是自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论