汉语股市公告信息抽取系统的设计与实现毕业论文.doc_第1页
汉语股市公告信息抽取系统的设计与实现毕业论文.doc_第2页
汉语股市公告信息抽取系统的设计与实现毕业论文.doc_第3页
汉语股市公告信息抽取系统的设计与实现毕业论文.doc_第4页
汉语股市公告信息抽取系统的设计与实现毕业论文.doc_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉语股市公告信息抽取系统的设计与实现毕业论文1 概述1.1 信息抽取技术(Information Extraction)信息技术高速发展的时代中,信息的获取、处理和应用已经成为了经济、科学、军事、文化等各个领域发展的关键活动。而其中,信息的获取是三个步骤的开端,在信息技术领域中具有尤其重要的地位。近年来,随着计算机和互联网技术的迅猛发展,各领域可及信息量呈指数级增长。如何高效获取有用信息成为有效利用信息的关键。信息抽取(Information Extraction,简称IE)技术,是自然语言处理领域中一种新兴的技术。该技术通过抽取、过滤无关信息,使文本信息以用户关心的形式得以再组织,实现高效重组。将结构松散的自然语言信息,通过抽取转为结构严谨、语义明确的表现形式,利用计算机进行高效存储并加以利用。 1.1.1 信息抽取技术的发展信息抽取技术的雏形最早出现在二十年前。下面介绍一些信息抽取发展上重要的研究成果以及国内外的研究现状7。l ATRANS 系统ATRANS 系统是早在1981年由Cowie研究出来关于动植物正规结构描述数据库的系统及其商用化产品。该系统采用了概念句子分析技术,通过一些简单的语言处理技术能够完成限制在小规模,特定专业领域的信息抽取任务。l FRUMP系统FRUMP系统由Gerald Dejong在80年代初实现。该系统把有限新闻网络作为数据源,使用一些新闻故事的简单脚本来对有限新闻网络进行监控。它采用关键字检索、概念句子分析、脚本匹配等方法来寻找新闻故事。FRUMP系统是一个面向语义的系统,采用了一个特定专业领域的事件描述脚本知识库。l SCISOR系统80年代末,美国GE研究与开发中心的Lisa F.Rau等研制的SCISOR(System for Conceptual Information,Organization and Retrieval)系统所处理的对象是有关公司合并的新闻报导。SCISOR首先采用关键词过滤和模式匹配的方法对待处理文献进行主题分析,以便判定该报道的内容是否与公司合并有关;然后采用自底向上的分析器识别句子结构,生成概念表示;最后应用自顶向下的预期驱动分析器提取预期内容。l MUC(Message Understanding Conference)是一个ARPA资助的、为推动IE技术发展的一个重要的系列工程。有许多大学、研究所参加。1987年的MUC-1和1989年的MUC-2主要集中在从小规模的海军信息文本中抽取相关的信息。1991年的MUC-3和1992年的MUC-4采用的文本主题和类型发生了变化,采用关于拉丁美洲国家恐怖事件通用主题的报纸和有线新闻文本作为语料源,系统包括预定义好的信息模板和辅助抽取规则,基本任务是从在线文本中抽取有关信息填入预定义的模板中的属性槽中。1993年的MUC-5的文本主题是关于合资企业的商业新闻以及微电子芯片的制作方面的新闻,涉及英语和日语文档。所抽取的信息包括合资企业的合资者、合资公司的名称、所有权和资本以及预期的活动,或者微电子芯片的制作活动的性质和状态等有关项。涉及到多语言和多领域的文档,以便进行抽取信息的性能评价比较。1995年的MUC-6的信息抽取任务第一次涉及到用SGML语言所标记的文本中的名称项(named entity)和指同项(coreference)的处理。除了场景模板(scenario)任务以外,名称项、指同项和模板元素(template element)信息抽取任务均与特定专业领域无关。测试的语料采用华尔街杂志中的文本。1998年的MUC-7是最近的一次信息理解会议。它的信息抽取任务涉及抽取文档中的名称项(人名、组织名和地点名);指同项;确定模板元素之间的关系,如地点关系、雇佣关系和生产关系等;抽取文档中的事件。文档包含多语种的新闻稿。训练用的文档专业领域是关于飞机坠毁报道,而测试用的文档专业领域是关于发射事件报道。l FASTUS系统FASTUS系统(Finite State Automaton Text Understanding System)是美国加里福尼亚斯坦福研究所人工智能中心从1991年开始开发的一个基于多层、非确定有限状态自动机模型的自然语言文本信息抽取系统。它共有六层转换机制,即:切分标记层、预处理层、名称项识别层、简单短语识别层、复杂短语识别层、指同求解层。分解的语言处理使此系统能够处理大量的与专业领域无关的句法结构,以致于与专业领域相关的语义和语用处理能被应用到相当大部分的语言结构上。正因为FASTUS系统具有这样的特点,它已被成功地运用于许多应用中。l TIPSTER计划由美国国防部(DoD)、Defense Advanced Research Projects Agency(DARPA)和Central Intelligence Agency (CIA)共同资助的TIPSTER计划包括至少15个与工业和学术有关的项目。目的是改进文本处理的流行技术。TIPSTER的体系结构使用一组通用的文本处理模块已能满足不同的文本处理应用的需要。这些应用主要是文本检测(定位包含某一信息类型的文本)和信息抽取(定位文本中的特定信息)。在TIPSTER研究的第一阶段,参与者通过一些活动如MUC和TREC(Text Retrieval Conferences)对文本检测和信息抽取所建立算法进行改进以及提高对评价这些改进的技术。在第二阶段的研究中,TIPSTER参与者为了使技术组成构件标准化,将注意力转向软件体系结构的开发上。使各种所开发的工具具有即插即用的性能,增加软件的共享程度。在目前进行的第三阶段的研究中,一种称为ACP(Architecture Capabilities Platform)的平台被开发,它支持评价、扩展和探索进展中的TIPSTER体系结构。ACP将采用CORBA(Common Object Request Broker Architecture)结构为研究者提供鲁棒及相配的TIPSTER组成构件。它将支持TIPSTER体系结构的扩展,以便与机器翻译、语音和光学字符识别、图象观察、用户界面构件以及大规模信息系统相适应。l SMES系统由德国人工智能研究中心语言技术实验室(DFKI-LT)在Paradime 项目中所开发的SMES(Saarbrcken Information Extraction System)系统是一个联机的德语文挡信息抽取智能系统。文档的专业领域包括通讯稿、经济报告和技术说明书。SMES系统拥有大量的语言知识资源(如电子词典包括12万条词项以及可扩展性很强的专门语法)以及极其快速和鲁棒的自然语言构件。它还能利用机器学习机制使自身能为实现新功能得到训练和配置,并能适应所需的信息数量和各种文档长度。它被集成了图形可视化技术、服务器体系结构和英特网访问技术。SMES作为一个有效的智能信息检索的核心系统已经成功地运用于科学和工业项目中。国内对信息抽取的研究才刚刚起步。1998年月在东北大学学报(自然科学版)发表了中文信息自动抽取一文,介绍了中文信息抽取的概念和对一些问题进行了初步的探索。国内对涉及中文和其他语种的多语种信息抽取技术还未见报道。 1.1.2 信息抽取技术的特点信息抽取技术不同于传统的信息检索和自动摘要技术。 l 与信息检索(Information Retrieval,简称IR)技术的区别与传统的信息检索技术比较,信息抽取技术有明显的优势:信息检索只是通过单纯的匹配检索得到相关的文档,而并不真正理会文档的实际内容信息,文档被等同于无意义的词汇堆砌物;而信息抽取则是通过文本分析、语段分析、模板生成等过程抽取出有效的信息内容。l 与自动摘要(Automatic Abstraction)技术的区别与传统的自动文摘(Automatic Abstraction)技术比较,信息抽取技术的应用前景更好:自动文摘产生的文摘往往质量较低,而且容易产生不全面、不连贯和冗余多等等问题;而信息抽取则针对有价值的相关领域的文本进行结构分析,其效率和质量显著提高,也更容易面向实际应用。信息抽取技术具有其独有的优势。利用浅层的自然语言处理技术(Shallow Natural Language Processing Technology,简称SNLPT),可以实现高效率的自然语言处理;将非结构化的信息改变为利于计算机存储、处理的结构化形式,有利于信息的重复高效利用。1.2 股市公告信息抽取系统(SBIES) 1.2.1 应用背景随着我国改革开放的深入,市场经济的发展,证券市场的到了空前的繁荣。目前,在沪深两地上市的公司数目已达几千家。每天在两地市场公布的股市公告少则几十条,多则百余条,文本量较大。如果需要在若干年的公告纪录中,迅速查找各种相关的公告,如采取传统的关键字查找技术,恐怕难以获取很高效率。考虑到信息抽取技术能够有效地从大量文本中过滤出用户可能关心的信息,并进行结构化存储以便迅速查询,希望基于信息抽取技术构造股市公告信息抽取系统(Stock Bulletin Information Extraction System,简称SBIES)。由于股市公告文本具有以下一些特点,故认为采取信息抽取技术能够大幅度提高系统的性能表现。l 句法简单。在一般股市公告中,通常以简单而表意清楚陈述句式为主。几乎不出现具有二义性的语句。这为自然语言处理和信息抽取提供了较好的先决条件。l 格式规整。常见的股市公告大致可以分为若干种,如:停牌公告、财务指数公告、董事会决议公告、配送股公告、新股上市公告、等等。每一种公告都有相对固定的组成要素,容易构造模板加以描述。l 文本量大。仅以上海证券交易所为例,每天的临时性公告文本量平均约20KB(以汉字记约1万字)。一年累计的公告文本约有6MB(约300万汉字)。对于计算机而言,这个数量可谓及其微小,而对于人工阅读而言却是一个繁复而耗时的工作。l 多语种特性。股票市场使金融的重要组成部分,而在全球金融一体化的今天,世界各大证券市场之间的息息相关。而各国的证券市场在第一时间通常只能以一种或有限的几种语言发布公告信息,这就给股市公告带来了天生的多语种特性。设计一个股票文本的信息抽取系统具有较高的实用价值。股市公告的文本量庞大,但结构固定、内容单一,这正适合于计算机处理。信息抽取技术能够自动的从庞大的文本库中,动态地根据用户关心的内容提取文本蕴含的信息。同时,信息抽取能够采用独立于语种的方式存储信息。这样,用户就不必关心原始文本的语种,可以用他(她)所熟悉的语种进行抽取请求,并得到以他(她)希望语种表示的信息抽取结果。 1.2.2 系统框架结构如上所述,该系统将基于信息抽取技术进行构建。但是为了实现真正可用的应用系统,还需要其它一些模块的进行协同工作。图一种给出了本系统的基本框架结构。原始文本采集用户需求分析模块信息抽取模块独立于语种的信息存储自然语言生成(汉语)自然语言生成(英语)自然语言生成()控制数据系统结构图用户其它结果表现形式结果表示图一:SBIES结构框架图图中,信息抽取模块是整个系统的核心所在,他将根据用户的需求将原始文本经信息抽取后,以独立于语种的方式存入信息库中。对该模块的设计与实现,是本文的重点,将在后面进行详细论述。用户需求分析模块,是能够收集用户需求,控制其它个模块进行协同工作的智能人机界面。该模块是系统的控制中心,体现了以用户需求为核心的设计思想。该模块能为用户提供一个智能化的易用界面。用户只需以自然语言形式输入询问的问题,该模块即可将询问转化为一系列的内部指令,控制各模块针对询问做出响应。结果表示模块,是将查询结果以用户易于理解的方式进行表示的模块。其中主要采用了自然语言生成(Natural Language Generation,简称NLG)技术。自然语言生成的主要目标是研究计算机如何根据信息在机器内部的表达形式生成一段高质量的自然语言文本。所谓高质量是指生成的文本与人工文本比较接近,形式多样,而且能适应外部应用的变化而做相应的调整,整个系统的维护性好2。在本系统中,根据用户询问,从信息库中查询获取的结果,对用户而言仍然是晦涩难懂的。因此需要一种较好的方式来将查询结果反馈给用户。由于信息抽取技术的结果能够使信息以独立于语种的方式进行存储,如果结合相应的不同语种的自然语言生成技术,即可使根据用户的要求,获得以各种语言表述的查询结构。除了结合自然语言生成技术,以自然语言形式生成结果外,还可以用图表等形式输出一些数据的统计结果,这也是表示模块的功能之一。 1.2.3 系统分布结构RobotINTERNET信息抽取信息库XML数据库预处理数据分析(可选)查询分析查询界面结果表示图二给出了系统的整体分布图。图二:SBIES分布图由图可见,本系统直接挂接在Internet上,数据来源和用户界面主要都通过Web实现。由一个Robot程序自动通过Web进行股票公告文本的自动搜集,搜集的文本经过预处理成为信息抽取模块能够接受的文本后,采用IE技术进行信息抽取,将结果存放入信息库中。如果必要,可以对信息库数据进行分析。用户通过Internet访问该系统,查询的结果也通过Internet返回给用户。1.3 本文内容简介本文将详细论述股市公告信息抽取系统中,信息抽取模块的设计和实现。第一章,概述。简介信息抽取技术的历史和特点,与传统的NLP技术做了优缺点比较。提出SBIES的应用背景,介绍整体结构框架和模块分布情况。第二章,信息抽取模块的设计。提出SBIES中信息抽取模块(也就是本系统的核心模块)的具体结构。第三章,信息抽取的关键算法。这是本文的重点章节。具体探讨了信息抽取模块中信息抽取的几种关键算法。比较了采用传统语言学方法和统计学方法进行信息抽取的优缺点和适用情况。第四章,实现与结果分析。将给出部分统计数据和结果总结。252 信息抽取模块的设计2.1 模块内部结构 2.1.1 串行化的模块内部结构及其问题自然语言信息抽取是一系列浅层自然语言处理技术的结合体。为了将非结构化的自然语言文本转化到结构化的信息库中,需要多种自然语言处理技术的协同工作。从某种意义上说,这些处理技术将以串行的方式运行,即前一个步骤的处理输出结果将作为后一步骤的输入。这种工作方式优点是模块内部结构简单,便于分级调试。根据传统的自然语言处理技术,汉语的信息抽取模块中大致应包含的处理步骤应当包括了分词处理、名称分析、语法分析、语义分析、场景匹配、一致性分析、推理判断、模板匹配填充,等等。但子过程的串联,带来的问题是,各个阶段处理的准确性高度依赖于前端输出的正确性。例如:假设信息抽取全过程由n个串联子过程组成,第k个子过程的查准率(或者查全率)分别为,则整个模块的查准率(或者查全率)应为:一般而言,目前自然语言处理技术中虽然存在众多不同的算法,进行不同层次的分析处理,但其查准率和查全率却大都不是很高17。通常在60%90%之间不等。当前MUC英文信息提取的各项指标(最好水平)大体上如下SAIC 99 Chinchor 99:实体(Entities)识别90%,属性识别(Attributes) 80% (TE任务);事实识别(Facts) 70% (TR任务);事件识别(Events)60% (ST任务)。这些指标也自然地反映了自然语言处理在各个层次上的难度。在最近一届MUC上表现最好的是SRA公司的系统Aone et al, 98,其所有3项IE指标都是最高的。其评测结果如下:RecallPrecisionF-ScoreTE86%87%86.76TR67%86%75.63ST42%65%50.79表一:MUC-7测评结果可以看出,在这样的查准率和查全率下,整个模块的性能表现将随着串联模块数量的增加迅速下降。显然,过低的查准率和查全率,对于一个应用系统是缺乏实用意义的。因此,要构建可实用的信息抽取系统,有两个种途径:其一,进一步探讨各个处理模块的更有效的处理方法,以达到更高的查准率和查全率;其二,改变信息抽取模型结构,根据应用领域的特殊性,简化串行结构的长度,以提高模块整体的性能表现。第一种途径显然是信息抽取技术逐步发展成熟的必然途径,但是在短期内恐怕还难以在这一方向上取得突破性的发展。而第二种途径却是目前可能做到的。因为不同的应用领域具有不同的特性,结合这些特性可以有力地提高各个模块的处理正确性,简化信息抽取模型。以下将结合股市公告文本信息抽取的特点,讨论信息抽取模型的简化。 2.1.2 简化的高性能信息抽取模型在我们即将设计和实现的股市公告信息抽取系统中,希望通过缩短处理子过程的路径长度,来提高信息抽取模型的性能。由于股市公告文本具有以下一些特性,所以简化信息抽取模型是可能的。一方面,股市公告文本的主题分类比较明显。一般而言,股市公告主要包括了停牌公告、财务指数公告、董事会决议公告、配送股公告、新股上市公告等若干种类型。每种公告文本类别论述的主题比较固定,利于用抽取模板加以描述。另一方面,各类公告文本的格式相对简单、固定。通常很少出现句式的变化,陈述过程中句法规则也相对简单。同时,简化后的模型应该能够比原模型具有更好的性能表现。首先,缩短了处理过程路径的长度,避免了过长的串行系统结构可能导致的低查准率和查全率。其次,合并简化处理子过程,减少了处理所需的时间,提高了处理的效率。分词处理词典股市公告文本A类文本自动标注B类文本自动标注C类文本自动标注A类模板填充B类模板填充C类模板填充文本自动分类信息库基于以上观点,考虑将信息抽取中的某些步骤合并简化。简化后的高性能系统结构如图三所示。图三:简化后的信息抽取模型从图中可以看出,处理过程的长度大大缩短了。一篇中文文档一般只需经过分词处理、自动标注和模板填充三个步骤即可完成信息抽取。文本自动分类主要是根据关键词进行的,由于股市公告文本的特殊性,其准确率可达到98%以上。而在正确分类的前提下,对已知文本类型进行词类自动标注和模板填充将变得更为容易,也具有更高的准确性。本章的余下部分,将对自动分词和文本自动标注的实现做部分介绍。而模板填充算法的实现,是本模块的关键环节,将在下一章中详细论述。2.2 自动分词近年来,国内众多研究机构已经在计算机汉语文本自动分词方面进行了大量的研究,并取得了很多成就。二十年来,已经提出了许多分词算法。我们可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。l 基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如:正向最大匹配、逆向最大匹配、最少切分(使每一句中切出的词数最小)。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。由于分词是一个智能决策过程,机械分词方法无法解决分词阶段的两大基本问题:歧义切分问题和未登录词识别问题。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。l 基于理解的分词方法通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统则在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一小部分。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。l 基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息为: ,其中 是汉字X、Y的相邻共现概率, 、 分别是X、Y在语料中出现的概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。这些算法各具特色,需结合具体的应用领域进行综合利用。已见诸报道的研究成果如:北京航空航天大学计算机系的CDWS分词系统,山西大学的现代汉语自动分词及词性标注系统1,北京大学计算语言学研究所的汉语切分与标注软件,清华大学SEG分词系统和SEGTAG系统,哈工大统计分词系统,杭州大学改进的MM分词系统,Microsoft Research汉语句法分析器中的自动分词,等等15。这些切分与标注软件大都通过大量跨领域文本的测试,具有较为稳定的性能表现。但是在我们的特殊领域的应用系统中,并不需要对任意领域文本都能进行准确切分的能力。不仅如此,在我们的应用领域中,期望的文本切分效果也不同于普通文本。在股市公告中,普遍存在大量的术语和惯用语。我们当然希望不要将这些词切碎,以利于更好的进行信息抽取。因此,设想构造一个规模较小的,能够较好识别领域词汇的小型分词子系统。在构造自动分词子系统时,以人工分词得到得语料库为标准。统计各类词汇出现的概率,构造词典。在分词时处于性能考虑,采用了较简单的最长匹配法分词规则。经过测试,自动分词的结果完全能够满足信息抽取的需求。由于分词模块并非本系统的重点核心所在,故在此仅作简短介绍。2.3 词类自动标注在分词的结果上,还应该为各个词汇标注上一些表明词汇作用或属性的信息,以便利用这些信息去填充模板。进行自动标注的方式和层次有多种。例如,可以对词性进行标注,如名词、动词、形容词、数量词等等;也可以对识别的命名实体(Named Entity)、专有名词(Proper Noun)等进行标注,主要取决于后续处理阶段的需要。传统的自然语言处理过程中,通常认为,对词类的标注应该从词性的层次上开始,其他自然语言的处理过程都将建筑在对词性的分析之上。但是,我们认为在特定领域的信息抽取任务中,从词性开始的词类标注并非必要。由于信息抽取实际上是在给定语义框架(用模板描述)的基础上,对语义框架中的关键部分(属性槽Slot)以相应内容(填槽物Slot Filler)填充,所以可以期望直接标注出全部或部分的关键内容。出于这种想法,我们希望能够在此采用一个直接标注包含语义信息的词类自动标注子系统。其中最重要的一项工作就是确定标注的词类。从图三可以看出,词类自动标注是在文本分类之后才进行的,所以应该根据不同的文本类别来进行不同的词类标注。信息抽取的任务就是根据不同的文本类别,以合适的抽取模板加以刻画。我们就可以尝试根据模板的属性槽来定义词类。例如,如下所示是一个描述停牌公告抽取模板的DTD文件: 其中定义了一系列元素(如停牌时间、时间跨度、股票名称等等),这些都是需要抽取的模板属性槽。考虑根据以上的模板,抽取以下的公告实例:“东盛科技”(600771)因刊登公告,9月11日上午停牌半天。将获取如下XML文档作为结果:东盛科技6007719月11日上午半天刊登公告此例充分体现了股市公告文本句法特殊,结构固定的特点。对此例原文分词后,我们可以期望获取如下自动标注的XML文档:“东盛科技”(600771)因刊登公告,9月11日上午停牌半天。其中punctuation标注标点,stockname标注股票名称,stockid标注股票id,date标注日期,length标注时间跨度,sw是模板特殊词(Special Word)的缩写,na标注的是本模板中无需关心的词(Not Available)。在同课题组的许多老师和同学的共同努力和大力帮助下,我们对近年来上海证券交易所的公告进行了人工分词和标注。通过计算机程序统计,构造起了自动分词和标注所需的小规模领域词典,包含领域常用词汇约1200词,另外还有沪深两地各类股票名称和编号等。针对不同类型(模版)的文本,将具有不同的标注标准。对标注文本统计数目见表二。公告类别公告文本量(篇)百分比决议公告9315.7%财务指数公告41570.1%停牌公告213.5%其它公告6310.6%共计592100%表二:人工标注文本量统计在进行了自动分词和词类标注的基础上,下一章将详细探讨如何利用标注信息填充模板的具体算法。3 信息抽取的关键算法在前一章里,已经将信息抽取的问题归结为对文本的自动分词、自动标注和模板填充三个步骤,并且已经简单介绍了前两个步骤的设计和实现方法。本章中将要详细论述的是模板的自动填充算法。将分别讨论采用传统语言学方法以及统计学方法进行的模板填充算法。3.1 传统语言学方法 3.1.1 基于规则的信息抽取算法根据传统的语言学方法,一般采用语法分析的方式来填充模板。语言学中语法分析的理论和方法众多,各有优缺点。比较著名的如Kaplan和Bresnan(1982)的词汇功能语法(LFG)、Shieber(1984)的PART-II,Kay(1985)的功能合一语法(FUG),Gazdar(1985)的广义短语结构语法(GPSG),Polland和Sag(1987)的中心词去动的短语结构语法(H-DPSG)等等38913。上述的各种分析方法从理论上,对自然语言本质性问题进行了较深入的研究。然而在一个中文的信息抽取的实用系统中充分应用这些分析方法,却存在着困难。首先,信息抽取技术应当避免采用深层自然语言处理技术(DNLPT)。这一方面是出于性能考虑,信息抽取系统往往要对大量文本进行高效率的处理,另一方面则是考虑到信息抽取系统往往不需要完全明晰一片文档的内容,而只需直起大概即可。所以采用浅层自然语言处理技术(SNLPT)将使系统具有更好的性能表现。其次,中文语法分析存在着特殊的复杂性。例如,汉语中存在着多动词连用问题、词性歧义问题、句子的词序问题、汉语特殊模式(“把”、“被”字句)问题、汉语语义歧义问题,等等。如果逐层分析语法关系,可能相当困难。此外,上述分析方法应用于实际时,往往难以有很高的准确率。而这对于一个实用系统而言,却往往是致命的缺陷。因此,可以采用较简单的语法规则,来抽取相关的基本语义信息。例如14,制定以下若干规则,来对股市停牌公告进行抽取。(1)S- NS C comma D v len fstp(2)N- sn (3)N- sn sid(4)NS- N (5)NS- NS cae N(6)C- conj un (7)C- C un(8)D- date (9)D- year date其中,S表示整个停牌公告;N表示单个股票,可以由股票名或连同其代码构成;NS是股票的集合,可以有一系列任意个连续单个股票用顿号串接构成;C表示停牌原因,是由关键连词“因”或“因为”引起的原因状语从句;D表示日期,既可是单独的月日格式,也可是年月日格式;sn是股票名称;sid是股票代码;date是月日格式日期;year是年份;conj是关键连词“因”或“因为”;len是时间跨度;cae是顿号;comma是逗号;fstp是句号;v是中心动词“停牌”;un是其它与本模板信息抽取无关的词汇。不难验证,该文法可以无冲突地采用SLR分析法进行分析,参见表三。ACTIONGOTOSnSidConjvlendateYearCaeCommaFstpun$SNNSCD0S41231ACC2R4R53S6S754S8R3R35S9S106S117S4128R4R49S14S151310R8R811R7R712R6R613S1614R915S1716S1817R1018S1919R2表三:LR分析表利用以上分析表,我们实现了机与简单语法规则的信息抽取。由于在根据分析表分析过程中,自然地构造起了一棵语法分析树,图四中给出一个例句的分析树。四砂股份600783、上海医药600849因未刊登股东大会决议公告,9月13日停牌一天。fstpC 四砂股份因刊登NSCcommavlenNSCununsndate股东大会决议公告,9月13日DSS停牌一天。conjun未caeNsn、sidN上海医药600849sid600783图四:分析树示例在获取分析树的结果上,可以通过对树的遍历来填充模板。此步骤显然比较简单,在此不再赘述。 3.1.2 基于规则信息抽取面临的严峻问题对于停牌公告这样语法极其简单的公告而言,采用简单的分析规则已经足以完成信息抽取任务。但是,对于其它结构较为复杂的公告文本,要构造这样一套规则却并不永远是件容易的事。随着公告文本的复杂化,规则数目将大大增加。而随着规则的增加,如果仍然采用LR分析法分析,分析表的规模(行数)将以指数级速度扩充。不仅如此,分析表中还很容易出现冲突项,这一方面是由于自然语言中普遍存在着文法的二义性,另一方面是由于自然语言中存在着很大的自由性,语言意义的表达并非完全受限于固定的文法规则,这也是自然语言和形式文法的最大区别。对于这个问题,有两条解决途径。其一,对LR分析法进行扩充。传统的LR分析法通常只有移进(Shift)和归约(Reduce)两个动作。如果在某些情况下添加若干特殊扩充分析动做,将对增强分析能力有所帮助1416。在此方面的研究结果表明,扩充的LR分析法的确能够加强分析能力,尤其是加强了处理自然语言过程中的鲁棒性。但是这样的扩充毕竟还是基于原有LR分析法进行的,扩充的幅度有限。其二,采用非基于规则的分析方法。基于规则的方法在处理自然语言时遇到的困难,是分析形式文法时的难度无法相比的。改变分析方法可以从根本上突破形式文法的局限性。下一节就将讨论采用统计方法来设计信息抽取模块中的模板匹配算法。3.2 统计学方法 3.2.1 基于语料库的统计语言学方法近年来,基于语料库分析的自然语言处理方法受到了越来越多的计算语言学家的重视和应用。在规则方法即理性主义方法屡受挫折的事实面前,语料库语言学的发展促使计算语言学家们越来越重视数理统计在语言学中的应用。应该说,统计方法并不是包治百病的良药,而是人类由于认识能力和认识范围的有限迫不得已采用的方法11。传统语言学给我们积累了丰富的语言实例,但对于语言规律的把握,人类至今仍未找到最好的方法。但是,数理统计方法已经发展的比较成熟,值得信赖。语料库是经过处理的大量领域文本的集合,通过对语料库中的文本进行统计分析,可以获取该类文本的某些整体特征或规律。如果能够充分地利用这些统计现象、规律,就可以构造基于语料库的统计学信息抽取算法。现代语言学研究已经形成两个大的阵营,结构主义和功能主义(或称为理性主义和功能主义)。多年来结构主义一直占上风,西方学者称为“语言学主流”(mainstream linguistics)。功能主义相比之下处于劣势、守势。两阵对垒的天平近十几年来似乎在发生变化。如果我们把新兴学科如社会语言学、语用学、会话分析、语篇分析等都划入功能主义(因为这些都是研究语言的各种功能的),那么功能主义大有取代结构主义成为语言学主流之势。语料库和语料库语言学可以说是两阵对垒的天平上的一个举足轻重的砝码。统计的分析方法多种多样,近期研究的热点主要集中于由随机过程发展而来的理论和方法。其中最重要的,是应用隐马尔科夫模型(HMM)进行自然语言处理的方法。 3.2.2 隐马尔科夫模型(HMM)简介l 马尔科夫(Markov)过程的定义一般地,考虑只取有限个(或可数个)值的随机过程:若,就说过程在n时刻处于状态i,假设每当过程处于状态i,则过程在下一时刻处于状态j的概率为一定值,即有:这样的随机过程称为Markov链(给定过去的状态和现在的状态,将来的状态的条件分布独立于过去的状态,只依赖于现在的状态这就是Markov性)。一个马尔科夫模型(MM)M就是一个Markov链加上一个转移概率矩阵。显然,它可被视为一个随机有限状态自动机,其每个状态都代表一个可观察的事件,之间的转换都对应一定的概率。l 隐马尔科夫模型(HMM)的概念10对于马尔科夫模型而言,每个状态都是决定性地对应于一个可观察的物理事件,所以其状态的输出是有规律的。然而,这种模型限制条件过于严格,在许多实际问题中无法应用。于是人们将这种模型加以推广,提出了隐马尔科夫模型(HMM)。隐马尔科夫过程是一种双重随机过程。即:观察事件是依存于状态的概率函数,这是在HMM中的一个基本随机过程,另一个随机过程为状态转移随机过程,但这一过程是隐藏着的,不能直接观察到,而只有通过生成观察序列的另外一个概率过程才能间接地观察到。对于隐马尔科夫模型的应用,在语音识别领域已经取得了很好的成效,在信息抽取领域的应用也正在不断的尝试和推广中。l 隐马尔科夫模型(HMM)的模型参数1. N:模型状态数。2. M:每个状态可能输出的观察符号的数目。3. T:观察符号序列的长度。4. :状态转移概率矩阵。5. :观察符号的概率分布集。6. :初始状态概率分布。一般地,由于当A、B确定后,M、N也随即确定,故通常将一个HMM描述为。 3.2.3 隐马尔科夫模型(HMM)在信息抽取上的应用在我们的问题中,考虑的是如何应用隐马尔科夫模型,从自动标注后的文本中抽取相关信息到对应模板的合适属性槽中。为了完成这个目的,有必要对问题进行重新描述。先引入几个概念:1. 属性槽(attribute slot):表示为s。它同时具有类型。2. 填槽物(slot filler):是用来填充模板构成模板实例的语言单位(通常是一个单词或短语),通过自动文本标注获得。3. 模板(template):是用来表示结构化数据的待填属性槽的序列。表示为 ,其中是第i个待填属性槽。4. 模板实例(template instance):是指用适合的填槽物填充了模板中全部或部分属性槽(关键属性槽必须填充)后得到的实例对象。我们的模型中,考虑使一个HMM对应于一个模板,模型中的各个状态分别对应到该模板的各个属性槽。而将待抽取的标注文本视为该模型的一种输出结果。于是,对于标注文本中的每一个关键标注部分,都将有模型状态与之对应。这样,在固定的隐马尔科夫模型下,对于任意标注文本做为模型输出,通过寻找最佳路径的方式,都可以找到一条概率最大的隐路径(即由初始状态经由若干中间状态到达终止状态的状态转移序列)。在这条最佳路径上,各个输出对应的状态就是利用隐马尔科夫模型求得的模板填充方案。图五是HMM求解模板填充问题的示例图。股票名称股票编号日期中心动词停牌长度四砂股份上海医药6007836008499月13日停牌一天图五:HMM信息抽取示例在求解模型对应于某一特定输出时的最佳路径(路径概率最大)时,采用如下Viterbi算法进行计算。对于给定的观察序列,为了找到单个最佳状态序列,需要定义一个量:即:是沿着一条路径在t时刻的最好得分(最高概率),它说明产生头t个观察符号且终止于状态。可以用迭代法进行计算:为了实际找到这个状态序列,需要跟踪使上式最大的参数变化的轨迹(对每个t和j值)。可以借助于矩阵来实现这一点。寻找最佳状态序列的完整过程如下所示:1. 初始化:2. 迭代计算:3. 最后计算:4. 路径回溯(最佳状态序列生成): 3.2.4 隐马尔科夫模型的训练与优化问题上面已经讨论了隐马尔科夫模型的最佳路径问题。余下的问题(也是最为困难的),就是模型参数的获取问题。如在3.2.2中介绍的那样,隐马尔科夫模型可以描述为,如何确定其中的A、B和就是所谓的模型参数获取问题。到目前为止,对于隐马尔科夫模型的参数选择和优化问题,尚没有什么分析算法可以得到最优解。目前使用较广的处理方法是Baum-Welch估计算法(或称期望值修正法,即EM法)。该算法是一种迭代算法,初始时刻由用户给出各参数的经验估计值,通过不断迭代,使个参数逐渐趋向更为合理的较优值。算法可简单描述如下:1. 初始化:,时间t=1时处于状态的期望值2. 迭代计算:令,其中:3. 终止条件:,其中是预先设定的阈值要在我们的系统中,应用Baum-Welch算法获取模型参数,需要对算法做适当的更改。最主要的修改是上述算法中的终止条件。与应用在语音识别中的隐马尔科夫模型不同,我们衡量模型质量时,并不是要求整个模型输出某一序列的总体概率最大为最优,而是输出该序列时所经历的隐路径中最佳路径的概率最大为最优。所以,在第三步应该改为:终止条件:,为阈值。4 实现与结果分析4.1 模块实现情况在本模块的实现中,使用到了如下一些

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论