




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多知识源融合的自动摘要系统研究与实现陈燕敏王晓龙刘秉权 楼喜中(哈尔滨工业大学计算机科学与技术学院,黑龙江 哈尔滨 150001)Email: 摘 要 提出一种多知识源融合的自动摘要方法,有效地融合改进的浅层主题特征分析方法、改进的词汇链方法、话语结构方法的分析结果来生成文摘,在捕获文章特征的同时较好地保持了原文的内容及内在逻辑结构。评测结果显示系统生成具有良好连贯性和流畅性的文摘;与采用单一方法的自动摘要系统相比较,生成的文摘质量有明显提高。关键词 自动摘要特征词词汇链话语结构融合 50 引 言摘要是通过对文档内容处理,从中提取出满足用户需求的重要信息,经过重组修饰后生成比原文更精炼的文摘过程。目前主要的自动摘要技术有三类:基于浅层分析的方法、基于实体分析的方法、基于话语结构的方法1。基于浅层分析的方法对文档中蕴含的一些浅层特征如词频、位置、线索词等进行统计分析,据此选择出文档核心内容2。浅层分析具有易于实现、处理速度快、无受限域的优点,但这一方法是建立在文本表层的形式特征基础上的,缺乏对文本内容的深层次分析,难以保证生成文摘的逻辑连贯性,文摘质量的进一步提高将受到限制。基于实体分析的方法先分析文本内部的概念性表示,然后提取出文档中各实体并建立起实体间的相互关系,通过对文档实体及其相互关系建模来确定各实体对表述文档内容的作用,如词汇链方法3。实体特征的获取通常需要比较复杂的算法,特征的选择也需要考虑多方因素。这种方法易于描述意义上统一性强的文本。基于话语结构的方法主要通过对文档格式、主题线索、修辞结构、文体结构等的分析对全文宏观结构建模,以准确把握全文的内容结构4。因为结构分析不受文章领域限制,文档结构信息往往能较为准确地标示出语言单元间的逻辑关系,为自动文摘生成提供重要线索。由于上述几种方法各自的优缺点,为解决单一方法存在的知识获取不足的问题,提高自动文摘质量,增强文摘系统的通用性,采用混合方法是自动摘要技术的必然趋势。多种方法的有机结合能实现优势互补,可以在捕获文章特征的同时较好地保持原文的内容及内在逻辑结构。为此文中系统采用将浅层分析与实体分析、话语结构分析相结合的方法,有效地融合文档的主题特征和内容结构,同时对原有单一方法进行改进,在满足系统处理性能的同时进一步提高生成文摘的质量。本文的第1部分介绍了相关工作,第2部分描述了多知识源融合的自动摘要系统结构及各个模块的算法,第3部分给出实验结果及评价,第4部分给出结论。1 相关工作浅层分析的主题特征根据标题词、关键词、用户指定词等确定,可以是单个词、多个词或句子,不包括高频词、虚词等停用词(停用词由于出现在很多文档里, 故对信息分析没什么贡献)。专业摘要者就常常集中注意力于文章表层特征和比较规范的部分,特别是标题,他们的经验对自动摘要研究有很大价值5。但标题词等特征词可能存在一些抽象语义含义的内容,目前许多文摘系统在分析文档的特征词时,对不同类型的特征词作相同处理,这样常常会给系统加入一些无用的甚至误导性的特征。因此对主题特征词的分析需要进一步改进。词汇集聚6是把文本中相关的词构成一个链的过程,使得这些相关的词保持词义上的连贯性。它不仅存在于单词对之间,还存在于文本中围绕某个主题的许多相关的词之间,这些相关词的序列就称为词汇链。词汇链是一种词汇间语义关系引起的凝聚力,它与文本的结构有一种对应关系,提供了关于文本结构和主题的重要线索,也提供了解释词、概念和句子的语义环境,故计算词汇链很有用。词汇链技术可用于词语误用的检测纠正、自动摘要、信息检索、主题追踪等78。基于词汇链技术构造文摘的方法使用WordNet等词典作为计算词汇链的主要知识库,根据文本中出现于词典中的词间存在的依赖关系如重复、同义反义、上下义、部分整体关系等构造词汇链,计算各链的强度及链中成员的典型性值,对文中包含重要信息的句子赋予相应权值,据此生成文摘。但由于汉语与印欧语系的语言的差别,对中文文章的处理上要作一定改变,且构造词汇链时也要根据所使用词典的结构作相应分析。另外,原算法3仅分析名词间的关系,忽略了一些重要的动词、形容词等,也需要进一步改进。话语结构分析从多个角度对文档内容进行独立分析,它主要包含三部分:文档的内容结构分析先根据文档层次结构、语言和修辞结构建立各语言单元节点及节点的章节、段落、复句依存关系;然后分析全文结构和复句结构,将各自然段间和各自然段内部各复句间的依存关系分为并列、总分等;最后进行层次结构分析,建立一棵层次结构依存树。文档的子主题切分主要将以自然段为基础的文本的物理结构转换为以意义段为基础的文本的逻辑结构,以提高系统生成的文摘的中心主题覆盖率及文摘抽取的准确率;这里使用一种基于语义相似度的隐式章节划分方法910。语句间的修辞结构分析主要分析各语句间的语义连接关系,通过基于关联词的语法语义规则分析单句、复句间、复句内部间的语义依存关系如并列、因果等,据此构造分析树,确定每个语句在表达文本内容时的角色。由于前述分析的各自优缺点,为进一步提高自动文摘系统的通用性及生成文摘的质量,下面提出一种多知识源融合的自动摘要方法,该方法有效地融合了改进的上述方法的分析结果来生成文摘,以多种方法的有机结合实现优势互补。2 多知识源融合的自动摘要系统涉及自然语言处理中多个领域,利用多种方法的互补性来提高文摘质量,具体过程如图1所示,主要包含以下5个模块:文档结构初始化:将文档用文档结构树11的形式表示,根据相应节点在树中的位置给每个基本单元赋予唯一对应坐标值,以方便获取并处理文档中任一单元节点的信息及对各节点加权;文章主题特征分析:采用浅层分析的方法对主题特征词进行分析,以有侧重地选择原文内容;词汇链分析:采用实体分析技术分析词间的集聚关系,提供关于文本结构和主题的重要线索;文本话语结构分析:利用修辞结构、文本结构分析等自然语言处理技术对文档进行独立的分析,以确定文档内部不同单元之间的内在逻辑关系;文摘句的抽取及文摘生成:融合三种分析结果来选择组成文摘的文摘句;应用指代消解整合各文摘句,以生成较连贯流畅的文摘。2.1 改进的浅层主题特征分析在分析研究大量网络文档后,系统对主题特征词的处理进行了改进,对其进行进一步分析,对不同类型的特征词采用不同的处理方法,去掉其中抽象无用的内容,将有意义的词置入主题词集,再利用HowNet知识库12对其进行扩展,将与之有同义、上义等关系的词也置入主题词集,以避免特征图1 多知识源融合的自动摘要系统结构图 的遗漏。这里出于评测比较的需要,主要关注标题中的词。标题和文章的主题之间有着紧密的联系。为了详细分析标题与主题之间的关系,我们从互联网上收集了100篇不同风格的文章并对其进行分类简化。根据标题多大程度地反应了文章的主题,我们将文章的标题分为2类:“具体型”标题和“抽象型”标题。“具体型”标题明显指示了文章的主题,如女足确定奥运会目标:至少进入前四 争取夺奖牌。“抽象型”标题常常是文章主题的一种比喻性表达,特点是标题中词很少出现在正文中,如世界杯决赛“亚洲三龙”能否升天;这类标题还包含“疑问型”,如环球嘉年华 到底要从北京人的兜里掏走多少钱?。分析发现,“抽象型”标题对文章分析用途很少,而“具体型”标题常常就是文章的主题,为此系统作了相应的分析处理。基于动态主题特征的算法描述如下:1) 提取文档标题,对其进行分词处理,过滤掉其中的停用词,将标题特征词集存入向量Vh;2) 提取文档第一段、第二段、末段,将内容词集存入向量Vc;3) 如果|VhVc|P, 则判断文档标题为“抽象型”标题。其中,P为一个给定阈值,根据实验确定为3;|为集合的势;4) ,如x疑问词库,文档标题也判断为“抽象型”标题,其中疑问词库为事先构造;5) 如果标题无3)或4)中特征,则判断其为“具体型”标题;6) 对于有“具体型”标题的文章,分析其标题并将其中有意义的词置入主题词集;7) 对主题词集中属于HowNet词库的词w进行扩展:取w在HowNet词库中的部分DEF(concept definition)词集D,如果D停用词库,将D存入主题词集;其中,DEF中先过滤掉一些普通的含义较泛的词,如“属性”、“事件”等;8) 遍历全文中句子,根据主题词集给文档中各句赋予一定的权值。9) 将各句权值按各句在原文中顺序输出到一个文档中,用于多知识融合。2.2 改进的词汇链分析这里使用HowNet知识库作为计算词汇链的主要知识库,将词汇链方法首次应用于中文自动摘要,并对原始词汇链方法3改进如下:利用更多词条间关系而不仅是名词间的关系来提取文章主题,提高文摘质量;通过实验比较过滤掉HowNet词库中一些有较少语义含义的DEF,如“属性”、“事件”等,消除词的DEF歧义,避免其干扰词间关系的判断以致构造出错误的链;结合HowNet词库及中文文章特点,修改词汇链构造时的判断规则,使系统性能在精确率和召回率上均有明显提高。算法描述如下:1) 读取文件,进行分词处理将其转换为词串;2) 过滤停用词,选择属于HowNet知识库中的词w1w2wn入候选词集;3) 读入一个词wi (i1,n),根据链成员间的相关标准,为wi寻找一条适当的链L并将wi及其在HowNet词库中的部分DEF词集Di插入链,如果找到这样的链则转第6步;相关标准为:wi和链L中词wr ( ri )在HowNet中DEF词集Di和Dr中成员存在特定依赖关系;4) 为候选词wi构造一条新链;5) 如果未到候选词集尾,则转第3步;6) 计算各词汇链的权重值S: (1) (2)其中,为链中第m个词wm在文中出现的频数,K为链中成员数,H是一个均一性指数;7) 将各词汇链按权值从高到低排序,删去成员数为1的链;8) 逐条读入词汇链,从中各选择一个典型词wj代表该链主题, wj满足:,其中为词wj在文中出现的频数;9) 从文中找到包含强链中典型词首次出现的句子,依链分值赋予该句一个权值;若该句已赋有权值则对典型词在文中下次出现的句子赋此权值。2.3 话语结构分析基于话语结构的文档分析综合文本的中心语义、各个主要单元间的内在逻辑关系及每个基本单元的信息含量等,再将分析的结果按一个统一的量化度量融合到一起,给文档中每个句子赋予一定权值,以定量确定其在文章中的作用。具体算法如下:1) 进行内容结构分析,借助通过大规模语料库人工总结构造出的层次结构分析词典,分析文本单元之间在内容上的逻辑关系,建立一棵层次结构依存树Ts;2) 若各自然段间只存在顺序关系,则进行子主题划分,否则转4;3) 将子主题划分后位于同一意义段的多个自然段间的关系修改为并列关系并重新构造每个意义段内部的结构树,意义段间按顺序关系重新构造内容结构树; 4) 进行语句间的修辞结构分析,借助大规模文档研究总结的连接结构分析词典,分析各文本单元之间的相互关系,构造一颗修辞结构树Tr;5) 对修辞结构树和内容结构树进行重构,将树中父节点与其它节点的关系传递到隶属关系中的子节点,使树中仅保留对应于文摘抽取的基本单元(复句)的节点;6) 遍历重构的修辞结构树Tr和内容结构树Ts,依规则融合两树构造一个有向图G(V,E,Wc),图中每个节点vi唯一对应于文档中一个文摘基本单元;其中V是图中顶点集,E是各顶点间有向边的集合,Wc是顶点间各有向边的连接权值;7) 遍历构造出的有向图G(V,E,Wc),将有向图中的每种连接关系ei转化成统一的量化度量,根据加权规则计算图中每个节点vi的权值wci,完成对文摘基本单元加权。2.4 多知识源融合生成文摘多种分析结果需要融合在一起,以定量确定各语句在文章中作用,给文摘抽取提供一个量化标准。由于获取的结果所对应的基本单元相同,即同一文本基本单元对应着三种分析设定的三个不同权值,融合时只需将这三个权值按特定算法进行加权叠加即可。为简单而无冲突地融合这些分析结果,权值融合采用线性插值方法,加权系数采用遗传算法13进行确定和优化。这样的综合分析策略不仅简化了融合问题,也使系统很容易加入新的方法,以保证系统的开放性和可扩充性。最终句子的权值W为: (3)其中,为第i项权值的权重系数,采用遗传算法确定为0.2、0.3和0.5; Wu为基于主题特征分析获得的权值;Ws为基于词汇链方法获得的权值; Wc为基于话语结构方法获得的权值。各句的权值计算出来后,将各句依其权值排序。文摘的构造方法是依次将权值最大的文摘基本单元(复句)加入文摘,直到文摘达到特定长度。其中长度以句数而非字数来计算。文摘长度由用户确定,通常为原文长度的5%-30%。根据各句权值抽取文摘句后,需要将这些从原文抽取的文摘句重新组织,按其在原文中顺序排列。因为算法得到的文摘句是根据其权值从文档中各自独立地抽取的,相互之间可能缺少一定的逻辑上的连贯性及流畅性,故在此应用指代消解技术进行改进。为解决指代问题,须先将文档中相关的人名识别出来。考虑到摘要系统的实时性、准确性要求,经过对大规模真实语料的统计研究,系统采用计算语言模型与人名相关规则结合的识别方法14,借助手工收集的人名识别的统计资源,可较快速准确地识别出文档中人名。然后通过对大量汉语句子的分析、文章中句子、段落之间的结构关系分析、和简单的人名及人称代词格属性分析,系统提出一些指代消解规则和基于这些规则的消解算法。算法能处理文章中出现的80%以上的指代现象,这样生成的文摘已能较好地满足用户要求。3 实验结果与评价通常有两种评价方法:内部评价方法、外部评价方法。内部评价方法直接分析评价自动摘要系统生成的文摘,通过比较来判断文摘中包括了多少原文的主题内容及文摘的流畅度等。如将自动摘要系统生成的文摘与原文比较、与人工生成的“理想”文摘比较、与不同自动摘要系统生成的文摘比较等。外部评价通过自动摘要系统对某项工作的作用来评价文摘质量。例如,用户使用文摘确定原文主题的程度、用户基于文摘能回答的原文有关问题的程度等。本文采用的是一种内部评价方法,先对系统进行定量评测,再采用主观评价对系统打分评定。3.1 多知识源融合的自动摘要系统评测评价实验构建如下:从网络上收集100篇不同风格的新闻文章作为测试语料;对于每篇文章,三位专家各自独立地从中抽取构造与原文长度比率分别为10%和20%的手工文摘,作为“理想”文摘。其中文章长度以句子数来计算。这样一共构造了600篇“理想”文摘。然后将系统生成的文摘与手工抽取的“理想”文摘作比较,通过计算平均精确率和召回率来评价系统生成文摘的质量。精确率(Precision)和召回率(Recall)按如下公式计算: (4) (5)其中,Sm是系统生成文摘的句子集,St是三位专家手工抽取的文摘并集,Sc是三位专家手工抽取的文摘交集,算子“|”取集合的势。系统性能评价结果如表1所示,比较了多知识源融合的自动摘要系统a、基于原始词汇链方法的自动摘要系统b、基于改进词汇链方法的自动摘要系统c、基于话语结构方法的自动摘要系统d的性能:表1 系统性能评价摘要比率系统a系统b系统c系统d10%精确率0.7630.6720.7260.714召回率0.7950.7290.7720.7620%精确率0.750.6540.7120.728召回率0.7810.6940.750.74由表1可见,与仅基于单一话语结构或词汇链方法的摘要系统b、c、d相比,多知识融合的摘要系统a在精确率和召回率上均有明显提高。这表明系统有效地融合了这几种分析方法,在满足系统处理性能的同时也进一步提高了生成文摘的质量。其中,基于改进词汇链方法的系统c的性能也比采用原方法的系统b有所提高。此外10%比率的文摘质量要明显好于20%比率的文摘,这显示随着文摘长度的增加,文摘间差异也扩大了。事实上,各个专家所做的手工文摘之间的差异也是随文摘长度增加的。此外,虽然系统所用语料为网络新闻类文档,但系统中引入的主要分析方法与文本所属领域无关,因而系统具有良好的移植性能。3.2 主观评价多知识源融合的自动摘要系统主观评价由几位专家在综合考虑文摘的主题倾向性、完整性、概括性、可读性等因素后,对系统生成的100篇文档的文摘的可接受度给予打分评定。表2给出对多知识源融合的系统生成的文摘(方法1)和仅融合词汇链方法及话语结构方法而不包含改进浅层主题特征分析的系统生成的文摘(方法2)的可接受度评价结果:表2 文摘的可接受度评价可接受度方法1方法2较好78篇71篇一般13篇17篇差 9篇12篇评价结果表明,与不包含改进浅层主题特征分析的方法2相比,多知识源融合的方法1的文摘性能有明显提高。仔细分析各系统所获得的文摘结果发现,采用动态主题特征分析方法,根据标题的“抽象”或“具体”类型判断是否需要融合主题词,系统往往能将文本中一些具有画龙点睛作用的关键性主题句提取出来,从而明显改进了系统的性能;同时也避免如果对不同类型的特征词作相同的处理会给系统加入一些无用甚至有误导性的标题特征的问题。4 结论多知识源融合的自动摘要方法在进行特征词条动态分析的基础上结合词汇链分析方法和话语结构分析方法,生成具有良好连贯性和流畅性的文摘。评价结果显示,与采用单一方法的自动摘要系统相比较,该系统生成的文摘质量有明显提高。在今后的工作中将深入研究语言生成问题,结合未登陆词识别等技术,进一步改进生成的自动文摘的质量,使其更接近人工文摘的自然性、流畅性。参考文献1 Mani I, Maybury M. Advances in automatic text summarization. Cambridge: MIT Press, 1999. I-VIII2 Kupiec J, Pedersen J, and Chen F. A trainable document summarizer. In: Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Seattle, Washington. July 1995: 68-733 Barzilay R, Elhadad M. Using lexical chains for text summarization. In Mani I, Maybury M, editors, Advances in automatic text summarization. Cambridge: MIT Press, 1999: 111-1224 Marcu D. The rhetorical parsing of natural language texts. In: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics. July 1997: 96-1035 Cremmins E T. The art of abstracting. 2nd Edition. Arlington, Va.: Information Resources Press, 1996: 160-1606 Morris J, Hirst G. Lexical cohesion computed by thesaural relations as an indicator of the structure of the text. Computational Linguistics, 1991, 17(1): 21-487 Chan S W.Extraction of salient textual patterns: synergy between lexical cohesion and contextual coherence. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans,2004, 34(2): 205-2188 Alam H, Kumar A, Nakamura M, et al. Structured and unstructured document summarization: design of a commercial summarizer using lexical chains. In: Proceedings of the 7th International Conference on Document Analysis and Recognition. August 2003: 1147-11509Qing-cai Chen, Xiao-long Wang, Bing-quan Liu, et al. Subtopic segmentation of Chinese document: an adapted Dotplot approach. In: Proceedings of International Conference on Machine Learning and Cybernetics. November 2002: 1571-157610Reynar J C. An automatic method of finding topic boundaries. In: Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics. 1994: 331-33311刘挺,王开铸.基于篇章多级依存结构的自动文摘研究. 计算机研究与发展, 1999, 36(4): 479-48812董振东. /, 200513Buckles B P, Petry F E, et al. Genetic algorithm. Los Alamitos, CA: IEEE Computer Society Press, 199214Chen H H, Ding Y W, Tsai S C, et al. Description of the NTU system used for MET2. In: Proc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年电动医疗护理床行业研究报告及未来行业发展趋势预测
- 中国邮政2025青海省秋招社区团购运营岗位面试模拟题及答案
- 石油储量评估指南
- 乌海市烟草公司2025秋招审计岗位高频笔试题库含答案
- 焦作市烟草公司2025秋招综合管理类岗位面试模拟题及答案
- 宜春市烟草公司2025秋招财务管理岗位面试模拟题及答案
- 内江市中区中烟工业2025秋招车间管理岗位面试模拟题及答案
- 工厂废弃物处理环保方案范文
- 2025下半年丽水市直事业单位招(选)聘27人-统考考试参考题库及答案解析
- 2025红河州个旧市工人疗养院医师护理等工作人员招聘(10人)考试参考题库及答案解析
- 冶金行业重大生产安全事故隐患判定标准
- 2025年广西中考化学试卷真题(含答案解析)
- 炎症性肠病的饮食护理措施讲课件
- 物业公司廉洁培训课件
- 2025至2030年中国成都市酒店行业市场发展调研及投资方向分析报告
- 医院“十五五”发展规划(2026-2030)
- 黑龙江学位英语考试试题及答案
- AI大模型驱动的智慧供应链ISC+IT蓝图规划设计方案
- (2025)语文单招考试试题与答案
- 儿童周期性呕吐综合征治疗指南
- 道观庙宇托管协议书
评论
0/150
提交评论