




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第卷第期年月南京大学学报 (自然科学 ) ( ),檿檿檿檿檿檿檿檿檿檿檿檿檿檿殨殨殨殨数据挖掘专栏基于维基语义的多文档文摘研究龚书,瞿有利 ,田盛丰(北京交通大学计算机与信息技术学院 ,北京 ,)摘要 :多文档文摘作为自然语言处理领域的重要技术之一 ,能从不同角度辅助用户实现高效的信息获取 由于文档集合内的内容往往来自不同的信息源 ,文本之间通常存在丰富而复杂的语义关系 常用的基于词的文档表示法 ,难以为文摘的语义分析过程提供充足而准确的数据信息 为此 ,我们提出使用维基百科 当今世界最大的在线概念语料库 为多文档文摘的提取提供语义支持 一方面 ,我们通过提取文档中的维基概念 ,生成准确一致的句子表示形式 另一方面 ,在计算句子特征时 ,我们利用维基词条的首段指导机器文摘的提取 我们首先通过计算概念在维基中的全局相关性和当前文档集内的局部相关性 ,获取概念的权重 然后在维基概念表示的基础上 ,为文档中的句子提取多种基于维基的特征 ,并最后用于文摘生成 在实验中 ,我们依次用各个维基特征独立生成文摘 ,并使用 ( ,面向召回率的要点评估 )指标评价文摘质量通过比较,实验验证了维基词条首段能较好的提升文摘质量 关键词 :自动文摘 ,语义分析 ,概念表示 ,维基百科中图分类号 : , , ( , ,): , , , , , , : 基金项目 :教育部科学技术研究重点项目 (),国家自然科学基金 ()收稿日期 :通讯联系人 ,: , , , : , , ,互联网和搜索引擎的相继出现 ,极大的推动了信息化的进程我们飞快地从持续了多世纪的信息匮乏年代 ,跨入了信息爆炸的世纪然而信息消费的速度成为了实现信息高速流通的主要瓶颈当今网络搜索的速度基本以毫秒 ()为单位 ,一次搜索能在几百内返回成百上千条搜索结果以人类的阅读速度 ,通读这些信息往往需要耗费少至几个小时 、多至几天的时间如果将人脑看作一个信息处理系统 ,这一系统的工作方式已经难以负荷信息时代的数据输入量为此 ,高效的信息处理技术的研究迫在眉睫自动文摘作为自然语言处理的一个分支研究领域 ,利用计算机高速的计算能力 ,自动提取电子文档的中心内容 ,形成简练而全面的文摘结果自动文摘通过高度的信息压缩 ,从过滤冗余和无关信息的角度 ,辅助阅读 ,达到减少人们阅读量的目的经过压缩后的文摘 ,可以看作原有电子文档的缩影 ,并且具有以下三个优点 :)过滤无关信息 ,从而有助于集中用户的阅读焦点 ;)帮助用户快速捕获文档的主要内容 ;)能提供信息快速定位功能 ,协助用户直接锁定关键信息从整体上来说 ,自动文摘能从不同角度辅助用户实现高效的信息获取自动文摘始于年代末期,在之后五十多年的研究中 ,基于词的文档表示方法在自动文摘研究中一直占据重要地位这一方面是因为词是文本的最小语义单元 ,词与词依次连接构成文档 ,所以词向量是文档最为直观的表示方式另一方面更是因为在多年的实验研究中 ,这一表示方法所体现出的多个优点 :)统计词频往往能够指示出文档中的重要信息中高频词一般是文档主题的主要构成)作为一个表层的统计值 ,词频信息很容易获取 ,不需要对文本进行复杂的预处理 ,也无需对文档内容深层的理解 ,降低了文档表示的复杂度 ,适用于各种数据集然而对大规模信息处理的需求 ,使得多文档文摘逐渐成为了自动文摘领域主要关注的研究对象多文档文摘的提取对象一般是围绕某一主题 ,经过搜集得到的文档集合这一集合具有一个较为明确的中心主题 ,同时也包含多个与其相关 、或相互关联的辅助主题较为复杂的文档集合内部语义关系 ,使得各个主题之间容易存在多义词的交集而从各种信息源搜集而得的文档之间 ,也往往因为作者的写作习惯差异和语言的丰富性 ,导致因为用词不统一而混杂各种同义词因此 ,面对多文档中存在的丰富而复杂的词的语义现象 ,如果我们仍然将文摘系统构建于文档的词表示之上 ,文摘算法必然要承担所有的语义分析任务以保证文摘质量这一方面对各种以机器学习为代表的文摘算法提出了较高的要求 ,另一方面也不利于通用算法的移植所以 ,随着语义分析技术的发展和各种语料库的构建 ,基于概念的文档表示方法成为了自动文摘近年内较为关注的研究方向概念之所以被用来取代词 ,这是由于从语言产生的角度来看 ,词的选择本质上是受概念驱动的我们往往是先在大脑中产生某个概念 ,然后再用语言将其表述出来对同一概念 ,不同的人有不同的表述结果 ,但其围绕的中心对象是一致的语 第 期 龚 书等 :基于维基语义的多文档文摘义三角论强调 ,概念是联系客观实体和语言符号的纽带所以 ,基于概念的表示方法通过将文字下的潜在语义表示成计算机可处理的形式 ,为后面的文摘提取提供更高质量的数据输入尽管基于概念的表示法在多文档文摘中具有重要的地位 ,它的获取过程却远困难于基于词的表示法 ,具体体现在 :)如何获得公认的概念定义 ,这也是进行概念分析的前提)如何定义概念的机器表示形式正如词一样 ,我们更倾向于寻找一种易理解并直观可见的概念表示形式)如何将概念从文本中剖析出来 ,并给出其在原文本中准确的定位这对于基于抽取式的文摘是至关重要的现在较为常见的概念方法 ,或直接匹配领域内语料库 (如本体和)的概念以获取概念集合 ,或使用基于词特征的各种语义分析技术挖掘潜在语义 ,如( ,潜在语义分析 )等方法前者往往受到语料库大小 、领域和维护等方面的限制 ,难以充分提取文档中的概念 ,导致重要文摘句的缺失 ;后者则过分依赖算法而忽视了知识的使用 ,在准确性以及表示形式的易理解性上存在缺陷 ,也使得对文摘提取过程的分析较为困难考虑到以上两类文档的概念表示方法的优缺点 ,我们选用当今世界上最大的在线概念知识库维基百科 ()对文档进行语义分析 ,利用自动维基化技术获取文档的维基概念表示然后我们进一步根据维基概念间的关系 ,以及其所对应的半结构化的概念描述形式 ,为文档集中的每个句子提取多个维基特征这些特征 最 终 应 用 于 候 选 文 摘 句 排 序 与 文 摘生成本文接下来将首先介绍维基百科的概念结构以及我们选择它作为语义分析基础知识库的原因然后在相关工作中 ,概括总结用于维基概念识别的相关技术 ,以及使用维基百科进行自动文摘的相关研究进展在第四节我们将逐步地详细介绍系统的设计第五节是实验的对比与分析最后一节是本文的总结和下一步工作的展望 维基百科简介维基百科起始于年月 ,是由非盈利组织维基媒体基金会运作的最大的维基项目维基百科能在短短不到十年的时间内迅速崛起并成为互联网上最受用户欢迎的知识库 ,主要得益于它特殊的在线协同创作的编辑模式这种模式与传统的辞典构建过程相比 ,不需要专门召集编撰人力 、调配资源 、投入大量组织管理精力 ,而是在预定义的词条编辑规则的指导下 ,主要通过在线用户自愿贡献的知识 ,丰富和维护词条内容每个词条一直保持共享和开放编辑的状态 ,这一方面使得词条的质量能通过不同用户的反复修改审查而提高 ,另一方面也使得词条内容能随着时代发展和语义变化而动态更新 ,这是大部分的传统辞典难以长期做到的维基百科作为一个可在线获取的巨大电子语料库 ,吸引着越来越多来自自然语言处理各研究领域的关注我们选择维基百科为文摘系统提供概念表示基础 ,主要是基于它的以下几个特性 : 多粒度的概念表示和半结构化的词条组织模式与大部分以概念为主体构建的知识库一样 ,维基百科中的概念也通过使用重定向关系 、歧义关系 、类关系和词条里的维基链接 ,构成层次化的网络结构但在概念的表示上 ,维基百科为每个概念提供了更为细致且丰富的描述形式在维基百科中 ,每个概念对应于一个独立的词条 ,其中通常包含了该概念一个或多个不同粒度的描述 ,如 :概念名字 (即词条的标题 );概念定义 (即词条的首句 );概念简介 (即词条的首落 );概念详细描述 (词条首段后的所有内容 )这四种描述分别从简洁到具体地表示一个概念 ,能够满足不同概念分析任务的需求同时 ,不同于一般的文本 ,词条内容的组织是半结构化的 ,也方便我们获取其中的任何一个部分 概念具有世界范围的普及和共识获取和使用概念的基础是存在能达成公众共识的概 南京大学学报 (自然科学 ) 第 卷念定义但由于不同的人对概念的关注和理解角度不一 ,甚至同一个人在不同的时刻给出的概念定义也有出入 ,这一基础问题成为概念表示所必须解决的首要问题互联网的存在 ,使得维基百科中的词条能够实现即时编辑即时可见的维护模式来自世界各地的大量用户根据自己和他人的知识编辑词条 ,达成共识 ,而这一共识也通过阅读而传播向所有的用户这从不同的角度保证了每个存在的词条所给出的概念定义是获得了世界范围内大部分人认可的 可持续化的发展潜力无论是通过语义分析的方法还是使用知识库 ,可获取的自然语言数据集的规模对自然语言处理有不同程度的影响过小或过局限的数据集必然导致系统准确率低 、移植性弱等问题维基百科中的语言数据无论从规模还是覆盖面上 ,都能提供一个持续增强的支持截止至年月 ,维基百科共包含种语言的词条 ,其中将近四分之一的是英语词条 ,共,条同时 ,历时越久 ,词条的质量将随修改次数的增多而得到提高 语料库可获取且存在可使用的语义分析工具如今的维基百科 ,已经不仅仅是一个单一的向网络用户提供知识查询的服务 ,而是正在发展成为一个成熟的语义平台这一平台由维基百科向用户免费提供的数据 ,由此衍生出的一系列数据获取和分析工具 ,以及相继被开发出的各种语义分析的技术构成本文工作中用到的可用于将文本自动维基化 ,并分析概念间的语义相关度等 相关工作 自动维基化自动维基化 ()一词衍生自维基化 ()维基化在中文维基百科中被定义为 “将内容修正为符合维基百科格式手册标准的过程”而自动维基化 ,主要侧重于用计算机自动地在文本中选择重要的词或短语 ,并为其添加正确的维基内部链接以指向相关的维基概念自动维基化可分为三个主要步骤 :关键短语检测 ,短语消歧和短语链接化 关键短语检测关键短语检测的目标是识别出文档中潜在可用的链接对象这些对象可以是任意的词或词组 ,但必须能对应某个具体的概念 ,且这一概念在维基百科中存在相应的词条各种应用于关键词提取的监督和非监督方法都可用于关键短语检测 ,然而在自动维基化最初的研究中 ,采用的是一种简单但有效 的 统 计 方 法 ,即 关 键 短 语 度 ()这一方法利用维基链接的链接文本就是概念名称这一特点 ,计算候选短语在维基百科中被添加维基链接的概率经常以维基链接的形式出现的短语 ,必然是对应于维基百科中某词条的概念的表示形式 短语消歧由于一词多义现象的存在 ,在为关键短语匹配对应维基概念时 ,我们可能会遇到三种情况 :首先 ,如果该短语存在于某个概念的重定向页面 (即概念所有的名称集合 ),我们可以通过维基百科的重定向功能找到对应的概念 ;其次 ,该短语在其对应的所有维基链接中 ,都具有相同的链接目标概念 ,我们称这种短语为无歧义短语最后 ,对于具有多个不同链接目标的短语 ,我们需要使用词义消歧技术来选择最符合当前文本上下文的语义上下文信息是词义消歧的重要依据 ,在许多消歧技术中都有体现从词匹配的角度 ,可以通过直接查找短语的上下文和候选语义所对应词条内容的共现单词来计算上下文匹配度从机器学习的角度 ,可以提取短语上下文的特征用以训练语义分类器常用的特征一般来自短语本身和其邻近词 ,例如这些词和它们的词性标注 ,还有一些特征来自上下文中存在的无歧义短语 ,例如通过计算与它们的相关度而得到候选语义的上下文相关度从统计学的角度 ,短语各个候选语义的在语料库中的使用概率也是一个重要特征 短语链接化根据维基百科的格式规定,每个维基词条内所存在的维基链接必须与该词条的概念密切相关 ,并且控制在一个合 第 期 龚 书等 :基于维基语义的多文档文摘理的数量范围内目的是保持维基链接作为辅助概念理解之用 ,同时不过分影响正常的阅读过程为此 ,在维基化步骤中 ,我们需要先从消歧后的短语里选择一定数量的重要短语 ,再将其链接到对应的概念这可以看作是一个标记与不标记的分类问题 ,所以也可以用机器学习方法通过训练分类器来实现 基 于 维 基 的 文 摘 方 法从年 开始,各种自然语言研究领域陆续开始使用维基百科 ,例如语义相关性分析 、词义消歧 、查询词扩展 、多语言检索 、问答系统 、实体排序 、文本分类等等自动文摘领域与维基百科相关的工作主要开始于年在这些工作中 ,存在两种主要思路 :一 种 思 路 是 用 维 基 概 念 替 代 词 使用引擎查找句子中的维基概念 ,通过统计概念的句子频次 ,将包含高频概念的句子选为文摘句 通过重定向功能查找到文档中词对应的概念 ,并认为这些存在于维基百科中的概念都是较为重要的 ,从而相应的提高包含有维基概念的句子的重要度 将句子表示为一个概念相关度向量 ,其中每个值为句子内所有概念与文档内某个概念的相关度之和通过匹配查询中的命名实体等词与维基词条标题得到查询的概念集合 ,用对应维基词条的首段中包含的概念扩充查询 ,用于提取基于查询的文摘另一种思路是利用半结构化的维基词条内的各种组成成分 借助于词条内存在的维基链接 、信息框和大纲 ,为维基词条生成文摘维基链接可直接用于表示概念 ,而信息框和大纲作为人工编写的提纲性内容 ,对于文摘生成可以起到指导性的作用 尝试利用维基词条的首段过滤无关句子 ,但其对查找文档中维基概念的方法介绍较为简略从对现有工作的分析我们可以看到 ,这些工作从各个方面验证了概念表示对文摘结果的改进作用 ,但在提取文本中的维基概念时 ,使用的策略大部分都是基于概念标题的词匹配 ,而没有考虑概念语义在词表现形式上的多样性 ,以及多义词的消歧问题为此 ,在本文中 ,我们将利用现有的自动维基化技术对概念的识别能力 ,提取文档较为准确而全面的概念表示同时 ,我们将结合概念单元的重要性和词条内具有指导性的信息 ,共同提取文摘句 系统设计 预处理由于在抽取式文摘系统里 ,是以原文的句子为单位组成最终文摘 ,所以对文档集合进行去噪处理后 ,我们首先对所有文档进行断句处理我们使用的是中自带的翻译版的基于规则的断句算法 概念获取由于自动维基化的目的是查找文档中与文档主题密切相关的关键短语 ,并选择其与上下文最为相关的语义 ,它最终选择链接的短语的目标概念即是文档集最为相关的概念集合所以我们直接用这一方法来获取文档句子的概念表示我们采用的是包中的自动维基化算法对文档机械地划分多元词后 ,我们首先通过自动维基化最初研究中采用的关键短语度指标 ,计算短语的维基链接概率值 ,过滤无意义或没有被链接过 (可能因为是停用词 ,或没有被维基收录的短语 )的多元词在短语消歧阶段 ,以下三个特征被用于分类器的训练和短语所对应的语义概念预测 :)使用概率 :即统计维基百科所有词条中 ,短语被添加维基链接时 ,各个语义所对应概念被链接的概率)上下文质量 :上下文被定义为无歧义短语的概念集合这一集合的整体质量对消歧算法有着重要的影响通过计算每个短语与其它短语之间的语义相关度之和 ,结合短语自身的维基链接概率 ,可得到上下文短语的权重上下文的整体质量就是所有上下文短语的权重之和 ,代表了上下文自身的相关度和关键性)相关度 :衡量一个候选概念与上下文的相关性 ,即该概念与上下文短语的加权 南京大学学报 (自然科学 ) 第 卷相关度之和由于上下文质量对消歧的影响 ,我们将整个文档集的内容合并为一个整体的文档做自动维基化处理 ,目的在于提供尽可能多的上下文参考信息在获得文档集的所有概念集合后 ,我们再根据每个概念对应出现的位置 ,统计得到每个句子的概念向量 ,表示如下 :()(,) ()其中 ,(,)为文档集中概念在句中出现的频次 概念权重计算自动维基化的最后一步是选择与文档最相关概念在中 ,一系列特征被用于训练 分类器 ,对概念的相关度进行评定这些特征包括 :文档中的出现频率 ;消歧计算获得到的最大可信度 ;消歧计算获得的平均可信度 ;与其它所有概念的平均相关度 ;所有对应短语的最大维基链接概率 ;所有对应短语的平均维基链接概率 ;抽象性 ,即在维基分类树上所处深度的倒数 ,值越大 ,类别越抽象首次出现的位置与文档开头的标准化距离 ;最后出现的位置与文档结尾的标准化距离 ;首次出现的位置与最后出现位置的标准化距离通过分类器的计算 ,我们可以得到文档概念的维基化权重向量:()(),()这一权重是根据概念在维基百科中的全局相关性计算它与上下文的关系的然而在具体的文档集中 ,概念间的关系会出现局部的密合为此 ,我们根据文档集内概念的同句共现信息 ,进一步构建文档集内的概念网络 ,利用在基于随机游走的图模型对概念重排序文档的概念网络以概念为结点 ,概念之间的全局和局部相关性的加权和作为它们相连边上的权重由此可以得到概念的相关矩阵,其中每个元素为 :(,)(,)()(,),()其中 ,用于调节两种相关性的比重 ,而 :(,)(,)()(,)(,)(,)()(,)表示两个概念在文档集内在同一个句子内共现的次数我们将概念的维基化权重作为偏倚信息 ,相关矩阵作为转移矩阵 ,输入到随机游走模型中 ,得到概念修正后的权重 :()()()(,)() ()至此我们获得每个句子最终的加权概念向量表示 :()(,)()() 句子特征计算 语义中心度 ()通过计算句子的加权概念向量之间的相似度同样的 ,我们也可以计算出句子与查询信息之间的语义相关度以此两种信息 ,我们同样的可以通过随机游走的方法 ,构建句子的关联网络 ,得到句子的语义中心度特征 维基概念首段加权相似度 ()如公式和所示 ,这一特征是通过计算句子与其中包含的维基概念首段中句子的词向量的最大相似度 ,经过加权后的求和()()()(),)()(,)(,),()其中()表示句子中包含的维基概念是某概念首段中第个句子由于在维基百科中 ,首段是对每个词条概念的概括性描述 ,是 第 期 龚 书等 :基于维基语义的多文档文摘人工撰写的概念文摘如果一个句子与其中概念首段的内容相近 ,这样的句子必然是接近人工文摘句的要求而加权后更倾向于选择与关键概念首段句更接近的句子 维基概念首段最大相似度 ()如公式所示 ,这一特征取的是句子与文档集中所有概念的首段句的最大相似度值这一全局最大相似度特征的引入是因为在一些情况下 ,句子语义相关的概念并不包含在句子内部()(,),() ()除了以上三个基于维基的特征以外 ,我们还使用文摘系统默认的两个常用的文摘特征 :和其中是一个阀值特征 ,用以过滤无意义短句是句子在文档中位置的平方根和的倒数因为从写作习惯上分析 ,越靠前的句子被认为更有概括性 文摘生成通过将以上五个特征线性的组合 ,我们可以得到句子最后的评分 ,并进行排序对排序后的句子 ,我们根据排名从高到低的将每个句子加入文摘句集合 ,直到集合中句子的总长度达到文摘篇幅限制在将句子加入文摘句集合前 ,我们需要判断该句是否与任何已选择的文摘句存在冗余我们使用句子的词频向量计算句子间的冗余度 ,舍弃冗余度大于的值最后 ,我们根据句子所在文档的产生时间 ,以及同文档句子间的位置顺序 ,从早至晚 ,从前至后地对文摘句进行排序 、连接 ,得到最终的文摘结果 实验我们使用的文摘数据集进行实验这一数据集由个主题文档集合及人工编写的标准文摘构成每个文档集包含篇长短不一的英文新闻文章 ,都是关于同一话题的新闻报道每个文档集有四篇对应的词人工文摘 ,用于文摘结果的评测在评测时 ,我们使用的是自动文摘评测时常用的指标首先我们单独的使用除以外的四个特征生成文摘 ,以对比它们各自对文摘句的选择能力(在独立使用特征时 ,得到的是常用的基准系统 ,即选择文档的首句 )由表可见 ,将句子与其包含的维基概念的词条首段进行匹配 ,能超过常用的基于图模型计算句子中心度的方法这一结果有效地证实了维基概念的词条首段能提升自动文摘质量我们认为其中的性能较差是因为所有概念首段的并集内容覆盖面太大由于维基词条包含的对概念较全面的描述 ,而我们的实验文档集更倾向于围绕概念的具体相关事件 ,所以使用过多的概念首段会降低句子重要度的评测准确性表 独立特征的性能比较 () ()特征 我们通过调节特征所使用的概念数量 ,验证了这一推测从图中可以看到 ,的性能随着选择的概念数量增多而逐渐降低G1 G2G3 G2G1 G4G3 G4G1 G5G3G6G7G8G9GAGBGCGDGBGAGEG9GAG8GCGFG10GAG11G12G13G14G15G16G4G11G12G13G14G15G16G17G13G18G3G19G3G1AG3G19G3G1BG3G19G2G3G19G2G2G3G19G2G4G3G19G2G5G3G19G2G18G3G19G2G1G3G19G2G1C图 当选择不同百分比的高权概念时 ,特征的性能变化 南京大学学报 (自然科学 ) 第 卷文档集内概念的数量与各特征所提取文摘质量之间 ,也存在类似的关系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 盲人摸象说课课件
- 小学教师参观学习活动个人总结
- 基于ARMA-GARCH模型的条件尾部风险预测
- 面向小样本跨域复杂场景的旋转机械设备智能诊断算法研究
- 2024年湖北三新供电服务有限公司招聘笔试参考题库含答案解析
- 2025年陕西省商州市事业单位公开招聘医务工作者考前冲刺模拟带答案
- 重症监护室安全护理对策
- 临床体温监测方案的安全提醒
- 静态氧疗实施的安全标准
- 脊柱曲度异常康复护理查房
- 回弹法检测泵送混凝土抗压强度技术规程DB64-T697-2011
- EHS法律法规清单与合规性评价结果记录表
- 关于配电房培训课件
- 2023年SQE供应商质量工程师年度总结及下年规划
- 团员组织关系转接介绍信(样表)
- 保理的概念、类型与范围
- 食堂委托管理合同标准范本(5篇)
- 千米钻机操作规程
- WebRTC音视频实时互动技术:原理、实战与源码分析
- 社会主义经济理论习题与答案
- 降低住院病人口服给药错误风险 持续质量改进
评论
0/150
提交评论