(计算机应用技术专业论文)个性化自动文摘的研究与实现.pdf_第1页
(计算机应用技术专业论文)个性化自动文摘的研究与实现.pdf_第2页
(计算机应用技术专业论文)个性化自动文摘的研究与实现.pdf_第3页
(计算机应用技术专业论文)个性化自动文摘的研究与实现.pdf_第4页
(计算机应用技术专业论文)个性化自动文摘的研究与实现.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)个性化自动文摘的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

个性化自动文摘的研究与实现 曹淑英( 计算机应用技术) 指导教师:索红光( 副教授) 摘要 随着i n t c r n e t 的普及与发展,网络已成为一个巨大的信息源。大量的 数字信息在带给人们丰富便利的信息资源的同时,也给有效信息的快速获 取带来了困难。自动文摘技术是自然语言处理领域的一个课题,它利用计 算机自动地对文章进行处理,生成基本反映文章主题的摘要。利用自动文 摘技术,人们可以减少寻找信息的时间。介绍了自动文摘技术中两个关键 问题的研究。一个是文本的意义段划分问题,意义段划分是自动文摘技术 研究的一个重要内容,它将文章中所讨论的不同主题划分开来,每个主题 为一个意义段。在总结前人工作的基础上,从意义段划分的目的和相关的 理论出发,针对传统的基于词语的t e x t t i l i n g 算法中信息量不足的问题, 对词语进行基于h o w n c t 的概念扩展,通过概念进行紧凑度计算。实验结 果表明,基于概念扩展的t c x t t i l i n g 算法,在意义段划分的准确性和主题 识别率上都有较大的提高。另一个是自动文摘技术中的句子计算问题,针 对传统的基于词语统计的句子计算方法中缺乏语义分析的问题和基于文 本结构分析的句子衡量方法中语法分析不够准确的问题,结合两种方法的 思想,对词语进行基于规则的组块划分,以组块为基本单元对句子进行处 理和计算。实验结果表明,基于组块的句子计算方法能够较好的提高文摘 质量。最后介绍了基于用户兴趣的个性化自动文摘系统,给出了系统流程 图和计算方法,通过用户对文章子主题的感兴趣程度对文摘句进行处理。 实验结果表明,个性化自动文摘能够较好的满足人们的需要。 关键词:个性化信息服务,自动文摘,主题意义段划分,文本组块 d e s i g na n dr e s e a r c ho fp e r s o n a l i z e d a u t o m a t i c a b s t r a c t i n g c a o s h u - y i n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db y a s s o c i a t ep r o f e s s o rs u oh o n g - g u a n g a b s t r a c t w i t ht h ep o p u l a r i z a t i o no f t h ei n t e m e t , t h en e t w o r kh a sb e c o m eah u g e i n f o r m a t i o nr e s o u r e t h el a r g ea m o u n t so f i n f o r m a f i o nn o to n l yp r o v i d e su s w i t l lt h ef a c i l i t a t ei n f o r m a t i o nr e s o u r c e b u ta l s ob r i n g su sap r o b l e mt h a th o w t og e te f f e c t i v ei n f o r m a t i o nf i o mt h ei n t e r n e t t h ea u t o m a t i ca b s t r a c t i n g t e c h n o l o g yi san a t u r a ll a n g u a g ep r o c e s s i n gt o p i c i ta u t o m a t i c a l l yp r o d u c e st h e a r t i c l e ss u m m a r i z a t i o nw h i c hc a l lb a s i c a l l yr e f l e c tt h ea r t i c l e si n f o r m a t i o na n d s a v eu s e r s s e a r c h i n gt i m e t w ok e yt e c h n o l o g i e si na u t o m a t i ca b s t r a c t i n ga r e i n t r o d u c e d t h ef l r s to n ei sd i s c o u r s es e g m e n t a t i o nw h i c hi sa ni m p o r t a n t a u t o m a t i ca b s t r a c t i n gt e c h n o l o g y i td i v i d e st h ea r t i c l ei n t os e v e r a lp a r t s a c c o r d i n g t ot h es u b j e c t si nt h ea r t i c l e o nt h ef o u n d a t i o no f t h ep r e d e c e s s o r s w o r k s ,t ot h el a k eo fs e m a n t i ca n a l y z i n gi nt r a d i t i o n a lt e x t t i l i n ga l g o r i t h m b a s e do nt e r m s c o n c e p te x p a n s i o nt ot e r m sb a s e do nt h eh o w n e ti st a k e na n d c o m p a c tc o m p u t a t i o nt h r o u g h t h ec o n c e p ti sm a d e 。t h ee x p e r i m e n t a lr e s u l t i n d i c a t e st h a tt h et e x t t i l i n ga l g o r i t h mb a s e do nt h ec o n c e p te x p a n s i o nc a ng e t h i g h e ra c c u r a c y t h es e c o n do n e i st h es e n t e n c ee s t i m a t i o np r o b l e mi n a u t o m a t i ca b s t r a c t i n g b ya n a l y z i n gt h es h o r t a g ea n da d v a n t a g eo f t h e t r a d i t i o n a la u t o m a t i ca b s t r a c t i n gm e t h o db a s e do nt e r m sc o m p u t a t i o na n dt h e t r a d i t i o n a la u t o m a t i ca b s t r a c t i n gm e t h o db a s e do na r t i c l eg r a m m a rs t r u c t u r e a n a l y z i n g , c h u n k st ot h er u l eg r o u p sa r eb u i l tu p , f u r t h e r m o l ew o r k s o f s e n t e n c ep r o c e s s i n ga n dc o m p u t a t i o nb a s e do nc h u n k sa r ei n t r o d u c e d i i i e x p e r i m e n t a lr e s u l t ss h o wt h a t , t h es u m m a r i z a t i o n sq u a l i t yb yt h ec h u n k c o m p u t a t i o nm e t h o d i si m p r o v e dn o t i c e a b l y f i n a l l y ,as y s t e mo fp e r s o l l a l i z e d a u t o m a t i ca b s t r a c t i n gi si n t r o d u c e d t h es y s t e mc o r a c l ea n dt h e c o m p u t a t i o nm e t h o da l es h o w e d ,f u r t h e r m o r e t h cs u m m a r i z a t i o n a c c o r d i n gt o t h eu s e r si n t e m s ti sp r o d u c e d t h ee x p e r i m e n t a lr e s u l ti n d i c a t e st h a t ,a u t o m a t i c a b s t r a c t i n gb a s e do nu s e r s 。i n t e r e s t i n ga n a l y z i n gc a nf i n e l ym e e tu s e r s n e e d s k e yw o r d s :p e r s o n a l i z e di n f o r m a t i o ns e r v i c e ,a u t o m a t i ca b s t r a c t i n g , d i s c o u r s es e g m e n t a t i o no nt o p i c ,t e x tc h u n k 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得中国石油大 学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对 本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:御年缸月1日 关于论文使用授权的说明 本人完全了解中国石油大学有关保留、使用学位论文的规定,即:学 校有权保留送交论文的复印件及电子版,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存 论文。 ( 保密论文在解密后应遵守此规定) 学生签名:蛊i 坚堡 撕7 年p 月 日 导师签名:! 主堑芝 刀年 驴月 日 中国石油大学( 华东) 硕士论文第1 章前言 第1 章前言 随着计算机的普及和i n t e r n e t 的发展,越来越多的信息出现在网络上, 这极大地方便了人们的使用和获取。网络已经成为人们获得信息的一个重 要来源和渠道。然而,随着网上信息的不断增多,如何在大量的、杂乱无 章的信息中快速获得人们所需要的信息已经逐渐成为一个值得人们关注 和重视的问题。互联网上的信息9 0 以上是以文本的形式表现的,这极大 地推动了自然语言处理技术的发展。目前,自然语言处理技术的研究已经 逐渐成为许多研究者关注的领域,信息过滤、信息检索、自动文摘等技术 成为人们研究的热点。 1 1 课题来源及研究背景 随着计算机技术的发展和网络的普及,数字信息正在以指数级的数量 增长中,越来越丰富和全面的网上信息为网民们提供了一个便利丰富的知 识宝库,同时在这些海量信息中快速准确地找到所需要的信息也越来越困 难【i l 。如何在庞大的互联网上获得有价值的信息已经成为网民们日益关注 的问题。 为了方便的查找和获取信息,人们发展并使用了搜索引擎技术。目前, 搜索引擎已经成为人们网上查找信息的一个很重要的工具和手段。人们能 够通过搜索引擎方便的找到自己想要的各种信息。比较有名的搜索引擎有 g o o g l e 、b a i d u 、s o h u 、y a h o o 等。用户只要输入自己要查找内容的关键字, 搜索引擎会自动搜索并返回相关的网页。用户可以方便的查看网页,了解 自己需要的知识和内容。然而,目前搜索引擎返回的网页还存在着很多问 中国石油大学( 华东) 硕士论文第1 章前言 题和不足: ( 1 ) 很多返回的网页内容中虽然含有用户输入的关键字,然而网页的 内容却不是作者要查找的信息。这是因为搜索引擎是通过关键字匹配来查 找网页的,并不对网页的内容进行分析,也不对用户的具体需求进行分析, 所以返回的网页往往虽然含有用户输入的关键字,但是内容却离用户真正 需要的信息相差甚远。 ( 2 ) 搜索引擎返回的是与关键字相匹配的网页,并不是简洁直接的答 案。用户需要一个一个打开网页查看才知道网页中所介绍的内容,在这些 内容中,用户需要的可能只是其中的一小部分,可是为了寻找这- 4 , 部分 就要查看整个网页,这造成了时间的浪费。 ( 3 ) 由于各个网站的转载,很多返回的网页在内容上是重复的。而且 很多网页中转载的信息并不完整。用户还需要花精力在这些网页中寻找真 正有用的网页。 基于以上的问题,有两种解决方式: ( 1 ) 改善搜索引擎的搜索方法和技术,在搜索前对用户输入的关键词 和用户的兴趣作一定的分析,即个性化搜索引擎,提高返回网页的有效性 和可用性。 ( 2 ) 对网页本身进行处理,使搜索引擎搜索到的网页内容能够用几句 简短的话语来概括。首先对文本内容进行分析处理,总结出文本所表述的 主要内容和主要话题,然后以简短有效的文本摘要的形式表示出来。搜索 引擎进行网页搜索的时候,返回的是简短的网页内容概述。按照网页内容 与用户的需求之间的匹配度由高到低的顺序将网页的简要信息显示给用 户,让用户对网页的内容一目了然,有选择的查看相应的网页,这样可以 大大减少用户的信息查找时间。 其中,第2 种解决方式就是使用自动文摘技术。从根本上讲,自动文 2 中国石油大学( 华东) 硕士论文第1 章前言 摘技术的目标是致力于对文本内容进行深入的研究和分析,将文本的主要 信息以全面的、简洁的文章摘要的方式直接呈现给用户,以提高用户获取 信息的效率。所以说自动文摘技术的重要性是不言而喻的,它的应用前景 将非常广泛。 自动文摘技术目前还有很多问题和不足,这是由自然语言的特点决定 的。目前,人们主要以词语作为文本信息的基本单位对文本进行分析,基 于词语对文本中的句子进行衡量计算。然而,在实际的语言环境中,仅仅 用这种方法对文本进行处理并不够充分。这是因为在实际使用中一个词语 往往具有多个含义,并且一个概念也往往可以用由多个词语来表示,这给 统计分析带来了极大的困难。特别是中文,文本是以字为基本形式单元的, 对没有太大信息含量的单个字的计算分析并没有什么实际意义,还需要进 行词语的划分,从而形成分词问题。同时,中文词语没有词形的变化,不 能通过词形来判定句子的时态、词语的词性等信息。中文句子的语法尚未 形成规范化,而且人们习惯于非规范化的语法,因此对中文文本内容的理 解还需要一个很长的时间。在文章的内容组织上,大多数文档并没有固定 的文本模式和表述方式,无法简单的从文本结构组成上确定文章所描述的 话题。 介于目前对中文文本信息分析不足的问题,本文将在文本语义单位的 分析和信息计算上做进一步的研究。实际存在的文本在组织结构上,有的 文章可能有明显的反映文本主要话题的段落划分,但更多的是在形式上没 有明显的话题区分。可能几个自然段描述了同一个话题,也可能一个很长 的自然段中有几个不同的话题。要做出能够全面体现文档主要内容的文 摘,就需要对文本进行意义段划分,找出表述不同文本主题的语义段。文 摘的目的就是为了满足人们方便地查找信息的要求,所以总结出文章的主 要信息后,还要针对具体的用户兴趣对信息做进一步的处理,力求使生成 3 中国石油大学( 华东) 硕士论文 第1 章前言 的文摘既要能清楚明白的表现文章的内容还要有侧重的突出用户感兴趣 的内容。 1 2 国内外研究现状 ( 1 ) 自动文摘技术研究 国外研究状况 自动文摘技术的研究是随着计算机的出现和发展开始发展的。于2 0 世纪5 0 年代末,由l u l l i l 【2 】【3 】首先提出了自动文摘的概念并设计了一个自 动文摘系统开始,自动文摘进入了研究发展阶段。 在国外,自动文摘系统的研究大体上可以分为两个阶段 4 1 。第一阶段 是从2 0 世纪5 0 年代末到7 0 年代初,称为机械文摘时期;第二个阶段是 从2 0 世纪7 0 年代初到现在,称为理解文摘时期。 由于缺乏基础性技术,自动文摘在2 0 世纪5 0 7 0 年代发展缓慢,主 要以统计和计算词语重要程度,研究句子在文本中的位置和文本的表面形 式特点进行文摘。这种基于词语统计和文本形式特征的自动文摘在定程 度上可以找出文章的关键内容,用文章中的重点句子作为文摘并获得了实 际应用。然而由于这种文摘方法所依据的是文本形式上的规律,缺乏深层 次的研究,因此,研究到一定程度,就很难再继续发展下去。并且这种方 法存在着很明显的问题:含有文章中反复提到的主题的句子被优先提取出 来,可能其它方面的内容也很重要,然而由于含有主题词比较少,往往就 会遗漏;作者为了强调某一个主题,可能会在不同的地方以不同的句子形 式反复的重复这一主题,在文摘过程中可能这些句子都被选为文摘句,从 而造成了内容上的重复。 从8 0 年代末期人们提出了基于自然语言理解的方法进行自动文摘开 4 中国石油大学( 华东) 硕士论文第1 章前言 始,自动文摘技术的研究才逐步进入蓬勃发展、百家争鸣的时代。基于理 解的自动文摘技术的基本原理是:在某一特定领域的文章中,必然存在着 一些特定的信息焦点。利用语言学手段将文章中代表这些信息的焦点词识 别出来,再用话语加以组织修饰即可以形成一篇连贯的高质量的文摘【5 】。 虽然这种方法在一定程度上弥补了机械文摘的不足,取得了良好的效果。 可是,这种方法仍然存在很多问题:面向大规模的真实语料的语法语义分 析技术尚未完全成熟,因此如果想获得高质量的语言分析结果,就必须将 待处理的语料限制在某个范围之内,无法广泛的应用于各种领域的真实语 料分析。 进入9 0 年代来,随着i n t e m e t 的开通,大量电子文本的涌现,自动文 摘的价值充分显露出来,越来越引起世人的关注。与此同时,计算机软硬 件性能的飞速提高也为自然语言的处理提供了良好的研究环境。越来越多 的学者纷纷开始从认知心理情报科学、计算语言学等各个方面展开研究, 提出了实现自文摘的新的思路和方法,自动文摘的研究进入了前所未有的 繁荣期。 国内研究状况 我国对中文自动文摘的研究起步较晚,大约从1 9 8 5 年开始介绍国外 自动文摘方面的研究情况【6 】。从8 0 年代末开始研究自动文摘实验系统至今 2 0 多年期间,我国研究人员也取得了不少的研究成果。但目前的技术水平 尚不成熟,问题主要是在中文本身的语言特点以及自然语言理解方面的困 难。 从识别角度来说,中文和西文的句子主要区别在于中文词之间没有空 格,而真正负载信息的是词而不是字,因而中文自动文摘就存在分词的问 题。中文的词汇极为丰富,同一个概念可以用很多不同的词汇表达,一个 5 中国石油大学( 华东) 硕士论文第1 章前言 词汇也可以由很多种意思,这给词频统计带来了很大的困难。同时,中文 词汇与西文相比。在句子中词形没有变化,一个词可以有多个词性,作为 不同的词性在词形上没有变化,这给自然语言处理的词性标注带来了很大 的困难。中文的语法尚未形成规范化,语法与语义变化多端很难进行准确 的分析,句子语法结构上往往有大量的省略,这都给中文文章的理解带来 了很大的困难1 7 】。 上海交通大学的王永成教授从8 0 年代末就开始研究自动摘录技术, 1 9 9 7 年研制了o a 中文文献自动摘要系统【朗。该系统集成了位置法、指示 短语法、关键词法和标题法等多种方法,是一个较为实用的系统。目前, 依托于上海交通大学的上海交大纳讯高新技术应用有限公司的中英文自 动摘要系统就是在此基础上完成的。 8 0 年代末,东北大学的姚天顺教授和香港城市理工大学联合开展了 “中文全文自动摘要系统”的研究,该系统采用脚本知识表示,通过与用 户交互获取文摘【9 1 。 1 9 9 0 年前后,中科院软件所的李小滨、徐越,在北京大学马希文教授 的指导下,对英文自动文摘进行了研究,并研制了一套实验系统 e a a s ( e n g l i s ha u t o m a t i c a b s t r a c ts y s t e m ) l 1 0 1 该系统是一个标准的理解文 摘系统,它局限于“就业机会介绍”这样一个领域。系统首先通过与用户 交互获得信息焦点集,然后对文章进行语法语义分析,接着按照信息焦点 集从框架中搜索推理出有关信息,最后生成具有一定逻辑性的文摘。 哈尔滨工业大学的王开铸教授于1 9 9 2 年开始研制基于自然语言理解 的文摘系统,目前已经有了基于词频统计、关键词提取的h i t 8 6 3 系列自 动文摘系统和基于理解文摘的实验系统m a t a s 。其中h i t 8 6 3 系列机械文 摘系统适用于任意领域、任意题材、任意长度的文章,通过词频等方法实 现摘要的自动生成;理解文摘实验系统m a t a s 用中文意义表示法分析处 6 中国石油大学( 华东) 硕士论文第1 章前言 理输入的文章,再进行信息压缩,从而生成摘要【1 l 】【1 2 1 。 北京邮电大学信息工程系的钟义信教授等人采用基于多a g e n t 技术 的文摘方法【1 3 】,类似于p a i c e 的选择与生成文摘法,目前主要针对计算机 病毒方面及新闻报道方面的相关文章,开发出了g l a n c e 自动文摘系统及 n e w s 自动文摘系统等【1 4 】。 山西大学的郭炳炎1 9 9 6 年基于统计的方法分析文本结构,然后依据 结构信息,辅助词分析方法抽取文摘。 复旦大学的吴立德教授【1 5 l1 9 9 6 年研制的f d a s c t 系统首先对文本 进行分词,进行文本特征信息提取,然后进行词性与语义标注,随后进行 词、句子、段落加权处理,最后根据权重进行选取句子构成文摘。该系统 是多文档文摘的一种推广。采用基于统计的文本自动综述方法,利用文档 内和文档之间段落的语义相关性,实现多文档的自动综述。首先对文本进 行分段实现信息分割;再对文本段进行聚类实现信息凝聚;最后抽取代表 段产生综述结果实现信息压缩。 杭州大学姜贤塔使用基于语料库的方法,利用“后邻字符树”的方法 在领域语料库中生成字符树库,用于自动文摘候选句子选取时提高选取精 度。 目前,一些国际性软件公司也在开发中文自动摘要系统。比如i b m 中国研究中心、微软亚洲研究院、摩托罗拉中国研究中心等都在研制中文 自动文摘系统的产品。 ( 2 ) 个性化研究 个性化信息服务是基于信息用户的信息使用行为、习惯、偏好和特点, 向用户提供满足其各种个性化需求的一种服纠1 6 】。 7 中国石油大学( 华东) 硕士论文第1 章前言 我国的个性化研究自2 0 0 0 年开始,2 0 0 0 年至2 0 0 1 年个性化服务在 我国还是一个新生事物,研究成果也比较少;2 0 0 2 年开始,个性化服务引 起越来越多的图书情报领域研究人员的关注;从2 0 0 3 年开始,个性化服 务逐渐成了学者们关注的热点。 1 3 论文研究的目标和内容 本文以个性化自动文摘为核心,深入的分析了目前自动文摘技术的相 关理论和方法,针对目前文摘中的问题进行了深入研究。主要研究内容如 下: ( 1 ) 文本意义段的划分 人们描述一件事物时,往往需要通过多角度多方面的阐述才能表达的 丰满具体。其中被阐述的对象就是全局主题,被阐述对象的不同方面和不 同角度为局部主题,也就是文档子主题。 对目前为分析文档子主题所采用的意义段划分方法进行了深入的研 究分析。针对传统的基于t e x t t i l i n g 算法的意义段划分方法的局限性,对 其进行了改进,将词语的概念引入到算法中去,进行基于词语概念扩展的 t e x t t i l i n g 算法的意义段划分。对基于概念扩展的t e x t t i l i n g 算法进行了试 验并分析了实验结果。 ( 2 ) 文本句子的处理方法 自动文摘的目标就是找出能够代表文章主题的关键句子,用几个简短 的文摘句来表示文章的整体信息。句子是文档中具有完整语义信息的基本 单位,在文档内容的分析上,句子信息刻画得是否足够准确,将直接影响 后续的工作。因此,自动文摘技术的关键就是句子的处理。 怎样找出语义丰满、内容重要的句子,句子的表示和计算衡量方法显 8 中国石油大学( 华东) 硕士论文第1 章前言 得尤其重要。以词语为基本单位来进行句子的描述,是基于文本表层的分 析,不够灵活和丰满;另一种方式,利用句子的语法结构分析,又过于灵 活,因为中文词语的词性往往没有明显的标志,而且一词多性现象很严重, 同时句子的结构也不够规范,盲目的分析句子构造和语法关系,也会影响 句子的表述。 可以先对句子进行简单的语法分析和处理,利用具有独立语义知识的 组块来对句子进行描述。以组块作为基本信息单位对句子进行计算分析, 可以弥补以词语为基本单位的句子分析中信息描述的不充分,克服句子语 法结构分析的复杂性问题。 ( 3 ) 个性化文摘的生成 文摘的生成并不是句子的简单叠加,那样会造成语言表述的混乱和文 本主题信息的遗漏,因此文摘生成过程中对文摘句处理的好坏将直接影响 到文摘的质量和有效性。 针对具体用户的具体要求,分析当前个性化信息服务所采用的技术和 方法,对文摘句进行个性化处理,生成更能满足用户需求的个性化文摘。 为了文摘内容上的完整性和全面性,需要对文档中的子主题进行分析 处理,选取合适的能够概括文档各个子主题信息的句子来组成文摘。针对 用户的兴趣需要,还要对文摘句作进一步处理,尽量将用户感兴趣的信息 突出显示出来。对最后生成的文摘还要作进一步的优化处理,以加强文摘 的可读性和信息的有效性。 1 4 论文的组织结构 本论文共分为五个章节,其中: 第1 章为前言,主要介绍了论文的课题来源及研究背景、个性化自动 文摘技术的研究现状以及论文的主要研究内容。 9 中国石油大学( 华东) 硕士论文第1 章前言 第2 章介绍了个性化自动文摘研究的关键技术及基本知识,包括自动 文摘概念、文章子主题的确定以及划分方法、句子的分析计算方法、个性 化技术等内容。 第3 章分析了目前常用的文本子主题的判定及划分方法,将词语的概 念引入到t e x t t i l i n g 算法中,改善了目前基于词语的t e x t t i l i n g 意义段划分 的不足,并且给出了相关的实验和结果对比分析。 第4 章分析了目前常用的句子描述方法和计算方法,给出了文本组块 的处理方法。用组块代替词语来对句子信息进行描述、计算并生成文摘, 给出了相关的实验和结果对比分析。 第5 章描述了个性化自动文摘的生成方法,根据用户的兴趣进行了文 摘句选择和文摘生成,并对生成的文摘进行了优化处理,进行了实验并对 文摘的结果进行了分析。 第6 章是全文工作总结以及进一步的工作展望。 i o 中国石油大学( 华东) 硕士论文第2 章个性化自动文摘的关键技术 第2 章个性化自动文摘的关键技术 2 1 自动文摘技术 在官方的美国国家标准协会( a n s i ) 文摘编写标准之中,文摘被 定义为某一文献内容的简要而准确的描述,不加解释或评论,也不去管这 篇文摘是由谁写的【1 7 】1 1 耵。在我国国家标准文摘编写规则( g b 6 4 4 7 8 6 ) 中,文摘被定义为“以提供文献内容梗概为目的,不加评论和补充解释、 简明、确切地记述文献重要内容的短文”【1 9 l 。 一个好的文摘,必须具有以下的特性【2 0 j : ( 1 ) 提供文献内容梗概,文摘必须反应文献原文的主要内容,不能偏 离原文主题。 ( 2 ) 简洁性,文摘的一个主要优点是:它们比文献原文短,可以提高 读者的阅读效率。文摘用最可能少的文字表述原文的意思,没有冗余的语 句。 ( 3 ) 清晰性,仅仅使文摘达到简洁和准确是不够的,还必须用一种易 读的文体和形式把文献内容清晰的表达出来。为此,最好用完整的句子来 编写文摘,并尽可能使用作者自己的词语和语句。如果不这样,常常会混 淆或稍微改变作者的意图。 ( 4 ) 连贯性,文摘是一篇语义连贯的短文,即使它由完整的句子按照 一定的逻辑关系组织而成,如果文摘句子不通顺,语义不连贯,读者阅读 起来就比较困难。 自动文摘研究如何利用计算机自动地从自然语言文本中提取文档摘 要( 摘要应包含原文的核心内容或用户感兴趣的内容) ,并以语意连贯的 中国石油大学( 华东) 硕士论文第2 章个性化自动文摘的关键技术 段落乃至篇章的形式输出。自动文摘没有事先规定的目标特性,需要对多 种多样的内容进行分析和处理。 自动文摘要想取得理想的效果,产生一个令人满意的摘要。需要解决 三个问题:文摘句要能够准确的代表文本信息,体现文本内容;摘要能够 概括出文本中描述的所有主题,不能有所遗漏;文摘句必须可读、易懂, 具有完整的意义。由此,我们需要深入研究文本内容的描述方式和计算方 法,特别是对文档中有完整语义信息的基本单位句子的分析;深入研究文 本主题的识别方法,提高文本主题划分的准确性:对文摘句作进一步处理, 使其可读易懂。 2 1 1 文本意义段的划分 主题是文章要阐述的目标和内容。作者为了描述一个主题,往往需要 通过介绍该主题的几个方面来刻画它,要介绍的这几个方面就是文章的子 主题。只有找到文章中的所有子主题才能全面的体现出文章的主体内容。 为了识别文章的子主题,目前采用的主要的方法有三类:基于浅层分析的 方法、基于实体分析的方法、基于话语结构的方法。 ( 1 ) 基于浅层分析的主题划分 基于浅层分析的方法对文档中蕴含的一些浅层特征如词频、位置、 线索词等进行统计分析,据此判断出文档描述内容,找出文本主题【2 l 】【2 2 l 。 通过词频统计的方法进行意义段划分,其主要理论依据是如果两段 文字中代表语义信息的词汇重复得多的话,他们很可能描述的是同一个 话题,可以划分到一个意义段中去。人们要描述一个事物,往往是按照 不同的方面一个一个的按顺序方式介绍。这种思维方式表现在文本的形 式上,描述同一个话题的自然段或句子往往是连在一起的。进行意义段 划分的时候,只要找出话题转换的间隔点,把描述同一话题的自然段和 1 2 中国石油大学( 华东) 硕士论文第2 章个性化自动文摘的关键技术 句子划为一个意义段就可以了。 基于位置的主题划分主要是通过分析文章特殊位置的文本来划分 主题。如有统计分析证明文章的第一段和最后一段往往能够表现出文章 的主要内容。文本段落中的第一句或者最后一句指示出段落的主要内容 的机率也很大。在一些结构良好的文章中,往往文章的小标题就是文章 的子话题,文章内容围绕着小标题展开详细的论述。小标题下的文本内 容常常在表面的词汇上跟小标题的词汇联系紧密,重复较多,可以划分 到一个主题中,而跟其它的小标题词汇重复出现的概率明显的小得多, 可以将它们划分到不同的主题中。如在一些介绍新方法或对原有的技术 改进一类的科技论文中,前言中的内容多是文章要介绍的方法使用的背 景,实验与分析部分中多是对新算法的实验验证,中间则是介绍了方法 本身,最后的总结部分为方法的优缺点分析和以后的展望或进一步的工 作和研究方向。 基于线索词的主题分析,主要是根据文章中出现的具有明显指示意 义的短语来进行,如“介绍了”、“由此可以看出”、“总而言之”等。还 有一些固定格式的文章的线索词,如科技论文中的“目的”、“背景”、“方 法”、“实验结果”、“待解决问题”等部分中介绍的主题多是该线索词指 示的内容。 在以上的文摘方法中,只有基于词频统计的方法不受领域的限制, 其它方法都仅仅适用于具有固定格式或者具体领域的文本。所以基于浅层 分析的方法虽然具有易于实现、处理速度快、不受限域的优点,但这一 方法是建立在对文本表层的形式特征分析的基础上的,缺乏对文本内容的 深层次分析,难以保证主题划分的质量。 ( 2 ) 基于实体分析的主题分析 基于实体分析的主题划分方法首先分析文本内部的概念性表示,然 1 3 中国石油大学( 华东) 硕士论文第2 章个性化自动文摘的关键技术 后提取出文档中各实体并建立起实体间的相互关系,通过对文档实体及 它们的相互关系建模来确定各实体对表述文档内容的作用,如词汇链 ( l e x i c a lc h 撕塔) 方法【2 3 】【2 4 1 。 构建词汇链( l e x i c a lc h a i n s ) 的意义段划分方法的中心思想是:文件中 所描述的概念其实是由拥有该概念意义的所有字词组成的结果。词汇链是 根据一种词汇间语义关系引起的凝聚力所建成的。它与文本的结构有一种 对应关系,提供了关于文本结构和主题的重要线索。在具体操作上,首先 将文件中的名词词语都摘取出来,按照h o w n e t 来判断每个字词所代表的 意义,并将具有相关意义的词聚集在一起构成一个链,使这些相关的词语 能够保持词义上的连贯性。然后根据l e x i c a lc h a i n s 的聚集程度进行意义 段划分。比较分析文章中出现的所有的词汇链,选出其中几条最大的词汇 链,分析其词汇覆盖范围,文章中有较多词汇链结束和开始的地方一般就 是话题转换的地方,可以作为意义段划分点。在一个意义段中,最长的一 条词汇链代表的往往就是该意义段所描述的主题。 文本实体特征的获取通常需要比较复杂的算法,特征的选择也需要 考虑多方因素。这种方法易于描述意义上统一性强的文本。然而,借助 h o w n e t 的信息来建构字词间的相似关系,可能会因为其中某个字词的意 义辨认错误而导致产生错误的实体如此一来。所得到的认知模型便可能 偏离原文所要表达的意思。 ( 3 ) 基于话语结构的主题分析 基于话语结构的方法主要通过对文档格式、主题线索、修辞结构、 文体结构等文章构成因素的分析对全文宏观结构建模,以准确把握全文 的内容结构【2 6 1 。因为结构分析不受文章领域限制,文档结构信息往往 能较为准确地表示出语言单元间的逻辑关系,为自动文摘生成提供重要 的线索。 1 4 中国石油大学( 华东) 硕士论文第2 章个性化自动文摘的关键技术 这种方法首先根据文档层次结构、语言和修辞结构建立各语言单元 节点及节点的章节、段落、复句之间的关系;然后分析全文结构和复句 结构,将各自然段间和自然段内部各复句间的关系分为并列、总分等; 最后进行层次结构分析,建立层次结构树。根据结构树的构造找出文章 的主题。 这种方法虽然不受文章领域限制,能够从语言关系的构成上可以比 较准确的找出文章的主题。然而由于自然语言本身的组成结构非常复 杂,很难有固定的模式,加上当前的语言结构处理分析技术不够成熟等 原因,很难确定比较理想的文本结构。 2 1 2 文本句子的分析和计算方法 句子是文本中具有完整语义信息的基本单位,能否完整准确的判断出 句子所包含的信息量和句子与主题的关系在自动文摘技术中非常重要。按 照对句子的描述计算方法分,目前句子的分析方法主要有两种:基于词语 计算的句子分析和基于语法结构的句子分析。 ( 1 ) 基于词语统计的句子分析 基于词语统计的句子分析将句子视为词语的线性序列,以向量的形式 或者词语串的形式表示句子。这种句子分析方法,主要是根据句子中出现 的词语来对句子进行处理计算2 7 】【2 8 】【2 们。 根据句子中出现的词语对句子进行分析的方法,虽然在使用计算机进 行文本处理上有简单、易处理、处理速度快等优点,然而由于这种方法缺 乏足够的语义篇章结构知识作指导,仅仅局限于文本表面信息的处理分 析,当其发展到一定程度就很难再继续发展下去。尤其是在中文文本处理 中还存在着文本词语划分的问题,中文文本中没有类似于英文空格之类的 明显的形式标志来表示词语的边界,因此中文文本分词成为中文文本处理 1 5 中国石油大学( 华东) 硕士论文第2 章个性化自动文摘的关键技术 的一个重要的步骤,分词的好坏将直接影响着文本处理的质量。 我国中文分词的研究已有将近二十年的历史,目前比较成熟的分词技 术都是基于词典的分词方法。大多数中文文本处理系统也都是以基于词典 的分词方法为主,同时辅以其它的方法对文本进行分词处理。然而,词典 分词方法是建立在词典完备的理想假设下,但是语言中的词语是一个动 态、开放的集合,任何表面完备的常用词典和专业词典都不可能涵盖所有 的词语。 ( 2 ) 基于篇章结构的句子分析 通过浅层的对句子中所包含的词语的分析虽然能够基本上表示出句 子的意义,但是由于缺乏篇章结构的分析和对句子语义信息的理解,通过 这种方法产生的文摘质量往往不够稳定,因此人们探索了利用自然语言处 理技术进行自动文摘的方法 2 9 1 3 0 1 。 通过对文章篇章结构的分析来找出句子在文章中的地位,分析方法从 语法、语用等角度来分析文章的语义结构,找出文章的主要内容,从而衡 量句子的重要程度。在文献【1 2 】中,是通过构建篇章多级依存结构t m d s 进行分析计算,确定句子的重要程度。篇章多级依存结构t m d s 是一个有 向图,它是由代表语言单元的节点和代表语言单元之间相互关系的弧,按 照一定的方式结合而成。如图2 - 1 所示。 全文 章节 段落 复句 单句 图2 - 1 篇章多级依存结构示意图 1 6 中国石油大学( 华东) 硕士论文第2 章个性化自动文摘的关键技术 在这种方法中,自动文摘通过篇章多级依存结构t m d s 分析各级语 言单元之间的依存关系找出文章中的重点内容。通过分析句子在各语言单 元中的地位进行衡量。 篇章结构属于语言学范畴,不触及领域知识,因而基于篇章结构的自 动文摘方法不受领域的限制。同时篇章结构分析比语言表层分析深入了一 大步,根据篇章结构能够更准确地探测文章的中心内容所在,因而基于篇 章结构的自动文摘能够避免机械文摘的许多不足,保证文摘质量。 文档篇章结构的分析和模型构建,极大地依赖于各语言单元的划分和 各语言单元之间关系的分析。由于自然语言的特点,虽然文章的各个自然 段之间和段落中的句子之间有明显的分割标志,然而复句中各分句之间, 分句中各成分之间则很难准确的找到分割点。由于语言的复杂性和丰富 性,各个语言句子结构没有固定的语法格式,也给语言单元间的关系确定 带来了很大的困难。构建文章的多级结构所用的语言规则极大地依赖于自 然语言的处理技术,由于目前自然语言处理技术并不完善,能够灵活的应 用于实际环境还需要有很多的工作要做,所以很难准确的找出语言的成分 和各单元间的关系。由于以上种种原因,虽然从理论上讲基于篇章结构分 析的自动文摘技术能达到很好的效果,可是由于现有条件的局限性,在实 践中很难建构理想的篇章多级依存结构,离面向开放领域大规模广泛的实 际应用还有一段距离。 2 2 个性化技术 个性化信息服务是一种以信息用户为中心,研究用户的行为、兴趣、 爱好和习惯,为用户搜索、组织、选择、推荐更具针对性的信息服务,满 足其各种个性化需求的一种服务。个性化信息服务可以使我们的服务更具 1 7 中国石油大学( 华东) 硕士论文第2 章个性化自动文摘的关键技术 针对性,从而提高用户对信息服务的满意度。它是网络信息服务发展的重 要方向,已经引起国内外许多专家学者的研究兴趣,特别是近两年来,这 方面的研究成果越来越多。 个性化服务需要满足以下两个条件: ( 1 ) 满足用户的个性化要求 个性化信息服务首先应该是能够满足用户的个体信息需求的一种服 务,即根据用户提出的明确要求提供信息服务,或通过对用户个性、使用 习惯的分析而主动地向用户提供其可能需要的信息服务。 ( 2 ) 提供有效的服务 个性化信息服务应能够根据用户的知识结构、心理倾向、信息需求和 行为方式等基本信息来充分激励用户的需求、促进用户对信息的有效检索 和获取,促进用户对信息的有效利用,并在信息有效利用的基础上进行知 识创新。 要实现以上两个目的就需要对具体用户的兴趣有充分的了解和分析, 还要找出针对不同的用户所要推荐的合适的信息和具体合理的推荐方式。 其中,关键的工作是用户兴趣的获取,用户兴趣的分析和个性化信息推荐 技术的研究。 2 2 1 用户兴趣的获取 对用户需求的获取,目前主要有两大类方法: ( 1 ) 通过人、机交互模式获取用户的信息需求 在这种方法中,用户手动的输入自己的个人需求信息,计算机针对用 户的输入信息对用户进行兴趣分析,从而理解用户的需求,为用户提供更 为准确的信息服务,提高用户的满意度。这种方法的优点是可以准确地获 得用户的需求信息,这也是目前绝大多数检索系统所采用的方法。其缺点 1 8 中国石油大学( 华东) 硕士论文第2 章个性化自动文摘的关键技术 是主动性差【3 1 1 。 ( 2 ) 通过对用户访问记录的挖掘,获取用户的需求、兴趣和爱好等【3 2 l 。 这种方法的主动性强,一般用于个性化主动信息服务系统中。在这种方法 的使用过程中要特别注意用户的隐私权保护问题。 对用户兴趣的挖掘,目前主要有三种方法: 通过用户访问记录挖掘 网络用户访问记录的挖掘主要是从w e b 的访问记录中抽取具有意义 的模式。当用户访问w e b 服务器时,服务器方将会产生三种类型的日志文 件:s e r v e r l o g s ,e r r o r l o g s 和c o o k i e l o g s ,记录用户访问和交互的信息【3 3 】。 网络用户访问记录的挖掘主要是通过分析用户的访问日志等记录,来了解 用户的需求,为用户提供个性化的服务。 通过b o o k m a r k 进行用户兴趣分析 当用户在因特网上用浏览器浏览主页时,经常会遇到自己需要的和喜 欢的站点和主页,只要点一下浏览器的b o o k m a r k 菜单,就能将当前的站 点存入b o o k m a r k 中。我们可以通过分析用户在浏览器上存储的b o o k m a r k 来获得用户信息需求。在b o o k m a r k 中存储的信息往往是用户最关心的, 也是对我们最为有用的用户信息。 利用智能a g e n t 跟踪用户信息行为 这种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论