




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 i 2 l 世纪人类的社会是一个信息化社会。在基础教育领域中,为了更好地为学 生、老师、家长、教育机构等提供教育相关资源,我们研发了专用于基础教育资 源搜集的快速高效的智能化基础教育资源搜索引擎。 在基础教育资源搜索引擎中,自动文摘是展示文档内容主题的摘要信息的重 要部分。本文从分析多种w e b 文档的结构入手,提出了解析并提取文档信息的 方法,特别是针对网页格式的文档,设计了提取其主题文本信息的算法。 在提取w e b 文档信息之后,基础教育资源搜索引擎需要对文档进行文本自动 摘要。自动文摘不仅可以作为文档的压缩版本进行存储和分析,而且一定程度上 可以提高运算和检索的效率。 本文通过分析基础教育资源的特性和现有的自动文摘方法,提出了把计算得 到的基础教育领域的特征词权重,融入到计算文摘旬权重的算法中,并同时考查 句子位置、句子长度等文本表层统计信息的自动文摘算法。 本文还介绍了该算法的设计思路与实现步骤,并且针对自动文摘系统在基础 教育资源搜索引擎中运行的实际情况,进行了科学的评价与总结,并展望了下一 步的改进工作。 关键词:自动文摘、搜索引擎、w e b 文档、基础教育资源 a b s t r a c t i nt h e2 1 t hc e n t u r y , o u rh u m a ns o c i e t yi sa t li n f o r m a t i o ns o c i e t y i nt h ef i e l do f b a s i ce d u c a t i o n , w er e s e a r c ha n dd e v e l o p e da t le f f i c i e n ta n di n t e l l i g e n c eb a s i c e d u c a t i o nr e s o u r c e ss e a r c he n g i n e ,f o rp r o v i d em o r ee d u c a t i o nr e l a t e dr e s o u r c e sf o r s t u d e n t s ,t e a c h e r s ,p a r e n t sa n de d u c a t i o n a li n s t i t u t i o n s i nt h eb a s i ce d u c a t i o nr e s o u r c e ss e a r c he n g i n e ,t h ea u t o m a t i ca b s t r a c t i o ni sa n i m p o r t a n tp a r to fd i s p l a y i n gt h es u m m a r yi n f o r m a t i o no fw e br e s o u r c e s w es t a r tt h e w o r kf r o mt h ea n a l y s i so f k i n d so f d i f f e r e n ts t r u c t u r ew e br e s o u r c e s w ed e s i g n e dt h e m e t h o d sf o re x t r a c t i n gt h ei n f o r m m i o no f w e br e s o u r c e s a f t e re x t r a c t i n gt h ei n f o r m a t i o no fw e br e s o u r c e s ,t h eb a s i ce d u c a t i o nr e s o u r c e s s e a r c he n g i n en e e dt om a k ea u t o m a t i ca b s t r a c t i o nf o re a c hw e br e s o u r c e s t h e a u t o m a t i ca b s t r a c t i o nn o to n l yc a nb eu s e df o rf i l e sc o m p r e s s e dv e r s i o nf o rs t o r a g e a n da n a l y s i s ,b u ta l s oc a ne n h a n c et h ee f f i c i e n c yo f p r o c e s s i n ga n dr e t r i e v a l b ya n a l y s i n gt h ec h a r a c t e r i s t i c so fr e s o u r c e sf o rb a s i ce d u c a t i o na n de x i s t i n g m e t h o d so fa u t o m a t i ca b s t r a c t i n g ,w ed e s i g n e da l la u t o m a t i ca b s t r a c t i n ga l g o r i t h m w h i c hi n t e g r a t e st h et e r mw e i g h ti nt h ef i e l do fb a s i ce d u c a t i o na n d ,a tt h es a m et i m e , c o n s i d e r st h es t a t i s t i ci n f o r m a t i o n ,s u c ha s ,s e n t e n c ep o s i t i o na n ds e n t e n c el e n g t h i ta l s oi n t r o d u c e dt h ea l g o r i t h md e s i g ni d e a sa n dt h es t e p so fr e a l i z a t i o n w ea l s o m a k et h ee v a l u a t i o na n ds u m m a r yf o rt h ep r a c t i c eo fo u ra u t o m a t i ca b s t m c t i n g a l g o r i t h mi nt h eb a s i ce d u c a t i o nr e s o u r c e ss e a r c he n g i n e a n dw em a k eas c i e n t i f i c e v a l u a t i o na n dr e v i e w , a n dav i s i o nf o rt h en e x tp h a s eo f i m p r o v e m e n t s k e y w o r d s :a u t o m a t i ca b s t r a c t i o n ,s e a r c he n g i n e ,w e br e s o u r c e s ,b a s i c e d u c a t i o n r e s o u r c e s 学位论文独创性声明 本人郑重声明: 1 、坚持以“求实、创新”的科学精神从事研究工作。 2 、本论文是我个人在导师指导下进行的研究工作和取得的研究成 果。 3 、本论文中除引文外,所有实验、数据和有关材料均是真实的。 4 、本论文中除引文和致谢的内容外,不包含其他人或其它机构已 经发表或撰写过的研究成果。 5 、其他同志对本研究所做的贡献均已在论文中作了声明并表示了 谢意。 作者签名: 蕉衣型! 日期:星丝6 坚! 二目 学位论文使用授权声明 本人完全了解南京师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版;有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅;有权将学位论文的内容编入有关数据库进 行检索;有权将学位论文的标题和摘要汇编出版。保密的学位论文在 解密后适用本规定。 作者签名:整杰型 日期:i ! 出垒工臼 、i j l 刖。舌 随着越来越多的人开始登录互联网并使用网络辅助学习和工作,人类逐渐走 向了一个全新的时代,那就是“读网时代”。目前,服务于“读网”的搜索引擎 在网络上炙手可热,吸引着所有互联网用户的眼球。纵观整个互联网,各色各等 搜索引擎正在为用户们提供着关怀备至的服务,其中既有通用性的搜索引擎,也 有针对特定行业提供特定服务的搜索引擎。而在我国,在基础教育领域中,却没 有一个足以称道的专用网络搜索引擎。因此,我们致力于研发一个专用于基础教 育资源搜集的快速高效的智能化基础教育资源搜索引擎。 自动文摘在基础教育资源搜索引擎中的主要任务是展示文档文本内容主题 的一个摘要信息。当出现在检索页面相关链接的下方时,它可以明确的表达出文 档的主要内容,并高亮显示用户输入的关键字。这样可以使用户快捷地肯定或否 定该文档是否是他们感兴趣的内容,而决定是否需要去查看详细内容。 当文摘被建立索引时,可以让读者很快找到自己真正需要的相关文章,而不 必将时间浪费在不相关文章的阅读上。可以使用户进行的搜索更加高效,在最短 的时间里找到与查询关键字相关内容的文档列表。 基础教育相关资源的文摘生成很大程度上依赖于基础教育资源的特征词库 和该资源在分类体系中的类别,从这个角度看,它有别于一般多领域的通用自动 文摘,其特殊性值得研究。同时,我们调研了现有中文搜索引擎中自动摘要的现 状,发现在文摘当中还存在一些不足。 本文针对基础教育资源的领域特殊性,提出了一种适合在基础教育资源搜索 引擎中有效运行的自动文摘方法。该方法先从分析多种w e b 文档的结构入手, 提出了解析并提取文档信息的方法,特别是针对网页格式的文档,设计了具有较 强健壮性的,并能根据网页语法特征,提取其主题文本信息的算法,该算法能有 效处理网页不完整、网页语法不规范等特殊情况。 在提取w e b 文档信息之后,基础教育资源搜索引擎需要对文档进行文本自动 摘要。自动文摘不仅可以作为文档的压缩版本进行存储和分析,而且一定程度上 可以提高运算和检索的效率。 本文分析了四种现有的自动文摘方法,认为自动摘录方法效率较高和实现难 度较低,比较适合在搜索引擎系统中应用。但考虑到这种方法只是考虑文档的表 层统计信息,对于文档语义层面上的理解不够,我们提出了把基础教育领域的特 征词权重,融入到计算文摘句权重的方法。我们在比较了几种常用的权重计算公 式后,选择了经典的权重计算方法t f * i d f 来进行对基础教育资源的特征词的权 重计算。 本文通过分析实验数据,提出了综合考虑基础教育资源特征词权重,并同时 考查句子位置、句子长度等文本表层统计信息的自动文摘方法,并且在基础教育 资源搜索引擎中成功的应用了该方法。 本文还介绍了该算法的设计思路与实现步骤,并且针对自动文摘系统在基础 教育资源搜索引擎中运行的实际情况,进行了科学的评价与总结,并展望了下一 步的改进工作。 第一章绪论 1 1 基础教育资源搜索引擎课题背景 2 1 世纪人类的社会是一个信息化社会,人们越来越认识到及时准确地获取信息对生存 的重要性。随着计算机进入千家万户,随着越来越多的人开始登录互联网并使用网络辅助学 习和工作,人类逐渐走向了一个全新的时代,那就是“读网时代”。目前,服务于“读网” 的搜索引擎在网络上炙手可热,吸引着所有互联网用户的眼球。纵观整个互联网,各色各等 搜索引擎正在为用户们提供着关怀备至的服务,其中既有通用性的搜索引擎,也有针对特定 行业提供特定服务的搜索引擎。而在我国,在基础教育领域中,却没有一个足以称道的专用 网络搜索引擎。我们致力于研发一个专用于基础教育资源搜集的快速高效的智能化基础教育 资源搜索引擎,具体功能有:自动寻找相关的教育研究站点并扩充搜索数据库、支持全文检 索与多种文档类型的检索、支持服务器端的“p u s h ”,且具有高效的搜索策略和协议等等, 用于改善当前基础教育资源分布散、管理难、共享程度差、资源发现手段不足等现状。 当前正在进行中的基础教育课程改革是本专题得以发展的重要契机。国务院关于基础 教育改革与发展的决定提出了要“充分利用各种课程资源,培养学生收集、处理和利用信 息的能力”。教育部基础教育课程改革纲要( 试行) ,提出了基础教育课程改革的具体目 标,其中之一是培养学生搜集和处理信息的能力、获取新知识的能力、分析和解决问题的能 力以及交流与合作的能力,并把它作为与读、写、算一样重要的新的终生有用的基础能力。 国家基础教育课程改革项目概览中也提出“丰富多样的课程资源是课程目标达成的基本保 障,开发和利用社会各种课程资源,对全面实施素质教育具有十分重要的意义。” 1 9 9 9 年,国务院批转了教育部提出的面向2 1 世纪教育振兴行动计划,首次明确将“教 育信息化”确定为教育发展的重要主题,并指出教育资源建设是重点。全国各地掀起了一股 开发各类教育资源的热潮,许多知名的公司、学校投入了大量的人力、物力进行开发教学资 源的开发。可供基础教育使用的资源可以大致分成三类:其一是单位或者局部区域所有,不 为外界共享,雷同于互联网上广泛分布的各类专有数据库,这类资源是封闭的、对外不开放 的,它的使用也不是免费的;其二是集体或者个人开发发布在校园网乃至整个互联网上的大 量资源,这类资源是开放的,使用也是免费的;其三是散落在互联网上的一般性资源,这些 资源也经常成为教育教学活动的当然需求。 本课题关注的是浩如烟海且不断鲜活的第二、三类资源,面对它,使用者往往很难从 3 i n t e m e t 上发现它他们,当然怎么选择、怎样利用这些海量资源,成了目前亟待解决的问题 使用者在不断的寻求此方面的帮助,于是面向基础教育的专业检索工具的研究与开发蓄势待 发。 在互联网上,作为使用频率仅次于电子邮件的互联网服务一搜索引擎,已成为搜集信息 的重要工具。根据中国互联网络发展状况统计报告( 2 0 0 6 年1 月) 1 ,截止到2 0 0 5 年1 2 月3 1 日,我国上网用户总数突破1 亿,为1 1 1 亿人,其中宽带上网人数达到6 4 3 0 万人。 目前,我国网民数和宽带上网人数均位居世界第二。而其中有6 5 7 锵近7 3 0 0 万的网民经 常使用搜索引擎。从事教育业的人最多,占4 2 4 ;网民在结构上仍然呈现低龄化:网民中 学生所占比例最多,达到了3 5 1 与其它人相比,学生更容易接受新鲜事物、更容易受时 尚潮流的影响,同时,教育信息化建设工作的推进为学生上网搭建了良好的条件,各种网校、 远程教育等的兴起也对学生上网起到了一定的推进作用。 研发基础教育资源搜索引擎不仅是教师、教育管理者以及其它从业者的共同需要,更重 要的,它是学习者的需要。 1 2 国陕j # t - 研究现状 目前大部分的自动文摘方法是针对文献、图书、报刊等规范化文档设计的,如k u p i e c 等 人开发的t r a i n a b l ed o c u m e n ts u m m a r i z e r ,新加坡南洋大学研制的图书馆新闻删节系统 ( l i b r a r y n e w s p a p e r c u t t i n g s y s t e m ) ,复旦大学完成的复旦中文自动文摘系统等等,我们将在 第二章详细阐述这些自动文摘的方法。这样的自动文摘方法的特点,就是可以直接使用原文 中的文本进行信息的抽取,并且文献、图书等文档的结构比较规范,一般具有明显的指示词 语和主题句或主体段落,这些信息对于摘要的生成是非常有帮助作用的。 随着网络的广泛应用和普及,面向w e b 文档的自动文摘方法也就成为了一个很有价值 的研究课题,特别是在搜索引擎这个w e b 应用领域中。目前,一些综合性搜索引擎往往是 使用网页的前面部分文本作为文档的摘要,如著名的搜索引擎y a h o o 选取网页首部一定数 量的句子作为摘要的代用品2 。这是比较简单的一个处理方法,它的缺点就是摘要信息内容 比较散乱,主题不集中。其他的一些大型搜索引擎出于商业原因,并没有公开他们基于w e b 文档的自动文摘方法。在国内,也有学者对网络信息自动摘要进行了研究,文献f 3 4 | 提出了 对不同网页标记后面的文本字串赋予不同的权值,然后根据字串的属性信息来调整字串的权 第1 7 次中国互联网络发展状况报告,中国互联网络中一t 5 ,2 0 0 61 :3 6 5 3 2 陈桂林,王永成i n t e m e t 网络信息自动摘要的研究,高技术通讯,1 9 9 9 2 4 值。这个方法优点在于将网页标记区分对待,有助于提高摘要精度,但忽略了现在网页上普 遍存在的广告、导航栏等信息对主题内容的干扰。 同时,我们调研了现有中文搜索引擎中自动摘要的现状,发现在文摘当中还存在一些不 足,如:在某大型中文搜索引擎的摘要中出现导航栏中的大黑圆点、黑方块、竖线分隔符等 影响用户查看的符号,而且有的页面出现了空白文摘的现象。我们力求解决这些问题,这也 表明了研究基础教育资源搜索引擎中自动文摘的必要性。 1 3 本课题的研究目的 自动文摘是展示文档文本内容主题的一个摘要信息。当出现在检索页面相关链接的下方 时,它可以明确的表达出文档的主要内容,并高亮显示用户输入的关键字。这样可以使用户 快捷地肯定或否定该文档是否是他们感兴趣的内容,而决定是否需要去查看详细内容。 当文摘被建立索引时,可以让读者很快找到自己真正需要的相关文章,而不必将时间浪 费在不相关文章的阅读上。可以使用户进行的搜索更加高效,在最短的时间里找到与查询关 键字相关内容的文档列表。 基础教育相关资源的文摘生成很大程度上依赖于基础教育资源的特征词库和该资源在 分类体系中的类别,从这个角度看,它有别于一般多领域的通用自动文摘,其特殊性值得研 究。 本文针对基础教育资源的领域特殊性,提出了一种适合在基础教育资源搜索引擎中有效 运行的自动文摘方法。该方法先从分析多种w e b 文档的结构入手,提出了解析并提取文档 信息的方法,特别是针对网页格式的文档,设计了具有较强健壮性的,并能根据网页语法特 征,提取其主题文本信息的算法,该算法能有效处理网页不完整、网页语法不规范等特殊情 况。在提取w e b 文档信息之后,基础教育资源搜索引擎需要对文档进行文本自动摘要。自 动文摘不仅可以作为文档的压缩版本进行存储和分析,而且一定程度上可以提高运算和检索 的效率。 本文分析了四种现有的自动文摘方法,认为自动摘录方法效率较高和实现难度较低,比 较适合在搜索引擎系统中应用。但考虑到这种方法只是考虑文档的表层统计信息,对于文档 语义层面上的理解不够,我们提出了把基础教育领域的特征词权重,融入到计算文摘句权重 的方法。我们在比较了几种常用的权重计算公式后,选择合适的权重计算方法进行对基础教 育资源的特征词的权重计算。 本文通过分析实验数据,提出了综合考虑基础教育资源特征词权重,并同时考查句子位 置、句子长度等文本表层统计信息的自动文摘方法,并且在基础教育资源搜索引擎中成功的 应用了该方法。 具体来说,通过本课题的研究旨在: 1 、分析不同w e b 文档的格式,尝试提取有效主题信息: 2 、分析已有自动文摘方法,根据基础教育资源的特殊性,设计并实现自动文摘算法; 3 、研究并设计文档摘要子系统在基础教育资源搜索引擎系统中的服务接口和规范。 1 4 本课题的研究成果 本研究从分析多种w e b 文档的结构入手,提出了解析并提取w e b 文档信息的方法,特 别是针对网页格式的文档,设计了提取其主题文本信息的算法。在提取w e b 文档信息之后, 基础教育资源搜索引擎需要对文档进行文本自动摘要。自动文摘不仅可以作为文档的压缩版 本进行存储和分析,而且一定程度上可以提高运算和检索的效率。本文通过分析基础教育资 源的特性和现有的自动文摘方法,提出了把计算得到的基础教育领域的特征词权重,融入到 计算文摘旬权重的算法中,并同时考查句子位置、句子长度等文本表层统计信息的自动文摘 算法。 主要研究成果如下: ( 1 ) 设计文档摘要子系统在基础教育资源搜索引擎系统中的服务接口和规范。 ( 2 ) 构造基础教育资源预处理器,实现对不同格式w e b 文档的信息提取,特别是对h t m l 文档主题信息的识别与提取。 ( 3 ) 设计基础教育资源自动文摘算法,构建自动文摘生成器,实现任意比例摘要输出。 1 5 本文内容安排 本论文在第一章概述了基础教育资源搜索引擎中自动文摘方法研究的背景、国内外研究 现状以及目前大型搜索引擎自动文摘存在的不足。第二章主要介绍了现有的四种自动文摘的 方法,并分析了四种方法各自的优点和缺点。第三章阐述了本研究提出的h t m l 文档解析 方法和网页主题内容提取的方法,并分析了该方法在基础教育资源搜索引擎中的实验结果。 第四章首先介绍了文本的机器表示方法,然后对多种权重计算方法进行了比较和实验,选择 适合自动摘要系统的权重计算方法。第五章介绍了基础教育资源搜索引擎中自动文摘系统的 6 流程和模块设计与实现,以及本研究提出的自动文摘方法在基础教育资源搜索引擎中的实验 结果和评价。 7 第二章自动文摘方法综述 2 1 自动文摘的发展 在日常生活中,随处可以遇到摘要的使用。比如:报纸中的新闻大字标题;学生的笔记 概要;电影的介绍片段;小说的故事梗概;论文的摘要等。这些摘要大都由人工生成。 近年来随着i n t e r n e t 的发展,网上大规模电子文档、数据集的出现,自动文摘的作用 域也得到很大的拓宽。如何迅速准确地从文献库中获取有用的信息成为人们迫切需要解决的 问题,而自动文摘正是解决这一难题的有力工具之一。在信息检索系统中,文本摘要成为一 个有力的辅助工具,例如在w e b 上或是大规模文本集上查找相关的文档,可以用简短的文 摘代替检索全文;也可以建立文摘的索引或是直接存储文摘来提高检索的效率。此外,自动 文摘在网上图书馆、问题回答( q & a ) 系统、p d a ( p e r s o n a ld i g i t a la s s i s t a n t ) 系统等方面的 应用也引起了广泛的关注。一个理想化的自动文摘系统也应该是一个高度智能化的系统,它 的实现可以说是机器能够理解自然语言的一个标志。所以从学术的角度来看,自动文摘也是 一个很有理论价值的研究课题。 根据m a n i & m a y b u r y 的定义,可以将文本摘要理解为一个为特定用户或任务从信息 源中滤出最重要的信息从而产生一个删减版本的过程。另外文本摘要也可以定义为:一个文 本源不断减少的转换过程,系统的目的是为用户产生一个输入内容的精简表示。 从1 9 5 5 年i b m 公司的l u h n 首次进行自动文摘的实验至今,自动文摘技术已经经过 了四十多年的研究和发展。在这四十多年的历程中,自动文摘大致可以分为以下几个阶段: ( 1 ) 早期的基于抽取的摘要方法( 1 9 5 5 1 9 7 3 ) 1 9 5 5 年,l u i l r i 提出了一种根据句中有效词的个数来计算句子的权重,并选取权重较 高的句子组成摘要的方法; 1 9 6 9 年,e d m a n d s o n 考虑了词频、句子位置和线索词等因素的影响,提出了一种对这 些因素进行线性加权来抽取摘要的方法; ( 2 ) 基于语言的摘要方法( 1 9 6 1 1 9 7 9 ) ( 3 ) 人工智能技术与深层语言理解技术相结合的方法( 8 0 年代) 9 8 2 年,d e j o n g e ta 1 利用脚本信息提出了f r u m p 系统; 9 8 8 年,r e i n e r 和h a h n 基于框架和语义网络提出了t o p i c 系统 9 8 9 年,r a ue ta 1 提出了一种混合的表示方法; 8 ( 4 ) 复兴时期( 9 0 年代) 各种统计方法的复兴,比如l s a ,m m r 等; 各种混合方法的出现,如词汇链,r s t 树等。 随着网络资源的爆炸式增长,文本摘要在研究领域和商用领域均展现了很好的发展前 景,尤其是基于统计的方法,由于其健壮性和实用性而得到了广泛的应用。另外随着自然语 言处理技术的发展,应用于文本自动摘要的方法也会越来越多。而且出现了许多新的研究和 应用领域:多文本摘要、多语言摘要、多媒体摘要等。 2 2 自动文摘的方法 自动文摘就是利用计算机自动地从原始文献中提取文摘。自动文摘对大规模电子文本快 速地进行浓缩、提炼,是加快阅读和获取信息资源的一个准确而高效的手段。自从l u h n 在 1 9 5 8 年发表了第一篇关于摘要自动生成方法的文章以来,b a x e n d a l e ,o s w a l d ,e d m u n d s o n , w y l l y s ,e a r l ,i b m 公司以及美国俄亥俄州立大学等相继进行了研究,自动文摘技术得到不断 的发展与完善。国内对中文自动摘要的研究起步于1 9 8 0 年以后,从事这方面研究的单位主 要有上海交通大学、复旦大学、山西大学、北京邮电大学等。近几年,从事自动文摘的企事 业单位不断增加,彼此间的交流与合作也在增多,例如,m m 中国研究中心和大陆微软公司都 在研制中文自动文摘的产品。 目前,自动摘要技术总体上可以分为两类:基于统计的机械摘要方法和基于知识的理解 摘要方法。从实现方法上,也可以分为以。f 四类: 2 2 1 自动摘录( a u t o m a t i ce x t r a c t i o n ) 自动摘录的基础是将文本看作句子的线性排列,将句子看作词的线性排列。步骤是: 计算词的权值;计算句子的权值;将句子权值排序,确定阈值,高于此闽值的句子作为 文摘句;将这些文摘句按原顺序组合输出。 在自动摘录中,计算词权、句权、选择文摘句的依据是文本的六种形式特征,即f - 词 频、标题、l 位置、s 句法结构、c 线索词、f - 指示性短语。基于词语统计的向量空间模 型( v s m l 法是大多数机械式文摘系统的一个基本方法。 自动摘录依据的是文本形式上的规律,因此它几乎适用于任何文献,具有应用领域不受 3 刘挺,王开铸自动文摘的四种主要方法,情报学报,1 9 9 9 ( 1 ) :1 1 一1 5 9 限制、速度快、摘要长度可调节等优点。但自动摘录局限于文档的字面表层,生成的摘要质 量较差,存在反映内容不够全面、语句冗余等问题,即同一意思但不同形式的关键句子被选 作文摘句。致命的是,从原文不同位置抽取的句子相互之间无多大关联,导致文摘缺乏连贯 性。 2 0 世纪7 0 年代初,俄亥俄州立大学的教授j a m e sa r u s h 和他的学生开发了a d a m ( a u t o m a t i cd o c u m e n ta b s t r a c t i n gm e t l l o d ) 系统,k u p i e c 等人开发的t r a i n a b l ed o c u m e m s u m m a r i z e r ,新加坡南洋大学研制的图书馆新闻删节系统( l i b r a r yn e w s p a p e rc u t t i n g s y s t e m ) ,复旦大学完成的复旦中文自动文摘系统,上海交通大学的中文自动编制文摘实验 系统s j t u c a a 、o a 中文文献自动摘要系统等。 2 2 2 基于理解的自动文摘 基于理解的自动文摘利用语言学知识获取语言结构,更重要的是利用领域知识进行判 断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。其步骤是:语法分析。 借助词典中的语言学知识对原文中的句子进行语法分析,获得语法结构树。语义分析。运 用知识库中的语义知识将语法结构描述转换成以逻辑和意义为基础的语义表示。语用分析 和信息提取。根据知识库中预先存放的领域知识在上下文中进行推理,并将提取出来的关键 内容存入一张信息表。文本生成。将信息表中的内容转换为一段完整连贯的文字输出。 基于理解的自动摘要采用了复杂的自然语言理解和生成技术,对文献意义的把握更准确 一些,因此摘要质量较好,具有简洁精练、全面准确、可读性强等优点。但是,理解摘要不 仅要求计算机具有自然语言理解和生成能力,还需要表达和组织各种背景、领域知识。这些 工作的难度十分巨大,迄今为止进展甚微。因此,理解摘要方法的使用比较少见,仅限于非常 狭小的应用领域中。由于n l p 仍没有取得突破性的进展,现在的一些语法分析器、语义分 析器和语料库虽然取得了一些成果,但只能为其他方法起到一些辅助作用,并不能真正使用 这些方法来成功地实现自动文摘。 基于理解的文摘方法需要较成熟的人工智能技术和大型的专家知识库,对文章进行深层 的句法和语义分析。典型的理解式文摘方法使用预定制的模板,从原文中提炼重要的信息填 入模板中,从而生成摘要。采用这种方法的系统包括f r u m p ( d e j o n g ,1 9 8 2 ) , t o p i c ( h a h n e t a l ,1 9 8 5 ) ,s c i s o r ( r a u ,1 9 8 8 ) 和s u m m o n ( m ck e o w n e t a l ,1 9 9 5 ) 等。这些系统 可产生连贯的、符合文体要求的摘要。其主要缺点是,由于需要庞大的专家知识库和完善的 1 0 语言学规则,只能应用到某些特定题材的、文体和内容具有相当可预见性的文章中。如 f r u m p 和s u m m o n 系统只能处理新闻稿件,t o p i c 是针对微处理系统文摘设计的,而 s c i s o r 仅限于处理有关公司合并和收购的报道。 哈尔滨工业大学研制了一个基于理解的军事领域自动文摘实用系统( m i l i t a r ya r e at e x t a u t o m a t i c a b s t r a c t s y s t e m m a t a s ) 。该系统考虑了句子之间的语义联系,但是系统不能自 动判断段落的文体,需要人工干预。北京邮电大学研究实现了面向新闻报道的n e w s 系统及 面向神经网络学习算法领域的l a d i e s 自动文摘系统。 2 2 3 信息抽取 信息抽取方法先对文本进行主题识别,再选择己编好的该领域的文摘框架,对文中有用 的片段进行有限深度的分析,利用特征词提取相关短语或句子填充文摘框架,再利用文摘模 板将文摘框架中的内容转换为文摘输出。 由于文摘框架的编写完全依赖于领域知识,所以信息抽取仍然是受领域限制的,只是文 摘框架比理解文摘中的脚本等要简单得多,更易于编写。信息抽取要想应用于多个领域,就 必须为每个领域都编写一个文摘框架,在处理文本时先进行主题识别,根据主题调用相应的 文摘框架。另外,单凭特征词或特征短语的提示用来填充文摘框架并不是非常准确的,而且 由于语言的灵活多样,一些有价值的文本片段可能没有明显的特征。最后,由于使用模板生 成文摘,使得文摘的语言千篇一律,十分呆板。 英国l a n c a s t e r 大学p a i c e 等人在1 9 9 3 年提出的选择与生成文摘法,实质上就是信息 抽取方法。目前该系统主要针对“小麦实验”方面的文章,但研究者正在努力使它能够方便 地移植到其他领域。北京邮电大学研究实现了面向计算机病毒方面的g l a n c e 系统。 2 2 4 基于结构的自动文摘 如果将一个语言单元的各个子单元视为节点,并在两个有语义联系的子单元之间引一条 边,那么我们就得到了一个关联网络。在网络中,与一个节点相连的边数称为该节点的度。 节点的度越大,则节点在网络中的重要性越高。 将文章视为句子的关联网络,与很多句子都有联系的中心句被确认为文摘句。句子问的 关系可通过词问关系、连接词等确定。对于篇幅较长的文章,可将文章视为段落的关联网络。 可以赋予每个段落一个特征向量,两个段落特征向量的内积作为这两个段落的关联强度。如 果两个段落的关联强度超过给定阈值,则认为两个段落有语义联系。与很多段落都有联系的 中心段被提取出来组成一篇文献摘要。 对于篇幅较长的文章,句子之间的关联网络将十分庞大,其时空开销都将是难以承受的。 相比之下,段落之间的关联网络要小得多。另外,与由句子组装起来的文摘相比,由段落拼 接起来的文摘连贯性显著提高。不过,由于最重要的段落中也可能包含一些无关紧要的句子, 所以基于段落抽取的文摘显得不够精练。目前语言学对于篇章结构的研究还很薄弱,使得基 于结构的自动文摘到目前为止还没有一套成熟的方法。 基于结构的自动文摘方法的优点是既能避免自动摘录的不连贯性,又能避免基于理解的 自动文摘和基于信息抽取的自动文摘受专业领域知识限制的缺陷。特别是当遇到多主题或篇 幅很长的文献时,并将文章视为段落的关联网络的方法能很好地进行摘录,再配合以仿人算 法,所得的自动文摘的相关性和连贯性都是其他方法无法比拟的。然而,这种方法也有自身 的不足之处,最重要的缺陷就是不能做到让计算机真正理解文献的主题内容。这种方法只是 在人工智能和n l p 领域内无法取得突破性进展时而产生的一种替代方法。同时这种方法比 较适用于写作思路比较清晰、开头结尾概括了文档的主要内容的科技性文献和新闻,对于有 隐含意义题材的文章如散文、诗歌和小说并不适用。 南京大学提出了一种篇章结构指导的中文w e b 文档自动摘要方法,对段落之间的内容 语义关系进行分析,进而划分出文档的主题层次,得到文档的篇章结构。在篇章结构的指导 下,根据各个主题的轻重,使用统计方法和启发式规则来提取文档的关键词、关键句,生成 文档的摘要。这样既使得文档的大主题能够得到充分反映,又不至于忽略掉文档中的一些次 要主题,从而克服了摘要的表层性和片面性。复旦大学吴立德教授等人研制的自动文摘系统 分析了篇章段落之间的语义联系,建立了语义网,具有一定的篇章理解能力,并能对任意文章 给出任意长度的摘要。 2 3 自动文摘的评价 自动文摘系统的评价是一个十分困难的问题。文摘即使对于人来说也是一种十分高级 的脑力活动。可以设想一下,让一批中学生对一篇文章作摘要,老师应该如何来评价他们结 果的好坏昵? 很难说哪一个结果一定可以作为标准答案。此外,在一般的文摘系统中,不同 的用户对摘要的要求各不相同,这时不可能存在一个统一的标准。人对文摘的这种评价过程 更多地取决于本人的知识水平、理解能力,是一个复杂的过程,所以,其评价过程总会有一 1 2 定的主观性。 学术界对自动文摘评价方法的研究伴随自动文摘的研究发展起来,历史上提出了很多 不同的方法以及举办一些专门进行文摘评价的会议。概括起来,可以分为两大类:内部评价 ( i n t r i n s i c ) 和外部评价( e x t r i n s i c ) 方法。内部评价是就一个独立的文摘系统以某些性能指 标对其本身进行评价。外部评价则是在一组系统中,在文摘系统和其他系统如检索系统、问 答系统等进行相互作用的情形下,通过考察文摘系统与外部环境之间的联系进行评价。下面 将分别介绍这两种方法1 : 2 3 1 内部评价方法( i n t r i n s i cm e t h o d s ) 内部评价方法针对一个独立的文摘系统所表现的性能进行评价。较早的方法根据评价 标准直接由人工对文摘进行评估打分。目前的一些方法则都要用到一个标准文摘。评价时将 系统产生的文摘和标准文摘进行对比,根据它的符合程度作为文摘的评价性能。标准文摘的 产生一般是人工从原文中抽取句子的方式来做摘要,或者是文章作者自己撰写的摘要,或者 是其他评价人员阅读原文后撰写。标准文摘可能是从原文中抽取内容的抽取式文摘 ( e x t r a c t ) ,也可以是在理解的基础上重新撰写的自写式文摘( a b s t r a c t ) 。如果是原文抽取 式文摘,则抽取文本的颗粒度可以从子句、句子、句块直到段落。同时,对于原文抽取式文 摘需要指定压缩率以控制标准文摘的大小尺寸。 在将系统产生文摘与标准文摘比较时,有两个方面的评价标准,这些标准可用于对一 个文摘系统的内部评价方法,也可在外部评价方法中用于与其他文摘系统的比较: 连贯性( c o h e r e n c e ) :即一篇文摘在形式上的流畅程度。对于连贯性一般是做主观 评价,自动给文摘做连贯性打分在目前的研究水平下还是不现实的。评价人依据 他所理解文摘在可读性上的表现好坏来进行打分,如拼写、语法、清晰性、简洁 性、可理解性、是否存在没有说明的引用词等一些特点。连贯性的评价标准既适 用于那些原文抽取式的文摘也适用于自写式的文摘。 内容完整性( 1 n f o r m a t i v e n e s s ) :这一性能度量了文摘和原文在内容上的符合程度。 一个要素是文摘的内容与原文是否相关,另一个要素则是覆盖原文内容的程度如 何,有无遗漏重要内容。与连贯性类似,这个性能也必须作主观评测,评测者比 较文摘和原文进行打分。 郑义,多媒体信息自动摘要及其相关技术研究,复旦大学博士学位论文,2 0 0 34 :2 3 2 5 2 3 2 外部评价方法( e x t r i n s i cm e t h o d s ) 自动文摘的外部评价方法的基本思想是希望通过一个文摘系统在与外部系统的交互过 程中所体现出来的特性来评价这个文摘系统。这些方法的表现如下: 自动文摘系统用来满足某些信息处理任务的目的,通过自动文摘系统在完成这些 任务的过程中所起的作用如何来评价自动文摘系统。这些任务的例子如:从大规 模语料库中通过做摘要的方式找到符合查询需求的文档、以自动文摘系统产生的 结果来做陈述报告等。 当自动文摘系统嵌入到某个集成系统中作为它的一个子系统时,可以通过考察文 摘系统对其他子系统的影响来评价自动文摘系统的作用。例如,在一个集成的智 能信息检索系统中,一个文摘系统如何影响了一个问题回答系统。 若一个系统中存在文摘子系统与其他子系统的交互作用,当文摘产生的结果无法 有效地应用于其他系统时,如何修改文摘结果以使这一结果能够应用,那么就可 以用所需做的修改量来评价这个文摘系统。 2 3 3 内部评价和外部评价方法的选择 应该选择内部评价还是外部评价方法取决于文摘系统在整个系统中的地位、处于系统 的哪个开发阶段以及评价的目的等诸多因素。外部评价的特点是可以考察文摘系统在外围系 统中的作用,但是无法为开发者提供如何提高性能的反馈。对于开发者来说,更需要的是可 重复的、低廉的、容易估分的评价方法。而内部评价相对于外部评价方法在这些方面具有优 势。 一般来说,在自动文摘系统开发的早期阶段,应该选择内部评价方法。这时的评价更 多注重于对自动文摘这一模块本身的性能的考察,而评价的目的是为了调试这个系统使其达 到最佳性能。在后期阶段,在把自动文摘集成进更大的系统时,则需要采用外部评价方法, 这时要考察自动文摘系统在整个系统中所起的作用,以及它对其他模块的影响如何。另一种 情况,在一个面向特定任务的系统中,也应该选择外部评价方法。 1 4 第三章网页主题文本内容提取 3 1 网页的结构特征 w e b 上的大部分文档用h t m l 来存储和传播。可以说h t m l 是一种简单的语言,非 常适合超文本、多媒体和显示简单的小文档。但是它不允许用户定义自己的标签或者属性, 使得用户无法从语义上限定他们的数据;不支持定义在表示数据库模式或者面向对象的层次 时需要的嵌套结构;也不提供允许应用程序检查重要数据的结构合法性的语言规范。总的来 说,h t m l 侧重于外观和版面安排问题,而不是结构化和模型化数据。 人们在设计网页的时候,总是准备了一定的素材,这些素材是设计者希望通过网页传达 给访问者的信息( 类似于通信中的信号) 。但是由于孤立的网页很难被访问,设计者会增加 一些内容来连接不同的页面,例如增加超链接目录或者具有搜索功能的表单等。增加的文字 仅仅起向导的作用,内容通常和页面原有的内容不重叠,因而它们的加入会影响网页内容的 原貌( 类似于通信中的噪声) 。 对于网页摘要来说,所应提取的是网页主题内容中最重要的信息,而网页除了主题内容之 外,还包括大量的无关信息。包括: 多媒体信息:嵌入在网页中的声音、图像、v i d e o 等信息; 导航信息:用来指示用户链接到不同网页的链接信息; 其他信息:广告、版权和地址信息等。 我们把网页设计者为了辅助网站组织而增加的信息定义为“噪声”,把原本要表达的文 字素材称为“主题内容”。当噪声和主题内容已经混合在一个半结构化的h t m l 文件中时, 想依据设计者的意图把两者分开并不是一件容易的事情。 通过对大量的网页结构进行分析,我们发现一种有趣的现象:人们在设计网页时,通常 把不同功能的信息用不同的格式来表示,例如背景颜色、字体大小、位置等。所以我们考虑 通过把网页分割成块来去除噪声、提取内容文本。 3 2h t m l 文档解析 由于h t m l 是w e b 的主流语言,所以对h t m l 页面中信息的提取是搜索引擎的基础。 为了从h t m l 页面中提取信息,首先需要对页面进行语法解析,从而得到页面包含的内容 和结构信息,这些信息包括文本信息、多媒体对象的上下文信息、页面中的链接信息等,这 些语法级的信息经过进一步的提炼和处理将形成页面的元信息,用于搜索引擎的后期工作。 为了能从网页中将主题内容文本或主题相关文本提取出来,目前有大致三类主要方法。 一是忽略掉开始标记和结束标记间的内容,提取标记符号外的文本信息,这样的方法实现比 较简单,执行效率较高,但信息提取缺乏针对性,很多干扰信息没有被排除掉,这样适用性 不是很强;二是基于文档对象模型d o m 的w e b 信息提取方法将规范的网页描述为d o m 层 次结构,并在此基础上制定提取规则,提取系统所需要的信息。这种方法结构清晰,但对于 那些不符合语法规范或残缺的下载网页,它的适用性就不强了:三是通过将h t m l 文档的 流式数据结构化的方式_ h t m l 解析,来分析网页内容,该方法的优点是对于h t m l 标 记的处理比较灵活。 下面就介绍一下我们采用的h t m l 解析技术: h t m l 是超文本标记语言的缩写,h t m l 解析的过程是将h t m l 文档的流式数据结构 化的过程。根据h t m l 的语法定义,依次对输入的h t m l 文档作词法分析和语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- “五城联创”基本知识题库及答案
- 酒店2025年工作计划怎么写(5篇)
- 专利技术转让协议书
- 环境监测行业智能化设备数据采集与质量控制技术报告
- 2025年排泄护理灌肠题目及答案
- 用电安全题目及答案
- 《物联网安装调试员技能培训》课件-项目一 物联网基础组件与通信协议
- CN120095608B 一种刀库用刀具同步的清洁装置 (昆山北钜机械有限公司)
- CN120084478B 一种汽车车灯测试设备及其测试方法 (常州市永光车业有限公司)
- T淋巴细胞检测课件
- 越南货代基本知识培训课件
- 2025-2026秋安全主题班会教育记录(22周):第1周秋季开学安全第一课
- 2025-2026学年粤人版(2024)初中地理八年级上册教学计划及进度表
- 2025年上半年系统架构设计师《综合知识》考试真题及答案
- 牧护关镇街道小学2025-2026学年第一学期工作计划
- 2025年《医疗器械监督管理条例》培训考核试卷附答案
- 2025-2030矿山机械跨境电商新模式拓展及品牌出海战略报告
- 养老金融科普知识培训课件
- 慢性咳嗽大讲堂课件
- 互联网企业文化调研报告及分析框架
- 农村商业银行三年发展战略规划与实施方案
评论
0/150
提交评论