(计算机系统结构专业论文)基于标签分类内容共享平台的网页自动文摘模型.pdf_第1页
(计算机系统结构专业论文)基于标签分类内容共享平台的网页自动文摘模型.pdf_第2页
(计算机系统结构专业论文)基于标签分类内容共享平台的网页自动文摘模型.pdf_第3页
(计算机系统结构专业论文)基于标签分类内容共享平台的网页自动文摘模型.pdf_第4页
(计算机系统结构专业论文)基于标签分类内容共享平台的网页自动文摘模型.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机系统结构专业论文)基于标签分类内容共享平台的网页自动文摘模型.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆大学硕士学位论文 中文摘要 摘要 近年来,随着i n t e m e t 的发展,以及网络带宽越来越大,使i n t e m e t 能够给人们 的生活带来很大的便利。比如电子商务的发展,使i n t e r n e t 网络成为了种新的经 济盈利模式。但是随着i n t e m e t 网页容量的逐步增大,又使得人们难以有效的利用 网络数据,虽然搜索引擎能够很方便的让人们查找有用的信息,但是目前搜索引 擎基于关键字的搜索很难满足大多数的要求。如何让i n t e m e t 网络中的数据能够得 到聚合并且简化,这成为了目前许多自然语言处理领域研究者共同关注的一个话 题。 随着w e b 2 0 的兴起,对自然语言处理的要求越来越高,而基于自然语言处理 的w e b 2 0 应用在i n t e m e t 环境下取得了很大的成功,而基于标签分类的内容共享系 统作为其中的一个典型应用,在系统中,用户通过标签来分类管理网页内容,系 统可以通过标签来统计出用户的喜好,并可以看出目前流行的趋势。在此基础上 搭建更好的应用。 目前,人们使用自然语言处理对网页文本进行分类和自动文摘,这样极大的 提高了人们使用网页资源的效率。对网页进行归类能够使人们有效的整理网页文 档,提高对网页搜索并且利用的效率;对网页的自动文摘,可以过滤掉许多我们 不需要的信息,只关注网页中最核心的部分,这样极大的提供了网页的利用率。 本文尝试用一种新的基于w e b 2 。0 标签分类内容共享系统构建自动文摘模型。 由于w e b 2 0 标签分类内容共享系统中标签信息有利于自动文摘的生成,本文在构 建自动文摘时充分利用这个特性,并对模型进行了必要的优化。 本文首先通过对自动文摘目前的发展作出概述,并总结出网页文本数据的特 点,结合这两点对目前存在的网页自动文摘方法进行剖析。在此基础上结合w e b 2 0 中标签概念提出本文的对网页自动文摘的模型: 首先根据文献【4 】提出的模型对网页自动文摘建立初始模型词频模型。这个模 型主要使用经典的t f i d f 方法计算单词的权重,在计算i d f 时,我们使用标签分类 内容共享系统作为一个网页信息的主要来源,在计算单词权重的基础上对句子进 行选择。最后选择权重最高的句子作为网页的摘要。 在词频模型的基础上,我们对模型进行了扩展。网页中包含了许多有用的信 息,比如网页标题,网页中的斜体,粗体,以及下划线的文字都是一些有用的线 索。为此我们定义了一些网页数据的特征,然后利用训练数据对这些特征进行训 练,利用朴素贝叶斯公式对每个句子进行评价。最后选择权重最高的句子作为网 页的摘要。 重庆大学硕士学位论文 中文摘要 词频模型以及词频模型的优化都是从网页本身入手,选择出能够代表网页最 重要信息的句子作为文摘。结合w e b 2 0 的标签概念,我们利用标签这个外部信息 来生成文摘。由于标签之间存在关联,在用标签生成文摘模型的基础上,对模型 进行了改进,对那些统计意义上相关联的标签进行了统一评价,这样比较客观地 对单词进行评价。接下来考虑到句子之间可能存在语义上的重复,我们利用余弦 定理对句子进行了消重。 利用经典的召回率( r e c a l l ) 、准确率( p r e c i s i o n ) 、f i 和r o u g e 评价模型对文摘 模型进行评价。首先在现有的标签分类内容共享系统上进行试验,说明标签可以 很好的反映出网页的主要内容。然后分别在标签分类内容共享系统上和利用o v e n d i r e c t o r y p r o j e c t _ j :进行试验。实验可以看出,基于标签分类内容共享系统的文摘模 型比单纯使用词频进行文摘生成的模型具有更好的效果。而改进后的词频模型与 基于标签模型在效果上不相上下。这是由于标签具有不确定性,如果一个标签分 类共享系统具有大量的标签数据,将会能够生成更好的文摘。 关键词:自动文摘,w e b 2 0 ,标签,词频 重庆大学硕士学位论文 英文摘要 a b s t r a c t i nt h er e c e n ty e a l s , w i t ht h ed e v e l o p m e n to f i n t e r n e ta n dt h ei n e a s eo f n e t w o r k b a n d w i d t h , i n t e r n e tc o u l db eb e n e f i tf o rt h ep e o p l el i f em o r ea n dm o r e f o re x a m p l e , i n t e m e tw i l lb ean e we c o n o m ym o d e la st h ed e v e l o p m e n to fe l e c t r o n i cb u s i n e s s ,b u t w h e nt h ec o n t e n tc a p a c i t yo fi n t e r n e tb e c o m e sb i g g e ra n db i g g e r , p e o p l ec a n tu t i l i z e i n t e r a c td a t ae f f e c t i v e l y , a l t h o u g ht h es e a r c he n g i n ec a l lh e l pp e o p l et os e a r c hu s e f u l i n f o r m a t i o n ,t h es e a r c he n g i n en e e dt oo v e r c o m es o m ed i f f i c u l tp r o b l e m st oi m p r o v e u s re x p e r i e n c e s ,h o wt od e a lw i t hi n t e m e td a t aa n du s ei tm o r ee f f e c t i v e l y , w h i c h b e c o m e sah o tt o p i ci nt h er e s e a r c ha r e ao f n a t u r el a n g u a g ep r o c e s s p e o p l er e q u i r eab i gi m p r o v e m e n tn a t u r el a n g u a g ep r o c e s sw t h t h ea p p e a r a n c eo f w e b 2 0 ,b e c a u s et h ew e b 2 0a p p l i c a t i o n sb a s e do nt h en a t u r el a n g u a g ep r o c e s sg e ta b i gs u v a :o s st o d a y , t h e yw a n t t ok e e pt h i ss t a t u s at y p i c a lw e b 2 0s a m p l ei st h et a g c l a s s i f i c a t i o nc o n t e n ts h a r i n gs y s t e m i nt h i ss ”t e m , u s e r oc a nm a n a g ea n dc l a s s i r y w e b - p a g e b yt a g s ,u s e r sc a l ls e a r c ha n ds e ew h a tt h e yn e e di nt h i ss y s t e m b a s e do nt h e t a g ss y s t e m ,d e v e l o p e r sc a ni m p l e m e n tb e t t e ra p p l i c a t i o n s a tp r e s e n t ,p e o p l eu s en a t u r el a n g u a g ep r o c e s st oc l a s s i f ya n ds u m m a r i z et h ew e b p a g e s w h i c hi m p r o v e st h ee f f i c i e n c yo fu s i n gw e br e s o u f c e s 1 1 1 ec l a s s i f i c a t i o nf o r w e bp a g e sc a l ld e a nu pt h ew e br e s o l 2 t c e s u s e r sc a l i g e tt h e me a s i l y ;t h e s u m m a r i z a t i o nf o rw e bp a g e sc a nf o c u so nt h em a i nc o n t e n to fw e bp a g e s ,u s e r sc a n g e tt h em a i lc o n t e n to f w e bp a g e se a s i l y i nt h i sp a p e r , w ee x t r a c tt h ee x t r ak n o w l e d g ef r o mt h et a g si i lt h e t a g c l a s s i f i c a t i o nc o n t e n ts h a r i n gs y s t e mt oi m p r o v ew e b - p a g es u m m a r i z a t i o n b e c a u s e t a gi n f o r m a t i o ni ss t r o n gr e l a t e dt ot h em a i nc o n t e n ti l lw e bp a g e s ,w ec a nu t i l i z et a g s i nw e bp a g es u m m a r i z a t i o n a f t e ri m p l e m e n t i n gab a s i cm o d e lb yt h i si d e a , w eu s e r e l a t e dt a g sc o n c e p tt oi m p r o v eo u rm o d e l w es u l m n a n z et h ec u r r e n td e v e l o p m e n to fa u t o m a t e ds u m m a r i z a t i o n ,a n da n a l y z e t h ec h a r a c t e r so ft h ew e bp a g e , a f t e rt h a t w ei n t r o d u c et h ec o n c e p ta b o u tw e b 2 0 , e s p e c i a l l ya b o u tt h et a g sc o n c e p t b a s e do na b o v ei n t r o d u c t i o n , w ep r o p o s eo u r s u m m a r i z a t i o nm o d e l s : f i r s t l y , w ei n i t i a l i z eab a s i ct fm o d e lt og e n e r a t cs u m m a r y t 1 1 i sm o d e lu t i l i z e s t h et f i d fm e t h o dt oc h e c kt h ei m p o r t a n c eo fo n ew o r d ,a f t e rt h a t ,w ei n t r o d u c e l u h n sm e t h o dt os e l e c tt h eb e s ts e n t e n c e sa ss u m m a r y 1 1 1 重庆大学硕士学位论文英文摘要 b a s e do nt h ei n i t i a lm e d d ,w ei m p r o v et h i sm o d e lb yt h es p e c i a lc h a l a e t e r si nt h e w e bp a g e , s u c ha st h ei t a l i c ,b o l da n du n d e r l i n et e x t t h o s et e x t sc a np r o v i d e s i g n i f i c a n ti n f o r m a t i o nf o ru s w ed e f i n ef o u rf e a t u r e sf o rw e bp a g e s ,a n dt h e na p p l y t h en a i v eb a y e s i a nc l a s s i f i e rt ot r a i nas u m m a r i z e r , s e l e c tt h eb e s ts e n t e n c ea s s u m m a r y n l et f ( t e r mf r e q u e n c y ) m o d e la n di m p r o v e dm o d e lb o t ha n a l y z et h ew e bp a g e i t s e l f , s e l e c tt h es i g n i f i c a n ts e n t e n c e sa ss t l m m a r y c o m b i n i n gw i t ht h ew 曲2 0t a g c o n c e p t ,w eu t i l i z ee x t e r n a lt a gi n f o r m a t i o nt og e n e r a t es u m m a r y w ep r o p o s et h i s m o d e lf i r s t ,a n dt h e nw ei m p r o v et h i sm o d e lb yc o n s i d e r i n gr e l a t e dt a 擎a n ds e m a n t i c o v e r l a ps e n t e n c 器w ee m p l o yr e l a t e dt a g st oe s t i m a t ew o r d sw e i g h t ;w ee m p l o yl a w o f c o s i n e st ou n i f yt h es e m a n t i co v e r l a ps e n t e n c e s t h i sp a p e re v a l u a t e st h ee v a l u a t i o ns u m m a r i e sm o d e lw i t ht h ec l a s s i cr e c a l lr a t e , t h ep r e c i s i o nr a t e ,f 1a n dr o u g e f i r s t l ye x p e r i m e n t so nt h es h a r i n gs y s t e mo f e x i s t i n gc l a s s i f i c a t i o nt a gc o n t e n ts h o wt h a tt r i a ln o t et a gc a nw e l lr e f l e c tt h em a i n c o n t e n to ft h ew e b s i t e t h e n , e x p e r i m e n t sc l a s s i f i e do l lal a b e l i n gs h a r i n gs y s t e ma n d o nt h eo p e nd i r e c t o r yp r o j e c ta l ep e r f o r m e dr e s p e c t i v e l y r nb es e e nt h r o u g ht h e e x p e r i m e n t st h a tt h e c o n t e n t s h a r i n gs y s t e mb a s e d0 1 1t h ec l a s s i f i c a t i o nt a gh a s g e n e r a t e db e t t e rr e s u l t st h a nt h a to ft h em o d e ls i m p l yu s eo fw o r df r e q u e n c ya b s 仃a c t a n dt h ee f f e c to ft h ei m p r o v e dm o d e li ss i m i l a rt ot l l a to ft h em o d e lb a s e do nw o r d f r e q u e n c yl a b e l t 1 l i si sd u et ot h eu n c e r t a i n t yo ft h el a b e l s i fat a gc l a s s i f i c a t i o n s y s t e mh a sal a r g es h a r eo f t h et a gd a t a , i tw i l lb ea b l et og e n e r a t eb e t t e ra b s t r a c t s k e y w o r d s :a u t o m a t e ds u m m a r i z a t i o n , w e b 2 0 ,t a g , t e r mf r e q u e n c y i v 独创性声明 本人声明所旱交的学位论文是本人在导师指导f 进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重麽厶堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作厂明确的说明并表示谢意。 学位论文作者签名:栖畸 签字日期: 动o 年土月2 毕日 、r 学位论文版权使用授权书 本学位论文作者完全了解 重麽盍堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。奉人授权 重庆太堂可以将学位论文的全部或部 分内容编入有关数据库进行榆索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 保密() ,在年解密后适用本授权书。 本学位论文属于, 不保密( v ) 。 ( 请只在一卜述个括号内打“”) 学位论文作者虢桶晦 签字日期:2 。司年r 月2 v 日 导师签名:l 舄、匆波 签字口期:1 嗣年y 月2 r 斗同 重庆大学硕士学位论文1 引言 1 引言 1 1 研究目的以及研究意义 随着科学技术的进步,互连网时代的到来,使人们陷入了信息的汪洋大海。 据统计在著名的搜索引擎g o o g l e q ,存储了大概4 0 亿的网页索引信息,有大概2 0 0 t b 的数据存储网页信息。而且每天互联网上都会出现成千上万的新的信息。这些都 为使用互联网来获取信息的我们获取我们想要的信息增加了难度。并且大量的无 用的信息淹没t a g 些有用的信息。人们需要一种方法来快速浏览大量有用的信息, 文摘通过对原文的浓缩,通过只有原文1 0 长度或者更少的文字表达原文的意思, 很好的为读者提供一种快速浏览大量信息的能力,这为读者节约了大量的时间。 但纯粹的手工文摘编制速度远远落后于i n t e r a c t 中信息的更新速度,而自动文摘通 过计算机生成,大大提高了文摘的生成速度,因此自动文摘成为了近年来一个研 究热点。作为自然语言处理( n l p ) 领域的个重要应用,自动文摘涉及了大量的理 论和应用技术,比如自然语言处理,语言学,统计学等知识,而其相关理论方法 和技术也可以应用到其他的自然语言领域,从而推动整个自然语言处理领域的发 展。 早在1 9 5 8 年,l u h n 就在1 b m 7 0 4 机器上进行第一次自动文摘实验。到现在近5 0 年的自动文摘演变的历史中,我们可以看到自动文摘取的了许多令人鼓舞的成就。 随着互联网时代的到来,万维l i i j ( w o d d w i d e w e b ) 可以看作是世界上最大的信 息存储库,逐渐成为了现代社会人们生活中不可或缺的信息来源。i n t e r n e t 包含了各 种各样的数据,比如文本,图片,音频以及视频数据,这其中,最主要的信息来源还是文 本数据所以对i n t e r n e t 中网页数据的自动文摘的研究可以对这些数据进行有效聚 合,提高人们对大量网页数据的利用度。 近几年来,随着w e b 2 0 时代的到来,i n t e m e t 中网页数据由以前无序走向有序。 尤其是搜索引擎、t a g 、r s s 等技术的提出和应用,基于这些技术网站层出不穷, 使人们能够方便的查询和有效的管理需要的数据。这为网页数据的自动文摘方法 提供了一些很好的提示,比如 7 1 q b 提出了一些根据网页中链接信息寻找与该网页 相关的上下文进行自动文摘的方法,为网页中的信息聚合提供了很多参考。 现有的基于w e b 2 0 的应用大多与数据整合有关,其中基于标签分类内容共享 系统就是其中的一个。利用标签,用户可以轻松的管理自己的网页资源,而基于 标签分类内容共享系统对用户提交的标签进行了数据分析,能够更好的利用标签 对用户进行服务。比如对标签的归类整理,分析用户的行为,可以把兴趣相同的 重庆大学硕士学位论文1 引言 人挖掘出来,方便用户找到与自己兴趣相同的人。 本论文首先通过对自动文摘历史的回顾以及对自动文摘方法进行归类总结, 使我们对自动文摘有个全面的了解。然后分析现有对网页摘要方法,得出一些对 本论文构建算法的有用的参考,在此之后,对w e b 2 0 的发展作了一格简单的总结。 结合这些现有的知识,我们提出了一个基于标签分类的内容共享系统的网页自动 文摘模型。分析其实现的可行性,给出详细的步骤说明怎么利用标签信息辅助生 成文摘,并且对实验步骤和实验结果进行说明,最后得出本论文研究的结论和未 来的改进计划。 1 2 自动文摘研究现状 自动文摘就是利用计算机对文献编制的文摘。当然,人们希望自动文摘的结 果能够满足人们的需要。国际上对自动文摘的研究可以说是与自然语言处理其他 领域的研究同时起步的。由于计算机硬件限制和自动文摘研究缺乏基础性技术, 所以,自动文摘在2 0 世纪5 0 7 0 年代发展相当缓慢;从8 0 年代末期开始,自动文摘 技术才进入蓬勃发展、百家争鸣的时代【1 9 】。 从1 9 5 8 年l u l m 在i b m 7 0 4 机器上进行第一次自动文摘实验至今,自动文摘已有 近5 0 年的历史。进入9 0 年代以来,随着i n t e r n e t 的开通自动文摘的价值充分显露 出来,1 9 9 3 年1 2 月在德国w a d e m 召开了以s u m m a r i z i n g t e x t f o r i n t e l l i g e n t c o m m u n i c a t i o n 为主题的国际研讨会,1 9 9 5 年,国际期刊i n f o r m a t i o np r o c e s s i n g m a n a g e m e n t , 小, 了一期专刊,题目为s u m m a r i z i n g t e x t ,编者在序言中指出,这一专 刊的出版标志着自动文摘的时代已经到来,自动文摘的研究进入了前所未有的繁 荣期。 自动文摘系统的研究大体上可分为两个阶段:第一阶段是从5 0 年代末y u 7 0 年 代初的机械文摘时期:第二阶段是从7 0 年代初到现在的理解文摘时期所谓机械 文摘是指以文章的结构,词频等知识提取出文摘,而理解文摘是指对文章的内容, 从句子到结构的理解中提取出文本来。 早期的自动文摘方法基本都是采用文章的结构或者词频等信息进行文摘的提 取。比如第一个提出用计算机生成摘要的人l u h n 就是基于词频生成摘要。 尽管l u h n 对单词和句子加权方法受到非议,但他的方法和技术还是具有一定 历史意义,直到现在,很多自动文摘方法还在采用l u l m 的方法作为基础。 l u l m 方法基本思想是: 在把文本逐字读入的时候,将非本质的词( 通过查一个表) 去除掉,剩下的词 就是内容词。同时保留标点符号并记录下词在原文中的位置; 然后把内容词按字母表顺序排列,并进行词频统计。将词频小于某阈值的 2 重庆大学硕士学位论文 1 引言 词去除掉,剩下的词称为有效词: 有效词按其在原文中的先后次序排列起来; 选择出重要的句子。由于句子被有效词分成了一个个子串,将两个有效词 之间的非有效词数少于4 的子串挑出来,大于4 的不予考虑,且根据下面公式求出 每个子串的权值; ,;2 p i q i ( 1 1 ) 其中b 是子串的有效词数,q j 是子串的总词数,句子的权值为m a x _ r , 。如果 句子的权值大于某个给定的阈值,则该句子就可以进人摘要,或者将权值最大的 若干个句子收入文摘中。 i b m 公司的文摘自动生成程序a c s i ,m a r i e t 3 2 1 ,该系统以l u h n 的研究为基础,通 过计算句子在文献中的权重来进行文献的摘录,其在权值的计算方面对l u h n 的研 究进行了改进;美国g e 研究与开发中心的r a u 等人( 3 3 】实现了a n e s 系统,该系统采用 相对词频作为词的权值来分析文献,并生成摘要;7 0 年代初,俄亥俄州立大学的r u s h 教授1 3 4 】开发的a d a m ( a u t o m a t i cd o c u m e n t a b s t r a c t i n gm e t h o d ) 系统,该系统强调的 是排斥句子的标准,而不是选择句子的标准,是利用从文献中删除句子的方法进行 文摘生成。由于机械文摘的本身性质所决定,其质量一般不高,所以为了保证文摘效 果,许多自动文摘系统都综合利用了分析文本的多种特性。如新加坡南洋大学研制 的图书馆新闻删节系统【蚓,提供了题名法、位置法、关键词法和指示性短语法四种 自动摘录方法供用户选择。另外,1 9 9 7 年,日本的n o m o t o 等人【3 6 j 提出的一种基于语料 库的自动摘录方法。它是让计算机自动地从训练集中提炼出各个特征的结合函数, 为多种形式特征的综合利用开辟了一条新的道路。 通过传统的机械文摘技术给出的文摘虽然通常能够抓住文献的关键所在并用 作者的原句加以概括,而且获得了一定的实际应用,但它的缺点也是明显的,其中最 为突出的有以下几个方面:摘要的质量不稳定,缺乏句间的连贯性,有时摘要内容冗 余等。 基于上述机械文摘的缺陷,人们探索了利用自然语言理解技术进行自动文摘的 方法。由于受到知识不足的限制,基于理解的文摘技术只能适用于某个狭窄的领域, 如用于处理有军事情况的新闻等,但摘要的质量明显优于传统文摘【3 7 】。 基于理解的文摘方法是以人工智能,特别是自然语言理解技术为基础而发展起 来的文摘方法。该方法与机械文摘的明显区别在于对知识的利用,它不仅利用语言 学知识获取语言结构,更重要的是利用领域知识进行判断、推理,得到文摘的意义表 示,最后从意义表示中生成摘要。基本原理是:在某一特定领域的文章中,必然存在着 特定的信息焦点,即读者感兴趣的内容,如军事情况报道必然包含有关的地点、人 重庆大学硕士学位论文i 引言 数、伤亡情况等内容。利用语言学手段将文章中代表这些信息焦点的文字识别出 来,用话语加以组织即可形成一篇连贯的高质量的文摘。 基于理解的文摘方法实现时主要分以下几个步骤:语法分析、语义分析、语用 分析、信息提取和文本生成等。语法分析和语义分析统称文本分析过程,其目的是 要寻找最能代表原文内容的成分;语用就是语言的实际应用,主要是进行交际对话, 就是用语言进行信息交流和交换,语用分析是指分析语用的特点,即静态变动态、共 性变个性、多义变单义、意义与语境相关等;信息提取即转换过程,即通过概括等方 法压缩文本;最后一步重组原文内容,生成文摘。 目前,理解文摘主要的方法有脚本、概念从属结构、框架、一阶谓词、关联网 络、修辞结构以及语用功能等。大多是从文章结构出发,有局限性地理解文章的内 容和结构。 理解文摘系统的相关研究的主要成果有:7 0 年代末8 0 年代初,美国耶鲁大学 的s c h a n k ”】在脚本的基础上研制的s a m ( s c r i p ta l l i c c rm e c h a n i s m ) 系统,该系统应 用脚本分析简单的文献,并在此基础上总结出摘要。美国耶鲁大学的d e j o n g i 3 9 】于 1 9 7 9 年研制的著名的f r u m p ( f a s tr e a d i n gu n d e r s t a n d i n ga n dm e m o r yp r o g r a m ) 系统,该系统用于快速阅览英文新闻资料,是理解文摘系统的样板,f r u m p 由预言 器和验证器组成,预言器利用预先设置好的梗概剧本预测文献中可能出现的事件, 验证器则去证实这些被预测的事件,并给出实际信息。f r u m p 系统创造了理解文 摘的典范,但由于内部存储的剧本限制,如果文章中没有该系统所期望的内容则会 被误导,从丽出现歧义。美国的t a i t l 4 0 j 对f r u m p 系统迸行了改进,称为s c r a b l e 系 统,它要求输入的资料在处理前先转换成c d ( c o n c e p t u a ld e p e n d e n c y ) 结构,在此 基础上分析和确定已预测的信息与未预测的信息之间的关系,并将这两部分信息 合理地组织成一篇完整连贯的文摘。意大利u d i n e 大学的f u m 等人】在8 0 年 代初研制了s u s y ( s u m m a r i z i n gs y s t e m ) 缩写系统,该系统以一阶谓词逻辑为基础。 取得了较好的效果,体现出了逻辑方法的潜力。德国康斯坦茨大学的k u h l e n 等人【4 2 】 研制了t o p i c 系统,该系统与框架作为知识表示的基础,通过全文的语法语义分析 生成不同长度的摘要,其处理对象主要是针对微处理器领域的科技文献。8 0 年代末, 美国g e 研究与开发中心的k a u 等人研制了s c i s o r ( s y s t e mf o rc o n c e p t u a l i n f o r m a t i o ns u m m a r i z a t i o n ,o r g a n i z a t i o na n dr c t r i e v a l ) 概念信息缩写、组织和检 索系统 4 3 4 4 】。该系统采用关键词过滤和模式匹配等方法对待处理的文献进行分 析,然后采用自底向上( 完全的句法分析) 的分析器识别句子的结构,最后运用自顶 向下( 部分的句法分析) 的分析器提取句子结构中的内容,是典型的理解文摘,处理 对象是关于“公司合并”的新闻报道。 目前的理解文摘同样有其不足,主要在于领域严格受限。造成领域受限的原因 4 重庆大学硕士学位论文1 引言 有: 面向大规模真实语料的语法语义分析技术尚未完全成熟,因此如果想获得 高质量的语言分析结果,就必须将待处理的语料限制在某个范围之内; 理解文摘方法的基础是框架等知识表示,框架需要根据领域知识预先拟定, 因此如果想把适用于某个领域的理解文摘系统推广到另一领域,则需重新拟定框 架,这种填充和组织领域知识的沉重负担使理解文摘难以移植。 1 3 论文的主要工作 本论文所做的研究工作主要分为以下几个部分: 概述自动文摘相关知识,对自然语言处理进行了简单介绍,对自动文摘 的历史进行了回顾。 对w e b 2 0 进行介绍,对w e b 2 0 的来源以及发展特点进行了简单的分析, 介绍标签分类内容共享系统的特点。 分析网页中文本特征,结合基于标签分类内容共享系统阐述标签用于辅 助生成文摘的可行性。 本文首先提出一个基本的基于词频的模型,然后在此基础上对算法进行 改进。提出基于标签分类内容共享系统的自动文摘模型,对模型进行详细说明。 对模型进行实验。分为两步实验。第一步是使用现有标签分类内容共享 系统进行实验,得出对模型的初步评价。第二步是在o o p ( o p 臼nd i r e c t o r y p r o j e c t ) 上进行实验,并且与理想文摘进行比较。最后得出实验结果,并分析本模型的优 点与缺点。 1 4 论文的内容安排 本论文内容安排如下: 第一章引言。介绍本论文研究的目的及主要意义,对目前自动文摘的现状进 行概述,提出本论文研究的主要内容及本论文内容的安排; 第二章网页自动文摘理论基础。主要介绍自然语言处理的相关知识,并分析 现有网页的特征,在此基础上介绍现有对网页自动文摘方法; 第三章w e b 2 0 与自动文摘。第三章主要介绍w e b 2 0 与自动文摘的联系。首 先介绍什么是w e b 2 0 ,然后通过分析我们知道,w e b 2 0 与自动文摘可以互相促进, 本章详细说明了它们的结合点,以及潜在的一些应用。 第四章基于词频的网页自动文摘模型。首先提出对网页自动文摘的基本模 型,基于文摘词频分析的模型。然后利用网页文本特征对模型进行改进。 第五章基于标签分类内容共享平台的网页自动文摘模型。通过第四章的铺 重庆大学硕士学位论文1 引言 垫,第五章建立本章的模型,基于标签分类内容共享平台的自动文摘模型,本章 主要说明模型的建立和改进。 第六章实验及评价。对建立的模型进行实验,并且评价模型的优点和缺点。 第七章全文总结。对全文进行总结,并给出本论文研究的未来发展方向。 6 重庆大学硕士学位论文2 网页自动文摘理论基础 2 网页自动文摘理论基础 2 1 自然语言处理概述 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究 能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,包括中文、 英文、俄文、日文、德文、法文等等,所以它与语言学的研究有着密切的联系, 但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有 效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机 科学的一部分。 语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言 能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式, 人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而,它也是人 工智能的一个重要,甚至核心部分。 用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明 显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用 计算机,而无需再花大量的时问和精力去学习不很自然和习惯的各种计算机语言; 人们也可通过它进一步了解人类的语言能力和智能的机制。 实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义, 也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者 称为自然语言生成。因此,自然语言处理大体包括了自然语言理解和自然语言生 成两个部分。历史上对自然语言理解研究得较多,而对自然语言生成研究得较少。 但这种状况近年来已有所改变。 无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么 简单,而是十分困难的。从目前的理论和技术现状看,通用的、高质量的自然语 言处理系统,仍然是较长期的努力目标,但是针对一定应用,具有相当自然语言 处理能力的实用系统已经出现,有些已商品化,甚至开始产业化。典型的例子有: 种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、 自动文摘系统等。 自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语 言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上 广泛存在的各种各样的歧义性或多义性( a m b i g u i t y ) 。 7 重庆大学硕士学位论文 2 网页自动文摘理论基础 一个中文文本从形式上看是由汉字( 包括标点符号等) 组成的一个字符串。 由字可组成词,由词可组成词组,由词组可组成句子,进而由一些句子组成段、 节、章、篇。无论在上述的各种层次:字( 符) 、词、词组、句子、段,还是 在下一层次向上一层次转变中都存在着歧义和多义现象,即形式上一样的一段字 符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有 不同的意义。一般情况下,它们中的大多数都是可以根据相应的语境和场景的规 定而得到解决的。也就是说,从总体上说,并不存在歧义。这也就是我们平时并 不感到自然语言歧义,和能用自然语言进行正确交流的原因。但是一方面,我们 也看到,为了消解歧义,是需要极其大量的知识和进行推理的。如何将这些知识 较完整地加以收集和整理出来;又如何找到合适的形式,将它们存入计算机系统 中去;以及如何有效地利用它们来消除歧义,都是工作量极大且十分困难的工作。 这不是少数人短时期内可以完成的,还有待长期的、系统的工作。 以上说的是,一个中文文本或一个汉字( 含标点符号等) 串可能有多个含义。 它是自然语言理解中的主要困难和障碍。反过来,一个相同或相近的意义同样可 以用多个中文文本或多个汉字串来表示。 因此,自然语言的形式( 字符串) 与其意义之间是一种多对多的关系。其实 这也正是自然语言的魅力所在。但从计算机处理的角度看,我们必须消除歧义, 而且有人认为它正是自然语言理解中的中心问题,即要把带有潜在歧义的自然语 言输入转换成某种无歧义的计算机内部表示。 歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就给基于语言 学的方法、基于知识的方法带来了巨大的困难,因而以这些方法为主流的自然语 言处理研究几十年来一方面在理论和方法方面取得了很多成就,但在能处理大规 模真实文本的系统研制方面,成绩并不显著。研制的一些系统大多数是小规模的、 研究性的演示系统。 大约9 0 年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个明 显的特征是: 对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而 不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研 制的系统才有真正的实用价值。 对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求 能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然 语言文本进行自动地提取索引词,过滤,检索,自动提取重要信息,进行自动文 摘等等。 同时,由于强调了“大规模”,强调了“真实文本”,下面两方面的基础性工作也 重庆大学硕士学位论文2 网页自动文摘理论基础 得到了重视和加强。 大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料 库,是研究自然语言统计性质的基础。没有它们,统计方法只能是无源之水。 大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至几十万 词,含有丰富的信息( 如包含词的搭配信息) 的计算机可用词典对自然语言处理 的重要性是很明显的。 虽然上述新趋势给自然语言处理领域带来了成果,但从理论方法的角度看, 由于采集、整理、表示和有效应用大量知识的困难,这些系统更依赖于统计学的 方法和其他“简单”的方法或技巧。而这些统计学的方法和其他“简单”的方法似乎也 快达到它们的极限了,因此,目前在自然语言处理界广泛争论的一个问题便是: 要取得新的更大的进展,主要有待于理论上的突破呢,还是可由目前已有的方法 的完善和优化实现? 答案还不清楚。大致上,更多的语言学家倾向于前一种意见, 而更多的工程师则倾向于后一种意见。回答或许在“中间”,即应将基于知识和推理 的深层方法与基于统计等“浅层”方法结合起来。 自然语言处理从应用来说分为机器翻译,自然语言理解,情报检索和自动文 摘。自然语言处理系统的研究首先是从机器翻译系统的研究开始的。最早提出利 用计算机进行自动翻译想法的是英国工程师布斯( a d b o o t h ) 和美国工程师韦拂 ( w w e a v e r ) ,那是在电子计算机问世( 1 9 4 6 ) 的第二年。1 9 5 2 年,在洛克菲勒基金会的 大力支持下,一些英美学者在美国麻省理工学院召开了第一次机器翻译会议。两年 之后机械翻译( m e c h a n i c a lt r a n s l a t i o n ) 杂志开始公开发行。同年,美国乔治敦大 学在国际商用机器公司的协助下,成功地进行了世界上第一次机器翻译试验。尽管 这次试验用的机器词汇仅仅包含了2 5 0 个俄语单词,机器语法规则也只有6 条,但是, 它第一次向公众和科学界展示了机器翻译的可行性,并且激发了美国政府部门在随 后十年对机器翻译进行大量资助的兴趣【2 卯。当然,新生事物的发展不可能是一帆风 顺的。随着研究的深入 人们看到不是机器翻译的成功,而是一个又一个它无法克服 的局限。第一代机器翻译系统设计上的粗糙所带来的翻译质量的低劣最终导致了 一些人对机器翻译研究失去信心。有些人甚至错误地认为,机器翻译研究追求全自 动质量目标是不可能实现的。于是机器翻译研究就此陷入低谷。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论