自动文本摘要_第1页
自动文本摘要_第2页
自动文本摘要_第3页
自动文本摘要_第4页
自动文本摘要_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自动文本摘要AutomaticTextSummarization1Introduction摘要的定义:

atextthatisproducedfromoneormoretexts,thatconveysimportantinformationintheoriginaltext(s),andthatisnolongerthanhalfoftheoriginaltext(s)andusuallysignificantlylessthanthat.三个重点:1.摘要可能是由单文档或多文档得出的2.摘要必须保存有重要信息3.摘要要尽可能的简洁2Introduction四个重要的单词extraction提取找到重要部分逐字产生abstraction抽象化以另一种方式产生重要资源fusion融合把抽取的东西连贯在一起compression压缩去掉不重要的部分3IntroductionSingle-DocumentSummarizationMulti-DocumentSummarizationOtherApproachestoSummarizationEvaluation4Single-DocumentSummarizationEarlyWork 词语频率倒排(卢恩) 句子位置(巴克辛德) 提示词和文档骨架(埃德蒙逊)5Single-DocumentSummarizationmachinelearningmethods特征独立的:朴素贝叶斯方法非特征独立的:隐式马尔科夫模型对数线性模型近期出现的神经网络和第三方特征6Single-DocumentSummarization朴素贝叶斯方法正态分布7Single-DocumentSummarization隐式马尔科夫模型三个特征:句子位置术语数量句子术语和文档术语的相似度8Multi-DocumentSummarization背景20世纪90年代中期新闻领域比单文档摘要更多的要求发展过程很纠结9Multi-DocumentSummarization1. 抽象和信息聚合

(AbstractionandInformationFusion)SUMMONS -内容管理器 -语言生成器依赖树(dependencytrees)Dependencytreerepresentingthesentence"McVeigh,27,waschargedwiththebombing"10Multi-DocumentSummarization2. 标题驱动摘要和MMR

(Topic-drivenSummarizationandMMR)MMR——maximalmarginalrelevance它可能是适用于多项任务,包括从文本检索到主题驱动的总结。Q——查询/用户配置文件 R——被搜索引擎检索到的文件S——集合 Di——可选文档adifferentuserwithdifferentinformationneedsmayrequireatotallydifferentsummary

ofthesamedocument.11Multi-DocumentSummarization3. 图形扩展激活(GraphSpreadingActivation)12Multi-DocumentSummarization4. 基于质心的摘要(Centroid-basedSummarization) 不同于以往的系统 易于扩展和域的独立第一阶段 将描述同样的事件的新闻组合到一起 聚类算法

第二阶段质心值Ci 正值PiThefirst-sentenceoverlap(Fi),definedastheinnerproductbetweenthewordoccurrencevectorofsentenceiandthatofthefirstsentenceofthedocument.最终得分13Multi-DocumentSummarization5. 多语种多文档摘要(MultilingualMulti-documentSummarization)现在还处于起步阶段SimFinder20一个基于聚类的文本的工具通过各种句法和词法的功能使用对数线性回归的相似性模型14OtherApproachestoSummarization简介Thissectiondescribesbrieflysomeunconventionalapproachesthat,ratherthanaimingtobuildfullsummarizationsystems,investigatesomedetailsthatunderliethesummarizationprocess,andthatweconjecturetohavearoletoplayinfutureresearchonthisfield.15OtherApproachestoSummarizationShortSummaries简短的摘要SentenceCompression语句压缩Sequentialdocumentrepresentation

顺序的文件表示16OtherApproachestoSummarizationShortSummaries简短的摘要17OtherApproachestoSummarizationWitbrockandMittal(1999)提取总结(extractivesummarization)18OtherApproachestoSummarizationheadlinestylesummaries标题式的摘要19OtherApproachestoSummarizationReutersandtheAssociatedPress,publiclyavailableattheLDC2120OtherApproachestoSummarizationForcontentselection,themodellearnedatranslationmodelbetweenadocumentanditssummary(Brownetal.,1993).21OtherApproachestoSummarization“翻译模型”22OtherApproachestoSummarizationtheauthorsassumedthattheprobabilityofawordappearinginasummaryisindependentofitsstructure23OtherApproachestoSummarization维特比算法维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规划算法。例如在统计句法分析中动态规划算法可以被用于发现最可能的上下文无关的派生(解析)的字符串,有时被称为“维比特分析”。维特比算法由安德鲁·维特比(AndrewViterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号做为观察到的事件序列,而文本字符串,被看作是隐含的产生声音信号的原因,因此可对声音信号应用维特比算法寻找最有可能的文本字符串。24OtherApproachestoSummarization马尔可夫猜想每个数只在树上出现一次(即没有正整数z使得(a,b,z),(c,d,z)都是方程的解,其中a,b,c,d是两两相异的正整数,且a>b>z,c>d>z)。25OtherApproachestoSummarizationThesurfacerealizationmodelusedwasabigram

model.Viterbibeamsearchwasusedtoefficientlyfindanear-optimalsummary.TheMarkovassumptionwasviolatedbyusingbacktrackingateverystatetostronglydiscouragepathsthatrepeatedterms,sincebigramsthatstartrepeatingoftenseemtopathologicallyoverwhelmthesearchotherwise.26Evaluationdifficulttask:

(1)

moredifficultyinsummarycontent

(2)

theabsenceofastandardevaluationmetric

(3)

manualevaluationistooexpensive27Evaluation1HumanandAutomaticEvaluation

DUC-2001:DocumentUnderstandingConference2001

SEE:SummaryEvaluationEnvironment

MU:modelunit

SU:systemunit28Evaluationthehumanmarkingsforoverlappingunits,unstableinter-humanagreement,lowusingautomaticmetricsNAMS29EvaluationNAMnn-gram:achievebestcorrelationwithhuman

judgement30Evaluation2ROUGE

Recall-OrientedUnderstudyforGistingEvaluation

ROUGE-N,n-gramrecall31Evaluation

closelyrelatedtoBLEU

usefulinmultiplereferencesummaries:32Evaluation

otherROUGE

ROUGE-W

applyinLCS:longestcommonsubsequences

thelongertheLCSbetweentwosummarysentences,themoresimilartheyare.33Evaluation

ROUGE-S

gappyversionofROUGE-N,skipbigram34Evaluation

summary

performedverywellontheDUC-2001andDUC-2002datasets

anopenresearchtopic35Evaluation3Information-theoreticEvaluationofSummaries

information-theoreticmethod

Jensen-Shannondivergence

suitboththesingle-documentandthemulti-documentsummarization36Evaluatio

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论