版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
自动文本摘要AutomaticTextSummarization1Introduction摘要的定义:
atextthatisproducedfromoneormoretexts,thatconveysimportantinformationintheoriginaltext(s),andthatisnolongerthanhalfoftheoriginaltext(s)andusuallysignificantlylessthanthat.三个重点:1.摘要可能是由单文档或多文档得出的2.摘要必须保存有重要信息3.摘要要尽可能的简洁2Introduction四个重要的单词extraction提取找到重要部分逐字产生abstraction抽象化以另一种方式产生重要资源fusion融合把抽取的东西连贯在一起compression压缩去掉不重要的部分3IntroductionSingle-DocumentSummarizationMulti-DocumentSummarizationOtherApproachestoSummarizationEvaluation4Single-DocumentSummarizationEarlyWork 词语频率倒排(卢恩) 句子位置(巴克辛德) 提示词和文档骨架(埃德蒙逊)5Single-DocumentSummarizationmachinelearningmethods特征独立的:朴素贝叶斯方法非特征独立的:隐式马尔科夫模型对数线性模型近期出现的神经网络和第三方特征6Single-DocumentSummarization朴素贝叶斯方法正态分布7Single-DocumentSummarization隐式马尔科夫模型三个特征:句子位置术语数量句子术语和文档术语的相似度8Multi-DocumentSummarization背景20世纪90年代中期新闻领域比单文档摘要更多的要求发展过程很纠结9Multi-DocumentSummarization1. 抽象和信息聚合
(AbstractionandInformationFusion)SUMMONS -内容管理器 -语言生成器依赖树(dependencytrees)Dependencytreerepresentingthesentence"McVeigh,27,waschargedwiththebombing"10Multi-DocumentSummarization2. 标题驱动摘要和MMR
(Topic-drivenSummarizationandMMR)MMR——maximalmarginalrelevance它可能是适用于多项任务,包括从文本检索到主题驱动的总结。Q——查询/用户配置文件 R——被搜索引擎检索到的文件S——集合 Di——可选文档adifferentuserwithdifferentinformationneedsmayrequireatotallydifferentsummary
ofthesamedocument.11Multi-DocumentSummarization3. 图形扩展激活(GraphSpreadingActivation)12Multi-DocumentSummarization4. 基于质心的摘要(Centroid-basedSummarization) 不同于以往的系统 易于扩展和域的独立第一阶段 将描述同样的事件的新闻组合到一起 聚类算法
第二阶段质心值Ci 正值PiThefirst-sentenceoverlap(Fi),definedastheinnerproductbetweenthewordoccurrencevectorofsentenceiandthatofthefirstsentenceofthedocument.最终得分13Multi-DocumentSummarization5. 多语种多文档摘要(MultilingualMulti-documentSummarization)现在还处于起步阶段SimFinder20一个基于聚类的文本的工具通过各种句法和词法的功能使用对数线性回归的相似性模型14OtherApproachestoSummarization简介Thissectiondescribesbrieflysomeunconventionalapproachesthat,ratherthanaimingtobuildfullsummarizationsystems,investigatesomedetailsthatunderliethesummarizationprocess,andthatweconjecturetohavearoletoplayinfutureresearchonthisfield.15OtherApproachestoSummarizationShortSummaries简短的摘要SentenceCompression语句压缩Sequentialdocumentrepresentation
顺序的文件表示16OtherApproachestoSummarizationShortSummaries简短的摘要17OtherApproachestoSummarizationWitbrockandMittal(1999)提取总结(extractivesummarization)18OtherApproachestoSummarizationheadlinestylesummaries标题式的摘要19OtherApproachestoSummarizationReutersandtheAssociatedPress,publiclyavailableattheLDC2120OtherApproachestoSummarizationForcontentselection,themodellearnedatranslationmodelbetweenadocumentanditssummary(Brownetal.,1993).21OtherApproachestoSummarization“翻译模型”22OtherApproachestoSummarizationtheauthorsassumedthattheprobabilityofawordappearinginasummaryisindependentofitsstructure23OtherApproachestoSummarization维特比算法维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规划算法。例如在统计句法分析中动态规划算法可以被用于发现最可能的上下文无关的派生(解析)的字符串,有时被称为“维比特分析”。维特比算法由安德鲁·维特比(AndrewViterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号做为观察到的事件序列,而文本字符串,被看作是隐含的产生声音信号的原因,因此可对声音信号应用维特比算法寻找最有可能的文本字符串。24OtherApproachestoSummarization马尔可夫猜想每个数只在树上出现一次(即没有正整数z使得(a,b,z),(c,d,z)都是方程的解,其中a,b,c,d是两两相异的正整数,且a>b>z,c>d>z)。25OtherApproachestoSummarizationThesurfacerealizationmodelusedwasabigram
model.Viterbibeamsearchwasusedtoefficientlyfindanear-optimalsummary.TheMarkovassumptionwasviolatedbyusingbacktrackingateverystatetostronglydiscouragepathsthatrepeatedterms,sincebigramsthatstartrepeatingoftenseemtopathologicallyoverwhelmthesearchotherwise.26Evaluationdifficulttask:
(1)
moredifficultyinsummarycontent
(2)
theabsenceofastandardevaluationmetric
(3)
manualevaluationistooexpensive27Evaluation1HumanandAutomaticEvaluation
DUC-2001:DocumentUnderstandingConference2001
SEE:SummaryEvaluationEnvironment
MU:modelunit
SU:systemunit28Evaluationthehumanmarkingsforoverlappingunits,unstableinter-humanagreement,lowusingautomaticmetricsNAMS29EvaluationNAMnn-gram:achievebestcorrelationwithhuman
judgement30Evaluation2ROUGE
Recall-OrientedUnderstudyforGistingEvaluation
ROUGE-N,n-gramrecall31Evaluation
closelyrelatedtoBLEU
usefulinmultiplereferencesummaries:32Evaluation
otherROUGE
ROUGE-W
applyinLCS:longestcommonsubsequences
thelongertheLCSbetweentwosummarysentences,themoresimilartheyare.33Evaluation
ROUGE-S
gappyversionofROUGE-N,skipbigram34Evaluation
summary
performedverywellontheDUC-2001andDUC-2002datasets
anopenresearchtopic35Evaluation3Information-theoreticEvaluationofSummaries
information-theoreticmethod
Jensen-Shannondivergence
suitboththesingle-documentandthemulti-documentsummarization36Evaluatio
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业名称环保质量承诺书范文6篇
- 维护生产安全承诺函7篇范文
- 企业沟通与协作规范指南
- 严守安全生产责任承诺书3篇范文
- 2026年供应商大会参会回执确认函(7篇)范文
- 品牌推广领域声明承诺书(8篇)
- 行业产品说明书编写规范与格式要求
- 高效节能建筑设计与施工技术指南
- 数据诚信责任承诺书3篇
- 销售谈判策略与技巧应用参考手册
- 过境公路改建工程施工组织设计
- 线路板常识培训课件
- 水轮发电机组检修作业指导书资料
- 定压补水装置说明书
- 管致中信号与线性系统第5版答案
- 一汽大众汽车公司介绍
- 4.2《产生气体的变化》课件
- 《建筑工程项目管理》课程思政优秀案例
- 中国古代文化常识科举制度
- 护理管理学第二章管理理论和原理课件
- 超星通尔雅生命智能课后答案
评论
0/150
提交评论