面向自动文摘的主题划分方法.ppt_第1页
面向自动文摘的主题划分方法.ppt_第2页
面向自动文摘的主题划分方法.ppt_第3页
面向自动文摘的主题划分方法.ppt_第4页
面向自动文摘的主题划分方法.ppt_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向自动文摘的主题划分方法,童毅见 2012-11-4,主题的概念,1,主题的定义现状:鲜有确切的关于主题的定义。 2,几个关于“主题”的定义 Labadi认为主题是会话或讨论的主要问题 Chafe主题是正在讨论的命题 所谓“主题”,是介于篇章与段落之间的一个语言单位,一个主题表达或阐述一个相对独立的意义或话题 3,本文对主题的定义 主题是用来描述一个话语片段所表达内容的一种直观方式,该话语片段阐述了一个相对独立的意义或话题。主题不应是一个语言单位,但是可以通过篇章集、段落集或句子集的方式呈现。,主题划分,1,主题划分的概念 主题划分就是将一个含有多个主题的话语(在本文中以文本方式体现)切分成一系列单个主题。 Reynar认为,作者在写作前,会在脑海中收集一些没有连接的主题,在写作过程中为了保证文本的流畅,会有意无意的设置一些主题边界 2,主题划分的分类 主题划分可以分为层次划分(hierarchical segmentation)和线性划分(linear segmentation) 从划分结果来看,线性划分还可以进一步分为连续划分和非连续划分,主题划分对自动文摘的意义,1,有助于平衡摘要的结构,提高摘要的覆盖面 如果采用传统的基于句子重要度从高到低抽取的方法,很容易造成对次要主题的遗漏或忽略,并且容易导致主要主题的冗余。 2,主题特征对自动文摘的促进作用 Louis.et al.在比较话语结构特征、语义特征和非话语性特征(如主题词、句子位置等)在单文档自动文摘中的效果时发现,基于话语结构特征的方法在摘要内容上效果最好,常见主题划分方法,1,基于词汇衔接理论的方法 TextTiling、C99、dotplotting 2,融合特定语言现象和文本特征的方法 1)特定领域的提示短语。例如在广播新闻文本中,joining us 2)二元词组频率。避免单词频率引发的歧义问题; 3)命名实体的重复。 4)代词特征。 3,基于概率统计模型的方法 PLSA(概率潜在语义分析)、LDA(Latent Dirichlet Allocation)以及小世界模型,TSF算法,由Kern & Granitzer提出,是一种基于滑动窗口技术的主题划分方法算法 该算法在很多方面与TextTiling算法相近,也是一种基于词汇衔接理论的方法。 根据文章呈现的评价结果,TSF算法在切分效果上要远好于TextTiling算法,并且只有O(n)的计算复杂度。 TSF算法默认主题是由句子集组成,TSF算法描述,TSF算法描述,关于主题的呈现方式的讨论,1,句子集 or 段落集 2,主题的呈现方式与文本的特征、任务对主题颗粒度的要求有关 3,自动文摘对主题划分颗粒度的要求 4,句子集 and 段落集,以段落集为主题表征的TSF算法,面向自动文摘的主题划分策略,后期处理,引入代词特征 对于切分出来的主题如果首段是代词,则认为切分不正确,将前后两个主题合并,主题划分评价,1,传统的评价方法的不足 文本切分和主题划分的区别 召回率、准确率,F值等无法反应near miss现象,2,引入参考切分 3,引入切分合理度R,切分合理度R,主题划分评价结果,1,内部评价:针对以句子集和段落集表征的TSF算法(无关比较),2,外部评价:针对主题划分策略对自动文摘的影响(F值),进一步改进,1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论