




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2003 01 01 1 自动文摘及多文档自动文摘 2003 01 01 2 主要内容 自动文摘概述文摘概述主要的自动文摘技术自动文摘步骤文本分析文本转换文摘生成文摘评估方法中文自动文摘研究现状多文档自动文摘系统国外研究现状多文档系统需要做的工作系统设计自动文摘应用领域 2003 01 01 3 自动文摘概述 文摘定义Luhn 1958内容提取 压缩 用户的需求多种学科高度交叉的应用 涉及领域 自然语言处理 信息检索 图书馆学 统计学 认知心理学和人工智能摘要行为研究表层特征 篇章结构 规范的成分自顶向下研究方法基于知识的方法基于统计学方法 2003 01 01 4 主要的自动文摘技术 基于浅层分析对文档中所蕴含的一些浅层的特征进行统计与分析 将其中某些特征按特定的量化模型结合起来作为文档信息的量化度量 据此选择出文档核心内容 对于文档的浅层分析通常不需复杂的文档内部表示 能划分出文摘提取时的基本单元即可 基于实体分析实现实体层的分析要先把文档转化成内部表示的形式 分化出文档的各个实体并建立起文档实体间的相互关系 通过对文档实体及其相互关系建模 有助于确定个实体对于表述文档内容的作用 基于话语结构主要对全文的宏观结构建模结构包括 文档格式 用于区分文本主题的线索 文体结构如议论文或者说明文的结构特征 2003 01 01 5 自动文摘步骤 文本分析 寻找最能代表原文内容的成分转换 通过摘录或概括的方法压缩文本生成摘要 重组原文内容 生成摘要文本分析 信息选取和泛化 转换为文摘语言原文表示文摘表示图1 自动文摘的处理过程 2003 01 01 6 文本分析 利用知识对文本进行深层处理方法 知识 符号知识 结构化的知识表示 常用语法模型 句法分析和话语结构分析 先用自顶向下方法选取原文中特定片断 再用自底而上方法对这些重点片断进行详细的内容分析 Frump系统 80年初 概括出典型的新闻故事 从故事中预先选定的主题领域里准确抽取特定信息 事件性质 发生地点 生成文摘统计方法独立于领域知识和语言知识 通过识别重要的主题项来抽取包含这些主题项的上下文相关句来构建摘要 识别文章的主旨 如在词频统计基础上识别文章主题的方法 获取文摘的特征参数 如用监督或非监督学习方法获取话语模式 2003 01 01 7 文本转换 内容选择和泛化 相关信息的选择与原文的话语结构密切相关 泛化 把信息压缩为更抽象的形式选择和泛化多文档内容 用户对信息的侧重决定文摘对对每篇文档信息的选择要求能将多篇文档中的异同点分别提取出来泛化对新闻报道中的同一件事或一系列事采用多角度观察 分析文本片断中人物言语变化等信息差异 来确定多文档文摘所要提取信息 以单词的重叠 语义的联系为依据 从多文档中提取相似文本单元生成文摘的方法 2003 01 01 8 文摘生成 取决于用户对文摘形式的要求理想文摘涉及文本生成技术目前实用的文摘系统只是将原文中抽取的片段和句子稍加修改和润色去冗余 短句扩充 确定文摘输出顺序影响文摘连贯性的问题主要问题是首语重复和不明指代其它的层次关联关系可能影响由抽取句子所得到的文摘的可读性原文中的图表及插入成分在作文摘时要省略原文中重复性 并列性成分 及短句扩充 2003 01 01 9 文摘评估方法 摘要比较内部评价方法 与系统的目的相关 通过直接分析摘要的质量来评价 按信息的覆盖面和正确率来评价文摘质量 一般采用与 理想摘要 相比较的方法 外部评价方法 与系统的功能相应 将文摘应用于某一特定任务中 根据摘要功能提高此项任务的效果来评价文摘系统的性能 如对比采用摘要进行检索与原文进行检索的准确度 来确定是否可以利用摘要来代替原文 2003 01 01 10 中文自动文摘研究现状 上海交通大学 王永成教授 80年代末1992 中文文献的自动摘要模型系统 CAES 1997年研制了OA中文文献自动摘要系统OA关键技术 仿人 构造关键词词典 从文献有关部位中自动摘取包含关键词词典中的词的句子作为候选文摘句 并根据其中包含的词典词的个数 相距远近 句子在文中的部位等信息加权 再根据文摘长度要求选取权值较大的作为文摘句 对文摘句排序 润色生成文摘网上 中英文自动摘要系统演示东北大学 80年代末 姚天顺教授和香港城市理工大学联合开展 中文全文自动摘要系统 研究系统采用脚本知识表示 通过与用户交互获取文摘 2003 01 01 11 北京邮电大学 钟义信教授 全信息理论1997 面向计算机病毒方面的Glance系统 文摘框架为核心 2000 基于理解的 面向神经网络学习算法领域的Ladies自动文摘系统基于多Agent技术的自动文摘系统 2000系统流程图 词语语用信息文本输入 文本分类 分词与标注 语句过滤器 主题词典分词词典语法语义信息 语法语义分析 组配规则 文摘生成 文摘信息提取 概念联用测试 语句理解 句子语用规则概念联用规则网上 首信倚天内容导航引擎 首次实现中文文本信息的概念检索 2003 01 01 12 全信息理论Shannon信息论认为 通信工程的任务是复制发端所发出信号的波形 而不必关心信号所蕴涵的信息内容及价值 即不研究语义和语用信息 只研究语法信息全信息是认识论层次的信息概念 即认识主体所感知 表述的事物运动状态及状态变化的方式 包括状态 方式的形式 语法信息 含义 语义信息 和效用 语用信息 因此 全信息是语法信息 语义信息和语用信息的统一体 语法信息含义效用客体状态主体语义信息符号语用信息哈尔滨工业大学 王开铸教授提出偏重于篇章物理结构的 篇章计算模型 1992年研制了一个基于篇章理解的军事领域自动文摘实用系统MATAS1998 基于篇章多级依存结构的HIT 863II型自动文摘系统篇章意义表示生成流程 句意分析 篇章物理结构生成 复句关系 一般句间关系分析 句间关系传递计算 篇章结构模式获取IBM中国研究中心 微软 2003 01 01 13 多文档自动文摘系统 国外研究现状在受限领域Hahn 1990在领域知识的基础上实例化层次框架中各子部分 并用泛化 归类的方法得出原文主题Radev McKeown对新闻报道中的同一件事或一系列事采用多角度观察 分析文本片断中人物 言语的变化等信息差异 来确定多文档文摘所要提取信息在非受限领域使用统计技术来识别多文档间的相似和不同利用文本单元间的语义表示 以单词的重叠 语义的联系为依据 从多文档中提取相似文本单元生成文摘的方法比较基于词汇的相似度 将特定相似域的段落连接形成 文本关系图 选择与其它段落连接较多的段落 2003 01 01 14 多文档系统需要做的工作 聚类 聚类相似文档和段落以找到相关信息找共性 找到并提取多文档间的主要观点去冗 最小化摘要里的冗余找到不同点摘要的组合标准 以对用户有效的方式组合文本段落识别并报告出多文档间的矛盾处摘要更新 2003 01 01 15 多文档系统设计 2003 01 01 16 系统设计文档1 文本分析器用户需求文档2 文本分析器选择器 差异 综合 候选 生成器 摘要 泛化器 主题 器文摘句 共性点文档n 文本分析器 2003
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 七年级体育 体育与健康教育第36课说课稿 人教新课标版
- 信息机房相关知识培训课件
- fable-获奖课件教学课件
- 信息化项目经理知识培训课件
- 2025年安全生产管理人员考试试题及答案
- 信号灯课件教学课件
- 2025年护理学副高级题库及答案
- 2025年母婴护理试题题库及答案
- 安徽省巢湖市2024年八年级道德与法治上册 第三课 社会生活离不开规则 第1框 维护秩序说课稿 新人教版
- 第四节 祖国的首都-北京说课稿初中地理鲁教版五四学制七年级下册-鲁教版五四学制2012
- 2025年国家电网《安规》考试判断题库及答案
- 2025年合肥市社会化工会工作者招聘34人笔试备考试题及答案解析
- 2025上海美术馆招聘6人备考考试题库附答案解析
- 非婚生子女法律抚养权协议范本
- 2025年新版中层副职面试题及答案
- 盾构姿态监测-洞察及研究
- 药店店员技巧培训
- 蜂窝组织炎护理小讲课
- 2025年四川省巴中市中考数学试题
- 智慧树知道网课《工业机器人技术基础》课后章节测试满分答案
- (一检)泉州市2026届高三高中毕业班质量监测(一)数学试卷(含标准答案)
评论
0/150
提交评论