(语言学及应用语言学专业论文)中文非受限领域自动文摘研究.pdf_第1页
(语言学及应用语言学专业论文)中文非受限领域自动文摘研究.pdf_第2页
(语言学及应用语言学专业论文)中文非受限领域自动文摘研究.pdf_第3页
(语言学及应用语言学专业论文)中文非受限领域自动文摘研究.pdf_第4页
(语言学及应用语言学专业论文)中文非受限领域自动文摘研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(语言学及应用语言学专业论文)中文非受限领域自动文摘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

捅要 摘要 随着社会的进步 科学技术的发展越来越着眼于人民大众 自动文摘的研究也应该 为普通大众服务 而普通大众所需求的信息是广泛的 是不限领域的 因此面向非 受限领域的自动文摘研究更是迫在眉睫 研究了特征词及句子的加权算法 对现有的加权算法进行了改进 提出了特征 词和句子加权的新算法 对特征词的加权 综合考虑了特征词在文档中的频率 在 文档集中的频率 词长 位置以及是否为大写英文字母等特征 对句子的加权 综 合考虑了句子在文档中的位置 句法结构以及是否有提示性短语等五种特征 并通 过试验给出了句子五种特征相应的权值比例系数 另外还考虑了句子所在段落的重 要度 对于重要段落中的句子适当加大了权值 结合自动文摘的研究现状 采用概率统计的方法 用新的特征词和句子加权算 法代替传统的算法 实现了中文非受限领域的自动文摘系统 利用自建的文档集采用内部评价方法对开发的中文非受限领域自动文摘系统 进行评价 结果表明该系统提取的文摘质量达到了预期效果 验证了所提出的中文 非受限领域的自动文摘系统的有效性 分析了可能影响文摘质量的因素 为进一步 完善文摘系统提供参考 关键词 自动文摘特征词权重词频 a b s t r a c t a b s t r ac t w i t ht h ea d v a n c e m e n to ft h es o c i e t y t h ed e v e l o p m e n to ft h et e c h n o l o g yi sw i t hav i e w t o t h ep e o p l em o r ea n dm o r e t h er e s e a r c h0 1 1a u t o m a t i ca b s t r a c t i nd o m a i n i n d e p e n d e n t c h i n e s ed o c u m e n t si s l o o m i n ga h e a db e c a u s et h ei n f o r m a t i o nw h a tt h ep e o p l en e e di s f a r r a n g i n g t h i sp a p e rs t u d i e st h ea r i t h m e t i c sh o wt ow e i g h tt h ec h a r a c t e r i s t i cw o r d sa n dt h es e n t e n sa n da m e l i o r a t et h e mc o n s i d e r i n ge v e r yc h a r a c t e ro ft h ec h a r a c t e r i s t i cw o r d sa n dt h e s e n t e n c e s o nw e i g h t i n gt h ec h a r a c t e r i s t i cw o r d s w ec o n s i d e rn o to n l y 也e i rf r e q u e n c yi nt h e a r t i c l eb u ta l s ot h e i rf r e q u e n c yi nt h ed o c u m e n ts e t s t h e i rl e n g t h sa n dt h e i rp o s i t i o n si nt h e a r t i c l e t h e nw ef i xo nt h en e we x p r e s s i o n sa b o u tw e i g h t i n gt h ec h a r a c t e r i s t i cw o r d s o n w e i g h t i n gt h es e n t e n c e s w ec o n s i d e rt h e i rp o s i t i o n si nt h ea r t i c l e s y n t a c t i cs t r u c t u r ea n d w h e t h e ri n c l u d er e f e r e n t i a lp h r a s e so rn o ta n ds oo n t h e nw ep r e s e n te v e r yc h a 均酏e r ss c a l e c o e f f i c i e n to f t h ew e i g h t t h i sp a p e ra c h i e v e saa u t o m a t i ca b s t r a c t i n gs y s t e mi nd o m a i n i n d e p e n d e n tc h i n e s e d o c u m e n t s i n t e g r a t i n gt h ec u r r e n tr e s e a r c ho ft h ea u t o m a t i ca b s t r a c t i n g a d o p t i n gt h em e t h o d o fp r o b a b i l i t ys t a t i s t i c sa n du s i n gt h en e wa r i t h m e t i c st ow e i g h tt h ec h a r a c t e r i s t i cw o r d sa n d 也es e n t e n c e s i no r d e rt ot e s tt h ee f f e c t i v e n e s so ft h ea u t o m a t i c a b s t r a c t i n gs y s t e mi nd o r a a i n i n d e p e n d e n tc h i n e s ed o c u m e n t s t h em e t h o do fi n t e r n a le v a l u a t i o ni st ob eu s e d t h i s p a p e rt a k e so u ta r t i c l e sa tr a n d o mf r o mt h ei n t e m e ta sd o c u m e n ts e t sw h i c hi st oe v a l u a t et h e s y s t e m a n a l y s e st h ef a c t o r sw h i c hm a yi n f l u e n c et h ea b s t r a c t sq u a l i t yt op r o v i d er e f e r r e n e e f o r p e r f e c t i n gt h es y s t e mf u r t h e r k e yw o r d s a u t o m a t i ca b s t r a c tc h a r a c t e r i s t i cw o r d w e i g h t w o r df r e q u e n c y 河北大学 学位论文独创性声明 本人郑重声明 所呈交的学位论文 是本人在导师指导下进行的研究工作及取得 的研究成果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其他 人已经发表或撰写的研究成果 也不包含为获得河北大学或其他教育机构的学位或证书 所使用过的材料 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了致谢 作者签名 学位论文使用授权声明 本人完全了解河北大学有关保留 使用学位论文的规定 即 学校有权保留并向国 家有关部门或机构送交论文的复印件和电子版 允许论文被查阅和借阅 学校可以公布 论文的全部或部分内容 可以采用影印 缩印或其他复制手段保存论文 本学位论文属于 l 保密口 在 年月 日解密后适用本授权声明 2 不保密口 请在以上相应方格内打 4 保护知识产权声明 本人为申请河北大学学位所提交的题目为 的学位 论文 是我个人在导师 指导并与导师合作下取得的研究成果 研究工作及取得 的研究成果是在河北大学所提供的研究经费及导师的研究经费资助下完成的 本人完全 了解并严格遵守中华人民共和国为保护知识产权所制定的各项法律 行政法规以及河北 大学的相关规定 本人声明如下 本论文的成果归河北大学所有 未经征得指导教师和河北大学的书 面同意和授权 本人保证不以任何形式公开和传播科研成果和科研工作内容 如果违反 本声明 本人愿意承担相应法律责任 声明人 作者签名 导师签名 e l 期 年月 日 e l 期 年月 日 第1 章引言 第1 章引言 自动文摘在信息处理研究中处于非常重要的地位 它已经渗透到计算机应用的 各个方面 成为当前的研究热点之一 随着信息量的日益增加 对自动文摘的研究 的意义也就越来越重大 本论文的研究是建立在中文自动分词系统已高度发展的基 础之上的 从互联网上随机抽取1 0 0 0 篇文章作为文档集 采用概率统计的方法 对已有的加权算法进行改进 综合考虑特征词及句子的属性 从而提高文摘的质量 实现中文非受领域限制的自动文摘 1 1 研究背景 现代社会是一个信息爆炸的社会 该社会的明显特征就是 信息就是财富 谁 优先抓住了必要的信息 谁就能在激烈竞争的社会中拥有了主动权 反之就处于了 劣势地位 目前随着计算机的普及以及互联网的迅猛发展 每天都有大量的数字信 息涌现 据有关资料估计 科学技术的信息每5 8 年就会增长1 0 倍 大量的信息 给我提供方便的同时也给我们带来了许多问题 最主要的问题就是 面对信息的汪 洋大海 我们无法快速有效地找到符合自己要求的信息 因此 我们就有必要认真 地研究信息的筛选与浓缩等问题 自动文摘就是以简洁的形式来表达原始文本的主要内容 可以对大规模电子文 本快速地进行浓缩 提炼 可以帮助读者快速了解有关文本的主要内容 判断是否 需要深入细看全文 从而节约宝贵的时间和精力 经过近半个世纪的研究 人们已经掌握了许多自动文摘的方法 同时也研究出 了一些实用系统 但这些系统生成的文摘质量并不令人十分满意 还远远不能满足 信息社会对信息处理的需要 我们国家对中文自动文摘的研究起步较晚 再加上中文自动文摘的研究难度比 较大 我们正在面临巨大挑战 作者认为自动文摘的研究更应该为普通大众服务 而普通大众所需求的信息是广泛的 是不限领域的 因此面向非受限领域的自动文 摘研究更是迫在眉睫 河北大学文学硕士学位论文 1 2 自动文摘的研究现状 l u h n 在1 9 5 8 年发表一篇题为 n ea u t o m a t i cc r e a t i o no fl i t e r a t u r ea b s t r a c t s 的文 章 提出自动摘要算法 开创了自动文摘的样板性研究方案n 1 这是第一篇关于文摘自 动生成方法的文章 l u l m 把词汇分成两大类 通用词和内容词 通用词通常包括连接 词 代词 介词 冠词 助动词 以及某些形容词和副词 除此以外的所有词为内容词 词频统计只对内容词进行 并把同根的内容词加以合并 词频超过某一事先设定的阈值 v 的内容词被认定是可以代表文章主题的有效词 通用词重要性被指定为0 m 其后众 多学者对l u h n 的方法进行了改进 美国的b a x e n d a l 采用三种方法从文章中选词和词串 删除通用词 从论题旬中选择 内容词 从正文的介词短语中选词 她发现8 5 的论题句出现在段首 7 的论题句出现 在段尾 因此有必要对这些位置的句子进行特殊加权 并且她还认为 介词短语似乎比 其他简单的语言结构更能密切地反映文章的内容 应该立足于词组或词串 而不是孤 立的单词嘲 e d m u n d s o n 提出了四种加权方法 提示词法 关键词法 题名法和位置法 提示词 法假设句子内某些词预示着另一些与主题相关的词在句中出现对后者应予加权 关键词 法认为高频内容词可以用来选择与文献内容紧密相关的句子 题名法指文献的题名和各 级小标题概述了文献的主题内容 在计算句子重要性时 规定赋予题名用词较高的权值 位置法则根据句子在文中的一定标题之下出现及其在正文中具体位置来确定句子的权 值 e d m u n d s o n 通过试验发现把这四种方法综合起来相对于单独使用关键词加权法具有 较好效果b 2 0 世纪6 0 年代 美国i b m 公司通过对l u h n 方法的改进 研制出了一套文摘自动 生产程序a c s i m a t i c 旧 7 0 年代初 俄亥俄州立大学的教授j a m e sa r u s h 和他的学生开发了a d a m a u t o m a t i cd o c u m e n ta b s t r a c t i n g m e t h o d 系统 首先对文摘的连贯性标准给予重视 该 系统强调句子的排斥而不是句子的选择 a d a m 系统是人们从自动摘录向自动文摘迈 出的第一步嘲 7 0 年代末8 0 年代初 美国耶鲁大学的s c h a n k 在脚本的基础上研制了s a m s c i i p t a p p l i e rm e c h a n i s m 系统 该系统采用脚本来分析简单的故事 并对故事进行归纳摘要旧 2 第1 章引言 1 9 7 9 年美国耶鲁大学的d e j o n g 研制了著名的f r u m p f a s tr e a d i n gu n d e r s t a n d i n g a n dm e m o r yp r o g r a m 系统 该系统用于快速阅览英文新闻资料 是理解文摘系统的样 板 但该系统的应用范围受内部存储的梗概剧本的限制 如果文章中没有该系统所期望 的内容则无法生成任何摘要 会有被误导 以致望文生义的可能口1 后来美国的j i t a i t 对f r u m p 系统进行了改进 创造了s c r a b l e 系统 然而由于该 系统要求将资料先转换成c d c o n c e p t u a ld e p e n d e n c ys t r u c t r u e 结构 实现起来困难较大 8 0 年代初 德国康斯坦茨大学的h a h n 等人研制了t o p i c 系统 该系统针对微处理器 领域的科技文献 以框架作为知识表示的基础 通过对全文的语法语义分析生成不同长 度的摘要嘲 8 0 年代末 美国g e 研究与开发中心的l i s a f r a u 等研制了s c i s o r 概念信息缩写 组织和检索系统 s y s t e mf o rc o n c e p t u a li n f o r m a t i o ns u m m a r i z a t i o n o r g a n i z a t i o na n d p e t f i e v a l s c i s o r 属于典型的理解文摘 它仅仅针对有关 公司合并 的新闻报导 该 系统首先采用关键词过滤和模式匹配的方法对资料进行主题分析 判定资料报道的内容 是否与 公司合并一有关 然后采用与领域无关的自底向上的分析器 t r u m p t r a n s p o r t a b l eu n d e r s t a n d i n gm e c h a n i s mp a c k a g e 识别每个句子的结构 生成类 似于框架的概念表示 最后运用自顶向下的预期驱动的分析器t r u m p e t t r u m p e x p e c t a t i o nt 0 0 1 从概念表示中提取预期的内容n u 同时代 我国上海交通大学王永成 教授开始研究自动摘录技术 沈阳东北大学姚天顺教授和香港城市理工大学联合开展 了 中文全文自动摘要系统 的研究 该系统采用脚本知识表示 通过与用户交互获取文 摘 9 0 年代初 日本t o s h i b a 公司的k e 玛io n o 等创建了基于修辞结构的自动文摘 就在 这前后 我国中科院软件所的李小滨 徐越 在北京大学马希文教授的指导下 研制了一 套实验系统 叫a a s e n g l i s ha u t o m a t i ca b s tt a c ts y s t e m 该系统是针对英文文摘的 自动文摘系统 是一种基于理解的文摘系统 仅仅局限于 就业机会介绍 这一领域n 朝 1 9 9 2 年哈尔滨工业大学王开铸教授研制了基于自然语言理解的文摘实验系统m a t a s 该系统用中文意义表示法分析处理输入的文章 再进行信息压缩 从而生成摘要 它考虑了句子之间的语义联系 但是系统不能自动判断段落的文体 需要人工干预m 河北大学文学硕士学位论文 1 9 9 3 年 英国l a n c a s t e r 大学p a i c e 等人与英国曼彻斯特的b l a c k 合作提出选择与生成 文摘法 该方法预先提供了带有空槽的摘要模板 利用模板将摘要框架中的短语和句子 组织起来生成摘要 目前该系统主要针对 小麦实验 方面的文章 但研究者正在努力 使它能够方便地移植到其他领域n 叼 1 9 9 4 年 哈尔滨工业大学王开铸教授研制了自动摘录类的h i t 8 6 3i 型自动文摘 系统 它通过词频统计等方法实现文摘的自动生成 适用于任意领域 任意题材 任意长度的文摘n 钉 1 9 9 5 年 国际期刊i n f o r m a t i o np r o c e s s i n g m a n a g e m e n t 出版了一期题为 s u m m a r i z i n gt e x t 的专刊 这一期专刊的出版标志着自动文摘的时代已经到来 1 9 9 6 年 哈尔滨工业大学的刘挺 王开铸提出了基于信息抽取和文本生成的自动文 摘方案n 4 1 9 9 7 年 上海交通大学王永成教授研制了o a 中文文献自动摘要系统 该系统采 用了仿真算法 集成了位置法 指示短语法 关键词法和标题法等多种方法 是一个实 用的系统n 刀 同年 日本的t a d a s h in o m o t o 等人提出了一种基于语料库的自动摘录方 法 该方法是在语料库语言学的影响下提出的 它让计算机自动地从训练集中提炼各个 特征的结合函数 为多种形式特征的综合利用开辟了一条新的道路n 羽 1 9 9 8 年 哈尔滨工业大学的刘挺 王开铸完成了基于篇章多级依存结构的 h y 2 8 6 3 i i 型自动文摘系统 此外 北京邮电大学信息工程系钟义信教授实现了面向计 算机病毒方面的g l a n c e 系统 面向新闻报道的n e w s 系统 以及面向神经网络学习算 法领域的l a d i e s 自动文摘系统n 钔 山西大学郭炳炎教授也在开展自动文摘的研究 他 们采用基于统计的方法分析文本结构嘲 据悉 m m 中国研究中心和大陆微软公司都在 研制中文自动文摘的产品 在实际应用上 美国m i c r o s o f t 公司将自动摘要系统集成到了办公软件o f f i c e 系列 中 最早实现了自动摘要的商业化 俄罗斯的m e x t i a l i n g u a 公司也在网络上发布了俄文 和英文的自动摘要系统l i b r e t t o 在网络上进行演示与销售乜 1 3 主要研究内容 本文分析了自动文摘当前采用四种的主要方法 总结了它们各自的优缺点 分 析了基于概率统计的方法的可行性及其适用范围 对特征词及句子的加权方法进行 4 第1 章引言 i i 曼曼曼量曼 毫曼曼曼曼曼曼曼曼皇曼曼罾曼曼曼曼曼 了研究并综合考虑特征词及句子的属性 对现有的加权算法进行了改进 提出了特 征词和句子加权的新算法 对特征词的加权 除了考虑它在文档中的频率之外 还 考虑了它在文档集中的情况 同时考虑了词长和词的位置对词的重要性的影响 在 对句子的加权上 综合考虑了句子在文档中的位置 句法结构以及是否有提示性短 语等五种特征 通过试验给出了句子各种特征相应的权值比例系数 设计了一个中 文非受限领域的自动文摘系统 并采用内部评价对开发的中文非受限领域自动文摘 系统进行评价 验证了所提出的中文非受限领域的自动文摘系统的有效性 提出了 消除指代问题的新方法 5 河北大学文学硕士学位论文 第2 章自动文摘的基本理论 自动文摘自它产生之日到今天走过了半个世纪的路程 受到国内外广大科学工 作人员的重视 在5 0 余年的发展历史中 自动文摘技术受到计算机科学 人工智能 情报科学和语言学等多个学科的共同的影响 取得了很大的进步 同时也吸引了世 界上许多国家的学者投入这方面的研究 经过广大学者的不懈努力 自动文摘技术 得到不断的完善与发展 形成了一定的理论与方法 但这些方法都还不够成熟 不 够完善 有待进一步发展 下面本文将对自动文摘的基本理论进行介绍 论述 2 1 文摘的概念 文摘很难被准确定义 对于自动文摘的定义 不同的标准有不同的描述 在我国国家标准 文摘编写规则 中 文摘被定义为 以提供文献内容梗概 为目的 不加评论和补充解释 简明 确切地记述文献重要内容的短文 在国际标准 文献工作一出版物的文摘和文献工作 中 文摘被定义为 一 份文献内容的缩短的精确的表达而无须补充解释或评论 且对写文摘的人来说没有 差别 在美国国家标准学会 文摘编写标准 中 文摘被定义为 某一文献内容简 要而准确的表述 不加解释和评论 也不区分这篇文摘是谁写的 一 在以上三个标准的不同定义中 都明确提出了 不加评论和解释 这一点 也 就是说一篇文摘应该客观描述文献内容 而不能加入任何主观意识的东西 三个定 义也都明确提出了 精确的表述 表露了简要的意思 综上所述 可以概括文摘的特点 1 客观性 一篇文摘无论长短 都要是文献内容的客观表述 不能以主观意 见对文献进行评价 2 精确性 文摘必须能把原文献的内容准确无误地 清晰地表示出来 尽量 使用文献中的原旬和词语进行描述 3 简要性 文摘必须要比原文献简短 文摘长度一般为原文的l o 3 0 6 第2 苹自动文摘的基本理论 2 2 文摘的分类 按照不同的分类标准 文摘可以被分为很多种 主题文摘 普通文摘 报道性 文摘 指示性文摘 摘录性文摘 评论性文摘等等 文摘是对文献内容的客观 精 确 简要的描述 我们将对其按内容进行划分 按内容划分 文摘可以分为报道性 文摘 摘录性文摘和评论性文摘 报道性文摘基本上可以反应文献中的主要观点 创造性内容和尽可能多的定量 或定性的信息 由于该类文摘在一定程度上覆盖了原文献中所有的重要信息 因此 可以作为原文献的某种代替 使读者免于查阅整篇文献论文 这种文摘尤为适用于 表达试验及专题研究类的科学技术论文 摘录性文摘中的句子大部分都是从原文献中选取的 只有极少数句子是经过加 工整理的 评论性文摘与早起关于文摘的定义要求不同 插入了文摘人员的主观观点 可 以帮助用户了解原文献作者想要表达的主观意图 是文摘人员在阅读大量同类文献 的基础上 进行分析比较 综合评价后形成的文摘 该类文摘对专业知识要求较高 文摘人员必须对某一领域的知识了如指掌 2 3 自动文摘的主要方法 自从l u h n 在1 9 5 8 年发表了第一篇关于文摘自动生成方法的文章以来 b a x e n d a l e o s w a l d e d m u n d s o n w y u y s e a r l i b m 公司 美国俄亥俄州立大学以及我国各位专家 等相继进行了研究 新的成果和想法不断涌现 自动文摘技术得到不断的发展与完善 1 9 9 3 年1 2 月在德国w a d e m 召开了历史上第一次以自动文摘为主题的国际研讨会 1 9 9 5 年 国际期刊i n f o r m a t i o np r o c e s s i n g m a n a g e m e m 出版了一期题为s u m m a r i z i n gt e x t 的专刊 编者在序言中指出 这一期专刊的出版标志着自动文摘的时代已经到来嘲 如今 对自动文摘的研究更是如火如荼 下面本文将对目前使用的四种核心方法进行系统介 绍 2 3 1 基于概率统计的方法 基于概率统计的自动文摘方法又称为基于文本物理信息分析的自动文摘方法 它所 依据的是文本的表层信息 这些信息是可以利用物理符号的匹配和统计而获取的 基于 7 河北大学文学硕士学位论文 词语统计的向量空间模型 v s m 法 本文将在以后章节做详细介绍 是大多数该类型文 摘系统的一个基本方法 采用该方法对自动文摘的研究产生了一系列研究成果 l u h n 的自动文摘试验 美国 i b m 公司在1 9 6 0 年前后研制的文摘自动生产程序a c s i m a t i c 俄亥俄州大学的j a m e s a r u s h 教授和他的学生开发的a d a m 系统 k u p i e c 等人开发的t r a i n a b l ed o c u m e n ts u m m a r i z e r 新加坡南洋大学研制的图书馆新闻删节系统 l i b r a r yn e w s p a p e rc u t t i n gs y s t e m l i s a f r a u 等人于1 9 9 5 年完成的a n e s 系统 a u t o m a t i cn e w se x t r a c t i o ns y s t e m 以及我国上海交通大学的中文自动编制文摘实验系统s j t u c a a o a 中文文献自动摘要 系统等等 基于概率统计的自动文摘方法将文本视为句子的线性序列 将句子视为词的线性序 列 它通常分四步进行 1 计算词的权值 设定阈值 提取特征词 2 按句子中包含的特征词及句子的相关属性计算句子的权值 3 对原文中的所有句子按权值高低降序排列 权值最高的若干句子被确定为文摘句 4 将所有文摘句按照它们在原文中的出现顺序输出 基于概率统计的自动文摘方法计算词权 句权 选择文摘句的依据是文本的6 种形 式特征 1 词频 f r e q u e n c y 能够指示文章主题的所谓有效词 s i g n i f i c a n tw o r d s 往往是中 频词 根据句子中有效词的个数可以计算句子的权值 这是l u h n 首先提出的自 动摘录方法的基本依据 v a o s w a l d 主张句子的权值应按其所含代表性 词串乃 的数量来计算 而d o y l e 则重视共现频度最高的 词对 美国i b m 公司在1 9 6 0 年前后研制了一套文摘自动生成程序a c s i m a t i c 该程序在旬权的计算方面对 l u h n 的方法进行了改进 1 9 9 5 年美国g e 研究与开发中心的l i s a f r a u 等人完成 了a n e s a u t o m a t i cn e w s e x l r a c t i o ns y s t e m 系统 该系统采用相对词频作为词 的权值 2 标题 t i t l e 标题是作者给出的提示文章内容的短语 借助常用词词表 s t o p l i s t 在标题或小标题中剔除功能词或只具有一般意义的名词 剩下的词和原文内容 往往有紧密联系 可以作为有效词 8 第2 苹自动文捅的基本理论 3 位置 l o c a t i o n 美国的p e b a x e n d a l e 的调查结果显示 段落的论题是段落首句 的概率为8 5 是段落末旬的概率为7 瞳们 因此 有必要提高处于特殊位置的句 子的权值 4 句法结构 s y n t a c t i cs t r u c t u r e 句式与句子的重要性之间存在着某种联系 比如 文摘中的句子大多是陈述句 而疑问句 感叹句等则不宜进入文摘 5 线索词 c u e e d m u n d s o n 的文摘系统中有一个预先编制的线索词词典 词典中 的线索词分为3 种 取正值的褒义词 b o n u sw o r d s 取负指的贬义词 s t i g m a w o r d s 取零值的无效词 n u l lw o r d s 句子的权值就等于句中每个线索词的权 值之和 6 指示性短语 i n d i c a t i v ep h r a s e 1 9 7 7 年 英国l a n c a s t e r 大学的p a i c e 提出根据各种 指示性短语 来选择文摘句的方法 和线索词相比 指示性短语的可靠性要强 得多 文本的这6 种形式特征是基于概率统计的自动文摘方法的依据 它们从不同角度指 示了文章的主题 但都不够准确 不够全面 如果能够将上述各种特征 有机 地结合 起来 即以函数w f r t l s c i 作为计算句子权值的公式 那么摘录的质量可 望进一步提高 问题的关键在于确定函数堤一件非常困难的事情 e d m u n d s o n 用 个简单的线性方程w c h c a 2 k a 3 t a 4 l 将4 种基本的句子选择 方法集成在一起 其中 w 代表句子的最终权值 c 代表线索词 c u e 权值 k 代表根据 词频计算而得的关键词 k e y 权值 t 代表题名词 t i t l e 权值 l 代表位置 l o c a t i o n 权值 q a 2 q 和口4 是比例调节参数嘲 这种将不同性质的因素简单地线性叠加的方式缺乏 充分的理由 实践表明确实不够理想 在经过1 0 年的探索之后 e d m u n d s o n 断言 今后 的文摘自动化方法必须考虑文献正文的句法特征和语义特征 而不能简单地依赖粗糙的 统计数据 虽然基于概率统计的自动文摘方法生成的摘要质量不太理想 存在反映内容不够全 面 语句冗余 缺乏连贯性等问题 但它不受应用领域的限制 几乎适用于任何文献 同时速度较快 也可以根据用户需求改变摘要的长度 能相对满足普通大众的需求 且摘要系统容易实现 因此仍然受到众多研究者的青睐 1 不受应用领域的限制 概率统计的自动文摘方法所依据的是文本形式上的规 9 河北大学文学硕士学位论文 律 总的来说 任何一篇文章都不同程度地符合这些规律 因此自动摘录能够适 用于非受限域 能相对满足普通大众的需求 这是它突出的优点 2 摘要系统容易实现 基于概率统计的自动文摘方法又称为基于文本物理信息 分析的自动文摘方法 它所依据的是文本的表层信息 这些信息是可以利用物 理符号的匹配和统计而获取的 不涉及语义知识及篇章理解等疑难问题 因此 基于此方法的的摘要系统实现起来较为容易 2 3 2 基于文本理解的方法 基于文本理解的方法注重对文献的理解 是以人工智能 特别是自然语言理解技术 为基础而发展起来的文摘方法 主要是利用自然语言处理技术对文献进行浅层或深层的 理解 用句法和语义知识 一阶谓词逻辑等理论对文献的内容理解的基础上 对其中的 词项 句子进行重组或替代来形成摘要 这种方法需要较成熟的人工智能技术和大型的 专家知识库 各国学者基于这种方法也产生了一系列研究成果 1 9 7 9 年美国耶鲁大学的d e j o n g 研制的著名的f r u m p f a s tr e a d i n gu n d e r s t a n d i n ga n dm e m o r yp r o g r a m 系统 美国的 j i t a i t 对f r u m p 系统进行了改进 创造的s c r a b l e 系统 美国耶鲁大学的s c h a n k 在脚本的 基础上研制的s a m s c r i p ta p p l i e rm e c h a n i s m 系统 意大利u d i n e 大学的d a n i l of u m 等人 研制的s u s y 系统 德国康斯坦茨大学的h a h n 等人研制的t o p i c 系统 l i s a f r a u 等研制 s c i s o r 概念信息缩写 组织和检索系统 s y s t e mf o rc o n c e p t u a li n f o r m a t i o ns u m m a r i z a t i o n o r g a n i z a t i o na n dr e tr i e v a l 哈尔滨工业大学王开铸教授研制的文摘实验系统m t a s 北京邮电大学研制的面向新闻报道的n e w s 系统和面向神经网络学习算法领域的 l a d i e s 自动文摘系统以及香港理工大学采用脚本知识表示 通过与用户交互获取文摘等 丘盘 专宇 基于文本理解的方法通常有以下几个步骤 1 语法分析 借助词典中的语言学知识对原文中的句子进行语法分析 获得语法结 构树 2 语义分析 运用知识库中的语义知识将语法结构描述转换成以逻辑和意义为基 础的语义表示 3 语用分析和信息提取 根据知识库中预先存放的领域知识在上下文中进行推理 1 0 第2 苹自动文摘的基本理论 j i 11 j l i i i 一 ii鼍 并将提取出来的关键内容存入一张信息表 4 文本生成 将信息表中的内容转换为一段完整连贯的文字输出 基于文本理解的方法由于采用了自然语言理解和生成技术 可以更准确地把握文 献的意义 因此生成的摘要质量也较好 具有简洁精练 全面准确 可读性强等优点 但是 把握文献的意义是一个难度十分巨大的工作 不仅要求计算机具有自然语言 理解和生成能力 还需要表达和组织各种背景 领域知识 迄今为止该方法进展甚 微 因此目前该方法使用较少 应用领域受到很大限制 造成领域受限的原因在于 t 2 1 面向大规模真实语料的语法语义分析技术尚未完全成熟 因此如果想获得高 质量的语言分析结果 就必须将待处理的语料限制在某个范围之内 2 理解文摘方法的基础是框架等知识表示 框架需要根据领域知识预先拟定 因此如果想把适用于某个领域的理解文摘系统推广到另一领域 则需重新 拟定框架 这种填充和组织领域知识的沉重负担使理解文摘难以移植 2 3 3 信息抽取 基于理解的文摘方法需要对文章进行全面的分析 生成详尽的语义表达 这对于大 规模真实文本而言是很难实现的 与之相比 信息抽取 i n f o r m a t i o ne x t r a c t i o n 只对有用 的文本片段进行有限深度的分析 其效率和灵活性显著提高 信息抽取的自动文摘以文摘框架 a b s t r a c tf r a m e 为中枢 分为选择与生成两个阶 段 文摘框架是一张申请单 它以空槽的形式提出应从原文中获取的各项内容 例如 针对计算机病毒类的文章可以提出如下的框架 病毒 病毒名称 病毒传染对象 病毒类属 病毒攻击对象 在选择阶段 利用特征词从文本中抽取相关的短语或句子填充文摘框架 例如 在 文本中发现 感染可执行文件 字样 则可以将特征词 感染 后面的短语 可执 行文件 作为病毒的感染对象填入文摘框架 河北大学文学硕士学位论文 在生成阶段 利用文摘模板将文摘框架中的内容转换为文摘输出 文摘模板是带有 空白部分的现成的套话 其空白部分与文摘框架中的空槽相对应 例如 该病毒的感染 对象是 病毒传染对象 是模板中的一个句子 因为在文摘框架中登记的病毒感染对象 为 可执行文件 因此在文摘中将输出这样的句子 该病毒的传染对象是可执行文 件 矧 基于信息抽取方法的自动文摘研究成果较少 主要有英国l a n c a s t e r 大学p a i c e 等人在 1 9 9 3 年提出的选择与生成文摘法和北京邮电大学研究的面向计算机病毒方面的g l a n c e 系统 信息抽取通常有以下步骤 1 先对文本进行主题识别 2 选择已编好的该领域的文摘框架 对文中有用的片段进行有限深度的分析 3 利用特征词提取相关短语或句子填充文摘框架 4 利用文摘模板将文摘框架中的内容转换为文摘输出 虽然信息抽取中的文摘框架相对于基于文本理解的方法中的脚本等要简单得多 更 易于编写 但我们要把信息抽取应用到多个领域就需要为每个领域都编写一个文摘 框架 这仍然是一个十分艰巨的工作 有待进一步研究 另外之所以基于该方法的 研究成果较少 主要还是因为它具有以下三个缺点 1 由于文摘框架的编写完全依赖于领域知识 所以信息抽取仍然是受领域限制的 2 单凭特征词或特征短语的提示作用来填充文摘框架并不是非常准确的 而且由 于语言的灵活多样 一些有价值的文本片段可能没有明显的特征 3 由于使用模板生成文摘 使得文摘的语言千篇一律 十分呆板 2 3 4 基于篇章结构的方法 文摘员在做文摘前一般需要通读全文 把握文档的中心思想和篇章结构 权衡各个 主题的轻重 从而使文摘能够尽可能地覆盖文档中的有用信息 如果计算机也能把文献 的篇章结构分析清楚 自然就能够找到文章的核心部分 生成质量不错的摘要 基于篇 章结构的方法就应运而生 基于篇章结构的方法的基本思想就是将文献视为句子的关联网络 与很多句子都有 联系的中心旬被确认为文摘句 句子间的关系可通过词间关系 连接词等确定 对于篇 1 2 第2 苹自动文摘的基本理论 幅较长的文章 可将文章视为段落的关联网络 可以赋予每个段落一个特征向量 两个段 落特征向量的内积作为这两个段落的关联强度 如果两个段落的关联强度超过给定阈值 则认为两个段落有语义联系 与很多段落都有联系的中心段被提取出来组成一篇文献文 摘 利用篇章结构的方法对自动文摘进行研究也产生了一定的成果 原捷克斯洛伐克 布拉格的j i r ij a n o s 提出的依据功能句子观 f u n c t i o n a ls e n t e n c ep e r s p e c t i v e f s p 理论进 行文本浓缩的方法 日本t o s h i b a 公司的k e n j io n o 等创建的基于修辞结构的自动文摘 前苏联的e f s k o r o x o d l o 将文章视为句子的关联网络 美国c o m e l l 大学的s a l t o n 等人则 将文章视为段落的关联网络 南京大学提出的一种篇章结构指导的中文w e b 文档自动摘 要方法以及复旦大学吴立德教授等人研制的自动文摘系统 由于语言学对于篇章结构的研究还很不够 可用的形式规则就更少了 这使得基于 结构的自动文摘到目前为止还没有一套成熟的方法 不同学者用来识别篇章结构的手段 也有很大差别 目前较为流行的有三种 关联网络 修辞结构和语用功能 其中关联网 络的手段主要有以下几个步骤 1 篇章结构分析 对文献的内容进行分析 发现其中的主题层次 形成文档篇章结 构表示 2 建立句子或段落之间的关联网络 3 计算句子或段落之间的关联强度 4 提取与很多句子 或段落 都有关联的句子 或段落 组成文摘 基于篇章结构的自动文摘方法生成的文摘具有连贯性 易于理解并且不受专业 领域知识的限制 在这两方面明显优于自动摘录和基于理解的方法 特别是当遇到 多主题或篇幅很长的文献时 可将文章视为段落的关联网络 再配合以仿人算法 所 得的自动文摘的相关性和连贯性都是其他方法无法比拟的 然而 这种方法无法做 到让计算机真正理解文献的主题内容 这种方法只是在人工智能和n l p 领域无法取 得突破性进展时产生的一种替代方法 同时这种方法比较适用于写作思路比较清 晰 开头结尾概括了文档的主要内容的科技性文献和新闻 对于有隐含意义题材的 文章如散文 诗歌和小说并不适用口刀 综上所述 目前较为流行的自动文摘的四种方法各有优缺点 基于文本理解的 1 3 河北大学文学硕士学位论文 方法和信息抽取都只能针对某一领域 受到领域的限制 基于篇章结构的方法虽然 不受领域的限制 但对于有隐含意义题材的文章如散文 诗歌和小说并不适用 基 于概率统计的自动文摘方法生成的摘要质量虽然不太理想 存在反映内容不够全面 语 句冗余 缺乏连贯性等问题 但它不受应用领域的限制 几乎适用于任何文献 同时 速度较快 也可以根据用户需求改变摘要的长度 能相对满足普通大众的需求 且 摘要系统容易实现 这符合当前自然语言处理技术面向真实语料 面向实用化的总 趋势 因此本论文主要采用了基于概率统计的方法 实现了非受限领域的自动文摘 系统 2 4 中文自动文摘实现的难题 汉语与英文在形式和结构上都有所不同 相对于英文自动文摘来说 中文自动 文摘的实现面对着更大的挑战 具有更多的难题和技术难点 这主要是由汉语自身 的特点造成的 要解决这些问题迫切需要汉语语言学家的参与和研究 需要他们对 汉语的特点有更进一步的认识 尤其是在汉语的形式化方面提出更多更完善的形式 规则 1 分词 分词就是将组成句子的一个个词语切分出来 汉语的书写形式与英 语不同 英语的每个词语之间都有空格作为词语划分的标志 汉语是连续 性书写 词与词之间没有界限 这就要求对汉语进行自然语言处理时 必 须先对汉语进行分词 这一过程的难度系数相当大 比如说有这么一句话 今年的花生长的很好 这句话应该分为 今年 的 花 生长 的 很 好 还是 今年 的 花生 长 的 很 好 分词问题经过多年研究仍未圆满解决 这就为后继的处理带来了麻烦 2 词性标注 汉语与英语不同 没有词形变化 比如英语中形容词变副词的时候 都有相应的规则 大部分都是加后缀 1 y 这样我们就很容易区分词性 而 汉语则要麻烦的多 甚至语言学界对词性划分仍然存在分歧 尤其是汉语中的 一词多性问题 一个词具有多个词性 更是加大了词性标注的难度 3 省略现象 汉语的省略现象非常普遍 不仅主语 宾语可以省略 吃了吗 就省略了主语 你和宾语 饭 定语也常常省略 尝尝 我做的 菜味道 如何 甚至连中心词也省略 尝尝我做的 菜 味道如何 一 这使 1 4 第2 苹自动文捅的基本理论 得汉语理解中更强调上下文语境知识的应用 4 汉语的表达形式多样化 汉语中经常可以使用不同的语言表现形式来表达同一 个意思 这就使得汉语的语法分析很难为语义分析服务 例如 中国队大胜 美国队 一 中国队大败美国队 中国队把美国队打败了 一 美国队被 中国队打败了 饼 中国队打败了美国队 这五个句子尽管表达形式各不相 同 却表达了同一个意思 5 汉语的比喻 委婉等用法丰富 汉语中常常不直接言其所欲言 而是言它物以 代之 这时 语句里的词义已经不再是本来的意义 准确地把握这些意义是非 常困难的 总之 汉语本身的复杂性加剧了中文自动文摘实现的难度 2 5 向量空间模型 基于词语统计的向量空间模型 v s m 法是基于概率统计文摘系统的一个基本方法 向量空间模型是一个关于文档表示的统计模型 2 0 世纪6 0 年代由g e r a r ds a l t o n 等人提出 嘲 主要应用于信息检索 自动索引 分类 聚类 篇章分析等 向量空间模型的基本思想是以向量来表示文本 形 呢 呢 其中形为 第i 个特征项的权重 所谓的特征项是向量空间模型中最小的不可分割的语言单位 可以 是字 词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论