




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r st h e s i s 摘要 随着互联网上信息成指数级的增长,信息爆炸已经成为一个很严峻的问 题。通过文摘可以减小信息量,但是如果对大量的文本信息做文摘,人工进 行的这些专家文摘所消耗的时间是不可估算的。基于此,机器自动文摘就成 为一个非常重要的研究课题。 自动文摘是指利用计算机自动对文本编制摘要,是自然语言理解的重要 应用领域之一。自动文摘也是一项极具难度和挑战性的工作,人类已经对此 进行了几十年的探索。限于相关领域的已有水平,现阶段的自动文摘系统还 不能进行完全的自动语法、语义和语境分析,摘要结果还属于指示性摘要的 范畴。 本文在目前自动文摘的研究现状下,运用统计学的方法,利用h o w n e t 频率统计进行概念统计的文本摘要的研究。研究工作主要包括以下几个方面: 提出基于h o w n e t 获得词语概念的方法。 用概念频率统计代替传统的词形频率统计,来建立概念向量空间模 型;通过计算句子重要度和减少句子冗余度,得到文本摘要。 开发了一个基于概念向量空间模型的中文自动文摘系统。 对基于概念获取的自动文摘系统,运用内部和外部评测手段进行了系统 评估。并与基于词频统计的机械式自动文摘系统进行了比较,试验结果证明 本系统多个性能指标优于基于词频统计的机械式文摘系统。 关键词:自动文摘;概念向量空间模型;知网;自然语言理解 硕士学位论文 m a s t e r st h e s i s a b s t r a c t a st h ei n f o r m a t i o na v a i l a b l eo nt h ew o r l dw i d ew e bi s g r o w i n g e x p o n e n t i a l l y ,t h ei n f o r m a t i o n o v e r l o a d i n gp r o b l e mh a s b e c o m ea s i g n i f i c a n t p r o b l e m s u c hp r o b l e m c a l lb er e d u c e db yt e x ts u m m a r i z a t i o n t e c h n o l o g y ,b u ti ti s at i m e c o n s u m i n gt a s kf o rh u m a np r o f e s s i o n a lt oc o n d u c tt h es u m m a r i z a t i o n p r o c e s s i n g d u et ot h el a r g ev o l u m e o fi n f o r m a t i o na v m l a m eo nl i n ei nr e a lt i m e , t h er e s e a r c ho fa u t o m a t i cs u m m a r i z a t i o nb e c o m e s v e r y c r i t i c a l i ng e n e r a l ,a u t o m a t i cs u m m a r i z a t i o ni sd e f i n e da st h ep i o c e s st h a tt h ea b s t r a c t o fad o c u m e n ti sg e n e r a t e da u t o m a t i c a l l yb yu t i l i z i n gc o m p u t e r , a l s oi ti sv i e w e d a so n eo fn l u ( n a t u r a ll a n g u a g eu n d e r s t a n d i n 酚si m p o r t a n ta p p l i c a t i o n s i t s a v e st h ei n f o r m a t i o nt i m eb e c a u s eo fi t s s i m p l i c i t ya n dh i 班s p e e d a u t o m a t i c a b s t r a c ti so fg r e a td i f f i c u l t i e sa n dc h a l l e n g e s ;i ti sl o o k e da so n eo ft h es t a n d a r d s t ot e s tam a c h i n e si n t e l l i g e n c e ,s op e o p l eh a v ew o r k e do ni tf o rm a n yy e a r s n o w a d a y s ,a na u t o m a t i c s u m m a r i z a t i o n s y s t e m c a n tp e r f o r mc o m p l e t ea n a l y s i so f g r a m m a r s e m a m i c s a n d p r a g m a t i c s w i t h i nt h el i m i to fr e l a t e dr e s e a r c h ,a n di to n t y g e n e r a t e s i n d i c a t i v ea b s t r a c t a i m i n g a tt h ep r e s e n ts i t u a t i o n ,t h i sp a p e ru s e sh o w n e ta sat o o lt oo b t a i n c o n c e p t s ,a n dc o n c e p t u a ls t a t i s t i c a l m e t h o di s a p p l i e dt o r e s e a r c ho na u t o m a t i c t e x t u a ls u m m a r i z a t i o n t h em a i nw o r k sa r ei n t r o d u c e sa sf o l l o w s : 1 w e p r o p o s e am e t h o dt h a ti sw o r d sc o n c e p ti so b t a i n e db y u s i n gh o w n e t ; 2 w ee s t a b l i s ht h e c o n c e p t u a l v e c t o r s p a c e m o d e lb y r e p l a c i n g w o r d f r e q u e n c y w i t hw o r d sc o n c e p ta sf e a t u r e ,a n dc a r r yo u tw e i g h to fs e n t e n c ea n d r e d u c er e d u n d a n c yo fi tt oo b t a i ns u m m a r i z a t i o n 3 w ec o n s t r u c tas y s t e mo fc h i n e s ea u t o m a t i cs u m m a r i z a t i o nb a s e do n c o n c e p t u a l v e c t o rs p a c em o d e l i no r d e rt oe v a l u a t et h es y s t e mo fa u t o m a t i cs u m m a r i z a t i o nb a s e do nc o n c e p t s o b t a i n e d ,w eu s i n gt w od i f f e r e n t m e t h o d s :i n t r i n s i ce v a l u a t i o n sa n de x t r i n s i c “ 硕士学位论文 m a s t e r st h e s i s e v a l u a t i o n s c o m p a r i n gw i t ht h et r a d i t i o n a ls u m m a r i z a t i o ns y s t e mb a s e do nw o r d f f e q u e n c y ,t h e e v a l u a t i o nr e s u l t p r o v e d t h a tt h e p r o p o s e da l g o r i t h m i sm o r e e f i c i e n ta n dr o b u s t k e y w o r d s :a u t o m a t i cs u m m a r i z a t i o n ;c o n c e l m u a lv e c t o rs p a c em o d e l ;h o w n e t ; n a t u r ela n g u a g e u n d e r s t a n d i n g 硕士学位论文 m a s t e r 。st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究 工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其 他个人或集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和 集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。 作者签名日期:年月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位 论文。 作者签名: 日期:年月 日 导师签名: 日期:年月 日 本人已经认真阅读“c a l l s 高校学位论文全文数据库发布章程”,同意将本 人的学位论文提交“c a l l s 高校学位论文全文数据库”中全文发布,并可按“章 程”中的规定享受相关权益。回枣迨塞埕窒蜃溢卮! 旦圭生;旦= 生;旦三生 筮查。 作者签名: 日期:年月 日 导师签名: 日期:年月 日 硕士学位论文 m a s t e r st h e s i s 第一章绪论 语言文字是信息的首要载体u 1 。我们日常工作中的信息,绝大部分是以语 言文字表达、记载、传播和交换的。因此随着计算机和因特网的推广应用, 由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度 越来越高,可以认为一个国家的语言文字的信息处理水平和处理量基本上代 表了这个国家进入信息社会的程度,语言文字信息的处理能力直接关系到它 在网络社会和网络经济中的国际竞争能力。 文摘( a b s t r a c t ) 是准确地反映某一文献中心内容的简洁连贯的自然语言 段落。自动文摘( a u t o m a t i ca b s t r a c t i n g ) 是利用计算机自动编写文摘的应用 技术【列。 自动文摘是计算语言学和情报科学共同关注的课题,计算机文摘系统被 认为是信息资源处理的有效手段之,它为人们快速浏览信息确定自己的兴 趣点提供了强有力的帮助。从理论上讲,对自动文摘的研究将有助于探讨人 类理解、概括自然语言文本,并从中获取知识的认知模型。从实用角度而言, 自动文摘系统的使用将大幅度降低编制文摘的成本,缩短文摘的出版周期, 为人们廉价、迅速和准确地获取所需情报提供方便。因此设计更精确有效的 自动文摘系统已经成为当前的研究热点之一,它已经渗透到计算机应用的各 个方面,各种通用型自动文摘系统和有关各领域的专业型自动文摘系统逐渐 发展起来,并显示出强大的生命力。 1 1 国内外研究状况 1 1 1 基千统计的机械式自动文摘方法 从计算机产生之曰起,国际上就开始了自动文摘的研究工作。 在二十世纪五十年代,美国的l u h n 提出了可以用计算机来进行文献的压 硕士学位论文 m a s t e r st h e s i s 缩。六年后,l u h i l 发表了一篇阐述自动生成文摘方法的论文,这篇论文和他 在情报检索领域中所做的其它工作一起,为后继的同类工作提供了一个开端。 l u l l l l 把词汇分为两大类【3 l :通用词和内容词。通用词又称功能词,通常 包括连接词、代词、介词、冠词、助动词,以及某些形容词和副词,除此以 外的所有词为内容词。功能词的重要性被指定为0 ,词频统计只对内容词进行, 词频超过某一事先设定的阂值v 的内容词被认为是可以 弋表文章主题的有效 词。 其后众多学者对h l l n 的方法进行了改进。 b a x e u d a l e 采用三种方法从文章中选词和词串:删除功能词、从论题句中 选择内容词、从正文的介词短语中选词。她认为论题句是段落的支撑点,并 发现8 5 的论题句出现在段首,7 的论题句出现在段尾。因此段首旬和段尾 旬以及出现在其中的内容词需要特殊加权:并且她还认为“介词短语似乎比 其他简单的语言结构更能密切地反映文章的内容”,应该立足于词组或词串, 而不是孤立的单词。 6 0 年代,h p e d m u n d s o n 为t r w 公司研制文摘系统,e d m u n d s o n 提出了 选择文摘旬的四种方法。即提示词法1 4 、关键词法1 5 , 6 、题名法川和位置法阳】。 提示词法假设句子内某些词预示着另些与主题相关的词在句中出现对 后者应予加权;关键词法认为高频内容词可以用来选择与文献内容紧密相关 的句子;题名法指文献的题名和各级小标题概述了文献的主题内容,在计算 句子重要性时,规定赋予题名用词较高的权值;位置法则根据句子在文中的 一定标题之下出现及其在正文中具体位置来确定句子的权值。比较了综台应 用四种加权方法所产生的文摘效果,计算了机器文摘和目标文摘句子的重合 率,e d m u n d s o n 发现关键词加权法在单独侵用时重合率最低。根据这些数据, 他们停止采用关键词加权法。 7 0 年代初,俄亥俄州立大学的j a m e sa r u s h 教授和他的学生开发了 a d a m ( a u t o m a t i c d o c u m e n t a b s t r a c t i n gm e t h o d ) 系统,a d a m 强调的是排 斥句子的标准而不是选择句子的标准。r u s h 重视文摘的连贯性标准,在 a d a m 系统中,如果某个候选句需要有一个先行词,那么位于该句孑前面的 2 硕士学位论文 m a s t e r st h e s i s 那一句也要选入文摘。a d a m 是第一个真正意义上的文摘系统,在它之前的 系统只能成为摘录系统。 美国g e 研究与开发中心的l i s af r a u 在1 9 9 5 年完成了a n e s ( a u t o m a t i c n e w se x t r a c t i o ns y s t e m ) 系统,该系统采用的仍是词频分析的方 法。 1 1 2 基于自然语言理解的自动文摘方法 基于统计的机械式自动文摘通常能够抓住文献的关键所在,并用作者的 原旬加以概括,有的系统已获得了实际应用。然而它的缺点也是明显的,其 中最为突出的是:摘要的质量不稳定,缺乏句问的连贯性,摘要内容的冗余。 为此从7 0 年代中期至8 0 年代末人们探索了利用自然语言理解技术进行自动 文摘的方法。由于受到知识不足的限制,基于理解的文摘技术只能适用于某 一些狭窄的领域,例如用于处理有关地震情况的新闻等,但摘要的质量明显 优于传统文摘【1 0 j 。 基于理解的文摘技术的基本原理是:在某一特定领域的文章中,必然存 在着特定的信息焦点,即读者感兴趣的内容。例如地震报道必须包含有关地 震地点、级数、伤亡情况等内容。利用语言学手段将文章中代表这些信息焦 点的文字识别出来,用话语加以组织即可形成篇连贯的高质量的文摘。 1 9 7 8 年,原捷克斯洛伐克j i r ij a n o s 提出了依据功能句子观理论进行文本 压缩的方法。通过对句子语用功能的分类将文本的主干和枝叶区别开来,以 不同的主题推进方式相互衔接,是需要重点分析和摘录的内容,而枝叶则可 以排除在文摘之外。根据语用功能提炼出来的文摘更符合科技文献文摘编写 的标准。如果想把这种方法推广到科技文献的文本中去,则需要对各类文摘 的结构深入研究。即使是科技文献也有各种类型,理论文章、试验文章和综 述文章的结构区别也很大 1 1 - | 4 j 。 y a l e 大学的d e j o n g 于1 9 7 9 年研制了f r u m p 系统,该系统用于快速阅 览英文新闻资料。f r u m p 由预言器和验证器两部分组成,预言器利用梗概剧 3 硕士学住论文 m a s l e r st h e s i s 本预测当前情形下可能出现的一个或一组事件,验证器的任务是去证实这些 被预测的事件,并给出实际信息。该系统是典型的有目的的文摘系统,如果 文章中没有该系统所期望的内容则无法生成任何摘要 j 1 t a i t 的s r a b b l e 系统对f r u m p 系统进行了改进,但它要求输入资料 在处理前要先转换成c d 结构,这使得该系统很难实用。 意大利的d a n i l of u m 等人在8 0 年代初研制了s u s y 缩写系统,采用一 阶谓词作为文本的机内表示形式。 香港城市理工大学采用脚本知识表示,通过与用户交互获取文摘。 8 0 年代末,美国g e 研究与开发中心的l i s af r a u 等研制了s c i s o r 概念信息缩写、组织和检索系统。 1 1 3 基于结构的自动文摘方法 文本结构( t e x t u a ls t r u c t u r e ) 是体现文章中旬子以上的各个意义单元之间 关系的段章结构,它介于文本表层结构和深层结构之间。获得了文本的修辞 结构有益于从宏观上把握篇章结构。 篇章是一个有机的结构体,篇章中的不同部分承担着不同的功能,各部 分之间存在着错综复杂的关系。篇章结构分析清楚了,文摘的核心部分自然 能够找到。但是语言学对于篇章结构的研究还是很不够,可用的形式规则就 更少了,这使得基于结构的自动文摘到目前为止还没有一套成熟的方法,不 同学者用来识别篇章结构的手段也有很大差别。 传统的文摘技术应用面宽,质量低;反过来,基于理解的文摘技术质量 高,应用面窄近年来出现的基于文本结构的文摘技术在一定程度上避免了 前两种技术的不足 基于文本结构的文摘技术又可以根据是否包含预测文本结构的知识而分 为两种: 1 不包含预测知识的方法 一篇文章有其篇章结构,这种结构体现在段落、句子之间的相互关系上。 4 硕士学位论文 m a s t e r st h e s i s 关系可以分类,如段间关系可以分为并列、连贯、递进、总分、转折、因果、 说明等,句间关系可以分为并列、承接、选择、递进、转折、因果、假设、 条件等。利用篇章连接词和关联词语等形式标记可以识别大部分关系,从而 确定篇章的结构。 关系两边的语言单元在语意上可能具有同等的重要性,如并列关系,也 可能有所侧重;如转折关系的语意重心在后一单元上。将各种关系划分为平 等关系和偏正关系两类,即可方便地识别出篇章中的语意重心。 将代表语意重心的段落和句子提取出来,按照原文中的次序和关系连接 在一起即可组成一段连贯的摘要。 e d m u n d s o n 提出的线索词法是修辞结构法的前身。 日本u a s i d a 于8 0 年代后期基于人脑信号处理的神经元连接机制进行摘要 生成的研究。 九十年代初,日本东芝公司的k e n j i o n o 等,基于修辞结构研究自动文摘, 依据连接词推导出一种类似于句法树的修辞结构树,然后对修辞结构树进行 修剪,将保留下来的内容根据它们之间的修辞关系组织成一片连贯的文摘。 但是修辞关系的识别依赖于连接词,如果文章重的连接词数量有限的话,那 么多数修辞关系也就无法识别出来了【1 5 l 。 2 包含预测知识的方法 识别文本的超结构( s u p e r s t r u c t u r e ) ,即文章中旬子以上意义单位的组织 结构,是语言学研究中的薄弱环节,尤其缺乏可形式化的算法。不同类型文 章的超结构显然不会相同,但相同类型文章的超结构往往是相似的,例如科 技文献的超结构: 主题( t o p i c ) 目的( p u r p o s e ) 背景( b a c k g r o u n d ) 方法( m e t h o d ) 实验结果( r e s u l t ) 硕士学位论丈 m a s t e r st h e s i s 结论( c o n c l u s i o n j 有待解决的问题( r e m a i n i n g p r o b l e m ) ) 文摘的超结构应该和原文的超结构相一致,但去掉了多余的内容。文摘 的超结构也被称为文摘框架。文摘框架不是语义级框架,而是文本结构级框 架,它没有太详细的规定,所以可以覆盖较宽的领域。 具体应用时,先根据文摘框架中的槽将原文切分成若干部分,再从每一 部分中用传统方法选出能代表该都分的句子填入相应的槽中。 1 9 9 3 年p a i c e 正式提出称为“选择与生成”的文摘方法。该方法先从原文 中提取有关内客填入摘要框架,再利用已有的带有空槽的摘要模板将摘要框 架中的短语和句子组织起来生成一篇连贯的摘要。 前苏联e e s k r o x o d k o 于1 9 7 2 年提出一种文摘方法,该方法从语义角度 来分析词句,凡是跟其它许多句子在语义上有关系的,删掉它将会严重破坏 文章意思的句子,就被赋予高的权值并作为文摘的侯选句。 前苏联的e e s k r o x o d k o 将文章视为句子的关联网络,旬间的关系建立在 词间的同义关系基础上,和很多句子都很有关系的中心句被确认为文摘句。 美国的s a l t o n 等人则将文摘视为段落的关系网络,文献重的每个段落被赋予 一个特征向量,两个段落特征向量的内积作为这两个段落的关系强度,如果 两个段落的关联强度超过给定阙值,则认为两个段落有语言关系。和很多段 落都有关联的中心段落被提取出来组成一篇文献摘要。这种基于段落抽取的 文摘显得不够凝练,冗余信息太多【1 6 , 1 7 , 1 8 】。 我国对中文自动文摘的研究起步较晚,随着计算机在我国的普及,以及 网络时代对信息流通处理的需求,中文自动文摘的研究在2 0 世纪9 0 年代才 如火如茶地发展起来。 取得一定科研成果的单位主要有哈尔滨工业大学、上海交通大学、上海 复旦大学、北京邮电大家、山西大学等。 哈尔滨工业大学的王开铸教授等人于1 9 9 2 年研制了基于理解的自动文摘 实验系统m a t a s n 1 ,9 4 年研制出自动摘录性的非受限领域的自动文摘系统 硕士学位论文 m a s t e r st h e s i s h i t - - 8 6 3 p , 9 7 年提出了基于信息抽取和文本生成的自动文摘系统。 复旦大学吴立德教授等人研制的中文文本摘要系统f d a s c t ,以统计分 析为主,采用最大似然估计法对每个句子内各个词进行了词性标引,对标引 语料库进行了研究。 北京邮电大学研制的非受限领域复合式自动摘要系统【2 1 】,该系统根据词 频统计、自由词标引的结果计算句子的重要性,然后运用依存关系树和语义 框架法进行文摘候选句子的加工。 上海交通大学的王永成教授较早地领导研究中文文献自动文摘系统【2 2 1 , 并于1 9 8 8 年开发出了“汉语文献自动编制文摘试验系统”( s j t u c a a ) ,对随 机地从情报学报1 9 8 3 年第一期上抽出的几十篇论文自动编制文摘,大部 分文摘句达到比较满意的效果。随后,又开发出了“中文文献自动摘要系统 c a s e s ”和“o a 中文文献自动摘要系统”。该系统采用了仿人算法,实际上 也集成了位置法、指示短语法、标题法、关键词法等多种方法,是一个实用 的系统。 1 2 本课题的研究内容 关于自动文摘系统的研究,主要有基于意义的理解文摘和基于统计的机 械文摘两种主要的研究方法。关于它的理论的研究远远滞后于信息社会中信 息处理的发展要求。 产生这种现象的主要原因是由于基于意义的理解文摘和基于统计的机械 文摘系统都存在着一些弊端。如对于基于意义的理解文摘,由于知识库建立 的困难性,知识表示的复杂性,使得它只能面向某一应用领域,并且文摘质 量并不十分令人满意;对于基于统计的机械文摘,大多采用的是基于词形统 计的向量空间模型法。这种方法以词形作基础,认为词形是文章的最小意义 单元。但是向量空间模型最基本的假设是向量各义项之间要正交【2 ”,也就是 意义不相关,而在真实文本中,存在着相当多的一词多义与一义多词现象, 使作为义项的词语之间往往有很大的相关性。从而导致文摘的质量不高。 7 硕士学位论文 m a s t e r st h e s i s 为此,我们提出基于h o w n e ! 概念获取算法得到文本的主题语义概念,建 立概念向量空间模型。这样,可以使得向量空间模型中各向量义项间保持正 交关系,从而提高向量空间模型进行自动文摘的各项效能。 本课题研究主要内容包括文本词语的计算机处理、词语所表达概念的自 动获取和句子语义相似度的计算分析,以及文本主题句的提取的研究。本文 将基于统计的机械文摘、基于h o w n e t 的词语概念获取和主题句语义相似度 计算等研究方法结合起来提高了文摘的质量。 1 3 本文的文本结构 本文各章安排如下: 第一章绪论,概述了文本自动文摘的意义和应用背景,介绍了文本自动 文摘的国内外研究现状。 第二章是文本自动文摘模型的介绍,综述了当前文本自动文摘领域几种 重要的模型,并作了相应的比较和分析。 第三章是基于概念向量空间模型的中文自动文摘研究。这一部分是本论 文的核心部分,介绍了词语概念获取的主要工具h o w n e t ,阐明了建立一个稳 定、可靠、高效的自动文摘系统里面的各项关键技术的实现。 第四章是系统实现与试验分析,介绍了自动文摘系统各模块以及相应模 块所实现的功能;此外,对该系统进行了全面的评测,主要是通过各种不同 的方法和测试手段对设计实现的系统进行评估,指出了存在的问题以及初步 的解决方案。 第五章对全文进行总结并展望了未来的工作。 硕士学位论文 m a s t e r st h e s i s 第二章自动文摘的相关模型 2 1 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ) 是2 0 世纪6 0 年代由g e r a r ds a l t o n 等人提出的。主要应用于信息检索、自动索弓l 、分类、聚类、篇章分析等。 其思想是把文本表示成向量空间中的点( 称为向量) ,用向量之间的夹角余弦 作为文本间的相似度度量。当向量空间模型用于文本检索时,首先要建立文 本和用户查询的向量表示,然后进行查询向量和文本向量间的相似度计算。 2 1 1 文本向量空间表荆驯 对于计算机来说,中文文本就是由汉字和标点符号等最基本的语言符号 组成的字符串,由字构成词,由词构成短语,进而形成句、段、节、章、篇 等语言结构。用尽量简单并且准确的方法表示文档,是进行文本检索的前提。 向量空间模型( v s m :v e c t o rs p a c em o d e l ) 表示方法是在文本中提取其特征项 组成特征向量,并以某种方式为特征项赋权,如:文档d 可表示成 d ( t ,t :,t 。) ,其中t 。是特征项,1 k n 。由于特征项的重要程度不同,可 用附加权重w k 来进行量化,这样文档d 可表示为d ( t 。,w 。:t 。w 2 t 。,w 一) ,简记为 d ( w 、,w 矿一,帆) 这时说项l 的权重为w t ,l k n 。如果把t 。,t 。,t 。看成是个 n 维坐标系,而w 。,虬,砜是相应的坐标值,则d ( 矾,2 j ,w n ) 被看成是n 维空间 中的一个向量( 如图2 1 ) 。称d ( w 。,w 2 ,w 。) 为文本d 的向量表示。 硕士学位论文 m a s t e r st h e s i s w l n ) d 2 ( w 2 l ,w 2 2 ,w 2 n ) 图2 1 文本的向量空间表示 可以看出,对向量空间模型来说,有两个基本问题:即特征项的选择和 项的权重计算 2 5 , 2 6 】 2 1 2 特征项选择 用来表示文档内容的项可以是各种类别,对汉语来说,有字、词、短语 甚至是句子或句群等更高层次的单位。项也可以是相应词或短语的语义概念 类。 项的选择必须由处理速度、精度、存储空间等方面的具体要求来决定。 特征项选取有几个原则:一是应当选取包含语义信息较多,对文本的表示能 力较强的语言单位作为特征项;二是文本在这些特征项上的分布应当有较为 明显的统计规律性,这样将适用于信息检索、文档分类等应用系统;三是特 征选取过程应该容易实现,其时间和空间复杂度都不太大。实际应用中常常 采用字、词或短语作为特征项。 2 1 3 特征项权重计算 对于特征项权重的计算,经典的t f i d f 2 7 】方法考虑两个因素:1 ) 词语频 率t f ( t e r mf r e q u e n c y ) ;词语在文档中出现的次数;2 ) 词语倒排文档频率 1 0 硕士学位论文 m a s t e r st h e s i s i d f ( i n v e r s ed o c u m e n tf r e q u e n c y ) :该词语在文档集合中分布情况的一种 量化,常用的计算方法是l o g :( n n k + o 0 1 ) ,其中n 为文档集合中的文档数 目,n 。为出现该词语的文章数。 根据以上两个因素,可以得出公式: w i k = t f 。k l 0 9 2 ( n n k + o 0 1 ) 其中t f 。曲词语t 。在文档d 。中出现的次数,w ,t 为词语t t 在文档d ,中的权值, k = l ,2 一,m ( m 为词的个数) 。 为了计算方便,通常要对向量进行归一化,最后由: 一 如x l 0 9 2 ( n t + 0 0 1 ) 厣五磊 ( 2 - 1 ) 以上公式的提出是基千这样一个考虑:对区别文档最有意义的特征词应 该是那些在文档中出现频率足够高而在文档集合中的其它文档中出现频率足 够少的词语。 2 1 4 文本问的相似度度量 向量空间模型中的另一个概念是相似度( s i m i l a r i t y ) :相似度s i m ( d ,d 。) 用于度量两个文档d 和d 。之间的内容相关程度。当文档被表示为文档空间的向 量,就可以利用向量之间的距离计算公式来表示文档间的相似度。常用的距 离有向量的内积距离: n s m ( d 。,d 2 ) = 了。 ( 22 ) 镯 s i m ( d 1 ,d 2 ) 一c o s , ( 2 3 ) 硕士学位论文 m a s t e r st h e s i s 将v s m 应用于不同的领域,其相似度的计算有所不同。例如,对于信息检 索来讲,v s m 采用向量间的某种距离度量来反应文本对查询的满足程度。所有 相似度的值最后能与真实情况相符,计算简便,同时最好能归一化到 0 ,1 区 间上,并且分布尽可能的均匀,使闽值的选择容易一些。 2 2 潜在语义索引模型 2 2 1 潜在语义索引q l a t e ts e m a n t i ci n d e x i n gl s i ) 基本思想【2 8 ,2 9 1 潜在语义索引i ) 是一种用于知识获取和展示的计算理论和方法f 3 0 l ,它 使用统计计算的方法对大量的文本集进行分析,从而提取和表示出词的语义, 这种潜在语义,是词语所有的上下文语境信息的总和。这是因为,上下文环境 对其中的事物提供了一组相互联系和制约,在很大程度上决定了词语之间语 义上的相关性i 1 j 。 潜在语义索引出发点就是文本中的词与词之间存在某种联系,即存在某 种潜在的语义结构。这种潜在的语义结构隐含在文本中词语的上下文使用模 式中。因此采用统计计算的方法,对大量的文本中进行分析来寻找这种潜在 的语义结构,它不需要确定的语义编码,仅依赖于上下文中事物的联系,并 用语义结构来表示词和文本,达到消除词之间的相关性,简化文本向量的目 的 3 2 , 3 3 1 。三维潜在语义空间示例如图2 2 所示。 传统的空间向量方法假设词语语义是相互独立的,每个词语都被看作向 量空间中的一个正交基本向量。实际上,词语之间存在很强的关联性,即出 现“斜交”现象,影响了文本处理的结果。l s i 利用这种关联性,通过对文 本集中词语的上下文使用模式进行统计转换,获得一个新的低维的语义空间 ( 图2 2 ) 。l s i s v d 是最早提出使用,也是目前普遍使用的典型l s a 空间的 构造方法。通过对文本集的词一文本矩阵的奇异值分解( s i n g u l a rv a l u e d e c o m p o s i t i o n ,s v d ) 剐计算,并提取k 个最大的奇异值及其对应的奇异矢量 构成新矩阵来近似表示原文本集的词条一文本矩阵。 硕士学位论文 m a s t e r st h e s i s 词向量a 正交语义维2 正交) 语义维- 1 图2 2 潜在语义索弓 量d 正交) 语义维3 2 2 2 矩阵的奇异值分解( s i n g u l a rv e c t o rd e c o m p o s i t i o n ,s v d ) 潜在语义索引的算法基于矩阵的奇异值分解( s i n g u l a rv e c t o r d e c o m p o s i t i o n ,简称为s v d 分解) 对于任意秩为r 的t x d 矩阵存在如下分 解:a 。= t o s 。d j ,其中t 0 、d o 是各列正交, 巧7 0 = i ,o r o o = ,s o = d i a g ( x 】,t ,a ,) ,a 2 一 0 。 选择适当的k 值,删除s 。中相应的行和列得到s ,删除t 。、d 0 相应的行和列 分别得到t 、d ,运算得到新的矩阵a = t s d 7 :用它去近似原始矩阵,这个秩 为k 的新矩阵在最小平方意义上最接近原始矩阵,即:a 。一a = t a d 7 。 设文本集为d s = ( d ,d 。d 。) ,项的集合为t s = ( t t 。 t 。) 。文本 处理中采用的原始矩阵a = ( a ,) 为项文本矩阵。其中:a 。,为项t 。( i = 1 ,2 ,m ) 在文本d 。中的频率。在统计时选取实词参加运算,滤去虚词和停用词,以减少 运算量和提高词汇特征的表现能力【3 5 】。虚词如数词、量词、介词、代词、连 1 t 硕士学位论文 m a s t e r st h e s i s 词、助词、象声词、方位词、叹词、状态词等,停用词为高频词和一些不常 用的低频词。 a m 行向量为项特征向量( a 。,a 。a 。) ,它表明了项在整个文本集上 的使用模式。a m y 0 向量为文本特征向量( a 。a 。a _ ,) ,它表明了文本中 项的使用模式。进行s v ) 分解,考虑到计算的效率,按如下规则选取降维的因 子数,即潜在的语义结构数。令k 。满足不等式: k 1 , 酗荟”日 p 。, 其中:0 为包含原始信息量的阈值,如可取为4 0 、5 0 、6 0 ,。根据目 前系统资源情况设置k 2 = 1 0 0 ,则最终的k 值为m i n f k l , k 2 ) 。 s v d 分解的重要意义在于将项和文本映射在同一个k 维的语义空间内, 这样较之传统的单模式因子分析。它的基础不再是同一类型的两个事物的相 似矩阵,而是任意的矩阵。其结果是将项和文本表示为k 个因子的形式,而 且保持了原始的大部分信息。s v d 分解并不是为了描述这些潜在的语义结构, 而是利用潜在语义结构来表示项和文本,克服单纯项表示时产生的同义、多 义,以及“斜交”现象。 利用s v d 分解不仅能够分析传统的项与项或者文本与文本之间的相似关 系,而且更关键的是能够分析项和文本的关系,在新的语义空间分析计算项 与项、段落、文本之间的相似系数,比直接利用原始的特征向量进行点内积 运算具有更好的效果。因为它是基于语义层,而前者是基于词汇层。这些特 点正是本文采用潜在语义索引的主要理由。 2 3 隐m a r k o v 模型1 3 6 , 3 7 】 隐马尔可夫模型是马尔可夫模型的进一步发展。马尔可夫模型是马尔可 1 4 硕士学位论文 m a s t e r st h e s i s 夫过程的模型化,可以用图2 3 ( a ) 的框图形象表示。它把一个总随机过程看 成一系列状态的不断转移。时刻f 的状态用q 。表示,它可以是种状态集合s = s ,昂 中的任意一个。马尔可夫模型的特性主要用“转移概率” 来表示。后一状态出现的概率决定于其前出现过的状态次序。即:状态q 。出 现的概率为尸, q , q 。q ,z ,酗 。如果此概率只决定于前一个状态, 即p , g 靠 ,则称为一阶马尔可夫过程。它是研究中引用得最多的形式, 即:p , q , q 。,q ,:,q 1 = pr 口靠。 。 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 则认为模型的状态是不 可观测的( 这便是“隐”得名的由来) 。能观测到的只是它表现出的一些观测 量( o b s e r v a t i o n s ) 。例如:睡眠的状态可分为“醒觉”、“快速眼动”、“睡 眠一期”,它们便是“状态”;而可以观测到的则是在这些状态下的各种 生理参数表现,例如在脑电图上的表现。这些表现便构成观察。t 时刻的观 察记作0 。当观察是离散型时,0 。是总的观察集合y = “,姥,“ 中 的一种,如图2 3 ( b ) 所示。注意未必等于。 里妻盈魉i 舯 o _ o 卜叶0 h 叫c ; 壤薯s = 【t 屯咯j m嘶 嘶j钾 研e s ;【屯毛如】 d ie v = t v j 鸭l 图2 3( a ) 马尔可夫过程( b ) 隐马尔可夫过程 和1古 硕士学位论文 m a s t e r st h e s i s 隐马尔可夫过程的特性可用下述参数集合来表征; ( 1 ) 转移概率盘扩尸, 岛侮 即:由状态j 转移到状态的概率( 对一 阶马尔可夫过程) 。由于共有 种可能的状态,因此a 。共有个可能的取 值。把它们用矩阵表示成: 爿= k 。】且 。1 ( 2 ) 观察概率白( k ) = p r 巩( 勒 ,即:在状态毋下产生观察的概率。 如果共有种可能的观察,则日) 组成肜矩阵鼠 n b = 蹦七) 且6 - - 1 ( 3 ) 初始状态概率:指第一个状态研究竞取s = s i ,岛,飘 中哪一个的 概率。它组成1 矢量: j = 尸, q l = 品 而= 丌l ,2 ,丌 以下讨论中把上述参数台起来用 表示: = a ,b , 。它便是表征h 的参 数集合。 采用h 进行研究工作时常遇到三类问题: ( 1 ) 评价问题:给定模型参数x = 凹,曰, 及观察序列口= 。l ,阮, o , 。求此模型产生此观察序列的概率p , 0 。 实际工作中常用这一思路来进行信号的分类。即:设有l 种待定类别,其 模型分别为x t 、九。、九。且皆已知。现在把给定观察口= q ,。2 ,o , 给予这组模型,看哪一个p , o 最大就认为该观察属于九:一类。这也 就是选择与观察最匹配的模型。 ( 2 ) 解码问题:给定模型九及观察序列晓问此观察序列是模型九中取怎 样的状态次序 q o 一一曲 得到的。解决此问题的关键是采用什么作为取 得结论的判据。通常是取产生此观察序列概率最大的一组状态序列印= 日、, 硕士学位论文 m a s t e r st h e s i s 他,q , 作为判决。 ( 3 ) 辩识( 或称训练) 问题:给定h m m 的结构( 指状态数,观察类数) , 由给定的一组供训练用的观察组d ,0 :,0 。 丰 ,估计该模型的最优参数。 a = 陋,b ,露】 1 7 硕士学位论文 m a s t e r st h e s i s 第三章基于概念的向量空间模型关键技术研究 本文以h o w n e t 为词语的语义知识库,利用它建立概念向量空间模型。 3 1 知网( h o w n e t ) 介绍 3 1 1h o w n e t 的特色 h o w n c t l 3 8 1 作为一个知识系统,是一个网而不是树。它所着力要反映的是 概念的共性和个性,例如:对于“老师”和“学生”,“人”是它们的共性。h o w n e t 在主要特性文件中描述了“人”所具有的共性,那么“老师”的个性是他是“教” 的施事,而“学生”的个性是他是“学”的经验者。 同时h o w n e t 还着力要反映概念之间和概念的属性之间的各种关系。 h o w n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水电站大坝施工技术保障方案
- 森林碳汇能力增强实施技术方案
- 热力管道压降与流量分配方案
- 桥梁施工方案
- 新能源汽车轻量化零部件产品制造项目工程方案
- 温室大棚建设团队分工协作方案
- 城市配套管线工程方案
- 正阳科四考试题库及答案
- 著名的建筑方案设计公司
- 生态保护区空置土地租赁与生态旅游合作合同
- T-CTSS 3-2024 茶艺职业技能竞赛技术规程
- 跟司马懿学管理
- 2024年下半年湖北省恩施巴东县乡镇事业单位考聘三支一扶人员5人易考易错模拟试题(共500题)试卷后附参考答案
- 《内科学,循环系统》课件
- 2024-2025大学英语考试六级汉译英中英对照
- 材料清单模板
- 2024-2025学年广东省深圳实验学校高中园高一(上)第一次段考数学试卷(含答案)
- 人教版(2019)高中生物必修1《分子与细胞》期末复习知识点考点提纲
- 2《企业会计准则第9号-职工薪酬(2014年修订)》
- 2024年太原市小店区供热公司招聘笔试参考题库附带答案详解
- 中医培训课件:《放血疗法》
评论
0/150
提交评论