




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于c c d 的术语抽取研究 摘要 术语自动抽取是计算术语学中最重要的任务之一,它的主要目的是从专门 领域的文本集中识别出能代表本领域的文本单元的集合,如词语等。术语抽取 是自然语言信息处理中的一项基础性课题,在很多领域都有广泛的应用,如自 然语言生成、计算词典编撰学、句法分析、语料库语言学的研究、统计机器翻 译、信息检索、文本分类、文本摘要等领域 本文首先介绍了领域术语的概念和特征,然后介绍了术语自动抽取的各种 方法以及特点,以及术语自动抽取存在的不足之处。本文利用术语的语言特征 和统计特征进行术语抽取系统的研究与实现,提出了基于一般词典和种子信息 的单个词术语抽取的方法,又提出了如何进行二元术语抽取的算法初步研究, 克服了目前术语抽取中存在的一些问题。在香港法律语料库( b l i s ) 上报告了我 们以上方法的实验结果。 本文的主要工作包括: 详细介绍了术语的相关概念,术语自动抽取的各种方法及特点,同时向 大家介绍了各种语言资源,如中文概念词典( c h i n e s e c o n c e p td i c t i o n a r y ,c c d ) 法律词库及b l i s 语料库。 详细介绍了c c d 及其建设中的问题,并针对c c d 的后期工作的问题提出 了自动消除噪音的方法。 提出基于c c d 的单个词术语抽取算法,较好地利用词语间语义关系以及 双语种子信息,扩充了现有法律词库中单个词术语,也为多词术语抽取提供了 良好的素材。 结合术语的语言属性,在传统的统计方法上提出y - - - 元术语抽取算法, 较好地弥补了术语自动抽取的问题,同时,为多词术语抽取打下了良好基础。 实验表明,本文的思想和算法都是有效且可行的,取得了良好的效果。同 时正在研究开发可实用的程序来提高术语抽取工作的进展,本文的方法和结论 可以为术语自动抽取工作的研究提供参考。 关键词:术语抽取,中文概念词典,c c d ,法律术语 基于c c d 的术语抽取研究 a b s t r a c t a u t o m a t i ct e r me x t r a c t i o n ( a t e ) i so n eo ft h em o s ti m p o r t a n tt a s k si n c o m p u t a t i o n a lt e r m i n o l o g y i t st a i m a r yg o a li st oi d c “每as e to ft e n tu n i t s ,c 辱 w o r d s ,f r o mac o l l e c t i o no ft e x t sf r o ma8 p c c i f i os u h j e a tf i e l dt h a tr e p r e s e n tt h ek e y c o n c e p t si n t h a tf i e l d t e r me x t r a c t i o ni sf u n d a m e n t a li s s u ei nn a t u r a ll a n g u a g e i n f o r m a t i o np r o c e s s i n g i th a sb e e na p p l i e di nm a a yo t h e rf i e l d so fn a t o r a ll a n g u a g e p r o c e s s i n g ,s u c ha sn a t u r a ll a n g u a g eg e n e r a t i o n , c o m p u t a t i o n a ll e x i c o g r a p h y , p a r s i n g ,c o r p u sl i n g u i s t i cr e s e a r c h , s t a t i s t i c a lm a c h i n et r a m l a t i o n , i n f o r m a t i o n r e t r i e v a l , t e x tc l a s s i f i c a t i o n ,t e x ts u m m a r i z a t i o na n ds oo n t h i sp a p e rf i r s ti n t r o d u c e st h ed e f i n i t i o na n dc h a r a c t e r i s t i c so ft e r m ,t h e nl i s t s s o m em e t h o d so fa u t o m a t i ct e x me x t r a c t i o n , a l s ol i s t st h e i r sp o s i t i v ea s p e c t sa n d n e g a t i v ea s p e c t s w ep r o p o s e a p p r o a c hf o rc h i n e s es i n g l ew o r dt e r me x t r a c t i o n c o m b i n i n gt h ed i c t i o n a r y - b a s e dm e t h o dw i t hs e e dk n o w l e d g c - b a s e dm e t h o db a s e d o nt h 。c h a r a c t e r i s t i c so ft e r m sl i n g u i s t i ca n ds t a t i s t i c a la t t r i b u t e s w ea l s or c p o l to u r j o bo np u r i f i c a t i o no f t ( 鼽i i l 铝ec o n c e p td i c t i o n a r y t h e nw ep r o p o s eam e t h o df o r b i g r a mt e r me x t r a c t i o ni no r d e rt oo v c r o o m e8 0 m ed i f f i c u l tp o i n t si nt e r me x t r a c t i o n a tl a s tw cr e p o r to u rt e r me x t r a c t i o np l a t f o r mt h a ti sas y s t e mf o rt e r mr e c o g n i t i o n b yf i e l de x p e r t s t h em a i n j o b so f t h i sp a p e ro r oa 8f 0 1 1 0 w s : w ei n t r o d u c et h ed e f m i t i o na u dc h a r a c t e r i s t i c so ft e r ma n di n t r o d u c et h e l i n g u i s t i cr e s o u r c e ss u c ha sc h i n e s ec o n c e p td i c t i o n a r y , l a wg r o c e r y , b i l i n g u a l l a wi n f o r m a t i o nc o r p u s w ei n t r o d u c et h ed e t a i lo fc h i n e s ec o n c e p td i c t i o n a r ya n di t sp r o b l e m s , t h e np r o p o s eam e t h o df o r p u r i f y i n gc c d a u t o m a t i c a l l y w ep r o p o s ea na p p r o a c hf o rc h i n e s es i n g l ew o r dt e r me x t r a o t i o nc o m b i n i n g t h ed i c t i o n a r y - b a s e dm e t h o dw i t hs e e dk n o w l e d g e - b a s e dm e t h o db a s e do nt h e s e m a n t i cr e l a t i o n s h i p e n r i c ht h el a wg r o c e r ys a dp r e p a r ef o rt h ee x t r a c t i n gb i g r a m t e r m s w ep r o p o s eab i g r a mt e r me x t r a c t i o na p p r o a c hc o m b i n i n gt h el i n g u i s t i c 基于c c d 的术语抽取研究 c h 啦c t e f i 3 妇o ft e r ma n d r a d i t i o n a ls t a t i s t i o a lm e t h o d a tt h es 锄et i m o , i ti st h e f u n d a m e n t a lb a s cf o rm u l t i w o r dt h a o t i o n a si ss h o w ni nt h ee x p e r i m a e n t s ,t h ei d e aa n dm e t h o di nt h i sp a p e ri se f f e o t i v e a n df e a s i b l e w ea d e s i g n i n gt h ep r o g r a mf o ra c o e l e r a t i n gt h ej o bo ft e r m e x t r a c t i o n t h cm e t h o d sa n do o n d u s i o mi nm i lp a p e rc 缸a l s op r o v i d 。g o o d r e f e r e n c e 8f o rr e s e a r c ho na u t o m a t i ot e r me x t r a o t i o n k e y w o r d s :t e r me 棚x a o t i o u , c h i n o c o n c e p t d i c t i o n s , l a w t e r m t e r m q 出6 “p l a t 基于c c d 的术语抽取研究 图表目录 表3 - 1j v s u s o n 和k a t z 利用模板过滤经过共现词频排序的抽取结果8 表3 - 2m 和屹之闯信赖关系的2 x 2 表l o 表3 _ 3 似然比检验公式1 1 表4 - l 法律词库集规模及示例1 7 表4 - 2 法律词库中二元组中词性模板的情况1 8 表4 - 3b l i s 语料库样例1 9 表4 - 4 四组随机词语的准确率2 4 表4 5 系统所抽取的部分术语列表2 5 表5 - 1 取用不同阈值的实验结果表3 0 表5 - 2 改进后算法与传统似然比方法的比较3 1 表5 3 系统抽取的术语前2 0 个词语。,3 1 表5 - 4 经过独立性判断所删除的词语表中前2 5 个词语3 2 表5 - 5 在输出表中靠近底部得分较低的术语3 3 图4 - lc c d 中名词结点的初始结构1 6 图4 - 2c c d 中一个名词结点示例1 6 图4 3h o w n e t 中实体的义原结构2 0 图4 - 4 单个词术语抽取算法流程图2 2 v i 基于c c d 的术语抽取研究 第一章引言 1 1 研究背景及其意义 随着社会的发展和科技的进步,语言也在不断地变化,特别是近几年来, 互联网迅速普及,每天都有大量的数据文件以电子形式进行交流,科技文献也 大量涌现,随之而来的是大批新的领域词汇( 术语) 。在科技发展的新形势下, 传统的手工方式已远远不能满足科技发展的实际需求利用计算机等先进的信 息技术手段来处理这些新的术语已经成为了一个必然的趋势领域词汇集中体 现和负载了一个学科领域的核心知识,词汇的变化在一定程度上反映了一个学 科领域的发展变化。领域词汇对于了解、把握一个学科领域的发展现状、未来 趋向等具有重要的理论和现实意义随着中文信息处理应用领域的不断扩展, 对领域专业词汇词典的需求也越来越迫切。同时已经证明把领域知识应用于信 息处理的各种技术处理中取得了良好的效果 术语自动抽取( a u t o m a t i ot e r me x t r a o t i o n ) 是中文信息处理中的一项基础 性课题,在很多领域都有很重要的作用。具体说来说有以下几点: ( 1 ) 术语自动抽取是很多自然语言处理应用的一个起始点,如: 自然语言 生成,语言词典生成,句法分析,语料库语言学研究,信息检索等。 ( 2 ) 随着科学技术的发展,有些术语己经停用了或者出现了某些新的术 语,这需要术语抽取来更新词法和知识资源。 ( 3 ) 由于术语的表现形式可能多种多样,因此,术语抽取在维护术语一致 性、避免术语混淆方面也有很重要的作用。 ( 4 ) 随着技术术语的快速发展,以及信息量的日益增长,在海量数据中用 人工的方法去获取术语显得非常不现实。 本文将对法律术语自动抽取的课题进行研究和探索。由于香港法律语料库 用语标准规范,而且双语对齐较整齐,已经在自然语言处理的各个领域取得较 好的实验结果,尤其在香港法律术语抽取领域一般是在此语料库中进行抽取。 同时,抽取到的香港法律术语会有很大的实际应用。 1 2 术语自动抽取技术概述 基于c c d 的术语抽取研究 术语自动抽取是计算术语学中最重要的任务之一,它的主要目的是从专门 领域的文本集中识别出能代表本领域的文本单元的集合,如词语等目前存在 的术语自动抽取的方法包括以下几类:基于词典的、基于规则的、基于统计的、 基于机器学习的等 基于词典的方法就是利用现有术语资源来定位术语在文本中的出现。 h i r s c l m a n 1 4 报告了他们用简单模式匹配的实验,他们利用一个广泛的基因名 字表来识别文本中的基因名字。他们报告造成低准确率的原因是同形字,即一 些基因名字与一般英语单词是相同的单词t u a s o n 1 7 认为拼写或其它的多样 性造成了低召回率。一些自动术语识别方法则结合了额外的处理去克服以上提 到的限制。k r a u t h a m e r 1 5 提出利用模糊串匹配去识别基因和蛋白质的名字及 其变种。t s u r u e k a 2 2 提出了基于编辑距离操作的拼写变化的概率生成器。大 部分基于字典的方法是基于专门领域的字典去识别术语 术语一般分为单个词术语和多词术语两类。 单个词术语由单个词语组成,如“芯片”、“指令”等。单个词术语识别可 以采用语料库比较方法,即选择一个通用的平衡语料库与领域语料库相比较, 比对两个语料库生成的词表,将词表按照与频度相关的某个统计量排序,比较 每个词语在不同语料库中的排序等级,从领域词表中去掉通用词表中排序等级 高的,剩下的词,被认为是术语( a h a m d 2 4 1 ,k a v a n a g h 2 5 ,f u l f o r d 2 6 1 ) 。 多词术语由多个词语组成,如“复杂指令集计算机”、“分布式共享存储”等。 多词术语的抽取方法常用的方法有基于规则的、基于统计的等基于规则的方 法主要利用词法、句法信息识别术语。d a g a n 2 7 和j u s t e s o n 2 8 给出了一个 较为普遍的多词术语句法模板,如果一个词语序列满足这个模板,并且在上下 文中多次出现,则该词语序列被判定为术语。基于统计的术语自动抽取方法主 要用到的参数有频率( f r e q u e n c y ) 、假设检验( 包括t 检验,c h i - s q u a r e 检验 等) 、似然比( l r ) 和相对频率比( r f r ) 、互信息( m i ) 等。国外较早开始使用 统计学的方法进行术语自动抽取,并取得了较好的效果,m a n n i n g 和s c h u t z e 2 9 对术语抽取的统计学方法做了比较系统全面地介绍 另外一些统计的方法利用先验或种子知识去发现文本中术语的共现模式 ( d e m e t r i o u 5 ,j o n e s 2 0 】) 还有一部分作者提出基于语义或语义相似度的方 2 基于c c d 的术语抽取研究 法用于术语自动抽取( m a y n a r d 、a n a n i a d o u 2 3 ,w e e d s 1 0 ) 1 3 本文工作 本文首先介绍了领域术语的概念和特征,然后介绍了术语自动抽取的各种 方法以及特点,以及术语自动抽取存在的不足之处本文利用术语的语言特征 和统计特征进行术语抽取系统的研究与实现,提出了基于一般词典和种子信息 的单个词术语抽取的方法,又提出了如何进行二元术语抽取的算法初步研究, 克服了目前术语抽取中存在的一些问题。在香港法律语料库( b l i s ) 上报告了我 们以上方法的实验结果。 本文的主要工作包括: 详细介绍了术语的相关概念,术语自动抽取的各种方法及特点,同时向 大家介绍了各种语言资源,如中文概念词典( c h i n e s e c o n c e p t d i c t i o n a r y ,c c d ) 法律词库及b l i s 语料库 详细介绍了c c d 及其建设中的问题,并针对c c d 的后期工作的问题提出 了自动消除噪音的方法。 提出基于c c d 的单个词术语抽取算法,较好地利用词语间语义关系以及 双语种子信息,扩充了现有法律词库中单个词术语,也为多词术语抽取提供了 良好的素材。 结合术语的语言属性,在传统的统计方法上提出了二元术语抽取算法, 较好地弥补了术语自动抽取的问题,同时,为多词术语抽取打下了良好基础。 1 4 论文组织 本文共分为七章,按照如下方式组织: 第一章,引言。介绍了术语自动抽取的意义和应用背景及已有的一些相关 研究成果,接着介绍了本文工作的主要内容,最后是论文的组织结构 第二章,术语及术语特征研究。介绍了术语的概念:分析了术语的各种特 征;总结了研究者对术语的一些基本观点和理论。对这些问题的正确分析将有 助于设计较好的术语抽取模型和自动抽取算法 第三章,术语自动抽取的相关研究方法介绍了术语自动抽取的各种方法 原理以及优点和不足之处,为本文术语抽取的算法设计提供了理论基础。 基于c c d 的术语抽取研究 第四章,基于c c d 的单个词术语抽取着重介绍了语义资源c c d 以及其净 化的自动处理工作,并提出了基于此语义词典的中文单个词术语抽取工作。 第五章,基于似然比的二元术语抽取方法改进针对目前多词术语存在的 问题,提出了基于似然比的二元术语抽取方法 第六章,总结与展望。本章总结了全文,并提出了下一步的工作。 4 基于c c d 的术语抽取研究 第二章术语及术语特征研究 2 1 术语的概念 术语是专业领域中概念的语言指称术语是定义明确的专业名词,是领域专 家用来刻画、描写领域知识的基本信息承载单元,是信息检索和信息抽取的重要 单元,是知识库中的核心成员,也是本体构成的基本单元一般来说,术语主要 包括未登录词,单个词术语和常用名词性短语多词术语一般由有限的复合构词 法所描述,如果可以从各组成部分的意思推测出整体描述的意思,那么我们称这 个语言描述是复合构成的。如“香港法律”就是有“香港”和“法律”两个词语 复合构成,很容易从各组成部分的意思推测出整体描述的意思。 2 2 术语的特征 对于术语自动抽取需要对术语的特征进行比较深的理解,只有借助与术语 的各种特殊性质才能设计出更好的方法来抽取术语术语学理论的发展已经很 好的总结了术语的特点并为术语自动抽取打下了良好的理论基础。 2 2 1 术语的领域特征和结构特征 术语的领域特征指术语一般会在特定的领域文本中出现。两个或多个不同语 料库的相对频率的比值有助于发现术语。术语的领域特征主要表现在: 术语一般只在一个或几个特定的领域流通,只有该特定领域的文章使用, 而一般词语是各个领域都流通,是所有使用该语言的人通用的。 每个学科领域的词语集合由一般词语集合加上这个领域的术语组成。 利用术语的领域特征进行术语抽取的典型是相对频率比( r i 喂) 参数。相对频 率比主要用来发现那些有特殊主题的术语也可以利用特性构造方法进行术 语抽取,如首先发现某一特殊领域的单个词术语再利用它和一般词语结合去发 现多词术语。 术语的语言结构特征,是指从语言学系统的观点看术语的内部结构,并从内 部结构中总结出规则进行术语抽取,常用到的内部结构是利用术语的词性构成 模板,如名词+ 名词,形容词+ 名词等。主流的统计方法一般都是先利用词性模 基于c c d 的术语抽取研究 板过滤出候选术语,然后利用统计方法进行捧序。 2 2 2 简单术语和复杂术语 从术语的构成上来说,术语可以分为两个类别: 简单术语:该术语中的任何部分不能构成一个更短的术语。 复杂术语:该术语由其他的术语构成,或部分由其他的术语构成 简单术语如法律领域的“追溯”,其中任何部分不能构成一个更短的术语, 它本身也是个单个词术语;复杂术语,如“区域法院”则是由两个基本的简单 术语“区域”“法院”构成。并且两个简单术语有一定的语法和语义关系。 e n g u e h a r d 和p a n t e r a 3 0 综合利用了统计学和语言学的方法,该方法分两个步 骤,首先通过频率评估简单术语的术语性,然后通过简单术语和复杂术语的构 成模式来衡量复杂术语的术语性这种方法假设复杂术语是由已经存在的简单 术语组成的。他使用了三种基本的抽取规则: 当两个已知的术语经常在一起出现,则它们构成了一个复合术语 当一个单词经常以某些特定的方式和一些己知术语一起出现,则这些单 词是一个简单术语 当一个单词经常和一个已知术语经常出现,则它们一起构成一个复杂的 术语( 张勇【4 9 】) 。 鉴于此简单术语和复杂术语的关系,本文认为多词术语一般也更可能有单个 词的术语构成,由单个词术语组成的多词短语也更可能是多词术语。 2 3 本章小结 本章首先介绍了术语的定义,然后简要分析了术语的几个主要特征以及 利用这些特征的一些方法来做术语抽取,为本文将要讨论的术语抽取方法提供 了理论支持。 基于c c d 的术语抽取研究 第三章术语自动抽取的相关研究方法 术语自动抽取方法常用的方法有基于规则的、基于统计的两大类基于规 则的方法主要利用词法、句法信息识别术语,常用的方法是基于词典和基于频 率和模板的;基于统计的方法主要有基于假设检验的,基于相对频率比的,基 于互信息等方法 3 1 基于词典 可以直接从一些专业术语词典中获得领域术语,但是由于术语词典的更新 速度很慢,很多新的术语无法及时被收录,所以它存在一种局限性。但是在生 物信息处理领域内基于词典的方法取得了不错的效果。h i r s c h m a 1 4 报告了他 们用简单模式匹配的实验,他们利用一个广泛的基因名字表来识别文本中的基 因名字。他们报告造成低准确率的原因是同形字,即一些基因名字与一般英语 单词是相同的单词。t u a s o n 1 7 认为拼写或其它的多样性造成了低召回率。一 些自动术语识别方法则结合了额外的处理去克服以上提到的限制。k m a u h a m m e r 1 5 提出利用模糊串匹配去识别基因和蛋白质的名字及其变种。t s u r u o k a 2 2 j 提出了基于编辑距离操作的拼写变化的概率生成器。 3 2 频率和模板 术语最明显的特征就是在文本中多次出现如果两个字或多个字在一起出 现的频率很高,那么这就是一个证据,说明它们有特殊的意义,这种意义不能 简单地解释为两个字或多个字合并而导致的结果。 可以预计的是仅仅选择最频繁出现的字串并不理想,例如在j u s t e s o n 2 8 所做的实验中,说明在英文语料中,出现最频繁的一般是功能词的组合,如: “o ft h e ”,“i nt h e ”,“t ot h e ”等等。为了使频率共现次数多的词语是有 趣的术语的组合,j u s t e s o n 和k a t z 利用术语的结构特征,引入了词性过滤模 板,如名词+ 名诃,形容词+ 名词等,表3 - 1 则显示经过过滤器之后出现频率共 现次数捧名最高的短语,从表中可以看出简单依据频率共现次数和词性过滤模 板取得了良好的效果。 基于c c d 的术语抽取研究 表3 - 1j u s t e s o n 和k a t z 利用模板过滤经过共现词频捧序的抽取结果 词性模板 m 和屹共现词频嵋坞 1 1 4 8 7n e wy o r k 形容词+ 名词 7 2 6 1u n i t e ds t a t e s 形容词+ 名词 5 4 1 2l o s a n g e l e s名词+ 名词 3 3 0 1l a s t y e a r 形容词+ 名词 3 1 9 1 s a u d ia r a b i a 名词+ 名词 2 6 9 9l a s tw e e k 形容词+ 名词 2 5 1 4v i c e p r e s i d e n t形容词+ 名词 2 3 7 8p e r s i a ng u l f 形容词+ 名词 2 1 6 1s a nf r a n c i s c o 名词+ 名词 2 1 0 6 p r e s i d e n t b u s h 名词+ 名词 2 0 0 1 m i d d l ee a s t 形容词+ 名词 3 3 假设检验 在统计学中,衡量两个基本事件共同发生的可能性的方法是借助于假设检 验的方法,如何用假设检验的方法来判断一个多词短语是否是术语呢? 一般做 法是用假设检验的方法来衡量两个词语是否独立,首先我们给出一个空假设: 假设两个词语w l 和w 2 是独立的,即h 0 :p ( w , w 2 ) = ( 1 4 1 ) p ( w 2 ) ,其中p ( d 表示词语w 的概率。然后利用假设检验的方法来衡量假设是否成立,假设成立 则说明两个词语是独立的,那么这个组合就不是术语,否则说明两个词语是相 互信赖的,可以认定此词语组合为术语。 3 3 1t 检验 对于术语的发现,一个已经广泛使用的测试就是t 检验。t 检验的前提假 设是样本服从正态分布,其原理是比较观测到的均值和期望的差值,并通过方 差进行放大,从而依据差值进行判断是否推翻空假设,为了确定得到我们的样 本的概率,计算统计量t : 基于c 的术语抽取研究 其中,其中j 为样本均值,为样本方差,n 是样本容量,芦是分布的期 望。 该方法可以较好地应用到术语抽取中,我们假设需要计算词串也是两个 字的组合我们把文本语科库看成n 个二元组的长序列,那么样本就是一个随 机变量的取值指示器,两者共现时取1 ,否则取0 ,很明显两者符合两点分布, 则很容易得到分布的期望= p ( 嵋w 2 ) = ,和方差盯2 = ,o d z p 假设在语 料库中,w 1 共同出现了- 次,则样本均值善= - n 通过以上公式,我们可以计算出嵋鸭的t 值,对于显著性水平0 0 0 5 来说, 通过查表得知,只有当t ) 2 5 7 6 时,我们有9 9 蹦的置信度来拒绝零假设,即 当t 2 5 7 6 时,嵋可能是一个术语 3 3 2c h i s q u a r e 检验 由于t 检验存在一个缺陷:它假设数据的先验分布为正态分布,而一般情 况下该假设和真实数据分布并不一致。在检验数据是否独立时,也可以利用 c h i s q u a r e 检验来衡量,而且c h i s q u a r e 检验不需要样本满足正态分布的前 提。最简单的情况下,c h i - s q u a r e 检验可以应用于具有表3 2 形式的2 2 的表。 统计检验的实质在于对比表中的观测频度和期望频度,以验证两个给定的词语 是否独立。当他们之间的差别很大时,可以否定独立的零假设。 假设两个词语分别为吨和v 2 ,语料库规模为n ,则z 2 统计量计算了观测值 和期望值之间差别的总和,并且将期望值作为比例因子,得到如下公式 序否半 ,j - f 其中,i 表示表3 _ 2 中的行变量,j 表示列变量,仉表示表单元( i ,j ) 的 观测值,玩表示期望值。通过计算表3 - 2 的边缘概率可以得到某单元( i ,j ) 的期 9 一带 = f 基于c c d 的术语抽取研究 望值日,对于表3 - 2 来说,统计量可以化为: ,:。丝垫! 生= 垡2 刍! ! ( 0 h + 0 1 2 x o , i + i d - x o l 2 + i d ) ( 0 l i + d 2 2 ) 表3 _ 2m 和之间信赖关系的2 2 表 m 。h h y i w 24 也 0 i 0 1 2 屹d 2 。 0 乞 当显著性水平为0 0 0 5 时,临界值z 2 - - - - 3 8 4 1 ( 假设2 2 的表的分布的自 由度为1 ) ,即只有当计算值小于3 。8 4 1 时,有9 蹦的置信概率认为h 也组合不 是一个术语 相对于t 检验,c h i s q u a r e 检验的优点在于并不需要样本满足正态分布, 其缺点在于当统计出的数值很小时,结果的说服力不是很强。 3 3 3 似然比检验 似然比是一个简单的比值,但可以表达出一个假设的可能性比其他假设大 多少。对于稀疏数据,似然比的方法比c h i - s q u a r c 检验更加合适。而且,计算 出来的似然比统计值比c h i - s q u a r e 检验的统计值更有可解释性。 为了把似然比检验的方法应用于多词术语抽取。对于二元组w 1 ,可以构 造如下两个假设: 喝:p ( w z lw 1 ) = p = ,( 屹i ,m ) 皿:段1w i ) = p l p 2 一以w 2 1 1 嵋) 假设q 是独立性的一个形式化,的出现是和前面h 的出现是无关的。 假设是w l 和w 2 依赖性的形式化表述,即的出现是和前面m 的出现是相 关的。 基于c c d 的术语抽取研究 使用极大似然估计的方法计算p ,p t ,p 2 ,分别用c i ,岛,q :来表示嵋,w 2 , m 在语料库中出现的频次,则可得 p = 熹a 一詈n ;嚣 q“一c l 构造表3 - 3 中似然比公式,其中6 ( 七;力= ,。一p ) “为二项分布- 表3 - 3 似然比检验公式 i 以i 嵋) p = 务 a = 鱼 q p ( w 2 l 嘲) 罗一熹 c 2 一c 1 2 p 2 2 1 焉 在q 个二元组中有q 2 为嵋 b ( c 1 2 ;c i ,p ) b ( q 2 ;q ,p 0 在n - c l 二元组中有c 2 一q 2 为h b ( c 2 q 2 ;n - q ,p )b ( c z - c t 2 姆c 1 ,p d 由表3 - 3 ,可以得到两个假设的似然函数,即实际观测到得嵋,w 2 ,嵋他 的频次的似然值,对于假设风:l ( 玩) = b ( q 2 ;q ,p ) b ( c 2 q 2 ;n - c , ,) ,对于假 设i 1 :l ( h 2 声b ( q 2 ;q ,a ) b ( 岛- q 2 ;n - c i ,p 2 ) 似然比的对数值如下: - o s 五= 崦器札s 嚣端紫端 其中a c t 珥力,( 。一力“为二项分布。 3 4 相对频率比 某领域术语一般在该领域里经常出现,而在其他领域出现很少,或基本不 1 1 基于c 的术语抽取研究 出现根据术语的该特征,两个或多个不同语料库的相对频率的比值也可以帮 助我们发现术语,在语科之间进行比较的时候,这些术语反映了一个语料库的 特点。 相对频率比的计算公式为: q ( w ,) ,= 耪 ,n t 其中,q ( 们表示词语- 在语料库q 中出现的频次,l 为语料库q 的规模, c :( 忉表示词语- 在语料库乞中出现的频次,n 2 为语料库c 2 的规模。 相对频率比的值反映出了候选术语t 在语料库e l 与c 2 中出现频率的差异 性,如果r 等于1 ,则表示_ 可能是一个普通词汇,在q 和岛中都出现的次数 差不多,否刚,r 过大或很小,则表示- 可能是q 或白中的领域术语 3 5 互信息 在术语自动抽取的研究中,一种以信息论为根据的方法:点互信息 ( p o i n t w i s em u t u a li n f o r n a t i o n ) 被广泛采用。f a n o 3 1 最初定义了两个特殊 事件】【和箩之闻的互信息即两个字共现的互信息如下: 脚) = l 0 9 2 丽p ( x y ) = l 0 9 2 等= l 0 9 2 酱 互信息的含义我们举例说明,如果两个词语n e w 和c o m p a n i e s 的互信息如 下: j ( n e w , c o m p a n i e s ) = l 0 9 2 7 p ( n 丝e w 竽) p ( 竺c o m 尝p a n i e s ) 4 1 8 3 8 , 则说明如果c o m p a n i e s 在i + 1 个位置上出现,则n e w 在第i 个位置出现的信息 量增加1 8 3 8 反之亦对 相关研究显示互信息对数据稀疏带来的不准确非常敏感,虽然没有一种已 知的方法可以很好的解决低频率事件,但可以证明,数据稀疏问题对于互信息 是一个很困难的问题考虑两种极端的情况:两个词的出现是完全互相依赖的 或完全独立的。对于完全的互相依赖,则可得: 基于c c d 的术语抽取研究 ,“力= = l 0 9 2 器l 0 9 2 赫= l 0 9 2 南 也就是说,在完全依赖的二元组中,当它们出现的次数减少时,它们的互信息 就增加对于完全独立的情况,有: “毛力= l 0 9 2 丽p ( x y ) 一| 0 9 2 揣= i 0 9 2 l 一。 互信息是衡量独立性的一种很好的方法。接近0 的互信息的值表明了词语间的 独立性。但是互信息不是衡量依赖性的一种很好的方法,因为对于依赖性来说, 互信息的值由单独词的频率决定的 3 6 评测方法 对一般系统所抽取的领域术语精确度进行评价,主要通过两个方面进行评 测:召回率( r ) 和准确率( p ) 分别定义如下: 召回率表示正确抽取的术语数目( 0 。) 与术语表中术语数目( w ) 的比率: r ;坠l o o n 准确率表示正确抽取的术语数( ) 与抽取术语总数 ( + 帆。) 的比率: p 。坠x 1 0 0 n + n m d 评铡主要是人工干预,通过对抽取出来的领域术语集中的词语与所选取的 术语表中的词语进行对比,计算它的召回率和准确率 为了能够综合评价抽取系统的性能,简单地可以用p x r 作为综合评测指 标,更一般的是使用f 测度f 测度是准确率和召回率的加权平均,只有当p 和r 都比较高时,系统才会具有较高的f 测度。f 测度反映了系统的综合性能, 其定义为: 基于c c d 的术语抽取研究 f p - 訾 其中b 是用来调整p 或r 在评测中重要性的参数,当p 1 时,f 测度强调 召回率:当b l i k e l i h o o d r a t i o ( ww 2 ) ,则保留二元组ww 2 , 否则保留二元组帆w ,如果相等则都保留。 步骤5 :对于一个二元组,如果组成其的成份都是已知的单个词术语则直 接保留。 步骤6 :对于每一个保留的二元组w 1w ,计算w 的左独立性l e f t i ( w ) , 如果l e f t i ( w ) 小于某一朗值,则认为此二元组为真正的术语,同理对于 每一个保留的二元缎仲w 2 ,计算w 的右独立性r i g l l t i ( w ) ,如果r i g h t i ( w ) 小于某一阈值,则认为此二元组为真正的术语。 步骤7 :按照似然比统计值的负值从大到小排序并输出二元组术语 下面对以上算法进行简单的分析,步骤4 以前,则是利用单个词术语更可 能是多词术语的组成部分,进行二元候选术语抽取,然后利用传统的似然比假 设估计来对此单个诃术语更可能和前后哪一个词语组合更合理,但是经过这些 步骤抽取出的二元组,仍然有可能有不少不是真正术语的二元组,在步骤5 中, 我们依据此假设只要组成二元组的双方都是单个词术语,则此二元组一定是术 语,所以系统认为所有此类二元组为术语,在步骤6 中,利用关键术语的独立 性进行对= 元组的进一步筛选,也就是说需要对不是术语的= 元组进一步过滤 掉,因为有些关键术语不适合组成多词术语,它仅是一个单个词术语。 似然比的原理是可以衡量一个假设和另一个假设相比成立的可能性,所以 对于给定的三元组( 嵋,w ,w :) ,希望得到w 和其左边的词语m 结合的可能性 大还是和其右边的词语结合的可能性大,类似于两个假设那个更可能成立, 所以我们基于似然比的传统方法进行改进。 5 3 实验与结果分析 为了选择更好的阈值来衡量关键术语的独立性,我们傲了以下实验,表 5 - - 1 列出了所选取的阈值及其实验结果,在表中我们稍微测重于召回率,所以 选用p 2 测度进行阈值选择。我们的目的是尽量不降低召回率的情况下,而保持 准确率,其中的准确率我们没有并没有按人工方式进行完全判断,而是借助与 法律词库进行简单判断,也就是系统所抽取的术语如果在法律词库中出现则为 基于c c d 的术语抽取研究 正确术语,这样做的目的是为了使评价更客观,但会使准确率看起来值较小 本系统步骤5 以后所认为不是术语的词语中包括真正的术语,表5 - 1 中误删率 是指被删除的真正术语在所有删除词语中的比率,也就是我们把应该是术语的 而被系统认为不是术语的比率 表5 - 1 取用不同阈值的实验结果表 阈值 0 0 4o 0 5o 0 6o 0 70 0 8 o 0 9 o 1 准确率 9 7 4 7 5 9 2 0 3 7 8 8 9 3 6 , 68 8 2 7 3 墨8 4 3 1 8 x& 1 3 4 5 7 8 7 5 荔 召回率 3 4 8 4 9 5 4 l 蹋4 0 7 2 7 8 1 64 3 0 3 7 1 4 4 4 3 6 件“8 5 6 5 l 4 5 2 0 6 4 f 11 5 2 3 4 傩1 4 8 5 韩1 4 5 9 9 烈1 4 6 4 9 8 薯1 4 1 8 3 0 1 3 7 7 1 6 , 61 3 4 1 3 7 f 23 1 2 5 3 3 1 1 烈3 0 9 5 0 7 1 63 1 2 9 7 晶3 0 5 6 1 埔2 9 8 4 7 器2 9 2 0 1 8 误删率 3 1 7 4 1 2 7 2 6 1 l2 3 6 2 9 1 8 锚1 5 7 2 1 1 5 5 7 0 , 61 瞩 从表5 - 1 可以看出,在阈值为0 0 7 时,f 2 测度达到最好,同时f l 测度虽 不是最好,但是也接近最好,同时误删率也在可接受的范围从表5 - 2 中可以 看出,也就是单纯利用似然比时其准确率和召回率分别是6 1 4 2 1 6 和4 8 4 9 5 5 , 其f 1 测度和f 2 测度分别是1 0 9 0 3 1 和2 4 5 0 3 3 从表5 - 2 中可以看出,虽然 召回率下降了5 个百分点,但是改进算法的准确率以及f 测度都有较明显的提 高,从整体上证明了我们的算法达到了良好的效果。 表5 - 2 改进后算法与传统似然比方法的比较 传统似然比方法改进后算法 准确率6 1 4 2 8 8 2 7 3 1 6 召回率 4 8 4 9 5 5 4 3 0 3 7 1 f l1 0 9 0 3 1 1 4 6 4 9 8 1 6 f 22 4 ,5 0 3 3 3 1 2 9 7 睇 二元术语抽取算法抽取步骤4 之前,我们利用多词术语的特性,从而利用 一般统计方法在单个词术语的基础上得到二元术语,但是有的术语单纯就是单 基于c c d 的术语抽取研究 个词术语而我们的系统则给强制抽取了二元术语,所以步骤6 利用独立性重新 判断一个单个词术语是否容易构成二元术语,从而保留了一部分真正的术语, 同时也删除了一部分不是真正的二元术语,也就是去尽量完成我们算法的目的, 保留输出表中靠近顶部的真正术语,如表5 - 3 列出了我们抽取的术语的前2 0 个 词语。另外也完成了另外一个目标。删除输出表中靠近顶部的具有较高得分值 但它并不是术语的二元组,如表5 _ 4 列出了经过独立性判断所删除的词语表中 前2 5 个词语。还有一个目标提出输出表中靠近底部的具有较低得分值但它是真 正术语的二元组,表5 5 列出了在输出表中靠近底部得分较低的被本系统认为 是术语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 演出经纪人之《演出经纪实务》能力测试B卷含答案详解【预热题】
- 2025年教师招聘之《幼儿教师招聘》检测卷包附参考答案详解(能力提升)
- 2025年教师招聘之《幼儿教师招聘》通关练习题和答案附参考答案详解【培优】
- 花烟草养护知识培训内容课件
- 教师招聘之《小学教师招聘》题库检测模拟题(必刷)附答案详解
- 2025年教师招聘之《小学教师招聘》通关试卷提供答案解析审定版附答案详解
- 教师招聘之《小学教师招聘》能力测试备考题含完整答案详解(网校专用)
- 教师招聘之《小学教师招聘》题库(得分题)打印附完整答案详解(易错题)
- 教师招聘之《幼儿教师招聘》复习提分资料及参考答案详解【b卷】
- 2025年教师招聘之《幼儿教师招聘》模拟考试题库B卷及答案详解(必刷)
- 高职建筑设计专业《建筑构造与识图》说课课件
- 人教版九年级物理上册《第十三章内能》单元检测卷(带答案解析)
- 3DMine-矿业工程软件-帮助手册说明书
- 中小学五项管理-作业-睡眠-手机-读物-体质五项管理-课件-(26张课件)
- 2024年苏州历史文化名城建设集团有限公司招聘笔试冲刺题(带答案解析)
- 医院保洁中央运输服务项目管理制度
- 阿里巴巴与四十大盗的故事
- 《CT检查技术》课件-CT检查原理
- 新能源汽车功率电子基础 习题答案汇总(程夕明) 习题集1-6
- 《前列腺增生手术》课件
- 安全出口和疏散指示
评论
0/150
提交评论