已阅读5页,还剩60页未读, 继续免费阅读
(计算机应用技术专业论文)术语自动抽取系统的设计及关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 n l a s t e r st h e s i s 摘要 术语自动抽取是中文信息处理中的一个很重要的课题。术语集中体现和负 载了一个学科领域的核心知识,术语的变化在一定程度上反映了一个学科领域 的发展变化。术语抽取对信息检索、信息抽取、数据挖掘、机器翻译、建立领 域概念体系等自然语言处理课题的研究,以及了解、把握一个学科领域的发展 现状、未来趋向等具有重要的理论和现实意义。 目前国内对中文信息处理的研究主要集中在汉语自动分词、语法分析上, 对术语自动抽取的研究还不是很多。对术语的抽取和检索依赖国外的研究成 果,但国外的研究很多局限在西方语言上,对于汉语并不一定适用。因此,借 助于国外已有成果来自行研制适合于汉语术语的自动抽取方法,对汉语术语标 准化、中文信息处理来说无疑具有十分重要的意义。 本文正是针对目前汉语术语自动抽取的这种现状,对汉语术语自动抽取技 术进行了比较深入的探讨,本文的研究工作主要包括以下几个方面: 对常用自然语言处理模型的本质、优缺点等进行了分析和比较。 设计了一套术语自动抽取软件系统,可以适应不同目的的术语抽取。 提出并建立了一种将规则和统计方法相结合的汉语术语自动抽取模 型,改模型避免了单纯使用其中一种方法抽取术语的局限性。 在分析对比各种统计参数的基础上,提出了将两种统计参数m if 和 1 0 9 - l i k e l i h o o d 联合应用到术语自动抽取算法中,并用此算法实现了术语自动 抽取系统的核心模块取得了较好的试验效果,试验结果证明了这种算法优于 目前已有的算法。 关键词:术语;术语学;术语自动抽取;中文信息处理;自然语言处理模型 硕士学位论文 m a s t e r st h e s i s a b s t r a c t a u t o m a t i ct e r me x t r a c t i o ni s a l l i m p o r t a n t i s s u ei nc h i n e s ei n f o r m a t i o n p r o c e s s i n g t e r mr e p r e s e n t st h ec o r ek n o w l e d g ei no n es c i e n t i f i cf i e l d t h ed e v e l o p m e n t o ft e r mr e f l e c t st h ed e v e l o p m e n to ft h i sf i e l dt os o m ee x t e n t t e r me x t r a c t i o nn o t o n l yp l a y s a ni m p o r t a n tr o l ew h e nd o i n gr e s e a r c hi ni n f o r m a t i o nr e t r i e v a l 。 i n f o r m a t i o ne x t r a c t i o n ,d a t am i n i n g ,m a c h i n et r a n s l a t i o n ,o n t o l o g ya n do t h e r p a r t s o fn a t u r el a n g u a g ep r o c e s s i n g ,b u ta l s os h o w si t s t h e o r e t i c a la n dr e a l s i g n i f i c a n c eo f k e e p i n gu p w i t ht h ep a c eo f w o r l di nt h i sf i e l d n o w a d a y s ,r e s e a r c ho nc h i n e s ei n f o r m a t i o np r o c e s s i n gf o c u s e so nc h i n e s e a u t o m a t i cw o r d s e g m e n t a t i o n ,p a r s i n g ,b u ts e l d o m i na u t o m a t i ct e r me x t r a c t i o n t h ee x t r a c t i o na n dr e t r i e v a lo ft e r mu s u a l l yr e l yo nf o r e i g nr e s e a r c ha c h i e v e m e n t s b a s e do nw e s t e r nl a n g u a g e s ,b u ti ti sn o tq u i t es u i t a b l ef o rr e s e a r c hb a s e do n c h i n e s e ,s ot od e v e l o ps u i t a b l ew a yf o rc h i n e s et e r me x t r a c t i o nw i t ht h eh e l po f w e s t e r nm e t h o d si s v e r yi m p o r t a n tf o rc h i n e s et e r ms t a n d a r d i z a t i o na sw e l la s c h i n e s ei n f o r m a t i o np r o c e s s i n g a i m i n g a tt h ep r e s e n ts i t u a t i o n ,t h i sp a p e r p a y sm u c h a t t e n t i o nt ot h er e s e a r c h o fa u t o m a t i ct e r me x t r a c t i o nt e c h n i q u e s ,t h em a i nw o r ka r ea sf o l l o w s : 1 a n a l y s i sa n dc o m p a r e a l lk i n d so f n a t u r a l l a n g u a g ep r o c e s s i n gm o d e l 2 d e s i g na na u t o m a t i ct e r me x t r a c t i o ns y s t e m ,a n dm a k et h es y s t e mb ea n o p t i o n a lo n ec o n s i d e r i n gd i f f e r e n tp u r p o s e s 3 p r o p o s e an o v e la u t o m a t i ct e r me x t r a c t i o nm o d e lb a s e do u l i n g u i s t i c a l l y o r i e n t e da n ds t a t i s t i c a l l y o r i e n t e da p p r o a c h ,m a n yd i s a d v a n t a g e s a r ea v o i d e di no u rm o d e l 4 p r o p o s et h em e t h o du s i n gt w os t a t i s t i cp a r a m e t e r sm i _ fa n dl o g l fi n a u t o m a t i ct e r me x t r a c t i o ns y s t e m ,t h a ni m p l e m e n tt h ek e yp a r to ft h es y s t e mb y u s i n gt h i sa l g o r i t h m n er e s u l t so ft h ee v a l u a t i o ni n d i c a t et h a tt h i sa l g o r i t h mi s i ;i 硕士学位论文 m a s l 讯s t h e s i s m o r ee f f i c i e n ta n dr o b u s tt h a n p r e v i o u sm e t h o d s k e y w o r d s :t e r m ;t e r m i n o l o g y ;a u t o m a t i ct e r me x t r a c t i o n ;c h i n e s ei n f o r m a t i o n p r o c e s s i n g ;n a t u r el a n g u a g ep r o c e s s i n gm o d e l 硕士学位论文 m a s t e r st h e s i s 郑重声明 本人的学位论文是在导师指导下独立撰写的,学位论文没有剽窃、抄袭、 造假等违反学术道德、学术规范和侵权行为,本人愿意承担由此而产生的法律 责任和法律后果。特此郑重声明。 学位论文作者( 签名) :i 且塞鱼 2 0 0 4 年5 月2 3 日 硕士学位论文 m a s t e r st h e s i s 1 1 课题背景及意义 第一章绪论 中文信息处理,是指利用计算机对汉语信息( 包括书面的和口头的) 进行 处理。信息在当代是极其重要的资源,不能充分掌握它、利用它,无论是对个 人还是对整个社会,都是巨大的灾难。因此,获取、处理和运用信息的手段至 关重要。中文信息自动化处理每提高一步,给我国的科学技术( 包括国家的信 息化) 、文化教育、经济建设、国家安全所带来的效益,将是无法用金钱的数 额来计算的。反之,如果我们落后了,不管是落后于国际水平还是落后于现实 需要。后果也是严重的。 术语集中体现和负载了一个学科领域的核心知识,术语的变化在一定程度 上反映了一个学科领域的发展变化。当今时代科技信息飞速发展科技文献大 量涌现,随之而来涌现出大批新的术语。大多数人对这些新术语所表示的概念 知之不深或一知半解。如果不及时发现、收集并解释这些新术语,势必会影响 科技信息在大众之中的理解和传播,给学术交流带来不便,同时也会成为中国 与国际接轨的障碍。因此,在中国进行术语库的建设以及对术语进行规范化的 基础上进行术语自动抽取已经成为当务之急。另一方面,在科技发展的新形势 下,传统的手工方式己远远不能满足术语标准化工作的实际需求。利用计算机 等先进的信息技术手段已经成为术语标准化工作的一个必然趋势。 术语自动抽取a t e ( a u t o m a t i ct e r me x t r a c t i o n ,或者称作术语自动提取) 是中文信息处理中的一个重要课题,它对于信息检索、信息提取、数据挖掘等 自然语言处理课题的研究,以及了解、把握一个学科领域的发展现状、未来趋 向等都具有重要的理论和现实意义。具体的来说有下面几点: 术语自动抽取是很多自然语言处理应用的一个起始点。如:建立领 域o n t o l o g y 、机器翻译、多语索引、文档分类、辞典编辑以及双语 对齐( g :y o ,1 9 9 6 ) 。 随着科学技术的发展,有些术语已经停用了或者出现了某些新的术 硕士学位论文 m a s t e r st h e s i s 语,这需要术语抽取来更新词法和知识资源。 由于术语的表现形式可能多种多样,因此术语抽取在维护术语一 致性、避免术语混淆方面也有很重要的作用。 随着技术术语的快速发展,随着信息量的日益增长,在海量数据中 用人工的方法去获取术语显得非常不现实。 目前有很多学者已经开始了对术语自动抽取工作的研究,并取得了令人可 喜的成果,但是,大部分关于术语抽取的研究都是国外的是针对英语等西方 语言的,国内学者对汉语术语抽取所作的工作还不是很多,这对汉语的发展和 使用很不利,因此,研究与实现汉语术语自动抽取,是一件非常有意义的工作, 将会促进中文信息处理在这个领域的发展。 1 2 国内外学术界对术语自动抽取的研究 1 2 1 国外的研究情况 当前,国外学者对术语自动抽取工作的研究主要是在基于语料库的基础上 进行的。最早的关于术语抽取的研究是h p l u l l i l ( 1 9 5 7 ) 所作的工作。到目 前为止,国外已经有很多学者参与术语抽取工作的研究,并且取得了一定的成 效。概括起来,主要有以下几种方法。 1 利用信息检索中的自动索引技术进行术语抽取 自动索引是信息检索i r ( i n f o r m a t i o n r e t r i e v a l ) 中的一种技术。许多学者 认为i r 技术与a t e 相关,因为i r 中的自动索引跟a t e 有些类似,它们的焦 点都集中在标识词语上。并且在标识词语中,都用到了词语同现频率这个信怠。 事实也是如此有很多a t e 方法借鉴了自动索引中的某些成熟的技术。 自动索引的处理过程主要有两步: s t e p l :为索引定义基本单元。 s t e p 2 :在与这个基本单元相关的各种频率信息基础上赋予每个单元一个权 值,并以此来选择索引词。 定义权值的时候,有些方法是按在文档中的出现次数来计算的,如, 2 硕士学位论文 m a s t e r st h e s i s s p a r c k - j o n e s ( 1 9 7 3 ) ,n o r e a u l t ,m c g i l i 和k o l l ( 1 9 7 7 ) ,他们的计算方法如公 式1 1 所示。 = 器 m t , 其中,i o 表示词在文档嘭中的权值,厂( ) 表示词在文档以中出现的次 数。 有的是按在语料库中出现的次数来计算的,其中著名的一个就是倒排文档 频率( i n v e r s e d o c u m e n t f r e q u e n c y ) ,它是由s m t o n 和y a n g ( 1 9 7 3 ) 提出的, 铲鹏) 1 0 9 2 焉 ( 1 2 ) 其中,表示文档以的词汇表,当w je 时,g ( ) 等于i ,否则等于0 ; n ( 功表示文档的个数。 还有一些则是按照跨文档分布来计算的( s a l t o n , y a n g & y u ,1 9 7 5 ;s a l t o n , 1 9 8 9 ) ,他们的基本思想就是;一个能够减小文档密度的词就是一个好的索引 术语。文档密度q 是用所有两个不同文档之间的平均相似度来计算的( 具体计 算方法见公式1 3 ) 。 q = 丽赢i - 而s i m ( d j ,以) ( 1 - 3 ) 。疗( d ) ( 行( d ) 一1 ) 午争 ”7”。一7 其中, s i m ( d ,以) = d ( w y ) d ( w i ) 最后,每一个字的权值用公式1 4 来计算, = q q( 1 4 ) 其中,q 和q 分别是包含和不包含嵋的文档密度。 另外,就是按相关和不相关文档的分布来计算权值的( b o o k s t c i n & s w a n s o n 1 9 7 5 ;c o o p e r m a r o n ,1 9 7 8 ) ,s a l t o n ( 1 9 8 9 ) 总结出了一个基本方法 ( 见公式1 5 ) 。 扣l o g 揣 ( 1 5 ) “i 一, 其中,p 。是在相关文档中出现的概率,q 。是w i 在不相关文档中出现的概率。 尽管加权的方法很多,但是他们的基本思想可以概括成以下几个基本部 分: 在一个文档中出现的词很可能是这个文档的索引术语: 在个文档中频繁出现的词很可能是这个文档的索引术语; 一个词如果仅仅在某一些文档中出现,它很可能是这些文档的索引术 语: 如果一个词在一个文档中出现的频率相对要比在整个语料库中出现的 频率高,那么这个词很可能是这个文档的索引术语; 一个词如果在语料库中呈现一种特殊的分布特点,它可能是这个语料 库的索引术语。 在信息检索中,还引入了两个重要的概念:召回率和准确率( s a l t o n 。 1 9 8 9 :2 7 7 2 7 8 ) ,它们是a t e 效果评估中的两个重要的评价指标。 刚开始做自动术语抽取工作时,了解自动索引技术是很有必要的。尽管自 动索引是为信息检索服务的,但从某种角度来看,它也是术语自动抽取的基础。 2 利用语言学知识进行术语自动抽取 基于语言学知识的术语抽取方法的主要步骤有: s t e p l :先对文档进行预处理( 如分词、标注) 。 s t e p 2 :反复探测在词法上术语的各种构成模式( t e r mf o r m a t i o np a t t c m s ) 。 如 一n o u n + n o u n 一( a d j in o u n ) + n o u n 。 s t e p 3 :反复探测特定形态上的术语构成模式如, 硕士学位论文 m a s t e r st h e s i s n o u n + s u f f i x ( - a s e ,- i n ) s t e p 4 :过滤停用词。 b o u r i g a u l t ( 1 9 9 2 ) 提出术语单元有一个固定的词法形式,如名词短语。他 描述的l e x t e r 系统,在“表面语法分析”基础上第一次抽取出了最大长度 的名词短语。j u s t e s o n 和k a t z ( 1 9 9 5 ) 进一步扩充了术语的词法形式( 即术语 的构成模式) :( ( a i n + i ( ( a i n ) + ( n p ) 7 ) ( a n ) + ) n 。a n a n i a d o u ( 1 9 9 4 ) 详细描述了 复杂术语的外部结构。f r a n t z i 和a n a n i a d o u ( 1 9 9 9 ) 综合了所有的构成模式, 总结出三类词法过滤器: n o u n + n o u n ( a a jf n o u n ) + n o u n ( ( a a jin o u n ) - 4 - i ( ( a d jin o u n ) ( n o u n p r e p ) 7 ) ( a d jin o u n ) + ) n o u n 并就这三类词法过滤器对术语抽取结果的影响作了详细的评估试验,取得 了一定的成果。 另一方面,为消除术语的歧义性,s m e a t o n ( 1 9 9 6 ) 开始了对语义知识的 利用。r i l o f r 和l e h n e f l ( 1 9 9 2 ) 提出了一个算法来获取训练文本的相关度。 s o d e r l a n d ( 1 9 9 5 ) 等人开发了一个标识文本中概念的系统。这些方法的好处在 于他们不需要词典,并对语料库提供了一些特定的信息。随后,m a y n a r d 和 a n a n i a d o u ( 1 9 9 9 ) 在自动抽取术语时加入了上下文信息的利用如公式1 6 所 示。 n c - v a l u e ( a ) = 0 8 c - v a l u e ( a ) + o 2 f 。( b ) w e i g h t ( b ) ( 1 6 ) t c 其中a 表示候选术语,e 表示a 的不同上下文词的集合b 是e 中的一个词, 正( 6 ) 是b 作为口的术语上下文词的频率,w e i g h t ( 是6 作为术语上下文词的权 值。 基于语言学知识的术语自动抽取方法在术语消歧、准确率上有非常明显的 优点,但事先需要对语料库进行标注和分词。标注和分词的效果对术语抽取结 果的影响很大。 这种方法中,由于术语的各种构成模式是由语言学家事先设计好了的,这 s 硕士学位论文 m a s l 讯s t h e s i s 就带来了一个新的问题:在术语抽取中,怎样选择术语的构成模式? 因为术语 构成模式的选择会较大地影响术语抽取结果的准确率和召回率。一个“精密” 的构成模式,对术语形成的模式要求非常严格,它使得些术语很难符合其要 求而被过滤掉,所以会提高抽取结果的准确率,但却使召回率下降很多。丽“松 散”的构成模式,对准确率和召回率的影响刚好相反。 这种方法可能对英语等西方语言更适合一些。因为,在英语语言中词与 词之间有空格,但汉语等东方语言中词之间没有空格;其次,英语中往往带有 很明显的词性标志,如以- t i o n 结尾的词大多表示名词,以1 v 结尾的词大多表 示副词等等,但在汉语中,无论是名词、动词,还是形容词,在形态上都只有 一种形式。 3 利用统计学知识进行术语自动抽取 目前,有很多学者在这种方法上也做了大量的研究。s a l t o n ,y a n g 和y u ( 1 9 7 5 ) 简单地加权两个相邻的字来抽取术语:d a m e r a u ( 1 9 9 3 ) 开始使用互 信息来确定词语之间的搭配关系:c o h e n ( 1 9 9 5 ) 开始利用l o g 1 i k e l i h o o d 参数 来避免一些低频词的遗漏。p a s c a l e ( 1 9 9 8 ) 扩展了s m a d j a ( 1 9 9 3 ) 提出的x t r a c t 工具,将它用到对汉语和日语术语的抽取,并第一次尝试了对术语抽取结果的 自动化评价。p a t r i c k 和d e k a n g ( 2 0 0 1 ) 同时利用互信息和l o g 1 i k e l i h o o d 两个 参数来提高术语抽取的准确率。 归纳起来。基于统计的术语自动抽取方法主要用到了以下几种参数: 出现频率f r e q u e n c y o f o c c u r r e n c e 互信息m u t u a li n f o r m a t i o n 对数似然性l o g 1 i k e l i h o o dr a t i o ( d u n n i n g 1 9 9 3 ) 出现频率f r e q u e n c yo fo e e u r f e n e e 出现频率,是一种常用的统计方法。用( 词的) 出现频率这种统计方法来 抽取术语,实现起来非常的简单,也很直接。这种方法不需要额外的资源( 如 辞典) 来辅助,是一种跨领域的方法。对于那些固定的短语,使用出现频率来 抽取,效果非常好,若配合一些词法过滤器,效果则更佳。一般来讲,大多数 术语抽取方法都会包含这种方法。 这种方法的缺点是:有些低频率的候选术语也可能是合法的术语,而一些 6 硕士学位论文 m a s t e r st h e s i s 高频的候选术语也可能不是合法的术语( 如语言中的功能词等) 。当遇到这种 情况时,出现频率的方法就显得无能为力。 互信息m u t u a li n f o r m a t i o n 互信息,( 蜀y ) 原是信息论中一个基本概念,其计算公式如公式1 7 所示。 ,( 爿;y ) = ( x ) 一日( 】,)( 1 7 ) 它表示在知道了随机变量y 的值后随机变量x 的不确定性的减少量,换 句话说,就是y 的值透露了多少关于x 的信息量,其中日) 表示随机变量u 的熵。互信息现在经常被应用到计算语言学中,如公式1 8 她= l 0 9 2 意瑞 ( c & 呲s ,1 9 9 0 ) ( 1 s ) 用来表示词语之间的组合和搭配关系。而用到术语抽取上,是基于假设“那些 频繁出现在一起的邻近字符组合更可能是术语”。 c h l l r c h 和h a n k s ( 1 9 8 9 ) 开始用互信息来抽取词语地组合和搭配。d m e r a u ( 1 9 9 3 ) 和d a i l l e ( 1 9 9 4 ) 开始使用甄信息来抽取候选术语( 仅限于两个字的 候选术语) 。现在这种方法已被越来越多的人使用。 它的问题在于,当把这种方法应用到抽取两个字以上的候选术语时,其算 法就会变得异常的复杂。另外它对低频率的词的处理效果也不是很好。 对数似然性l o g - l i k e l i h o o d r a t i o l o g l i k e l i h o o dr a t i o 是d u n n i n g ( 1 9 9 3 ) 提出一种统计方法,它是专门用来 解决低频率词语的问题的。 一2 l o g a = 2 1 0 9 l ( p l ,k l ,以i ) + l o g l ( p 2 ,七2 ,f 2 ) 一l o g l ( p ,k l , i ) 一l o g l ( p ,k 2 ,1 2 ) j ( 1 9 ) 其中 1 0 9 却 胪k l o g p + ( n - 七) l o g ( 1 叫,p l :争蛾;一2 ,p :垡 硕士学位论文 m a s t e r st h e s i s 他在自己的试验中,发现有很多低频词都是技术术语,为了能够更准确的 抽取出它们,d u n n i n g ( 1 9 9 3 ) 认为统计模型的基本假设不应该是基于正态分 布,而是二项式( 或多项式) 分布。d u n n i n g ( 1 9 9 3 ) 从理论和事实两方面论 证了这种方法的有效性。p a t r i c k 和d e k a n g ( 2 0 0 1 ) 用到了该参数,取得了较 好的效果。 这种方法的问题就在于对于那些很少邻近出现的高频词,它还不能够做到 很有效的区分。例如,有一对词( t h e ,t h e ) ,它们有很高的l o g - l i k e l i h o o dr a t i o 值,但事实上它们很少出现在一起成为术语的可能性非常小。 总的来说,用统计方法抽取术语,由于它不考虑句法、语义上的信息,所 以实现起来非常简单,并且这种方法不局限于某一专门领域,也不依赖任何外 部资源。 4 将语言学和统计学的知识结合起来的混合方法 从上面的分析中,我们可以看出,无论是基于统计学,还是基于语言学, 它们都各有自己的优缺点( 这将在第四章继续进行讨论) 。正是由于考虑到这 种情况,很多研究者开始尝试将语言学和统计学的知识结合起来进行术语抽 取。 这种混合方法主要将统计学的知识与语言学知识( 句法和语义信息) 相结 合。在具体实现时,有各种形式。有的先用统计学知识抽出候选术语,然后再 用语言学的知识进行过滤( p a t r i c k & d e k a n g ,2 0 0 1 ) :也有些先用语言学的知识 抽取。在用统计学的知识来完善( a n s e l m o ,f e l i s a & j u l i o ,2 0 0 0 ;j o a n a & n u n o , 2 0 0 1 ;j o a n a ,m a r g a r i t a ,n u n o c a r o l i n e ,2 0 0 2 ) ;还有些是互相融合的,区分的 不是很清楚的( d i a n a & a m n i a d o u , 1 9 9 9 ;d i a n a & a n a n i a d o u ,2 0 0 0 ) 。 目前,这种方法取得一定程度上的成效。但它也有自身的问题:由于涉及 到具体的语言规则,使得它的使用范围仅限于某一种语言,并且要依赖于已有 的资源使其使用范围受到一定的局限。 1 2 2 国内的研究情况 在古代,国内术语学的研究几乎是一个空白。只有汉初的尔雅一书。 8 硕士学位论文 m a s t e r st h e s i s 收集了备科的术语,全书分为1 9 篇,科技术语占了大半数。除前3 篇为解释 一般词语之外,其他1 6 篇均解释名物词,共1 4 0 0 多条,许多词条都下了定义, 可以看成是一部古代术语词典。虽然在古代的典籍中出现过许多术语及其解 释,但是对术语的本体研究一直被人们所忽视。 1 9 世纪末2 0 世纪初,开始有一些西方的译著介绍到中国,在翻译的过程 中,遇到了术语的译名问题,在这时,术语的制定和规范化开始被人们所重视。 之后。虽然有许多领域的术语词典出现,可是关于术语的深入研究一直很少。 随着社会的发展和进步,人们开始逐步认识到术语研究的重要性。在术语 的研究方面,现在也制定了一系列的国家标准,涉及术语学的一般原则和方法、 术语数据库、辞书编纂等各个方面,这些国家标准对于我国的术语标准化工作 具有重要的意义。同时也建立了一些术语数据库,如国家语委语言文字应用研 究所的应用语言学术语数据库等。为术语自动抽取提供了研究平台和资源。 在术语学的引介和深入研究方面,国家语委语言文字应用研究所的冯志伟 做了大量的工作。他的现代术语学引论一书,可以说是国内第一本关于现 代术语学的著作。他不仅研究了术语的概念和类型、术语的标准化、术语数据 库,而且还对术语的形态进行了语言学的分析,指出了其语言学结构,并且对 术语的歧义也做了研究,提出了潜在歧义论。另外,他也对术语形成的经济律 做了深入的研究,指出了术语系统的经济指数,单词的术语构成频率等等。在 现代术语学引论一书的第十章里他指出了术语平均长度的计算公式:l = r ,r 。即:在一个术语系统中,术语的平均长度就是“运行单词总数r 被术语 数t 来除所得的商”。在书中,冯志伟列举了几个数据库系统的术语的平均长 度,大部分为2 个词次左右。比如,在我国学者设计的“数据处理术语数据库” 中,该系统的术语的平均长度为2 1 3 0 词次。对术语如此深入的研究到目前为 止在国内还是第一次。 除了做理论上的研究,冯志伟还和北京大学计算语言学研究所的俞士汶、 朱学锋、德国的e w 共同创建了英、汉、德、日四国语的计算语言学词语数 据库。对计算语言学的发展做出了不可磨灭的贡献。并且他也开始把术语的研 究和计算机结合了起来。 之后,很多人的术语研究工作都把自己的研究和计算机结合了起来,如邢 9 红兵( 2 0 0 0 ) 开始探讨了计算机领域汉英术语的特征及其在语料中的分布规律, 指出中文术语主要是2 6 个字:随后王强军( 2 0 0 2 ) 等开始进行信息领域术 语抽取的初步研究。提出了术语领域性特点,但是他们的试验全部是利用手工 对很小规模的语料进行术语抽取的,这决定了它的局限性。虽然有些学者实现 了自动抽取的算法( 杨文峰,2 0 0 1 ;郑家恒,2 0 0 2 ) ,但他们自动抽取的对象 仅仅限于关键词和新词语,或者是人名、地名的识别。而关于汉语术语的机器 自动识别,目前在国内还没有很成熟的技术。 1 3 主要工作与本文组织 本文研究的课题是术语自动抽取。主要工作包括术语自动抽取软件系统的 设计和核心技术算法的实现两部分。以期找出能够让计算机进行自动抽取术语 的有效模型和算法。 术语抽取的实质是确定术语的前界和后界。按照术语的前后界有无明显标 记,术语可分为三类:有前后界标记的:有前界或后界标记的;无前后界标记 的。第一类如科学论文中的关键词,往往都有明显的标志,说明它们是该篇文 章的重点词汇,也是信息检索的重要途径之。第二类中又有很多种情况,例 如跟在某些词( 称为、叫做等) 后面的极有可能是术语;又如文本中的双语词 语,一般是一种语言的术语后跟一个带括号的注释,这个括号即可看作是前面 术语的后界标记。第三种情况是没有任何标记的术语。它们混杂在文本中,数 量大,分布广,是术语抽取的重点所在,也是难点所在。本文着重讨论第三类 术语,即无前后界标记术语的抽取。主要工作步骤如下: 1 基于大规模的真实文本,建立适合各种需求的术语自动抽取模型。在 此模型基础上,给出术语自动抽取软件系统设计方案。 2 设计并实现术语自动抽取系统核心部分的算法,确定术语的前后边界, 保证它是一个合法的语言单位。 3 用2 中的算法对真实语料进行测试,并对结果进行分析讨论。 本文各章安排如下: 第一章是绪论,概述了术语自动抽取的意义和应用背景,介绍了术语自动 1 0 硕士学位论文 m a s t e r st h e s i s 抽取的国内外研究现状。 第二章是关于术语的几个重要概念,介绍了术语自动抽取的基础知识,分 析了真实文本中术语的本质、使用特点,对这些问题的正确分析有助于我们设 计较好的术语自动抽取模型和自动抽取算法。 第三章是自然语言处理模型的介绍,综述了当前自然语言处理领域中的几 种较重要的模型,并比较和分析了各种模型。 第四章是系统设计与关键技术研究,在这部分,我们在认识各种模型不足 的基础之上,建立了适合于汉语术语自动抽取的模型,提出了术语自动抽取软 件系统的设计方案,并提出和实现了其核心部分的算法。 第五章是结果分析,介绍了对实际专业领域语料库的测试结果,并对测试 结果进行了分析,指出了存在的问题以及初步的解决方案。 第六章对全文进行总结并展望了未来工作。 硕士学位论文 v i a s t f a r st h e s i s 第二章关于术语的几个概念 2 1 术语与术语学 术语( t e r m ) :在一个学科领域中使用,表示该学科领域内概念或关系的 词语。术语可以是词,也可以是短语。是在特定学科领域用来表示概念的称谓 的集合,或者说,是通过语音或文字来表达或限定科学概念的约定性语言符号。 在我国,人们习惯称其为“名词”。 术语是传播知识、技能,进行社会文化、经济交流等不可缺少的重要工具。 作为科学发展和交流的载体,术语是科学研究的成果,是人类进步历程中知识 语言的结晶。从某种意义上说,术语工作的进展和水平,直接反映了全社会知 识积累和科学进步的程度。术语和文化,如影之随形,须臾不离。不同的文化 要用不同的术语来说明,吸收外来文化,同时必须吸收外来术语。随着社会的 发展进步,新概念大量涌现,必须用科学的方法定义、指称这些概念。所谓概 念,是客体的抽象在专门语言中用称谓表示,并用定义描述。客体、概念、 称谓和定义构成术语学的基础。 术语学( t e r m i n o l o g y ) :研究概念、概念定义和概念命名基本规律的边缘 学科,在2 0 世纪3 0 年代初期正式创立。从那时起,术语学的理论、原则和方 法开始广泛应用于各个专业领域的术语规范工作。一般认为,术语学作为一门 学科,是奥地利的欧根于斯特( 1 8 9 8 1 9 7 7 ) 教授提出来的,他也是术语学 中维也纳学派的创始人。其他如苏联的艾德列曾、察普雷金( 1 8 6 8 1 9 4 2 ) 、 洛特( 1 8 9 8 1 9 5 0 ) 等人,也在3 0 年代初就开始了术语学的研究工作。洛特 院士撰写的科技术语构成原则始终是苏联术语工作的理论基础。察普雷金 是空气动力学家,他和洛特同为后来兴起的术语学中莫斯科学派的鼻祖。语言 学中布拉格学派的后继者至今仍致力于术语学课题的研究。3 0 年代初期,他们 从术语标准化的角度对术语学产生兴趣,其论点受到布拉格结构主义语言学派 的影响。术语学中加拿大的魁北克学派兴起于2 0 世纪7 0 年代,在建立术语库 1 2 硕士学位论文 m a s t e r st h e s i s 和翻译( 包括机器翻译) 工作方面成绩显著。在魁北克的拉维尔大学,由隆多 教授开设了术语学理论讲座,并培养术语学硕士和博士。 术语学是指导术语标准化的重要工具。在科学技术高度发展的今天,术语 标准化具有更加明显的现实意义。大约在2 0 世纪5 0 年代,国际标准化组织 ( i s o ) 和苏联、联邦德国、英国、法国等国家即已开始提出术语标准化的原 则与方法,用以指导统一术语的工作。到1 9 8 8 年底。i s o 发布的术语标准已经 有3 3 4 个。这些工作由1 6 1 个分技术委员会以及若干个工作组分担完成,其中 i s 0 t c 3 7 ( 国际标准化组织第3 7 技术委员会,秘书处设在奥地利) 负责根据 术语学的基本原则制定相关的国际标准。我国历史悠久,术语工作源远流长, 但把术语学理论正式纳入术语标准化的议事日程,则是8 0 年代才开始的。这 期间,i s o t c 3 7 的秘书暨联合国教科文组织所属国际术语情报中心主任费尔伯 教授和加林斯基先生等人曾多次来华讲学,介绍术语学的基本原则与应用方 法。早在1 9 6 8 年,i s o 就发布了其术语工作委员会( i s 0 t c 3 7 ) 制定的推荐标 准i s 0 r 7 0 41 9 6 8 术语工作原则。1 9 8 8 年这个标准修订发布后,我国全国 术语标准化技术委员会便以此为参照,制定了中国国家标准g b l 0 8 78 8 确立 术语的一般原则与方法。9 0 年代初,国际上又开始修订关于术语的标准,前 后提出了该标准的工作草案1 | d 、委员会草案c d 和国际标准草案d i s 。中 国是i s 0 t c 3 7 的积极成员,为了建立规范术语的标准,由原国家标准局组建 成立的全国术语标准化技术委员会,组织制定了指导术语工作的基础标准,即 确立术语的一般原则与方法国家标准代号g b i o i1 2 、术语标准编写规定 国家标准代号g b i 6 等国家标准。这些标准所确定的工作原则与方法以现代术 语学思想和实践为依据,其中提出的原则具有通用性,适用于各个知识领域, 当然也包括社会科学领域的术语工作。 规范术语及其定义是标准化基础领域工作的重要组成部分。孔子说:“名 不正则言不顺”。“正名”就是术语的规范化( 周有光,1 9 9 7 ) 。术语标准化的 目的,首先在于分清专业界限和概念层次,从而正确指导各项标准的制定和修 订工作。术语学和术语标准化之所以成为科学发展的必须,是为了应对术语的 急剧增长和高速传播。术语是概念的指称。任何一种语言的词根数量都是有限 的与需要用这些词根表达的概念相比,词根数量是非常少的。中国的汉字很 1 3 硕士学位论文 m a s t e r st h e s i s 多,一部康熙字典收字4 7 0 7 3 个,8 0 年代用计算机作字频统计一共找到 8 9 6 9 个比较常用的汉字:国家标准信息交换用汉字编码字符集一基本集规 定中文电脑用字以6 7 6 3 个汉字为度。但是,据说仅仅在电工电子领域现有的 概念就已超过4 0 0 万个。相形之下。近年来在社会生活领域出现的词语爆炸更 让人耳目常新。面对这样庞大的概念群落,如果不在术语工作中采用严格的科 学方法,那么在不久的将来就会出现交流上的问题。 就社会科学领域而言,要使中国的社会科学真正成为科学,成为与世界相 通的学问,社会科学研究的术语规范化同样是不能回避的问题。 这里需要明确的是,术语规范化的目的不是统一思想,而是统一表达。 社会科学研究的术语规范化,并不意味着“社会科学学术思想的干篇一律”, 恰恰相反术语是学术的前提,术语的规范化意味着科学的发达,规范术语, 是学科建设当中必不可少的重要环节。百花齐放、百家争鸣的学术氛围,必定 要求术语规范化的背景,而一言堂的家天下是不需要考虑术语问题的。从某种 意义上说,规范术语既是社会科学学科建设当中的重要内容,也是促进学科建 设和发展以及不同学科之间交叉融合的重要手段。 一般词语( c o m m o nw o r d s ) :一个学科领域中除了术语之外的词语都叫做 一般词语。所有学科领域中一般词语的并集构成了一般词语的全集。般词语 的全集加上所有学科领域的术语构成语言交际的词语的全集。 学科领域( f i e l d ) :人类知识的一门分科或一个专业范围。本文采用的 学科分类体系以人类知识体系为框架,以便于进行术语抽取和其他语言信息处 理为原则。 流通度( c i r c u l a t i o n ) :一个语言单位流行通用的程度。它揭示了一个 语言单位在社会生活中发展演变的过程。 2 - 2 术语特点 术语自动抽取方法的研究,需要对术语的性质有一个很深的理解,这种理 解不仅要归功于计算语言学的实际应用,而且还要归功于术语学的理论基础 ( k y o ,1 9 9 6 ) 。一个成功的术语抽取方法需要考虑到术语各个方面的性质。 1 4 硕士学位论文 m a s t e r st h e s i s 术语和一般词语的关系 术语一般只在一个或几个特定的领域流通,只有该特定领域的人使用, 而一般词语是各个领域都流通。是所有使用该语言的人通用的: 术语不仅只在本领域流通,一般说术语也都是本领域的商流通度的词 语: 术语仅在本领域是高流通度的,离开了特定领域。其流通度一般趋近 于零: 一般词语集合在每个领域中都是共用的,所以基本上是个常数:术语 是各个专门领域独用的词语,各个领域互不相同: 每个学科领域的词语集合由一般词语集合加上这个领域的术语组成。 术语的语言结构特点 术语在结构上有其固定的特点,这为术语自动抽取提供了条件。我们这里 所说的语言结构,是指从语言学系统的观点看术语的内部结构。这一点在大多 数规则方法中放提到。他们都认为大多数术语是名词短语。具体有以下几个方 面: 术语的边界特点:按照术语的前后界有无明显标记术语可分为三类: 有前后界标记的;有前界或后界标记的;无前后界标记的: 术语的长度特点:中文术语长度主要是2 6 个字: 术语大多是名词性的短语; 术语形成模式特点:如n o u n + n o u n ,( a d j n o u n ) + n o u n 等; 有些字几乎不可能出现在术语中的如“的”、“是”、“些”等。 术语使用的统计特点 在术语抽取研究中,所有的统计工作都直接或间接的采用了关于术语使用 特点量化方面的假设。 ( d 在某一领域中经常出现的词,很可能是这个领域的一个术语; 仅仅在某个领域中才出现的词,很可能是这个领域的一个术语; 如果一个词在某一领域中出现的频率相对比在一般文本中出现的频率 高的话,则很可能是这个领域的一个术语; 在某些方面,一个词偏向于在某个领域中出现,则很可能是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机场综合交通枢纽配套工程初步设计
- 棚户区危旧房改造工程申请报告
- 2025福建中烟工业限责任公司校园招聘65人易考易错模拟试题(共500题)试卷后附参考答案
- 2025甘肃移动春季校园招聘易考易错模拟试题(共500题)试卷后附参考答案
- 2025甘肃电投常乐发电限责任公司招聘53人易考易错模拟试题(共500题)试卷后附参考答案
- 2025湖南衡阳市事业单位招考易考易错模拟试题(共500题)试卷后附参考答案
- 2025湖南益阳南县城乡发展投资限公司招聘23人易考易错模拟试题(共500题)试卷后附参考答案
- 5G通信技术:网络架构优化路径研究
- 2025浙江金华金开招商招才服务集团限公司招聘劳动合同制工作人员67人易考易错模拟试题(共500题)试卷后附参考答案
- 2025浙江台州市黄岩西部资源开发限公司招聘劳务派遣工作人员2人易考易错模拟试题(共500题)试卷后附参考答案
- 酒店安全巡查日常检查记录表
- 初中数学教师培训讲座
- 新版膳食指南2025电子版
- T-GDPHA 001-2025 广州市非急救医疗转运管理标准
- 2025年教师招考教育心理学试题(附答案)
- 浙江国企招聘2025杭州市供销社社有企业春季招聘16人笔试参考题库附带答案详解
- 酒店餐饮销售培训课件
- 膜蒸馏海水淡化技术73课件
- 现场管理活动方案
- 2025至2030全球及中国转向泵行业产业运行态势及投资规划深度研究报告
- QGDW11008-2013低压计量箱技术规范
评论
0/150
提交评论