




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 领域术语自动获取是自然语言处理领域的一项重要的研究课题。随着自然语言 处理( n l p ) 应用领域的不断扩展,对于领域专业词汇词典的需求也越来越迫切。 研究证明把领域知识应用于信息处理的各种技术,例如信息检索、信息提取、数据 挖掘等中去都会取得很好的效果,而这种方法的性能在很大程度上依赖于一个庞大 的领域术语库。到目前为止,领域术语库主要依靠人工构建,代价十分巨大而且进 展缓慢。因此,如何自动的对获取领域术语,并且及时发现领域新术语,对把握学 科领域的发展现状、未来趋向等具有非常重要的理论和现实意义。 目前,国内对领域术语获取的研究主要集中在基于语料库的分析上,并且对领 域术语自动获取的研究还不是很多。国外的研究很多局限在西方语言上,对于汉语 并不适用。因此,自行研制适合于汉语的领域术语自动选取的方法,对汉语术语标 准化、中文信息处理来说无疑具有十分重要的意义。 本文正是针对目前领域术语库主要采用人工构建的这种现状,对领域术语自动 获取进行比较深入的探讨,本文的研究工作主要包括以下几个方面: 1 、对已有的领域术语自动选取模型的本质、优缺点进行了分析和比较。 2 、提出并建立了一种基于c b c 聚类方法的领域术语自动获取模型,该模型避 免了单纯以领域相减或统计方法获取领域术语的局限性。 3 、通过对术语评分选取种子术语,并且引入修正的余弦公式来进行术语间相 似度的计算,并设计了领域术语自动获取系统的核心模块。 关键词:术语;领域术语;c b c 聚类;中文信息处理 a b s t r a c t a u t o m a t i ca c q u i s i u o n0 fi ) o m a i l l i b n n si sa ni m p o n a n tr e s e a r c hi s s u ei nn a t u r a l l a n g l l a g ep r o c c s s i n g ( n l p ) b yt h ee x t e n s i o no fd o a i na p p l j c a t i o ni nn l p ,i tb e c o m e s m o r ea i i dm o r eu r g e n tt og e tt h ed o m a 恤k n o w l e 姑e t h er e s e a r c hp r o v e st h a ti tc a ng e t t h eb e t t e re 仃e c tw h e i n d u d st h ed o m a i nk n o w l e d g et om a n yt e c h n o l o g yo fi n f o r i i l a t i o n p r o c e s s i n g ,s u c ha si n f o m a t i o nr e t t i e v a l ,i n f o 蛐a t i o ne x t i a c t i o n ,d a t am i l l i n g b u tm i s a p p r o a c hd 印e n d s 0 nah u g ed o m a i nd a t a b a s eo n h i g hd e 静e e d o m a i nd a t a b a s ei sm a i n l y c o n s t 灿l t e db ym 鼢p o w c r ,a n d “c o s t si m m e n s c l ya n dc v o l v c ss l o w l y h o wt 0a u t o m a t i c a c q u i s “i o no fd o m a i nt e r m sa n df i n dn 钾旷d o i n a i nt e 珊si nt i l n es h a wt h e o r e t i c a la n dr e a l s i g n i f i c a n c co f k e c p i n g u p w i t h t h e p a c eo f w o t l d 血t h i s d o m a i n n o w a d a y s ,f e s e a r c ho na c q u i s “i o na d n e s ed o m a i nt e 吼sf o c l l s e so na n a l y z i n g 0 0 r p u s ,b u ts e l d o mi na u t o m a t i ca c q u i s “i o no fd o m a i nt e 瑚畸t h ea c q u i s “i o no fd o m a i n t e i m su s u a l l yr e l yo nf o r e i 驴i c s e a r c l la c h i e v 啪c n tb a s c do nw e s t e ml a n g u a g e s ,b u ti ti s n o tq u i t es u i t a b kf o rr e s e a r c hb a s e do nc h i n e s e ,s ot o d e v c l o ps u j t a b l ew a yf o r a o q u i s i t i o nc h i n e s cd o m a 血t e n n si sv e r yi m p o r t 姐tf o rc i l i j s ct 咖s t a n d a r d i z a t i o na s w e l l 弱c h i e s ei 陆m a t i o np r o c e s s i n g 加m i n ga t 嵋p r e s e n ts i m a t i o ,t h i sp a p e rp a y s a t t e n t i o nt ot h er e s e a r c ho f a u t o m a t i ca c q u i s “i o nd o m a i nt e r n l st e c h n i q u e s ,t h em a i n w o r ka r ea sf o l l o w s : 1 _ a n a l y s i sa n dc o m p a r ea l l l 【i n d so fa u t o m a t i ca c q u i s i t i o nd o m a i nt e n sm o d e l s 2 p r o p o s ea na u t o m a t i ca c q u i s i t i o nd o m a i l it e m l sm o d e lb a s e do nc b cc l u s t e r i n g a p p r o a c h ,m a n yd i s a d v a n t a g e s a r ea v o i d e di no u rm o d e l 3 p f o p o s et h em e m o dt oa p p m i s et e 瑚a n dm o d i f yc o s i n ec o e 伍d e n t t oc a l c u l a t e m u t u a l i n f o 肌a t i o n t h e nd e s i g nt h ek e yp a nb yu s i n gt i l i sa l g o f i t l l m k e yw o r d s :t e m ;d o m a i nt e 咖;c b c ( c l u s t e r i n gb yc o m m i t t e e ) ; n a t u r a l i a n g u a g ep m c e s s i n g 硕士学位论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名: 恕襄 日期:。年月二日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 作者签名:韵唠 日期:挪6 年6 月6 日 导师签名: 日期:年月日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库”中全文发布,并可按“章程”中的 规定享受相关权益a 圃重论塞埕銮蜃澄匡i 旦堂生;旦二生;旦三生筮查! 作者签名:均砑 日期:加1 年6 月6 日 导师签名: 日期:年月日 1 1 课题研究的背景及意义 第一章绪论 科学技术高速发展的今天,随着信息高速公路的兴起,每天都有大量的数据文 件以电子形式进行交流,科技文献也大量涌现,随之而来的是大批新的领域词汇( 术 语) 。领域词汇集中体现和负载了一个学科领域的核心知识i l 】,词汇的变化在一定程 度上反映了一个学科领域的发展变化。领域词汇对于了解、把握一个学科领域的发 展现状、未来趋向等具有重要的理论和现实意义。随着中文信息处理应用领域的不 断扩展,对于领域专业词汇词典的需求也越来越迫切。研究证明把领域知识应用于 信息处理的各种技术,例如信息检索、信息提取、数据挖掘等中去都会取得很好的 效果,而这种方法的性能在很大程度上依赖于一个庞大的领域知识库。到目前为止, 已经构造了包含3 0 多万项次的领域知识库,主要依靠人工构建,代价十分巨大而 且进展缓慢。 知识获取一直是自然语言处理的重要研究课题。目前很多著名的知识库主要依 靠手工构建,如w b r d t 【2 j ,h o w t 【3 】等,并且这些知识库描述的都是一些通用信 息,不同的专业领域由它们自身特有的予语言来刻厕,包含特定的专业术语等,那 么用一个单一的知识库来代表这众多的子语言几乎是不可能的。 特定领域术语词典的构建在自然语言处理的许多应用领域中具有重要的理论 和实践意义,是一个影响着自然语言处理领域中许多其他应用问题的“基础问题”。 具体来说,领域术语词典的应用领域主要包括: 领域0 n t o l o g y :领域本体1 4 j 定义了组成主体领域的词汇的基本术语和关系, 以及用于组合术语和关系一起定义词汇的外延的规则。领域本体形式化表达领域中 的各种概念及概念之间的关系,而这些概念就是用该领域术语来表达,因而领域术 语集在构建领域o n t o l o g y 方面发挥着重要的作用。本体技术已经发展成为知识表 示、知识管理、知识共享、知识复用的主流技术之一,正成为自然语言处理、w 曲 信息检索、数据库和知识库的管理、异构数据集成、数字图书馆、g i s 、语义w 曲 等研究领域共同关心的一介核心,因此领域术语集选取的好坏直接影响着构建领域 o n t o l o g y 的质量。 主题内容分析和文本分类:如文本分类、自动文摘、信息抽取等,只有对 文本中的核心术语进行识别,才能正确地分析文本和句子的概念和主题。 信息检索:在信息检索中,人们往往需要得到的是与该术语相关的文本, 而受到传统检索的影响,检索仅仅是根据字面进行逐字匹配,而得到有限的信息。 在信息检索中引入领域术语集,可以大大提高检索的准确率,并达到较高的信息覆 盖。 可见,只要涉及自然语言处理的计算机应用中,领域术语词典的获得是不可回 避的问题。因此,作为自然语言处理过程中的一个重要基础性问题,领域术语获取 的研究具有重要的理论和实践意义,它的研究成果可以直接应用于自然语言处理的 许多方面。 1 2 国内外学术界对领域术语自动获取的研究 1 2 1 国外的研究状况 当前,国外学者对领域术语自动选取工作的研究主要是基于语料库的基础上进 行的。领域术语的自动选取是在术语抽取的结果上进行的加工,将抽取出来的术语 进行分类,构成相关领域的术语集合。最早的关于术语抽取的研究是h p - h l l n 所做 的工作,到目前为止,国外已经有很多学者参与领域术语获取工作的研究,并且取 得了一定成效。综合起来,主要有以下几种方法。 1 、利用规则进行领域术语获取 编制的规则主要依赖语言学家的语言知识,该类方法需要构造描述术语特点的 规则库。规则库中的规则用于描述术语的特征和各领域术语的通用特征。由于规则 为人工编制,受人所具有知识的限制,并且不同专家编写的规则不同,具有较大的 不一致性,更主要的问题是手工编写规则既费时又费力,并且在领域术语选取时使 用手工筛选,存在严重的知识获取的“瓶颈”问题,因此目前单纯使用基于手工编 制规则的领域术语获取方法已经比较少了。 2 、利用词典资源进行领域术语获取 领域术语分类信息可以从相关的专业术语集中获取,比如汉语主题词表就 是一部大型综合检索工具书,收录正式主题词条,非正式主题词条。主要根据领域 词典信息,对术语进行选择和对新术语进行发现,但它仍然存在一些局限性,主要 依靠手工的方法进行术语选取。 3 、利用语料库进行领域术语获取 硕士学位论文 m a s t b r st h e s i s 为了弥补手动选取领域术语的不足,提出了基于语料库的方法建立特定领域术 语词典,提高了词典质量,扩大了覆盖率,解决了以往手工选取的问题,利用计算 机自动选取领域术语。它的一个最大特点是不需要事先经过语义标注的资源,只需 给出对应于某特定领域的生语料即可。 目前,进行领域术语自动获取的研究并不多,在国外较有影响的方法包括: g o v i n d 和c h a h a v a n h i 等提出了基于奇异值分解( s i n u l a rv a l u e d e c o m d o s i t i o n ) 的潜在语义索引( l 丑t e n ts e m a n t i c1 i l d e x ) 方法【5 j o 潜在语义索引方 法的目标是通过采用低维概念的空间代替高维的文档空间,从而获取术语与术语之 间的联系。在g o v i n d 和c h a l 【r a v a r t h i 的方法中,他们首先经过词频统计构造“术语文 档”矩阵,然后将“术语文档”矩阵进行奇异值分解,分别得到术语矩阵u 、奇异值矩 阵s 和文档矩阵v :最后通过术语矩阵u 和文档矩阵v 生成概念与术语之间的关系, 从而构造具有相似概念的术语集合。该方法的特点是高效率,然而其仅仅采用共现 特征来描述术语与术语之间的关系,也未能给出明确具体的关系标注。 d e k a n gi j n 和p a t r i c kp a i l t d 提出了基于c b c ( c i u s t e f i n gb yc o n u n i l t e e ) 聚 类的领域概念发现方法【6 】。在该方法中,概念被描述为相关术语的集合。首先通过 统计进行术语提取和术语向量化,进而运用c b c 算法对术语进行聚类,每个术语类 被当成一个语义类,即概念。c b c 算法的突出优点是能够自动确定聚类个数。i j n 和p a i l t e l 的方法旨在给出一种高效的聚类算法和概念自动发现的途径,其思想给了 我们很好的启发。 1 2 2 国内的研究状况 在古代,国内术语学的研究几乎是一片空白。只有汉初的尔雅一书收集了 各科的术语,全书分为1 9 篇,科技术语占了大半数。除前3 篇为解释一般词语之 外,其他1 6 篇均解释名物词,共1 4 0 0 多条,许多词条都下了定义可以看成是一部 古代术语词典。虽然在古代的典籍中出现过许多术语及其解释,但是对术语的本体 研究一直被人们所忽视。 1 9 世纪末2 0 世纪初,开始有一些西方的译著介绍到中国,在翻译过程中,遇 到了术语的译名问题,在这时,术语的制定和规范化开始被人们所重视。之后,虽 然有很多领域的术语词典出现,可是关于术语的深入研究一直很少。 随着社会的发展和进步,人们开始逐步认识到术语研究的重要性。在术语的研 究方面,现在也制定了一系列的国家标准,涉及术语学的一般原则和方法、术语语 料库、辞书编纂等各个方面,这些国家标准对于我国的领域术语标准化工作具有重 3 硕士学位论文 m a g t e r st h e s i s 要的意义。同时也建立了一些领域术语库,如国家语委语言文字应用研究所的应用 语言学术语数据库等。对进行领域术语库的自动构建提供了研究平台和资源。 在术语学的引介和深入研究方面,国家语委语言文字应用研究所的冯志伟做了 大量的工作。他的现代术语学引论一书,可以说是国内第一本关于现代术语学 的著作。他不仅研究了术语的概念和类型、术语的标准化、术语数据库,而且还对 术语的形态进行了语言学的分析,指出了其语言学结构,并且对术语的领域性划分 也做了研究。 除了做了理论上的研究,冯志伟还和北京大学计算机语言学研究所的俞士汶、 朱学锋、德国的e w 共同创建了英、汉、德、日四国的计算语言学术语数据库。对 计算语言学的发展做出了不可磨灭的贡献。并且他也开始把术语的研究和计算机结 合起来了。 之后,很多人的术语研究工作都和计算机结合了起来,如邢红兵开始探讨了计 算机领域术语的特征及其在语料中的分布规律,指出中文术语主要是2 6 个汉字: 随后王强军等开始进行信息领域术语抽取的初步研究,提出了术语领域性特点,但 是他们的试验全部利用于很小规模的语料进行领域术语选取的,这决定了它们的局 限性。关于汉语领域术语的机器自动获取,目前在国内还没有成熟的技术,但很多 单位和个人都进行了行之有效的方法进行尝试,较有影响的领域术语库建设的方法 和系统包括: 北京大学计算语言学研究所与中国标准研究中心合作于2 0 0 1 年“信息科学 与技术领域术语辅助提取和术语库的建设”项目n 该系统选择技术发展最迅猛、 对于术语规范化要求最迫切的信息科学与技术领域为突破口,制定该领域的术语库 建设标准、建立该领域的术语库、语料库以及开发该领域的术语自动提取软件。该 系统首先对信息科学与技术领域术语的自动提取,从5 0 0 0 万语料中提取出相关术 语候选超过8 万条,对实验结果初步分析表明,在这些候选中,有些是术语,有些 不是术语。接着对这些术语候选,进一步利用它们的特定文本中的上下文信息以及 篇章结构信息进行确认,即进行术语的自动识别。 东北大学信息学院计算机软件与理论研究所陈文亮,朱靖波等基于 b o o t s t r a p p i n g 的领域词汇自动获取的研究“。该研究根据f w b m o d e l 模型进行术语 选择。f w b _ m o d e l 的输入是未标注语料和选定领域的种子词集,学习结果是该领域 的领域词集。统计提供了候选词集,而评价与选择是从候选词中选取领域词和领域 重要词。构造候选词集和评价与选择是算法的核心部分。 中国科学院自动化所张艳等基于汉语句法分析基础上的一种对术语下定义 4 硕士学住论文 m a s t e r s t h e s l s 问题进行的理论上的研究。该方法针对电子学和计算机领域的预料进行了分词和词 性标注处理,应用句法分析工具分析出句子中短语成分,并根据汉语句子的句型结 果,总结归纳出术语定义的结果特点,自动提取定义的模板。最后根据已建立的数 据和概念描述,给出术语发现的算法,进行特定领域术语的发现。 中国科学院计算技术研究所智能信息处理重点实验室郑毅等利用事先分好 类的文档作为训练文档,对这些训练文档经过利用停用词表进行词汇过滤等操作 后,从每一类训练文档集合中抽取出最能描述相应领域特征的词汇作为该领域的术 语。该方法在文本信息处理中,通过特征词在文档中重要程度来计算所获得的信息 量,最初的全部词要通过评估函数获得一个分值,然后按其大小排序。按某阈值大 小决定最终保留的较好反映类别特点的核心词作为领域术语集。 台湾世新大学林颂坚等提出的针对主题进行自动化抽取的领域术语,该方 法利用论文中的题名、摘要、全文,甚至所引用的参考文献等文字资料表达了研究 的问题、方法与结果,因此这些论文资料中的术语与研究主题非常相关。以计算机 学领域为例,许多论文中包括了诸如“语料库”、“咨询检索”等术语,因为它们与 这个领域的重要主题相关。而且进一步地,主题相关地术语会经常起出现,具有 较强地共现( c 0 - 0 c c i l r r c n c e ) 关系。因此,对相关领域的论文进行分析,选取具有 高频且代表主题意义的术语,利用共现信息将相关的术语构成一个领域术语集。 1 3 主要工作与本文组织 本文的主要工作是研究特定领域术语的自动选取,包括术语的自动抽取和自动 识别两部分的设计,以及核心算法的实现。 1 、术语抽取:利用分词工具对语料进行分词与标注,剔除停用词。 2 、术语识别:利用基于c b c 聚类方法的领域术语自动选取的策略。c b c 聚类 方法的核心就是利用递归的方法在空间中寻找啪m i t t e e s 。每个c o m m i t e e 就是 一个紧凑的类,用来识别相似度很高的术语,确定这些术语为领域术语。 3 、对真实文本进行测试,并对结果进行分析讨论。 本文各章安排如下: 第一章介绍领域术语自动选取的任务、意义、国内外的研究现状以及本文的主 要工作。 第二章介绍关于术语的几个重要概念,当前标准术语判定的一些规则,以及分 析了真实文本中术语的本质、使用特点,对这些问题的正确分析有助于我们设计较 5 硕士学住论文 m a s t e r st h e s i s 好的术语自动获取模型和自动获取算法。 第三章分析了已有的一些术语选取的技术和方法,对各种不同方法进行对比和 分析。 第四章介绍了聚类算法,并对不同聚类算法进行了分析和对比。 第五章介绍了利用c b c 聚类方法进行领域术语自动选取的方法,在这部分着 重介绍了我们所使用的c b c 聚类方法,以及使用它进行术语聚类的设计方案,并 实现了关键部分的算法。 第六章对全文进行总结并展望未来的工作。 2 1 术语与术语学 第二章关于术语的相关概念 术语( t e m ) :在一个学科领域中使用,表示该学科领域内概念或关系的词语。 术语可以是词,也可以是短语,是在特定学科领域用来表示概念的称谓,或者说, 是通过语音或文字来表达或限定科学概念的约定性语言符号。在我国,人们习惯称 其为“名词”。 术语是传播知识、技能,进行社会文化、经济交流等不可缺少的重要工具。作 为科学发展和交流的载体,术语是科学研究的成果,是人类进步历程中知识语言的 结晶。从某种意义上说,术语工作的进展和水平,壹接反映了全社会知识积累和科 学进步的程度。术语和文化,如影随形,须臾不离。不同的文化要用不同的术语来 说明,吸收外来文化,同时必须吸收外来术语。随着社会的发展进步,新概念的大 量涌现,必须用科学的方法定义、指称这些概念。所谓概念,是客体的抽象,在专 门语言中用称谓表示,并用定义描述。客体、概念、称谓和定义构成术语学的基础。 术语学( 1 c r n l i n o l o g y ) :研究概念、概念定义和概念命名基本规律的边缘学科, 在2 0 世纪3 0 年代初期正式创立。从那时起,术语学的理论、原则和方法开始广泛 应用于各个专业领域的术语规范工作。一般认为,术语学作为一门学科,是奥地利 的欧根于斯特( 1 8 9 8 1 9 7 7 ) 教授提出来的,他也是术语学中维也纳学派的创始人。 其他如苏联的艾德烈曾、察普雷金( 1 8 6 8 1 9 4 2 ) 、洛特( 1 8 9 8 1 9 5 0 ) 等人,也 在3 0 年代初就开始了术语学的研究工作。特洛院士撰写的科技术语构成原则 始终是苏联术语工作的理论基础。察普雷金的空际动力学家,他和洛特同为后来兴 起的术语学中莫斯科学派的鼻祖。语言学中布拉格学派的后继者至今仍致力于术语 学课题的研究。3 0 年代初期,他们从术语标准化的角度对术语学产生兴趣,其论点 受到布拉格结构主义语言学派的影响。术语学中加拿大的魁北克学派兴起于2 0 世 纪7 0 年代,在建立术语库和翻译( 包括机器翻译) 工作方面成绩显著。在魁北克 的拉维尔大学,由隆多教授开设了术语学理论讲座,并培养术语学硕士和博士。 术语学是指导属于标准化的重要工具。在科学技术高度发展的今天,术语标准 化具有更加明显的现实意义。大约在2 0 世纪5 0 年代,国际标准化组织( i s o ) 和 苏联、联邦德国、英国、法国等国家即已开始提出术语标准化的原则与方法,用以 硕士学住论文 m a s t e r st h e s i s 指导统一术语的工作。到1 9 8 8 年底,i s o 发布的术语标准已经有3 3 4 个。这些工作 由1 6 1 个分技术委员会以及若干个工作组分担完成,其中i s 0 ,r c 3 7 ( 国际标准化 组织第3 7 技术委员会,秘书处设在奥地利) 负责根据术语学的基本原则规定相关 的国际标准。我国历史悠久,术语工作源远流长,但把术语学理论正式纳入术语标 准化的议事日程,则是8 0 年代才开始的。这期间,l s o 厂r c 3 7 的秘书暨联合国教科 文组织所属国际术语情报中心主任费尔伯教授和加林斯基先生等人曾多次来华讲 学,介绍术语学的基本原则与应用方法。早在1 9 6 8 年,i s o 就发布了其术语工作委 员会( i s o 佃c 3 7 ) 制定的推荐标准i s o r 7 0 41 9 6 8 术语工作原则【1 0 j 。1 9 8 8 年这 个标准修订发布后,我国全国术语标准化技术委员会便以此为参照,制定了中国国 家标准g b l 0 8 78 8 确定术语的一般原则与方法。9 0 年代初,国际上又开始修订 关于术语的标准,前后提出了该标准的工作草案w d 、委员会草案c d 和国际标准 草案d i s 。中国是i s o ,r c 3 7 的积极成员,为了建立规范术语的标准,由原国家标 准局组建成立的全国术语标准化技术委员会,组织制定了指导术语工作的基础标 准,即确立术语的一般原则与方法国家标准代号g b l 0 1 1 2 、术语标准编写规 定国家标准代号g b l 6 等国家标准。这些标准所确定的工作原则与方法以现代术 语学思想和实践为依据,其中提出的原则具有通用性,适用于各个知识领域,当然 也包括社会科学领域的术语工作。 规范术语及其定义是标准化基础领域工作的熏要组成部分。孔子说:“名不正 言不顺”。“正名”就是术语的规范化。术语标准化的目的,首先在于分清专业界限 和概念层次,从而正确指导各项标准的制定和修订工作。术语学和术语标准化之所 以成为科学发展的必须,是为了应对术语的急剧增长和高速传播。术语是概念的指 称。任何一种语言的词根数量都是有限的,与需要用这些词根表达的概念相比,词 根数量是非常少的。中国的汉字很多,一部康熙字典收宇4 7 c r 7 3 个,8 0 年代用 计算机作字频统计一共找到8 9 6 9 个比较常用的汉字;国家标准信息交换用汉字 编码字符集基本集规定中文电脑用字以6 7 6 3 个汉字为度。但是,据说仅仅 在电工电子领域现有概念就已超过4 0 0 万个。相形之下,近年来在社会生活领域出 现的词语爆炸更让人耳目常新。面对这样庞大的概念群落,如果不在术语工作中采 用严格的科学方法,那么在不久的将来就会出现交流上的问题。 就社会科学领域而言,要使中国的社会科学真正成为科学,成为与世界相通的 学问,社会科学研究的术语规范化同样是不能回避的问题。 这里,需要明确的是,术语规范化的目的,不是统一思想,而是统一表达。社 会科学研究的术语规范化,并不意味着“社会科学学术思想的千篇一律”,恰恰相 8 反,术语是学术的前提,术语的规范化意昧着科学的发达,规范术语,是学科建设 当中必不可少的重要环节。百花齐放、百家争鸣的学术氛围,必定要求术语规范化 的背景,而一言堂的家天下是不需要考虑术语问题的。从某种意义上说,规范术语 既是社会科学学科建设当中的重要内容,也是促进学科建设和发展以及不同学科之 间交叉融合的重要手段。 学科领域( d o m a i n ) :人类知识的一门分科或一个专业范围。本文采用学科分 类体系以人类知识体系为框架,以便于进行不同领域术语的选取。 一般词语( c o m m o nw b r d s ) :个学科领域中除了术语之外的词语都叫做一般词 语。所有学科领域中一般词语的并集构成了一般词语的全集。一般词语的全集加上 所有学科领域的术语构成语言交际的词语的全集。 领域词( 又称术语t c 珊) :是指在一个学科领域中使用、表示该学科领域内概 念、特征或关系的词语。术语可以是词,也可以是短语。术语可以只在一个学科领 域中存在,也可并存于多个学科领域中,如:显示器领域中的阴极射线管、显示器、 刷新率、场频等词就具备这种特点,是显示器领域词。领域词集是领域词的集合。 流通度刚( a r c u l a t i o n ) :一个语言单位流行通用的程度。它揭示了一个语言单 位在社会生活中发展演变的过程。 2 2 术语特点 特定领域术语选取的研究,需要对术语的性质有一个很深的理解,这种理解不 仅要归功于计算语言学的实际应用,而且还要归功于术语学的理论基础。一个成功 的术语选取的方法需要考虑至术语性质的各个方面。 术语和一般词语的关系: ( 1 ) 术语一般只在一个或几个特定的领域流通,只有该特定领域的人使用, 而一般词语是各个领域都流通,是所有使用该语言的人通用的。 ( 2 ) 术语不仅只在本领域流通,一般说术语也都是本领域的高流通度的词语。 ( 3 ) 术语仅在本领域是高流通度的,离开了特定领域,其流通度一般趋近于 零。例如:半数致死量、氯代三环芳烃类化合物、多氯代二苯。 ( 4 ) 一般词语集合在每个领域中都是共用的,所以基本上是个常数;术语是 各个专门领域独用的词语,各个领域互不相同。 ( 5 ) 每个学科领域的词语集合由一般词语集合加上这个领域的术语组成。 术语的语言结构特点: 9 硕士学住论文 m a s t e r s t h e s l s 术语在结构上有固定的特点,这为术语抽取提供了条件。这里所说的语言结构, 是指从语言学系统的观点看术语的内部结构。这一点在大多数规则方法中被提到。 他们都认为大多数术语是名词或名词短语。具体有以下几个方面: ( 1 ) 术语的边界特点:按照术语的前后界有无明显标记,术语可分为三类: 有前后界标记的;有前界或后界标记的;无前后界标记的: ( 2 ) 术语的长度特点:中文术语长度主要是2 6 个字; ( 3 ) 术语大多是名词性短语; ( 4 ) 术语形成模式特点:如n o u n + n o u n ,( a d j 门u n ) + n o u n 等; ( 5 ) 有些字几乎不可能出现在术语中,如“的”、“些”、“是”等。 术语使用的统计特点: 在术语识别的研究中,所有的统计工作都直接或间接的采用了关于术语使用特 点量化方面的假设。 ( 1 ) 在某一领域中经常出现的词,很可能是这个领域的一个术语; ( 2 ) 仅仅在某个领域中才出现的词,很可能是这个领域的一个术语; ( 3 ) 如果一个词在某一领域中出现的频率相对比在一般文本中出现的频率高 的话,则很可能是这个领域的一个术语; ( 4 ) 在某些方面,一个词偏向于在某个领域中出现,则很可能是一个术语。 总的来说,术语首先是种结合紧密的固定或半固定的词或短语( 具有结合紧 密性和语言完备性特点) ,进而,它还是种具有很强的领域特征的词语( 具有领 域性) 。术语内部结合紧密的特征可以通过计算组成术语候选的词之间的关联程度 来体现出来;语言完备性的特征可以通过其组成成分的组成方式( 表现为,例如: 词性搭配序列) 体现出来;而术语的领域特征可以通过领域术语构件体现出来。例 如:同样是结合紧密的短语“移动终端”和“社会经济”,在信息科学与技术领域 中,前者是术语,而后者是普通短语。原因在于前者具有领域特征,体现在前者包 含有特征构件“终端”。我们可以充分地利用术语的这些特点和表现形式来进行术 语的自动提取。 2 3 本章小结 本章首先介绍术语和术语学几个重要的概念,然后对术语的各种特点与一般词 语的区别进行了分析和探讨,为本文所讨论的术语自动选取的实现提供理论支持。 1 0 第三章领域术语自动获取的相关研究方法 目前,已有一些知识源英文的、中文的w b r d n e t 以及各类词典来满足自然 语言理解之需求,并已在h o w n e t 实际应用中得以广泛推广,但它们描述的是一些 通用信息,不同的专业领域由它们自身特有的子语言来刻画,包含特定的专业术语 等,那么用一个单一的知识库来代表这众多的子语言几乎是不可能的,因而领域术 语词典的构建已成为一项有意义的工程,而且,它的构建将为文档分类以及信息抽 取任务提供有力依据。 3 1 基于规则的领域术语获取 编制的规则主要依赖语言学家的语言知识,该类方法需要构造描述术语特点的 规则库。规则库中的规则用于描述术语的特征和各领域术语的通用特征。由于规则 为人工编制,受人所具有知识的限制,并且不同专家编写的规则不同,具有较大的 不一致性,更主要的问题是手工编写规则既费时又费力,并且在领域术语选取时使 用手工筛选,存在严重的知识获取的“瓶颈”问题,因此目前单纯使用基于手工编 制规则的领域术语获取方法已经比较少了。 3 2 基于词典资源的领域术语获取 可以直接从一些专业术语词典中获得领域术语,但是由于术语词典的更新速度 很慢,很多新的术语无法及时被收录。另一方面,由于术语词典编著者的不同,收 录的词条也大不相同,并且对词条的分类也没有完全统一的标准。比如说,专业术 语分类信息可以从汉语主题词表【l l 】中获取,它是一部大型综合检索工具书,收 录正式主题词条,非正式主题词条,增订本在原有基础上9 1 1 5 8 条,非正式主题词 1 7 4 1 0 条,增订本在原有基础上增补了8 2 2 1 条新词,删除了5 4 3 4 条不适合的专指 词,但它仍然存在一些局限性。 ( 1 ) 汉语主题词表的分类原则未必同用户的分类需求完全一致。我们在语 料中获取到“经济作物”词汇成员“向日葵”,但在汉语主题词表中,“向 日葵”并未归属到经济作物类,在汉语主题词表的词族索引中是这样划分的( 用 点的数目表示所属的等级层次) : 作物( 族首词) 经济作物 油料作物 向日葵 ( 2 ) 由于新词语的不断涌现,尤其是一些新兴的学科和科技词汇,汉语主题 词表不可能完全收录,如:在汉语主题词表范畴索引中 5 8 c 计算技术、计算机 5 8 c b 程序系统 a l g o l 语言 a p l 语言 c o b o l 语言 在5 8 c b 中列出的只是一些最初开发的编程语言,而计算机这一学科发展速度 是惊人的,高效率的编程语言不断推陈出新,如:s u a lc + + ,d c l 口l l i 等。 3 3 基于语料库的领域术语获取 为了弥补上述手动选取领域术语的不足,提出了一种基于语料库的方法建立特 定领域术语词典,提高了词典质量,扩大了覆盖率,解决了以往手工选取的问题, 利用计算机自动选取领域术语。它的一个最大特点是不需要事先经过语义标注的资 源,只需给出对应于某特定领域的生语料即可。 利用该方法获取专业术语的途径主要有两种: ( 1 ) 通过经人工选取或经学习得到的专业核心术语( 有代表性的专业术语) , 从语料中获取其它专业词汇。这种途径是基于这样一种认识:相同语义类名词经常 共现,它们通常由连词、标点符号相隔构成一个序列或以同位语的形式出现。如: “主要经济作物”包括棉花、油菜、糯玉米和蔬菜。 ( 2 ) 对在语料中出现的专业核心术语学习其核心模式( 核心词出现的上下文) , 利用学到的核心模式进一步识别更多的专业术语。下面介绍几种已有的利用语料库 进行领域术语获取的方法: 3 3 1 利用种子词获取新的领域词汇 该算法1 2 3 】的目标是依赖事先选定一定数量领域词汇构成的种子词集,从大规模 顾士学住论文 m a s t e r st h e s i s 无标注真实语料库中,自动获取新的领域词汇,基本思想是和种子词在同一句子里 同现频率很高的词或者短语一般都是领域词汇,然后再采取一定的标准进行评价获 得新的领域词汇,然后将它们加入种子词集继续学习,如图3 1 所示。 图3 1 基于种子词的领域术语获取方法图 主要步骤: 对语料进行预处理,主要包括断句、分词和词性标注; 构造候选词集矿; 对候选词集进行评价: a 初步评价,从彤选择符合初评价标准的词加入w ,1 ; b 停用词过滤得到新的候选词集耽; c 再评价,用评价公式进行评价矸2 中的每一个w ; d 选择符合要求的w 作为领域词汇,加入种子词集sn e w ; 新的种子词集s = sus n e w ,转到。 3 3 1 1 对语料库进行预处理 利用的分词程序对选择的语料库进行预处理,进行分词和词性标注,然后根据 手工建立的种子词表进行种子词标注,即标记出所有已知的领域词汇。 3 3 1 2 构造候选词集 一般认为:如果一个词经常和某领域的领域词在一个句子上下文中共现的话, 那么这个词也可能是该领域的领域词。这里对经过预处理后的语料库进行统计,以 一个句子为统计单元,对所有与种子词在同一个句子里同现的名词和动词进行词频 统计。以下是一些参数的定义: ( 1 ) 频数,w :表示在整个语料中包含词,的句子数,在这里,无论在同个 句子里w 出现多少次,都只记为1 次。 ( 2 ) 共现频数凡d ;对于包含有种子词集d 中的任意元素d 句子统计其中w ( w 为名词或者动词) 的出现次数。 ( 3 ) 频数f d :表示在整个预料中包含d 中任意元素d 的句子数,d 中元素 d 不管在同一句子中出现多少次,都只记为1 次。 3 3 1 3 评价与选择 评价与选择是对候选词集w 中的每一个词w 进行评价,然后根据评价标准选 择合适的词作为新的领域词汇加到领域词集中去。 ( 1 ) 初步评价 条件:f w ,d ,f w r m i n 这里把r = f w ,d f w 称为w 的可信度,如果r 越大则认为w 为领域词的机会也越大,在实验的时候依据经验给出一个阈值r m i n , 凡是大于该阈值的都初步认为其为领域词汇,构成新的候选词集w 1 。 ( 2 ) 过滤停用词 所谓停用词是指那些词频过高、没有实质意义的词,或者那些词频很低、不能 代表文本主题的词。从小规模语料的学习结果发现经过初次评价得到的候选词集含 有大量的关系动词等停用词,因此需要在这个基础上进行停用词过滤,进而得到新 的候选词集w 2 。 ( 3 ) 最终评价 评价公式,如下所示: m w = l o 盟f ( w ,d ) f ( w ,d ) f ( w ) ( 公式3 1 ) 其中,w 表示词,m w 值越高,表示w 是领域词的可能性越大。选择所有 m w m m i n 的w 作为领域词汇,加入种子词集。 3 0 。2 利用领域相减法进行领域术语选取 该方法1 2 5 j 的核心思想是根据领域术语在特定领域出现高频率以及在其他领域 出现的低频率来自动方法该领域的术语。 主要步骤: ( 1 ) 确定待提取术语的领域,称作待处理领域; 1 4 硕士学位论文 m a s t e r st h e s i s ( 2 ) 选定一个在术语使用上与待处理领域区别较大的领域,称作对照领域; ( 3 ) 计算各领域词语的流通度; ( 4 ) 对两个领域内词语流通度相减,确定阈值,去除一般词语,得到处理领 域的候选术语表; ( 5 ) 重复步骤( 1 ) 至( 3 ) ,直到去除的一般词语数量极少时停止: ( 6 ) 利用其他手段进一步缩小候选术语表的范围。 3 3 2 1 语料的选取和领域的确定 实验选取信息技术领域语料进行手工术语提取,作为标准答案。选取理论语言 学作为对照领域,选取信息技术领域和理论语言学相同字数的语料进行实验。 3 3 2 2 领域相减方法 对信息技术领域和对照领域的语料进行分词,按照频率排序,减去相同的部分, 得到候选术语集,与手工做出的答案相比,得到召回率和正确率。 领域相减是在对语料进行简单操作后进行的,所以准确率和召回率相对较低。 如果扩大两个领域的比较范围,则随着召回率的升高,准确率相应下降。但是由此 可以得到一个比较小的候选术语文中的实词和各类专名,不同类的项目对应不同的 数据结构( 以及共同的一些信息) ;原文中每个句子的句法、语义分析结果都被保 留,组成全局信息表的一部分。 3 3 3 利用上下文进行领域术语选取 基本思想【2 6 】是根据领域核心词在真实语料中出现的位置从中抽取同类术语,并 精选可信度高的术语加入到领域术语词典中,同时学习词典中领域术语的核心模 式,利用这些模式获取更多的领域术语。 主要步骤: ( 1 ) 初始核心词汇的选取:将在语料库中出现频率最高的中心名词作为初始 核心词汇,最终确定由人来干预,以免选取出不适当的词汇影响算法效率。 ( 2 ) 抽取出在真实语料中包含核心词的句子,对它们作预处理分词、词性 标注、简单的句法分析( 只分割为简单的名词短语、动词短语、介词短语等) ,并 初始化核心模式集为空。 ( 3 ) 将经过预处理的文本和核心词作为算法的输入。 ( 4 ) 确定核心词的上下文窗口抽取与核心词共现的同类词汇,共现限制于在 一个名词短语中、以及由标点符号和连词分隔的名词中,这些词汇并非一定为专业 词汇,我们暂时称其为准专业词汇。若模式集不为空,还需在文本中查找匹配的模 式获取词汇。 ( 5 ) 学习核心词出现的核心模式,由人工干预进行。 ( 6 ) 对第( 4 ) 步抽取出的准专业词汇计算分值,选取可信度高( 分值高) 的 词作为专业词汇加入到专业词汇词典中,这些词汇将作为下一轮循环的核心词
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 芒硝矿堆场管理制度
- 英超俱乐部管理制度
- 荆门分级式管理制度
- 财务会计关键练习题及答案
- 设备技术要求
- 幼儿园安全教育主题家长会课件
- 2025年Android-一线大厂面试总结
- 期末应用题专项训练:三角形(含解析)-2024-2025学年数学四年级下册人教版
- 建筑施工特种作业-建筑起重机械司机(物料提升机)真题库-1
- 入世出世遁世题目及答案
- 2025年上海国企中铁十五局集团有限公司招聘笔试参考题库含答案解析
- 2025电梯年检项目整改合同田王
- 2025年自然灾害预防与应急处理安全培训考试试题汇编
- 土地确权确权合同范本
- 食品检验员持证上岗培训课件
- 临床教学师资培训
- 医疗器械相关压力性损伤预防
- GB/T 21369-2024火力发电企业能源计量器具配备和管理要求
- EHS培训(环境因素、危险因素识别)
- 2025年全国保安员职业技能上岗证考试题库(含答案)
- 妊娠剧吐的心理护理总结
评论
0/150
提交评论