(语言学及应用语言学专业论文)现代汉语新词提取研究.pdf_第1页
(语言学及应用语言学专业论文)现代汉语新词提取研究.pdf_第2页
(语言学及应用语言学专业论文)现代汉语新词提取研究.pdf_第3页
(语言学及应用语言学专业论文)现代汉语新词提取研究.pdf_第4页
(语言学及应用语言学专业论文)现代汉语新词提取研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 现代汉语新词提取研究的目的是从文本中自动识别并提取出新词,也是中文信息处 理中未登录词识别的一种特殊情况。随着社会的发展,新词大量涌现,新词的识别和提 取研究就越来越受到人们的重视。作为在中文信息处理中具有关键性作用的分词技术的 重要环节,现代汉语新词提取具有重要的研究意义。 目前,语言学家对现代汉语新词研究的许多成果都无法直接在计算机上实现,仅有 有限的构词规则能运用到新词识别当中去。而基于统计的方法力图用成词概率、互信息 等大量词语的统计特征来进行新词识别,但是统计得出的规律受所用语料的影响较大, 很难反映出新词结构的真正特点和本质规律。因此,新词识别和提取仍是有待解决的难 题。 本文尝试把新词的提取分成两个阶段:新词语素的识别:含新词语素的新词提取。 针对不同阶段的特点提出相应的方法:首先,提出了基于决策树的新词语素识别,把新 词语素识别看作一个二值分类问题,选取单字成词概率、单字词性等作为描述属性,用 c 5 算法构建决策树;然后,在找到新词构词语素的基础上,借鉴新词构词法研究的成 果,分别构造二字新词和三字新词的构词规则,利用规则提取出二字和三字新词。实验 证明,这种新词提取的方法是可行的。 关键词中文信息处理未登录词识别新词提取新词语素识别决策树 a b s t r a c t a b s t r a c t t h es t u d yo nt h ee x t r a c t i o no fn e ww o r d si nm o d e mc h i n e s e ,w h i c hi sa s p e c i a lc a s eo f i d e n t i f y i n gu n k n o w nw o r d si nc h i n e s e i n f o r m a t i o n - p r o c e s s i n g ,i st or e c o g n i z et h en e ww o r d s a n de x t r a c tt h e ma u t o m a t i c a l l y w i t l lt h ed e v e l o p m e n to ft h es o c i e t y , n e ww o r d se m e r g e 晰廿1 ag r e a ta m o u n t ,a n dt h er e c o g n i t i o na n de x t r a c t i o no ft h en e ww o r d sg a i n sm o r ea n dm o r e a t t e n t i o n t h ee x t r a c t i o no fn e ww o r d si sa n i m p o r t a n ts t e p i n t h e c h i n e s e i n f o r m a t i o n - p r o c e s s i n g ,a n do b v i o u s l y ,i t ss t u d yi sm o r em e a n i n g f u lt oo u rp r a c t i c a l a p p l i c a t i o n s b yn o w , f e wr e s u l t so nt h es t u d yo ft h el i n g u i s t i ch a v eb e e nr e a l i z e do nt h ec o m p u t e r p r o c e s s i n g ,e x c e p t t h a to n l yaf e wr u l e sa b o u tw o r df o r m a t i o nh a sb e e n u s e di nt h e r e c o g n i t i o no ft h en e ww o r d s m o r e o v e r , t h ea p p r o a c hb a s e do nt h es t a t i s t i c sr e l i e so nt h e f e a t u r eo fs t a t i s t i c s ,s u c ha sp r o b a b i l i t yo fw o r d - f o r m a t i o n ,m u t u a l - i n f o r m a t i o na n ds oo n ,t o r e c o g n i z et h en e ww o r d s h o w e v e r , t h er u l e sb a s e do nt h es t a t i s t i c sa r ei n f l u e n c e db yt h e q u a l i t yo ft h ec o r p u s ,a n dt h e ya l eq u i t ed i f f i c u l tt ob eu s e df o rr e f l e c t i n gt h et r u e c h a r a c t e r i s t i ca n dt h ee s s e n t i a ll a wo ft h es t r u c t u r eo ft h en e ww o r d s t h e r e b y , i tr e m a i n sa d i f f i c u l tp r o b l e mw h e ni n v o l v e dt ot h er e c o g n i t i o na n de x t r a c t i o no fn e ww o r d s i nt h et h e s i s ,w ea t t e m p tt od i v i d et h ew h o l ep r o c e s so ft h ee x t r a c t i o no fn e ww o r d si n t o t w os t e p s :t h er e c o g n i t i o no ft h em o r p h e m eo fn e ww o r d sa n dt h ee x t r a c t i o no fn e ww o r d s w i t ht h em o r p h e m e a na p p r o a c hi sp r e s e n t e dc o r r e s p o n d i n gt oe a c hs t e p i nt h ef i r s ts t e p ,w e p u tf o r w a r da na p p r o a c hb a s e do nt h ed e c i s i o nt r e ef o rt h ei d e n t i f i c a t i o no ft h em o r p h e m eo f n e ww o r d s m o r es p e c i f i c a l l y , w er e g a r dt h ei d e n t i f i c a t i o no ft h em o r p h e m eo fn e ww o r d sa s ab i n a r ys e g m e n t a t i o n ,c h o o s et h ew o r df o r m a t i o np r o b a b i l i t yo ft h es i n g l ew o r da n dt h ep a r t o fs p e e c ho fi ta st h ea t t r i b u t i v ed e s c r i p t i o n s ,a n df o r mt h ed e c i s i o nt r e e 晰廿lt h ec 5a l g o r i t h m i nt h es e c o n ds t e p ,b a s e do nt h er e s u l to nt h es t u d yo ft h ef o r m a t i o no ft h en e ww o r d s ,w e o b t a i nt h er u l e so ft h ef o r m a t i o no fn e ww o r d so ft w oo rt h r e ec h a r a c t e r s ,a n da p p l yt h e mt o e x t r a c tn e ww o r d so ft w oo rt h r e ec h a r a c t e r s t h ee x p e r i m e n t a lr e s u l ts h o w st h a tt h em e t h o d o fe x t r a c t i n gn e ww o r d si sp r a c t i c a l k e yw o r d s :c h i n e s ei n f o r m a t i o np r o c e s s i n g ;i d e n t i f i c a t i o no ft h eu n k n o w nw o r d s ;e x t r a c t i o n o fn e ww o r d s ;i d e n t i f i c a t i o no ft h em o r p h e m eo fn e ww o r d s ;d e c i s i o nt r e e 河北大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 它人已经发表或撰写的研究成果,也不包含为获得河北大学或其它教育机构的学位或 证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了致谢。 作者签名:荔幽缂日期:竺! z 年 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向 国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以 公布论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存论文。 本学位论文属于 l 、保密口,在年月日解密后适用本授权声明。 2 、不保密口。 ( 请在以上相应方格内打“”) 作者签名:筮堡ij 晕日期:俎年上月! 至日 导师签名:j 显:玺盔一一日期:2 血卜年月竺二日 第1 章引言 1 1 研究背景 第1 章引言 现代汉语不同于英语等西方语言,其书面形式是分旬连写的,只有句与句之间有显 性的标点符号作为分隔标记,词与词之间没有显性的分隔标记。因此,在汉语信息处理 的过程中,通过“分词 的手段将文本中连续的汉字串切分成词串就显得非常重要。汉 语分词的两种基本方法是最大匹配分词法和最大概率分词法。 最大匹配分词法进行分词的过程很简单,首先准备一个分词词表( 也称词典) ,顺 序扫描待分词的句子,将句中候选词按照词长从大到小的顺序依次与词表中的词进行匹 配,匹配成功就作为一个词输出。用这种方法分词,词表中可以不收录单字词,如果一 个句子中的多字候选词跟词表中的所有词都匹配不上,自然就只能把单字词当作分词结 果输出了【。 最大概率法分词的基本思想是:一个待切分的汉字串可能包含多种分词结果;将其 中概率最大的那个作为该字串的分词结果输出【l 】。对于一个待切分的汉字串,每一种分 词结果的概率尸( 叨都可以用元概率模型来求,其中最为简单直接的就是一元概率模 型。这种模型就是将候选的词串形中的各个词看作互不相干的独立事件,以每个候选 词的概率乘积来求得整个词串的概率。通过比较每一个候选词串的概率值,选择最大的 作为分词结果输出。 在对现代汉语进行分词的过程中,会遇到两个主要问题,即歧义问题和“未登录词 ( u n k n o w nw o r d ) 的问题。尤其是未登录词问题,可以说是开放的语言系统无法避免的。 随着自然语言信息处理系统开始面向大规模真实文本,未登录词的识别问题开始引起越 来越多的关注。对计算机分词而言,“未登录词”指的是分词系统的词典中没有收录而 在真实文本中出现的词。未登录词可以分为专名和非专名两大类。专名包括人名、地名 等,非专名包括新词、简称、方言词语、文言词语、行业用词、港台用词等 2 1 。很多的自 动分词系统把不能识别出来的未登录词切分成了一个个的单字或较短的字串,使分词结 果中出现许多分词碎片,影响了分词结果的准确率。因此,未登录词的识别研究成为汉 语信息处理研究中一个非常重要的课题。 河北大学文学硕士学位论文 解决未登录词识别问题的策略主要有:尽可能多地收集词汇,以降低遇到未登录词 的机会;通过构词规则和上下文特征规则来识别;通过统计的方法来猜测经过一般的分 词过程后剩下的“连续单字词碎片是人名、地名等的可能性,从而识别出未登录词【l 】。 本研究中的新词就是未登录词中的一类。现代汉语新词提取研究的目的就是从文本 中自动识别并提取出新词。目前关于未登录词识别的研究,集中在专名上,非专名的未登 录词识别问题未引起足够的重视;在真实文本中,非专名的未登录词占相当大的比例【2 1 。 尤其是未登录词中的新词,随着社会的进步和发展,持续大量涌现。据商务印书馆词典 研究中心统计,每年出现约1 0 0 0 个汉语新词。如果自动分词系统无法识别这些新词, 就会将新词切分成更短的字词形式或单字串,使分词结果中出现大量的分词碎片。因此, 文本中存在的大量新词已经成为影响汉语自动分词正确率的一个关键因素,也同时影响 到了对文本的进一步处理。 如果自动分词系统能将新词识别出来,或是我们将提取出来的新词加入到分词系统 的词表中去,在自动分词过程中就可能将它们正确切分出来,提高分词的准确率,也有 利于下一步的句法分析。由于一些新词在真实文本中反复的出现,而且很多新词在文本 中都是非常关键的词,一个中文信息处理系统能否将不断出现的大量新词自动识别出来 会直接影响到系统的整体性能。因此新词的提取对于文本分类、信息检索、自动摘要、 机器翻译等都有着非常重大的意义。 另外,新词的自动提取对于词典编纂者来说也是很有帮助的。因为迄今为止我们还 没有完全发现新词产生的规律,还不能预测到哪些新词将会出现,而只能从海量真实文 本中去寻找它们。目前,词典编纂者寻找新词语主要是用“勾乙 的方法,就是手工从 各种出版物中挑选出新词语,记录在卡片上,经过汇总、筛选和仔细考察,最终确定把 哪些词条作为新词收入词典【3 1 。这种方法虽然能够做到准确,但效率却很低。如果能够 利用计算机从大规模真实文本中自动提取出候选新词语,再交由人工进行筛选,从而最 终确定哪些可以作为新词编入词典,就可以减轻词典编纂者的负担,大大提高工作效率, 减少人工查寻新词的劳动量。 2 第1 章引言 1 2 新词提取研究的困难及其现状分析 在未登录词识别研究中,人名、地名等未登录词由于可以找到比较明显的特征,可 以用统计方法或通过在上下文寻找特征标记,借助建立专门字库和使用规则等方法,取 得较好的识别效果【4 】【5 】网8 】【9 】【1 0 】【l l 】。文献【4 】就是利用姓氏和名字用字频率等资源,结合 称谓词和简单上下文,进行中文姓名的自动辨识,召回率达到了9 9 7 7 。文献【5 】在进行 中文姓名识别时,利用姓名用字的使用频率,在大规模语料库的基础上动态地建立了姓 名识别统计数据表和姓名识别阈值,通过评价函数在不进行自动分词的原始文本中作中 文姓名识别,召回率为9 5 2 3 ,精确率为8 7 3 1 。文献【1 0 】使用从大规模地名词典和真 实文本语料库得到的统计信息以及针对地名特点总结出来的规则,通过计算地名的构词 可信度和接续可信度从而识别中文地名,召回率和精确率分别为9 0 2 4 和9 3 1 4 。现 代汉语新词同人名、地名等专名相比较而言,没有太明显的形式上的特征,也没有明显 的上下文特征标记,能构成新词的汉字数量也比较多,因此新词的识别和提取显得困难 得多。 目前,国内外研究现代汉语新词提取的文献有很大一部分将所有的未登录词都看作 是新词。现有的新词语自动检测的研究,以命名实体类居多,在汉语的命名实体识别研 究中,又以人名、地名、音译名识别率较高,准确率和召回率都可以达到9 0 以上。机 构名构成规律较为复杂,识别准确率和召回率较低一些。其他类型的命名实体研究很少, 识别率更低。至于其他类型的新词语自动检测的研究就更少【1 2 】。已有的文献中通常采用 两种基本方法识别新词,即语言学方法和统计学方法。 文献【1 3 】在对加工过的网上文本语料进行统计的基础上,根据汉语构词法建立规则 库,通过调用“互斥性字串 过滤规则( 过滤掉含有明显不成词成分的字串) 和构词规 则( 规则的获取主要靠人工) 来确定新词语。设计并实现了网络新词语的自动识别实验 系统,经封闭测试,准确率为9 1 2 ,召回率为9 5 。可见,将构词规则运用到新词识 别中,会起到很好的效果。 文献【1 4 3 提出了中文信息处理中关于单字构词方式的基本问题,考察了对于这个问题 的研究和应用情况,认为现有的统计性结论在未登录词处理中对于揭示单字构词的规律 缺乏有效的作用。究其原因,一是这些结论体现的是语素组合成词之后的结构性质,而 不是组合过程中的规律;二是这些调查统计遵循以句法为本的观点,而合成词的结构方 3 河北大学文学硕士学位论文 式主要是意合,按照意合的构词观点,语素组合成词的过程要受多种语言要素和非语言 因素的制约。文章认为目前还只能运用不完备的构词知识识别未登录词,并且给出了一 组构词规则的工程化应用实例。 文献【2 】提出了两趟分词,并在分词碎片中通过计算单字成词概率和未登录词概率来 识别未登录词。小规模开放测试( 一篇7 0 0 字左右的文章) 召回率1 0 0 ,准确率8 5 7 。 采用单纯统计的方法来识别所有的未登录词,也能取得较好的效果。 文献【1 5 】利用两种统计数据:一是单字的单独成词概率m p ( c ) ,二是单字以某种词 性出现在某一长度词的某一位置的概率p ( c a t , p o s , l e n ) 。当一个字符串可能是单字串的 频率r o b ( s ) 超过一定的阈值,则该字符串作为单字串;如果小于该阈值则为候选新词的 字符串。然后通过计算p ( c a t , p o s , l e n ) 来推断候选字符串的词性。这种方法同时解决了 新词识别和新词的词性标注,为下一步的句法分析奠定了良好的基础。 文献【1 6 1 ,从网络上下载语料构建语料库,然后采用统计的方法使用互信息和 l o g 1 i k e l i h o o dr a t i o 两个参数的改进形式在语料中进行多字词识别。将从语料中识别并提 取出的词同词表中的词进行比较,如果提取出的多字词没有包含在词表中,则认定为新 词。这种方法可以通过控制参数的值,来控制准确率和所抽得的实际新词的数量,能够 满足不同目的新词的识别需要。 文献【1 7 】使用了基于s v m 分类器的统计学习方法,利用单字组词概率、新词和词典 词的类推、相对不成词词表、文本词频等特征来构建分类器,从而识别和提取新词。实 验结果对二字新词的识别准确率和召回率分别达到5 6 和7 5 。可见,综合利用新词的 统计特征和语法特征能起到很好的效果。 文献【3 】利用规则与统计相结合的方法提取新词,依据一个底表对文本作自动分词, 然后从分词碎片中提取待识别字串,接着通过全排列子串重叠过滤、姓名识别、噪声字 串过滤和构词规则识别的多步骤处理,最终得到一个候选的新词语表。文献【1 8 】【1 9 】也是利 用统计共现频次、出现频率等数据获得候选字串,再通过建立规则知识库,用规则对候 选字串进行过滤,最后获得新词。将基于统计的方法和基于规则的方法相结合,可以综 合发挥两种方法的优点,避免单独使用一种方法导致的诸多问题,这应该是新词识别和 提取研究的一个正确方向。 4 第1 章引言 | 量曼曼曼量曼曼曼鼍曼鼍舅舅鼍皇皇曼置曼曼曼曼曼量量舅曼曼曼曼曼曼曼曼曼鲁拿量量曼曼曼曼曼曼曼曼皇曼曼曼鼍曼i i i i i 皇曼曼曼曼曼皇曼曼皇皇皇曼曼舅曼曼量曼量皇量鼍蔓 文献【2 0 1 1 2 1 1 提出了一种基于语料库的学习方法来提取新词。文献【2 1 】把新词的识别分 成探查、抽取、修正三个阶段。针对分词后的碎片,利用从语料库中得到的大量规则, 判断碎片中的单字是单字词还是构词语素。将判断为构词语素的单字及其前后字词作为 寻找新词的范围。用这种方法可以识别构成新词的语素可以达到9 6 的召回率( 即有 9 6 的新词它们的所有或一部份构词语素被找到) ,精确率达到6 0 。在此基础之上, 文献【2 1 】利用语法规则和统计规则抽取新词,文献阎利用自底向上的合并算法将构成新词 的语素进行合并,提取出新词。 总之,目前研究新词识别和提取的文章,有单独采用基于规则的方法的,有单独采 用基于统计的方法的,也有二者相结合的。不同的研究者通过实验所得出的新词识别的 准确率和召回率存在着比较大的差别。这不仅仅与采用的方法不同有关,也同实验所选 取的训练语料和测试语料有着很大的关系。 在新词识别中,语言学方法倾向于从语义的角度解释新词产生的规律,属于定性的 方法,所得到的结论难以形式化,在计算机上实现起来比较困难。迄今为止还没有一个 关于“词”的完整、准确、所有人认同的定义,也没有一套切实可行的标准和操作程序 来判断一个字串是否是词。语言学家在判断时也要依靠“语感”。因此,只能尽量从定 量的角度描述某些构词规则,使之具有可操作性。 统计学方法是以统计规律为基础,试图从词语的使用规律中把握新词的构造规律。 但由于统计方法本身的局限性,很难全面正确地揭示这一规律。而且统计规律受统计资 料的影响非常明显,对不同类别的语料统计所得到的结论往往不尽相同,甚至互相冲突。 另外,统计资料的规模也会影响统计结果。 结合使用语言学方法和统计学方法往往能够取得更好的效果,因此近年来一些统计 学方法和规则方法相结合的汉语信息处理系统逐渐成为研究的热点。只是以统计方法为 主还是以规则方法为主,或者在什么时机使用什么方法还需要进一步的探讨【3 】。 1 3 研究内容 现代汉语新词提取主要是从文本中发现机器词典没有收录的新词。在没有新词识别 能力的分词系统中,文本中的新词通常会被切分成包含单字的碎片。因此我们利用已有 的分词系统对文本进行切分,针对分词结果中的分词碎片进行新词提取。分词碎片中的 5 河北大学文学硕士学位论文 哪些字能组合成新词以及如何组合成新词,决定因素是多方面的,在提取新词的过程中 应该综合利用语言学知识和统计信息。 1 3 1 现代汉语新词分析 虽然在词汇学研究和汉语信息处理研究中,人们对新词的界定并不一致,但在新词 提取过程中充分利用语言学界对新词研究的成果,还是会有很大的帮助作用。 语言的词汇系统在不断的发展和变化,汉语中的新词也可以说是无法穷尽的。使用 汉语的人用组字成词的方式创造新词,根据这样的认知途径,汉语信息处理系统把单字 作为基本资源,寻找它们组合成词的规律,用来识别和理解未登录词【1 4 1 。 通过对新词造词法、构词法等的分析,探索新词产生和结构方面的规律、特征,可 以为新词的提取研究提供一些指导。 1 3 2 分词碎片分析 文本中的新词会被某一分词系统切分成碎片,但并不是所有的分词碎片中就一定包 含新词。对出现在分词碎片中的各种情况进行分析,统计具体的数据,为从碎片中发现 新词堤傅依楗 q ,ro 一、- l ,、i ,、一ho 1 3 3 新词构词语素识别 分词碎片中的每个汉字或者是单字词:或者是可能构成新词的单字语素;也有可能 既不是词也不是语素( 这种情况在文本中出现的很少) ,而只是一个汉字( 非语素字) , 这个字是新词的一部分或者是单独来使用的。因此,我们可以把碎片中的单字分成两种 情况,一种是单字词或单独使用的字,在这里通称为单字词;另一种是构成新词的语素 或成分,在这里通称为新词语素。这样我们可以把单字身份的确定看作是一个二值分类 问题,看分词碎片中的单字是单字词,还是构成新词的语素。 决策树是数据挖掘中的一种常用方法,是解决分类问题的一种有用工具,而识别新 词语素的工作可以转化为某种分类问题,从而可以利用决策树构造分类器,帮助解决新 词识别问题。 6 第1 章引言 1 3 4 新词提取 在找到新词构词语素的基础上,新词提取工作的重点就是看这些语素如何组合成新 词。对新词的统计分析,所能反映的毕竟只是它的表面现象。语素组合成词是应该符合 一定的语言学规则的,要想探寻新词构成的根源,还是要从语言学研究入手。语言学研 究的成果有时很难直接在计算机上实现,给新词提取带来一定的困难。本文在对新词进 行语法分析的基础上,构造构词规则,利用这些规则提取由新词语素参与构成的新词。 1 4 文章组织 本文将现代汉语新词提取分成了新词语素识别和新词提取两个过程,提出了基于决 策树的新词语素识别方法,在新词提取过程中综合运用了语言学知识和统计信息。全文 的组织结构如下: 第章引言。 第二章现代汉语新词分析。主要是对新词进行乔定,对新词造词法、构词法的分 析,为新词提取提供语言学支持。 第三章分词碎片的统计分析。主要对分词碎片中的各种情况进行全面的统计分析, 为在碎片中提取新词提供依据。 第四章基于决策树的新词语素识别。主要论述决策树的构建,利用决策树来判断 分词碎片中的哪些单字可能是构成新词的语素,哪些单字可能是单字词。 第五章基于规则的新词提取。主要论述了从含有新词语素的碎片中,利用二字词 构词规则、三字词构词规则和过滤规则,提取出二字和三字新词。 第六章实验和结果分析。 第七章结论与展望。 7 河北大学文学硕士学位论文 2 1 新词的界定 第2 章现代汉语新词分析 2 1 1 语言学研究中对新词的界定 在语言学研究和汉语信息处理研究中对新词的界定是不完全相同的。词汇学研究中 一般使用“新词语 这一概念,它既包括新词又包括新语。“新词语 一般指的是为了 适应社会生活的变革和科学文化发展的需要,利用已有的构词材料,按照汉语的构成规 律新创造出来的词和语。但根据实际情况来看,还有些词语,就外部形式来看并不是新 的,只是在新的历史时期,原有的意义发生了变化,或增加了新的义项,或多义词的非 常用意义变为常用意义。如“包装”,原来仅指包装商品的东西或行为,现也用来指人 的形象设计等等。又如“族”,过去主要取现代汉语词典中所列的第和第义项, 用于家族、民族。如今第义项的用法频率颇高,即表示事物有某种共同属性的一大类。 例如“追星族 、“上班族”、“打工族 、“休闲族 等等【2 3 1 。 文献【矧认为新词语是指通过各种途径产生的,具有基本词汇没有的新意义、新用法 的词语或新的构成形式。新词语的产生途径除了通过造词法产生具有新的词形的新词之 外,还有以下几种途径:新外来词语的吸收、旧词语的复活、旧词语的新义新用、方言 词语的吸收【2 5 】。新词语要突出一个“新”,这个“新 是个相对概念,即相对于基本词 汇而言,并有一定的时限性。具有新意义和新用法或新的构成形式是其基本条件,总的 说或者是有新义,或者有新形式。大致有以下几种情形:( 1 ) 旧形式( 旧词) 装新义,包 括旧词新用、从方言进入普通话的词汇、进入普通词汇的术语等;( 2 ) 新形式装新义, 包括完全新创造的词、外来词等;( 3 ) 新形式代表旧意义,包括简称、为了追求新鲜而 创造的新说法等。 2 1 2 汉语信息处理研究中对新词的界定 在汉语信息处理研究中,人们在研究新词识别和提取时对新词范围的界定也不完全 相同。文献【2 q 认为新词( n e ww o r d ) 和未登录词( u n k n o w nw o r d ) 是一样的,并且把新 词的识别当作分词过程的一部分,将识别出来的新词加到词典中去,提高分词的准确率。 8 第2 章现代汉语新词分析 文献【2 7 1 在研究新词识别时,将数字、日期、时间、人名、地名等等,都看成新词,并采 取了不同的策略进行识别。有的研究者认为新词只是未登录词中的一部分。文献【l 】【2 8 1 都 将新词作为未登录词中的一部分,是和未登录词中的专名、术语、缩略语等并列的一类。 文献【2 9 】【3 0 1 将新涌现的通用词和专业术语都看作新词。文献【1 7 1 认为新词是未登录词中除 去语法派生词( m o r p h o l o g i c a l l yd e r i v e dw o r d s ) 、命名实体( n a m e de n t i t i e s ) 、仿真陈述 词( f a c t o i d s ) ( 包括数字、日期、时间等等) 之外的那部分词,新词从语义角度可以分 成两类:一是特殊领域的概念,如“非典 、“抽射”、“草菇 等,二是缩写词,如“网 协 、“执委 、“婚检 等。 不管是哪一种看法,在汉语信息处理研究中,新词的界定是离不开“未登录词 这 一概念的。而“未登录词 又和机器词典的大小有着密切联系,对于使用不同机器词典 的分词系统来说,某一文本中的未登录词和新词数量是不一样的。机器词典越大,未登 录词和新词的数量就相对越少,如果机器词典大到能收录真实文本中所有的词语,那么 就不会有未登录词和新词了;机器词典越小,未登录词和新词的数量就会越多,如果某 一文本中的所有词语都无法在机器词典中找到,那么这一文本中的所有词就都是未登录 词或新词了。 2 1 3 汉语新词提取研究中对新词的界定 在这里,我们并不是要确定谁对新词的界定更合理,本研究中对新词的界定也是区 别对待的。在对新词进行语言学角度的分析时,还是遵照一般语言学研究中对新词的界 定,将新词看作是按照汉语的构词规律,利用已有的构词材料,创造出的具有新的构成 形式的词。在提取新词的过程中则把新词看作未登录词的一部分,是指非专名中的那些 按照汉语构词规律创造出来的,具有新的构成形式的普通词。 根据新词的构成方式,本文研究的新词可以分成以下几类: 缩写词,如“非典( 非典型性肺炎) 、“援非( 援助非洲) 。缩写词是选取了 原来词或短语中的几个字组合成新词,表示原来词或短语的含义。使用词语中的哪些字 构成新词,没有什么特定的规则,很多的时候只是一种约定或者习惯,所以缩写词的识 别是很困难的。 9 河北大学文学硕士学位论文 派生词,如“品牌化”、“经营性”、“科普型”。这类新词有比较明显的特征,都 含有前缀或后缀等词缀语素,属于附加式的合成词。 复合词,如“比拼”、“短信 、“看点”。复合是语素合成新词的一种主要方式, 复合词在新词中的量也最大。现代汉语中很多的自由语素和粘着语素都可以参与构成复 合词,因此这一类新词的识别也是很困难的。 单纯词,如“二恶英 、“肯德基 。这类新词中的单字与词的意义没有什么联系, 音译词就属于这一类。 在本研究中只针对那些具有新的构成形式的新词,旧词新义新用并未产生新的词 形,因此这一类词形已经存在于机器词典中的“新词 ,并不在我们新词提取研究的范 围中。由于机器词典收词量有限,对于真实文本中那些没有收录到我们机器词典中的 “新词 ,有的从词汇学角度来看并不是真正的新词,在本研究中仍然把它们当作新词 来处理。 2 2 新词的造词法分析 造词法也被称为“构辞法 、“词汇衍生方式 ,它是从词汇学的角度去研究新词, 和语法学研究的“构词法是有区别的。造词就是运用什么样的材料、什么样的方法来 创制新词,它是就词产生的动态过程来说的,着重考察词语创造时所运用的手段。构词 是就既有的词的结构所作的平面化的、静态的描写和分析。 汉语词汇的衍生方式( 造词法) 主要分为四种:音义相生、语素合成、语法类推、 修辞转化。音义相生是指在已有的音义组合的基础上用相近或相关的语音来表示一个相 近或相关的意义,用音义相生的办法来衍生语词,应该是盛行于上古汉语的,这种方法 主要是针对单纯词的形成而言。上古后期兴起的语素合成,到了中古汉语成了主要的词 汇衍生方式,到了现代还是汉语词汇滋生的基本方式。语法类推指的是运用虚化的语法 成分来构成新词,语法类推的词汇衍生方式包括“词缀的附加”和“实词的虚化两种 基本形式,此方式酝酿于上古,兴起于中古,发展于近代,现代汉语时期有所扩展。修 辞转化即经过修辞加工的多音词或作为词用的固定词组,它们的词义及词形都是经过适 当修饰的,从词义的整合上说,上古就有了,词形的加工则历经流变【3 1 1 。 文献【3 2 】运用了上述的造词法系统对新词语的造词法进行了分析,认为现代汉语新词 1 0 第2 苹现代汉语新词分析 语在产生过程中用到了以上各种造词方法;通过对1 0 4 9 8 条新词语的分析,认为利用具 有实义的语素来创造新词语的语素合成法是最强的主流造词方法,它产生的新词数量占 所考察的新词总量的8 1 2 7 。 我们也用这四种造词法对3 1 7 3 个新词进行了分析。这些新词全部来源于自建的语 料库。从2 0 0 6 年的人民日报光明日报北京青年报中选用了共计1 9 8 万字的 语料构建语料库,以此作为训练语料。使用中国科学院计算技术研究所研制的汉语词法 分析系统i c t c l a s ,对语料进行分词和词性标注,然后人工进行新词标注,得到这些 新词。分析结果见表1 。 表1 新词造词法统计表 通过分析可以看出,在新词造词法中语素合成的新词占了绝对多数,其次是语法类推产 生的新词,这两种方法产生的新词占了新词总量的将近9 8 。 2 3 新词的构词法分析 现代汉语新词语的构词方法同基本词汇的构词法没有很大的差别,但新词中复合词 占了绝大部分。“复合 方式可将两个构词成分结合成一个新词。构词成分通常认为是 语素。由于复合词的构成方式和短语的构成方式是一样的,包括偏正式、动宾式、补充 式、主谓式、联合式等。当语素是成词语素时,复合词与短语的界限是不清晰的。只有 当构词成分中至少有一个是不成词语素时,才有把握判断新组合的结构是一个新词,否 则存在一定的弹性。形式上,两个字的或三个字的组合可以较宽地认为是一个词。 通过对一定数量新词进行结构分析,可以发现并总结其在结构上的一些特点和规 律。文献p 那对2 1 3 2 9 个双音节和三音节新词进行统计分析:双音节新词占总数的7 4 1 6 , 三音节新词占总数的2 5 8 4 ;从词类看,新词中名词最多;从构词方式看,偏正式的 i c t c l a s 下载:h t t p :s e w m p k u e d u c n q a r e f e r e n c e i c t c l a s f r e e l c t c l a s l l 河北大学文学硕士学位论文 新词最多。文献【2 4 】对5 1 4 4 个新词语进行了统计分析:在音节方面,新词中的双音节词 最多,达到4 2 9 ,三音节和四音节分别占2 3 6 和2 2 2 ;词类方面,虚词一个没有, 都是实词,其中大部分是名词、动词和形容词,它们分别占总数的5 5 1 、2 3 8 、6 9 : 构词方法方面,新词同基本词汇的构词法没有多大差别,但复合式新词占绝大部分,占 新词总量的9 6 2 2 。 我们对训练语料中的3 1 7 3 个新词进行了构词法的分析,结果同上述文献的统计数 据稍有差别,这可能同所选用的新词来源渠道不同有关。统计结果显示复合式新词仍然 是占了绝大部分,共2 7 9 7 个,占8 8 1 5 。派生新词共3 7 2 个,占1 1 7 2 。外来新词4 个,占0 1 3 。复合式新词中,偏正式新词共2 0 6 4 个,约占全部新词的6 5 0 5 ,如“白 刃、“赤潮”、“热议 、“薄田 、“赤匪等。动宾式新词共2 5 1 个,约占全部新词的7 9 1 , 如“定薪 、“宰客”、“灌篮 、“错峰 、“降噪”等。联合式新词共3 3 8 个,约占全部新 词的1 0 6 5 ,如“才艺”、“缺失、“禁阻”、“疾痛”、“念想等。主谓式新词共8 2 个, 约占全部新词的2 5 8 ,如“心衰 、“胸闷 、“自省 等。补充式新词共6 2 个,约占 全部新词的1 9 5 ,如“扮靓 、“拉升 、“沙粒等。 2 4 对新词提取的指导 通过对新词的造词法分析,我们可以发现新词语的造词方法体现出来的新质要素并 不多,更多的是继承古代汉语和现代汉语中已经使用过的方法。语素合成是最主流的造 词方法,通过语素合成产生的新词占到新词总量的百分之八十多。因此,我们在提取新 词的时候可以考虑将这个过程分解,先从数量很大的分词碎片中找到可能构成新词的语 素,然后再考虑提取出语素组合成的新词。 文献【矧认为可以从语素库、词库中获取语素的构词知识,通过对构词规律的研究和 分析总结出一定的构词规则,这些规则可以用于未登录词的处理系统。通过对新词构词 法的分析,也同样可以发现新词结构上的一些特点。新词中复合词占了绝大多数,这些 复合新词应该是我们进行新词提取研究的主要对象。从新词构词方式上来看,偏正式 ( 型) 结构的新词占大多数,这些词大都是表示事物名称的名词。派生的新词结构有很 强的规律性,一些词缀和类词缀构词能力非常强。比如后缀“性、“化 、“者 ,能与 其它语素一起组合成许多新词。在三音节新词中很大一部分就是由二字语素和词缀组合 1 2 第2 章现代汉语新词分析 而成的,比如“具象化”、“情景化、“意境化”、“整体性 、“协调性 、“规范性 、“求 助者”、“违法者 、“淘金者等。我们可以利用这些规律和特点构造出一些新词的构词 规则,帮助识别和提取新词。 河北大学文学硕士学位论文 第3 章分词碎片的统计分析 3 1 分词碎片中的单字的统计分析 3 1 1 分词碎片 一般情况下,文本经过自动分词后总会出现大量的单字。这些单字中,除了单字词, 其它就主要是将未登录词切分成的单字。例如: ( 1 ) 编导不着意于故事情节的勾连或铺排 i 2 、“f 七一p 黄金f 鼹 凝阚f | 金国| 公路| 基苓| 畅通f 路执| 良埒| “分词碎片通常是指经过分词过程后剩下的“连续单字碎片”,如例1 中的“的 勾连或铺排 。新词通常会被分成连续的单字形式,例l 中,“勾连”、“铺排”这 两个词就被切成了“勾连、“铺排”。但有时一个新词也可能被切成一个二字词和单 字的形式或者多字词和单字的形式,如例2 中的“黄金周一词就被切成了“黄金周”。 为了不使这一类的词在新词提取过程中被遗漏,在本研究中将“分词碎片”的范围扩大, 把经过一般分词产生的所有单字都看作“分词碎片 。 3 1 2 单字数量及词类统计 大部分研究未登录词识别的文章,都是从分词碎片中去寻找未登录词的,但对分词 碎片进行了全面分析的却非常少。因此,在进行新词提取研究过程中,对分词碎片进行 一个定量的全面的分析是非常必要的。下面我们就对1 9 8 万字的训练语料进行分析。使 用中国科学院计算技术研究所研制的汉语词法分析系统i c t c l a s ,对语料进行分词和 词性标注。该系统分词正确率达9 7 以上,并且能识别出语料中大部分人名、地名、机 构名等专名。经过分词后的语料中,除了未登录词的错误切分外,还存在其它原因造成 的切分错误,词性标注的错误之处也较多。对于这些分词和词性标注的错误我们没有进 行任何修改,这也可能会影响到新词提取的准确率。 我们对经过分词和词性标注以后的训练语料进行了统计,分词碎片中单字的数量为 3 9 3 7 9 6 个。各种“词性 ( 单字是否能成为一个词尚未确定,为方便起见,对i c t c l a s 中对单字的标注,我们都称之为“词性 ) 单字的出现次数以及所占的比例见表2 。 1 4 第3 章新词碎片的统计分析 表2 单字词性统计表 单字词性出现次数所占比例( ) 形语素( a 曲 1 7 3 9 0 4 4 形容词( a ) 1 5 3 5 03 9 0 副形词( a d ) 9 6 0o 2 4 名形词( a n ) 8 9 区别词( b ) 2 1 3 60 5 4 区别语素( b g ) 1 4 7 连词( c ) 2 1 4 6 55 4 5 副语素( d g ) 6 2 5o 1 6 副词( d ) 3 1 9 6 88 1 2 叹词( e ) 1 0 1 掌 方位词( f ) 1 4 6 7 4 3 7 3 语素( g ) 1 7 6 前接成分 8 8 7 0 2 3 简称略语( i ) 5 6 1 61 4 3 后接成分 2 0 8 50 5 3 数词( m ) 1 9 7 5 05 0 2 数语素( r a g ) 4 0 名语素( n g ) 8 5 8 92 1 8 名词( n ) 2 4 4 6 2 6 2 1 人名( 砒) 1 2 9 3 73 2 9 地名( n s ) 1 1 拟声词( o ) 7 7 介词( p ) 4 0 0 2 8 1 0 1 6 量词 2 2 1 1 95 6 2 代词( r ) 1 3 4 5 l3 4 2 代语素( 唱) 2 7 3 1 5 河北大学文学硕士学位论文 时语素( t g ) 7 4 6o 1 9 时间词( t ) 2 9 5 助词( u ) 7 9 4 8 92 0 1 9 动语素( v g ) 3 4 7 6o 8 8 动词( v ) 6 6 8 9 21 6 9 9 副动词( v d ) 2 9 0 名动词( v n ) 1 4 0 非语素字( x ) 5 8 语气词( y ) 2 3 0 3o 5 8 注:符号,i c 表示所占比例低于0 1 从统计结果可见,标注出来的单字词类很多,达到了3 5 种,各种词性的单字在碎 片中出现的次数有很大的差别。助词在分词碎片中出现的最多,达到7 9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论