




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)基于大规模语料库的中文新词识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 互联网对于信息传播的巨大推动作用,越来越多的新词出现在人们的生活之中。这 些新词反映了词汇学的发展和演进的趋势,成为语言学关注的焦点,也是自然语言处理 无法回避的一大挑战。新词的自动识别,在汉语词典编纂、信息抽取、汉语自动分词等 多领域都具有重要意义。 新词是指词法分析器使用的词典里没有收录的词。汉语自动分词面临的一个主要难 题就是新词的自动识别。含有新词的文本经过分词后,大多被切分成碎片的形式。本文 对i n t e r n e t 下载的新闻语料进行汉语分词和词性标注,然后进行串频统计,得到潜在新 词。 对于单字串模式的新词,本文提出了一种新的基于大规模语料库的新词识别方法, 利用汉字与相邻的切分标注的共现频度,建立局部二元模型。该模型考察构成新词的汉 子和上下文之间的关系,使用局部二元统计量来筛选新词。两个相邻汉字的互信息度量 了它们之间的紧密程度,对于大于两字的单字串,我们引入平均互信息的概念,计算潜 在新词的相邻汉字互信息的平均值,并将其应用到单字串模式的新词识别中。实验结果 表明,使用局部二元模型的新词识别效果好于使用平均互信息,前者的f 值可达到 7 9 0 5 ,高于后者的7 1 3 7 ,表明了局部二元模型的有效性。我们进行了将平均互信 息和局部二元统计量结合起来使用的实验,f 一值可达到7 9 9 4 。 对于“双字词+ 单字 模式的新词,本文将其定义为后缀模式。首先使用人工归纳 出的后缀集合,以及根据词表统计出作为三字词尾字的汉字集合,分别进行了实验,又 将两个后缀集合合并起来,实验结果高于单独使用一种方法的效果。 关键词:语料库;新词识别;平均互信息;局部二元模型 大连理工大学硕士学位论文 c h i n e s en e ww o r di d e n t i f i c a t i o nb a s e do i ll a r g e s c a l ec o r p u s a b s t r a c t i n t e m e tg i v e sa l le n o r m o b si m p e t u st oi n f o r m a t i o nc o m m u n i c a t i o n 。m o r ea n dm o r en e w w o r d sc o m eo u ti no u rl i f e t h e yr e f l e c tt h ed e v e l o p m e n ta n de v o l u t i o nt r e n do fl e x i c s b e c o m ec o n c e r n so fl i n g u i s t i c sa n dm a k eb i gc h a l l e n g et on a m r a ll a n g u a g ep r o c e s s i n g a u t o m a t i ci d e n t i f i c a t i o no fn e ww o r d sh a sg r e a t es i g n i f i c a n c ef o rc h i n e s el e x i c o g r a p h y , i n f o r m a t i o ne x t r a c t i o n , t h ec h i n e s ew o r ds e g m e n t a t i o n , a n do t h e rf i e l d si nn l p aw o r dt h a ti sn o ti n c l u d e di nac h i n e s el e x i c a la n a l y z e r sl e x i c o ni sc a l l e dan e ww o r d am a j o rp r o b l e mo fc h i n e s ew o r ds e g m e n t a t i o nf a c i n gi st h en e ww o r di d e n t i f i c a t i o n ( n w i ) w et r yt os o l v ei ta sf o l l o w s :f i r s td o w n l o a da d e q u a t ed o c u m e n tf r o mi n t e m e ta n d b u i l dac o r p u s ;t h e ns e g m e n tt h ec o r p u s s om o s tn e ww o r d sa r ec u ti n t of r a g m e n t s t h e n s e a r c hf o rr e p e a t e ds t r i n g st oo b t a i nn e ww o r dc a n d i d a t e s f o rt h ei d e n t i f i c a t i o no fs e q u e n c eo fs i n g l ec h a r a c t e r s w eb u i l dam o d e ln a m e dl o c a l b i g r a mm o d e l ,w h i c hm a k e su s eo fo u t e rl i n g u a le n v i r o n m e n ta n di n n e rs t r u c t u r eo fas t r i n g s i m u l t a n e o u s l y a n dal o c a lb i g r a ms t a t i s t i ct h a tt r a i n e dt h r o u g hl a r g es c a l ec o r p u si su s e dt o d e c i d ew h e t h e rac h a r a c t e rs e q u e n c ei san e ww o r d m u t u a li n f o r m a t i o nw a su s e dt om e a s u r e t w on e i g h b o r i n gc h a r a c t e r s c o u p l i n g s f o r m e a s u r i n gt h ec o u p l i n g so fs e q u e n c e st h a t c o m p r i s eo fm o r ec h a r a c t e r s ,w ee m p l o ya v e r a g em u t u a li n f o r m a t i o n ( a m i ) t h a te q u a l st h e m e a n v a l u eo fa l ln e i g h b o r i n gt w oc h a r a c t e r so ft h es e q u e n c e t h ee x p e r i m e n t a lr e s u l tb yu s i n g l o c a lb i g r a mm o d e ls h o w si t sp r e f e r r e df m e a s u r ee q u a l s7 9 0 5 ,c o m p a r e dt oa m i s 7 1 3 7 w ea l s oc a r r i e do u ta ne x p e r i m e n tt h a tc o m b i n i n gt h et o wm e t h o d sm e n t i o n e da b o v e , a n da c h i e v e dc o m p r a b er e s u l tw h i c hf m e a s u r ee q u a l s7 9 9 4 f o rt h ei d e n t i f i c a t i o no ft h en e ww o r d si nt w o o n ep a t t e r n ( ab i c h a r a c t e rw o r df o l l o w e d w i t has i n 酉ec h a r a c t e r ) ,t w om e t o h d sa r eu s e dt oc o n s t i t u t et h es u f f i x - c h a r a c t e rs e t o n e m e t h o di su s i n gs u f f i x ss e tt h a th a sb e e nb u i l db ye x i s t e dr e s e a r c h t h eo t h e ri sb yc o l l e c t i n g c h a r a c t e r st h a tf i e q u e n c e l ya p p e a r i n ga tt h et a i lo ft h r e e c h a r a c t e rw o r d s w ec o n d u c t e x p e r e m e n t sb yu s i n go n em e t h o dr e s p e c t i v e l y ,a n da l s oc a 玎yo u ta ne x p e r e m e n tb yu s i n gt h e u n i o ns u f ! f i x c h a r a c t e rs e t k e yw o r d s :c o r p u s ;n e ww o r di d e n t i f i c a t i o n ;a v e r a g em u t u a li n f o r m a t i o n ;l o c a lb i g r a m m o d e l i i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论丈中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 一竹勿 臣扛良 作者签名:睦! 二全 新躲乏趔啦, 导师签名:笔基4 ! ! 二犯三一, ! 翌年月1 1 e t 大连理工大学硕士学位论文 1 绪论 1 1问题的提出 随着社会经济文化的发展,作为信息载体的语言也在不断发生变化,而在语言的各 个要素中,词汇是最为活跃的,所以不断涌现出新词语来表达社会上新概念和新事物。 自改革开放以来,中国经济迅速发展,随之而来的是人们生活方式以及社会观念的变化。 作为人类传播信息的工具,新词新语不断产生,并被广泛的应用到日常生活和各种媒体 上。如“市场经济、“下海”、“炒股 、“情商 等留下了一个时代的烙印。因特 网的普及以及w e b 2 0 的逐渐兴起,使得个人有了更大的发言权,更能发挥自己的创造 精神,于是新词汇的诞生变得更快,而且传播也变得更加方便。如“博客 、“闪客 、 “播客 、“超女和“快男 等从诞生到流行只用了很短的时间。在这样一个高效快 节奏的时代,如何快速的检测到新的语言和词汇,成为一个很有探讨意义的课题。 词典是传播文化的有效工具,为了保证它的权威性,必须依靠语言学专家付出大量 的劳动。但是如果对新词的收集完全由人工来完成,无疑代价是很昂贵的,而且词典的 更新周期会很长。利用现代电子计算机的计算能力,以及因特网这个随手可得的庞大语 料库,通过自动的方法进行新词的检测,再由语言学专家进行筛选、提炼,必将对中文 词典编纂事业产生很大的推动作用。 中文是世界上使用人数最多的语言,因特网上中文网页的数量增长也非常迅速。在 当代社会,拥有信息的人会拥有更大的机遇,信息流通的重要性不言而喻。但是由于中 文的特点,让计算机对中文进行智能处理非常困难。但为了使得信息的整合和流通更 加高效,对中文信息处理技术的攻坚势在必行。在中文中,词是表达意义的最小单位, 但是词与词之间并没有间隔,这使得分词成为对中文处理的第一步【l 】。由于大量新词的 存在影响到分词的质量,新词识别成为中文分词的关键技术之一。新词识别技术的突破, 必将推动中文分词技术的发展。 1 2 新词的定义和分类 1 2 ,1 新词的定义 由于汉语中词语的定义的模糊性,很难给出一个新词语的确切的定义,在现有研究 的基础上,认为对于新词语可以从下面两个方面把握t ( 1 ) 从词典参照的角度来说,新词语是指通过各种途径产生的、具有基本词汇所没 有的新形式、新意义或新用法的词语。新词语的特点在于“新”,这个“新”具体表现在词 基于大规模语料库的中文新词识别 形、词义和词语的用法上。鉴定新词语的参照系是现代汉语基本词汇的词形、词义和词 语的用法。着眼于一个词语的词形、词义和用法,将其与现代汉语基本词汇的词形、词 义或用法进行比较,只要在这三个方面的任何一点上不同,就认为它是新词语【2 】。 ( 2 ) 从时间参照角度来说,新词语是出现在某一时间段内或自某一时间点以来所首 次出现的具有新词形,新词义或者新用法的词汇【3 】。 在语言学中,新词不仅是指主体词典中未收录的词形新的词语,还指具有新意义、 新用法的已有词语,包括“旧词新用 、“专有术语意义泛化、转移、“修辞用法稳 定下来构成新词语 等语言现象【2 1 。自然语言处理方面,新词一般是指在词法分析中词 法分析器所使用的词典里没收录的词语,也称未登录词,主要包括命名实体和其他一些 具有新词形的词【4 】。 本文介绍的新词识别是在词法分析的基础上进行的,所以把没有收录在词法分析器 的词统称为新词。主要是一些具有新词形的词,也包括识别出的人名、地名和组织结构 名等类的命名实体。 1 2 2 新词的分类 从语言学角度,汉语中的新词语按照来源可以分为以下几类【2 j : ( 1 ) 命名实体:包括人名、地名、商品名、公司字号、机构名等; ( 2 ) 缩略语:如“非典、“发改委”等; ( 3 ) 方言词:如“靓 、“埋单 等; ( 4 ) 新造词:如“伊妹儿”、“美眉 等: ( 5 ) 专业术语:如“非典型肺炎、“蓝光光盘”等; ( 6 ) 音译词:如“酷”、“秀 、“克隆等; ( 7 ) 字母词:如n g 0 、o p e c 等; ( 8 ) 词义、用法发生变化的旧有词语:如“下课 、“充电”、“黑哨”等。其中 还包括一种“旧词新用 的语言现象,比如“玉米”、“粉丝 等,很长时间不用了, 最近又重新出现在语言中。 这种分类是从新词来源的角度来划分的,不便于对新词进行自动化处理【5 】。从便于 计算机自动处理的角度,按照构词方式,把新词分为下面4 类: ( 1 ) 复合词:汉语中存在着很多复合词。如“扑杀、“追逃 等。 ( 2 ) 缩写:根据语言的经济性规则,很多新词是对已有的源短语缩略产生的。但缩 略的方式很多,并无固定的规则。如“超女一一“超级女生、“入常一一“加入 联合国常任理事国”、“央企 一一“中央企业等。 大连理工大学硕士学位论文 ( 3 ) 派生词:汉语中存在着一批造词功能很强的后缀字,这类字可以派生出很多新 词。如“地震带 、“价值型 等。 ( 4 ) 单纯词:这类词的意义与单个汉字的意义完全无关。如“的士、“依妹儿 等。 1 3 新词识别的难点 在自然语言处理中,新词语的判定是一个比较困难的问题。对于英语来说,由于词 与词之问有间隔,因此对于单个的新词语比较容易判定,不过对于复合词形式或者短语 形式的新词语判定问题仍然存在。然而对于汉语来说,新词语识别的问题比较严重。就 目前来说,中文新词语自动识别的主要困难在于: ( 1 ) 对于词义或者用法发生变化的旧有词汇来说,很难将它们识别出来。 ( 2 ) 对于具有新词形的词语来说,由于汉语的词与词之间没有间隔,因而从原始的 文本中无法直接判断是否是新词语。 ( 3 ) 除命名实体外,具有新词形的词语在构成基本上没有什么普遍的独特的规律可 以和已有的词语相区分。 ( 4 ) 对于一些在语料库中出现频度低的具有新词形的词语,很难识别。 ( 5 ) 由于中文词语定义的模糊性,新词没有统一的定义标准,且涵盖面广,很难找 到一种通用的有效的方法。 1 4 新词识别的研究现状 在西方很多语言的书写中,词与词之间是有间隔的,因此对于识别单个的新词相对 比较容易。然而在汉语的书面表达中都是以连续的汉字串形式,词与词之间没有明确的 分隔标记。因此,从汉语文本中识别出新词是一个比较困难的问题。下面介绍有关新词 的研究成果。 在新词发现方法方面,按照采用的技术分为基于规则的方法f 6 】和基于统计的方法 9 - 1 8 】。基于规则的方法主要是根据语言学方面的专家归纳总结的有关构词方面的构建知 识库或者规则库,通过这些制定的规则识别新词。基于统计的方法,一般是利用统计策 略提取出潜在的新词,然后再利用语言知识和其他的使用统计方法学习到的知识过滤不 是新词语的干扰字串。规则的方法主要缺点在于很难抽取出完全适用的和覆盖率足够大 的规则。而统计的方法,在某些方面识别的准确率不如基于规则的方法。研究者多采用 规则统计相结合的方法【1 9 之4 】进行新词识别。 基于大规模语料库的中文新词识别 1 4 1 基于规则的方法 文献 6 以规则为主的方式识别新词,利用玎元递增分步算法进行串频统计,分别得 到2 元、3 元和4 元的候选词库。接着剔除“功能词 和“功能字 ,并对相同频率的 词进行子串归并。按照规则所取的作用分为“互斥性子串”过滤规则、常规构词规则、 特殊构词规则。“互斥性子串”过滤规则的“互斥性 指的是根据构词法的原则,如果 组成候选词的各部分词性有明显不能成词的部分,则将其去除,把副词开头的候选词或 者含有连词的候选词等等过滤掉。封闭测试准确率为9 1 2 ,召回率9 5 。规则的方法 准确率较高,但是总结规则却不容易。 文献 7 】利用熟语料自动提取新词识别的规则。文中把新词的识别分为两步。第一步 是检测新词的存在,第二步是识别其边界。通过对s i n i c a 的部分语料统计得出,4 6 3 2 个新词被切分之后,有4 5 7 2 个被切分为短词的序列,并至少包含一个单字词。因此语 料中单字词的出现很可能意味着新词的存在。因此新词的识别过程等价于区分单字词和 单字语素的过程。然后利用语料库学习的方法获取单字词和单字语素的上下文规则集 合,并通过贪婪算法评价每条规则的性能来优选。每条规则及其评价用三元组表示 。其中的规则模式可以是一元模 式如“ 的) ,“ 好) 等,也可以是二元模式如“ 会) 觉得”,“ 就) ( v h ) 等,还 可以是三元模式如” 极) ( ) ( t ) 等。该方法在检测单字语素上有较高的准确率和召 回率,而且自动提取的规则比人类专家设计的规则效果还要好,但该文并没有给出确定 新词的边界的方法。 1 4 1 基于统计的方法 文献 9 】主要研究了两种类型的新词:n w l l ( 由两个汉字组成) 和n w 2 1 ( 由一个二字 词后跟一个单字组成) 。作者将新词识别问题看作一个二元分类问题,对n w l l 和n w 2 1 分别选用不同的特征并利用s v m 分类器进行分类。n w l l 和n w 2 1 的f 值分别为6 4 4 和5 4 7 。这些特征包括成词率、构词模式、词形模拟( a n a l o g yt on e ww o r d s ) 和反词 列表( a n t i w o r dl i s t ) 和词频共五个。将算法模块应用于分词系统,在开放测试中,未登 录词的召回率上升1 3 5 ,f 值上升2 0 。 文献【1 0 】在利用文献 9 】所提出的五个特征的基础上,将语素产生率( m o r p h o l o g i c a l p r o d u t i v i t y , m p ) 这个语言学特征特征加入到s v m 分类器,实验结果表明计入该特征后 的识别效果要好于文献 9 的结果。 文献 1 1 】利用条件随机场( c o n d i t i o n a lr a n d o mf i e l d s ) 模型,将分词和新词发现作为 一个统一的过程。这是一种典型的在线检测的方法。利用c r f 进行中文分词之后,得 大连理工大学硕士学位论文 到一组切分片断,每个片断都有置信度( c o n f i d e n c e ) 。以下的两类片断被认为是新词候 选:一类是具有高置信度的连续片断,一类是置信度低,但与高置信度的词典词左右相 邻的连续片断。经过验证,文中确定了置信度的阈值为o 9 。为了提高新词的召回率, 使用n b e s t 方法取c r f 切分结果中最好的个切分,然后在这个切分结果中进行新 词的识别。发现的新词会加入到词典中改善分词器的性能,改善后的分词系统又能更好 的识别新词,两者互相促进,达到了较好的识别效果。 文献 12 提出了一种利用单字的独立词概率( i n d e p e n d e n tw o r dp r o b a b i l i t y ,i w p ) 进 行新词识别的方法。含有新词得文本在分词后,新词被切分成单字串的碎片形式,使用 i w p 表示单个汉子独立成词的能力,其定义为: ,胛( c ) :n ( w o r d ( c ) ) ( 1 2 ) 一 ( c ) n ( w o r d ( c ) ) 表示汉字c 在训练语料库中独立成词出现的次数;( c ) 表示c 在语料 库中出现的总次数。i w p ( c ) 越大,说明c 独立成词出现的概率越大,那么它和其他的字 组合成词的概率就越小。通过计算几个单字的联合概率就可以获得单字串的概率,如对 单字串s = c l c 2 凸,i w p ( s ) = i w p ( c 1 ) i w p ( c 2 ) i w p ( c ) ,得到i w p ( s ) 之后,通过设置 阈值丁来对单字串进行筛选,如果朋硪s ) 0 ,则x 和y 是高度相关的;如果i ( x ,y ) = 0 ,则表示x 和 y 是独立的:如果i ( x ,y ) 0 ,则很难判断x 和y 之间的关系。 2 5 新词构成模式分析 本文中讨论的是词法分词器h m m s e g 使用的分词词典中没有收录的词。首先使用 h m m s e g 对原始语料进行分词和词性标注,接着进行基于词的重复串搜索。单纯使用 重复串的频度进行过滤,会引入一些频度较高但不是新词的短语、常用搭配或者由副词 衍生的噪音串。我们定义垃圾串就指那些可能被误认为是新词的短
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 蓝领员工绩效管理办法
- 产品打样保密管理办法
- 专职董事监事管理办法
- 中医诊疗服务管理办法
- 西游记团队管理办法
- abc类物料管理办法
- 财务内控人员管理办法
- 中外科研合作管理办法
- 个人广告接入管理办法
- 人防工程审批管理办法
- DB36-T1694-2022-餐厨垃圾集约化养殖黑水虻技术规程-江西省
- 超市卫生管理规范培训
- 国际压力性损伤溃疡预防和治疗临床指南(2025年版)解读
- 知到智慧树网课:病理生理学(南华大学)章节测试满分答案
- 农村建设工匠考试试题及答案
- 中学生心理辅导活动课教案(合集)
- 《心律失常的诊断和治疗》课件
- 职业技术学院2024级药膳与食疗专业人才培养方案
- 《介入治疗技术在临床应用中的进展》课件
- 银行保险机构安全保卫工作自查操作手册
- 委托运营合作合同协议
评论
0/150
提交评论