(计算机软件与理论专业论文)中文新词语自动检测研究.pdf_第1页
(计算机软件与理论专业论文)中文新词语自动检测研究.pdf_第2页
(计算机软件与理论专业论文)中文新词语自动检测研究.pdf_第3页
(计算机软件与理论专业论文)中文新词语自动检测研究.pdf_第4页
(计算机软件与理论专业论文)中文新词语自动检测研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机软件与理论专业论文)中文新词语自动检测研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着社会、经济的飞速发展,越来越多的中文新词语出现在人们的生活中。新词语 的出现丰富了语言的色彩,同时也给词典编纂、中文自然语言处理等领域带来了挑战。 如何寻找新词语成了一个重要的问题。然而目前新词语并没有一个明确的、公认的定义, 本文根据词法分析和语言学中对于新词语的定义,将新词语分为命名实体、词形新的词 语和意义用法发生变化的已有词语这三大类。本文研究的是对于词形新的词语的自动检 测。 目前对于词形新的新词语识别研究比较少见。而且现有的研究所寻找的新词语都是 限于领域或者是限于新词语的词长。本文提出了一个从i n t e m e t 采集下来的网页中寻找 新词语的方法,目标是从一个整体角度寻找不限词长、不限领域的在指定日期后出现的 新词语。 根据本文提出的方法实现的整个系统分为三个部分:网页采集、网页分析和新词语 查找。在网页分析部分提取网页的内容和日期,对网页内容进行分词,查找重复串,然 后将所有的词和串带上日期存入原始信息数据库。在新词语查找中,根据给定的日期将 原始信息数据库分成背景数据库和过滤数据库,而后在过滤数据库中进行新词语候选的 查找,接着进行自动过滤和词性猜测,得到新词语最终的结果。 对于江南时报和人民日报华东新闻的实验表明:新词语查找的精确率在3 0 - - 4 0 ,召回率在9 0 左右。已经应用于现代汉语新词语信息( 电子) 词典的编纂上。 关键词:中文新词语自动检测串频统计重复串查找 r e s e a r c ho nc h i n e s en e ww o r d sa n d e x p r e s s i o n s i d e n t i f i c a t i o n z o ug a n g ( c o m p u t e r t h e o r y a n ds o f t w a r e ) d i r e c t e db yl i uq u n w i t ht h ef a s td e v e l o p m e n to fo u re c o n o m ya n ds o c i e t y , m o r ea n dm o r en e ww o r d sa n d e x p r e s s i o n sc o m e o u ti no u rl i f e t h e ym a k eo a r l a n g u a g em o r ec o l o r f u l ,b u ti d e n t i f i c a t i o no f t h e mb r i n g sn e w c h a l l e n g e st od i c t i o n a r yc o m p i l a t i o na n d n a t u r a ll a n g u a g ep r o c e s s i n g t h e r e i sn o tac l e a ra n dc o m m o n l y a c c e p t e d d e f i n i t i o nf o rt h e m n o w a c c o r d i n g t ot h ed e f i n i t i o no f t h e mi nw o r ds e g m e n t a t i o na n di n l i n g u i s t i cf i e l d ,t h i s t h e s i sd i v i d e st h e mi n t ot h r e e c a t e g o r i e s t h ef i r s ti sn a m e de n t i t y , t h es e c o n di sw o r d o re x p r e s s i o nw i t hn e w m o r p h o l o g y a n dt h et l l i r di sw o r do re x p r e s s i o nw i t hn e w m e a n i n go rn e wu s a g e i nt h i st h e s i s w ef o c u s o nt h ei d e n t i f i c a t i o no f t h ew o r do re x p r e s s i o nw i t hn e w m o r p h o l o g y w h i l et h er e s e a r c ho nn a m e de n t i t yi d e n t i f i c a t i o na t t r a c t sm u c hc o n c e n t r a t i o n ,f e w r e s e a r c h e sa r ef o u n dt oi d e n t i f yt h ew o r do re x p r e s s i o nw i t hn e w m o r p h o l o g y a n d a l m o s tn o r e s e a r c hi sr e l a t i n gt oi d e n t i f yt h ew o r do r e x p r e s s i o n w i t hn e w m e a n i n g o rn e w u s a g e o n eo f t h ed e f i c i e n c i e so ft h ec u r r e n tr e s e a r c h e so nt h ew o r do re x p r e s s i o nw i t hn e w m o r p h o l o g yi s t h a tt h en e ww o r d sa n de x p r e s s i o n sf o u n da r er e s t r i c t e db yt h el e n g t ho rt h ef i e l d i nt h i st h e s i sam e t h o di sp r o p o s e dt of i n dn e ww o r d sa n de x p r e s s i o n sw i t h o u tt h e l i m i t a t i o no fl e n g t ha n df i e l da f t e rag i v e nd a t ei nt h ew e b p a g e sg r a b b e df r o mi n t e m e t o a r i m p l e m e n t a t i o ni sc o m p o s e d o ft h i e ep a r t s t h ef i r s ti sw e b p a g e g r a b b i n gp a r t ,t h es e c o n d i s w e b p a g ea n a l y s i sp a r ta n dt h em 砷i s n e ww o r d sa n de x p r e s s i o n sf i n d i n gp a r t i nw e b p a g e a n a l y s i sp a r t ,t h ed a t ea n dt h ec o n t e n ta r ee x t r a c t e df r o m t h e w e b p a g e a f t e rs e g m e n t a t i o n ,a n a l g o r i t h mi sr u no n t h ec o n t e n tt of i n dr e p e a t e ds t r i n g s f i n a l l yt h er e p e a t e ds t r i n g sf o u n da n d w o r d sa r es t o r e di n t oad a t a b a s ec a l l e d o r i g i n a li n f o r m a t i o nd a t a b a s e w i t hd a t e s i nn e ww o r d s a n d e x p r e s s i o n sf i n d i n gp a r t ,t h eo r i g i n a l i n f o r m a t i o nd a t a b a s ei sd i v i d e di n t o b a c k u p d a t a b a s ea n df i l t e r i n gd a t a b a s eb a s e do nt h eg i v e nd a t e a f t e re v a l u a t i n ge v e r yw o r da n d s t r i n g i nt h ef i l t e r i n gd a t a b a s e ,ac a n d i d a t es e ti sb u i l t a f t e ra u t o m a t i cf i l t e r i n ga n dp o s e s t i m a t i o no nt h ec a n d i d a t es e t ,t h ef i n a lr e s u l t sc a nb eo u t p u t t e d i no u re x p e r i m e n t sd o n ei nj i a n g n a nt i m e sa n de a s tc h i n an e w s ,t h ep r e c i s i o nr a t ei s b e t w e e n3 0 a n dt h er e c a l lr a t ei sa b o u t9 0 t h es y s t e mb u i l th a sa l r e a d ya p p l i e dt oa s s i s t t h ec o m p i l a t i o no fm o d e mc h i n e s en e ww o r d sa n de x p r e s s i o n si n f o r m a t i o n ( e l e c t r o n i c ) d i c t i o n a r y k e y w o r d s :c h i n e s en e w w o r d sa n d e x p r e s s i o n s a u t o m a t i ci d e n t i f i c a t i o ns t a t i s t i c so f s t r i n gf r e q u e n c yr e p e a t e ds t r i n gf i n d i n g 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得 的研究成果。就我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 作者签名2 智纲 日期:砒7 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、 缩印或其它复制手段保存该论文。 作者签名:钾绸 导师签名:日期: 洳j7 考 第一章引言 第一章引言 1 1 什么是新词语 自古以来,词汇就带有特定时代的烙印,必然会从一个侧面反映出社会政治、经济、 文化以及人们价值观念、生活方式的变迁等等。比如2 0 世纪五十年代后期到七十年代末, “大跃进”、“大鸣”、“大放”、“大字报”等等成为当时人们常挂在嘴边的话语,反映了 当时时代的潮流。“工分”、“粮票”、“布票”等等这些词在过去不久的八十年代,依然 是人们耳熟能详的名词,反映了当时物质匮乏等等状态。随着改革开放的深入,新的词 语如雨后春笋般涌现在我们的生活之中,比如“政务公开”、“价格听证会”、“可持续发 展”、“数码相机”等等,真实的反映了我们社会和经济的飞速发展和对外交流的日渐频 繁。特别是i n t e m e t 的普遍使用,为新词语的产生和流行提供了一个广阔的空间。据统 计,2 0 多年来,在我们的社会生活中,平均每年要产生8 0 0 多个新词语张德鑫,2 0 0 0 。 然而迄今为止,对于新词语的概念并没有一个公认的、明确的定义。在语言学中, 新词语不仅是指主体词典中未收录的词形新的词语,还指具有新意义、新用法的已有词 语,包括“旧词新用”、“专用术语意义泛化、转移”、“修辞用法稳定下来构成的新词语” 等等语言现象【亢世勇,2 0 0 3 。在词典学中,新词语的评判标准有两条,分别是时间参 照标准和蓝本参照标准。前者指的是“在某一时间段内或自某一时间点以来首次出现的 词汇”;后者指的是“某一词典、一些词典或所有现有词典未曾收录的词汇”【高永伟】。 自然语言处理方面,在词法分析中,新词语一般是指词法分析器所带词典里未曾收录的 词,也称为未登录词,主要包括命名实体和其他一些具有新的词形的词语等等。需要说 明的是,命名实体不是本文所要研究的主要内容。 在这些研究的基础上,本文认为对于非命名实体的新词语的定义可以从下面三个方 面的特征来把握:( 1 ) 从词典参照的角度来说,新词语是指通过各种途径产生的、具有基 本词汇所没有的新形式、新意义或新用法的词语亢世勇,2 0 0 3 。新词语的特点在于“新”, 这个“新”具体表现在词形、词义和词语的用法上。鉴定新词语的参照系是现代汉语基 本词汇的词形、词义和词语的用法。着眼于一个词语的词形、词义和用法,将其与现代 汉语基本词汇的词形、词义或用法进行比较,只要在这三个方面的任何一点上不同,就 认为它是新词语。基本词汇的代表是现代汉语词典和汉语大词典的主体词汇。 ( 2 ) 从时间参照角度来说,新词语是在某一时间段内或自某一时间点以来所首次出现的具 有新词形,新词义或者新用法的词语。新,就体现了与时间相关的特点。比如可以把改 革开放以来出现的词语如“经济特区”,“下海”,“打工”等等称为新词语。( 3 ) 从出现频 度来说,新词语必然是被大家所认同的,固定下来的词语,因此必然也会频繁出现在人 们同常生活中。 中文新词自动检阐l 研究 因此本文所要研究的新词语,和一般自然语言处理中的未登录词的概念有所不同, 本文对于新词语的三个特征的把握,更多的倾向于语言学的角度。但是因为绝大部分具 有新的词形的词语在词法分析的时候,都是表现为未登录词的形式而被切散,因此从这 点来说,词法分析中寻找非命名实体的词形新的词语所用的研究方法在这儿也是适用的。 此外,这儿还要说明一下新词和新词语的概念的细微区别。新词语指的是新词新语, 因此新词语的概念包含了新词的概念。 1 2 新词语的分类 从大体上说,从语言学的角度来看,参考亢世勇 亢世勇,2 0 0 3 的研究,本文认为 汉语中的新词语按来源可以分为以下几类: 1 】命名实体:包括人名、地名、商品名、公司字号、机构名等: 2 】缩略语:如“非典”、“计生委”等: 【3 】方言词:如“靓”、“埋单”等; 【4 】新造词:如“伊妹儿”、“美眉”等: 【5 】专业术语:如“非典型肺炎”、“蓝光光盘”等: 【6 】6 音译词:如“酷”、“秀”、“克隆”等; 7 1 字母词:如w t o 、a p e c 等: 【8 】词义用法发生变化的旧词:如“下课”、“充电”等。 语言学方面对于新词语的分类仅对于人工鉴别新词语有帮助。从机器的角度来看, 即从中文自然语言处理的角度来看,新词语可以分为三大类。 【l 】命名实体,包括机构名,人名等等 【2 】除命名实体外,词典不曾收录的,具有新词形的词语,比如“非典”、“数码相 机”等等 f 3 】词义或者用法发生变化的旧有词汇,但是这些新的词义和新的用法词典中没有 收入。这类词汇主要可以分为三种,第一种是原有词语增加新的意义,比如“下 课、充电”等这些旧有词,现在具有了新的词义。第二种是原有的词语有了新 的用法,比如以前“火”原是名词,现在用作了形容词,比如在这句话“现在 的邮市一下子就火起来了。”中,“火”就作为形容词用。第三种是旧词新用, 即原有的词语很长一段时间不用,又重新启用,比如:“高就、赏光、黑道、绑 票、撕票、夜总会、小姐、太太、金婚、银婚”等。 第一类命名实体类的新词语在中文词法分析中研究的很多,对于第二类新词语的研 究比较少,第三类新词语基本上没有多少研究。本文主要研究的是对于第二类新词语的 自动检测。 1 3 新词语自动检测面临的困难 在自然语言处理中,新词语的判定是一个比较严重的问题。对于英语来说,由于词 第一章引苦 与词之间有间隔,因此对于单个的新词语比较容易判定,不过对于复合词形式或者短语 形式的新词语判定问题仍然存在。然而对于汉语来说,新词语识别的问题比较严重。就 目前来说,中文新词语自动检测的主要困难在于: 1 】对于词义或者用法发生变化的旧有词汇来说,很难将它们检测出来; 【2 】对于词形新的词语来说,由于汉语的词与词之间没有间隔,因而从原始的文本 中无法直接判断是否是新词语; 【3 】除命名实体外,具有新词形的词语的构成基本上没有什么普遍的独特的规律可 以和已有的词语相区分。 【4 对于一些在语料库中出现频度低的具有新词形的词语,很难识别。 1 4 新词语自动检测技术的现状概述 目前自然语言处理方面对于新词语检测的研究主要是对词法分析中的命名实体识别 的研究。在命名实体识别的研究中,以人名、地名、音译名识别率较高,正确率和召回 率都可以达到9 0 以上,机构名构成规律较为复杂,识别正确率和召回率较低一些。其 他类型的命名实体研究很少,识别率更低。 目前在国内外,英文命名实体识别的方法主要有: 1 】基于人工组织规则的方法 c , d s h n mr ,1 9 9 5 】 ( 2 】基于机器学习的方法 ( 1 ) 基于决策树模型的命名实体识别 s e k i n es ,1 9 9 8 1 ( 2 ) 基于隐马尔科夫模型( h m m ) 的命名实体识别【d m b i k e l ,1 9 9 7 】 ( 3 ) 基于最大熵模型的命名实体识别 b o r t h w i e l a ,1 9 9 9 1 【3 】人工组织规则与机器学习相结合的方法 m i k h e e v , 1 9 9 8 】 中文命名实体识别的方法,国内外都展开了一定的研究。 在m u c 7 会议的m e t - 2 的中文命名实体评测中,k e n tr i d g ed i g i t a ll a b s ( k r d l ) 系统 v us - h ,1 9 9 7 和n 1 u 系统 t h e n h h ,1 9 9 7 参加了这个评测。 k r d l 系统的基本想法是把命名实体识别问题抽象为标注问题,利用大约5 0 0 ,0 0 0 词的标记语料训练一个基于词性的语言模型,其中在训练之前进行了一定的预处理,把 名词细分为与特定任务相关的更小的名词类。消除歧义模块采用v i t e r b i 搜索。此系统在 m e t - 2 的测试中,取得较好结果。 n t u 系统采用了规则和统计相结合的方法。中国人名、外国人名识别采用了一些特 殊的策略和统计信息,地名和机构名的识别采用了规则匹配的方法。 此外,命名实体识别的研究还有清华大学的张磊【张磊,2 0 0 1 1 ,他对命名实体识别 采用基于类的n 元模型的方法。首先定义人名、地名、机构名分别为一类,并把类的n 元模型结合到词的n 元模型中来识别命名实体。 在计算所的词法分析器中由于切分的需要,也引入了基于角色的命名实体识别【俞 鸿魁,2 0 0 3 1 h u a p i n gz h a n g ,2 0 0 3 j ,采用统计和规则相结合的方法,采取v i t e r b i 算法 3 中文新词自动检铡研究 对切分结果进行角色标注,在角色序列的基础上,进行字符串识别,取得了很不错的效 果。 对于其他新词语的研究则比较少。特别是对于旧词的意义和用法发生变化的新词语 研究基本上没有,目前主要是对于词形新的词语的研究。 对于词形新的新词语研究就目前的研究现状来说。按照研究的技术来分,可以分为 规则为主和统计为主的新词语自动检测方法。 规则为主的新词语自动检测方法有:郑家恒等人的寻找农业病虫害词汇的研究工作 郑家恒,2 0 0 3 。 统计为主的新词语自动检测方法略多一些,有:郑家恒等人首先利用n 元分步递增 算法找回被切散的新词,而后利用人工建立的词性规则寻找新词【郑家恒,2 0 0 2 。刘挺 和黄萱菁等人在无词典切分的研究中浏挺,1 9 9 8 】【黄萱菁,1 9 9 6 ,为了切分文本而建 立了临时切分词典。虽然他们的研究是针对无词典切分的,但是临时切分词典中包含了 新词,如果将临时切分词典和已有的词典加以对比,则也可以认为是新词语自动检测的 一种方法。沈丽琴等人的m m 公司的专利中先统计串频。而后对结果进行修剪,从而得 到新词沈丽琴,2 0 0 2 1 。a n d iw u 的研究是定义独立词概率,对于被切散的单字进行识 别处理,从而得到新词 a n d iw u ,2 0 0 0 。h o n g q i a ol i 在a n d iw u 提出的独立词概率的 基础上结合其他特征,将新词的识别看成了一个分类的过程,利用s v m 进行分类 h o n g q i a ol i ,2 0 0 4 。y a om e n g 提出了利用基于字的句法分析来查找新词 y a om e n g , 2 0 0 4 1 。 这些研究方法所针对的对象也各不相同。比如郑家恒( 2 0 0 2 ) 的工作是专门用来识 别专业术语,a n d iw u ( 2 0 0 0 ) 、h o n g q i a ol i ( 2 0 0 4 ) 的工作是用来召回词法分析中,除命名 实体外的未登录词。此外,各种方法基于的环境也不同。大部分的方法是在一个大的语 料库,上下文信息比较充足的环境中寻找新词语,还有一些方法是针对词法分析中输入 的一个句子来寻找新词语,比如a n d iw u ( 2 0 0 0 ) 和h o n g q i a ol i ( 2 0 0 4 ) 的工作。 就识别的效果而言,大部分的研究工作或者是识别二字、三字、最多四字的新词新 语或者只是识别专业术语或者只是针对词法分析中某一种现象处理,比如a n d iw u ( 2 0 0 0 ) 的工作是对词法切分过程中被切成单字词的串处理。因此总体上说缺乏横向的可比性。 就现状而言,中文新词语的自动检测目前还是处于一个起步的各种方法不断尝试的 阶段。所使用的方法基本都是规则和统计相结合的方法。 1 s 额词语自动检测的意义 新词语自动检测系统可以应用于词典编纂的领域。目前随着新词语的越来越多的涌 现,在词典编纂中,如果还是用传统的人工的方法去搜集新词语,无疑是十分费时又费 力的事情。如果利用计算机来处理,先对电子文本进行处理,而后输出新词语候选,最 后出人来确定最终的结果,那么无疑可以大大减轻人工的负担。事实上本文所实现的系 统也已经用在现代汉语新词语信息( 电子) 词典的编纂上。 第一章引言 新词语自动检测系统可以应用于词法分析方面。在词法分析过程中碰到词形新的词 语要么是被切散,要么是某些字与其他字结合,造成切分的歧义。因此如果不断扩充词 法分析器所带的词典的话,可以减少切分歧义和提高词法分析的正确率。比如a n d y w u ( 2 0 0 0 ) 在基于规则的词法分析器中利用这种方法很大的改善了词法分析的效果。 除此之外,新词语对于语言学、机器翻译和信息检索等等都有比较重要的意义。 1 6 本文研究的内容 本文研究的是在一个大的语料库上,从中自动检测词形新的词语。为了方便起见, 下文所提到的新词语,是指第二类具有新的词形的词语,并不包括命名实体和词义用法 发生变化的已有词语。 本文研究的目标是大规模的处理i n t e m e t 网页,从一个整体的角度,寻找某一时间 点后不限领域和不限长度的任意新词语。 根据本文所介绍的方法所实现的基于i n t e m e t 的新词语自动检测系统已经成功的应 用于现代汉语新词语信息( 电子) 词典的编纂,大大减轻了人的工作量。 1 7 本文中一些名词术语的定义 给定字符表e = a 。a 2 ,a i , ( 其中a i 是一个符号,这个符号可代表汉字、字 母或者词等等) 。在这个字符表上,我们定义: 【1 】串: 在序列w - - - - c l c 2 c 3 c l l 中,序列u - qc i + l c l c ,并且i k ,称u 是串,即 串由至少两个连续的符号组成。 2 】父串和子串: 在序列w = c l c 2 c 3 c i i 中,对于串v = c ic i + l c k ( i k ) 和串 u = c j c j + l c p ( i p ( 2 ) i p 则称为v 是u 的父串或者u 是v 的子串。 【3 】重复串: 在序列w = c l c 2 c 3 一c a 中,如果串v ;c ic i + 卜c d i k ) 在w 中出现n 次妒m , m 是预设的一个阈勘,并且v 不存在父串或者v 存在父串但是父串的频度小于 i i ,则称v 为w 的一个重复串。 4 4 串频统计: 在序列w = c l c 2 c :;一c i i 中,对于一些串u 确钳l c 砸 k ) ,统计u 在w 中 出现的频度,称为串频统计。 5 1 子串归并: 中文新词自动检测研究 在序列w - - c l c 2 c 3 c n 中进行串频统计,得到串和串频的集合: 沁f u ) ) ( 其 中u 是某串,是u 的串频) ,如果存在u 的父串w ,并且f w = f ,那么将u 从 集合中删除。这个过程称为子串归并。 【6 6 重复串查找 在序列w - - - = c l c 2 c 3 c n 中进行串频统计,而后进行子串归并,得到所有的 频度大于预设阈值的重复串和它们的频度。这个过程称为重复串查找。 7 】垃圾串 垃圾串指的是非新词语的串,主要包括一些偶然的噪音串、短语和一些固定 搭配等等。 1 8 本文的组织 本文首先在第二章中介绍了词形新的词语的研究现状。然后在第三章中针对现有的 词形新的词语研究的不足,提出了基于i n t e r a c t 自动检测新词语的基本思想。该方法由 网页采集、网页分析和查找新词语三个部分组成。在接下来的章节中,介绍了整个新词 语自动检测研究中比较重要的部分。第四章分析了现有的重复串查找或者串频统计算法 的优缺点然后提出了我们的重复串查找算法。第五章叙述了从网页中提取网页的内容 和日期的方法。第六章研究了在网页分析后建成的数据库中检测新词语的方法。第七章 是介绍了新词语自动过滤和词性猜测的方法。第八章是实验及其分析,在该章中,对于 整个新词语自动检测系统中关键的部分进行了实验。第九章总结并且提出了对于以后的 工作的进一步的设想。 第二章新词自动检测技术研究现状 第二章新词语自动检测技术研究现状 在目前的新词语的自动检测的研究中,命名实体研究的最多,不包括命名实体的具 有新词形的词语的自动检测研究比较少,并且所自动检测的新词语的种类也各不一样, 其应用也不一样。意义和用法发生变化的已有词语的自动检测研究则基本上没有。 根据目前的研究现状,具有新词形的非命名实体类的词语研究方法主要分为以规则 为主的方法和以统计为主的方法这两类。 2 1 规则为主的新词语识别 规则为主的新词语识别主要是从大规模的语料库中识别和获取专业术语。在国外, e l l e nr i l o f f 等人在基于语料库建造语义词典方面做过一些研究,主要是初始选定一些种 子词来在大规模语料中搜寻专业词汇,用多重循环获取更多的词汇。而后在这个研究基 础上,其他人又进行了一些对于初始种子词的选取、词汇的分值计算以及复合词的识别 等等更细化的研究。但是里面很多模式都不适用于中文。在国内,郑家恒等人在这方面 做了一些尝试,利用四种策略并结合资源库抽取农业病虫害词汇 郑家恒,2 0 0 3 。 2 1 1 当用资源库的建立 分为词库的建立、模式库的建立和规则库的建立这三个步骤。 词库分为三个部分。第一个部分是专业词汇特征字( i i - j ) 库,这个库内的字通常是 专业词汇用字( 词) ,可以出现在专业词汇的首部、中部或者尾部。第二个部分是指示词 库,该库的建立是为确定专业词汇的出现位置,它们通常是和专业词汇一起出现的。第 三个部分是关系词汇词库,里面存放指示并列关系、上下位关系、同位语关系的词,第 四个部分是单字词库,里面存放的都是不能和其他字成词的单字词。 在专业词汇、上下位和同位关系词汇的获取过程中,利用的是模式匹配的方法。这 些模式是一些简单的专业词汇及其相关知识的触发抽取模式。它们是在人工干预下半自 动获取的。模式库分为三个部分,它们分别是专业词汇获取模式库、上下位关系词汇获 取模式库和同位关系词汇获取模式库。 规则库的建立方面,在专业词汇识别过程中需要建立两类识别规则库:词性搭配规 则库、语义类别分布规则库。由于在获取过程中,采用三种策略:并列同现、模式匹配 和特征词匹配,因此相应的也要建立并列获取规则库、模式匹配规则库和特征词匹配规 则库这三类获取规则库。 如此形成了在识别过程需要用到的资源库。 2 1 2 专业词汇获取设计 根据在语料中的出现的规律 采用四种策略抽取专业词汇。 7 - 中文新词自动检测研究 第一种是并列同现获取。此种策略基于这个认识:相同语义类名词经常共现。第二 种策略是特征词匹配获取。特征词是特指专业词汇用词( 字) ,可以出现在专业词汇的首 部、中部和尾部。第三种策略是模式匹配获取。对于语料中的专业核心词根据其出现的 上下文,按照模式触发位置抽取专业词汇。第四种策略则是词汇噪音的剔除。通过建立 一个矩阵来计算抽取的新词语与已经确认的专业词汇之间的语义相似度,将小于一定阈 值的词汇认为是噪音词汇而加以剔除。 2 1 3 该方法的实验效果 引入词汇可信度度量来决定最终的专业词汇。可信度的计算公式入下: s c o r 脚,d ) = 器 其中c o u n t l 为词w 在专业领域d 的上下文窗口中出现次数。c o t a l t 2 为词w 在语料 中出现次数。 他们的实验语料选自中国北方农业信息网、中国农科院植保所、通州农业信息网、 山西农业信息网和中吴网等网站,最后的结果的正确率是7 6 左右。 2 2 统计为主的新词语识别 在无词典切分的一些研究中,需要从生语料中利用统计信息建成一个临时切分词典, 在这个临时切分词典中,也包含了新词,如果把那部临时切分词典与现有的一部词典进 行对比就可以得到新词,因此可以认为无词典切分的研究方法也可以用于新词语自动检 测。 相对规则为主的新词语识别而言,统计为主的新词语识别的方法比较多。在统计为 主的新词语识别研究中,以串频统计的方法略多一些。其他的方法包括定义独立词概率, 把新词看成是一个二元分类的问题利用支持向量机来寻找新词,还有利用字之间相关度 从生语料中建立词典,利用基于字的句法分析寻找新词语等等方法。 2 2 1 串频统计的新词语识别 在刘挺等人的无词典切分的研究、沈丽琴等人的m m 新词发现专利和郑家恒等人的 对于网络新词的研究中使用了这种方法【支0 挺,1 9 9 8 】【沈丽琴,2 0 0 2 】【郑家恒,2 0 0 2 。在 具体的研究中所采用的具体方法各不相同,但是整个步骤基本一样。串频统计的新词语 识别方法的整个主要的处理步骤如图2 1 所示。 在预处理中,是对文本进行一些初步的操作,主要是利用一些标记比如标点符号等 等将原始的连续的文本分成短串,串频统计这一步则将文本中的所有的串的频度统计出 来,对于这些统计出来的结果在第三步中,根据各种信息进行进一步的删选,从而得 到最终的新词语结果。 第二章新词自动检测技术研究现状 图2 1 串频统计的新词语识别的主要步骤 2 2 1 1 预处理 在刘挺的无词典切分的研究中支f 艇, 9 9 s 1 ,采用一些预定义的符号对文本进行粗 切分,这些符号称为显式切分标记和隐式切分标记。显式切分标记和指的是文本中的标 点、数字、西文和其他非汉字符号等,隐式切分标记指的是一些构词能力不强的字,比 如“啊”、“吧”、“了”、“很”、“吗”、“么”、“谁”、“你”、“它”、“他”、“她”、“要”、 “也”、“又”、“有”等字,它们和别的字组成的词比较少。 在沈丽琴等人的m m 新词发现专利中,通过预先定义的s b 模板和新词模板将很长 的输入串分成较小的部分,完成预处理的过程,从而为下一步构造通用原子后缀树 ( g a s l ) 结构进行串频统计而做好准备眦丽琴,2 0 0 2 。 s b 模板的定义为: s b p a :标点符号。 s b pb :在语料库中的阿拉伯数字和字母。 s b pc :利用公共词汇表对原始语料进行分段后的多字词与多字词的组合。因为多 字词组成的串一般不会是要找的新词。 例如:代表着未来生活方式的互联网技术将不再会将弱视和失明者拒之门外。 利用公共词汇表分段后为: 代表着未来生活方式的互联网技术将不再会将弱视和失明者 拒之门外。 用w 表示多字词,用c 表示单字词,上述句子可以表示为: w i c l w 2 w 3 w 4 c 2 c 3 c 4 c 5 w 5 ( :6 w 6 c t c g w ? c g w g c l o c l l c l 2 w 9 定义新词模板n w p 如下: n w p a :c i c h l c 表示所有单字词组成的串。 n w p b :w i e k ,c i w k ,w i c k w i “c i w k c i + l 等,表示单字词和多字词组成的串 w i w h 。表示的是多字词组成的串,它们是s b pc 。因此分析上面的句子,可见“未 来”、“生活”和“方式”都属多字词,所以可以忽略“生活”这个词,而其他的组合 都符合新词模板,因而有可能成为新词。用“i ”来代表s b ,则句子看起来是: 9 中文新词自动检测研究 代表着未来i 生活方式的互联网技术将不再会将弱视和失明者拒之门外l 这表示两个串:“代表着未来”和“生活方式的互联网技术将不再会将弱视和失明 者拒之门外”,这样无需再对整个句子构造g a s t 结构,可以减少所占用的空间。 2 2 1 2 串频统计 预处理后是串频统计。刘挺是利用局部上下文来进行串频统计f 刘挺,1 9 9 8 ,而其 他都是在全文进行串频统计。沈丽琴等人利用通用原子后缀树结构( g a s t ) 来统计串频 【沈丽琴,2 0 0 2 ,郑家恒等人利用n 元递增分步算法来统计串频 郑家恒,2 0 0 2 。由于在 我们的研究中,串频统计的算法很重要,这些串频统计算法将在后面叙述。 串频统计的结果并不能保证都是所需要的词语。因此对于结果还需要进行进一步的 处理。在这些研究中,结果进一步的处理方法也各不一样。 2 2 1 3 结果处理 在刘挺的研究中,是这样对于串频统计的结果进行处理刘挺,1 9 9 8 。 预先建立一个词缀集,里面包含了前缀,如“元”、“准”、“老”等,后缀,如“性”、 “率”、“器”等。 定义:若汉字串s 是由汉字串t 分裂而得的子串,且s 的频度不大于t 的权值,则 称t 完全覆盖了s 。 对于串频统计出来的结果的处理规则如下: 【l 】计算每个短串的权值。加权函数是w = f xl 3 ,其中f 为串频,l 为串长,即汉 字串所含的汉字个数,这是个经验函数: 【2 】如果该汉字串的前后缀在词缀集中存在,则相应的提高其权值; 【3 】每个不被任何其他汉字串完全覆盖且频度大于阈值h ( 比如2 ) 的汉字串被视 为潜在的候选词,记录下来; 【4 】如果某个候选汉字串的权值超过某个给定的阈值d ( 比如4 0 ) ,该汉字串被认 为是词,存入临时词表即临时切分词典中。 最后生成了一部临时切分词典,其中也包含新词语。 在沈丽琴等人的i b m 新词专利中,则是进行了下述工作来对新词进行修剪: 1 】限制功能词,“的”、“了”等词通常不能成为新词的结尾或者开头部分。 【2 】选取较长的词。这个过程类似于子串归并。 在郑家恒( 2 0 0 2 ) 的工作中,利用n 元递增分步算法对于从i n t a r n c t 上采集下来的 语料进行串频统计,分别得到2 元、3 元和4 元的候选词库后,对于候选词库,利用规 则进行进一步的过滤处理【郑家恒,2 0 0 2 。 首先剔除“功能词”和“功能字”,然后将频度是1 或者2 的“偶然性”噪声字串 去掉。接着过滤掉n 元重叠,比如“手提电脑”覆盖了“手提电”和“提电脑”这种情 况,最后利用构词规则库进行过滤。 构词规则库分为三类:常规构词规则库、特殊构词规则库和“互斥性字串”过滤规 则库。常规构词规则库主要搜集了现代汉语的几种构词方式,比如名词与名词的组合等。 1 0 第二章新词自动捡测技术研究现状 特殊构词规则是指为一些不符合常规构词法规则的新词建立的规则,“互斥性字串”过滤 规则中的“互斥性”是指根据构词法原则,如果组成候选词的各部分词性有明显不能成 词的部分,将其去除。因此“互斥性字串”过滤规则是用来将如副词开头的候选词或者 是含有连词的候选词等等过滤掉。 2 2 2 其他统计的新词语识别方法 2 2 2 1 使用独立词概率的方法 a n d iw u ( 2 0 0 0 ) 等人的工作是对于在词法切分中被切成单字词的散串进行处理。文本 经过词法切分、未登录词识别后,由单字词组成的串,有很大的可能性是新词,比如“非 典”等。当然并不是所有的这样的散串都是新词,比如“她回了国才会来看你”被切分 成“她回了国才会来看你”。该文中认为只有当单字词组成的散串不太可能是由 一串独立词组成的序列的时候,这种散串才是新词候选【a i l d iw u ,2 0 0 0 。因此定义独立 词概率i w p ( i n d e p e n d e n tw o r dp r o b a b i l i t y ) 来作为单字或者单字组成的串的属性。单字 c 的i w p 定义如下: i w p ( c ) :n ( w o r d ( c ) ) n ( c ) 其中n ( w o r d ( c ) ) 是单字c 作为独立的词在语料中出现的次数,n 如) 是单字c 在语料中 出现的总的次数。从语料中训练出所有的r w p ( c ) 后,可以计算出由单字组成的串s 的 i w p ( s ) 。i w p ( s ) 是组成s 的单字的i w p 的联合概率。在训练i w p 时,用了包含5 0 0 0 旬 句子的语料,规模不是很大,但是实验结果证明了只要这5 0 0 0 句句子能覆盖所有常使用 的单字词就可以取得很好的效果。 得到i w p ( c ) 和i w p ( s ) 后,再定义阈值t 。如果r w p ( s ) = 2 ) 及数字、西文字符等一切非汉字字符去掉,均以空 格代替: 【2 】这样文档被表示成含有许多空格和汉字的字符串,从其首端向尾部扫描,以连 续的2 个汉字作为匹配字串,查找候选词条集,若有,则频度加一,否则加入, 频度置一; 3 】重复进行,直至字符串末尾: 该算法由于需要从2 元开始依次寻找,因此时间复杂度比较高。 第四章重复串查找 在刘挺( 1 9 9 8 ) 的研究工作中的串频统计是对一个滑动窗口内的上下文若干字进行统 计的 刘挺,1 9 9 8 。而我们是要对全文进行统计,并且是基于词而不是基于字来查找 重复串。 在沈丽琴等人( 2 0 0 2 ) 的新词专利中,采用了g a s t 通用原子后缀树结构并且在节点 上加上计数来统计串频【沈丽琴,2 0 0 2 1 。比如对于串a b a b e ,构建成的计数a s t 如图4 4 所示。节点上是计数,表示从根到该节点所构成的串出现的次数。 图4 4 串a b a b c 的a s t 结构 a s t 的原理可以被扩展到去存储多个输入串,该扩展称为通用原子后缀树( g a s t ) 。 g a s t 的缺点在于占用的空间比较大,如其专利中所说,长度为n 的串s 的a s t 可在 o ( n 2 ) 中建立【沈丽琴,2 0 0 2 。 4 3 重复串查找算法 我们提出了自己的重复串查找算法,时间复杂度上界是o ( k n ) ,其中k 是文本中最长的 重复串的长度。空间复杂度是线性的,很好的满足了新词语自动检测中搜索重复串的要求。 4 3 1 算法原理 整个算法分成两个过程:预处理过程,搜索串和子串归并的过程。 预处理过程首先扫描整个输入的文本一次,除去标点等一些预定义的排除符号,将 文本中的每一符号映射成一个数字,并且记录下每一种符号出现的所有的位置,然后去 掉出现次数未达到预设阈值的符号,并在输入文本中将那些符号出现的位置置为空格。 这样如果所预设的重复串闽值高的话,就无需再对那些符号的位置进行存储,也无需再 中文新词自动检测研究 对那些符号进行搜索,可以减少占用的空间。 搜索串的过程依次从每一种符号开始,对其进行往后扫描。假定有段输入序列如图 4 5 所示,下面以符号x 为例解释一下这个往后扫描过程:( 假定重复串的出现阈值是2 ) p 0p imp 3p q oq 1mq 3m 图4 5 输入序列片段 图4 6 搜索过程 从符号x 开始对后面进行扫描。如图4 6 所示,x ( p l ,q i ,f 1 ) 表示x 的后继位置是p i , q l ,r l ,同时也表示p l ,q i ,r l 的前一个位置p o ,q o ,r o 上的符号都相同。其中“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论