(计算机应用技术专业论文)规则与统计相结合的兼类词处理机制.pdf_第1页
(计算机应用技术专业论文)规则与统计相结合的兼类词处理机制.pdf_第2页
(计算机应用技术专业论文)规则与统计相结合的兼类词处理机制.pdf_第3页
(计算机应用技术专业论文)规则与统计相结合的兼类词处理机制.pdf_第4页
(计算机应用技术专业论文)规则与统计相结合的兼类词处理机制.pdf_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

规则与统计相结合的蒲类词处理机制 摘簧 词性标注是自然语言处理中的一项基础性课题,词性标注的正 误对汉语谬料库标注、机器翻译和大规模文本的信息检索等都有 重臻的意义。 本文对词性标、矬的方法进行了研究,分析了基于规则的方法和 基予统计的方法的饶缺点。在此基础上提燃了规则和统计媚结合 的摊歧策略。在规则方法中,改遗了规剐痒的构愆方法,用兼类 词词性代替兼类词本身,并尝试使用统计辅助构建规则库;在统 计方法中,在二元语法模型基礁上萼| 入了学习瓿铡豹壤念,摄据 学习结果对词性概率和词汇概率的获取方法进行了修正。按照上 述策略,实现了一个兼类词处理系统,闭式标注正确率达9 7 。8 5 , 开式标注正确率这9 6 7 1 。试验测试结暴标明撬剃帮统计糟结合 的兼类词处理机制可以有效地提高词性排歧正确率和词性标注正 确攀。 关缝翊:溺悭掭洼;n 一元摸墼;裁列;学习壤裁;兼类竭 、 鲤! ! 皇熊盐塑煞宣照整娄翼垫蹩煎趔 轰b s t r i i 菠 p a r t - o f - s p e e c ht a g g i n gi saf u n d m n e n t a lt h e m e i nn a t t w a ll a n g u a g e p r o c e s s i n g i ti ss i g n i f i c 剥a t 协t h el a g g i n g 醴c h i n e s ec o r p u s - b a s e d , m a c h i n et r a n s l a t f o na n d n f o r m a t i o ni n d e 。x i n g 蹬i a r g es c a l et e x t i nt h i sp a p e r , w e s t u d yt h em e t h o d o f t h e p a r t - o f - s p e e c ht a g g i n g a n d 嚣疆 戳t h er u l em e t h o da n d , h es t a t i s t i c sm e t h o d 。b a s i n go i l 巍w e b r i n gf o r w a r dt h ed i s a m b i g u a t i o ns t r a t e g yu s i n gr u t et e c l m i q u e sa n d s t a l i s t i c st e c h n i q u e s kr u l em o d e l 。t h ea c q u s i t i o nm e t h o do f r u l e sb a s e i s i m p r o v e d ,甍鼍瓣t h e p a r t - o f - s p e e c h o f s y n t a e d c c a t e g o r y t o r e p l a c e t h es y m a c t i cc a t e g o r y i na d d m o n s m t i s f i e sm e t h o di su s e dt oh e l p 掷 e 。q r i s t r a c tt h et 1 1 l eb a s e 秘s t a t i s t i c sm o d e l 。t h ec o n c e p to fl e a r n i n g m a c h i n e - m a d e 扭p r e s e n t e d 。酝a c c o r d i n g 蝤穗薄r e s t f l to fi e a r r d n g , t h e m e t h o do fe a l c u l 剐j n 壁t r a n s i t i o np r o b a b i l i t i e sa n ds y m b o l p r o b a b i l i t i e s 嚣撼a r a e a d e d + 碱袋t h e 建瓣摊m e t e d ,摹g y s t e r a 醴镬s z m n g u a t i o n 强 m a t e r i a l i z e d 。t b eo v e r a l la c c u r a c yo fc l o s e 捃s i s 筋s s a n dt h e a c c t t r a c yo fo p e l lt e s ti s9 6 、7 l 。砒1 ee x p e r i m e n t a lr e s u l t ss h o wt h e t a g g i n ga c c u r a c y 瓣d i s a r n b i g u a t i o na e 2 1 1 r a c y 瓣r a i s e d 磅灏建葚a t l e t e c h n i q u e sa n ds t a f f s t i c st e c l m i q u e s k e y 鬻站曜霹嚣 p a r t - o f 碡p e e e h 垂建| 舞稿鐾;n - g r a m ;r u l 鐾; l e a r n i n gm e e h a n i s m ;s y l a t a c t i cc a t e g o w ; 规则与统计相结岢的兼类词处理机制 o 引言 o 。1 自然语害理鳃援述 自然语言理解是人工智能和信息处理领域中的一顶重要而富有挑战性 戆漂蘧。蹶谌蠡然诿富是耀瓣于诗辣辊语言懑吉静,糖赫是人餐霹露镬熏 的语畜,例如汉语、菠语、日谮等。计算机系统内部熄通过特定形式的“语 言”( 二逶割载磷序涮) 传递清息、蛰调动箨豁。为了让诗篓飘为天娄激务, 人同计算机电必须进行通讯。当前在绝大多数情况下。人同计算机避行通 讽时,特裂是当太告 j 搴计算槛“徽什么”和“怎么擞”豹对候,所锼爝豹 语言仍然局黻于程序渡计语藩、操作系统的命令语言以及使褥数据库驻及 窗口界面上盼菜单。盎l j 果计算机能够“理解”自然语瓷,用户就能够通过 塞然语言霞藤备释软彳牛,菠诗簿巍酶捷雳环撬变褥更搬弓;j 天入涟。嚣览“叁 然语言理解”直是计算机科学中的个重熏而富有挑战性的课题。 麸诗冀枫辩学酌臻爱看,彦然语骞溪籍弱彳芏务就是建立静琵够像太 样“理解”自然语言的计算模型。关于计辫机对自然语言的“理解”一 般可以攫据实髑豹接囊处理懿蕊点进行评判。鲡果谤嚣褪实现了( 1 ) 人辊 对话;( 2 ) 梳器翻译;( 3 ) 蟊动文摘;( 4 ) 带有感情遗朗读文章等语言信 息处理功能,戟认为计算机具备了一定程度的自然语蓦理解姻能力。 技匿研究鑫蒸语言静藩惑处理当然以汉语彳謇鸯主瑟研衮对象。我藩在 1 9 5 7 年就开始进行机器翻译的研究,魁世界上最早开展自然语言信息处理 繇究蕊鏊家之一。季过天鬟貘系统逮瓣叠装谬畜楚理进行舔巍是囊豁年霞 中期才开始的。我国研究自然语言处理的主要糟力集中于实用系统的开发, 祝器翻泽是鼹热门斡瀑题。 0 。2 帆器翻译及其处理过程 机器翻译系统是欺型的、有明显熨用价值的自然语言处理岽统。 黼0 1 爱躞器霆警代基予壤虽方法簿辍嚣鼗译系绞麓基本模型。9 0 年 代,枫器翻译研究还发展了燕于统计与基于实例等各种模型。不过,当前 世赛上实际运行的机器翻译照统基本上仍以基于规则的模型为基础。从这 令墓零凄型霹以了舞到,辊器魏泽系绫懿蒸本魇瑾仍是要素食残泵褒。蕾 援刘与统计招站台扮装攫词她理枫剖 先捧琢文黔旬予分菸成然本搀或簧豢( 谰,镄艨语等) ,这样才可阻鸯诲惑, 方好运髑语法规刚找穗旬予的结梅,这就是句法分析( 龟疆诵法分丰斤) ,并 暹过溪义分缀及语缓分褥蓑 狳不适当戆菠义,瓢嚣澎藏爨文耱撬器囊部表 示。予鼹哥在缝橡屡次主逶纾转换,褥戴译文匐予豹缝稳,劳逸撂逶当麴 译词,以后爵进行词序调整、虚词增删及形态变倔,艘终得至4 译文的甸子。 扶图o ,l 可叛蕾爨:戳器翻译过穰中词法分手斤怒鏊穑,蔼调经栝注又楚司法 分撅貔令羹要环节。下瑟我销努聿嚣下落穗标洼懿萋瑟性。 蠹0 1 辊嚣黼译系统基本穰篷 f i g ,o 1t h eb a s i cm o d e lo f m a c h i n e t r a n s l a t i o n 0 3 词性标注憋重要性 谱料辟是机器魏译研究中的熬础。在语料瘁傣感加工的过程申,谜性 撅注爨一壤墓鬟 | 渡漾趣。溺箍稼注静任务藏罴在鬃俸靛语言环境中正确魏 瓣窭一个斓黪确切疆戆。鼹暴溺憋标注镄误,藏套影璃螽嚣懿句法分掰秘 语义分析,甚至学致是然语言理解鲍严重蹬谡。因此谰憋标注对汉语语瓣 霹标;! 妻、手氕嚣黼译和大撬模文本的信患被索警鄱有重簧的意义“。具体说 骧如下: 1 ) 在税器翻译中我们不但要躲谨溺义,还娶酝遴落戆霆漫,戆摄擦不 阉的谣言环麓逡撵最燎当麴词义。标注溺馑就楚注盟溜秘爆法浆最有效熬 2 规则与统计相结台的兼粪词处理机制 手段之一。 2 ) 标注词性有助于词的义项分合静确定或发现新义项。词类划分以词 的同一性为基础,分析词性( 也就是充分考虑词的用法) 会为分析词义提 供一令赫兹焦菠,豫 萃缝载调义分摄熬不足。 下面举例( 例子中凡未注明出处的都是现代汉语词典的例子) : ( 1 ) 结果: ( a ) 在一定除葭,缮耪发矮掰达到黪最后状态:优楚懿成绩, 是长期刻苦学习的。 ( b ) 经过一番争论,他还是让步了。 这里的第一个铆旬中的“结莱”是名谰,僵第二个例旬中的“结 果”是连词,因此“结果”应分两个义项。 ( 2 ) 较: ( a ) 一劲儿。 ( b ) 工作前更为努力。 ( e ) 蠲少豹钱,办多豹豢。 这三个例子中的“较”词性都不同,在“劲儿”中是动词, 在“工作萤更为努力”中是介词,在“用少的钱,办多的渗” 串副词,应分立三个义殒:( a ) 动 较爨( b ) 介 酲( c ) 较 为,相对她。 ( 3 ) 吠:( ,l ) 冼喻暴躁或渡怒: ( a )心头起。 ( b )他儿了。 ( a ) 中“灾”是名诿,( b ) 审“失l ”翔是动谣,嚣戮应荛火 分为两个义项:( a ) 怒气( b ) 动 发火,发怒。 3 ) 标注词性有助予准确堍释义。释义是与词的词j 矬相关的,不同词性 的词应采取褶应的释义方式,般情激下用采释义盼溺语应蘩本上与被释 义的词的词性相同,即释义应与词性协调,准确的释义离不开准确的词性 分毒厅。 总之,应做到释义、配例和词性的协调。考虑词性会为我们增加个 看问题的角度,多一种眼光,其结果是使我们对义项分合、释义和举例有 了掰豹宝天识。 0 。4 檬注词燃麓可戆性和邈难 词性标注的可能性分析如下: 1 ) 谓类区分是整器语言的共同存在的闻题,汉语落不铡岁 。 汉语同其他语言一样,词在组合中不是随机排列的,而怒有序的,这 ; 中有序牲搏现为语法位置对词语的选撵限专8 ,妇: 规则与统计相结合的兼类词处理机制 ( 4 ) 这一本书 l a jl b _ i j e 一忆一i 按层次分析法,例( 4 ) 共有六个语法位置,其中位置b 、c 、d 、e 、f 五个位置分别可以由以下单词替换: 位置b :纸、鱼、石头、花生、苹果( 名词) 位置c :那、每、任何、某、另、唯一-( 指示词) 位置d :不少、一切、许多、俩( 数量词) 位置e :两、三、四、十、半、几( 数词) 位置f - 张、条、块、粒、个( 量词) 这种替换是有限制的,比如出现在位置b 的词不能替换出现在位置c 上的词,出现在位置c 上的词不能替换出现在位置f 上的词,反之亦然。 也就是说,语法位置对能进入的词有选择限制,不同的语法位置允许进入 的词是不同的。这就表明,词语的本身的性质有不同,我们就可以根据词 的性质的不同把词分成不同的类。 2 ) 汉语词类划分研究已有大量积累,我们已经找到汉语词类划分的一 套明确标准,并对4 万多词进行了归类,证明这套标准是可行的。 根据我们的工作,标注词性主要有以下几方面困难: 1 ) 个别词用法特殊,难阻归类,但数量极少。如:整、摄氏、例如、 内秀、据说、阿门、贵姓。 2 ) 个别词在使用中的句法成分不好确定,因而不好归类。如: ( 5 ) 决心提前完成任务( 如果整个结构是述宾结构,那么“决心”应 看作动词;如果整个结构是状中偏正结构,那么“决心”应看作副词。) ( 6 ) 继续前进( 如果整个结构是述宾结构,那么“继续”是动词;如 果整个结构是状中偏正结构,那么“继续”是副词。) ( 7 ) ( 三名工人) 随同他前往工地( 如果整个结构是连谓结构,那么 “随同”是动词,如果整个结构是状中偏正结构,那么“随同”是介词。) ( 8 ) 享年 k 十岁( 如果整个结构是主谓结构,那么“享年”是名词, 如果整个结构是述宾结构,那么“享年”是动词。) 3 ) 部分词的用法不清楚,主要是文言词和专门用语。如:狐媚、安堵、 4 规则与巯计相结台的兼类词处理机制 板荡、错谬、风凉、澎染、黪转、爆掇。这个闫题可以通过大规模诿料瘁 的建立来解决。 4 ) 部分制同一性的确定有困难。如“很危险”和“有危险”中的“危 险”怒否弱一,“擐爨难”积“不少鬻难”中“嚣难”是否弱一,“表戮缛 很好”和“他今天的表现很好”中的“表现”是否同一,“文麓的论点前后 冲突”和“武装冲突”中的“冲突”是否同。词的间一性涉及到分类的 单位,如票不黼一,帮么鸯定应作为两个单像分剐考察,处瑗藏兼类诲或 不同词类的同音词:如果同一,那么鼹一个举位,可以处理成兼类词也可 以不处理戏蔑类词,楚否处理成蓑类谰,要遗盘考虑。 尽管有以上困难,但归黉有困难的谪单纛是少数,其中些问题随着 研究的深入可以得到解决,那些目前时还不能定类的词,不妨暂时归入 语法功耱接近熬词类,篦磐可暂怒“熬”妇入影窑蘧,“铡絮、摆说”鹅入 动词替。 0 5 词性标注应注意的问题 逶遭对凡鼙谣典懿谲往稼注_ i 捧豹分耩,筏赛凳褥主要应注意圈点; 1 ) 应通擞考虑,建立一个内部协调的词类体系。比如,过去的多数词 类体系不区分彤客词、状态试、区别调、数量词,郝织入形容词,又把形 容词归入请谢( 主要俸谓语) ,但实际上区剐词、数量谲都不耩谓词,而属 饰词( 主要作修饰语) ,因此这样的体系内部不协调。目前已出的标注词性 懿调典帮没有认奏俘这方嚣熬磅究,大多是港建“錾揪体系”瓣词类系统, 缺乏明确的划类标准,漏洞不少。 2 ) 应以明确的语法功能为划类标准,不能以意义为划类标准。之所以 翔藏,是霞为必须强哥袋察静( 看褥冕懿) 特征为翻爱标准,这群才麓有 可操作性。意义不可观察,因而用来判断词性不可靠。 3 ) 注意网性问题。 词类划分应以概括谲为对蒙,因j 鞋:,剜类的前提蹙确定谲的同一健, 同一性确定不好,就有可能把同一词的不同用法看作不同单位而划归不同 运类,羲忽臻镄豹羡类。 4 ) 兼类词的处理应全盘考虑、统一处理。兼类词裔异型兼类词和阿型 兼类词两种。异型兼类词指词义不同的兼类词,如“领导( 动、名) 、锁( 动、 名) 、死( 兹、影) ”,落有太歆为这些蜜际是弱啻谣。黼鍪兼粪淘摇谲义穗 同的兼类词,如“共同( 区别词、副词) 、小时( 量例、名词) 、区别( 动 词、副词) ”。异型兼爽词必须处理成效类词或异类同音调,但月型兼炎词 从理论上说刚不一定处理成兼类词,这与我们的划类策略有关。比如“研 究、梭查”一类词,兼有动词和名词的性质,我们可以采取同质策略处理 残动词慕名弱,逛可以采取瓣墅策略处理成第三类词,还可以采取优先霾 规则与娩计相结音的兼类词处理机制 型藏酶处理成动词或名逦。剿底采取哪一秭繁略,主要应考虑下嚣聪方嚣 蓠素: ( a ) 词类的简单性:类的总数尽可能少;同型兼类词总数尽可能少。 两) 訇法蕊刚熬篱单缝:剡毅礤一词类魏不鞫谲蕊语法动藐黩尽爵麓擎一。 两方筒因素实际上是矛盾的,照顾了词类的简单性就会破坏旬法的简单性, 照顾了句法的简单性就会破坏词类的简单性,因此应全盘考虑,使两方面 黪蕊代瀹箨整 鼹枣。泷燕“磷究、稔鸯”等翼毒葫词黪名词链震静疆占露 用动词的4 4 ,若采取同质策略,则会使兼擞词太多,破坏词类的简单性, 由于数量螺当丈,困嚣在句法觌测方磷撂到媳好处远远羝不上在词类舱麓 荤注。l 所彳寸蹈盼代徐,所殴庭采取德先露叠 策旗,挺这类谲照理为秘谲, 叫“名动词”。只有在词类性质重合的词数量少时,才宜采取间质策略。比 势,“胜裂、透豢、缓锲”等器喜动邂夔,叉蠢爱嚣性( 霹徽状语) ,这一 类词数量程少,采取间质策略不会使狭义兼炎询过多,还会有词类与词类 性质一对应的优点,两方磷的总代价较小,因此宣对这些词采取同质策 褡,憝蹙为韵落豢剥谬。 一旦划类策略定下来,就应对同溪现象作统一处蠼,比如如果把“研 究”处理藏动词羲名溺,就应把“生产、管理、照颞”等也处理戒动溺蓑 名词;懿果懿者处理感动诿,鄢么霜海龟应艇遵成韵谤。 0 。6 墓类词统诗 褒然语言瓣竣义经器开教幢是裁鳇穗器魏译系绫戆重要嗣豢,跛义牲 包括多个方面,其中,词类螋义是措一个词w 能其有多种语法兼类。由于 计算机处理文本数据戆通常不考虑读音,同形词和兼类词的识别处理没有 廷舅,只是在谲蕊蠡注过程中遒赘懿词性薮义现象汰传凌语言擎意义之嚣 兼类现象范围更广,它主要包括以下几种情况。1 : 1 ) 字周赘不同的词; 如;“孬”( h a 0 3 卜_ 曩:豫缀簿 ( h a 0 4 卜v :他好吃 2 ) 字露密围义不越翦漏: 鞠:“编耩”1 l 【稽入】:他是编辫 “编辑”一v 【指动作】:他在编辑教材 3 ) 字露罾露篓蒹炎谣: 如:“丰肖”一a 批【生活很丰富a ;丰寓,v 业余生活1 “把”q p ;f 把国书放上甄;一把q7 3 1 4 ) 1 ) 、2 ) 、3 ) 抟各毒孛灌合髂: 如:“了”:既有字间音同的兼类词( u y ) ,又有字同音不同的不同擞词 ( v ( 1 i a 0 3 ) 啦( 1 e ) ) 娥则与绫吾 糖结啻躺簸娄运黪理壤铡 对予汉露中鞠这揍谗言现象,我髑绞魏为词豹确形髯类现象,蕊恕鼹 有这些现象的词,尉称为兼炎词。在这爨,我们掰稍了北大提出的信 患楚理露璐代汉语谣语添法功蘸努装,冀璃性与代弱歹l 在襄e 1 中。 裘0 1 汉语调性代鹤褒 t a b l eo 1c o d eo f c h i n e s e p a r t - o f - s p e e c h - 名谲n嚣爨键8熟潺u麓睡浯 j 时阉谰t彤密调a疆气调 y溪震语 i 方位词f状态词z羧声诞o接头键h 璧调 q 渤词v观锶 e 渡慝调k 语豢 g 副词d连词c成语i 魉浙s分浏p代词r数词m 滠港中词瓣兼类蹩蓄遮存在瓣瑷蘩。营经有入递进对动试j j 法溺典 。3 熬约4 0 万字语辩貔甥分缝聚送行统计,褥裂了表0 2 懿绩暴。 滚0 , 2 兼粪谪现象统计凌 t a b l e0 2s t a t i s t i c so f s y n t a c t i c e a t e g o r y 憩嘲次2 9 1 6 2 3 ( 个) 总词条1 0 8 1 3 ( 个) 兼突词词次1 0 7 4 0 6 ( 夺) 兼类词弼条4 6 3( 个) 装类词残蒙1 0 2( 耱) 幽于语料主要趋研究备种动词用法的例旬,霞此句型比较规范,零枫词较 多,遗些特点在绞计绻栗中氇霄掰箨畿。表0 , 3 ,褒0 , 4 分掰列蠢了语瓣中 趱鼹皴率爨毒豹瓣2 0 令兼蓑灞黪蘩 0 释霹形异烫褒象。铁这蹙统诗缩粱 中,不潍发蠛以下特点; 1 ) 熬袭调数爨虽不多( 占词蘩总数豹4 2 s ) ,值毽现频度却缀意( 约 占葱嗣次鹣3 6 8 ) 。 2 ) 越是鬻鼹瓣谣艘义理装越严重。袭0 。3 中游2 轻个蘩粪逶慧共懑麓 了4 7 1 8 7 次,占了装类词总运数瓣4 3 。9 。 3 ) 嗣瑙辩类现象错综复杂,憾分布很不均匀,一照常见词性歧义缀合 占缀太院弼。了群了溪籽中兼炎稍现蒙稳分布疑簿,对我粥在语瓣 熬塞动镬浆拣注中采取芷勰鹣繁溱是鸯缀霪要寝示意义懿。 7 规则与绩计相结合的兼类词处理机制 表0 3 兼类词耐表( 前2 0 个) t a b l eo3s y n t a c t i cc a t e g o r yt a b l e ( t h ef o r m e r2 0 ) 序 霉 词条词性熬次数词条词性集次数 号 t m d 。c6 3 7 ln了 v u o v1 9 0 7 l 2上v f4 0 4 61 2 起 v 。q 1 7 8 0 3过d - u v3 4 4 71 3就d v c o1 7 7 0 4把 q p 3 2 3 91 4里 q f 1 7 4 6 5来m - v3 1 8 51 5在 p - d v 1 6 8 0 6着 u - d v - q 2 4 8 51 6得u v1 5 2 5 7到 p - v 2 2 7 81 7次 q - a 5 0 6 8下 q - v f 2 2 5 01 8出 v q 1 3 8 5 i i9两 q m 2 1 9 81 9好v a d1 2 0 8 。1 0开 v q 1 9 9 42 0 没 v d1 1 6 9 4 ) 蓑类词数量虽不多( 占词条总数戆4 。2 8 ) ,但出现频度却缀蠢( 约 占总谪次的3 6 8 ) 。 5 ) 越是常用的词歧义现浆越严熏。表o 3 中前2 0 个兼类词总共出现 了4 7 1 8 7 次,占了兼装谲总溺数舞4 3 。9 。 6 ) 同形异类现氖错综复杂,但分布很不均匀,一些常见词性歧义组合 占很大比例。了解了港料中兼类词现象的分布规律,对我们在语料 酶富魂词牲标注中采敬正确静策略是有缀重簧启示意义簿。 韪前,汉耪掇嚣弱译正在深入磅究,任何工程纯戆汉语句法分析袋绞 都不能回避汉语词的兼类消除这一重器而又圈难的问题。词傲是一个词最 重要的语法属性。如聚一个词的词性不确定下来,则汉语句法分析无法进 行。麴柒一令溺静淫黢选舞罐了,餮l 会导致句法分耩斡严重镑误甚至失黢。 例如,v n 兼类,v p 兼类等,他们对句法分析的影响是全局性的( 艇个 句子范围) 。 塑型兰笙盐塑笙宣塑蔓鲞塑竺堡垫型 0 7 词性标注和兼类词的研究现状 国外对英语语料库的自动词性标注研究可以分为以下几个阶段:七十 年代初,主要采用了基于规则的处理方法。其代表是t a g g i t ”1 系统主要利 用了3 3 0 0 条上下文框架规贝l j ( c o m e x tf r a m er u l e s ) 对1 0 0 万词次的b r o w n 语料库* ,进行了自动词性标注,处理正确率达到了7 7 。七十年代末到八 十年代初,随着经验主义方法在计算语言学研究中的不断流行,基于统计 的词类排歧方法开始得到应用。1 9 8 3 年的语料库标注系统c l a w s 1 最先采 用了s h a n n o n 的噪声信道模型”1 思想进行词类自动标注。通过利用b r o w n 语料库的正确标注语料训练参数,达到了9 6 的正确率。从此以后,随着 正确标注语料数量的不断增长和统计处理技术的不断完善,基于统计的方 法在英语语料库的自动词性标注器设计中占有了主导地位。如: 8 】,【9 , 1 0 等。相比之下,国内对汉语语料库的词性标注研究则起步较晚。近几年来, 清华大学和山西大学对基于统计的汉语语料库自动标注方法进行了一些研 究和探索,提出了一套用于汉语语料库标注的词类标记集,标注正确率也 达到了9 5 左右( 1 1 】, 1 2 ) 。从9 2 年初开始,北大计算语言学研究所开 始进行汉语语料库的多级加工处理研究,提出了一种切分和标注相融合的 汉语语料库多级3 h q - 方法“,其中的重要内容是规则和统计相结合的处理 思想。此外还有基于神经网络、遗传算法等“”的处理方法。 0 8 本文内容的提出 目蘸汉语词性标注的研究方法虽然有很多,但是主要的方法还是基于规 则的方法和基于统计的方法。基于规则的方法是一种传统的方法,其优势 在于能充分利用现有的语言学研究成果,对于某些特殊的的歧义组合,可 以通过对语境中的词语、词类和词语的特征信息的深入细致的描述,获得 很高的排歧准确率。基于统计的方法,其优势在于它的全部知识是通过对 语料库的训练得到的,因此可以获得很好的一致性和很高的覆盖率。目前 这种方法占主导地位。 但是这两种方法各有缺陷。对于规则处理方法最重要的就是规则库的 构造。目前规则库的构造存在下列问题: 1 ) 规则的不完备性。通过对常用词典进行统计,兼类词共有1 5 5 0 个,占 全部词汇的7 7 。若要将所有的兼类词抽象出规则来,是很困难的, 因为规则是通过特定语料总结出来的,很难做到覆盖活语料中出现的各 种情况,此外有些语言现象不能用规则语言来描述。规则的不完整性产 塑型皇篓盐塑焦堂照鲞耋塑熊里型! 型 生| l 皇蜃果楚;在测试语料中出现鬏则库中未曾总缀过的兼炎词或者麓类 词上下文谬境超出规则总结的范瞬。显然,规刚方法不能瓣决这些问题。 2 ) 规则的准确性。传统的规则的获取方法是利用人工从一定语料中总结得 裂瓣,毽瑟不爱舔涯每条蠛裂的漆浚搴,强暴麓荽噩躲准确肇镶稳,藏会 能词性标注的正确率下降。 3 ) 对于一条翘则两言,其覆羲率和正确率是成反比的。如果规则描述过粗, 覆溢率比较高,位精确率比较低;相反,如果对于一条规谢描述太细, 其正确率比较高,但覆盖的语言现象就会比较少。因此要兼顾规则对语 言璇蒙豹覆盖率翻溪萸l 殓瑾酶正确率,获褥一个综合往驻缀好豹裁掰库 是比较困难的。 4 ) 懿后词是蒺类词积未登录诞的 主援不易处理。 以上存在的不足鼹可以随着语料规模的增加而得到改进的,但改进的工 作量鼹很大的,而且规则不能描述所有语言现象,所以规则方法不能解决 一切麓类问嚣。 同样,统计方法也存在着如下不足: 1 ) 绕诗方法戆实矮怒选择禳攀嵩静谲性蠡记,这只麓一耱最大豹可戆往, 但并不是唯一的可能,它是以舍弃概率低的词性标记为前提的,这必然 会馊词蛙拣注鹃猴礁率受铡隈割。 2 ) 统计模型的选择和统计语料库的规模对统计方法的正确率影响很大。如 果统计语料库过小,就不能得到最贴近语藩现象本质的参数。进面影响 词性标注的正确率。 3 ) 训f 练语料的选择也很重要。如果训练语料的内容和题材不够广泛,偏重 予禁一方甏,魄魏髂弯方藤,使露这样懿谢练语辩褥窭匏参数遂季亍檬注, 会使得对遨个特定方面的测试语料标注效果很好,但对其他方面语料的 拣注正确警会毙较低。 从上面的分析可以看出,在词类排歧和词性标注中疆得到比较高的正确 率和覆盖窭,较好豹方法鼹将规则方法和统计方法结合起采,使这嚣釉 方法取长补短,互为补充。 0 。擘举文所傲靛王作 为了充分矧蔫撬弱方法翻统诗方法各垂豹饶势,本文对黧刘方法帮统 计方法分别进行了研究。我们在如下几个方面进行了研究: 1 ) 周煺则方法进雩亍词类撼歧。在援则方法中,耀蓑类谗豹词燃集代骜滚类 塑型要缝盐塑堕宣蝗茎鲞型熊矍! ! 型 词本身,总结出含兼娄词的词性袋熬规则,这样,趱则鲍覆盖率会有缀 大提高;用统计方法辅助构建规剃库,这样可在短时间内总结出大量的 规则,有很高的覆盖率,再通过大量测试提高规则准确攀。我们用1 5 万语科摄取蕊掰稀添茄统计知识库及迸彳亍封闭测试和参数训练。觚镄l 试 结果中我们可以看到,运用统计方法可以在短时间内生成大量的规则, 麓瓣弱正确率毽达羽了一定弱标漆。 2 ) 用统计方法进行词类排歧。我们对统计方法进行了改进,在二元谮法模 型基础上弓l 入了学习扭制,摄据学习结果对词性撅率帮词汇援率熬诗冀 方法进行了修正。首先利用从9 8 年人民日报中随机抽取的3 0 万语料 进行训练,再用训练乎导到的参数逃彳亍标注,然后将标注文本与标准文本 避行比较学习,璧新计算黼汇概率参数和词性概率参数。通过学习得到 的概率参数比最初训练得到的参数更加接j 艟于真实语料。我们用这些参 数对l o 万添瓣送行 雾| | 试,谈l 试结果表襄谣稳拣注歪确率稻慕类舞 玻率有 了明显提高。 3 ) 对援剐与统计援续台静方滋遂毒亍了疆究,以便充分铡雳魏则方法帮统计 方法各自的优势。我们实现了一个舰则与统计相结合的词性标注系统。 首先对一欺规则性比较职烂的羡焚词用规则方法撼歧,然后霉对规则无 法解决的滚类词使用统计方法排政。我们鞠9 8 年人名日报中随机抽 取的1 0 万语料对这个词性标注系统进行了测试,测试结果裘明,利用规 搿与统诗穗结台麴系凌逡手标注,灞类簿竣正确率秘词往标注歪确率比 用单纯的规则方法和单纯的统计方法都有明显提高。 规则与统计相结台的兼类词处理机制 1 基于规则的兼类词排歧模型 1 1 规则模型的基本思想 基于规则的兼类词排歧模型的基本思想是:利用从真实语料中总结出 来的规则构建规则库,当进行词性标注的时候,遇到兼类词,就去规则库 中查找,如果规则库中存在以此兼类词为关键字的规则就取出相应规则, 并根据上下文进行匹配。如果匹配成功,并且没有产生规则冲突,则排歧 成功;反之,规则方法失败。 规则库的建立是规则方法的基础,它的构造需要兼顾规则对语言现象 的覆盖率和规则处理的正确率两个方面。一般来说,对一条规则而言,其 覆盖率和处理的正确率是成反比的“,所以获得一个综合性能很好的规则 库是比较困难的。通常,规则库的建立是采用人工的方法来总结和添入的。 以兼类词本身作关键字,将可以确定一种词性的上下文语境抽象总结出来, 然后再把兼类词的各个词性的上下文综合在一起作为一条规则添入规则库 中。例如:规则“金向,p x :d l i n x :m n l l 眦厅强冠彬i 似n x :v l a ) ;”( 规则 说明:“全”是作索引的兼类词,小写英文字母表示词性,大写字母纪录位 置信息,n :下一个词;r :右边第二个词;p :前一个词;x :词性;w : 词。符号说明:m 规则或;& & :词性与;i :词性或) 可以解释为:当前 一个词的词性是副词时,或下一个词的词性是数词或名词时,或下一个词 是“的”并且右边第二个词的词性是名词时,兼类词“全”被确定为形容 词;当前一个词的词性是动词或形容词时,“全”被确定为副词。 1 2 规则库的层次 规则库的建立首先要考虑规则的正确性,在实际处理中,为了提高处 理的正确性,我们根据兼类词的出现频度及兼类特征,将处理分为三个层 次。 第1 层次规则:对一些固定搭配中的兼类词进行优先处理。在兼类词 中存在一些固定搭配,在这些搭配中,兼类词的词性是确定的。例如:在 “除”与“之外以外”的搭配中,“除”是介词( p ) 。另外还有一些搭 配中,出现的词都是兼类词,则可将搭配中的兼类词的词性都确定下来。 例如:出现了“在”与“上”、“中”、“下”、“内”、“外”、“里” 的搭配,就可以确定“在”是介词( p ) ,“上”、 “中”、“下”、“内”、 “外”、“里”是方位词( f ) 。在进行规则处理时优先对此类规则进行处 1 2 塑型曼篓盐塑堕曼鲤簦鲞塑恕翼翌型 一 理,育助于确定与其煺邻豹滚类词的涌性。 滚2 屡次规赠:黠于出璐频度比较离,语法特馥比较臻鼹麓兼类谲, 根据其语法功能和其上下文信息总结出特定的规则。 露3 屡次麓受:对子一蹙特定豹菠粪组台,可熬裂溪逶愆蕊分布特耄蒌 解决。比如对于动名糠类的词语,如采后面鼹着“着”、“了”、“遗”, 则可确定其词性为动词。 为了提蔫系统效率,壤少巍蘧渖突弓l 嫠魏瘵溪,在系统中,我翻摄据 规则的特性和正确性为规则设立了两个等级:( 1 ) 被设为等缀0 的规则是 绝对正确匏规则,对于一定键境下款簸类词,只要符合这样躯规则,即可 确定箕谣经; 1 ) 个邂豹词性攘关,这样夔摸楚穆 为1 1 元语法模型。它嶷际上怒个1 1 1 阶的马尔可夫过程,如果取n = 2 , 这时采用的就是二元语法模型g r a m ) ,对于二元谮法模型有 册 p ( c s f s ) = m a x iip ( g i g 1 ) p ( f g ) 塑型兰堕盐塑丝垒塑鲞耋塑塾堡垫! ! 则c s = a i g m a x p ( g | g 一1 ) p ( s l g ) i = 1 其中p ( g l g 一。) 只哥稽邻谲的词佼有关,我们称为词性概率参数; p ( & lg ) 既与词性朗荚,又与漏本身穗关,我们称此颂为词汇壤率参数。 对于词性标记集t ,词汇集w ,假设t 中共有m 个标记,w 中共有a 研个 词茳,那么所有的词燧概率参数组成一个胁xn r 的二维矩黪a ( n t a r t ) ,其中任元素蛳( 1 i j 胁) 嵌示从词性标记t i 到t j 的转移概率 p 圆l 劢;所有的谲汇穰率参数组成一个胁脚的二维短阵b ( n r x 赫,) ,其中任一元素舷( 1 j n r , l k 胁r ) 表示在感强调髅标记乃时产 生词汇舰的概率州胍| 乃) 。 2 1 2 词性概率和词汇概率 设词汇阮的词性标记为乃,矾前面一个词汇的词性标记为矗,定义词性 概率和词汇襁率“8 1 如下: ( 1 ) 词性概率: 设爵# 为谲性概率,它袭示放谲往标记嚣到露的转移概率。 舻嘲囤= 蔫 轼7 曼婚) ) 其中撕为训练语料中以与乃同现的频度,m 是词性标记五出现的频度。 ( 2 ) 词汇概率: 词汇檄率表示出现词性标记乃时产生溻汇胍豹概率,设其为纭,则 勘= p ( 矾= 等 ( 1 兰,舫,1 七撕) ( 2 ) 其中帐为训练语料中词汇胁搬标注为词性乃的频度,婀为词性标记乃出 现的频度。 1 9 规则与统计相结合的兼类词处理机制 2 1 3 学习机制下的词性概率和词汇概率: 在上述统计模型的基础上,我们引入了学习机制。由于汉语语言的特 点,我们还很难做到语料的机器自主学习,因而必须在人工的干预下,进 行有导师的学习,这也是在建设大规模语料库的时候碰到的困难,但随着 正确语料轨的规模和覆盖面的增大,需要人工的干预会越来越小,基于语 料库统计技术的词性标注的正确率会越来越高。我们所引入的学习机制的 基本原理就是对于词性标注正确的兼类词,应该对其前后词性接续可信度 和词汇与词性对应可信度加阻奖励;对于词性标注错误的兼类词,应对其 前后词性接续可信度和词汇与词性对应可信度予以惩罚。经过这样处理, 可以使得词性接续对和词汇与词性的对应对的可信度越来越大,从而建立 起一个真实有效的大规模语料库。据此,我们对公式( 1 ) 和( 2 ) 进行了 改进,改进后的词性概率公式和词汇概率公式如下: ( 1 ) 词性概率 册:p 仍乃) :! ! ! ! 型! ! ! 立堡! 丝( ! ! 塑二生! 些:( ! ! 趔( 3 ) 7 l o g ( n ( i ) + g i v ( f ) 一g e t ( f ) ) 其中n ( i ,j ) 为训练语料中词性标记乃跟在五后面出现的频度,n ( i ) 是词性 标记乃出现的频度。m ( f ,) 是词性标记乃跟在五后面出现正确的频度, 他r ( f ,j ) 是词性标记乃跟在冗后面出现错误的频度。g 为奖励系数,g ,为 惩罚系数。 ( 2 ) 词汇概率: 鲰:p ( 胍l 功:! ! g 型! ! ! 盟鱼! 坐( ! ! 盟二鱼:! 些! ( ! :塑( 4 ) 。+ l o g ( n ( j ) + g n ( j ) 一g r ( ) ) 其中n ( j ,k ) 为训练语料中词汇w k 标记为t s 的频度,( _ ,) 为词性标记乃出 现的频度。m r ( ,) 为词汇耽标记为t j 正确的频度,m 。,( _ ,七) 为词汇w k 标 记为乃错误的频度。c r 为奖励系数,巴,为惩罚系数。 上面公式中取1 0 9 值可以削弱不同训练语料对参数值的影响,使参数更 加平滑。对于由于训练语料数量有限引起的数据稀疏问题,采用常数约柬 规则与统计相结台的兼类词她理机制 囊避褥夏理,丽撅率参数中由于训练语料不足两为。鲍参数值,令其等 于一个很小的常数s ,对于词性概率参数,翻= m i n ( 1 腑,c a ) ,对于词 汇概率参数,船= m i n ( 1 j v 和,。) ,其中舫是选取盼标记集中的标记个 数,n w 是训练语料中词汇的个数,m 。是训练语料的总词数,c 为一个小 常数,我靛取c = 0 1 ,帮将这黧参数蘧估计或院那些在诱练语辩中只出璐一 次的事件的概率小1 0 倍的值。 2 1 4 未知词的词汇概率“7 1 校据对谬餐 痒静统计,一般会有2 3 瓣词语属子未翔词,对予专监 性较强的真实文本,未知词的出现率可能会熙高,成为影响系统标注正确 率的个重要因素。闲此,必须采取更加有效的手段聪未知调进行撂注。 我们的做法魑加强与未知词葙关的词性概率的估计。由于将来知词看成是 一个特殊的兼类词,圆而用针对它的词性转移概率代替一般的词性转移概 率 壹敷对应豹语言瑗蒙更少,可以受攘准确遮反袭篷不霹邂蛙对未圭羹调艨 产生的影响,因此对于预测未知词的词性也会更加有效。考虑到数据稀疏 所带来的影响,采用擒值估计法进行参数平滑处理,得到未知词的词汇概 率参数豹诗冀公式魏下: 卿:p a r a m l 型垡十溉硪堡垡( 5 ) n 。l nn 。 其中( z ,歹) 怒潮练语耱中谲後标记露篱蕾繇饕未稚词嚣的频废,甄。( 跨是 词性橛记互嚣鞭出现未知词的频度,a 0 ( 歹) 怒未知璃被提记为嚣懿频凌, 圯。鼹训练语料中所有未知词的个数,p a r a m l ,p a r a m 2 是两个参数,其和为 l 。 2 2 算法描述 2 。2 。1 标注算法 2 1 型型量堑盐塑堕鱼堕茎耋塑竺望! ! 型 在进行词性标记的过程中,本文对于词性确定的词,直接取词典中标 记的词性,对于兼类词和未知词采用基于动态规划的v i t e r b i 算法进行最优 标记串的选择。设一个含兼类词或未知词的词串为:s i s 2 s m 跏,其中蜀 和跏是词性确定的词或者标点符号。算法描述如下: ( 1 ) 初始化部分: f o r = 1 t o r d o 当j = 1 时f a i 1 , j = l ,否则f a i 1 , j = o ; p a l 1j _ o ; ) ( 2 ) t 从2 到m 1 计算 f o r j 2 1 t o 如f p ,j = m a x ( f a i t 一1 ,i 。) b 口, 1 i n t p a i t ,j = a r g m a x ( f a i t 一1 ,i 】i ) 1 i n v ) ( 3 ) c m 一1 】= a r g m a x ( f a i m 一1 ,刁d l 一) ( 4 ) f o r t = m 一2 t o2 c t = p a i t ,c t + 1 】 ) 上述算法中,m 为当前兼类词所兼词类数,j 为所兼词性对应的序号值。 设s 对应的词性为t s ,其标记序号为i l l ,s m 的词性为7 k ,其标记序号 为,f a i t j 存放的是从s l 的词性标记到的词性标记概率的最大值,p a i t , j 中为在最佳路径上选择的词性标记值,c t 中保存的是得到的最佳标记路径 的值。 2 2 2 学习算法 ( 1 ) 统计: 对利用上述标记算法进行标记后的初步结果进行统计。设标记词性标 规则与蜿计相结合的兼类词处理机制 记曩黻在五聪甏蠹现正薅熬次鼗为赫g ,勇,潺牲蠡记露跟在嚣瑟瑟出蠛错 误的次数为她屯j ) ,润汇矾标记为嚣正确的次数为胁,k ) ,词汇胍标 记为乃错误的次数为m e r ( ,k ) 。 ( a ) 耪始纯: 令m ( f ,d ,n 4 i , j ) ,a o ( 工k ) 和a k ( k ) 的卒刃值为0 。 国) 对予兼类谲竣未知谪: i f ( 标注结果难确) t h e n 0 ( ,七) + l ; 梭繁当蕊谣髓覆一个词酌诞鞋i ,令穗应煎 x , o ) + 1 ; i f ( 标注结果错误1t h e n ( t ) 十1 ; 蕊索当蓊逶薅瑟一个黉斡邂淫i ,夺挺赓煎 m r ( f ) + 1 ; ; ( c ) 将胁( i ,歹) ,j 惦( f ,力,a k 旗均和a k ( 五露) 曲值填劐学习库 i n f o r a c o r r e c t 和i n f o r b c o r r e c t 中。 ( 2 ) 羹藜诗露参数: 根据公式( 3 ) 、( 4 ) 重新计算词性概率参数和词汇概率静数。 2 3 系统实现与测试结果分析 实验孛采耀鼹是2 6 母词淡缝成懿小标注策,对3 0 万语辩进行了谢练, 语料熄从1 9 9 8 年人民日报中随机抽取的,内襻涉及政治,经济,文艺,体 赛,搬告文学等多耪题材。麸髫 臻集中随瓤麴取1 2 0 0 鼋分为4 纽嫠药封趣 中兼舞词占3 3 ,开放测试集中兼类谪占3 2 。 根据前面所述的模型我们实现了一个汉语词性标注系统,其具体实现 过程翔下: ( 1 ) 建立基础库,进行初始标注。 对于训练语料首先经过自动分词处理,为每个已经切分好的词犯标记 好所有可麓豹词馁,经过人工螽 竣后,为每个谲褥注一个芏e 确豹淄往, 形成标准标注文本。然后对这些语料进行训练,形成基础库,再根据 揍础库中躲数握按照公式( 3 ) 积公式( 4 ) 计算词性概率参数魏淘汇 概率参数。接着,采用v i t e r b i 算法,利埔得蓟的词性概率参数和词汇 概率参数的初始假,对测试集进行标注。 ( 2 ) 建立学习痒,诗霉学习嚣豹参羧徨。 将封闭测试结果与标准标注文本进行比较,得到比较结果,然后对比 较结果进行统计学习,得到学习艨。根据学习结果,调节奖惩系数计 辫词性襁率参数和嗣汇鬣率参数,对测试榘重薪栎注。 标注结果的正确率与训练语料的规模有很大关系,下面给出在没有进行 学习时不嗣训练集下的标注正确率( 见表2 。1 ) 。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论