(人机与环境工程专业论文)基于j2ee的民航应用词典系统开发.pdf_第1页
(人机与环境工程专业论文)基于j2ee的民航应用词典系统开发.pdf_第2页
(人机与环境工程专业论文)基于j2ee的民航应用词典系统开发.pdf_第3页
(人机与环境工程专业论文)基于j2ee的民航应用词典系统开发.pdf_第4页
(人机与环境工程专业论文)基于j2ee的民航应用词典系统开发.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(人机与环境工程专业论文)基于j2ee的民航应用词典系统开发.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国民航大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc h i n a sc i v i la v i a t i o ni n d u s t r ya n dt h e i n c r e a s i n gc o m m u n i c a t i o nb e t w e e nn a t i o n s ,l e a r n i n ga d v a n c e df o r e i g nt e c h n o l o g y a n dm a n a g e m e n tm e t h o d si sa l li m p o r t a n ta c t i o nt ob eap o w e r f u lc i v i la v i a t i o n n a t i o n d u et ot h ei m p r o v er e q u i r e m e n to fp r o f e s s i o n a le n g l i s h ,i nt h ec i v i la v i a t i o n i n d u s t y i n o r d e rt oe n h a n c ew o r k e f f i c i e n c y ,a c i v i la v i a t i o nd i c t i o n a r y s y s t e m - - - o n l i n en e e dt ob ed e v e l o p e d t oa c c e l e r a t et h ea i mo fd e v e l o p m e n tf a s t e r a n db e t t e ri nc i v i la v i a t i o ni n d u s t r y e s t a b l i s h m e n to fc i v i la v i a t i o ns p e c i a l i z e dt e r m sl i b r a r yi sf i r s t l yd e s c r i b e di n d e t a i li nt h i sp a p e r a p p l y i n gc o m p u t e rs i m u l a t i o nm e t h o di ne x t r a c t i n gt e r m sf r o m m a s s i v ec i v i la v i a t i o nd a t ab a n ki sa ni m p o r t a n tm e a n so fl e x i c o ns u p p l e m e n t b a s e d o nt h er e s e a r c ho fc h i n e s ew o r ds e g m e n t a t i o na n dt e r me x t r a c t i o n ,a ni m p r o v e d s u f f l xa r r a ya l g o r i t h mi su s e dt oe x t r a c tc i v i la e r o n a u t i c a lt e r m s c o n s e q u e n t l y , b a s e d o nt h er e s e a r c ho fl e x i c o no p t i m i z a t i o na n dw o r ds e g m e n t a t i o na l g o r i t h m ,a n i n t e l l i g e n ts e a r c ha l g o r i t h mi sd e s i g n e di nt h i sp a p e r t h ep r o p o s e da l g o r i t h mc a n m a k et h es y s t e me f f e c t i v e l yp r o c e s sa n dp r o m p tt h es e n t e n c e sa n dl o n gp h r a s e s w h i c ha r ei n p u tb yt h eu s e r s j 2 e el i g h t w e i g h ta r c h i t e c t u r ei sad e v e l o p m e n tp l a t f o r mo fj 2 e ei tc a ns i m p l i f y t h ep r o g r a m m i n gm o d e la n dm i n i m i z et h er e l i a n c eb e t w e e na p p l i c a t i o np r o g r a m c o d ea n df r a m e w o r k t h i sa r t i c l em a k e sa na n a l y s i so ft h et e c h n i c a lf e a t u r e sa n d i m p l e m e n t a t i o nm o d eo fj 2 e el i g h t w e i g h ta r c h i t e c t u r e ,a n dt h e nd i s c u s s e st h ew o r k f l o wa n dt e c h n i c a la d v a n t a g e so fs t r u t s ,s p r i n ga n dh i b e r n a t ef r a m e w o r k i n a d d i t i o n ,h o wt om a k eu s eo ft h ei n t e g r a t i o no fs t r u t s ,s p r i n ga n dh i b e r n a t e f r a m e w o r kt od e v e l o ps y s t e mi sa l s op r o b e di n t o f i n a l l y , b a s e do nt h er e s e a r c hm e n t i o n e da b o v e ,c o m b i n e dw i t ht h ef r a m e w o r k i n t e g r a t i o no fs t r u t s ,s p r i n g , h i b e r n a t e ,t h ec i v i la v i a t i o no n l i n ed i c t i o n a r ys y s t e mi s s a t i s f a c t o r i l yc o m p l e t e d b e s i d e st h eb a s i cf u n c t i o no fe n g l i s h - c h i n e s eb i d i r e c t i o n a l r e t r i e v a l ,s o m e c h a r a c t e r i s t i cf u n c t i o n ss u c ha ss p e e c hf u n c t i o n ,a j a xq u e r y f u n c t i o n ,a r ea l s oi n c l u d e di nt h i ss y s t e m t h ee s t a b l i s h m e n to fc i v i la v i a t i o n s p e c i a l i z e dt e r m sl i b r a r ya n dt h er e a l i z a t i o no fc i v i la v i a t i o no n l i n ed i c t i o n a r ys y s t e m h a ss i g n i f i c a n c et ot h ed e v e l o p m e n to fd o m e s t i cc i v i la v i a t i o n k e y w o r d s :c h i n e s ew o r ds e g m e n t a t i o n ;s u f f i xa r r a y ;s t r u t s ;s p r i n g ;h i b e r n a t e ;s s h i i 中国民航大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得中国民航大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表 示了谢意。 研究生签名日期: 中国民航大学学位论文使用授权声明 中国民航大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文 的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以 公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权中国民航大学研 究生部办理。 研究生签名: 彳| | 中国民航大学硕士学位论文 1 1 背景介绍 第一章绪论弟一早珀t 匕 2 0 0 8 年1 2 月2 1 日,我国首架具有完全知识产权的新支线飞机“翔风一 号a r j 2 1 7 0 0 飞机在上海飞机制造厂总装下线,不久将投入试飞和商业运营。 这是我国民机制造业的又一里程碑。随着a i l l 2 1 7 0 0 飞机的下线,我国生产大 飞机的计划也开始启动,这标志着将打破只有美国、欧洲四国和俄罗斯有制造 大飞机的能力的格局,我国将从民航使用大国向设计以及制造大国迈进。据相 关权威部门的预测显示,未来2 0 年中国航空市场将呈现快速增长趋势,民用客 机数量将达到2 1 9 4 架,市场容量大约在1 8 0 0 亿美元,波音公司则预测到那时 中国将成为美国以外最大的民用航空市场。上述事实证明,这些发展必然会带 来国家间交往的日益增多,而学习和借鉴国外的先进技术与管理手段,已经成 为实现民航强国的重要举措。现在我国民航使用的飞机和一些装备大都是从欧 美进口的,所有的技术资料均为英文,如何快速、准确地掌握、理解这些技术 资料,是正确使用飞机和相关装备的必要条件,也是掌握国外先进技术和管理 理念的关键。同时,随着民航科技的迅速发展,新知识、新名词日新月异,也 要求词典的发展能够跟得上时代的脚步。 鉴于对民航从业人员专业英语水平要求的不断提高,迫切需要开发在线民 航专业词典系统以满足民航从业人员的需求,提高相关人员的学习效率和工作 效率,实现我国民航业更快发展的目标。 民航专业词典系统的开发最为重要的一点便是民航专业词库的建立。对于 词库的开发,既是开发系统的重要一环,也是必要条件。既然是专业词库,那 么必须体现专业的含义。该词库不需要泛滥的通用词汇,但要尽可能多地包含 民航领域的专业词汇,以保证词库的精悍实用,除此之外,还应当保证词库的 权威性,确保其收词范围以及词条解释在业内的权威地位。同时,词库的开发 也是民航领域语料库建立的重要基础。 在线词典系统借助于i n t e r n c t 的迅速发展,用户数量大幅度增加,己成为人 们重要的词典工具,电子词典和在线词典有取代纸质词典的趋势。在线词典采 用w e b 方面的开发语言,使用者不需要在客户端下载任何安装程序,只需通过 通用的浏览器即可迅速、准确地查询出单词的意思。本词典系统的开发对于加 强民航相关专业技术的交流应用及促进我国民航事业的快速发展,具有重要的 现实意义。 中国民航大学硕士学位论文 1 2 国内外发展现状 九十年代以来,由于计算机技术和因特网的迅猛发展,机读工具书开始把 因特网作为媒介,在线词典在英美词典界出现【1 j 。计算机逐渐以其高容量、高 效率、高精度改变着传统词典的编纂与编辑出版方式。为了保持词典内部的一 致性和完整性,词典编纂正从手工编写向计算机辅助的方向发展,并产生了新 型的词典类型,其中最常见的就是电子词典。 随着计算机的大量普及和机器翻译技术的深入研究,电子词典也取得了长 足的进步。电子词典主要由计算机技术发展而来,主要通过三种载体将信息呈 现在电子屏幕上:一种是平时常见的文曲星;一种是以金山词霸为代表的词典 翻译软件;一种是以海词在线系统d i c t 叫为代表的的在线词典系统【2 】。 在线词典( o n l i n ed i c t i o n a r y ) 是基于互联网开发设计的词典形态,使用者可以 通过计算机网络在线使用。d es c h r y v e r 3 】提出,所谓在线词典,是一种“全球 使用者利用手提电脑或台式电脑检索的、储存于在线服务器上 的工具书。 1 2 1 国外在线词典系统的发展现状 国外的英语在线词典在2 0 世纪8 0 年代末随着互联网的兴起而面世,发展 至今已相当成熟,具体表现在: ( 1 ) 数量庞大,如:y o u r d i c t i o n a r y 网站包含了9 3 1 部在线英语词典,而实际 数量远不止于此; ( 2 ) 种类繁多,主要有俚语词典、缩略语词典、各行业词典等等,分类齐 全: ( 3 ) 形成了o u t l o o k ,y o u r d i c t i o n a r y ,f r e e d i c t i o n a r y 等知名的在线词典系 统。f 以最知名的y o u r d i c t i o n a r y 在线词典系统为例,该系统是一个极好的在线 词典索引大全,旨在成为因特网上最大最全的世界各种语言的词典索引。目前 该词典索引总数已多达1 5 0 0 部,代表着世界上2 3 0 多种语言。除了多语词典外 ( m u l t i l i n g u a ld i c t i o n a r i e s ) ,还有各种单语词典,例如:a c r o n y md i c t i o n a r i e s 、 t h e s a u r i ,p h r a s ed i c t i o n a r i e s ,q u o t a t i o n s ,l e x i c o g r a p h ya n dl e x i c a ld a t ab a s e s , p r o n u n c i a t i o na n dr h y m i n gd i c t i o n a r i e s s p e c i a l t yd i c t i o n a r i e s 等。用户可以借助其 中的英语或世界其他各种语言的词典索引,找到各种在线词典,检索某个普通 的单词或专门的术语。不仅如此,y o u r d i c t i o n a r y 还提供了词汇教学( 帮助学习 者增加词汇) 方法、语法教学方法、口语和书面语的练习方法以及有关语言的科 学信息和各种形式的语言游戏( 1 a n g u a g ep l a y s ) 以帮助培训语言技能。但是从 y o u r d i c t i o n a r y 提供的在线词典索引来看,英汉与汉英在线词库与其他语种的在 线词库相比,数量最少,检索结果也不令人满意i 引。 2 中国民航大学硕士学位论文 总之,国外在线词典应用系统的开发和应用起步较早,发展很快,已经形 成了一套系统的本族词典库。 1 2 2 国内在线词典系统的发展现状 国内电子词典经历了十多年的开发史,凭借方便、快捷、实时等优点已经 得到了普及,主要取得了以下几个方面的成就【5 j : ( 1 ) 数量和容量上已初显规模 近几年来,随着互联网技术的迅猛发展,凭借着网民数目的迅速扩大,各 种在线查词系统也如雨后春笋般发展起来。其中较为常见的有 g o o g l e ( h t t p :w w w g o o g l e c n l a n g u a g c _ t o o l s ? h l = z h - c 聊在线词典系统;b a i d u 在 线词典系统( d i e t b a i d u c o r n ) ;海词在线词典系统( w w w d i c t c a ) 等,这些在线词典 系统的应用极大地方便了人们的学习和工作,提高了社会生产力。 其中海词在线词典系统是由在美国印第安纳大学的中国留学生创建的,于 2 0 0 3 年1 1 月2 7 日正式开始使用。d i c t c n 是一个面向公众的免费单词查询服 务网站,它提供单词的精简释义和各种查询,页面简洁,易用,解释一目了然, 可供双向检索现今汉语各类文体中的习语、套话和流行语的英文翻译及例句等 等,目前拥有大量的用户。 百度和谷歌凭借其强大的经济、技术和语料资源优势开发的翻译系统也在 市场上有很大的占有率。 ( 2 ) 功能较为完备 与国外的在线词典系统一样,国内在线英语词典系统也在用户友善方面下 了较大的功夫。在线词典服务商重视系统和用户之间的互动性,使用户能够积 极参与到词典的建设中。以海词在线词典为例,它除了具有基础的英汉双向检 索功能,还提供了多种条件的查询方式,并支持用户添加词条、修改词条解释。 这样让用户参与到词典的建设中,将极大地提高词典的支持率。 国内在线英语词典行业所取得的成就有目共睹,然而,所存在的问题同样 不容忽视。目前存在的问题主要有: ( 1 ) 专业性问题 国内各在线英语词典系统的专业化程度普遍不高,对于各个领域的一些专 业术语很难找到解释。在线英语词典系统普遍存在盲目追求“大而全 的思想, 这是导致各词典系统不够专业化的根本原因。 就拿民航专业词汇来说,在上述所提及的词典系统中,所有的收词都以通 用词汇为主,缺少或几乎没有专业的民航词汇。有的虽包含一些专业词汇,但 由于专业面较广,涉及的工程领域较多,所收词汇偏少、偏杂,缺乏针对性。 而且上述词典系统中,大多数没有包含缩略语词库,有的虽有一些,但没有给 出缩略语单词的全称,词汇的数量也很少。 3 中国民航大学硕士学位论文 ( 2 ) 词条解释问题 以上所提及的词典系统大多涉猎的领域比较广,词条的准确性无法保证。 词条的解释通常列出的是通用的释义,而缺乏针对相关领域背景的解释。 ( 3 ) 语料少、更新慢 很多在线词典系统提供的单词解释项较少,而且多数单词的解释是从各大 字典照搬过来的,对于一些新词义,没法得到及时的更新。同时,随着行业的 迅速发展,很多新名词、新术语也如雨后春笋般出现,这些系统对于新词的“反 应刀也比较慢。 1 2 3 在线词典系统的发展趋势 针对以上情况可以发现,与其开发一个“大而全”的在线词典系统,不如 建设一个“小而精 的专业化词典系统。一套好的专业化在线词典系统,不仅 能够拥有稳定的用户,而且更容易创立品牌。基于此,非常有必要开发一套民 航专业的在线词典系统,以满足用户、特别是民航从业人员的需求。新开发的 在线词典系统,将尽可能地吸收现有在线词典系统的优点,增加必要的功能, 主要特点体现在如下几个方面: ( 1 ) 权威的民航专业词库的建立。以人工和计算机模拟结合的方法收集词 汇,所有收词的范围包括与民航相关的文献和书籍、各种民航类手册、民航法 规规章、民航相关文献。计算机模拟的方法是采用一种术语提取的算法,让计 算机从大量民航资料中完成对民航专业术语的提取,将收集到的民航术语建立 中英文对照表,通过该方法能够极大地补充民航专业词库的词量。 ( 2 ) 词库包含民航英汉、汉英和缩略语三部分词汇。在保证专业词汇收词 量的基础上,对每个缩略语词汇,不仅给出了中文释义,同时给出缩略语英文 单词的全称。更重要的是,对于部分专业性较强的词汇,还对其中文释义进行 了详细的解释和说明,初步起到了民航百科全书的作用。 ( 3 ) 在线词典系统突出了系统的实时性和开放性,功能多、界面友好。其 主要功能有: ( a ) 通过数据库查询技术完成系统的即输即查、模糊查询、通配符匹配等基 本查询功能: ( b ) 采用基于“s p e e c hs d k 的语音包来实现词汇的朗读语音功能; ( c ) 通过异步通讯技术开发系统的a j a x 查询功能; ( d ) 开发插件实现系统的在线划词翻译功能; ( e ) 开发了用户自定义词典。用户可将常用的、需要学习的单词存入该词典 中,并对自定义词典进行新建、编辑、删除等操作; ( f ) 开发了用户提交新词及纠错功能,系统管理员和有关专家可以对用户提 出的新词和纠错词条进行审核,通过的将录入词库并进行更新。 4 中国民航大学硕士学位论文 1 3 研究内容与论文安排 本文以中文分词算法和计算机网络编程技术为基础,就计算机模拟提取民 航专业术语和j 2 e e 轻量级开发框架为研究对象,开发了基于j 2 e e 的在线民航 词典应用系统。 按照课题的研究要求,本文分为六章,各章内容安排如下: 第一章,绪论。就课题的背景进行了阐述,分析了在线词典系统的国内外 研究现状,指出了国内在线词典系统的存在的问题。并对论文的结构做了说明。 第二章,中文分词算法的研究。首先介绍了自然语言理解,然后对其中的 核心中文分词的算法以及它的难点进行了论述,同时介绍了几种典型的中 文分词系统。 第三章,民航专业词库的建立。通过采用了一种改进的后缀数组的中文分 词的算法,并通过互信息过滤,最后交由专家审核的方法来提取民航术语。该 方法可以补充民航术语库。此外根据需求,改进了词典的存储结构,并采用改 进的中文分词的算法,设计了一种智能检索方法。 第四章,j 2 e e 轻量级架构及其技术。介绍了什么是j 2 e e 轻量级架构,并 对这种架构中采用的开源框架s t r u t s 、s p r i n g 、h i b e r n a t e 的结构和特点分别进行 了详细的分析。 第五章,基于s s h 的开放式实时民航应用词典系统的实现。描述了项目的 需求分析、系统流程,并将轻量级的j 2 e e 框架s t r u t s + s p r i n g + h i b e r n a t e 的整合 技术应用于民航应用词典的开发,除此之外,还介绍了系统的特色功能。 第六章,结论与展望。总结了论文的主要工作,并对未来的工作进行了展 望。 5 中国民航大学硕士学位论文 第二章中文分词算法的研究 2 1 自然语言处理 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 也称自然语言理解( n a t u r a l l a n g u a g eu n d e r s t a n d i n g ,n l u ) ,是计算机科学领域与人工智能领域中的一个重 要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和 方法。在最近的二三十年中,随着计算机技术,特别是网络技术的迅速发展和 普及,自然语言处理研究得到了前所未有的重视和长足的进步,并逐渐发展成 为了一门相对独立的学科,备受关注。 著名计算语言学专家冯志伟教授对”自然语言处理”的解释为:自然语言处 理就是利用计算机工具对人类特有的书面形式和口头形式的自然语言的信息进 行各种类型处理和加工的技术1 6 j 。 用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有 明显的实际意义,同时也有重要的理论意义。人们可以用自己最习惯的语言来 使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算 机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。 实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意 义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解, 后者称为自然语言生成。因此,自然语言处理大体包括了自然语言理解和自然 语言生成两个部分。历史上对自然语言理解研究得较多,而对自然语言生成研 究得较少。但这种状况近年来已有所改变。 无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那 么简单,而是十分困难的。从目前的理论和技术现状看,通用的、高质量的自 然语言处理系统,仍然是较长期的努力目标,但是针对一定应用,具有相当自 然语言处理能力的实用系统已经出现,主要包括专家系统的自然语言接口、各 种机器翻译系统、全文信息检索系统、自动文摘系统、问答系统、语音识别等 方面。 其实,从实际的工作来说,实现这些目标也是非常困难的过程,最主要的 问题就是歧义消解和未知语言现象的处理问题。一方面,自然语言中大量存在 的歧义现象,无论是词法、句法、语义、还是语用层次,歧义性始终都是困扰 人们实现应用目标的根本问题。因此,如何面对不同的应用目标,针对不同语 言单位的特点,研究歧义消解和未知语言现象的处理策略和实现方法,就成了 自然语言处理面临的最大问题之一。另一方面,对于一个特定的系统,总是有 可能遇到未知词汇、未知结构的情况,而且每一种语言又都随着社会的发展而 6 中国民航大学硕士学位论文 动态变化着,新的词汇( 尤其是新的专业词汇) 、新的词义、新的词汇用法都在 不断出现。 对于本论文涉及到的民航领域,更是这样,民航业作为一个朝阳产业,随 着技术的不断进步和服务水平的全方位的提升,各种新词、新词义的出现更是 司空见惯。因此,一个实用的自然语言处理系统必须具有较好的未知语言现象 的处理能力。对于机器翻译、信息检索、文本分类等特定的自然语言处理任务 来说,还存在若干与任务相关的其他问题,比如如何提取文本特征、提取关键 字等。 综上所述,自然语言处理的研究面临着这些问题的困扰,既有数学模型不 够奏效,有些算法的复杂度过高,也有数据资源匮乏、覆盖率低、知识表示困 难等知识资源方面的问题。但是近些年来,这方面的技术确实也取得了巨大的 进步,一些研究的理论也被成功的应用到实际之中,其中对于自然语言算法中 的核心问题中文分词,国内取得了很多的成果。 2 2 中文分词 2 2 1 中文分词概述 中文分词技术属于自然语言处理技术范畴。对于一句话,人可以通过自己 的知识来分析句子中哪些是词,哪些不是词,但是如何让计算机也能理解就是 一件很困难的事情。 国外经过多年的研究,已经可以用计算机能很好地进行英文分词,这是因 为英文中的句子是以词为单位的,词和词之间由空格隔开。而中文分词则相当 困难,因为中文是以字为单位的,句子中所有的字连起来才能表达一个意思; 其次,中文为表义文字,仅汉字数量就达5 万之多。 2 2 2 中文分词的目标 中文分词的算法为适应信息处理的要求,要达到以下的几个要求【7 】: ( 1 ) 准确性 准确率是分词算法性能的核心指标。显然一个优良的算法必须具有准确的 分词能力,如果分词的错误过多,会对后面的工作产生重要的不良影响,而且 会加大人工的工作量,这也就与计算机模拟这种方法可以提供的便捷性优点背 道而驰了。如果进一步看,中文自动分词更大的作用是对大规模语料库进行加 工,为上层的应用系统提供统计数据和知识。如果分词错误很多,会对后面的 工作造成很坏的影响。由此可见,分词系统的准确率是中文分析算法优劣的重 要指标之一。 ( 2 ) 运行效率 7 中国民航大学硕士学位论文 中文分词工作往往是许多工作的初始工作,这步工作不能消耗过多的时间, 应只占上层处理所需时间的一小部分,并应使用户没有等待的感觉。比如在 g o o g l e 里的复杂搜索,是不会让用户等待很久的。而本系统在设计智能查询 的时候,也要考虑到用户对时间的要求。 ( 3 ) 适用性 中文分词算法是手段而不是目的,任何中文分词算法所产生的结果都是为 某个具体的应用服务的。好的分词算法具有良好的适用性,可以方便地集成在 各种各样的信息处理系统中。 所以采用什么样的算法,对中文资料进行分词,对实现系统的目标起着至 关重要的作用。下面对中文分词算法加以介绍。 2 2 3 中文分词算法介绍 现有的分词算法可分为三大类【8 】: ( 1 ) 基于字符串匹配的分词方法 这种方法又称作机械分词方法,它是按照一定的策略将待分析的汉字串与 一个“充分大的”词典中的词条进行匹配,若在词典中找到某个字符串,则匹配 成功( 识别出一个词) 。按照扫描方向的不同,串匹配分词方法可以分为正向匹 配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和 最小( 最短) 匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方 法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下: ( a ) 正向最大匹配法( 由左到右的方向) 通常简称为m m 法。其基本思想为:设d 为词典,m a x 表示d 中的最大 词长,s t r 为待切分的字串。m m 法是每次从s t r 中取长度为m a x 的子串与d 中的词进行匹配。若成功,则该子串为词,指针后移m a x 个汉字后继续匹配, 否则子串逐次减一进行匹配。 ( b ) 逆向最大匹配法( 由右到左的方向) 通常简称为r m m 法。r m m 法的基本原理与m m 法相同,不同的是分词 的扫描方向,它是从右至左取子串进行匹配。 ( c ) 最少切分( 使每一句中切出的词数最小) 这种方式的最典型方法就是最短路径分词方法,这种切分原则多数情况下 符合汉语的语言规律,但无法处理例外的情况,而且如果最短路径不止一条时, 系统往往不能确定最优解。 除此之外,还可以将上述各种方法相互组合,例如,可以将正向最大匹配 方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点, 正向最小匹配和逆向最小匹配一般很少使用。 ( 2 ) 基于理解的分词方法 8 中国民航大学硕士学位论文 这种方法也可称为基于语法和规则的分词法。这种分词方法是通过让计算 机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进 行句法、语义分析,利用句法信息和语义信息来解决分词歧义现象。它通常包 括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下, 分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断, 即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信 息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直 接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 ( 3 ) 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现 的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够 较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行 统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字x 、y 的 相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高 于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中 的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词 方法。 到底哪一类分词算法的准确度更高,目前并无定论。下面就三大类算法进 行比较。 ( 1 ) 机械( 字符串匹配) 分词算法 机械分词算法是一种纯粹基于规则的方法,简单有效。这种方法只需要最 少的语言资源,程序实现简单,开发周期短,是一个简单使用的方法。在没有 大规模预先切分和标注好预料的情况下,是一个值得优先考虑的有效方法。但 是该方法仅仅是从最大匹配的角度出发,很多问题无法解决,如交叉歧义、组 合歧义。最终的准确率不会太高,预处理的粗分过程一旦采用最大匹配方法, 后期处理必须做很多补救措施,才能保证最终的分词质量。另外一个不足在于 它缺少合理的评分机制,所以很难再选出一个次优的切分结果。 ( 2 ) 基于理解的分词算法 由于这种分词算法不但考虑到词法和句子语法,还从语境角度出发分析歧 义字段内部信息和上下文信息,是一种难度比较大的算法,目前还处于研究阶 段,应用面不广。 ( 3 ) 基于统计的分词算法 这类方法是目前应用的最多,也是最广泛的方法。但它也有一定的局限性, 会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有 的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应 9 中国民航大学硕士学位论文 用的统计分词系统都要使用一部基本的分词词典( 常用词词典) 进行串匹配分 词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既 发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识 别生词、自动消除歧义的优点。 综上所述,随着自然语言处理技术整体水平的提高,汉语自动分词系统算 法的性能也在不断的改进和提高。对于不同的分词算法而言,由于测试预料的 领域、规模、体裁以及分词系统所依赖的计算机软硬件环境等各方面的差异, 不能绝对地依据各自测评系统的正确率、召回率和速度等指标来简单地区分分 词算法的优劣,只能笼统的讲,基于大规模语料库、以统计模型为主,同时结 合规则方法识别命名实体和其他歧义字段的分词系统一般具有较好的性能。对 于具体的目标和任务,用于还需要综合权衡得失,具体问题具体处理。同时, 对于任何一个成熟的分词模型来说,不可能单独依靠某一种算法来实现,都需 要综合不同的算法。同样,对于中文词的识别,需要多种算法来处理不同的问 题。 2 2 5 典型中文分词系统介绍 国内自8 0 年代初就在中文信息处理领域提出了自动分词,从而产生了一些 实用性的分词系统,比较有名的有以下几个【9 1 : ( 1 ) 清华大学的s e g 和s e g t a g 系统 清华大学先后研制开发了s e g 分词系统和s e g t a g 系统。前者提供了带 回溯的正向、反向、双向最大匹配法和全切分评价切分算法,可由用户来 选择合适的切分算法。系统首次提出了全切分的概念,即找出输入字串的所有 可能的字串,再从所有可能的字串中选出最佳字串序列作为分词结果。实验表 明,该系统的切分精度基本上可达到9 9 左右,能够处理未登录词较多的文本, 切分速度约为3 0 字秒。 ( 2 ) 复旦分词系统 复旦大学研制的复旦分词系统由四个模块构成:预处理模块( 利用隐式标记 将文本分割成较短的汉字串) ;歧义识别模块( 正向最小匹配和逆向最大匹配进 行双向扫描) ;歧义字段处理模块( 利用构词规则和词频统计信息来消除歧义) ; 未登录词识别模块( 解决未登录词造成的分词错误) 。通过实验,该系统对中文 姓氏的自动辨识达到了7 0 的准确率,对文本中的地名和一些领域专有词汇也 能进行一定的识别。 ( 3 ) 哈工大分词系统 该系统是一种典型的运用统计方法的纯切词系统,它将串频统计和词匹配 结合起来。系统由预处理模块、串频统计模块、切分模块三个部分构成:该系统 能够利用上下文识别大部分生词,解决一部分切分歧义,但是统计分词方法对 1 0 中国民航大学硕士学位论文 常用词识别精度差的固有缺点仍然存在。 ( 4 ) 北大计算语言所分词系统 北京大学计算语言学研究所研制系统,具有分词和词性标注的功能。由于 将分词和词类标注结合起来,系统可利用词类信息对分词决策提供帮助,并且 在标志过程中又反过来对分词结果进行检验。系统的处理包括自动切分和初始 词性标记、切分歧义字段识别、组词和标志预处理、词性标记排歧、切分和词 性标注后处理等过程。算法综合了多种数据结构和搜索算法,实现了高速匹配 和查找,同时采用了当代计算语言学的统计方法,运用隐马尔科夫过程进行词 类标注和排歧。系统强调了通用性,将最稳定、最常用的4 万6 千余条现代汉 语基本词汇及其有关属性组织成为基本词典,可识别出大部分的常用词。 ( 5 ) 中科院计算所汉语词法分析系统i c t c l a s i c t c l a s 是目前大陆最好的分词系统之一。在第一届国际分词比赛中取的 两项第一。未登录词的识别有很好的表现,尤其是召回率指标,达到9 0 以上, 其中中国人名的识别召回率更是接近9 8 。因为该系统在中科院计算所自然语 言处理开放平台上开放了源代码,也是该平台上最热门下载的软件,所以其影 响也越来越大。中科院计算所汉语词法分析系统( i c t c l a s ) 也是属于分词和词 性标注相结合的一体化分词系统。该系统设计的基本思想:采取层次隐马可夫 ( h m m ) 模型,把分词和词性标注一体化起来。在词语粗分阶段,先得出n 个概 率最大的切分结果。然后,利用角色标注方法识别未登录词,并计算其概率, 将未登录词加入到切分词图中,最终进行动态规划优选出n 个最大概率切分标 注结果。他们分词的结果是不唯一的。 以上是对几种著名分词系统的介绍,对这些系统的研究为后面的词库建立 打下了良好的基础。 2 2 6 中文分词的基本问题和难点 对于中文分词,到目前为止还没有完美的解决算法,这主要因为有以下三 个基本问题和难点: ( 1 ) 汉语分词规范问题 “词”这个概念一直是语言学界纠缠不清而又挥之不去的问题【1 叭。到底什 么是词,这个问题很飘忽不定,迄今拿不出一个公认的、权威性的词表。主要 困难有两方面,一方面是单字词和词素之问的划界;另一方面是词与短语( 词组) 的划界。此外,对于汉语“词 的认识,普通人与语言专家的标准也有很大的 差异。所以从严格意义上来说,自动分词是一个没有明确定义的问题【1 1 】。对汉 语认识上的差异,必将给自动分词造成很大的困难。 1 9 9 2 年国家标准局颁布的信息处理用现代汉语分词规范( g b l 3 7 1 5 ) 1 2 j 中用“结合紧密,使用稳定”的条件来限定。但这种条件本身难以操作,极易 】1 中国民航大学硕士学位论文 受主观因素的影响。 ( 2 ) 歧义识别问题 歧义指的是一个中文字符串,可能有两种及以上的切分方法,比如“中国 民航大学 中,“中国 ,“国民 ,“民航 ,“航大 ,“大学”,怎么让没有知识 的计算机自动切分成“中国 ,“民航 ,“大学 ,这就是分词的歧义识别问题。 分词歧义主要分为交集型切分歧义和组合型切分歧义两类。 ( a ) 交集型切分歧义 汉字串a j b 称作交集型切分歧义,如果满足触、j b 同时为词( a 、j 、b 分 别为汉字串) ,此时汉字串j 称作交集串。 例如:交集型切分歧义:“结合成 一种切分为“结合i 成 ;另一种切分为“结i 合成 。 其中,a = “结 ,j = “合 ,b = “成 。 这种情况在汉语文本中非常常见,如“大学生,“研究生物”,“为人民工 作”等。据统计,交集型切分歧义字段占全部歧义字段8 5 以上【1 3 】,是自动分 词系统需要重点加以解决的疑难问题,可见它对分词的正确率有很大影响。 ( b ) 组合型切分歧义 如果满足a 、b 、a b 同时为词,则汉字串a b 称作多义组合型切分歧义。 例如,多义组合型切分歧义:“起身 在如下两个例子中,“起身“分别有不同的切分。 一种为我站i 起i 身l 来;我明天腱身i 去北京。 类似地,“将来 、“现在 ,“学生会等,都是组合歧义字段。 真歧义 除了以上所说的两种歧义意外,在歧义中还有一个难题,即真歧义。真歧 义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。 例如:“羽毛球拍卖完了 ,可以切分成“羽毛球l 拍卖l 完了一、也可切分成“羽 毛i 球拍i 卖完了。如果没有上下文其他的句子,恐怕谁也不知道“拍卖在这 里算不算一个词。还有“应用于、“地面积”等,都是真歧义的例子。 ( 3 ) 未登录词识别问题 未登录词也就是那些在字典中没有收录过,但又确实能称为词的那些词。 未登录词主要包括两大类: ( a ) 新涌现出来的普通名词和专业术语 普通新词有:博客、超男、黄金甲;还有各个行业的专业术语比如民航、 生物等方面; 专有名词有:专有名词包括中国人名、外国译名、地名、组织结构名称等。 下面是一些真实文本的例子: 1 2 中国民航大学硕士学位论文 ( 罗纳尔多) 目前效力于( 皇家马德里) 俱乐部,他此前效力的俱乐部是( 国际 米兰) 。 坐落于( 天津市东丽区) 的( 中国民航大学) 是( 民航局) 直属院校。 本文将例子中的专有名词用括号标出来了。对于机器而言,要正确识别这 些专有名词不是一件容易的事。一方面,很多未登录词都是由普通词汇构成的, 长度不定,也没有明显的边界标志词;另一方面,专有名词的首词和尾词可能 与上下文中的其他词汇存在交集型歧义切分,如例3 。而且对于新出现的普通 名词和专业术语来说,又会面临一个词的界定问题,即如何确定一个字段是一 个词还是多个词。这又不得不回到了分词的规范上来了。 近些年来,对专有名词的处理受到了人们的关注,对专有名词的处理( 包括 识别、翻译等) 已经成为了自然语言处理研究中一个非常活跃的分支。但是对于 未登录词中术语的提取、分类的研究还处于发展阶段。下一章将就此问题进行 较为全面的阐述。 1 3 中国民航大学硕士学位论文 第三章民航专业词库的建立 3 1 民航专业术语库的作用 “工欲善其事,必先利其器”。开发民航领域词典系统,首先要进行的工作 肯定是建立数字化民航领域词库,也就是民航专业术语库。从目前的资料来看, 还没有一个较为系统的、全面的民航专业术语库可供参考。所以首先要建立数 字化民航领域词库。 术语学引论中对于“术语 这个名词进行了定义:它认为术语是用来 专门指称某一专业知识活动领域一般( 具体或者抽象) 理论概念的词汇单位,通 常由一个词或者多个词汇组成。术语平常在阅读民航科技文献,学习专业课程 时随处可见,比如民航领域中的低空空域管理、计算机中的内存等都是领域术 语。随着民航领域新技术的飞速发展,大量数字化民航科技文献与日俱增,民 航类的各种信息也呈几何级的形式扩张。如何有效地获取其中的民航领域术语, 对于编撰民航领域词典,进而对于民航领域相关信息的搜索等都具有重要的现 实意义,因此成为本文关注的焦点。 在民航专业术语库开发的初始阶段,主要通过人工获取的方法对民航领域 的术语进行收集。众所周知,这种收集办法确实能够正确地收集到民航术语, 但是需要大量有专业技能的民航领域专家的参与,消耗了大量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论