(计算机应用技术专业论文)基于并行计算的中文分词系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于并行计算的中文分词系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于并行计算的中文分词系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于并行计算的中文分词系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于并行计算的中文分词系统的研究与实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)基于并行计算的中文分词系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ad i s s e r t a t i o ns u b m i t t e dt og u a n g d o n gu n i v e r s i t yo ft e c h n o l o g y f o rt h ed e g r e eo fm a s t e ro fe n g i n e e r i n gs c i e n c e r e s e a r c ha n di m p l e m e n t a t i o no fc h i n e s ew o r d s s e g m e n t a t i o ns y s t e mb a s e do np a r a l l e lc o m p u t i n g c a n d i d a t e :g a ny u s u p e r v i s o r :p r o f c h e nx i n m a y2 0 1 0 f a c u l t yo fc o m p u t e r g u a n g d o n gu n i v e r s i t yo ft e c h n o l o g y g u a n g z h o u ,g u a n g d o n g ,p r c h i n a ,5 10 0 9 0 摘要 摘要 当前随着计算机和互联网技术的普及,人们已经进入了信息呈指数级爆炸式增长 的信息时代,每个人在实际生活中每时每刻都在不断地与信息打交道:接收信息、加 工信息和利用信息。面对各种海量信息,人们试图引入计算机来帮助我们进行信息管 理,并取得不错的效果,然而这种管理通常局限于小部分的可用数据库系统管理的结 构化信息,在i t 应用中除了结构化信息外,还存在有非结构化信息,如文本档案、电 子邮件、声音、影片、图像等。非结构化信息隐含了许多有价值的关键信息,但由于 非结构化信息的割裂性和不可操作性使得对这部分信息的提取很困难,目前人们已经 着力于各种技术的研究,以期在非结构化信息提取中取得突破,中文信息处理技术就 是其中一种,目前中文信息技术已经呈现海量、自动化和智能化的特征,并逐渐融合 包括音频、视频在内的多媒体技术特性。中文信息处理以词作为加工的基本单位,可 以说中文分词是中文信息处理的必备条件,分词的处理效率将直接制约中文信息处理 的效果。 本文通过对目前存在的多种中文分词技术,如基于机械匹配的分词方法、基于统 计的分词方法及基于人工智能技术的分词方法等的深入研究,发现目前的并行分词算 法大多都存在一个特点:在单处理机上进行并行处理。另一方面,各种并行计算机的 研究已经从理论模型研究阶段进入了商用阶段,各种并行算法也如雨后春笋般迅速普 及,并行计算的应用已经成为了可能。本论文将并行计算技术引入到中文分词领域, 设计出了一种基于并行计算的中文分词系统,使用该系统对大规模批量文本文件进行 中文分词处理分词性能得到了显著的提升。该系统从现有的基于词典的机械匹配分词 算法出发,通过一系列步骤,最终设计出一个能展示并发性、可扩展性的并行分词系 统。此过程可分为四步,即任务划分、通信分析、任务组合和处理器映射。在任务划 分阶段通过域分解方法将中文分词问题划分为一些小的计算任务,以开拓算法的并行 性和满足可扩放性;在通信分析阶段分析了各并行任务之间的通信要求和通信成本; 在任务组合阶段对算法的通信成本和总体执行时间进行了优化,同时进行必要的反复 回溯;在处理器映射阶段将经过优化的算法指派到各处理器去执行,着重考虑各进程 间的负载均衡。 文章的最后部分以电子病历系统从海量的病历文档中挖掘疾病特征信息的分词过 程为例来说明基于并行计算的中文分词系统的分词效果。它在保证分词切分精度的同 i 广东工业大学硕士学位论文 时最大限度地提高了分词的切分速率,使得对大规模真实文本的分词处理实现成为了 可能。 ! 关键词:非结构化信息;中文分词;新词识别;歧义消解;并行计算 a b s t r a c t a bs t r a c t w i t ht h ep o p u l a r i t yo fc o m p u t e ra n di n t e r n e tt e c h n o l o g y , p e o p l eh a v ee n t e r e dt h e i n f o r m a t i o na g ei nw h i c hi n f o r m a t i o ng r o w sa ta ne x p l o s i v es p e e d e v e r yp e r s o nc o n s t a n t l y d e a l sw i t hi n f o r m a t i o ne v e r yt i m ei nr e a ll i f e ,l i k er e c e i v i n gi n f o r m a t i o n , p r o c e s s i n g i n f o r m a t i o na n du s i n gi n f o r m a t i o n p e o p l ea r et r y i n gt ou s et h ec o m p u t e rt oh e l pu sf o r m a n a g i n gt h em a s s i v ei n f o r m a t i o na n di td o e si ne f f e c t h o w e v e r , t h i sm a n a g e m e n ti s u s u a l l yl i m i t e dt oas m a l lf r a c t i o no fs t r u c t u r e di n f o r m a t i o nw h i c hc a nb ea c c e s s e db y d a t a b a s em a n a g e m e n ts y s t e m s i ni ta p p l i c a t i o n s ,t h e r ei sn o to n l ys t r u c t u r e di n f o r m a t i o n , b u ta l s ou n s t r u c t u r e di n f o r m a t i o n , s u c ha st e x t f i l e s ,e - m a i l ,v o i c e ,v i d e oa n di m a g e s u n s t r u c t u r e di n f o r m a t i o nc o n t a i n sal o to fv a l u a b l ei n f o r m a t i o n b u ti t i sv e r yd i f f i c u l tt og e t t h ei n f o r m a t i o nf r o mt h eu n s t r u c t u r e di n f o r m a t i o nd u et of i s s i l i t ya n dn o n - o p e r a b i l i t y a t r e c e n t ,p e o p l eh a v eb e e nw o r k i n go nt h er e s e a r c hi na l lk i n d so ft e c h n o l o g yt om a k ea b r e a k t h r o u g hi nu n s t r u c t u r e di n f o r m a t i o n c h i n e s ei n f o r m a t i o np r o c e s s i n gt e c h n o l o g yi so n e o ft h e m a tt h em o m e n t ,c h i n e s ei n f o r m a t i o np r o c e s s i n gt e c h n o l o g yh a sh i g hc a p a c i t y , a u t o m a t i o na n di n t e l l i g e n c e i tm i x e st h ef e a t u r e so fm u l t i m e d i at e c h n o l o g yt o g e t h e ra s a u d i oa n dv i d e o w o r di st h eb a s eu n i tf o rc h i n e s ei n f o r m a t i o np r o c e s s i n gt e c h n o l o g y i fw e w a n tt op r o c e s st h ec h i n e s ei n f o r m a t i o nw en e e dt of u l f i l lt h ec h i n e s ew o r ds e g m e n t a t i o n t h ea u t h o rh a v es t u d i e do na l lk i n d so fc h i n e s ew o r ds e g m e n t a t i o na l g o r i t h me x i s t i n ga t r e c e n ti n d e p t h s u c ha st h em e t h o d sb a s eo nm a c h i n em a t c h e d ,t h em e t h o d sb a s eo n s t a t i s t i c sa n dt h em e t h o d sb a s eo na r t i f i c i a li n t e l l i g e n c e a n di tf o u n d st h a tt h e r ei sa c o m m o nf e a t u r eo nm o s to fe x i s t i n gp a r a l l e lc h i n e s ew o r ds e g m e n t a t i o na l g o r i t h mw h i c hi s m o s to ft h e mp r o c e s s i n gi no n ep r o c e s s o r i nt h eo t h e rh a l l d w i t ht h ec o m m e r c i a l i z a t i o no f p a r a l l e lc o m p u t e ra n dp o p u l a r i t yo fp a r a l l e la l g o r i t h md e s i g nt e c h n o l o g y , u s i n gt h ep a r a l l e l t e c h n o l o g yt od e s i g nc h i n e s ew o r ds e g m e n t a t i o na l g o r i t h mb e c o m ep o s s i b l e t h i st h e s i sw i l l i n t r o d u c ep a r a l l e lc o m p u t i n gt e c h n o l o g yt ot h ec h i n e s ew o r ds e g m e n t a t i o na n dd e s i g na c h i n e s ew o r ds e g m e n t a t i o ns y s t e mb a s e do np a r a l l e lc o m p u t i n g t h i ss y s t e mi m p r o v e st h e p e r f o r m a n c eo fc h i n e s ew o r ds e g m e n t a t i o ni nn u m b e r so fb a t c ht e x t f i l e s i m p r o v i n g e f f i c i e n t l y i ti sd e s i g nb a s i n go nt h ec h i n e s ew o r ds e g m e n t a t i o na l g o r i t h mb a s eo nm a c h i n e m a t c h e d b yas e r i e so fs t e p s ,c h i n e s ew o r ds e g m e n t a t i o na l g o r i t h mw i t hp a r a l l e l i s ma n d e x t e n d i b i l i t yw i l lb ed e s i g n e df i n a l l y t h i sp r o c e s sc o n t a i n sf o u rs t e p s t h e r ea r et a s k p a r t i t i o n i n g ,c o m m u n i c a t i o na n a l y s i s ,t a s ka g g l o m e r a t i o na n dp r o c e s s o rm a p p i n g i nt a s k l l i 广东工业大学硕士学位论文 p a r t i t i o n i n gp h a s e ,i tm a k e sc h i n e s ep a r t i c i p l ep r o b l e m sd i v i d ei n t os o m es m a l lc o m p u t i n g t a s k sb yd o m a i nd e c o m p o s i t i o nm e t h o dt oe x t e n tt h ep a r a l l e l i s ma n dm e e tt h ee x p a n d a b i l i t y i nc o m m u n i c a t i o na n a l y s i sp h a s e ,i ta n a l y s e st h ec o m m u n i c a t i o nr e q u i r e m e n ta n dt h e c o m m u n i c a t i o nc o s tb e t w e e nv a r i o u sp a r a l l e lt a s k s i nt a s ka g g l o m e r a t i o np h a s e ,i to p t i m i z e s t h ec o m m u n i c a t i o nc o s ta n dt h et o t a lt i m eo fe x e c u t i o n a tt h em e a n t i m e ,i tg o e sb a c kt i l lt h e e n d i np r o c e s s o rm a p p i n gp h a s e ,i tt a k e st h eo p t i m a la r i t h m e t i ct oo t h e rp r o c e s s o r st o e x e c u t e i tf 0 c u s e so nl o a db a l a n c i n gb e t w e e nt h ep r o c e s s e s a tt h ee n do ft h et h e s i s ,t h ea u t h o rt r i e st oi l l u s t r a t et h ew o r ds e g m e n t a t i o ne f f e c ti nt h e c h i n e s ew o r ds e g m e n t a t i o ns y s t e mb a s eo np a r a l l e lc o m p u t i n gb ya ne x a m p l e t h i se x a m p l e i sa b o u tt h ec h i n e s ew o r ds e g m e n t a t i o ni nt e x tm i n i n gf r o mm a s s i v em e d i c a lr e c o r d d o c u m e n ti ne l e c t r o n i cm e d i c a lr e c o r ds y s t e m f r o mt h ee x a m p l ew ec a l lf o u n dt h a tt h e s y s t e mg u a r a n t e e st h ea c c u r a c yo f w o r ds e g m e n t a t i o na n di n c r e a s et h es e g m e n t a t i o nr a t e k e y w o r d s :u n s t r u c t u r e di n f o r m a t i o n ;c h i n e s ew o r ds e g m e n t a t i o n ;n e ww o r di d e n t i f i c a t i o n ; d i s a m b i g u a t i o mp a r a l l e lc o m p u t i n g 目录 目录 摘要i a b s i r a c i i i i 目录v c o n t e n t s v i i 第一章绪论1 1 1 选题背景1 1 2 国内外研究现状2 1 3 研究目的及范围一3 1 4 论文结构4 第二章文献综述6 2 1 中文分词技术6 2 1 1 基于词典的分词方法6 2 1 2 基于统计的分词方法7 2 1 3 基于人工智能的分词方法8 2 2 并行计算技术lo 2 2 1 并行计算机l o 2 2 2 并行计算模型1 4 2 2 3 并行算法设计16 2 2 4 并行程序设计模型一18 第三章总体设计2 0 3 1 体系结构2 0 3 2 并行计算环境2l 3 2 1 机群结构2 l 3 2 2 并行编程环境一2 3 3 3 词库设计2 4 第四章基于机械匹配的全切分分词算法2 7 v 广东工业大学硕士学位论文 = 詈= 詈皇喜詈霉詈罩暑暑暑詈皇詈鼍詈詈詈皇昌暑詈皇皇詈罩葛詈暑詈詈詈皇詈= 鼍詈暑詈詈皇詈! 詈鼍= 詈詈詈毫皇詈詈皇兽= 皇詈= = 皇暑詈暑= 皇詈暑詈昌= 詈詈i i 毫詈皇= 穹詈暑皇鼍皇暑詈詈= 詈昌 4 1 分词流程2 7 4 2 并发全切分2 8 4 3 新词识别3 0 4 4 歧义消解3 2 4 4 1 交集型歧义消解3 3 4 4 2 组合型歧义消解3 4 第五章分词算法的并行化实现3 7 5 1 任务划分3 7 5 2 任务调度3 9 5 2 1 分派调度3 9 5 2 2 负载调度4 0 5 3 主流程图4 l 5 3 1 主进程处理模块4 2 5 3 2 从进程处理模块4 4 第六章应用分析4 9 6 1 案例描述4 9 6 2 分析讨论5 0 总结与展望5 3 参考文献一5 5 攻读学位期间发表的论文一5 8 独创性声明5 9 致j 射6 0 v i c o n t e n t s c o n t e n t s c h i n e s ea b s t r a c t i a b s t r a c t i l l c h i n e s ec o n t e n t s v c o n t e n s v i i c h a p t e r1i n t r o d u c t i o n 1 1 1t h er e s e a r c hb a c k g r o u n d 1 1 2t h er e s e a r c hs t a t u s 2 1 3t h er e s e a r c ho b j e c t i v ea n ds c o p e 3 1 4t h e s i ss t r u c t u r e 4 c h a p t e r 2h t e r a t u r er e v i e w 6 2 1c h i n e s ew o r d ss e g m e n t a t i o n 6 2 1 1t h es e g m e n t a t i o nm e t h o db a s eo nd i c t i o n a r i e s 6 2 1 2t h es e g m e n t a t i o nm e t h o db a s eo ns t a t i s t i c s 7 2 1 3t h es e g m e n t a t i o nm e t h o db a s eo na r t i f i c i a li n t e l l i g e n c e 9 2 2p a r a l l e lc o m p u t i n gt e c h n i q u e 10 2 2 1p a r a u e lc o m p u t e r 10 2 2 2p a r a l l e lc o m p u t i n gm o d e l 15 2 2 3p a r a l l e la l g o r i t h md e s i g n 16 2 2 4p a r a l l e lp r o g r a md e s i g nm o d e l 18 c h a p t e r 3t h eo v e r a l ld e s i g n 2 0 3 1s y s t e ma r c h i t e c t u r e 2 0 3 2t h ee n v i r o n m e n to f p a r a l l e lc o m p u t i n g 2 1 3 2 1t h es t r u c t u r eo f c l u s t e rs y s t e m 2 1 3 2 2p a r a l l e lp r o g r a m m i n ge n v i r o n m e n t 2 3 3 3t h ed e s i g no f t h e s a u r u s 2 3 c h a p t e r4w o r do m n i s e g m e n t a t i o nb a s eo nm e c h a n i c a lm a t c h i n g 2 7 4 1w o r ds e g m e n t a t i o np r o c e s s 2 7 4 2c o n c u r r e n to m n i s e g m e n t a t i o n 2 8 4 3n e ww o r d si d e n t i f i c a t i o n 3 0 4 4a m b i g u i t yd i s a m b i g u a t i o n 3 2 4 4 1c r o s s i n ga m b i g u i t yd i s a m b i g u a t i o n 3 5 4 4 2c o m b i n a t i o na m b i g u i t yd i s a m b i g u a t i o n 3 6 v i i r 5 1t a s kp a r t i t i o n i n g 一3 8 5 2 协ks c h e d u l 崦4 0 5 2 1a s s i g n m e n ts c h e d u l i n g 4 0 5 2 2l o a ds c h e d u l 堍4 1 5 3m a i nf l o wc h a r t 4 2 5 3 1m a i np r o c e s s i n gm o d u l e 一4 3 5 3 2s e c o n dp r o c e s s i n gm o d u l e “4 5 c h a p t e r6a p p l i c a t i o na n a l y s i s ”4 9 6 1c a s ed e s c r i p t i o n 4 9 6 2a n a l v s i sa n dd i s c u s s i o n 5 0 c o n c l u s i o na n de x p e c t a t i o n 5 2 r e f 打蚰c 鹤5 5 p u b h s h e dp a p e r sd u r i n gs t u d y 5 4 o r i g i n a ls t a t e m e n t ”5 8 a c k n o w l e d g e m e n t s 5 9 v i i i 第一章绪论 1 1 选题背景 第一章绪论弟一早珀下匕 随着信息工程、计算机技术等高科技技术的飞速发展和普及,当今世界已进入到了 信息时代。信息对于我们每个人来说,并不陌生。在实际生活中,每个人每时每刻都 在不断地接收信息,加工信息和利用信息,都在与信息打交道。可以说人类的一切活 动都离不开信息,它已被视为如同原料和能源一样的关系人类生存和发展的重要资源。 由于人类不断地传递和交互信息,使得信息每天都以指数级爆炸式增长。信息爆炸的 同时也产生了另一个问题信息贫泛,因为海量的信息中,各类信息混杂在一起,要想 充分利用这些信息资源就必须对它们进行整理。由人来做这项工作,已经是不可能的 了,因为信息产生的速度和传播的速度远远超过了人工处理方式能够承受的范围,人 们试图引入信息管理系统来辅助我们进行信息管理,并取得一定成效,然而所管理的 这一部分信息通常局限于显性的能被数据库所管理的结构化信息,在i t 应用中除了“结 构化信息世界之外,还存在着一个“非结构化”信息的世界,所谓非结构化信息是 相对结构化信息而言的,它通常指形式相对不固定的各种格式的文件,如电子文档、 电子邮件、网页、图像、音视频文件等。目前各类信息管理系统所管理的结构化数据 只占到全部信息和知识的1 0 左右,其他的9 0 都是数据库难以存取到的非结构化信 息和知识。非结构化信息隐性包含了许多重要的关键信息,但由于非结构化信息的割 裂性和无法互操作性使得隐含在其中的巨大信息价值四分五裂,无法通畅流转,因而 丧失其应有的价值。如何对海量的非结构化信息进行处理,快速地定位到资源,获取 有价值的信息,已经成为信息处理技术研究的新热点。经过几代人的努力,非结构化 信息处理技术取得了长足的进步,并呈现海量、自动化和智能化的特征。但由于中文 与西文在行文方式上的差异,中文字与字之间是连续的,西文单词间是以空格自然分 割开的,计算机无法识别出中文文本中哪些汉字串组合成词,中文信息处理无法像西 文那样可以直接过渡到短语划分、概念抽取以及主题分析,最终达到智能处理的最高 境界,这导致了中文信息处理技术远远落后于西文信息处理技术。中文分词是中文信 息处理的基础,只有越过这个技术瓶颈,分词的准确度足够高、分词速度足够快,中 文信息处理技术才有可能和西文信息处理技术技术相媲美。 1 广东工业大学硕士学位论文 1 2 国内外研究现状 中文分词技术是自然语言信息处理的一个分支,是- - i - 1 与计算机科学、语言学、 统计学等多种学科相关联的综合性学科。对于一句话,人可以通过自己的知识来明白 哪些是词,哪些不是词,但如何让计算机也能理解? 其处理过程就是分词算法。 目前中文分词算法在工程中应用最广泛的是基于词典的机械匹配算法。它是最早 出现的分词算法,它的本质是将文本与词典进行字符串匹配,算法实现比较容易,但 是对于一词多义、组配灵活的汉语实行简单的机械切分,将会产生无法克服的切分歧 义,同时由于词库容量的限制,对于词库中没有收录的新词将无法识别。单纯采用机 械匹配方式进行分词由于切分精度不高难以满足中文信息处理中对汉语分词的要求。 为了提高机械匹配对切分歧义的处理能力,人们提出了将其他切分歧义处理策略与机 械匹配相结合的中文分词算法,并取得了不错的效果,它是目前中文分词方法研究中 一个比较成熟的发展方向。 由于基于词典机械匹配的分词算法对词的划分受制于所建立的词库容量和词组的 语法特性,越来越多的学者认识到假如可以找到一种不依赖词库但又可反映成词可信 度的判定依据,那么基于这种依据的分词算法将具有良好的切分歧义处理能力和新词 识别能力。通过对大量语料的分析,人们发现上下文中汉字与汉字的相邻共现频率可 以很好地反映成词可信度,便提出了基于统计模型的无词典分词算法。这种方法通过 统计的手段直接从生语料库中获取分词,是基于词典机械匹配方法的重要补充手段。 目前该算法受到了越来越多的研究人员的重视,发展较快。但是这种分词算法由于不 使用词表,使得分词算法的时空开销增大,另一方面,由于在统计的同时并没有结合 成词的语法规则信息,该算法对常用词识别的敏感度较低,经常会抽取一些共现频率 高但并不是词的常用字串。 基于统计的无词典分词算法虽然在一定程度上提高了分词系统的切分歧义处理能 力,但它又引出了另外一个新问题:会抽取出共现频率高但不是词的常用字串。为了 获得更好的分词效果,人们又提出了一种基于规则的人工智能分词算法。这种算法在 分词的过程中结合句法信息和语义信息进行句法、语义分析,以模拟人脑对句子的识 别过程,以达到基于理解的自动识别词的效果。这种基于规则的人工智能分词技术是 理论上最理想的分词算法,但是由于汉语自然语言复杂灵活,要用规则的方式穷尽表 示所有的语言知识还很困难,所以还需要对这种分词技术进行更深入和全面的研究。 2 第一章绪论 这种方法目前还处在初级阶段,但它注定是中文分词方法的未来发展方向。 中文分词的各种分词方法各有其优缺点,对于任何一个成熟的分词系统来说,为 了取得更好、更完善的分词效果,不可能单独依靠某种算法来实现,都需要综合不 同的算法。然而,一个不可否认的事实是:混合型分词算法中结合的知识越多,分词 算法的计算开销就越大。 另一方面,随着互联网的普及,海量信息处理技术的兴起,中文分词处理面对的 文本数量可能是成百上千的,这在很大程度上也增加了中文分词的计算量。 对于一个成熟的分词系统来说,切分精度和切分速度是两个最重要的目标,目前 混合型的分词算法切分精度已经得到了很好的保证,但是切分速度却不敢恭维,尤其 是面对批量的文档集,这种切分速度的瓶颈就更突出。在一个实时应用系统中,如果 分词切分的速率不高,对系统的影响将是致命的。幸运的是,目前已经有越来越多的 学者注意到了这一点,并在各种分词算法中引入了并行处理技术。如:郭翠珍【1 】【2 】等人 提出的一个基于网格的分词服务系统的研究,刘怀英【3 】提出的基于分布式并行计算的中 文分词研究等。这些方法通过并行处理技术使得中文分词的切分速率得到了一定程度 上的提高,但他们都有一个共同点:分词算法的并行化处理比较复杂。 1 3 研究目的及范围 目前研究的大部分并行分词方法都是在单处理机上处理的,由于单处理机物理硬 件性能瓶颈的限制要想进一步提高分词的切分速率已经很困难了,迫切需要引入一种 有别于传统单处理机处理方式且可以提高切分速率的计算方式。我们在论文中将并行 计算技术引入到分词算法中,它改变了传统单处理机串行执行的分词方法,在单处理 机性能无法改变的情况,通过并行程序设计方式,将要切分的文本划分成更小的子任 务,由多个处理机并行执行,使得计算机的处理性能显著提高,从而进一步提高了分 词的切分速率。 本论文设计的基于并行计算的中文分词系统旨在保证切分精度的同时最大限度地 提高切分速率,它要求能处理大规模的真实文本,而不是如以前的研究那样,只能处 理很少的词条和典型句子,只有这样,中文分词系统才有真正的实用价值。 我们在论文中除了讨论了用现在可行的并行计算技术将分词算法并行化外,还讨 论了中文分词过程中的两大难题【4 1 :歧义识别和新词识别。 3 广东工业大学硕士学位论丈 歧义【5 】是指同样的一句话,可能有两种或者更多的切分方法。分词歧义处理之所以 是中文分词的困难之一,原因在于歧义分为多种类型,如交集型歧义、组合型歧义和 真歧义。各种不同类型的歧义,歧义消解的方式大不相同。交集型歧义在文本中比较 常见,例如句子“菜的确切得不错”,就存在这种类型的歧义,其中的“的确 和“确 切 都是一个词,对这种歧义的消解可以采用比较多种方法。相对交集型歧义,组合 型歧义的消解处理就复杂得多了,例如句子“这个门把手坏了”,这里的“门把手 和 “把手”都是一个词,由于没有人的知识去理解,计算机很难知道到底哪个方案正确, 它需要依靠上下文的语义信息来判断。如果交叉歧义和组合歧义计算机都能解决的话, 在歧义中还有一个难题,真歧义,例如句子“乒乓球拍卖完了 ,可以切分成“乒乓 球拍卖完了,也可切分成“乒乓球拍卖完了,真歧义是所有歧义中最难处理的, 还好这部分歧义在文本中比较稀少。 新词【6 】,专业术语称为未登录词,也就是那些在字典中都没有收录过,但又确实能 称为词的那些词。它分为专名和非专名两大类,像人名、地名等被认为是专名,除开 专名以外的新词、简称、行业用词等则被认为是非专名词。因为新词的数量庞大,且 没有相应的规范,未登录词的识别还存在很大的难度,它被认为是中文分词中除歧义 消解外的另一难题。 1 4 论文结构 第一章绪论。本章主要论述基于并行计算的中文分词系统的研究背景及范围,并 介绍了基于并行计算的中文分词系统的研究目标。 第二章文献综述。本章重点论述中文分词的相关技术,如分词算法、歧义消解、 新词识别等,针对当前分词方法存在的计算量大的问题,提出了基于并行计算的中文 分词方法,并对当前并行计算在分词算法中应用的相关理论支持做了详细的探讨。 第三章系统总体设计。本章重点讨论了分词算法并行化实现的总体框架,在我们 的系统设计中以当前流行的机群系统作为并行化的硬件环境,采用消息传递接口作为 并行程序设计的编程环境,同时对分词中词库的组织进行了探讨。 第四章基于机械匹配的全切分分词算法。本章重点讨论了分词算法的全切分策 略,并对分词中存在的两大技术难点:歧义消解和新词识别,进行了深入的探讨,详 细阐述了系统中采用的消歧方法和新词识别方法 4 第一章绪论 第五章分词算法的并行化,本章重点讨论了如何通过m p i 消息传递接口的主从程 序设计模式对分词算法的进行并行化,对任务的切分和调度作了深入的探讨,同时详 细阐述了主处理机和从处理机中的执行流程。 第六章应用分析,本章重点讨论了论文研究的中文分词系统在城市管理指挥系统 中应急预案检索中的应用情况。 最后对本文所作的研究工作进行了总结,并根据当前系统中存在的局限性,提出 了有待于进一步研究的相关工作。 5 广东工业大学硕士学位论文 2 1 中文分词技术 第二章文献综述 弟一早义l 姒练尬 一个中文文本从形式上看是由分段组成,而分段又由一些句子组成,若干个词组 和具有过渡作用的单字可以组成一条句子。虽然说字是组成文本篇章的最小单位,但 从现代汉语的基本表达方式来看,将文本切分为单字不符合人对中文语义的理解。因 此汉语的分析必须建立在分词的基础上。中文分词【7 1 ( c h i n e s ew o r ds e g m e n t a t i o n ) 指的 是从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程。 2 1 1 基于词典的分词方法 中文分词最容易想到的,也是最简单的办法就是查字典。所谓的“查字典 法, 其实就是把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词 就找最长的词匹配,遇到不认识的字串就分割成单字词,简单的分词就完成了。 在所有基于词典的分词算法中,最早研究的是最小匹配算法( m i n i m u mm a t c h i n g ) , 这种方法虽然速度快,但准确率却不是很高,因此该方法基本上已经不被采用。现在 仍然比较常用的方法是基于字符串的最大匹配方法,它分为j 下向和逆向两种最大匹配, 正向最大匹配【8 l m m ( m a x i m u mm a t c h i n g ) 的基本思想是:假设词典中最长词所含的汉字 个数为1 1 个,取待切分字符串的前1 1 个字作为匹配字段,查找词典。若词典中含有该 词,则匹配成功,分出该词,然后从被比较字符串的n + 1 处开始再取n 个字组成的字 段重新在词典中匹配;如果没有匹

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论