下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、东北师范大淫硕士学位论文基于词典的屮文分词歧义算法研究姓名:刘延吉申 请学位级别:硕士专业:计算机应用技术 指导教师:孙铁利20090501摘 要 随着计算机网络的飞速普及,人们已经进入信息时代。在这个信息社会 里,信息的重要性与日俱增,无论是个人,企业,乃至政府都需要获取,掌握大量 有用的信息。在这种环境下,屮文信息处理技术逐渐成为技术人员的开发热点,而 其中钗 匾 木褪?中文分词技术。中文分词技术,就是指将文本中每句话,利用 分词算法拆分成词,以便于计算机对 文本信息进行处理和理解的过程。它应用广泛, 主要应用于信息检索,信息抽取,机器翻译等自然语言处理技术等。同时,它包括 很多方面内容,
2、例如中文分词技术中的分词算法研究,未登录词识别技术,分词歧 义处理技术等等。其屮歧义处理技术和未登录词 识别技术是屮文分词技术的两大难 点。而本文则是重点对中文分词技术中的分词算法和歧义处理技术进行了深入的研 究和实践。 首先,本文采用了一种典型的基于词典的中文分词算法一正向最大 匹配算法,它的 思想简单,并且易于实现,但是分词的精确度和速度并不理想。 针对该问题,本文采用了双层h a s h结构的词典机制,来提升分词的速度,同时 采用改进的正向最大匹配算法来提高分词的精确度。其次,由于歧义处理技术是 中文分词技术中的重要组成部分,只冇完成了对文本的 歧义处理,才能正确的对文 本进行分词。所以
3、本文在提出改进的止向最大匹配算法的基础上,又提出了一种基 于概率和规则想结合的歧义消解算法,完成了对文本的歧义处理。最后,本文充分 考虑分词系统准确率、速度及可实现性等因素,给出了一种中文自动分词系统的设 计方案。并对该分词系统进行了实现,取得一定的分词效果。关键词:中文分词; 分词算法;歧义处理;歧义消解算法abstract w砧the a rapid popularizati o n o f computer ne two rks, the peoplejjjea d y ent e r e d the i n f o r m a tion age. i n the great s , a
4、ndnee o fs111e a c q u duals, t a n c e ,deal o f useful informationi n f o r m ai r e d and the gov chineses increasing, o nprocess ing1 y become hot h n o 1 o g y . one o chnologys t e segmentatii n e s s e import wouldr i n d i v c i r e u r n o n process ing i n e s e i n f o r m a o g y has g r
5、 a d u deve1opment t important i s chinese w chinese wordeven bus society, the t i o n information mastered, w h o e v e e r n m e nt. in t h i si n f o r m a t i then o f c ht e c h n o 1 spots for f t he m o s t c h n o 1 o g y o n .n t a t ion algorithm technology means a process which u s i ng t
6、he correspon ding word segmentation to s e p a r a te the text and easily t o deal wi 也 and u n d e r s t a n d the used i n information i n f o r m a t i o n b y compute r.its range o f a p p 1 i c a tions i s 扌 de,mai nly retrieval, inform a t i o n and s o ext r a c ti on, machine t ran slat ion,
7、 narll|n language process ing t e c h n o 1 o g y technology, i s on. at the s a m e t i m e , i t includes many aspects, such a s chinese word s e g m e ntati on technologyalgor it h m, unknown word r e c o g n it ion t echnology, amb i guous word process ing a n d s 0 on. amb i guou s process ing
8、t e c h n o 1 o g y and b n k 1 1 o w n word recogni t ion t w o difficulties o f chinese word s e g m entation t echnology. i n ambiguity thispaper ,i tw111gment at io na1nfir st1yyhacessi ngtechnp1ca1 c:h1nese0r1th mbaseds t f o r w ao f i t i smainly studygorithm and s ethis p a p e r . i tthe wo
9、rd s e gmentatio used a proi q u e s o f chinese word t y word s e g m e n tation a 1 g o n d i c ti on3ry?the la r g e r d matching algorithm, n 1 e idea simple and easy implement, but theres u1 t0fth et0s e g m e ntat1o naceura c yus esan dt he se g m e n tat10n speedsee m sto thed0 ub 1 e ?hash s
10、tructur ediet10n a rya sbea nnl o tidealf o)rthe pr0b 1.em,i nth1s pa pe r、.,i tm echani sm f o r1mprov in gthe1m pr ov e dl argests p eed0fw 0r df0rw ar dm at c h i ngpr0ce ssings eg m en ta t10n ,a sw e1 1 algor1thmfor1nthi sp ape rt hep ro p o s e d0fi mp r o v1nga cc ur acyse gm en t a t i o n .sec 0n d 1 y ,amb i gu it yw 0u1 dte ch n o 1 o gy1sode0ft:h <e1mportant co m ponen ts0fc hi i nes ew0rds e! g m ent a t io tech ;n -0 1o gyo n 1ypr0p0sedd ea1 >航mthe a mb igu it yfi e 1dc0mp1ete1 yituseas e g m entth etextc0rrect1yt her e f ore ,i td1s am
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 患者服务管理奖惩制度
- 医美机构奖惩制度范本
- 奶茶店员工工作奖惩制度
- 危化品生产车间奖惩制度
- 南京市上元小学奖惩制度
- 工地现场会议奖惩制度
- 卫浴售后服务奖惩制度
- 上下工位质量奖惩制度
- 巨人学校员工奖惩制度
- 单位信访考核奖惩制度
- 《急性肝功能衰竭》课件
- 北海市老干部活动中心招聘笔试真题2024
- 国家中小学智慧教育平台应用指南
- 2025年部编版道德与法治五年级下册第二单元复习课教案
- 学生心理健康一生一策档案表
- 2025年初级会计职称《经济法基础》精讲课件 (第5-8章)
- 基于PLC电解机床控制系统设计13000字论文
- GB/T 41850.9-2024机械振动机器振动的测量和评价第9部分:齿轮装置
- 6西格玛管理在护理应用中的案例
- GB/T 44731-2024科技成果评估规范
- 医学教材 《狂犬病暴露预防处置工作规范(2023年版)》解读课件
评论
0/150
提交评论