开题报告-中文分词方法研究与实现.doc_第1页
开题报告-中文分词方法研究与实现.doc_第2页
开题报告-中文分词方法研究与实现.doc_第3页
开题报告-中文分词方法研究与实现.doc_第4页
开题报告-中文分词方法研究与实现.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原工业学院毕业设计(论文)开题报告学 生 姓 名:学 号:系 部:计算机工程系专 业:计算机科学与技术题 目:中文分词方法研究与实现指导教师: 2014年12月15日毕业设计(论文)开题报告一研究目的及意义词作为微小的语言成分,在日常的生活中可以独立活动且具有实际意义。在五千年文化的积淀下,形成了相应的汉语书写习惯:汉语句子中词与词之间没有明确的自然分界符。英文的单词与单词之间存在空格,因而不存在分词问题。故而,分析中文词义是中文信息处理的根柢和枢纽。中文分词技术与计算语言学、机器翻译密切相关,它涉及到计算机科学、语言学、数学三大领域。同时,中文分词技术综合应用了语用学、语义学的知识,也向现代汉语言文字学提出了一系列的问题及需求。随着中文分词方法研究的深入、分词技术的发展,各种性能精良的中文分词系统层见叠出,中文分词技术的应用也原来越广泛,如语音识别系统、搜索引擎、机器翻译、自动分类校对等。中文分词技术研究主要有三个方向:机械分词,理解分词以及统计分词。中文分词方法针对领域不同,没有绝对的优劣高低之分,因而,中文分词方法的研究需要与实际应用相结合。学生应通过本次毕业设计,综合运用所学过的基础理论知识,深入了解中文分词技术,为学生在毕业后相关工作打好基础。二国内外研究进展中文分词的研究起始于二十世纪八十年代,当时,国内学者对中文分类自动标引技术开始了深入的研究,现如今,已经可以通过对中文语义体现的关键词的进行自动抽取及筛选,从而实现语义自动分离引标1。1980年,在中文自动分词方面,我国取得了初步的进展,之后便开始深入中文文献自动标引方面。1983年北京航天航空大学梁南元副教授完成并实现了第一个汉语自动分词系统CDWS(The Modern Printed Chinese Distinguishing Word System),实现了对2500万字的现代汉语词频统计工作。此后许多科研院校相继研发出许多分词系统:清华大学先后研制的SEG和SEGTAG分词系统、复旦大学的分词系统、哈尔滨工业大学的统计分词系统2、微软研究院的自然语言研究所的NLPWin的语法分析器3、北京大学计算语言学研究所研制的分词系统以及在973专家组评测中获得第一名的中国科学院计算技术研究所汉语词法分词系统ICTCLAS4。这些系统采用的分词方法概括起来可以分为两类:一类是基于规则的专家系统分词方法,一类是基于统计的机械分词方法5。1989年到1993年期间掀起了研究单个汉字研究的热潮,1990年末,北京师范大学何克抗教授的课题组完成了使用的自动分词系统1。1995年,叶新明分析了现有中文自动分词算法,并提出了适用于中文文献的自动分词算法 。国外对中文分词技术的相关研究大概也是从20世纪80年代开始的,国外对中文分词技术的研究的方向大致为中文分词技术的应用和评测,国外对中文分词技术的研究大多是介绍自动分词在信息检索,汉字处理,语音处理,内同识别与分析,自然语言理解等方面的应用,阐释了中文分词难点及其在信息检索中的应用6,当然也有专门针对分词技术做研究的,Fu lee Wang 采用数据挖掘方法解决了中文分词问题,提出了一种新的分词规则7。毕业设计(论文)开题报告三本课题要研究或解决的问题和拟采用的研究手段(途径)本系统是以目前计算机中文分词技术应用和研究现状为背景,通过研究目前已有的、常用的中文分词算法基本原理,重新设计一种相对来说更加先进的中文分词算法,并依据实现的算法,设计实现一个中文分词系统。研究或解决问题:(1) 研究常见的几种分词方法,阐述其原理、优缺点。(2) 着重研究正向最大分词的原理,得出相关结论。(3) 根据对中文分词算法的研究,对现有的中文分词算法进行优化设计。(4) 研究常见中文分词系统的实现架构和中文词库使用方法。(5) 根据软件工程的研发流程,设计实现一种更加先进的中文分词系统,将自己设计的新算法应用到中文分析系统中。(6) 在中文分词系统中,可以对文本文件中的中文进行分词,并输出显示分词结果。拟采用的研究手段(途径):(1) 研究手段,通过查阅相关中英文图书资料,结合网络搜索引擎,进行相关技术搜索收集。(2) 开发工具,本系统采用eclipse开源免费开发平台,作为系统开发的IDE,开发语言采用Java语言。Java语言的优势在于,可以跨平台运行,可移植性强,参考资料丰富。(3) 开发方法,采用软件工程方法,对系统进行需求分析、概要设计、详细设计、软件编码、系统测试。绘制出系统框图、流程图以及数据流图。(4) 开发环境,软件环境,本系统采用了32位windows7旗舰版操作系统;硬件环境采用了普通的个人PC。4 工作进度安排设计(论文)各阶段名称起 止 日 期1分析目前常用的中文分词算法的原理及优缺点2014年12月15日3月1日2比较正向最大分中文分词方法与其他方法2015年3月2日3月13日3中文分词算法模型设计,设计完成一种更加先进的中文分词算法2015年3月14日3月21日4研究常见中文分词系统的实现架构和中文词库用法2015年3月22日4月4日5根据软件工程方法,进行中文分词系统设计2015年4月5日4月18日6中文分词系统编码和测试2015年4月19日5月4日7中文分词方法研究与实现论文撰写与答辩2015年5月5日6月22日五主要参考文献1 何莘,王琬芜.自然语言检索中的中文分词技术研究进展及应用J.情报科学,2008,26(5):787-791.2 吴志杰.机器翻译中汉语词语切分的现状汉语分词与汉英机器翻译研究系列之一J.外语研究,2009(1):8-13.3 崔彦翔.基于条件随机场的网络研究D.大连:大连理工大学,2013.4 梁卓明.WAP主题搜索引擎的设计和实现D.广州:中山大学,2007.5 胡局新,鞠训光.自学习分词算法在科研项目查重系统中的应用J科技通报,2013,29(6):14-16,196 Schubert Foo,Hui Li.Chinese word segmentation and its effect on information retrieval. Information Processing and Management. 40(2004) 161-190 .7 Fu Lee Wang,Christopher C.Yang.Mining Web Data for Chinese Segmentation.JOURNAL OF THE AMERICAN SOCIETY INFORMATION SCIENCE AND ECHNOLOGY. 2007,58(12):1820-1837.8 苗夺谦,卫志华.中文文本信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论