版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
汉语分词在中文软件中的宽泛应用纲要:中文软件需要拥有对中文文本的输入、显示、、输出等基本功能,并且跟着计算机技术的发展,关于计算机的文本办理能力提出了更高的要求,诸如智能拼音语句输入、手写和语音自动辨别输入;文章的校正;简体和繁体中文的自动变换;信息检索和信息摘录;文安分类和自动文摘;语音合成;自然语言的理解和自动翻译;自然语言接口等。而全部这些中文办理功能都要成立在对汉语文本的分词办理这一基本功能之上。因此,汉语分词是中文信息办理的基础,在中文信息办理系统中拥有宽泛的应用远景。一、为何需要汉语分词我们知道,汉语的中文信息办理就是要“用计算机对汉语的音、形、义进行办理。”[1],我们还知道,“词是最小的能够独立活动的存心义的语言成分。”但是,汉语文本中词与词之间却没有明确的分开标志,而是连续的汉字串。不言而喻,自动辨别词界限,将汉字串切分为正确的词串的汉语分词问题无疑是实现中文信息办理的各项任务的首要问题。以拼音输入中的同音词自动辨别为例,据我们统计,汉语单字同音现象是特别严重的。以6763个汉字为例,没有同音字的汉字只有16个。其余汉字都有同音字。此中最多的有116个同音字。而汉语词的同音现象则有很大的改良。以52505的词表为例,此中35942个词语没有同音词。所以,大部分同音字能够依赖词来确立。比如:”yi”对应的同音字“以,一,易,已,意”,分别能够在“认为,一定,简单,已经,意义”中来确立。关于词语(包含单字词)的同音现象,则需要运用词语之间的合理搭配以及词语在句子中的合法运用来确立。比方“一枝可爱的玫瑰花”,”Zhi”的同音字有:“只,之,直,支,枝.....”等。可是这里“枝”是和“花”的合理搭配。也就是说”一+枝+可爱的玫瑰花”是合理的搭配。由此不难看出,分词关于同音词自动辨别的作用。而同音词的自动辨别也是语音自动辨别所要解决的重要问题。除了同音词的自动辨别,汉语的多音字自动辨别仍旧需要分词的帮助。比如:“校、行、重、乐、率”等都是多音字。不论是拼音自动标明仍是语音合成都需要辨别出正确的拼音。而多音字的辨别能够利用词以及句子中前后词语境,即上下文来实现。如以上几个多音字都能够在以下几组词中得以定音:学校(xiao)/校(jiao)对、行(hang)列/行(xing)进、重(zhong)量/重(chong)新、快乐(le)/音乐(yue)、率(shuai)领/效率(lv)。汉字的简体/繁体变换、信息检索和信息摘录、自然语言理解、文安分类、机器翻译、文本校平等中文信息办理系统相同都第一需要分词作为其最基本的模块。二、汉语分词所面对的重点问题及分词算法汉语分词是由计算机自动辨别文本中的词界限的过程。从计算机办理过程上看,分词系统的输入是连续的字符串(C1C2C3Cn),输出是汉语的词串(W1W2W3Wm),这里,Wi能够是单字词也能够是多字词。那么,在这个过程中,我们所要解决的重点问题是什么,我们又有什么样的解决方案哪?重点问题、通用词表和切分规范、汉语的语素和单字词,合成词和短语之间没有清楚的界线。语言学界固然关于词在观点上有一个十分清楚的定义,即,“词是最小的能够独立活动的存心义的语言成分。”但从一些字典的编撰中,我们仍旧可看出一些上述界线难以划分的问题。比方:“听见”“看见”在好多字典中都有收录,可是有近似结构的“闻见”却没有收录。在成立分词系统词表时,仍旧关于收词的标准难以掌握,比如:“鸡蛋”是词,那么“鸭蛋、鹌鹑蛋”能否也作为词收入词表?到现在为止,分词系统仍旧没有一个一致的拥有威望性的分词词表作为分词依照。这不可以不说是分词系统所面对的首要问题。除了分词词表,还有一个观点值得我们注意,即“分词单位”。从计算机进行分词的过程来看,其输出的词串我们称之为“切分单位”或“分词单位”。《信息办理用现代汉语分词规范》中关于“分词单位”也有一个定义:“汉语信息办理使用的、拥有确立的语义或语法功能的基本单位。包含本规范的规则限制的词和词组。”[3]因而可知,信息办理中分词单位的定义比传统意义上的词更宽泛些。这也就避开了理论上关于词的界定难以掌握的困扰。分词系统能够面向解决实质问题的需乞降真切语猜中使用的屡次程度来规定“分词单位”。分词单位能够是同词表中词完整一致,也能够是包含未登录词辨别以及一些词法分析的切分单位,比如,一些人名、地名、机构名、外国人译名,应予以辨别和切分。一些动词和形容词重叠构造,如“高高大大”、“甜甜蜜蜜”等;一些附带词,如后缀,“亲和性”、“热敏性”等;都可以作为分词单位予以辨别和切分。所以,关于一个分词系统而言,制定一个一致性的分词单位切分规范无疑也是一个重要的问题。歧义切分字段、分词系统要办理的第二个重点问题是文本中歧义切分字段的鉴别。汉语中歧义切分字段最基本有以下两种种类:我们知道,简体/繁体之间的变换,在单字一级,会有一个简体汉字对应多个繁体汉字的状况,如:“发”对应繁体的“發”和“髮”。那么,简体/繁体变换应当将“发”转为“發”仍是“髮”哪?这就引入了怎样解决简/繁歧义的问题。其余,简体中文和繁体中文在一些技术术语的运用上也有不一样。比如,简体中文计算机术语“物理地点”和“逻辑地点”在繁体中文中写作“邏輯位址”和“物理位址”。简体/繁体变换系统也需要解决这类术语的不一样用法问题。我们的简体/繁体变换系统运用分词模块切分词语,依据词语以及上下文来决定最可能的变换结果。MSWord2000中供给了关于文本自动标音的功能,我们知道,汉语存在一字多音的问题,怎样决定多音字的正确拼音哪?这里,我们仍旧利用分词系统作为基础模块依据上下文来鉴别其正确的拼音。这里,我们看到多音字:“重”被正确标明为“zhong4”和“chong2”.四、结语汉语分词是中文信息办理系统的基础,有着极其宽泛的实质应用。从基本的输入系统,如智能语句输入法、语音输入、手写输入;到文字办理,如文本校正、简体/繁体变换、拼音标明;以及语音合成,文本检索,文安分类,自然语言接口,自动文摘等等,无处不浸透着分词系统的应用。可是关于分词中所波及的一些重点问题,我们仍旧没有很好的解决方案。所以,中文信息办理技术的进步和中文信息办理系统的宽泛应用,有待于对分词中的重点问题进前进一步的深入研究和探究,如,拟订和公布国家通用的分词词表,研究歧义切分字段种类,加强歧义判其余能力,提升专出名词的辨别率,研究汉语的构词规则和词法例则等等。从系统设计方面,应试虑开发通用的多功能的汉语分词系统,如:支持多种不一样应用的多字典构造、自适应不一样应用的切分结果、带构造化和属__的切分结果等。从分词的在中文信息办理系统中的应用方面,能够说,我们已经跨出了一大步,可是我们仍在致力于拓展其新的应用,如:自动文摘、汉语文本索引和检索、汉语语音合成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 危运驾驶员考试题及答案
- 2026年中枢神经系统寄生虫病诊疗试题及答案(神经内科版)
- 5年(2021-2025)辽吉黑蒙高考政治真题分类汇编专题06 全面依法治国(解析版)
- 2025年广东社区工作者招聘通关必做300题及答案
- 70MWp农光互补光伏发电工程可研报告
- openEuler系统管理与运维(AI协同)(微课版)-教案全套 项目1-8 搭建服务器基础环境- 部署前后端分离的Web项目
- 天水市护士招聘笔试题及答案
- 唐山市专职消防员招聘考试题库及答案
- 绥化市护士招聘考试题及答案
- 四平市专职消防员招聘面试题及答案
- 双管高压旋喷桩施工方案
- 832个贫困县名单
- 运用PDCA降低血管内导管相关血流感染发生率(NPICU)
- 2024贵州贵阳中考物理试题及答案 2024年中考物理试卷
- 特发性肺纤维化急性加重AEIPF诊治指南
- 2023年广州市黄埔区中医院护士招聘考试历年高频考点试题含答案解析
- 第四章基层疾病预防控制与妇幼保健职能演示文稿
- D500-D505 2016年合订本防雷与接地图集
- JJG 1105-2015氨气检测仪
- GB/T 4295-2019碳化钨粉
- 西部钻探套管开窗侧钻工艺技术课件
评论
0/150
提交评论