汉语词汇分词研究.docx_第1页
汉语词汇分词研究.docx_第2页
汉语词汇分词研究.docx_第3页
汉语词汇分词研究.docx_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉语词汇分词研究 摘要:汉语分词是从动态的信息中检索出符合用户个性化需求的词汇理论,它能为用户提供及时、个性化的信息服务。笔者探讨了汉语词汇分词在网络信息检索中的应用,提出隐式分词词典,该词典在汉语文本输入的同时进行分词联想,更好的解决了中文信息处理中需要分词的问题。 下载 关键词:汉语;分词;检索;隐性词典 信息技术时代,从网络中学习知识和发布相关信息的人越来越多的人,互联网信息技术发生了前所未有的爆炸式发展,这种变化在给用户带来方便的同时,也让用户陷入信息泥潭。如何更加准确、快捷地帮助用户寻找其感兴趣的信息,如何提高检索质量和检索精度,将会成为“互联网 +”时代研究人员逐渐关注的焦点。汉语分词正是用来从动态的信息流中抽取出符合用户个性化需求的信息,从而为用户提供及时、个性化的信息服务。汉语分词的准确性直接影响到搜索结果是否符合用户的目标需求。 近几十年来,分词技术取得可观的研究成果,但在用户提取信息时效果还是不尽人意。本文提出了建立隐式分词词典的设想,该词典进行中文文本输入的同时后台程序进行分词联想,并将文本以相关词串的形式储存在计算机。我们期待这种方法能很大程度上解决中文信息处理中需要分词的问题。 一、现存的分词方法及其局限性 1.现有的分词方法 自动分词作为自然语言处理的前处理阶段事关重大,它是各种汉语信息处理包括语音处理、主题词检索、词频统计、文摘生成等工作的基础工程,也一直是制约中文信息处理飞跃的“ 瓶颈” 之一。关于分词的必要性,笔者在另一篇文章汉语词汇分词规范的理念和实践一文中已陈述,在此不做赘述。这里就现有的分词方法做简单概括并对其局限性做出评价。 目前的分词系统采用的分词方法主要有三种类型: (1)机械分词法。这种分词方法很普遍,又叫字符串匹配的分词方法,百度就是此类分词。它又具体又分为:正向最大匹配法、逆向最大匹配法、最短路径分词法和双向最大匹配法等。 a.正向最大匹配法,由左到右的方向。举个例子:“不知道你在说什么”,这句话采用正向最大匹配法是 “不知道,你,在,说什么”。 b.逆向最大匹配法,由右到左的方向。“不知道你在说什么”用逆向最大匹配法来分,即“不,知道,你在,说,什么”。 c.最短路径分词法,使每一句中切出的词数最小。“不知道你在说什么”最短路径分词法就是 “不知道,你在,说什么”,分出来就只有3个词了。 d.双向最大匹配法,进行由左到右、由右到左两次扫描。 正向最大匹配法,最终切分结果为:“我们/在野/生动/物/园/玩”,其中,两字词3个,单字字典词为2,非词典词为1。 (2)语义分词法。语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法等。 (3)理解分词法,又称人工智能法。这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。 2.现有分词方法的局限性 现有的分词方法,无论是机械分词法、语义分词法,还是人工智能分词法都不能有效解决汉语词自动切分中存在两大困难。 a.歧义识别。主要的歧义有两种:交集型歧义和组合型歧义,例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交集型歧义(交叉歧义)。 b.未登录词的识别。未登录词也就是那些在分词词典中没有收录,但又确实能称为词的那些词。除了“duang、阅兵蓝”这样的新词以外,还有机构名、人名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。 二、汉语分词在信息检索中的应用 随着技术进步,汉语自动分词技术的应用之广自然不必言说,分词系统应支持不同的应用目标,包括各种输入方式、简繁转换、语音合成、翻译、检索、文摘等等;支持不同领域的应用,包括自然科学、社会和技术及日常办公、新闻、交际等;支持不同地区(包括湾、澳、台等地)的汉语处理,应能适应不同地区的不同用字、不同用词、不同语言风格,不同专有名词构成方式等。具体到信息检索领域的应用,对汉语自动分词技术的特殊性需要分词词典。智能信息检索无论是机械分词法还是基于理解的分词法,都依赖于分词词典。分词词典应具备以下特性: a.颗粒度问题。鉴于每个用户的查询请求各不相同,为了适应用户的查询,检索系统的词库的分词单位应该较小,应该是现代汉语中最基本、最稳定的词。 b.专业词典。虽然使用了双向分词算法,但也还存在着一定的失误率,主要原因是基于字典、词库匹配的分词方法对词库的依赖性较强。由于我们所研究的网页信息有较强的专业性,所以我们可以通过尽可能地扩大专业词库,从而更大地降低分词失误率,专业词典的编制是降低自然语言处理与智能信息检索实现难度的有利辅助。 3、总体词数越少越好,在相同字数的情况下,总词数越少,说明语义单元越少,那么相对的单个语义单元的权重会越大,因此准确性会越高。 因此,我们设想出隐式分词词典,这种词典可以最大程度上解决汉语分词问题。 三、设置隐式分词词典的必要性及其功能 汉语分词问题是大数据时代的产物,是计算机处理中文信息的需要,所以分词问题应该由计算机技术来实现。本文提出的隐式分词词典在文本录入的同时由分词软件进行同步分词,这种方法是未来大数据时代解决分词问题必须考虑的。 首先,之前人们研究出的增加分词符或者改变汉字书写方式等自动分词系统都要付出一定的改变,改变人们的也读书写习惯,若是信息量很庞大,要想改变人们根深蒂固的习惯需要巨大开销。反之,我们这种隐式分词词典系统几乎很巧妙的解决了这个后顾之忧,不需要为分词再付出额外的人力物力开销。 其次,要实现分词连写,首要问题分词必须要规范。在历来的分词争议的历史长流中,汉语分词都没有统一的规范。即使是现在,已经出了分词规范,也很少有人能把分词的国家规范记得清清楚楚,至于准确地应用则更是少之又少。而采用隐式分词词典,就可以由输入软件机器来记住分词规范,使得所有在机内的文本都是规范统一的,用户需要时可以自由提取。 再次,对于分词中固有歧义切分的识别,隐式分词词典在用户输入的时候,就通过与用户的直接意愿交互来获取这个信息,从而消除这种固有歧义切分。现有的中文输入法中基本上都采取了与用户交互的方式来消除歧义,因此增加消除固有歧义切分的交互并不会给用户带来什么不便。 最后,隐式分词连写输入法中的“隐式”是指在输入时并不要求用户去进行分词工作,而是由输入软件来进行分词工作,这对用户来说分词连写是隐式的。另外,输入的文本将以分词的形式保存在计算机中,但是分词标记却是隐式的,若是用户刻意要求显示分词标记点击选项即可显示。这种隐式分词词典的引入将使信息处理迈入崭新时代。 综上所述,隐式分词连写输入法主要有以下几个功能: 1.隐式的自动分词词典 隐式分词词典好比现在的英语“有道”软件,该词典将按照信息处理用国家分词规范(GB/T 13715.92)进行自动分词。只要鼠标点击到词那就自动呈现该词对应的英语词汇,我们的分词词库也可以做到:根据用户需要,可以自定设置是否显示分词,想要展示时就鼠标点到那。或者像切换中英文屏幕那样切换到分词屏幕;信息检索时,也可以自动联想所需要的分词,这在极大程度上解决了信息处理的分词歧义问题,这样大大方便我们的语言生活。 2.中文文本的录入 隐式分词词典具有向计算机输入中文文本的功能。我们暂且计划采用已有的拼音编码进行输入,当然,随着技术成熟,以后将扩展到五笔字型等其它编码形式。 3.保存并显示文本 通过该词典输入法录入的文本将以词串的形式保存在机内,文本内容可隐可显。用户根据需求自行设置是否显示分词标记,这样既解决了分词问题又不需要人们改变日常习惯。 计算机装上这样的分词词典就可以自动识别分词。 四、展望和困难 分词连写是一种民族思维的数字化工程。互联网时代,汉语数字化的历史进程却是不可抗拒的。汉语实行分词连写,将极大地提高汉民族集体智能的数字化程度,从而大大加快中国的现代化历史进程。 隐式分词词典的前景是光明的,路途不免遇到各种困难: 1.分词规范问题。分词标准的界定问题是汉语语法的一个基本、长期的问题。它涉及到核心词表、词的变形,词缀等等方面。因此,信息处理用现代汉语分词词表针对语言信息处理的需求所提出的是:“这个词表既要向根据语言学理念建立起来的词表尽量靠拢,同时又要与老百姓心目中朦朦胧胧但又确乎存在的词表尽量兼容。” 隐式分词词典不妨就按照这样的分词规范来做。 2.词典的编制与运作。我们设想还要能够让词典动起来,通过建立程序让词典可以自我更新,既得会“纳新”有得会“吐陈”。对于出现达到一定的频率的未登录词加以吸收使词表完善,并对于过时的长期不用的词语进行删除,这样一进一出使词典基本保持平衡运作。 3.检索用户多样化,需求不一。用户层次的多样化、层次不一,、需求深度不同,检索系统需要针对不同用户的特殊需求提供程度不一样的检索服务。对于不同领域的专业人士,检索服务达到什么水平才算满足大多数用户的要求,这个尺度不易把握。(作者单位:北方民族大学文史学院) 基金项目:北方民族大学2014年区级大学生创新项目(项目编号QJCX-2014-001);北方民族大学2014年研究生创新院级项目;北方民族大学2015年研究生创新项目校级项目(项目编号YCX1507) 参考文献: 杨端志汉语词汇理论、词典分词与“词”的认知山东大学学报(哲学社会科学版)2003 年第6 期 黄电,符绍宏自动分词技术及其在信息检索中应用的研究.现代图书情报技术,2001;(1) 黄昌

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论