




已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章 自动分词技术简介我们知道,输入计算机的汉字,无论是从键盘上用编码键入的,或者是通过汉字自动识别输人的,最终都必须由内码表示,一字一码,码与码之间等距排列,恰如汉语书面语一样,词与词之间没有任何区分标志。然而,在信息处理许多重耍领域中,例如,机器翻译、自然语言理解、文献检索、词频统计等语言工程中,信息处理都要求在词这一平面上进行,在字这一平面上是不可想象的。如果局限在字的平面上,以字为基本单位进行信息处理,则是难以适应中文信息处理技术的发展需耍的。为了能够在词这一平面上进行中文信息处理,必须把等距排列的汉字字串序列按词切分开来,打上区分标志,使得汉字字串序列转换成词串序列;这也就是自动分词。通俗地说,就是要由机器在中文文本中词与词之间自动加上空格。第二章 自动分词主要技术方法目前国内公开报道过的分词系统采用的分词方法主要有三种类型,如下所述:(1)机械分词法机械分词法主要有最大匹配法(MM法)、逆向最大匹配法(RMM、OMM、IMM )、逐词匹配法、部件词典法、词频统计法、设立标志法等。机械分词法之所以称之为“机械”,是因为它的切分过程是依赖于机器词典进行,该词典中不涉及太多的词法、语义、句法知识等关于语言自身的信息,主要是个词表。词典中词条的数目、词条的选择直接影响到最后的分词效果。以最大匹配法为例来介绍这类分词方法的基本原理:假设自动分词词典中的最长词是1个字,则取被处理材料当前字符串序列中的前1个字作为匹配字段,流程如下图所示:机械分词法面临的最大弊端是无法避免两类歧义现象,因为机器词典不能提供可供进一步辨别切分结果的语法、语义知识,因此产生歧义:交集型歧义:假设ABC分别代表由一个或多个字符组成的字串,如果在ABC字段中,A、AB、BC、C又分别都是词表中的词,那么AB /C和A /BC都是合理的切分结果。例如:“这/糖/果真/好吃”与“这/糖果/真/好吃”都是符合切分规则的结果。组合型歧义:在字段AB中,若A、B、AB均是词表中的词,则称AB为组合型歧义字段。如“茶/杯”和“茶杯”,“明/天”和“明天”,“痛/恨”和“痛恨”等。另外对于词表中未能及时收录的新词,机械分词法无法予以正确的切分。缺乏自学习的智能性是机械分词法的一大弱点,但是这种方式回避了许多难度较大的语言自身信息的处理,实现简单,所以仍然得到广泛的应用。而且,它与信息检索挂接性强,因为目前大多数检索系统是基于主题词表、分类表,以及分类主题一体化词表建立的,两者都是建立于大量的词表之上,所以也是最容易结合的形式。(2)语义分词法语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法等。扩充转移网络法是一种普遍应用于数据库自然语言查询中,进行语法分析的方法,它主要由递归网络加一个测试集体以及一组寄存器组成,分析句子时,测试条件(检查弧上所标识得语法成分得条件及其它相关测试条件)用来确定是否与一弧匹配,测试结果为真才允许通过该弧,寄存器则用来保存被分析单词(或短语)的有关特性及分析过程的中间结果。可见,扩充转移网络法的实现需要建立一个语法知识集合,用以作为弧间状态迁移的测试条件。这也是语义分词法更复杂的一面,语法知识库的建立,一方面提高了分词的精度,另一方面也加大了实现的难度,但相对于“机械分词法”而言,切分深度更进了一步。(3)人工智能法人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:基于心理学的符号处理方法,模拟人脑的功能,像专家系统即是希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。基于生理学的模拟方法,神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方法上,于是产生了专家系统分词法和神经网络分词法。专家系统分词法:将自动分词过程看作知识推理过程,力求从结构于功能上分离分词过程和实现分词所依赖的汉语语法知识、句法知识以及部分语义知识,需要考虑知识表示、知识库的逻辑结构与知识库的维护。这种方式的不足在于其串行处理机制,学习能力低,对于外界最新的信息反映的滞后性。神经网络分词法:模拟人脑的运作机制,以非线性并行处理为主流的一种非逻辑的信息处理方式。它将分词知识所分散隐式的方法存入神经网络内部,通过自学习和训练修改内部权值,以达到正确的分词结果。该方法最大的特点是知识获取快,这也是神经网络方法的一大特色,并行、分布性和联接性的网络结构为人工神经网络的知识获取提供了良好的环境,并通过样本学习和训练来自我更新。但神经网络的知识分布在整个系统内部,对用户而言是黑箱操作,而且它对于所采取的结论不能作出合理的解释。实践环节中涉及知识库的组织和神经网络推理机制的建立。第三章 自动分词与信息检索传统的信息检索系统多是面向专业人士使用,普通用户使用时,一般通过中间人代理完成。而随着网络的迅速发展,检索面向的用户已经不再仅仅局限于少数人了,更多的是面向一般的普通用户。尤其检索系统存在着广泛的潜在用户,蕴藏着巨大的商业机会,这更加促进检索系统开发者寻求更逼近人的习惯的检索系统,在不削弱检索性能的前提下,减轻用户的检索负担,因此,自然语言检索入口与检索语言的自然语言化发展成为必然的趋势,可以使系统更适应普通用户。当然,要理解用户以自然语言表达的提问请求,使检索具备一定的智能性,就离不开自动分词的前提条件。自动分词是实现基于自然语言理解的智能检索的前提,是贯穿于信息检索系统整体流程中不可缺少的处理步骤。(1)分词词典智能信息检索的最终目的是能够在维持与提高检索性能的基础上,提供自然语言的人机接口,能够对自然语言表达的检索需求进行正确的处理。无论是机械分词法还是语义分词法,都离不开分词词典的辅助,而人工智能法对于广泛的信息环境下的自动分词还不够成熟,因此,建立分词词典最为可行的实施的方式。随着自然语言句法、语义分析的日臻成熟,分词词典可提供的分析依据功能将更强大。(2)入口词表建立入口词表,实现各个词与词之间的同义词、近义词的相互参照与指引,以及切分后的自然语言“词”与规范语词之间的对照转换。正因为实现自然语义层次上的匹配难度大,所以人们转而采用受控语言来完成,受控的检索语言经过这些年的发展,已经相当成熟的,演绎出的各种检索模型对于精确检索起到了巨大的推作用。因此,检索语言的发展趋势应是检索语言的自然语言化发展与自然语言的检索语言化发展的双向结合,而决非完全抛弃原有的一套,由纯自然语言起步。在信息检索系统执行数据库操作的查询行为,仍旧从规范词表中选取语词来表达。当用户输入“电脑”查询,需首先扩展查询集合,纳入更多的相近概念词,如“计算机”、“PC机”、“个人电脑”、“微型计算机”等,然后转化为一个或若干个相应的规范语词,如“计算机”、“微型计算机”,最后才构造检索语句执行检索。这样同时也使得信息加工成为一个影响检索的因素,信息加工过程中标识词赋予不当,分析失真,或加工深度不够,那么无论在入口的前端进行什么样的控制都是不起作用的。(3)自然语言词与规范语词的对照表建立自然语言词与规范语词的对照表,信息加工过程中需要对搜集来的信息进行分析与标引,标识信息的语词用于揭示信息内涵,也是将来与用户提问进行匹配的字符串,标引量直接影响到最后匹配的成功率。随着信息量的膨胀,传统手工标引的狭隘性日益明显,自动标引技术成为提高标引效率的必由之路。在对信息自动标引过程中,首先经过自动分词的预处理,标引词取自原信息本身,存在不规范的可能性,需要经过自然语言与规范语言的对照进行转换。对于规范语词所不能表达的概念内涵,可以将自然语言词汇自动增补到对照转换表中,一方面防止由于规范语言的有限性造成的局限,另一方面及时将新概念、新知识的自然语言表达语词作为自由标引词收录到对照表中,为以后的标引作好准备。这样既可以对自然语词作到一定程度的规范,又容许了一定的灵活度,增强了对照转换表的功能。(4)专业词表专业词表的编制是降低自然语言处理与智能信息检索实现难度的有利辅助。制约检索性能飞跃的障碍主要是由于检索面向的范围过于宽泛,尤其网上信息的充斥,更增加了检索的难度。但就用户利用而言,总是面向某个或某几个特定领域的,因此在执行查询之前,能初步明确该领域范围,对于提高检准率有很大的帮助,也为判别分词结果提供了依据。如对于用户提问为“我想了解冲浪的知识”,分词结果可以是“我/想/了解/冲浪/的/知识”,核心检索词是“冲浪”,然而是真正的海上冲浪还是流行的网上冲浪呢?不加处理的结果是两者的信息都被检出了。如果此时能就分词结果予以一定的反馈提示,就可以大大提高提问的专指度了。对于多领域共同存在的概念语词,系统应该提供给用户进一步区分的学科类目划分,帮助进一步明确需求,以减轻对信息库查询的消耗,更重要的是避免无关信息的噪声污染。因此,有必要编制专业词典来划清各个同名概念的界限。第四章 发展的“瓶颈”在自动分词与信息检索的各自发展中存在着许多障碍,这为两者的结合带来了难度。 1自动分词技术面临的困难(1)汉语歧异现象的普遍存在是自动分词技术难于招架的一个方面。词法、句法、语义、语用中都可能存在不同程度的歧异现象,因此自动分词的精度很难予以评价。如“穿/好衣服”和“穿好/衣服”都属于合法的汉语表达,但是在脱离必要的上下文环境下,很难真正了解所表达的意思。(2)词自身定位的模糊性。词与词素、词组之间往往没有明确的界限,如“明白”、“国会”,这为分词词典中词条的选择带来难题,分词词典不能明确这一概念,又如何为自动分词提供依据呢?(3)新生概念语词的切分。对于分词词典中没有收录的概念词,词表并不能作到实时更新来适应新的需求,自适应能力差,然而人工智能技术尚且在摸索阶段,实现大规模真实信息的自动分词还没有形成成熟的技术,这使自动分词技术在近期内还没有一个质的飞跃。 2信息检索面临的困难(1)网上信息的膨胀,加大了信息加工标引的难度,各种新概念、新说法层出不穷,大大超出了规范词表的收录范围,如何为这些信息赋予合理的标引词,并力求标引的一致性,是词表编制及运作机制方面面临的一大挑战。(2)匹配机制的进一步优化。基于统计的思想,通过计算词频、词出现位置来判别信息与提问的相关度,最终从数据库中检取信息。从纯物理逻辑角度出发,存在一定欠缺,要进一步作到语义层次的一致与相关,实现智能的概念检索,除了提问的转换与信息标引中加入自然语言处理技术,匹配机制也有待达到“理解”程度的匹配,使检索更逼近人的智能程度。(3)传统信息检索技术与新兴技术的融合。自然语言处理与信息检索之间缺乏一个接口,将外化的检索构造过程内化为系统内部实现的过程中,还涉及许多技术细节。将两个独立发展的领域进行结合,要在磨合中寻求生长点。(4)检索用户层次的多样化,用户层次不一,需求深度不同,检索系统需要针对不同的用户提供程度不一的检索服务。对于专业人士,掌握检索规则,采取自己构造的检索式往往更便捷,而对于其他用户,则更希望由系统承担这一行为。因此,检索服务提供到什么程度才可以满足大多数用户的要求,是不易把握的尺度。自动分词是自然语言处理的一个关键环节,也是自然语言技术应用于信息检索领域的序曲,用户的自然语言提问相对于人类的自然语言整体来说,仅仅是个小小的子集,因此,要实现高精度的自动分词与准确的用户提问分析,其前景是广阔的,但更需要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025电动单车充电站用户数据安全保护合同
- 2025年度矿山爆破工程劳务分包合同
- 2025版幼儿托管机构合同范本下载及服务内容
- 2025电子商务法律顾问服务合同(第3章专项)
- 2025版展览馆临时展台租赁合同范本
- 2025版商标许可及市场拓展服务合同范本
- 2025版桶装水品牌形象设计与宣传推广合同
- 2025版汽车租赁优惠活动合同范本
- 2025房地产项目建筑材料研发及采购合同
- 2025年别墅房屋建设与环保建材供应服务合同
- 2024昆仑燃气安全方面的基本知识某年05
- 设备维保的法律法规与标准要求
- 胖东来服务管理手册
- 猪配种工作总结
- 20230301-ECC200边缘网络控制器
- THBSF 003-2023 红椿大径级无节材培育技术规程
- ISO27001:2022信息安全管理手册+全套程序文件+表单
- 一小时漫画缠论实战法
- 幼儿园教职工保密协议内容
- 校园安全工作专题培训会
- 网络安全运维课程教学大纲
评论
0/150
提交评论