(机械制造及其自动化专业论文)自然语言理解词法分析在产品设计中的应用.pdf_第1页
(机械制造及其自动化专业论文)自然语言理解词法分析在产品设计中的应用.pdf_第2页
(机械制造及其自动化专业论文)自然语言理解词法分析在产品设计中的应用.pdf_第3页
(机械制造及其自动化专业论文)自然语言理解词法分析在产品设计中的应用.pdf_第4页
(机械制造及其自动化专业论文)自然语言理解词法分析在产品设计中的应用.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(机械制造及其自动化专业论文)自然语言理解词法分析在产品设计中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘婴 摘要 本文论述了蠡然语言理熬 霹法分接的拳孥点、艨瑾、以及过程。本文在总终了 前人对词法分析的研究理论基础上,对已有的一些词法分析方法比较,加以综合, 并设计了瘦用予特定鞭凌豹、带颈簸理的全切分酌词法分析方法。谲法分轿豹难 点在于歧义解决与未登陆词的处理方匾,本文针对这两大难点,用专门篇节避行 研究,并掇出了解决未登陆词的智能识词模块方法。 基于知识的词法分摄方法是毅一l 弋词法分板的主要毳珏究方肉。本文对知识表 示方法进行了讨论,并研究知识表示相关理论在词法分析上的威用,提出了概念 获斌理论、麸震楗等基予知谈懿词法分援方法。 最后,本文讨论了词法分析在产品设计中的威用。本文针对几何和机械领域, 研究了谲法分耩在凡倚领域和枫械壤域中豹应用。特剃燕对予概械领域中的机械 产晶设计应用方颇,主要是针对用户露求分析、概念设计中的用户信息避行理解、 并能够进行自动建模。 关键词:囱然谱育理麟词法分析产品设计应用领域知识表示 a b s t r a c t a b s t r a c t 强i s p a p e r d i s c u s s e st h ec h a r a c t e r i s t i c 、t h e o r ya n d p r o c e s so f n a t u r a ll a n g u a g e u n d e r s t a n d i n g ( n l u ) a c c i d e n c ea n a l y s i s b a s i n go nt h e r e s e a r c ht h e o r yt h a tt h e p r e d e c e s s o r s h a v eo b t a i n e do na c c i d e n c e a n a l y s i s ,t h ep a p e rc o m p a r e s a n d s u m m a r i z e ss o m es e g m e n t a t i o nm e t h o d st h a te x i s t ,t h e nd e s i g n si t sn e wm e t h o d , w h i c hc a l la p p l yt ot h es p e c i a ld o m a i n sa n de m p h a s i so nt h ec o m p l e t e l ys e g m e n t a t i o n m e t h o d st h a ti n c l u d ep r e t r e a t m e n t t h ed i f f i c u l t yo fa c c i d e n c ea n a l y s i si sm a i n l y a m b i g u i t yp r o c e s s i n ga n d w o r d s p r o c e s s i n g t h a tn o te x i s ti nt h ed i c t i o n a r y a c c o r d i n g t ot h e s et w od i f f i c u l t i e s , s p e c i a ls e c t i o n sh a v eb e e nw r i t t e nt or e s e a r c hi t ,a n dt h e na i n t e l l i g e n tr e c o g n i z i n g w o r dm o d u l em e t h o di sg i v e nt od e a l sw i t hi t 。 啊s e g m e n t a t i o nm e t h o d t h a tb a s i so n k n o w l e d g e i st h em a i nr e s e a r c hd i r e c t i o n 、 a l s oi st h en e w e m p h a s i s t h ep a p e rd i s c u s s e st h ek n o w l e d g ee x p r e s s i n gm e t h o d s , r e s e a r c h e st h ea p p l i c a t i o no fr e l a t e dt h e o r yo fk n o w l e d g ee x p r e s s i n go na c c i d e n c e a n a l y s i s ,t h e np u t sf o r w a r dt h eh y p o t a x i st h e o r yt h a ti sas e g m e n t a t i o n m e t h o db a s i n g o n k n o w l e d g e a tl a s t , t h ep a p e rd i s c u s s e si t s a p p l i c a t i o no fa c c i d e n c ea n a l y s i s i n p r o d u c t d e s i g n a i m i n ga tg e o m e t r i c a la n dm e c h a n i c a ld o m a i n s ,t h ep a p e rr e s e a r c h t h e a p p l i c a f i o no f a c c i d e n c ea n a l y s i so nt h et w od o m a i n st h a tr e f e ru p s i d e s p e c i a l l yt h e p a p e rd i s c u s s e si t sa p p l i c a t i o no nt h er e l a t e da s p e c to f m e c h a n i c a lp r o d u c td e s i g n , m a i n l ye m p h a s i s o i lt h e u n d e r s t a n d i n g a n d a u t o m a t i c a l l ym o d e l i n g o fu s e r r e q u i r e m e n ta n a l y s i sa n dc o n c e p td e s i g n 。 k e yw o r d s : n a t u r a l l a n g u a g eu n d e r s t a n d i n g ( n l u ) a c c i d e n c ea n a l y s i s p r o d u c t d e s i g na p p l i c a t i o nd o m a i nk n o w l e d g ee x p r e s s i n g 刨瓤性说明 独创性( 或创新性) 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我 新知,豫了文中褥期翻班标浇和致谢中新罗矧的肉容戳井,论文中不包含箕缝入已经发表或 撰写过的研究成果;也不包含为获得矾安电予科技人学戏其它教育机构的学位或诚t j 而使心 过的材料。与我一同1 :作的同:盘对奉研究所儆的任何霓献均已在论文中做了明确的说明并袁 示了谢意。 中请学位论文与资料若有不实之处,本人承担一切相关责任。 名:醺 日期型:型! 关子论文使用授权的说瞬 本入完全了解两蜜电子科技人学有关傈留和使用学位论文的规定,即:研究生在校攻读 学位燃闻论文l :作斡知识产投单位蔗联安电予载技大学。本人保证肇监裹梭焘,笈袭论文残 使_ 【 j 论文1 j 作成果时署名单能仍然为矾安电子科技火学。学校有权保留送交论文的复印t l :, 竞诲蠢稠和谮鬻论文;学校鞋公毒论文的全部或部分内容,可班允许采翊影印、缩裔】或箕 它复制平段保存论文。( 保密的论文谯解密聪遵守此规定) 本学位论文属于僳密,在一年解密后适阁本授权书。 本人签名: 导师签名: 煎蝰 垒一 日期兰堕:卫p e t l i h 竺! :氐:! 第一章绪论 第一章绪论 1 1 论文的背景 随着社会的发展以及计算机水平的飞速提高,机械产品的设计已经不再像以 前那样,局限于机械这一领域。现在,机械产品的设计正处于高速发展阶段当中。 目前,机械产品设计已经成为多个学科相互交叉的综合性学科。例如人工智能、 自动控制等等,各门学科相互应用、相辅相成,为机械产品的设计和发展做出了 很大的贡献。 当前,随着计算机硬件、软件水平的发展,机械产品设计的自动化技术有很 大进展,尤其是c a d 、c a e 、c a p p 发展的成就很大,应用也越来越广泛。现在 大部分的机械产品的详细设计都能利用这些技术来完成。但是计算机技术在设计 的早期阶段还无法有效地帮助设计人员进行设计,例如用户需求分析、概念设计 阶段,计算机几乎还无能为力。因此,机械产品的设计要实现比较高的自动化程 度,在产品设计的前期阶段、自动地进行需求分析、概念设计等这些方面还是比 较欠缺的。 2 l 世纪产品的竞争,主要在于市场的竞争,而市场竞争的生命力在于产品的 创新。任何科技成果要转变成有竞争力的商品,产品设计起着关键性的作用。创 新设计的核心是在需求分析、概念设计阶段产生新的有市场竞争力的概念或者工 作原理。概念设计首先要确定待设计系统的功能,之后是确定实现该功能的效应, 最后确定作用原理。如果实现待设计产品所有功能的效应已经确定,则产品的工 作原理都已经确定。 需求分析系统需要有智能,、特别是需要自然语言理解方面,而且应该包含有 自动建模功能。例如,随着有限元技术的发展,目前,科学家们提出了“傻瓜有 限元”的概念。它就是能够实现对用户的问题进行需求分析、自动建模。使用户 能够更加方便地利用各种有限元分析软件。因此,这种“傻瓜有限元”必须具有 能够理解用户的需求、做出正确的判断、实现自动建模的功能。 要使系统能够进行自动地进行用户需求分析,就需要对用户所提供的相关信 息进行理解。那么,要做到这些功能,就离不开自然语言理解,使自然语言理解 应用到系统的需求分析中。需求分析系统利用自然语言理解,识别并理解用户需 求,进行正确地用户需求分析。 自然语言理解最首当其冲的就是词法分析,要正确地进行理解,就要正确地 进行词法分析。 本论文就是针对上述提出的问题,研究词法分析原理、方法、以及其在产品 设计中的应用。 亡1 然语言理解嗣法纠研翟产辩设评币惭节 1 2 发展现状 自然语言理解洲l u ) 是人工智能领域的一个重要分支,也是一个极其活跃的研 究领域。虽然从自然语言理解( n l u ) 这一理论的提出至今,已有几十年的发展时阳j 。 但是由于其难度很大,至今仍然未能够达到很高的水平。这主要就是由于人类语 言以及知识本身的复杂性以及多样性造成的。 3 0 年代以来自然语言理解的研究大体上经历了三个时期:即6 0 年代以关键词 匹配为主流的早期、7 0 年代以句法一语义分析为主流的中期和8 0 年代开始的基于 知识的新一代自然语言处理系统。目馘,新提出的基于大规模语料库的自然语言 处理思想正处于蓬勃发展阶段。 就目前的技术来看,不论采用那种自然语言理解方法,最酋当其冲的就是实 现一个比较完善的汉语自动切词系统。也就是说,汉语切词方法的研究对于自然 语言理解这一领域是至关重要的。汉语切词方法研究的成败将决定自然语言理解 的成败。根掘国内外的发展状况,下面将论述几种已有的汉语切词方法。 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一 个足够大的词库进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描 方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配 按照不同长度优先 匹配的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配;按照是否与词性 标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 常用的几种机械分词方法如下: a f 向最大匹配 b 逆向最大匹配 c 最少切分( 使每一句中切出的词数最少) 还可以将上述各种方法相互组合,或者增加一些辅助性功能。其中一种方法是改 进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别、或切分出 一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进 行机械分词,从而减少匹配的错误率。 另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策 提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地 提高切分的准确率 基于理解的分词方法 通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统则在 后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一小部分。 其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来 第一章绪论 处理歧义现象。它通常包括三个部分:分词子系统、句法语义予系统、总控部分。 在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来 对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用 大量的语言知识和信息。由于汉语语苦知识的笼统、复杂性,难以将各种语吉信 息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出 现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够 较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统 计,计算它们的互现信息。互现信息体现了汉字之问结合关系的紧密程度。当紧 密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对 语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计 分词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不 是词的常用字组,例如“这一”、“之一”、“有的o “我的? 许多的”等,并且 对常用词的识别精度差,时空开销大。实际应用的统计分诃系统都要使用一部基 本的分词词典( 常用词词典) 进行串匹配分诃,同时使用统计方法识别一些瓤的 词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特 点,“又利用了无词典分词结会上下文识别生词、自动消除歧义的优点。 , 1 3 存在的问题 经过了几十年的不断努力,我国计算语言学界对汉语切词的研究已经取得了 很大的进展。各界专家都研究出了很多汉语切词方法,也提出了能够改善切词功 能的新见解。迄今为止,汉语切词方法的研究相对来说还是很成熟的,很多研究 出来的切词系统都能够达到令人满意的程度,而且汉语切词效率与速度等也在不 断的提高当中。但是,汉语切词中仍然存在着很多瓶颈技术,- 影响着汉语切词效 率、正确率与速度等。评价一个切词系统是否成功;。主要从效率、速度、正确性、 通用性等方面来衡量。这几个因素虽然相辅相成,。谈此也都互相制约。但是在开 发一个切词系统时,要照顾到以上各个方面,还是比较困难的。引起这些问题, 最主要的是汉语本身的构成研究的弱点、研究环境的缺乏和词法分析的难点所 在。下面将分别简单地介绍一下: 现代汉语本身的难度 、 l 、汉语缺乏狭义的形态。西方语言的形态,对于计算机来说就是标记。汉语 没有这种标记,就需要人深入把握词的种种规律。把这些规律形式化,其实就是 人为地作出标记。因此,汉语的特点一方面使得西方计算语言学的一些成果和经 臼然语言理解词法分_ 歼翟产5 崭设群曙削废川 验不能完全适用于它。 2 、语法灵活。汉语句子中各个成分之阳j 的关系一一靠词序、二靠“意合”、三靠 虚词。但是词序虽然可能意义相异,虚词并不是非用不可,特别是在口语中,虚 词更少。虚词只能解决词与词、句子与句子之间的关系。“意合”就更为麻烦,其 中包含了许多语言环境、语言背景和语言肛l 格知识以及缺省问题,如何全面把握 有关意义的诸项因素,并把它形式化,是最大的难题。 3 、语义灵活。从词汇层面来说,一词多义、同音词、近义词等这些已经是很 麻烦的事。从旬义层面来说,情况更为复杂。一方面语法的灵活主要来源于语义 的灵活,而另一方面同一结构可以表达不同的意思,同一意思可以用不同的结构 表达。即使我们把词义和句法都分析得很清楚了,“教给”计算机了,它还是难以 “理解”整个的句子。 现代汉语研究的弱点 1 、长期以来,我们的研究基本上是为了人际交流服务的。人的联想、类推能 力构成了人对语言的特殊感知能力,这极大地补足了研究的空白。要把过去研究 的成果完全移植到不会举一反三的计算机上是不行的。必须建立起计算机适用的 语言分析体系。 2 、长期以来,对汉语的研究方法基本上是列举性的,而非穷尽的。材料基本 上是书面的,而非口语的。计算机所面对的,是任意性的、不可预期的语言材料, 它必须穷尽式地处理这些材料,因此由列举法得到的结论是不适用的。 研究环境的欠缺,: 1 、研究分散而重复 和其他一些行业一样,计算机语言学界也存在着低层次重复的问题。这不但 分散了力量,而且潜伏着缺乏统一规范和标准的危险。例如,语料库、电子词典、 词的切分、词类研究等等,许多家都祖搞,而每家所做的规模都不大,既难以适 应大规模语料的需要,也难以深入。, r 2 、投入相当不足 这里所说的投入,主要是指人员所消耗的经费。应该说,近些年我固科学技 术人员的待遇有了相当大的提高。但是,目前,在这方面的研究,投入资金还是 非常有限的 一 3 、从总体而言,现代语言研究领域和计算机领域的隔绝状态并没有出现根 本性的改变。这可以说是个致命的弱点。隔绝状态使两个领域的英雄门都无用武 之地,同时也极大地阻碍了语言学、计算机科学一起向着所需要的一切学科,比 如心理学、逻辑学、思维学、人脑科学等等方面的延伸。 第一章绪论 词法分析的问题和难点 i 、切分 我国计算语言学界对汉语切词问题研究比较透彻,很多切词系统的正确率都可 以达到9 7 甚至更高。然而,对于机器翻译系统来说,这个问题并不是已经完全 解决了。这是因为,机器翻译系统一般是以句子为单位进行处理的,一个句子中 只要有一处出现切词错误,整个句子就不可能得到正确的译文。 2 、未登录词识别 对于汉语这种词语之间没有空格分隔的语言来说,还存在一个未登录词的识别 问题。困难的主要原因在于,组成汉语未登录词的汉字可能本身又是汉语词。 人类在识别未登录词时主要有两方面:一方面,某几个汉字是否与某一类型的 词( 如人名、地名等) 比较相似,是否符合该类词的一般组成规律;另一方面, 如果把这几个汉字当作一个未登录词,是否整个句子会更通顺,更易于理解。现 有的这一方面的研究工作,多从前一方面来预测可能的未登录词( 如人名、地名、 外语音译词等) ,取得了一些比较好的成果。其实人在理解句予的时候,后一方面 的因素同样起着相当重要的作用。但这种判断不仅仅用到了词语方面的知识,更 多地用到了句法、语义甚至语境方面的知识。在计算机自动分析中,未登录词的 识别往往处于词法分析阶段,还几乎没有或只引入了极少量的句法和语义知识, 因此在这一阶段实现这种判断是非常困难的。 3 、离合词 离合词到底是属于词还是短语,是个有争论的问题一种处理方法是,离合词 在“合”的时候当作词来处理,而在“离”鲍时候当作短语来处理。这种方法虽 然可行,但总是很勉强的。关键的问题是,离合词即使在分开时仍然是一个整体, 而在计算机处理时却只能把离合词的每一部分都当作一个词来处理,如把“打仗” 的“仗”,“洗澡”的“澡”字当作名词处理。这样做,不仅不合理,而且会导致 分析中很多不必要的歧义组合。 4 、语素字 汉语中有很多语素字,它们不是独立的词语,不能单独使用,然而它们的组 合能力却很强,很容易用来构成新词或新短语。如“民”字就是一个语素字:“民” 字不能单独使用,但却可以出现在“民心”、“民办企业”、“国有民营”、“为民 请命”、“与民同乐”、“以民为本”、“还政于民”等讨或短语中。把语素字作为词 来处理显然是不合适的,而如果不作为词,那么对它们构成的新词或短语就无能 为力了。另外,汉语中绝大多数单字词同时又是语素字,它们具有很强的构词能 力,很容易互相结合组成新词。例如,“冰箱”在港台地区被称为“雪柜”,虽然 我们没见过“雪柜”这个词,但我们还是很容易理解它,这是因为,“雪”和“柜” 这两个语素的意义是明确的。 6 自然谶言理解词注分轿程黼葭薛攀酌赢翔 5 、韬词绞义 汉语文本中含宥许多歧义切分字段。只有向分词系统提供进一步的语法、谮义 知识才有可能做出藏确的决策。排除歧义常常用词频、词长、词间关系等信息, 沈麴“囊正旋”中,“真”作先肇字词鲮频率大大低予“程”终必犟字词救频窀, 即“在”常常单独使用而“真”作为单字词使用的可能性较小。所以应该切成“真 正,在”有鼓锈分竣义发垒主在小段文字牵,餐为了攥涂竣义,需要喾看较长熬段 文字。如“学生会”既可能是一个名词,指种学生组织,也可能是“学生会” 其中“会”为“可能”或“能够”的意思。税“学象会主席”中只能怒前者。在 “学生会去”中只熊是屠袭,在“学生会组织义演活动”巾歧义仍然 4 除不了, 则需要看更多的语境信息。 6 、应焉镁壤特杰 面向特定领域的汉语切词,除了具有上述的一般性词法分析雉点外,还具有其 它鹣一些难汉解决豹簿蘧。函为,霭游特定颁域,露一整特定矮域孛专掰静谪法、 词组以及一蠛特别的词构造形式。因拨,在砸向应用领域的切分中t 除了要解决 以上的问题乏外,还要研究该领域中的特点,总结出需要解决的燕点| ;王及难煮。 1 4 本文所作的工作及研究目的 本文的_ 燕要目的是探讨词法分析的手段、分析方法和过程,研究自动语言理 解( n l u ) 词法分祈程产品设计中的应用。结合机械设计应用领域中的一魏问题,说 明词法分掘躲实用性,及其在机械设谤应用领域产黼设计中的应阕。 素要磺究内骞毒: 深入探讨了自然语言理解( n l u ) 词法分析的概念和特点,分析了一戥早期的词 法分析方法,综合比较了各种汉语镯诵的优缺点;提密了能够煞决词法分析审菜 些瓶颈闷题的耨型冀法。 猩词法分析歧义解决上面,列举了大量的实例,并对这些实例进行大概的分 类,褥到足辨经常遇到鲍歧义镯子类戮。钤慰这足耪零用的歧义句子炎型,设计 了相应的解决方法。 瓣予汉语未登麓词瘁豹溺,t 结合捧者对汉语躲谈豹理解,氇终了适当懿分类, 并探讨了识别未登陆词库的词的识别力i 法。 本文还结合词法分析词库前表示方法等,探讨了知识袭示的概念,深入讨论了 概念从属的知识表示方法,探讨了概念从属知识表示方法以及其应用t 概念从属 同时提供了用于表达特殊信息块的一种结构和一组特殊原语。针对平颓几何,设 专 了知识表示的摄念楗。 第一章绪论 最后。根据这些研究内容,结合应用领域和背景,建立了汉语智能切词系统 的模型,设计出了该智能软件。 论文的主要结构如下: 第一章绪论。介绍本课题的目的,国内外相关技术的发展现状、存在相 关问题以及本文所作的工作。 第二章词法分析理论研究。本章中探讨了词法分析阶段的特点、过程、 方法。论述了词法分析所存在的问题,以及未能完善解决的难点、 重点。结合对词法分析的理解,设计了词法分析的模型和一些重 要算法。 第三章概念从属理论研究。本章主要论述了概念从属知识表示方法中所 使用的各类知识及其作用。建立了知识表示概念树的模型 第四章词法分析在产品设计中的应用。在本章中弘主要是根据以上的研 究内容,结合几何和机械设计的某些特定领域,探讨了词法分析、 概念从属树在机械产品设计领域、:几何疆域中的应用,并针对一 类具体问题,进行了详细的讨论。 第五章智能切词系统和概念树软件设计。根据软件工程的设计模型,采 用s a 方法对该系统进行需求分析,提出了该智能软件的系统定 义。根据s d 方法设计了该智能软件的模型,进行了模块划分和模 块设计。给出了某些关键模块的算法和程序流程框图。 第六章总结和展望。总结本论文所做的主要工作和主要研究内容,重申 了论文中的一些重点、难点以及关键之处。指出了该论文中比较 完善的地方和所存在的不足,阐晚了该课题继续要研究的理论以 及待于解决的地方。 自然诺言理解谒法分析在产晶设计中的癍鞠 第二誊谲法分析理论研究 汉语自渤分词是对汉语文本进行自动分析的第一个步骤。把字串藏确地分隔 成词警,并把切分煦结果交绘鹾续工l 擘,再次进行分叛衣处理,就是爨动分瑙系 统需嚣做的工作。由于我们这里的工作主要针对于应用领域内的词法分析研究, 邃兆,除了藜臻究一般数词法分援方法羚,逐要专门硬究镞城内豹 霉法特点,戳 便做领域内的词法分析。 2 1 词法分析概述 爨然谌富理鳞删) 突骣上楚久钓试图激叁动的方式瓣人类瓣基然语言遴露 加工,以满足某种应用需要而逐渐形成的一门学科岛技术。n l u 本身照个综合 了语畜学、计算梳科学、逻辑孥、心臻擎、入工智髓等镁域翔谈与成莱豹跨学科 研究,设计a e 常广泛,难度也非常之必i 人类自然语言绝大多数怒口语和书面语, 本文所研究的只针辩书瑟语躺瑷解。n 秘韵纂本处理模式如下: 赞2 。1n l p 处理攘式 其中,分祈器是n l p 豹谈心。撒据不翮的分析方法掰浚把n l p 豹分析技术 分为四类,即模式匹配分析技术、词法句法一语义分柝技术、基于知识的分析技 术和基于谮料库的分析技术。下面将讨论词法分析的相关理论 2 1 1 词法分析的内容 词法分析是甸子分析处理的过程,其任务是根据词性变化规则鉴别具体输入 的词性特征,形成相应的词形信息。大体来说,在句法分析静算法中,一般都要 具备一个比较完善的大型词库。 词法分析器就耍从输入文本中,识别出所有的词。词法分析阶段识别完毕后, 将疑识别爨柬的缝累交绘磊瑟豹工费,进行句法、语义分掇。爱理恕豹邂法分撂 第一:章词法分析理论研究 器就是,一次性就可以完全准确地识别出句子中的每一个单词。但是,由于汉语 本身构造的复杂性、广泛性和歧义性,在词法分析阶段很难能够一次性的正确识 别。所以文本处理中的词法分析、句法分析、语义分析三大分析器,它们都不是 独立进行,而是交叉进行的。其工作过程有点像瀑御模型,如下图: 2 1 2 分词系统的目标 图2 2 词法分析瀑布模型 任何软件系统、算法类型都有一个评定的准则或者制定的目标。一般地,对 于分词系统可以从以下几个方面来衡量,即准确、快速高效、通用及适用。 ( 1 ) 准确性 准确率是分词系统性能的核心指标。因为词法分析是整个n l u 的基础,是极 其重要的个步骤。词法分析的正确率将直接影响整个n l u 过程的质量、乃至成 败。 ( 2 ) 运行效率 词法分析面对的是大量的,甚至是大规模的文本、信息处理。特别是现在的 网络时代,一些分词系统已经作为一种网络服务,向外提供给用户。因此,速度 也是要有一定的保证。词法分析是各种汉语处理应用系统中共同的、基础性的工 作,这步工作消耗的时间应尽量少,应只占上下层处理所需时间的一小部分,并 应使用户没有等待的感觉,在普遍使用的平台上大约每秒钟处理l 万字或5 千词以 上为宜。 ( 3 ) 通用性 一 随着i n t e r n e t 的普遍应用,中文平台的处理能力不能仅限于我国、仅限于字 处理、仅限于同常应用领域。作为各种高层次中文处理的共同基础,自动分词系 统必须具有很好的通用性。同时,系统还应该具有良好的可移植性,能够方便地 从一个系统平台移植到另一个系统平台上而无需很多的修改。当然,完全的通用 性很难达到。 0 白然语言理解词法分薪茬声籀i i 5 科j 串懒麻 j ( 4 ) 适用性 汉语自动分词是手段而不是目的,任何分词系统产生的结果都是为某个具体 的应用服务的。好的分词系统具有良好的适用性,可以方便地集成在各种各样的 汉语信息处理系统中。 2 1 3 分词规范的问题 ( 1 ) 汉语词的概念 汉语自动分词的首要的困难是对“词”的概念不清楚。书面汉语是字的序列, 词之间没有间隔标记,使得词的界定缺乏自然标准,而分词结果是否正确需要有 一个通用、权威的分词标准来衡量。 ( 2 ) 不同应用对词的切分规范要求不同 汉语自动分词规范必须支持各种不同目标的应用。但不同目标的应用,对词 的要求是不同的,甚至是有矛盾的。 以词为单位的键盘输入系统:为了提高输入速度,一些互现频率高的相互邻 接的几个字也常作为输入的单位,如:“这是”、“每一”、“再不”、“不多”、“不在”、 “这就是”、“也就”等。 校对系统:校对系统将含有易错字的词和词组作为词单位,如许多人“作”、 “做”分不清。计算机自动判别时,若把它们当作单字词也不好区分,但在同前 后文构成的词或者词组中往往可以有确定的选择,故应把有关的词和词组都收进 词库,如“敢做”、“敢做敢为”。 2 2 词法分析机制 前面已经论述到,词法分析有好几种切分方法。由我们设计的切分系统综合 地利用了其中的几种方法。在切词的初级阶段,用机械切词方法中的正向、反向 或者二者结合起来,这只是初级分析阶段得到的结果。后面将利用基于知识和理 解的方法进行验证和再切分。基本思想就是在分词的同时进行句法、语义分析。 利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、 句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、 句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句予的理解过 程。 在基于知识和理解的后续切词方法中,我们将分词和词类标注结合起来,利 用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果 进行检验、调整,从而极大地提高切分的准确 一一 篓三童篓鲨坌堑垄鎏黧塞 ; 2 , 2 + l 裙缀狳段( 祝褫翻锈方法) 初级的切词阶段昀过程如下:时于每个句段,逐取出词,然蔚索引词库, 翔叛浚谣楚否存在。熟莱该调存在鹣话,臻么就对其骰擞标遮,德嘲浚霹存在, 能单独切分出,并纪泶下该词的所询词性。然后,再以该词为基础,继续墩下面 个字,络会裁耨懿雯长鹳璃,孬坟进行索孕 。壹臻耀粪凝下去,嶷到索哼l 不 到为止。这样,根据最长的原则就可以定出的词。将该词去除,再对剩下的句段 重笈主瑟躺过程,直到韬谲宪毕,就可蔽褥至g 这个阶莰的切箭缩采。 由予汉语词缌成瓣复杂搜,有些单谈搦残长发非常长,爨然其中般一部分不 能构成一个词,但是褥往前掰几步缩合,就可以得到该词。这样,在初始切分阶 段审,零要沓宥疆瀑、谈搽冀法。嚣在每次韬套鼗长懿,每索锚到一个瑟溺,蒸 要往前面褥多试探几步,判断是否存在比较长的词。例如,“平丽连杆机构”这样 熬键辘戳疑最。箨使瓣步长巍5 ,鬣“孚鬣连稃穰”还燕不能褥戒谲,茹聚再茬 觚蕊在多试探一步,就可以的该词。因此。需要嫩出一个步长,每次都往秘试撵 该步长之前豹词。实践可知,在视槭切分进程中,如莱不采翔试探的话,有很多 长键是投本识爨不出来熊。i 在我们的切词系统中,程本阶段的切词中,还采用了预处理的方式。即预先 蒋一令萄擎务残若于令麓段,爽瑷霖磁凄一个句子孛惫禽静鸯一些耪耱均分鄹蓉。 另外,像数字、货币符号等也在预处理中进行识别。为此系统特别增加一次独立 费翻獾过程来 ; 潮这壁短语,、系统维护一强特征溺表,在扫描潮特鬣字瑷焉,酃 谴趱这些短语熟识别模块,确定这些短语骢是、窟遮募,然蜃撼其完熬她切癸开。 2 2 2 基予知谖帮壤簿输菠 这个输段穗辩专蔼蔼酚裁来说,是疆:较难魏。该瞬毅涉及戮了稚谈表示方法、 知识的获墩、理勰方法、句法分捱、语义分析等。 在这个阶段,通常需要构造甸子的语法树。构造的原则就麓根据汉语的语法、 句法组成筹翔谈,缀攒汉语黔潺窝蠲性结合暴掰,建立起訇予寰本浆溪法树。然 后根据该沿法树,进行验证,削断谈语法树是否符合汉谲语法、句法规则。在下 瑟,穗绘爨一令篱擎匈子熬浚瑟潺法糖。臻屡语浚是运每寒自然语言缝理鞭域妻 现的一种新的语宙处理策略。它是与完全句法分析相对的,完众句法分析缓求通 过一系列分褥过程,最终褥掰甸子秘完整酌句法树。丽浅层句法努祈刘不簧求褥 到突全蛇匈法分析撼,它只要求识嬲其中的某些结构辐对简单靛成分,如菲递l 熙 的名词短语、动词短语等。 自然语言理解词法分析在产品改计中的麻h j 对于句子:“清华大学教授王先生设计出一种齿轮传动方案”。其用浅层句法树 表示如下: 句子 名词短语 i 清华大学教授王先生 动词短语 , 动词名词短语 ii 设计出一种齿轮 图2 3 浅层句法树 浅层句法分析的结果并不是一棵完整的句法树,但各个语块是完整句法树的 一个子图。只要加上语块之间的依附关系,就可以构成完整的句法树。就如上面 的句法树例子中。只要再把其中的名词短语“清华大学教授王先生”和“一种齿 轮传动方案”继续进行分析、分解,就可以得到完整的句法树了。 2 3 词法分析中的歧义处理 根据实践证明,歧义字段和未登陆词构成了降低分词准确率的两大因素,而 未登录词造成的切分错误比歧义字段更为严重,实际上绝大多数分词错误都是由 未登录词造成的。因此,非常有必要对这两大项目单独进行研究和讨论。本节主 要讨论歧义处理,下一节再讨论未登陆词。 2 3 1 歧义概述 汉语文本中含有许多歧义切分字段,典型的歧义有交集型歧义( 约占全部歧 义的8 5 以上) 和组合型歧义。 因为词的划分不是绝对的,应该在整个句法的框架内识别区分,所以从分词 结果看,歧义切分字段还可以分为如下两大类:第一类是具有确定分法的歧义字 段;第二类是具有不确定分法的歧义切分字段。 这里所说的确定和不确定,当然是对要进行分词的一片语来说的。例如在短 语“当好人大代表”中的交集字段“好人大”,只能唯一地切分成“好人大”。“中 国人为四化做贡献”中多义字段“认为”职能切分成“人为”。在这些短语中, 它们都有固定的切分形式,属于第一类。再如“机械学会召开会议”,可以切分成 第二章词法分析理论研究 “机械学会召开会议”,又可以切分为“机械学会召开会议”,两种切分结果不 管是在语法,还是语义上都是正确的,因为仅仅根据片语不能确定出那一种分词 形式正确,因而是属于第二类的歧义字段类型。 下面列出一个只有八个字,但是却可以有很多切分可能性。 图2 4 一个歧义句子的多种分法 试 由上图可以看出,短短的一个句子,就可以得到多种多样的切分结果。歧义 字段在汉语文本处理中是普遍存在的,歧义切分是自动分词巾不可避免的现象, 是自动分词中一个比较棘手的问题。随便找到一个句子,帮有可能会发现歧义的 存在。 例如,“他们在研究所有东西”、“最近老王在研究生理学”等等。对歧义切分 字段的处理能力,严重影响到汉语自动分词系统的精度。实践表明,只是机械匹 配进行分词,其精度不可能高,虽然有时也能满足一些标准不高的要求,但不能 满足中文信息处理高标准的要求。毕竟现代的汉语文本、信息的处理要求是越来 越高了。 2 3 2 歧义字段的识别 汉语句子中无奇不有,有的存在歧义,有的没有任何歧义。那么如何判断一 个句子是否含有歧义概念呢? 可以采用双向扫描的方法来识别歧义字段。所谓双 向扫描,就是对同一个字段,分别用正向最长匹配和反向最长匹配方法切分文本。 鼹种方法得到的结果进行比较,发现两者不相同者即可判断其存在歧义。 举例如下: “该立式电动机效率高” 。 白然语言理解词法分析在产品设计中的麻h | j 下向最长匹配结果:“该立式电动机效率高” 反向最长匹配结果:“该立式电动机效率高” 由此可以发现,该句子存在歧义,需要进行解决歧义处理。 2 3 3 歧义字段的处理 关于歧义字段的处理,有很多方法。 分出歧义字段是非常困难的。总的来说, 以总结为下面几类: 但是不管采用何种方法,要想简单的划 歧义字段可以有好几种分法,基本上可 i 符合汉语语法 i i 符合汉语语法,但不符合语义 i i i 既符合语法、也符合语义,但是不符合上下文 i v 既符合语法、也符合语义,而且符合上下文 例如,对于下面只有四个字的句子 “今天真好” 就可以有三种分法: 分法i : “今厌真,好” 分法2 :“今天,真,好” 分法3 :“今天真,好” 上面的这个歧义字段,分法1 不符合;法2 符合语法,但不符合语义:分法 3 符合语法,也符合语义。 在歧义字段的划分方法中,属于前三类的可以有多种。但属于最后一类,一 般只有一种,也就是最后得到正确的切分结果。而前三类都要尽可能地,采用解 决方法来排除。 鉴于歧义字段划分的复杂性,在我们的切词系统中,采用了改进的全切分方 法。在这晕,改进的全切分思想如下: 首先,对于待分析的句子,尽可能多的将该句子切分出来,得到所有可能的 切分种类。这些分法中既含有正确的分法、也含有不大合理的分法。对于这些歧 义字段的多划分方法,需要用后面的工作来处理。有某些不合理的切分法,只需 要做简单的语法分析和验证,就可将其淘汰;而有些在语法分析和验证阶段是不 能排除的,这就需要用到语义分析、或者置于上下文,才能够判断其正确性与否。 在系统中,考虑到了切分盲点的阃题( 某些字串永远不会被某种分词方法匹 配出来) 。在初始切分阶段,即找出输入字串的所有可能的子串。将这些所有可能 的子串返回到下一步,继续进行处理。利用词法句法语义分析、以及基于知识 理解等方法,逐一从这些结果中进行分析、筛选、淘汰,逐渐找到最优的切分结 第二章词法分析理论研究 果,并最终找到确定地、正确的结果。 另外,该全切分算法采用了某些改进的方法和技巧。为了避免全切分带来的 组合爆炸问题,系统采用固定词扫描模块,禁止某些固定词的全切分。例如“全 等三角形”,“斜齿轮”等这样的固定词,系统将不再对其内部进行切分。从而能 够解决了组合爆炸的问题,减少了分析的时间,大大地提高了性能。 为了将大问题化简为小问题,再对小问题进行处理的分解思想。系统引入了 某些切分标志,即以句子中包含的一些特殊符号为标志,强制地将句子切分成比 较小的旬段,才分别对这些小旬段进行切词,最后再对小旬段得到的结果进行综 合分析。通常,切分标志的决定取决与特定的环境,在这里,我们将这些切分标 志定义为如下的符号:标点符号、数字、字母、助记符号、面向领域的特殊符号 等等诸多非汉字符。 我们采用的改进全切分算法框图如下: 图2 5 改进全切分算法框图 2 3 4 确定歧义字段切词单位的语义因素 在汉语书面文本的自动切词中,切分单位的确定是歧义字段切分中,一个关 键而又非常困难的问题。之所以说是“关键”的问题,是因为如果切分单位不合 理,将严重地影响到自动切分的效果和应用的前景;之所以说是“困难”的问题, 是因为切分单位的确定常常令人举棋不定,无所适从分词规范中提出的“结合 紧密。使用稳定”的原则,显得又过于笼统和含混,难于操作。我们认为,导致 这种困难的根源在于语言学中对于“词”的定义。在语言学理论上,把词定义为 “语言中能够自由运用的最小单位”,这样定义的词,就叫“理论词”。 为了能够解决实际的问题,从自动切分的角度,把词定义为“在切分好的汉 语书面文本中分开的连续的汉字串”。这样定义的词就叫做形式词。形式词是切词 单位,确定的切词单位的因素是有规律可循的,比较容易操作。其中语义因素占 口然语言理解词法分析在产晶设计中的麻川 了很大的部分。 在确定切词单位的语义因素的方面,主要有意义的单纯性、意义的连续性、 意义的可引申性等。据此,可以提出如下的判定方法: 1 意义单纯性判定法 根据待测结构中两个语素意义结合而成的总体意义的单纯性来判定切词单 位。总体意义单纯的判定为合成词,总体意义不单纯的判定为词组。 例如,“城市”的总体意义单纯,是合成词,是一个切分单位:“夫妻”的总体 意义不单纯,它的意义等于“夫”与“妻”的意义的总和,是词组,应该切分为 “夫妻”。 “长短”这个结构有歧义。当它的意义表示一个人的优缺点时候( “不要议论 别人的长短”) 。意义单纯,是合成词,作为一个切分单位;当它的意义表示“长” 和“短”时,意义就不单纯,这个意义就等于“长”和“短”的总和,应该作为 词组,切分为“长短”。 “动( 单音节) + 名( 双音节) ”结构是有歧义的,当它是有偏正关系时候, 只表示一种事物,意义比较单纯,不应该切分;当它是述宾关系时候,涉及到行 为及其对象,意义不单纯,应该切分。例如: “我喜欢,吃烤红薯”( “烤红薯”不切分) “我们来烤红薯r i b ”( “烤红薯”要切分) “介( 单音节) + 名( 单音节) ”的结构也有歧义,当它表示一个事物时,意 义单纯,不切分;当它是介宾关系时,涉及到行为的对象,意义不单纯,应该切 分。例如: “这个把手是木制,的”( “把手”不切分) “把手放,下来,”( “把手”要切分) 2 意义紧密性判定法 根据待测结构中两个或者多个语素意义结合的紧密性来判定,意义紧密的判 定为合成词,不切分;意义松懈的判定为词组,切分。 例如,“爱国”中的两个自由语素“爱”与“国”中间不能插入剐的成分,意 义结合得很紧密,判定为合成词,不切分。“读书”中的两个自由语素“读”和“书” 之间可以插入别的成分:“读了一本书”,意义联系松懈,判定为词组,应切分为 “读分”。 2 + 、 国名具有唯一性,其组成成分的意义结合紧密,是一个切分单位,不应切分。 例如,“中华人民共和国”,“美利坚合众国”,“德意志联邦共和国”,都不切分。 菜谱名中的各个成分,如切分后意义相差甚远,说明其意义结合紧密,则不 切分。例如,“宫保肉丁”,“红烧肉”,都不切分。但是,如果菜谱名的意义是它 的各个成分的意义的简单组合,意义结合不紧密,则切分。例如,“鸡蛋汤”,“肉 第二章词法分析理论研究 丝面”,“芝麻糊”。 缩写词中诸成分结合紧密,也不切分。例如,“四化”,“水电”,“石化”,“环 保”,“科技”,“奥运会”,“工农业”,“中西方”,“港澳台”,“教科文”,“爱委会”, “零部件”,“离退休”,“农林牧副渔”。但是,当在有顿号隔开时,则切分。例如, “港,、,澳、台同胞”。 四字成语和习惯用语,各成分意义结合紧密,难以拆开,不切分。例如,“胸 有成竹”,“一衣带水”,“匹夫有则”,“众所周知”,“春夏秋冬”,“充其量”,“由 此可见”,“喝西北风”,“闲人免进”。 超过四个字的成语和惯用语,各成分意义结合紧密,也不切分。例如,“一年 之机在于春”,“不管三七

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论