




已阅读5页,还剩47页未读, 继续免费阅读
(测试计量技术及仪器专业论文)基于统计面向领域的分词研究以及在产品设计中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文设计并实现了面向测试计量技术领域基于统计的分词系模型,并将其应 用于产品的设计过程。该模型依托整个领域汉语理解系统实现了以自然语言形式 描述的用户设计要求到计算机能够识别的概念设计要求或设计参数的转化。 本文分析了中文分词的特点和难点,结合现有的分词方法,提出了机械分词 方法、基于语料库的统计分词方法和知识表示相结合的分词模型,并将此分词模 块嵌入到整个领域汉语理解系统中。在机械分词阶段,本分词系统提供了所有可 能的分词结果,并初步的歧义排除。在统计阶段,利用基于语料库的统计方法对 初次切分结果进行进一步歧义处理,统计其共现度和搭配情况,并且把搭配情况 反馈至统计词典中,实现分词系统和整个自然语言理解系统的自我完善和良性互 动。同时,结合概念从属的知识表示方法,对分词的各种结果进行合理优先级的 处理。最后,结合实际将该分词模型应用于产品设计的用户需求分析领域。 关键词:自然语言理解分词统计语料库知识表示 a b s t r a c t t h i sp a p e rd e s i g n sa n di m p l e m e n t saw o r ds e g m e n t a t i o nm o d e l ,f a c et ot h et e s t m e a s u r e m e n tt e c h n i q u ed o m a i nb a s e do nt h es t a t i s t i c a lw o r ds e g m e n t a t i o n ,a n da p p l i e d t op r o d u c td e s i g np r o c e s s t h em o d e lr e l i e so nt h ew h o l ef i e l do fc h i n e s el a n g u a g e u n d e r s t a n d i n gs y s t e mi m p l e m e n t e di nt h ef o r mo fan a t u r a ll a n g u a g ed e s c r i p t i o no ft h e d e s i g nr e q u i r e m e n t so ft h eu s e rt ot h ec o m p u t e rt or e c o g n i z et h ec o n c e p t u a ld e s i g n r e q u i r e m e n t so rd e s i g np a r a m e t e r so ft h et r a n s f o r m a t i o n t h ep a p e rh a sa n a l y z e dt h ec h a r a c t e r i s t i c sa n dt h ed i f f i c u l t yo fc h i n e s ew o r d s e g m e n t a t i o n ,a n dt h e np u t sf o r w a r dan e ww o r ds e g m e n t a t i o nm o d e lc o m b i n gt h e m e c h a n i c a lw o r ds e g m e n t a t i o nm e t h o d ,c o r p u s b a s e ds t a t i s t i c a ls e g m e n t a t i o nm e t h o d a n dk n o w l e d g er e p r e s e n t a t i o na c c o r d i n gt ot h ee x i s t i n gw o r ds e g m e n t a t i o nm e t h o d s f i n a l l y , p u tt h i ss e g m e n t a t i o nm o d u l et ot h ee n t i r ec h i n e s eu n d e r s t a n d i n gs y s t e m i n m e c h a n i c a lw o r ds e g m e n t a t i o n s t a g e ,t h i ss e g m e n t a t i o ns y s t e mh a sp r o v i d e da l l p o s s i b l er e s u l t s ,a n dr u l e do u tap r e l i m i n a r ya m b i g u i t y i nt h es t a t i s t i c a lp h a s e ,t h e m o d e lu s e sc o r p u s - b a s e ds t a t i s t i c a lm e t h o dt ot h er e s u l t so ft h ei n i t i a ls e g m e n t a t i o nf o r f u r t h e ra m b i g u i t yp r o c e s s i n g ,c a l c u l a t i n gt h e i rc o o c c u r r e n c e d e g r e ea n dm a t c h i n g s i t u a t i o na n dt of e e d b a c kt ot h ed i c t i o n a r yt oi m p r o v ew o r ds e g m e n t a t i o ns y s t e ma n d t h en a t u r a l l a n g u a g eu n d e r s t a n d i n gs y s t e mo fs e l f - p e r f e c ta n db e n i g ni n t e r a c t i o n m e a n w h i l e ,c o m b i n e dt h ec o n c e p t u a ld e p e n d e n c yk n o w l e d g ee x p r e s s i o nm e t h o d ,t h i s s e g m e n t a t i o nm o d u l ec a r r i e so nt h er e s u l to fr e a s o n a b l y p r i o r i t y f i n a l l y , t h e c o m b i n a t i o no ft h ea c t u a lu s eo ft h ew o r dm o d e li sa p p l i e dt op r o d u c td e s i g no fu s e r n e e d sa n a l y s i s k e y w o r d :n a t u r a ll a n g u a g eu n d e r s t a n d i n g w o r d s e g m e n t a t i o n s t a t i s t i c s c o r p u s k n o w l e d g er e p r e s e n t a t i o n 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:耻日期t 越立乒 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 本人签名: 导师签名: 第一章绪论 第一章绪论 1 1 产品设计概述 2 1 世纪世界的一个巨大变化就是形成一个统一的全球市场,每一个国家都不 可能离开全球市场而获得独立发展,都必须在这个激烈竞争的市场中获得生存。 所有的这一切都对我国的制造业提出了严峻的挑战i l 】。 市场竞争的生命力在于产品的不断创新。产品的创新之中,设计起着关键作 用。设计是产品研制的首道工序,设计工作的质量和水平,直接关系到产品的质 量、性能、研制周期和经济效益。 随着计算机技术的发展,特别是c a d 技术的迅速发展和普及,设计手段发生 了根本性的变化,设计新理论、新方法、新技术不断涌现。广大工程技术人员渴 望在“甩掉图版”的同时,更新设计思维,采用新的设计方法,真正提高产品的 开发和设计水平【1 1 。将人工智能技术应用于产品设计过程之中,就是一种新的思维 方式和产品设计理念。 将人工智能技术应用于产品设计的过程有很多优点。首先,设计的智能化实 现了产品设计的自动化,加快产品更新换代,简化开发过程。其次,在产品设计 和制造的过程中广泛应用人工智能技术,使生产智能化程度大大提高,产品信息 得以实现跨地区、跨国家的网络共享。这其中就涉及了产品设计过程之中,人机 之间的语言交互问题。尤其是在很多智能型的分析系统中,为了方便用户的使用, 已经开始涉及自动用户需求分析,进而进行概念设计。在需求分析中,用户使用 的是通俗的语言来表达对产品功能的要求,并非使用设计领域内的专业术语。所 以,这就要求计算机能够直接理解自然语言,实现人机之间的有效沟通。这样就 必须利用自然语言理解这种手段,让自然语言理解充当用户和产品设计、分析等 系统之间的智能接口,通过了解用户需求,从而指导设计人员的设计工作。 本文尝试将自然语言理解应用于产品设计中,通过对以自然语言形式表达的 用户需求进行理解和分析,将分析结果转化成概念设计要求,为后续设计提供支 持。希望本文的工作能够对上面所提到的问题有所帮助。 1 2 自然语言理解概述 在信息化社会中,语言信息处理的技术水平和年处理信息量从某种程度上已 成为衡量一个国家现代化水平的重要标志之一。在这样的社会需求下,自然语言 理解作为语言传息处理技术的一个高层次的重要方向,一直是人工智能的重要内 容和组成部分,也是现今计算机科学技术领域最活跃的研究方向之一。如果计算 2 基于统计面向领域的分词研究以及在产品设计中的应用 机能够“理解 自然语言,人机间的交互能够用人们所熟悉的本族语言来进行, 那将是计算机技术的一项重大突破。另一方面,由于创造和使用自然语言是人类 高度智能的表现,因此对自然语言理解的研究也有助于揭开人类智能的奥秘,深 化对语言能力和思维本质的认识。所以说,这个研究方向在应用方面和理论方面 都有重大意义。 1 2 1 什么是自然语言理解 自然语言理解( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,简称n l u ) ,又可以称为自 然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ) ,是当前人工智能研究的核心课题之一, 它研究使用计算机理解和生成自然语言的基础理论和基本技术【2 j 。自然语言理解是 语言文字信息处理的一项高层次技术,是人工智能的重要内容和组成部分。它主 要研究能够实现人与计算机之间用自然语言进行有效交互的各种理论和方法。从 人工智能的角度看,自然语言理解的任务是建立一种计算机模型,它能达到人对 自然语言理解的水平并给出相似结剁3 1 。自然语言处理与数学、语言学、认知科学、 心理学、逻辑学、哲学等有密切的联系。自然语言处理的关键是如何让计算机“理 解 自然语言。 语言属于一种社会现象,而计算机是自然科学的产物。所以,自然语言理解 是个极其复杂的研究课题,是一门自然科学和社会科学交叉的学科,特别是计算 机学、语言学、逻辑学、生理学、心理学、信息论和情报学等相关学科发展结合 而成的- - f - j 交叉学科。它研究内容主要有以下几个方面一j : 1 既理解句子的正确词序规则和概念,又理解不含规则的句子; 2 知道词的确切含义、形式、词类和构词法; 3 了解词的语义分类以及词的多义性和歧义性; 4 指定、非指定特性和所属( 隶属) 特性; 5 问题领域的结构知识和时间概念; 6 语言的语气信息和韵律表现; 7 有关语言表达形式的文学知识; 8 有关语言的背景知识。 1 2 2 自然语言的层次模型 自然语言语言单位的构成是分层次的。对于现代汉语而言,分为以下几层: 字、词、短语、句、段落、篇章。自然语言理解应遵循单向依赖关系:任一较大 语言单位的理解,必须在较小语言单位理解的基础上进行;较小语言单位的理解, 必须在较大语言单位制约条件的限制下获得。自然语言理解应分层次,层层推进。 第一章绪论 3 其层次模型如下图1 1 所示: r 1r 21 1 31 1 4 1 1 5 图1 1 自然语言理解的层次模型 其中,硒是第i 层的规则系统,f i 是第i + l 层对第i 层的制约条件。此模型分 为五个层次分词层、短语层、语句层、段落层、篇章层。 分词层把彼此间没有符号隔开的文字流或语音流在规则下变换为一个个词组 成的词串,而词串的正确性受上一层制约条件的限制如:“自然语言理解是 人工智能领域的重要分支”。短语层把词串中彼此孤立的词组成一个 个词组,并得到词组的内部结构( 词与词之间的关系,如主谓结构、动宾结构、 偏正结构等) 。语句层对语句进行句法分析和语义分析,得到语句的分析树和语句 的语义表示。段落层主要考察语句之间的关系,将语句序列组合成若干个段落, 此时要特别注意自然段和意义段的区别。篇章层着重考察段落之间的关系,目标 是得到整个篇章的结构表示和机内语义表示。 1 3 1 中文分词的特点 1 3 分词研究概述 对于计算机来说,中文文本就是由汉字和标点符号等最基本的语言符号组成 的字符串,由字构成词,由词构成短语,进而形成句、段、节、章、篇等语言结 构【5 1 。中文句子的基本单位是字而不是词,但理解一个句子的单位却是词。句子是 由词构成的,但分词研究中的词与语言学中说的词是有一定区别的。分词中所说 的词,是指一个分词单位,分词单位可以包含了语言学中的词。信息处理用现代 汉语分词规范中,对词的定义是最小的能独立运用的语言单位1 6 】。对分词单位的 定义是:汉语信息处理使用的、具有确定的语义或语法功能的基本单位 6 1 。然而, 并不是所有的分词系统都按照信息处理用现代汉语分词规范来进行中文分词。 因此,在分词问题上,也一直没有一个统一的标准。 中文词的最大特点是中文构成词的能力非常强大。中文词是一个开放的集合, 有的个汉字可以和很多汉字组成词,比如“生 :有生产、生存、生命、生态环境、 生物圈等等;又比如“火 :有火车、火焰、烽火,怒火等等。在g b 2 3 1 2 汉字集 4 基于统计面向领域的分词研究以及在产品设计中的应用 的6 7 6 3 个汉字里,不能与其他字组成词的只有两干多,而其它的汉字,有的汉字 能与其他汉字组成几百个词。汉字词主要是二字词、三字词、四字词等组成,这 三类词组成了汉字词的绝大部分,其中以二字词最为多。 1 3 2 分词研究的目的和意义 由于计算机不能像人一样直接识别和理解自然语言,人们便通过编写相应的 应用程序来帮助计算机“理解 自然语言。在当今信息化的社会,计算机的使用 越来越普及,但是在人与计算机的沟通方面仍然存在许多障碍,于是信息处理技 术就是应运而生了。在西方国家,信息处理技术已经发展的比较成熟。而在我国, 由于中文信息处理技术由于起步晚,而且汉字是象形文字,字符之间没有像西方 文字具有天然的分隔符,因而当计算机处理中文时,更加深了人机之间使用自然 语言理解进行交互的难度。所以,西方的信息处理技术无法直接应用到中文信息 处理领域。 中文信息处理技术是我国重要的计算机应用技术。国务院制定的国家中长期 科技发展纲领中明确指出:“中文信息处理技术是高新技术发展的重点”1 6 1 。中文 信息涵盖了字、词、短语、句子、段落、篇章等多层面的信息加工处理任务。词 是现代汉语独立运用的最小单位,因此,词处理是当前汉语信息处理的关键。由 于中文文本是按句子连写的,词间无间隙,因而在中文文本处理中首先遇到的是 词的切分问题。如何准确的把句子转变成一系列词的连接,如何正确的进行词的 切分是进行中文文本信息处理的至关重要的一步。正如陈力为院士所说:“汉语书 面语的分词技术已经悄悄地形成- - f - j 新兴的富有挑战性的学问。 1 7 j 分词技术的发展直接影响着中文信息处理技术的发展。我国自八十年代初期 开始重视研究自动分词技术以来,分词技术取得了长足进步,逐步提出各种分词 算法和分词模型,开发出了各种分词软件【8 】。并且中文信息处理技术的广泛使用, 对分词技术的要求也越来越高,同时依赖也越来越强。 分词的意义在于使得计算机能够快速准确的处理中文信息。作为中文信息处 理的基础,分词的重要性不言而喻。主要表现在以下几个方面瞵j : 1 分词是中文信息处理的基础性工作; 2 自动分词在中文信息处理的广泛应用; 3 汉语处理要求以词性等知识为依据; 4 以词为单位处理汉字语音、错别字、简繁转换。 1 4 现有的分词技术 中文分词技术属于自然语言处理技术范畴,对于同样的一句话,人们可以通 第一章绪论 5 过自己的知识来明白哪些字串组合在一起是合理的,哪些能构成词。自然语言处 理的一个重要环节就是让计算机能够模仿人类的思维方式,分辨哪些能够成词, 这其中就需要分词算法。现有的常用分词算法可分为三大类:机械分词方法、基 于统计的分词方法和基于规则的分词方法。 1 4 1 机械分词方法 一般来说,机械分词方法从切分程度上来看可以分为部分切分和全切分两种。 部分切分只取得输入语句的一种或几种可接受的切分形式,而全切分则要求获得 所有可接受的切分形式。由于部分切分的结果忽略了其他可能切分形式,所以建 立在此基础上的分词方法不管采取何种消除歧义的策略,都可能会遗漏正确的切 分,造成分词错误或失败。而建立在全切分基础上的分词方法,由于全切分取得 了所有可能的切分形式,因而从根本上避免了部分切分方法带来的遗漏,克服了 其缺陷。但最终分词结果的正确和完全性依赖于歧义处理的策略,如果方法有误, 同样得出错误的结果。领域内的知识都具有唯一确定性,部分切分即可以满足一 般性的需要,因此本文所说的机械分词法均指部分切分。 机械分词法可按以下几种方法进行分类: 1 根据切取字串的方向,机械匹配法分为正向匹配法和逆向匹配法【9 l 。 有统计表明,单纯使用正向最大匹配算法的错误率为1 1 6 9 ,单纯使用逆向最 大匹配算法的错误率为1 2 4 5 。逆向匹配法的切分正确率略高于正向匹配法,有时 为了提高切分的效率,也可将两者有机地结合起来形成双向匹配法。 2 根据每次匹配时优先考虑长词还是优先考虑短词,机械匹配法又分为最大 匹配法和最小匹配法。 因为大多数汉字均可独立成词,所以按最小匹配法分词的切分的结果往往太 细而非自然语言理解所要研究的词语单元。反之,当待切分字串中出现词中有词 的情况时,最大匹配法就可能因切分结果太粗而不合要求。选择使用哪种方式, 一般要根据研究的实际情况决定。 3 根据匹配不成功时重新取词策略,机械匹配法分为增字法和减字法【l o l 。 实际上,不论是哪种机械分词方法,词库的建立好坏都是匹配法成败之关键。 这里一个重要的问题是:词库词容大小的选取。一般来说,词库的好坏可通过两 个参数来衡量,即覆盖率和利用率【l o 】。覆盖率是指词库中出现在待切分语料中的 词的数量与待切分语料的实际含词量之比,而利用率是指词库中出现在待切分语 料中的词的数量与词库含词量之比。这两个参数都依赖于词库和待切分的语料, 并且两者相互制约。 6 基于统计面向领域的分词研究以及在产品设计中的应用 1 4 2 基于统计的分词方法 从形式上来看,词是稳定的字构成的组合。在上下文中,相邻的字同时出现 的频率越高,就越有可能构成一个词。因此,字与字相邻共现的频率或概率能够 较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统 计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧 密程度高于某一个阀值时,便可认为相连的字组能够成一个词。这种方法只需对 语料中的字组频度进行统计,不需要切分词典,因此又叫做无词典分词法或统计 取词方法。 目前基于统计的分词算法有很多种,较为常见的算法是:基于互信息的概率 统计算法、n g r a m 算法和基于组合度的汉语分词决策算法等等。 互信息的概率统计算法【1 1 1 对不同字符之间相关性的统计量得出的结果就是互信息。对于字符串x 和y 其互信息的计算公式为: m i ( x , y ) = l o g :篙 式( 1 - 1 ) 其中p ( x ,y ) 为字符串x 和y 共现的概率,p ( 力,p 分别为字符串x 和y 出现的概率。 互信息m i ( x ,y ) 反映了字符串对之间关系的紧密程度: 1 m i ( x ,y ) 0 ,则x 和】,之间具有可信的结合关系,并且m i ( x ,y ) 的值 越大,结合程度也越强烈。 2 m l ( x ,y ) = 0 ,则x 和y 之间的结合关系不明确。 3 m i ( x ,y ) n g r a m 模型算法 n g r a m 模型算法的主要思想如下【1 2 】: 一个词的出现与其上下文中出现的词序列密切相关,第n 个词的出现只与前 面n 1 个词相关,而与其它任何词都不相关,设嵋,w z ,是长度为n 的 字串,由于预测词的出现概率,必须知道它前面所有词的出现概率,太过复杂。 为了简化计算,规定任意词w 只与其前两个相关,得到三元概率模型。 尸( 形) 兀硝,n 尸( mim 一2 w 1 ) 式( 1 - 2 ) p ( mi w l _ 2 w i 1 ) c o u n t i ( w i _ z w f _ , w _ i )式( 1 3 ) c o i l t i i l 一2 一i , 其中,式中c o u n t ( ) 表示一个特定词序列在整个语料库中出现的累计次数,这 第一章绪论 7 些概率参数都是可以通过大规模语料库来估值的。 组合度决策算法 组合度决策算法思想如下【1 3 】: 假如在一篇文章中,如果汉字b 紧跟在汉字a 的后面,称a b 为一个组合。 运用组合度的数学公式,计算出每个词组的组合度。组合度越高,说明它是词组 的可能性越大;组合度越低,说明它是词组的可能性越小。其计算公式如下: 一l i l 【生垒攀】 式( 1 - 4 ) 其中,为a b 在文章中的组合度,n 为汉字的个数,k 为a b 组合的个数, 以1 是a 的个数,以2 是b 的个数。 1 4 。3 基于规则的分词方法【1 4 1 基于规则的分词方法是通过让计算机模拟人对语句的理解,达到识别词的效 果。其基本思想就是在分词的同时进行句法、语义、段落和篇章分析,利用句法 信息和语义信息来对文本进行分词。 基于规则的方法不论组成规则的条件和动作多么复杂,其本质都是解决“是” 与“非 的问题。但是面对如此复杂的自然语言现象仅仅用“是”和“非”的回 答是难以解决问题的,同时这类方法一般都忽略语言运用的多样性,缺乏对大规 模真实语料的调查。因此,本方法的缺点是对于一些不确定的事件则显得苍白无 力,同时规则之间的相容性和适用的层次范围都存在一些缺陷和限制,需要该领 域的知识和规则库作为支撑,所以在对知识、规则的定义、更新、维护及自我学 习等方面存在一些缺陷和限制,需要专家参与。 这种分词方法优点在于它可以由实例中进行自动推理和证明,可以自动完成 对未登录词的补充,但是单纯采用基于规则的自然语言处理系统,难以应付现实 世界中的自然语言的复杂多变的现象,主要表现在: 1 规则所能刻画的知识颗粒度太大,无法用有限的规则来刻画自然复杂多 变的现象,很难处理自然语言的不确定性; 2 不能保证语言学规则之间相容,也就是说在自然语言处理系统中随着规 则数量的增加,规则之间常常发生矛盾和冲突; 3 获取语言学知识是非常困难的事情。 1 5 本文主要工作 不论何种分词方法,主要都以解决实际问题为目标。而单单使用一种分词方 8 基于统计面向领域的分词研究以及在产品设计中的应用 法,都不足以解决实际的自然语言问题。本文从产品设计过程中的需求分析、概 念设计和自动建模等方面出发,对于产品设计和生产的自动化需求进行了关注, 从产品设计的领域性原则以及领域自然语言理解实现的可能性入手,设计了产品 设计领域的领域汉语理解接口模型并着重解决了作为领域汉语理解模型中的接口 模块的智能分词系统构建和实现。 完成的主要工作如下: 1 了解国内外自然语言理解的动态,分析了汉语自然语言分词处理的重点和 难点。结合设计领域自然语言理解的特点,确定以基于统计和知识表示相 结合的方法来研究自然语言理解的分词处理情况。 2 介绍了自然语言理解的新的研究方法语料库方法,介绍了语料库研究 的各种手段及其特点。 3 在知识表示的基础上形成了以机械分词为基础、统计手段为核心、语料库 和概念从属树为手段,构建了分词处理模型。 4 给出分词处理各个模块的功能及其具体流程,并且给出基于统计的具体类 的设计和知识表示模型的实现。 5 通过仪器仪表领域中一个具体设计实例,来描述分词处理模型在仪器仪表 设计中的应用。 总之,人工智能是计算机科学中一个重要的课题,自然语言理解又一直是人 工智能领域内一个充满挑战的研究学科。随着计算机技术和人工智能技术的发展, 自然语言理解会不断进步。同样,分词技术的研究和发展也将对自然语言理解起 着长足推动作用。 “ 第二章语料库和概念从属理论 9 第二章语料库和概念从属理论 2 1 语料库 2 1 1 语料库的概述 按照科学的方法定义,语料库( c o r p u s 或c o r p o r a ) 是指按照一定的语言学原理, 运用随机抽样的方法,收集自然出现的连续的语言运用文本或语言片段而建成的 具有一定容量的大型电子文库【l5 1 。从其本质上讲,语料库实际上是通过对自然语 言运用的随机抽样,以一定大小的语言样本代表某一研究中所确定的语言运用总 体。 传统的意义上,语料库被界定为语言研究基础的、大量自然出现的、日常使 用的语言数据。这些语料库通常是由书面语或口语样本组成,可以被用来表示一 种特定的语言或者语言变体。近4 0 年来,语料库通常指以电子文本形式保存,并 广泛应用于语言研究和语言工程的各种语言材料。随着计算机技术的日新月异的 发展,语料库在规模、多样性和使用的便捷性方面都较传统意义上发生了剧烈的 变化。与此同时,大量功能完备的应用软件也介入到语料库研究领域来存取和加 工语料库的相关信息。计算机语料库迅速成为语言研究的一种普遍资源,现在世 界上已经建立了许多大规模的语料库。 l 百 万 i il o 图2 1目前世界语料库的研究现状 在语言研究中,语料库方法是一种经验主义的研究方法,以现实使用的自然 语言为研究对象,得出语言使用的实际情况【16 1 。这种研究方式有助于语料库的研 究者根据语言实际运用得出客观、真实的结论,而得出的结论同时也是可以通过 客观的实例来进行验证。目前,语料库方法对语言研究的众多领域产生了越来越 l o 基于统计面向领域的分词研究以及在产品设计中的应用 多的影响,各式各样的语料库更加广泛的应用在词汇、语法、语义、语用、语体 研究、社会语言学研究和语言教学以及自然语言处理、人工智能、机器翻译、语 音识别等众多领域。我国在语料库的研究和应用上还处于起步阶段,在计算语言 学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概 率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果【l5 1 。语料库 与自然语言信息处理相辅相成,大规模的语料库是用统计语言模型方法处理自然 语言的基础资源。统计语言模型本身并不关心其建模对象的语言学信息,它关心 的只是一串符号的同现概率。 2 1 2 语料库语言学 语料库语言学为语言研究提供了一种全新的研究思路,它以真实的语言数据 为研究对象,从宏观的角度对大数量的语言事实进行分析,从中寻找语言使用的 规律;在语言分析方面采取概率法,以实际使用中语言现象出现的概率为依据建 立或然语法进行语法分析。语料库语言学从一个新的角度揭示自然语言的复杂性 1 5 l o 语料库语言学出现之前,对语言学的研究往往只针对语言现象的某一方面的 特性如语法结构,而不考虑其他因素的影响【1 7 l 。这种做法对语言科学研究来说是 片面的。正是由于语言是一种复杂的现象,任何仅针对语言的某些特点而排除其 他特点的以偏概全的语言研究,都不能揭示语言的真正本质,也很难使语言研究 真正的深入的科学的开展。 语料语言学在其发展的初期并没有引起太大的共鸣,但是现代语料库语言学 已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词 典编撰到人工智能等领域都开始广泛应用。目前,语料库语言学研究呈现出一些 新的发展趋势,表现为如下几个方面【18 j : 1 学习者语料库的建设和中介语的研究; 2 口语语料库的建设和相关话语特征的研究; 3 平行语料库的建设和研究; 4 语料库建设的普遍性; 5 语料库研究向纵深发展等。 j o h ns i n c l a i r 言简意赅地总结了语料库语言学发展的历史【1 9 】:“3 0 年前,是语 料库语言学研究刚刚开始的阶段,人们认为处理几百万字的文本是不可能的;2 0 年前,人们认为这是有可能的,但想法有些疯癫;1 0 年前人们认为它是非常有可 能的,但还是有些不可思议;当今,语料库语言学已经非常流行。” 第二章语料库和概念从属理论 2 2 1 语料库索引 2 2 基于统计的语料库分析方法 索弓l ( c o n c o r d a n c e ) ,即语料库中含有所研究的关键词的句子片段。词语搭配研 究所用的索引一般是k w l c ( k e yw o r di nc o n t e x t ) 索引,它已成为语料库研究的最基 本工具之一【l5 1 。语料库研究者每一次在语料库中查询,都要将自己即将研究的关 键词输人计算机,通过相应的程序显示出索引。在每一行索引中,关键词总是居 中出现,而左右则是构成其语境的词语,研究者可据此分析其词语的语境和行为。 提取索引时,随机的方法很重要。大型语料库中含有关键词的索引可能极多,全 部提取出来不必要也不便于观察和描述。因此,可应用随机的方法提取索引,以 使其具有代表性。文献【2 0 1 中随机从c o b u i l d 语料库中提取的c o m m i t 一词的部分 索引,如下图2 2 所示: m e r e l yb ys t a y i n go n ,d i dn o t c o m m i tac r i m i n a lo f f e n c e b o t ht h e s h ef e l ts h ew o u l dn e v e rb ea b l et oc o m m i tas e r i o u ss i na g a i n t h i r t y o n e ak n o c k o u to rs o m e b o d y sg o i n gt oc o m m i tam a j o rf a u xp a s , a n do u t s i d eo f p r i s o nw a l l s : o rf o rg o v e m m e n t st oc o m m i ta b u s e st h a tw o n tc o s tt h e i r e x o d u s 2 01 4 ) ,”t h o us h a l ln o tc o m m i t a d u l t e r y ”h a sb e c o m e ”b ef a i t h f u l f o rac r i m em e yk n e wh ed i dn o tc o m m i ta n dy o uk n o w ,m o n r o ec o u n t yi sl i k e o f a na c c o u n th o l d e ro ri f y o uc o m m i ta n yb r e a c ho f t h ec o n d i t i o n s , f o rt h e i ro w nu s e s t h e yw i l lc o m m i t a n yc r i m e lb u tn e v e ri np a s s i o n m o n t h si n s i d ef o rac r i m eh ed i d n tc o m m i t b u ti nt h em e a n t i m eh eh a df o u n d c o u n t r i e s ( a n dt h e r e f o r ef r e et o c o m m i tc r i m e st h e r e ) ,t h a tc o u n t r y sr i g h t 图2 2c o b u l l d 语料库中部分c o m m i t 索引 通过语料库的索引分析可以发现,与c o m m i t 搭配的词全是一些具有消极语义 特点的词项,如“犯罪、谋杀、伤害、自杀、欺骗、故意破坏”等等。通过这些 搭配可以对索引词的搭配特点进行分析和概括。 索引的研究方法是以关键词为中心,以语料库搭配信息为依据,参照类联接 框架,检查证据和概括关键词的搭配情况【2 。由于语料库具有丰富的资源,能够 提供较为详尽的语言研究素材,方便研究者对关键词的搭配情况和语言语境特点 进行概括,而不必求助于个人的语言使用习惯或个人直觉。通常来说,所使用语 料库的容量越大,越具代表性,那么其研究结果就越有可信度,实际语言使用中 的词语搭配现象就越能够被体现和描述出来【2 2 】。反之,单单依靠语言学家个人的 语言使用习惯或直觉进行的词语搭配描述,其广度和深度都往往有限。这种研究 1 2 基于统计面向领域的分词研究以及在产品设计中的应用 限于在已经确立的语法结构之内进行,研究者所做工作的并不触动语法框架,而 是依据证据对结构内词项的组合行为进行检查和概括。所以,这种方法可称之为 “基于数据的方法”( d a t a - b a s e da p p r o a c h ) 【2 3 1 。 2 2 2 语料库的计算搭配词方法 词义搭配研究之父弗斯曾说过,“由词之结伴可知其词 ( “y ,o us h a l lk n o wa w o r db yt h ec o m p a n yi tk e e p s ) 阱】。按照弗斯的观点,词语的结伴关系或者叫做共 现关系是词语搭配的重要表现形式;词语搭配是一种意义方式;习惯性搭配中的 词项互相期待和预见;词语搭配这种词语使用现象与类联接有着内在联系1 2 引。 词语搭配就是研究语言使用中词语之间的共现现象。然而,并不是说所有一 经共现的两个词或者几个词,都可以说是词语搭配。但是只有在待研究语料中反 复出现的共现词,才有可能被认为是词语搭配,这也就是语言使用的一个典型特 征【2 5 1 。根据这种观点,通常还可以使用概率统计的方法来研究词语搭配现象,即 首先从语料库中将关键词提取出来,然后用统计的方法计算各搭配词与关键字共 现的显著程度,以确定两者间在多大程度上存在共现特征和期待特征,从而可以 用来描述结伴的两个词之间是否满足典型的搭配情况。该过程分为如下两个主要 步骤:选取搭配词,计算统计概率。 提取节点词在语料库的所有搭配词 使用统计方法之前,首先要从语料库中提取与关键词共现的所有搭配词【l 5 。 为此,就需要知道如下重要信息:节点词( n o d e ) 、跨l f l i - ( s p a n ) 和搭配词( c o l l o c a t e ) 。 节点词即研究者要在语料库中检查其搭配的词项,即语料库中所说的关键字或关 键词。语料库中的每个词都可以是节点词。选取哪些词作为节点词完全由研究者 根据其研究内容和研究目的而定。跨距指的是节点词左右以词为单位计算的语境, 不包括标点符号。假如将跨距界定为4 + 4 ,意思是说在节点词左右各取4 个词为 其语境。仍然以c o b u i l d 语料库中的c o m m i t 为例,在第一行索引中,c o m m i t 左边的4 个词s t a y i n g ,o n ,d i d ,n o t 和右边的4 个词a ,c r i m i n a l ,o f f e n c e ,b o t h 共 同组成了节点词的跨距。跨距长度的界定直接关系到搭配词的提取结果。 跨距长度的界定一定要视所研究文本的题材领域、文本种类以及文体风格等 诸多影响词语使用特点的因素而定。诸多研究表明,就普通英语文本和专业英语 文本而言,将跨距界定为4 + 4 或5 + 5 是合理可行的【”】。另一个重要的参数是距 位( s p a np o s i t i o n ) ,指跨距内各个词项所居的位置,常用n 1 ,n 一2 ,n 3 ,n 4 ;n + i , n + 2 ,n + 3 ,n “,或者l 1 ,l z ,l 3 ,l 4 ;r 1 ,r 2 ,r 3 ,r 4 等表示。其中,n 1 或l 1 表示节点词左边的第一个位置,而n + i 或r l 则表示节点词右边的第一个位 置。在c o m m i t 第一行索引中,s t a y i n g ,o n ,d i d ,n o t 分别位于n _ 4 ,n 3 ,n 一2 和 第二章语料库和概念从属理论 n 一1 距位上;a ,c r i m i n a l ,o f f e n c e ,b o t h 分别位于n + i ,n + 2 ,n + 3 和n “距位上。 所有落入跨距内的词都可以被视作节点词的搭配词。 这种提取搭配词方法的基本思想是提取待研究语料中节点词的2 s n 个搭配 词,用于观察和研究,分析其搭配情况。其中s 代表跨距,2 s 表示节点词左右两 边的跨距,n 代表节点词在语料库中出现的总频数,又叫观察频数。节点词在语 料库中出现了n 次,就表明查询时要有n 行索引出现,每一行中有2 s 个搭配词 被提取,那么节点词在语料库中的所有搭配词就是2 s n 个。 统计测量 词语搭配主要用于研究是词项的典型共现行为。典型性不同于可能性:在一 定程度上来说,词项之间的任何组合都是可能的,只是出现的频率不同,而典型 性则是搭配程度较高,频率较大的可能性。为此,搭配词提取后就要进行统计测 量,检验各搭配词与节点词之间的相互预见和相互吸引程度,判断它们的共现在 多大程度上体现了词语组合的典型性。统计测量一般有两种手段,z 值( t 值) 测量 和m i 值测量l 2 5 】。 1 z 值( 或t 值) 计算 语言的使用是有概率性的,概率是语言的基本内在属性。在搭配词提取后, 要测量的是搭配序列在语料库中出现概率的显著程度【掏。如果语料库的总词容为 w ,某个搭配词在库中的观察频数为c l ,该搭配词在语料库中各个词位平均出现 的概率则为c 1 矿。如果限定跨距为s ,该搭配词与每个节点词共现的概率则为 c 1 木( 2 s + 0 w ( 2 s 指的是节点词左右两边的跨距位置,1 为节点词所占的距位) 。 但是,当考虑该搭配词与观察频数为n 的某个节点词共现的概率时,其理论上概 率计算公式如下: p :g 里苎纵坐 式( 2 1 ) 。 用这个理论上的共现概率乘以语料库的总词数w ,便可求得该搭配词与节点词共 现的期望频数e 。那么,搭配词与节点词共现的期望频数计算公式如下: 尸:刍:堕1 21 丝式) 也就是说,期望频数p 的需要知道以下四种数据:语料库包含的总词数w ,某个 搭配词在语料库中的观察频数g ,限定跨距2 s ,节点词在语料库中出现的频数n 。 期望频数被用于z 值或t 值的计算。z 值或t 值表示的是节点词与搭配词相互预 见或相互吸引的程度。在大样本的情况下,两种分值差别不大。计算z 值或t 值 需要先计算出搭配词在文本中分布的标准差s d ,其计算公式如下: 肋2 、( 2 s + 1 ) 事( 1 一帚) + 蚩 式( 2 - 3 ) 1 4 基于统计面向领域的分词研究以及在产品设计中的应用 然后,用搭配词和节点词共现频数c 2 与期望频数e 之差除以标准差,即可求得z 值 z = 譬 龆- 4 ) 计算z 值要知道五个数据,分别如下:被研究词或者节点的词的频数n ,跨 距s ,搭配词在整个文本中的频数c 1 ,搭配词在小文本中的频数c 2 以及整个文本 的长度w 。如果z 值达到一定程度,就可以认为搭配词即可被视为显著搭配词, 它与节点词组成的序列则是显著搭配。 t 值计算与z 值类似,主要是数据容量较小的样本【2 引。不论是z 值还是t 值 都主要用于反映共现频数和搭配关系的紧密程度,其值越大,搭配词与节点词的 搭配关系也就越强。 2 m i 值计算 相互信息值( m iv a l u e ) 用于计算词语搭配中词语间的搭配强度,也就是一词在 语料库中出现的频数所能提供的关于另一个词出现的频数信息【2 7 】。m i 值的不同也 就反映了词语搭配强度的不同。其计算方法如下: 、地,6 ) = l 0 9 2 揣 式( 2 - 5 ) 其中,a 和b 为语料库中的任意两个词
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环保生物技术在生物服务行业的可持续应用-洞察及研究
- 压缩机安全运行测试题目及答案解析
- 存储技术评估方案
- 北京市朝阳区融资类诈骗犯罪剖析与防治策略探究
- 北京JR建筑装饰工程(集团)有限责任公司战略管理研究:困境、抉择与突破
- 动态竞争视角下宝雅新能源汽车股份有限公司营销策略变革与创新研究
- 割草制度与改良措施协同作用下退化草地生态响应机制探究
- 生物入侵风险防控-第1篇-洞察及研究
- 濒危语言的数字化保护与传播-洞察及研究
- 主元素在风力发电中的优化-洞察及研究
- 【蚂蚁保】2024中国商业医疗险发展研究蓝皮书
- 工作生活平衡总结
- 装配式建筑装饰装修技术 课件 模块五 装配式隔墙
- 药事管理工作制度及操作规程
- JT-T-883-2014营运车辆行驶危险预警系统技术要求和试验方法
- 管理百年-知到答案、智慧树答案
- 五年级安全标志提醒你
- 脑死亡判定标准
- 猪肉配送服务方案
- 《五环旗下一家人》课件
- 屠呦呦生平事迹
评论
0/150
提交评论