(计算机软件与理论专业论文)基于规则的现代汉语副词用法自动识别研究.pdf_第1页
(计算机软件与理论专业论文)基于规则的现代汉语副词用法自动识别研究.pdf_第2页
(计算机软件与理论专业论文)基于规则的现代汉语副词用法自动识别研究.pdf_第3页
(计算机软件与理论专业论文)基于规则的现代汉语副词用法自动识别研究.pdf_第4页
(计算机软件与理论专业论文)基于规则的现代汉语副词用法自动识别研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)基于规则的现代汉语副词用法自动识别研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于规则的现代汉语副词用法自动识别研究 摘要 汉语属于分析性语言,缺乏严格意义上的形态变化,汉语的副词承担着繁重 的语法任务,在汉语语法系统中具有重要地位。副词在自然语言理解与生成中的 重要性不言而喻。 目前已有的副词研究成果大都是面向人用的,对副词个性的描述难以避免主 观性和模糊性,很难直接应用于自然语言处理的研究。本论文主要探讨了面向机 器的副词用法自动识别。 本文的主要工作包括: ( 1 ) 对副词知识库、副词规则库和语料进行简要描述,标注系统将利用副 词知识库和副词规则库对语料进行标注。 ( 2 ) 根据副词用法词典、副词用法规则,利用算法实现对语料的副词用法 自动识别,副词的规则是一种b n f 形式,语料已分词。根据副词规则匹配语料, 将匹配成功的规则i d 标注在副词后。 ( 3 ) 基于错误驱动的规则学习,对已经标注好的语料进行学习,对现有的 规则进行修改使其更加完善,达到理想的效果。目i j 只是针对单个规则的副词进 行了错误驱动的规则学习。 论文最后对本课题已有的研究工作进行了总结,并对今后的进一步研究进行 了展望。 关键词副词知识库;副词用法自动识别:副词规则库:错误驱动 基于规则的现代汉语副词用法自动识别研究 a b s t r a c t a sa na n a l y t i cl a n g u a g e , c h i n e s ei ss h o r to fm o r p h o l o g i c a lp r o c e s sa n da d v e r b w o r d s ,w h i c ht a k eo nc o m p l e xa n di m p o r t a n tg r a m m a t i c a lt a s k s ,a n da r ev i t a li nt h e s y s t e mo fc l l i n e s eg r a m m a r i ti ss e l f - e v i d e n tt h a ta d v e r bw o r d sa r es i g n i f i c a n ti n n a t u r a ll a n g u a g eu n d e r s t a n d i n ga n dg e n e r a t i o n b yn o w , t h es t u d i e so na d v e r bw o r d so fm o d e r nc h i n e s ea l em o s t l ys e r v e df o r p e o p l e t h e s ed e s c r i p t i o n so na d v e r bw o r d sc a nn o ta v o i df r o ms u b j e c t i v i t ya n d i l l e g i b i l i t y s ot h e ya r en o te a s yt ob ea p p l i e dd i r e c t l yt on a t u r a ll a n g u a g ep r o c e s s i n g t h i sp a p e rm a i n l yd i s c u s s e sr e s e a r c ho nm a c h i n er e c o g n i t i o na n d t a g g i n gt h ea d v e r b t h em a i nj o b so ft h i sp a p e ra r ea sf o l l o w s : ( 1 ) t od e s c r i b et h ek n o w l e d g eb a s eo fa d v e r b ,r o l eb a s eo fa d v e r ba n dc o r p u s t h e s y s t e mc o u l dt a g g i n gc o r p u st h a tt a k ea d v a n t a g eo ft h ek n o w l e d g eb a s eo fa d v e r ba n d r o l eb a s eo fa d v e r b ( 2 ) a c c o r d i n gt ot h ek n o w l e d g eb a s eo fa d v e r ba n dr o l eb a s eo fa d v e r ba n d s y s t e mc o u l dt a g g i n gc o r p u s t h er o l eb a s eo fa d v e r b w i l t e db a s e do nb n fa n d c o r p u sw a sp a r t i c i p l e d t a g g i n gc o r p u st h a ta c c o r d i n gt ot h er u l eo fs u c c e s sm a t c h e d ( 3 ) ar u l el e a r n i n gm e t h o db a s e d0 1 1e r r o r - d r i v i n g l e a m i n gc o r p u so ft a g g e da n d i m p r o v e dt h er u l eb a s eo fa d v e r ba n di m p r o v e dp r e c i s i o no ft a g g i n g a tl a s t ,t h i sp a p e rc o n c l u d e st h ep r e v i o u sr e l e v a n tr e s e a r c ha n da d v a n c e st h e f a r t h e rr e s e a r c hp l a ni nt h ef u t u r e k e y w o r d sk n o w l e d g e - b a s eo fa d v e r bw o r d ,a u t o m a t i cr e c o g n i t i o na n dt a g g i n g , r u l eb a s eo f a d v e r b ,e r r o r - d r i v i n g h 郑重声明 本人所呈交的学位论文是在导师指导下,独立进行研究所取得的成 果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体 已经发表过或撰写过的科研成果。对本文的研究做出重要贡献的个人和 集体,均己在文中以明确的方式标明。本声明的法律责任由本人承担。 学位论文作者( 签名) :和i 彬 、l ,y 伊1 7 r 年厂月印日 学位论文使用授权声明 本人在导师指导下完成的论文及相关的职务作品,知识产权归属郑 州大学。根据郑州大学有关保留、使用学位论文的规定,同意学校保留 或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅;本人授权郑州大学可以将本学位论文的全部或部分编入有关数 据库进行检索,可以采用影印、缩印或者其他复制手段保存论文和汇编 本学位论文。本人离校后发表、使用学位论文或与该学位论文直接相关 的学术论文或成果时,第一署名单位仍然为郑州大学。保密论文在解密 后应遵守此规定。 学位论文作者:劂刍乙 删7 年罗月冲日 基于规则的现代汉语副词用法自动识别研究 第一章绪论 1 1 虚词的概貌 词是语言中能独立运用的最小的音义结合体。在汉语中的词类问题一直是汉 语语法学界长期争论但未能较好解决的问题,很多学者主张汉语的词可以分类而 且需要分类,并且主张首先分为实词和虚词两大类。但对于哪些是实词,哪些是 虚词意见不尽相同,对汉语虚实划分的标准意见不一。从功能上看,实词能够充 任主语、宾语或谓语,虚词不能充任这些成分n 1 。一般都把连词、介词、语气词、 助词当作虚词,把名词、动词、形容词、数词、量词、代词当作实词,副词的归 属则意见不一,归纳起来有三种意见:一是虚词;二是实词;三是半虚半实词。 本文致力于面向机器的副词机器自动识别标注的研究,该研究工作是俞士汶“三 位一体”广义虚词知识库建设口1 的重要内容之一,重点在于利用已经建立好的副 词知识库对语料进行副词用法的计算机自动识别标注工作。 副词是虚词中的一种,首先我们对虚词要有一个总的了解,要建立汉语虚词 知识库首先得对汉语虚词有一个较为清醒的认识。虚词是针对实词而言的,虚词 虽然数量不多,但意义和用法较为复杂,而且是表达语法意义的主要手段。从数 量上看,与实词相比较,虚词属于封闭性词类,每一类虚词的数量是有限的。据 一般统计,汉语的虚词数量大约在9 0 0 个左右,而常用虚词的数量只约占5 0 。 汉语水平词汇等级大纲中所收虚词大约有5 0 0 个,其中,“就”分别是副 词、介词、连词,“和”分别是连词和介词,除去这种交叉的情况,那就不足 5 0 0 个,如果再除去丁级虚词,剩下的就只有4 0 0 个左右了。可见,常用得虚词 并不多,但我们说的每句话却离不开虚词,说明虚词得使用频率很高。根据朱学 锋、张化瑞、段慧明、俞士汶( 2 0 0 4 ) 的统计,在1 9 9 8 年人民r 报语料中, 使用频率前5 0 个词中虚词就有2 1 个,其出现总数和分布均匀度如表卜2 。从 这个表可以看出,虚词的使用频率很高,如助词“的”高达7 3 6 8 1 2 次,而且分 布均匀度也高。侯学超编现代汉语虚词词典总结了“的”的5 大类3 2 种用 法,可谓全面系统,但是要提炼其中的规则还有一定的难度。正是因为使用的频 率高,各种虚词在多年的使用中产生了多种不同的用法,使得虚词通过其它非屈 基于规则的现代汉语副词用法自动识别研究 折形式来表现,有的虽然用屈折形式,但这种屈折形式并不是的用法特别复杂, 如副词“就现代汉语八百词总结出了七个大项,二十一个小项,总结得细 致全面,可是不同的词典却有不同的分类和解释,带有相当大的主观性和随意性, 很难直接应用于自然语言处理的机器识别口1 。 1 2 副词的作用 副词常限制、修饰动词、形容词性词语,表示程度、范围、时间等意义。表 示程度的副词:很、非常、极、十分、最、顶、太、更、挺、极其、格外、分外、 更加、越、越发、有点儿、稍、稍微、略微、几乎、过于、尤其;表示范围的副 词:都、全、总、总共、共、统统、仅仅、只、光、净、一概、一律、一齐、单、 单单;表示时间频率的副词:已经、曾经、早已、刚刚、正、正在、就、就要、 将、将要、曾、刚、才、在、马上、立刻、渐渐、早晚、从来、终于、一向、 向来、从来、总是、始终、往往、永、赶紧、仍然、还是、屡次、依然、重新、 还、再、再三、偶尔、顿时、终于、常、常常、时常、时时:表示处所的副词: 到处、处处、随处、四处;表示肯定、否定的副词:不、没、没有、不用( 甭) 、 必、必须、必定、准、的确、未、别、莫、勿、是否、不必、不曾;表示情态、 方式的副词:忽然、猛然、公然、特意、亲自、大肆、肆意、悄悄、连忙、赶紧、 暗暗表示语气的副词:难道、决、岂、反j 下、也许、大约、大概、果然、居然、 竟然、究竟、幸而、幸亏、偏偏、明明、恰恰、未免、只好、不妨、索性、简直、 就、可、难怪、反倒、何尝、何必; 同一小类的副词,语义和用法不一定都相同,有的差别还相当大。所以,同 类副词在用法上的差别值得注意。 副词都能作状语。程度副词“很、极 还可以作补语。作状语时,单音双音 副词都可在谓语中心之i i 主语之后,双音副词里有一些还可以放到主语之前,例 如:“也许她已经走到半路上。难道这种产品还会受欢迎吗? ,“已经 、 “还”修饰句中谓语,“也许、“难道 是句首状语,修饰全句。两种表述语 用场合不同。 值得注意的是,在句子里,有一些副词既可以用来修饰谓语,也可以用来修 基于规则的现代汉语副词用法自动识别研究 饰名词性成分。用来修饰名词主语的副词不多,有“就、仅、仅仅、只、光、单、 单单、几乎等等( 表示限制人或事物的范围) 。例如:“只这几个牌子过硬, 你看要哪个? ( 表示限制品牌的范围) ;“今天就我倒霉( 表示限制人的范 围) ;“光轿车就有十几辆 ( 表示限制轿车的范围) ;“仅这一点理由就充分 了( 表示限制理由的范围,只一点就可以了) 。“才、就、好、仅、大概、已 经、不过、将近、恰好等词可以修饰数量短语,这些带有数量义的结构可以做 多种句法成分,例如:“做了恰好三十天;一家伙来了好几十个;近4 0 人困在 井下;用了才八个小时;结婚已经六年了;没找到工作的就四个人 。这种副词 用来表明说话人对数量的一种看法,这种句子所叙述的事情都是已经成为事实 的。 1 3 “三位一体 的副词知识库 语言知识库( 如机器词典、句法规则库等) 是自然语言处理系统的重要组成 部分,其规模与质量是自然语言处理系统成败的关键。汉语属于分析性语言,由 于缺乏严格意义上的形态变化,自动分析相对困难,尤其需要重视语言知识库的 建设。目前中文信息处理领域的知识库,主要是实词的语法词典、实词的语义词 典、句法规则库和各种语料库,遗憾的是,国内还没有建立系统的汉语副词知识 库。现代汉语语法信息词典( 以下简称信息词典) 是汉语信息处理学界有较大 影响的一部囊括汉语词汇句法知识的电子词典,但它提供的虚词的句法知识同实 词相比,特别是同动词相比,要贫乏得多,基本上也没有涉及语义。国内外面向 人的副词研究也不少,但面向机器自动处理的副词研究也不多。由于汉语的副词 往往有多个义项,每个义项又有多种用法,副词在自然语言的理解与生成中的重 要性不言而喻。然而,副词知识库的建设是目前中文信息处理领域里的薄弱环节, 要想把中文信息处理推向一个新的高度,副词知识库的建设是一个无法回避的基 础性工程。目前,关于副词知识库总体框架的构思可参照在北大刘云博士的出站 报告中已经探讨完成1 。 基于规则的现代汉语副词用法自动识别研究 图i - i 现代汉语虚词知识库的三个组成部分 副词知识库也可以通过三个互相关联的部分组成:副词机器词典、副词语料 库和副词规则库。首先,按照副词的“用法 填写副词机器词典;再在副词词典 的基础上标注语料库,同时利用语料库也可以检验副词词典的填写:在副词词典 和标注语料库的基础上提炼出虚词规则库。在这个过程中,人的语言学知识处于 核心地位,突出了人在知识库建设中的重要性,同时每个部分又都是为机器服务 的。 ( 1 ) 副词机器词典 副词机器词典的设计要体现四结合: 语法形式与语法意义的结合。语法形式是语法意义的表现手段,汉语中的 副词是重要的语法手段;语法意义是由一定的语法形式表示的结构意义和功能意 义,主要有结构意义、关系意义( 介词、连词) 、时体意义和语气意义( i - i f 态意 义) 等。 现有词典同已有词典的结合。已有的现代汉语语法信息词典集大家的 智慧经多年始成,是一笔宝贵的并且是可以信赖的财富,因此在设计副词机器 词典时要充分考虑利用现代汉语语法信息词典。 词典与语料库的结合。首先,词典的编撰离不开语料库,也就是说,语料 4 基于规则的现代汉语副词用法自动识别研究 库中出现的用法才收入词典,没出现的就不收入,以体现已有的人民日报标注语 料库的价值。其次,语料库的标注离不开词典,对语料库中副词的进一步标注, 是建立在词典的基础上的。 句法与篇章的结合。虽然现在的自然语言处理还较少涉及篇章,但并不意 味着篇章不重要,相反,篇章才是自然语言理解的极至。篇章的衔接既可以通过 词汇形式,也可以通过省略、重现、回指等手段实现,虚词是其中极为重要的一 个方面。 同以前的现代汉语语法信息词典不同的是,现代汉语语法信息词典 的各种属性的描述基本上是在“词语 这一层级的,副词机器词典对各种属性的 描述拟建立在“用法 这一层级。即把同一副词的不同义项的不同用法的各种 属性在副词机器词典中分别描述。 对于词典来说,字段的设立尤为重要。既要考虑到与已有的词典的配合,又 要考虑到利于语料库建设,考虑设立的字段如下:词语、全拼音、同形、前接、 后接、组配、类别、相关虚词、语体色彩、隐现、英译、备注。当然,随着工程 的进展,如果认为哪些字段有必要,可以随时加进来;如果认为哪些字段没有必 要,可以随时减掉。重要的是,在试验阶段就能把字段定下来,以利于工程的稳 定性和高效性。这些字段是各类虚词都有的字段,每类副词除了这些共有的字段 之外,还有一些根据各自表达特点的独有字段。 ( 2 ) 副词语料库 有了这个机读副词词典后就可以在此基础上进行语料库的标注,与已有的大 规模标注语料库不同的是,已有的大规模标注语料库是建立在“词性”的基础上 的,如“都”是一个副词,那么语料库中就标注为“d ( 副词) ”,仅此而已;“就 可以是副词也可以是介词,语料库中就标注为“d ( 副词) 或“p ( 介词) ,等 等。这种基于词性的标注语料库在中文信息处理中已经起到并且仍将继续起到重 要的作用,但是仅仅只有基于词性区分的语料库很显然是不够的,还需要有更细 致、更深入的描述和刻划。本课题的基于副词数据库的语料库建设拟采取基于用 法的标注方式,如同样是副词“都”,在虚词数据库中却是三个不同的i d ,一个 是表示“总括全部 的“都1 ”,一个是表示“甚至 的“都2 ,一个是表示“已 基于规则的现代汉语副词用法自动识别研究 经 的“都3 ,这样就把副词表示的语法意义反映到数据库中了,在标注语料 库的时候按照不同的i d 分别予以标注。 在建设副词语料库的的同时,可以对语法信息词典的相关字段进行检验, 由于有较大规模的真实文本语料库作后盾,对以往的语言研究也是一个检验,如 副词“都 ,以往的虚词词典指出在总括前面的对象和范围时,前面或者是列举、 遍举、对举,总之要有所指的对象,但是实际语料中有大量的没有所指对象的例 子,如“都d 说v 压力n 是v 客观n 存在v 的u ,w 其实d 主观a 的 u 、w 人为d 的u 、w 自找v 的u 压力n 也u 不少m w 。而且标 注语料库还为启动下一轮的篇章标记和篇章分析奠定坚实的基础。 ( 3 ) 副词规则库 上面的副词词典是静态知识,即“属性:值”型知识,这里的副词规则库则 是动态知识,即“条件一动作”型知识。 副词规则使用b n f 形式进行描述,内容包括副词、副词i d 、非终结符、终 结符。可以根据非终结符来判断匹配条件在句中的方位,终结符用来定义句中需 要符合的条件。例如副词“倍加”的一个规则“ - r r _ 表示在句中副词“倍加”后面必须紧邻一个双音节的形容词,如例句“倍 j l l d 温柔a w ”正好符合规则条件。 1 4 本文工作 本文首先介绍了虚词的概貌、副词的作用及虚词知识库方面,俞士汶等提出 的“三位一体”构建现代汉语广义虚词知识库的思想。本文致力于面向机器的虚 词用法研究,该研究工作是俞士汶“三位一体 广义虚词知识库建设的重要内容 之一。 本文的主要工作包括: ( 1 ) 首先根据“三位一体 的虚词知识库的思想建立副词知识库,对副词 知识库进行相关描述,分析已经建立的副词用法词典、副词用法规则和语料。 6 基于规则的现代汉语副词用法自动识别研究 ( 2 ) 针对已经构建好的副词用法词典、副词用法规则进行实验,实验用的 语料是从副词用法词典中抽取的例句,用北京大学计算语言所开发的分词系统对 例句进行分词,在此基础上进行标注,并进行不段的改进,最终将系统运用到人 民日报语料的标注上。 ( 3 ) 利用系统对人民日报语料进行标注,对标注结果进行人工校对,再利 用校对好的语料使用错误驱动的方法对一些标注错误的词进行学习,找到标注准 确率最大的规则替换原规则。 1 5 论文组织 本文共分为四章,按照如下方式组织: 第一章,绪论。介绍了虚词的概貌、虚词的作用、虚词的相关研究以及虚词 知识库方面,俞士汶等提出的“三位一体”构建现代汉语广义虚词知识库的思想, 接着介绍了本文工作的主要内容,最后是论文的组织结构。 第二章,介绍根据虚词知识库的概念构建的副词用法知识库,分析副词用法 规则、副词用法词典。 第三章,介绍利用副词规则对语料进行标注的方法。 第四章,介绍利用错误驱动的方法对人工校对过的标注语料进行学习,找到 一些标注准确率最大的规则,从而完善副词用法规则。 第五章,总结与展望。本章总结了全文,并提出了下一步的工作。 7 基于规则的现代汉语副词用法自动识别研究 第二章现代汉语副词用法形式化研究 俞士汶、刘云r 3 3 1 3 等将广义虚词界定为副词、连词、介词、语气词、助词、 方位词等。其中副词是虚词中词汇量最大,也是争议最多、分歧最大的一类词, “大杂烩几乎成了汉语副词的代称m 。本文研究将避开副词范围及分类等问题 的纠缠,而是从副词的实际用法入手,在已有的面向人用现代汉语副词研究成果 的基础上,结合副词在人民日报等真实语料中的出现情况,分析、总结不同副词 用法中具备可操作性的用法规律,构建服务于副词用法机器识别与自动标注的现 代汉语副词用法信息词典及现代汉语副词用法规则库,并对副词用法信息词典中 的部分例句进行了自动标注,基本形成了“三位一体 虚词知识库的雏形。 2 1 现代汉语副词用法信息词典 本文在刘云关于现代汉语副词研究的基础上,依据吴云芳乜1 关于实词在信 息处理中语义相区分的原则和方法,结合对1 9 9 8 年1 月人民日报语料中副词用 法的考察,主要参考了吕叔湘现代汉语八百词n 训、张斌现代汉语虚词词典 1 1 1 、侯学超现代汉语虚词词典n 羽、俞士汶、朱学峰等现代汉语语法信息词 典详解( 第二版) n 引、北京大学中文系1 9 5 5 、1 9 5 7 语言班现代汉语虚词例释、 现代汉语词典( 第5 版) 及刘云博士后出站报告口1 等资料,对现代汉语的副 词用法及其义项关系进行了比较全面的分析和总结,构建初步的现代汉语副词用 法信息词典,体现了语法形式与语法意义的结合,现有词典同已有词典的结合, 词典与语料库的结合,句法与篇章的结合。目前现代汉语副词用法信息词典己完 成对副词词条的扩充、副词用法描述属性的扩充以及有关属性的填写。 2 1 1 副词用法信息词典属性 在刘云副词基本词表的基础上,根据对副词用法的考察,我们将有关属性进 行了必要的调整和扩充,同时,参考前人已有的研究成果,根据每个副词的不同 用法或义项对副词词条进行记录的分割以及属性的填写。词典的属性填写样例见 图2 - 1 。 基于规则的现代汉语副词用法自动识别研究 目前,副词用法信息词典根据不同的属性功能设置了以下几组字段“1 标志性属性字段:用法编码、词语、全拼、释义、例句等 句法修饰功能描述属性字段:修饰动词、修饰形容词、修饰名词、修饰 数量词、修饰小句,带“地”等; 语法意义描述属性字段:副词小类、文体等; 用法描述属性字段:用法、重叠、字段位移、单用、前合用、后合用、 前连用、后连用、旬首、旬末等。 篇章描述属性:停顿、同义词、篇章功能等。 一j j ”l lt【o叫 # r“ 月# 口日* 口i * * # * * g # 镕 m # 自* * 目$ 镕”自* tg 日自日# 月t m 目”4 e 日口2 日月,1 14 g * ( z ) p 月* 0 口e* 口;或丸fn * 7 一,月* 口 i g * # , # ; $ e i i * 关联 时间 频 率 范围 程度 否定 协同 重复 描摹性曲1 。 ( 1 0 ) 文体属性:可填写的属性有文言、口语、书面语等。如果是文言词、 口语词、书面语词的话,相应字段均填“是 ,否则均不填嘲。 ( 1 1 ) 重叠属性:有些副词可以重叠。重叠属性可以为a a 、a b h b 、h a b b 、a 不a 等形式。如果有重叠形式则在字段填出重叠的形式,如果没有则不填1 。 例如:“刚”可以重叠为“刚刚”,则“刚”的重叠属性字段填写为从形 式 ( 1 2 ) 字段位移属性:是指该副词用法在句子中的位置是否可变。有些副词 既可直接出现在句中动词或形容词前,也可出现在句首主语前。这种位移实际上 也是副词的一种有联系的分布。 例如:“毕竟( a 这a 是中国队汤杯的第一场比赛) ”、 “反正( 八我a 头次喝早茶尸、 。兴许( a ) l 子的工作a 还有点希望) ”,等等。 能位移的副词则填上“可”,不能位移的则不填口1 。 ( 1 3 ) 单用属性:是指该副词用法是否可以单独成句。有些副词可以单说( 即 单独成句) 和单独作谓语,一般是在特定的语境( 某种形式的对话) 才能实现。 前者例如:“你知道吗? 不”;后者例如:“他改正了吗? 他照旧” 陆俭明( 1 9 8 2 ,1 9 8 3 ) 曾对副词单用情况进行了详细的考察,发现在4 8 6 个常用的副词中能单用的副词有6 5 个,占1 3 4 ;李泉( 2 0 0 2 ) 考察了6 6 6 个 常用副词,发现能单用的共8 7 个,占总数的1 3 0 6 。能单用的副词则填上“可, 不能单用的则不填嘲。 ( 1 4 ) 前合用属性:为该副词用法中与其同时出现在一个句子中左边离合共 现的词语或词性,在该字段把前合用的词填上,没有前合用的就不填阳1 ; 1 2 基于规则的现代汉语副词用法自动识别研究 ( 1 5 ) 前连用属性:为该副词用法中与其同时出现在一个句子中左边紧邻位 置上共现的词语或词性,在该字段把前连用的词填上,没有前连用的就不填陋1 ; ( 1 6 ) 后合用属性:为该副词用法中与其同时出现在一个句子中右边离合共 现的词语或词性,在该字段把后合用的词填上,没有后合用的就不填嘲; ( 1 7 ) 后连用属性:为该副词用法中与其同时出现在一个句子中右边紧邻位 置上共现的词语或词性,在该字段把后连用的词填上,没有后连用的就不填咖; ( 1 8 ) 句首属性:为该副词用法中旬首的词语或词性刚; ( 1 9 ) 句末属性:为该副词用法中旬末的词语或词性,包括句末标点,简单 情况下的句式可借助句末标点进行初步判断阳1 。 ( 2 0 ) 停顿属性:有些副词后可以有短暂停顿,在书面上的表现形式就是可 以用逗号标示。 例如:“其实,给孩子点空闲和时问,让他们在操场上、小区里游戏和玩耍, 孩子自然会结交新伙伴、新朋友”中的“其实” 有的副词后不能有短暂停顿。有停顿的在该字段标上“可”,不能停顿的该 字段不填。 ( 2 1 ) 篇章功能属性:从篇章的构成看,一个连贯的篇章必须具有一定数量 的衔接成分,旬与段的排列应该符合逻辑,句与句在语义上必须具有内在的联系。 在汉语的篇章中,充当衔接成分的除了连词、代词、插入语等以外,还包括一部 分副词。副词的篇章衔接功能,据张谊生( 2 0 0 0 ) 考察,大致有六种情况:1 表顺序,2 表追加,3 表推论,4 表解说,5 表转折,6 表条件。这种字段对复 句和句群的分析比较有用。如果有篇章功能,则填上相应的篇章功能,如果没有 则不填。 ( 2 2 ) 词族属性:所谓词族副词是指结构上有相同语素,而语义上同义的一 组组副词。 例如:“暗一暗暗一暗中一暗里一暗地一暗自”、 “立刻一登时一霎时力,等等 有同词族的副词则填上,没有词族的副词则不填b 3 。 1 3 基于规则的现代汉语副词用法自动识别研究 2 1 2 副词规则描述规范 副词用法识别规则的一般描述形式则为: - - , - f m f 一 l m 一 f l 一 i r 一 i n 一 i e 一 i l r n e | ln v | inv | in v 1 in v | lnv i in v 其中,规则元语言“一”表示“定义为”,“ 表示“可选内容”,即可有 可无,“i 表示“或运算”,规则右部顺序出现的字符表示其所代表的特征属性 为有序合取关系;规则中的符号 为所识别的用法编码,“ ”表示该属性 位置上出现的词语,“1 3 、“v 、“a 等表示该属性位置上出现的词性( 采用 北京大学计算语言学研究所中文分词语与词性标注规范) i s 。 2 1 3 副词规则描述约定 ( 1 ) 对副词用法进行规则描述时,需要制定一些通用的准则。对于一条副 词用法规则,并不一定用六个特征属性字符描述,只挑选能够区别这个用法的充 分必要条件。各个字符之间默认为合取关系阳3 。 ( 2 ) 在描述前合用、前连用、后连用和后合用时,对某些词语的音节数是 有所限制的。用p o s s ( p o s 表示词性,下同) 表示单音节词,p o s d 表示双音 节词,p o s _ q 表示四字词,p o s m 表示多于两个音节的多音节词睛1 。 例如:“好不”,用法编码 ; 在副词用法信息词典中的用法描述为“限于修饰某些双音节形容词,多表示 肯定”; 其规则为:面 一r r 一 1 4 一 a a a a a a 基于规则的现代汉语副词用法自动识别研究 ( 3 ) r 和n 可分情况定义。对于有多个前合用或后合用的情况,因为它们 之间有一定的顺序,在描述时分为以下几种情况: 前合用或后合用是紧邻的,句中要求同时出现陋1 。 例如:。可”,用法编码 ; 在副词用法信息词典中的用法描述为“用于一般陈述句有时稍有出乎 意料的意思可+ 不+ 形 骨; 例句如:。研究所所长何启伟家拜年的客人可真不少 l 他跑得可不快 l 这问题可不简单,得好好研究一下 i 这些种籽可不寻常,是从千里 之外带来的 骨; 其规则为:面 。n n 一不a 前合用或后合用是紧邻的,其中一个可出现可不出现呻1 。 例如:“还是”,用法编码 ; 在副词用法信息词典中的用法描述为“还是+ ( 动词i 小句) 卜的】+ 好表 示经过比较,这样较为可取 ”; 例句如:“还是用前一种方案【的】好 i 我看还是你来办理一下【的】好 力; 其规则为:曰 一r n r v 1 1 1 ir n 一【的】好 前合用或后合用一定不相邻和前合用或后合用可能相邻也可能不相邻。 因为规则描述时使用了b n f 范式的标准元语言“i 、“ 、“( ) ,但是 语言用法多样,常用的元语言符号不能概括语言的实际使用情况,因此 本文另外定义了两个元语言符号:# 和术。# 代表必须间隔一个以土的字 符,:i :代表间隔零个或多个字符引。 例如:“连着”,用法编码 ; 用法描述为“修饰动词或动词短语,动词后边一般有数量短语”; 其规则为:曰 一n n v * m 。 后合用中的动词及数量短语可以是紧邻的,也可以是有距离的。 例句如:“连着发表两篇论文”, 基于规则的现代汉语副词用法自动识别研究 “连着找了他三次” 用符号“宰 概括了或相邻或不相邻这两种情况。 又如:。还”,用法编码 ; 释义为“表示抑的语气,把事情往小里、低里、轻里说靠; 用法描述为。还就”; 其规则为:日 一n n - ,群就 前合用或后合用的范围默认为该副词所在的小句,上述用法是跨小句合 用,因此在规则中用“,予以说明。“就与“, 之间必须间隔一个以上 的字符,所以用“# 表示后合用一定不相邻。 例句如:“还不过五点钟,他就已经起床了 l 我还上小学的时候,我 姐姐就已经上大学了 ” 前合用或后合用中有多选一成分的情况,用小括号进行描述陋1 。 例如:“极”,用法编码 ; 用法描述为“用在带“得、不”的动结式、动趋式之前。“极”的应用 范围比“很”小。 ”; 例句如:“极靠得住 i 极靠不住 i 极过意不去 ”; 其规则为:a 一n n v ( 得i 不) 。 ( 4 ) 一般的规则形式不能很好地描述有些副词的用法特征,本文另外定义 了一些特殊的识别规则。在某词前后出现对称形式时,用“a a ”、 b b ”等形 式来描述。其中,a 表示相同的词语,b 表示不同词但同词性陋1 。 例如:副词“究竟”第二个义项的第二个用法; 用法描述为。用在。a 是a 。句式中a 为名词、动词或形容词。”; 例句如:“军人究竟是军人,服从命令是最重要的”、“希望究竟是希望, 希望代替不了现实靠, 其规则为:日 _ a 、是a a n i v i a 又如:“连”的第三个义项的用法; 1 6 基于规则的现代汉语副词用法自动识别研究 用法描述为_ a b ,表示同一性质的动作行为、事件在短时问内接连发生 或出现a 、b 是不同词的单音节动词”; 例句如:。连选连任”、“连战连胜”; 其规则为:m - - * b b b - + 值得注意的是,用法描述中的“a 、“b 与规则中的“a 、“b 所表示的概 念不同。 ( 5 ) 用法中描述为“出现在否定句中 ,一般情况下否定句中存在否定副词 ( d f ) ,因此可判断否定副词的位置,写出相应规则随1 。 例如:副词“马上”只有一个义项:“表示即将发生或紧接着某件事情发生靠; 共四种用法,其中第三个用法为“用在否定句中”; 例句如:“马上还不会走 i 马上还办不了 静; 其用法规则描述为:曰 一n n 一不i 没i 没有j 无j 非id f ( 6 ) 用法中描述某个词不出现在某种情况下,规则的描述采用否定式符号 “,【8 】 0 例如:副词“当真”的第一个义项为:“用于陈述句,表示确认事实 ”; 其第一种用法描述为:“用于肯定句中,表示“果然”意思。”,印“不出现 在否定句中”; 例句为:“他当真能讲日语和英语 l 当真他们两人长得一模一样 静; 其规则可描述为:q 一姗 m 一一1 d f n 一一d f ( 7 ) 有些副词有多个义项,每个义项中又有多个用法,那么就要用一组规 则对该副词进行形式化描述,要选择条件最多且不会覆盖其他规则的作为优先级 较高的对这组规则进行排序。这一组规则应该满足完备性的要求,即:使用这组 规则可以将该副词所有用法全部描述出来阳1 。 例如:“好在”有一个义项两个用法: 第一个用法的用法编码 ; 在副词用法信息词典中的用法描述为“多用在主语前好在+ ( 动词j 小句) , 承接上下文时如果语义已经明确,表示后果的小句也可以不出现。 ”; 1 7 基于规则的现代汉语副词用法自动识别研究 例句如:“好在相互了解,他不会生我的气的 i 对方提了不少意见,好在 我早有恩想准备 i 好在他懂英语,我们可以直接交谈 i 我们要去的地方很 远,好在借到一辆车 i 忽然问下起大雨来,好在路边有个可以躲雨的草棚 一, 其规则为:司 - - - n n v 第二个用法编码 ; 在副词用法信息词典中的用法描述为“多用在主语前好在+ ( 否则j 要不 i 不然) 一; 例句如:“好在有他帮忙,否则我更吃不消了 i 好在我的身体棒,要不 非感冒不可 i 好在路程比较近,不然拿这么重的东西可够呛 ”; 其规则为:面 一n n 一,( 否则i 要不i 不然) 根据完备性的要求,编码为 的规则会覆盖 的部 分规则,因此排序时 应在 的后面。 基于规则的现代汉语副词用法自动识别研究 第三章基于规则的副词用法自动识别 3 1 基于规则的副词用法自动识别系统结构 首先,给出一个框架图,这是副词计算机自动识别标注的大体流程: 图3 - 1 副词用法自动识别系统模块图 主模块:主要用于接收和传输数据,它是各个子模块的控制中心。 输入规则文件、语料文件:首先将已经写好的副词规则文件和待标注的语料文件 指定出来交给主模块。 语料规则分析模块:此模块用来读取规则、读取例句,将规则和例句以一种数据 结构形式存储好交给标注模块。 标注模块:在例句中标注出副词用法的i d ,将最终的标注结果交给输出模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论