




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成 果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得内墓直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 经垒重型 指导教师签名: e l期:趔:查:墨e l期: 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将 学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允 许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。 为保护学院和导师的知识产权,作者在学期间取得的研究成果属于内蒙古大学。作者今后 使用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学就读期间导师的同意;若用 于发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名:玺壁萱盈 指导教师签名: e t期:丝塑:i 兰日 期: 害窖 : 黑 哭 : 黑彳主趸芰乏量圣更萎乏垂乏萋久壬乏i曼乏量久乏妻 丰?之晏、,po v:久炙矛量享至4萎重 量善壬i萎、厂p0):乏乏田;喜了妻之芋薯乏手丑。乏i事、妻姜三i乏 寻乏喜主乏茎?妻乏垂呈6i至久差:j己雪、r互季、晏v1o v:乏垂萋妥落差u手差萋至。乏誊至菱之蔓u量了未菱乏要u量垂iu委主 寸兜主之3于望乏善于田茁主一千茔ooa乏:i牙之善王鼍可、晏、厂一0 v:久芽习重男 雪习罩著乏责歪暑量善宇冬乏6l王主晏才习丑不 久耋堂 量要至毋委要u毒喜量久主垂妻蝴i事量?萎之手妻乏更乏委菱乏,妻耄寸a争殳町乏囝拿马琴彳习m喜罢手、量菱毋于之夏亍量量乏暑菱菱摹刁邑垂垂2乏至戈垂冬量至了乏毋量疋量墓彳岂9委是复i于;乏 妻乏看霉 牙乏善之妻i喜圣夏乏i斗之 至;量乏善乏壬量晏矛鼋乏姜u妻 乏3久至毒霉萋妻垂乏之量穿乏乏菱之皇乏i芝季: 荃嗥萎p耄(1牙善差了妻?差全虿丑乏乏导强霉:牙之差要量薯芽。乏姜:久了习龟玉 汉蒙电子词典开发平台的设计与实现 摘要 我国是一个多民族国家,由于历史因素和语言环境,长期以来少数民族通过汉语一民族 语言的翻译来获取知识已成为社会语言生活的重要内容。随着社会信息量的增加,新词术语 的不断涌现,传统的人工翻译已不能满足广大人民群众日益增加的需求,各行各业普遍希望 研制出一个智能化的机器翻译系统或能够在计算机上进行实时翻译的汉蒙双语电子词典。 内蒙古大学蒙古学学院于2 0 0 4 年成功研制达日罕汉蒙电子词典v 1 o ,该词典一经 面世就引起了人们的广泛关注,取得了良好的社会效益和一定的经济效益。但随着社会信息 更新速度的加快以及词典使用范围的逐步扩大,达日罕汉蒙电子词典v 1 0 的一些不足 和漏洞逐渐显现出来,亟待我们进行数据扩充和技术升级。 为了使汉蒙电子词典的扩充和升级工作提升到一定的理论和技术高度,本文分析现有 达日罕汉蒙电子词典v 1 0 的语言层面和技术层面问题的基础上,提出了完善达日罕 汉蒙电子词典的新方案。 通过本项研究,我们开发了一个汉蒙电子词典管理维护工具,并改进了原有的用户界面 和屏幕取词。论文详细介绍了该平台的设计理念与技术实现、运用管理维护工具编纂汉蒙 高频词词典的过程,最后通过总结与展望,提出了对今后工作的思考和展望。 关键词:汉语,蒙古语,电子词典,开发平台,屏幕取词 t h ed e s i g n a n di m 呼l e m e n t a t i o no f cm n e s e m o n g o l i a ne l e c t r o n i cd i c t i o n a r y p l a t f o r m c h i n ai sam u l t i n a t i o n a lc o u n t r y d u et ot h eh i s t o r i c a lf a c t o r sa n dl a n g u a g ee n v i r o n m e n t ,i ti s i m p o r t a n tf o rm i n o r i t yp e o p l et og e tk n o w l e d g ef r o mt h et r a n s l a t i o no fc h i n e s ef o ral o n gt i m e w i t ht h ei n c r e a s eo fs o c i a li n f o r m a t i o n ,a n dc r e a t i o no fn e w t e r m i n o l o g y , p e o p l ew o u l dn o ts a t i s f y w i mt h et r a d i t i o n a lm a n u a lt r a n s l a t i o na n ym o r e p e o p l eo fv a r i o u so c c u p a t i o n sh o p et od e v e l o p m a c h i n et r a n s l a t i o no rac h i n e s e m o n g o l i a ne l e c t r o n i cd i c t i o n a r y d a r h a nc h i n e s e - m o n g o l i a ne l e c t r o n i cd i c t i o n a r yv e r s i o n l 0w a ss u c c e s s f u l l yi n v e n t e db y s c h o o lo fm o n g o l i a ns t u d i e s ,i n n e rm o n g o l i au n i v e r s i t yi n2 0 0 4 t h i se l e c t r o n i cd i c t i o n a r yd r e w p e o p l e sa t t e n t i o na n dg o tb o t hs o c i a la n de c o n o m i c a li n t e r e s t s h o w e v e r , w i t ht h ei n c r e a s i n go f t h e s o c i a li n f o r m a t i o na n de x p a n d i n go ft h er a n g eo ft h eu s i n go ft h ed i c t i o n a r y , s o m es h o r t a g e sa n d d i s a d v a n t a g e so ft h i sk i n do fd i c t i o n a r yh a v ee m e r g e d t h e r e f o r e , w eh a v et oe n l a r g et h ed a t aa n d u p g r a d et h et e c h n i q u eo f t h ed i c t i o n a r y i no r d e rt oe n l a r g et h ed a t aa n di m p r o v et h et e c h n i q u eo ft h ec h i n e s e m o n g o l i a nd i c t i o n a r y , t h i sp a p e ra n a l y z e st h ep r o b l e m se x i s t i n gi nt h el a n g u a g el e v e la n dt e c h n i c a ll e v e lo fd a r h a n c h i n e s e - m o n g o l i a ne l e c t r o n i cd i c t i o n a r yv e r s i o n l nt h r o u g ht h es t u d y , w eh a v ed e v e l o p e da t o o lf o rm a n a g e m e n ta n ds a f e g u a r do ft h ec h i n e s e - m o n g o l i a ne l e c t r o n i cd i c t i o n a r y , a n dh a v e i m p r o v e dt h eo r i g i n a lu s e ri n t e r f a c ea n dg r a s ps c r e e n i nt h i sp a p e r , t h ea u t h o ri n t r o d u c e st h ed e s i g np r i n c i p l e sa n dt e c h n i c a li m p l e m e n t a t i o no ft h i s p l a t f o r ma n dt h ep r o c e s so fc o m p i l a t i o no fc h i n e s e - m o n g o l i a nh i g hf r e q u e n c yw o r di nd e t a i l s f i n a l l y , t h ea u t h o rp u t sf o r w a r dt h el a t e rs t u d yp l a n k e yw o r d s :c h i n e s c ,m o n g o l i a n ,e l e c t r o n i cd i c t i o n a r y , p l a t f o r m ,g r a s ps c r e e n 1 1 研究背景及意义 第1 章引言 所谓电子词典是指存储在计算机介质上的单词信息,通过一定的方式,计算机可以自动 去查找所需要的单词信息。从载体形式的角度来看,目前已开发出来的电子词典主要有以下 几种:微型芯片电子词典( 掌上电子词典) ,机器词典,光盘电子词典,网络电子词典( 在线 词典) 。目前市场上的掌上电子词典林林总总,种类繁多,较受欢迎的品牌有“文曲星一、“好 易通 、“快译通”等:机器词典是机器翻译系统的核心部件,我国目前已开发的,具有深层 语义和句法处理功能的词典有:北京大学计算语言学研究所开发的现代汉语语法信息词典、 北京大学计算语言学研究所与中国科学院计算技术研究所联合开发的现代汉语语义词典, 以及内蒙古大学蒙古学学院开发的蒙古语语法信息词典、内蒙古师范大学蒙古学学院开发 的蒙古语固定词组语法信息词典等:光盘电子词典按储存信息的方式可以分为只读光盘 ( c d r 伽) 和交互式光盘( c d - i n t e r a c t i v e ,简称c d - i ) 两种,最具代表性的就是2 0 卷本的 牛津英语词典;而网络电子词典则是依附在一个网站上,人们通过计算机网络随时以w e b 方式调用查阅的电子词典,例如内蒙古蒙科立公司开发的蒙古语术语数据库1 、内蒙古教 育出版社信息中心开发的b i l i g 汉蒙在线词典2 等。由于电子词典不仅能够提高翻译 速度、节省人力、减轻繁重的书写劳动,而且能够保证名词术语的统一,有利于语言文字的 规范,所以迅速得到了人们的认可,广泛应用。 目前在内蒙古自治区,汉文和蒙古文作为官方文字,在各行各业中广泛使用。随着政府 上网工程的实施和电子商务的崛起,对汉蒙翻译的需求量也急剧增加。但由于各方面信息的 大量增加,新词术语的不断涌现,传统的人工翻译已不能满足广大人民群众日益增加的获取 信息的需求。各级政府部门、企事业单位的翻译人员和广大群众普遍希望研制出一个智能化 的机器翻译系统或能够在计算机上进行实时翻译的双语电子词典。 同国外及国内电子词典发展水平相比,汉蒙电子词典研究起步较晚。内蒙古大学蒙古学 学院从1 9 9 8 年开始承担国家8 6 3 计划项目,进行机器翻译研究时开始编纂第一部面向机器翻 1 请参见h t t p :m , a n a b a p a , c o m d e f a u l t , a s p x 2 请参见h t t p :m n v , i m - e p b _ c o m o n l i n e d i c h e l p , h t m 译系统的双语电子词典。在这部词典的基础上又通过承担自治区科技攻关项目,历时四年开 发出了达日罕汉蒙电子词典v 1 o ( 项目名称汉蒙机器翻译系统一汉蒙双语在线词典 项目号2 0 0 3 0 4 0 3 ) 3 。这一成果不仅促进了汉蒙机器翻译系统的研究,而且为汉蒙翻译人员及 相关用户提供了方便快捷的电子助手,迎来了蒙古语词典电子化的新纪元。 达日罕汉蒙电子词典v 1 o 在很多方面都取得了明显的成就,具有很高的应用价值: 一方面,达日罕汉蒙电子词典v 1 0 在开发出来的第一时间就公开放在互联网上,为公众 通过相关网站无偿下载提供了方便,不仅促进蒙古族文化和蒙古语翻译事业的发展,而且促 使这一研究成果及时为社会大众所应用。另一方面,达日罕汉蒙电子词典v 1 o 在2 0 0 3 年 课题组承担的国家高技术研究发展计划( 8 6 3 ) 项目汉蒙机器翻译系统( 项目号2 0 0 3 a a l l 5 5 1 0 ) 和2 0 0 6 年与中国科学院合肥智能机械研究所共同开发的“蒙古文农业专家系统( 主要技术构 件为汉蒙机器翻译引擎) ”两项课题中发挥了重要作用。在上述两个项目中的移植和应用,达 日罕汉蒙电子词典v 1 o 也得到进一步充实,随之蒙古文机器翻译研究也向前迈出了一大步。 由于蒙古文机器翻译研究还刚刚起步,在短时间内研制出不同层次、不同领域的用户都 满意的全文翻译软件难度太大。但一部收词量较大,译文较为规范的在线词典至少在一个阶 段能够解决广大用户浏览网页、在线写作时遇到的困难。所以无论从用户群看,还是从开发 队伍现状看,最现实的做法还是解决目前急需的翻译软件,即汉蒙双语词典软件和辅助翻译 软件。而且我们正在研制的汉蒙机器翻译系统也需要一个容量较大、信息丰富的汉蒙电子词 典。所以,汉蒙电子词典的扩充和升级也是做好汉蒙机器翻译系统的基础。由于我们现有的 达日罕汉蒙电子词典v 1 0 本身存在着一些问题( 包括语言层面的问题和技术层面的问题) , 所以有必要进行语言层面的扩充、完善和技术层面的改进、调试,逐步实现商品化。 在以海量信息和网络资源为特征的当今社会,汉蒙电子词典可以为广大蒙古语文工作者 提供一个在线的、实时翻译技术支持,这对蒙古语名词术语的规范、提高用户的工作效率等 都将起到极为重要的作用。综上所述,对汉蒙电子词典一蒙古文信息处理领域中的重要课题 的研究,具有极其重要的理论价值、突出的社会意义、迫切的现实需求和广阔的应用前景。 1 2 本文所涉及的主要工作 达日罕汉蒙电子词典v 1 o 已面世四年,并且引起了人们的广泛关注,取得了很好的 3 本课题得到国家高技术研究发展计划( 8 6 3 ) 项目汉蒙机器翻译系统( 项目号2 0 0 3 a a l l 5 5 1 0 ) 和自治区科技攻关项目:汉 蒙机器翻译系统一汉蒙双语在线词典( 项目号2 0 0 3 0 4 0 3 ) 的资助。项目负责人为内蒙古大学那顺乌日图教授 2 社会效益和一定的经济效益。但随着使用范围的不断扩大,我们发现其存在一些不足和漏洞, 包括语言层面的问题和技术层面的问题,需要进一步改进和升级。本文选题的主要宗旨也正 在此。 论文所涉及的主要工作如下: ( 1 ) 语言层面的完善 电子词典要满足不同层次、不同领域的用户,必须提供词的常规信息。词的常规信息, 包括词的拼音、词类、义项、例句等。而且把一个词的各种不同概念都需要揭示出来,才能 符合电子词典的知识性要求。现有的达日罕汉蒙电子词典v 1 0 没有设置义项和例句属性 信息,直接影响了它的使用价值。我们所要做的工作是,为其补充义项、例句、例旬译文等 属性信息,以继续扩充词典规模。实现词典的扩充和改进,需要充分利用现代汉语语法信 息词典( 总库) :同时,也应积极采用双语语料库辅助编纂词典的新方案,利用“汉蒙句对 齐双语语料库 来提高词典翻译的质量。具体内容在本文第二章中介绍。 ( 2 ) 开发词典管理维护工具 升级和完善达日罕汉蒙电子词典v 1 0 并非采用人海战术,而是首先要投入力量开发 词典管理维护工具,并将它作为达日罕汉蒙电子词典新版本的有机组成部分,以此支持 现代汉语语法信息词典( 总库) 属性字段信息的抽取和“汉蒙句对齐双语语料库”中的汉 蒙词语对应检索。管理维护工具的设计与实现将在本文第三章中介绍。 ( 3 ) 汉蒙高频词词典的编纂 从国家语言文字工作委员会发布的中国语言生活绿皮书( 2 0 0 5 年中国语言生活状况报告 ( 下编) “报纸、广播电视、网络高频词语用字表”4 里选取前4 0 1 5 个高频汉语词汇,借助辅 助管理工具,编纂完成3 9 5 5 个词条、l ,2 8 1 5 条记录的汉蒙高频词词典,力图作为对 达 日罕汉蒙电子词典的升级和改进的范本。具体内容将在本文第四章中介绍。 ( 4 ) 用户界面的改进和调试 达日罕汉蒙电子词典y 1 0 已实现了查询功能、显示功能、屏幕取词功能及一个符合 蒙古文书写习惯的、友好的用户界面。但达日罕汉蒙电子词典v 1 0 的用户界面的功能尚 国家语言资源监测与研究中心编( 2 0 0 5 年中国语言生活状况报告 ( 下编) 商务印书馆出版,2 0 0 6 ,2 7 0 3 不全面,缺乏汉语词性、拼音、义项、例句等。 因此在这次的工作中要实现: 语法信息的补充,即显示词性、拼音、义项、例句、例句译文等。 用户界面上指定的或查出的词语可复制粘贴。 屏幕取词的改进。旨在实现屏幕取词功能全面支持a d o b er e a d e r 7 0 、w i n d o w s x p 、v i s t a 、 i e 、w o r d 、p o w e r p o i n t 、记事本等常用浏览软件,并且能够即时翻译成相应的蒙古文。 对达日罕汉蒙电子词典用户界面的改进和调试将在第五章中介绍。 1 3 本文框架结构 本文将分六章介绍汉蒙电子词典开发平台的设计与实现。第一章为引言,首先描述汉蒙 电子词典开发平台的设计与实现的研究背景及意义,其次介绍本文所涉及的主要工作和本文 的框架结构。第二章介绍现有达日罕汉蒙电子词典v 1 - o 的内容及完善,其中包括现有达 日罕汉蒙电子词典v 1 o 的现状分析,以及存在的语言层面的问题和不足之处,并提出了完 善达日罕汉蒙电子词典的新方案。第三章为汉蒙电子词典管理维护工具的设计与实现, 不仅分别介绍各个模块的设计,还要指出管理维护工具在汉蒙电子词典的管理、扩充与改进 中的重要作用。第四章为汉蒙高频词词典的编纂,主要介绍运用管理维护工具进行汉 蒙高频词词典编纂的过程。第五章为达日罕汉蒙电子词典用户界面的改进与调试,介 绍达日罕汉蒙电子词典v 1 0 的整体结构、功能,以及达日罕汉蒙电子词典技术指标 的提高。第六章是总结与展望,对词典还需要改进的地方进行了进一步的思考并总结了下一 步该做的工作。 4 第2 章达日罕汉蒙电子词典v 1 o 的内容及完善 2 1 达日罕汉蒙电子词典v 1 0 的现状分析 2 1 1 达日罕汉蒙电子词典v 1 o 的结构和规模 达日罕汉蒙电子词典v 1 0 采用数据库文件存放,以便于词语的检索和利用。词典使 用数据库格式建立了一个“通用词典”( 用a c c e s s 编制) ,收词为1 6 6 万余条,由于把汉语 一个词语的不同义项( 译文) 分别作为一个记录处理,所以词典记录规模达到2 乙翠2 0 词条, 属性字段为“汉语词语、汉语词性、全拼音、译文( 内大拉丁5 ) ”四个属性字段。表2 1 从 达日罕汉蒙电子词典v 1 0 数据库中抽取的部分记录及属性字段的例子。 爨撩翱蚓褥疆羽睡蓦矗。囊全拼童矗旒搋赢i 一麓:童毫磊l ,:囊絮溉溯施戮施巍妊瓣;乏l a饱学b a 0 3 x u e 2e r d e my e h e t e i a :一” l j , 。o n 。一:。: i 嚣 n 锥学的 b a 0 3 x u e 2 d e 5 饱学之士b a 0 3 x u e 2 z h i ls h i 4 匏学之士 饱眼福 饱鼹福 饱足 b a 0 3 x u e 2 z h ils h i 4 b a 0 3 y a n 3 f u 2 b a 0 3 y a n 3 f u 2 ,; b a 0 3 z u 2 e r d e my e h e t e l 。+ ”“。 e r d e my e h e t elh o m u n o r g e nm e d e l g e - t e lh o m u n h a n g t a lau j e h u nid u nh o r o h a l b a ng 敞g a h v c a d h v 。 , a :,、l 饱足的b a 0 3 z u 2 d e 5c a d v g s a n n g保 b a 0 3b a t v l a gc i v ,! 傈 、 b a 0 3h a m a g a 乙气h v v保b a 0 3 v l 保 b a 0 3 v保b a 0 3 n 7 保 b a 0 3 b保安b a 0 3 a n i b 保安 b a 0 3 a n l v譬善l 保安b a 0 3 a n l 第一篡j :5 b a t v l a nh a m a g a la h v b a t v l a h v h a d a g a l a h v h a m a g a l a l a m v r lh a m a g a 洲v b o oa n a m v r f 嗽鹾戮g a l 莲 孽够i 一 表2 1 达日罕汉蒙电子词典v 1 0 的部分记录及属性字段表 5 指内蒙古大学蒙古文语料库专用拉丁方案。 s 2 1 2 达日罕汉蒙电子词典v 1 0 的内容 2 1 2 1 汉语词条的编纂 收词原则 对于任何一部词典,收录多少词语以及收录什么样的词语、不收录什么样的词语,都是 颇费斟酌的问题,因为这个问题直接关系到词典的使用价值。由于语言是随社会发展而不断 变化的,词典在收录词语时,要尽可能多收录那些稳定性高、生命力强的词语。尤其是电子 词典,收录词语时首先要考虑到尽可能多的为计算机提供充分的属性信息。现有的汉语词典 在收录词语时大多遵循注重规范性、稳定性、针对性、能产性、实用性等原则。我们研制的 达日罕汉蒙电子词典v 1 0 作为汉蒙翻译工具,要能够满足汉蒙翻译的实际需要,所以在 收录词语时应当保证收录词语范围的广泛性及高覆盖率,首先应当收录常用的、能产性的现 代汉语。 收词来源 目前的达日罕汉蒙电子词典v 1 o 所收录的汉语词条是由北京大学计算语言学研究所 的现代汉语语法信息词典( 总库) 、中国科学院计算技术研究所“面向新闻领域汉英机器 翻译系统”所搜集的词语、从青海师范大学购置的班智达汉藏电子词典的汉语词表等三 个词汇表进行整合、排序、屏蔽后得到的结果。 2 1 2 2 现代汉语词语的语法功能分类 “语法单位划分为语素、词、词组与句子”6 ,或“语法研究中所使用的单位就叫语法单 位,任何一种语法单位都是音义结合体。一般把语法单位分为四种:语素、词、词组、句子” 1 ) 语素是语言中最小的音义结合体,是最小的语法单位。 2 ) 词是语言中最小的能独立运用的音义结合体。 第一,词是有意义的语言成分; 6 朱德熙语法讲义北京:商务印书馆,2 0 0 6 ,9 - 2 4 7 陆俭明现代汉语语法研究( 第三版) 北京:北京大学出版社,2 0 0 5 ,1 7 6 第二,词必须具有独立活动的能力; 第三,对第一个要素进一步施加限制,词应是有意义的语言成分中的最小者。 3 ) 词组是由词和词按一定的句法规则所组合成的比词大的能独立运用的音义结合体。 4 ) 句子是语言中前后有较大停顿、伴有一定句调、表示相对完整意义的音义结合体,是 最大的语法单位。 划分词类的依据 划分词类的依据只能是词的语法功能8 。 词类是指词的语法分类。所谓“词的语法分类”,是说语法研究中的词类是词按照其各 自语法功能的不同而分出来的类别9 。 现代汉语词语分类体系伯 我们采用的现代汉语词语分类体系是北京大学计算语言学研究所的分类体系( 见表2 2 现 代汉语词语分类体系表) : 。朱德熙语法答问商务印书馆北京:商务印书馆,2 0 0 5 ,1 1 9 陆俭明现代汉语语法研究( 第三版) 北京:北京大学出版社,2 0 0 5 ,2 7 1 0 禽士汶等著现代汉语语法信息词典详解( 第二版) 北京:清华大学出版社,2 0 0 2 ,4 1 7 l 名词 n 乞时阎满t & 蛳谲s 髂 4 方饿埔 f 词 s 数词 嘲 & 量谝缳 实 7 代词r ( 律讶性) 基词 代谒r 谪调姓) 本 镶& 动词v 词 词 乳融窑谝 i l l 类 1 0 载态词z n 区剐词 b 技副饲 d 蛤糊p 虚 i 4 蓬询 c 镧 1 5 动词 u - l 最鞘谶 y 1 7 拟霹谪 a 1 8 殿饲e 小予1 9 韵接成分h 罐词食白2 0 觥成努 k 加 革豫2 l 港素g 粪 2 z 霉謦语壹氅词x 大干2 3 成语 i 别 谝的2 4 蜀嗣谬i 辇位2 5 篱称路语 j 2 6 撅赢符号w 表2 2 现代汉语词语分类体系表 8 “词”在自然语言中的地位决定了自然语言处理系统必须在“词”的基础上进行,并且当 前自然语言处理越来越重视词汇的作用,出现了强烈的“词汇主义”倾向,因而词汇知识库 的建设成为了普遍关注的问题。正是基于这种认识,北京大学计算语言学研究所把词汇知识 库看作是语言知识库的主体,投入大量的人力、物力开发了大型词汇知识库一l :现代汉语语 法信息词典,并把它作为整个语言知识库大厦的第一块基石。 现代汉语语法信息词典的现代汉语词语分类体系分为1 8 个“基本词类”和7 个“附加 的词语类别”。因此我们达日罕汉蒙电子词典v 1 o 中登录的大部分是“词”,也包含了一 些非词的附加类别以及标点符号。 1 ) 基本词类 达日罕汉蒙电子词典v 1 0 收录的词语分为1 8 个基本词类,收录的汉语词语记录数和 该词类的实例分别为如下: 名词1 0 ,7 8 0 8 条:书、山、用户、教师、国家、银行 时间词8 3 8 条:今天、一瞬间、元朝、圣诞节、秋天、早上 处所词2 5 0 条:远处、天边、水底、野外、南方、郊区 方位词3 6 9 条:上、前、东、西、中央、外头 动词4 ,8 3 4 4 条:负责、改进、学习、编辑、观赏、安心 形容词3 ,4 8 8 0 条:善良、美丽、好、白、圆、优秀 区别词1 0 7 5 条:男、白领、大型、高等、长期、彩色 连词4 5 0 条:和、并、虽然、但是、或者、不仅 状态词1 1 2 8 条:缤纷、匆匆、金灿灿、踏踏实实、浩瀚、优良 介词2 8 1 条:把、被、至于、让、凭、比如 代词4 6 6 条:他、你们、这、谁、咱们、此刻 数词4 6 7 条:一、第一、百万、许多、亿、贰 量词5 8 9 条:群、排、个、张、条、种 副词6 0 2 3 条:相当、刚好、更、很、都、不 助词7 2 条:了、着、似的、其、也、所 叹词8 3 条:哈哈、嗯、喔、嘘、哟、哇 拟声词1 6 8 条:叮当、沙沙、咕噜、哗啦、汪、劈里啪啦 语气词7 9 条:呢、吧、吗、啦、呀、喽 9 别。 2 ) 非词的附加类别 达日罕汉蒙电子词典v 1 o 中登录的大部分是“词”,但也包含了7 类非词的附加类 非词的附加类别记录数和该成分的实例分别如下: 前接成分1 8 条:伪、非、超、小、过、微 后接成分6 9 条:儿、子、性、品、学、们 非语素字8 2 条:鸳、蜘、饨、凰 语素2 1 6 条:驰、聪、衣、滨 成语5 8 6 6 条:一针见血、以诚相待、月光如水、战无不胜 简称略语2 7 6 条:社科院、共管、三好、奥运 习用语2 5 5 7 条:尽职尽责、忽冷忽热、简而言之、捞一把 语素的子类 语素里可分为名词性语素、时间词性语素、形容词性语素、代词性语素、动词性语素、 副词性语素、方位词性语素、区别词性语素、介词性语素、数词性语素、状态性语素、连词 性语素、量词性语素、语气词性语素等。记录数和该成分的实例分别如下:、 名词性语素5 5 0 9 条:巴、丹、妆、著 时间词性语素8 4 条:古、昔、肖、夕 形容词性语素1 4 6 9 条:倩、康、奇、硕 代词性语素4 1 条:汝、今、尔、朕 动词性语素2 9 7 6 条:言、涔、贷、跋 副词性语素1 7 8 条:愣、横、狂、尝 方位词性语素2 条:朔( 2 记录) 区别词性语素4 l 条:官、次、只、绀 介词性语素5 条:徂( 3 条记录) 、暨( 2 条记录) 数词性语素3 2 条:已、申 状态性语素9 条:訇 连词性语素3 条:啻( 3 条记录) 量词性语素3 条:秩、缁、圭 语气词性语素4 条:尔( 3 条) 、耳 3 ) 标点符号 :,。 ?l “ :、 2 1 2 3 具有代表性的词类体系及词类的代码 达日罕汉蒙电子词典v 1 o 的词类代码采用了现代汉语语法信息词典的“现代汉 语词类代码表”和“中国科学院计算技术研究所汉语词性标记集”。 ( 1 ) 1 8 个基本词类:名词( n ) ,时间词( t ) ,处所词( s ) ,方位词( f ) ,动词( y ) ,形容词( a ) , 区别词( b ) ,状态词( z ) ,代词( r ) ,数词( m ) ,量词( q ) ,副词( d ) ,介词( p ) ,连词( c ) ,助词( u ) ,叹词 ( e ) ,拟声词( o ) ,语气词( y ) 。 ( 2 ) 非词的附加类别:前接成分( h ) ,后接成分( k ) ,非语素字( x ) ,语素( g ) ,成语( i ) , 简称略语( j ) ,习用语( 1 ) 。 语素的子类:形容词性语素( a g ) ,时间词性语素( t g ) ,动词性语素( v g ) ,名词性语素( n g ) , 代词性语素( r g ) ,副词性语素( d g ) ,介词性语素( p g ) ,方位词性语素( f g ) ,区别词性语素( b g ) 。 ( 3 ) 标点符号( w ) 。 2 1 2 4 译文的编纂 译文( 内大拉丁) 主要是参照现有的纸质版汉蒙通用词典和专业词典来翻译的。主要是 由课题组人员录入并校对成型的。目前出版的纸质版汉蒙词典中未收录的词,都由中央 民族语文翻译局等有关单位的翻译人员进行重新翻译。 词典的汉语收词为1 6 6 万余条。一个汉语词语的不同译文( 义项) 分别作为一个记录处 理,并把每个词条的不同译文记录数予以统计。词典中收录的汉语词条最多有2 3 个不同的译 文,最少为1 个译文,由此,词典规模达到2 2 2 万余词条。 值得一提的是,由于汉语词汇的多义以及译词的多义呈现出错综复杂的情况,我们只能 在现有条件下,尽可能地把每一个汉语词的多种不同义项分别作为一个记录收录在词典中, 但却无法在短期内将汉语词的所有义项都列为单独的纪录。如果这一工作实现的话,词典中 收录的词条将远远不止2 2 万余条。例如,“和”在词典里有2 3 个不同的译文。词典数据以数 据库形式储存,译文采用了内大拉丁。如下图表2 3 所示: l l 2 1 2 5 属性字段的描述 表2 3 “和”词的2 3 个不同译文 在达日罕汉蒙电子词典v 1 o 数据库系统中文件( 表) 是由记录( 行) 组成的,记录 又是由字段( 列) 组成的。属性字段为“汉语词语、全拼音、汉语词性、译文( 内大拉丁) , 表示词语属性的所有字段的属性值用了字符型。( 见表2 4 达日罕汉蒙电子词典v 1 o 数 据库属性字段表) 表2 4达日罕汉蒙电子词典v 1 o 数据库属性字段表 词典数据库的具体属性字段,属性宽度,属性值的描述如下 字段名称 汉语词语 汉语词性 全拼音 内大拉丁 宽度属性值描述 5 0 填我们认定的汉语词语。 2 填词语所属词类的代码。 5 0 填该词的拼音,“1 、2 、3 、4 、5 ”分别代表 阴平、阳平、上声、去声、轻声,标于每个音节后。 2 5 5 填汉语词语的译文,即内大拉丁。 2 1 3 达日罕汉蒙电子词典v 1 0 存在的问题 2 1 3 1 收录的词条规格参差不齐 词典最初是为机器翻译系统开发的,所以收录的词语有很多种类型,包括字、词、短语, 甚至句子。同时也存在许多不符合规范的记录,具体描述如下: 有带标点符号的词 例如:“不迟于 ,“值”等。 应分成两个记录的词语 例如:“法案、议案”,“薄绢、纱”,“谨慎的、鲁莽的”,“薄片、薄板”,“法令、命令, “繁重的、麻烦的 ,“方言、土语”等。 非词的语块( c h u n k ) 例如:“按人口平均计算收”,“她甚至连再见一等。 2 1 3 2 属性字段信息不完整 全拼音属i 生信息不完整 达日罕汉蒙电子词典v 1 o 的汉语词语记录为2 厶孕2 0 词条,但有1 0 万余词条的全拼 音属性信息为空,词条的全拼音属性字段信息不够完整。以前,我们只能通过拼音转换软件 “实用汉字转拼音v 4 6 1 1 将汉语词条进行转换,再将转换后的结果添加到数据库全拼音 属性字段里。在这一过程中,由于没有词典管理维护工具,只能由人工完成粘贴汉语拼音的 属性信息的工作,所以难免会出错,以致造成词典记录错误。因此,在管理维护工具中设置 了拼音自动生成功能,将在本文第三章中介绍。 部分内大拉丁( 汉语译文) 录入错误 词典的蒙古语词语( 汉语译文) ,即内大拉丁完全是依靠人工录入的,所以在录入过程中 难免出现差错。蒙古文的显示用蒙古文u n i c o d e 组件实现:首先从查询结果中抽取当前需要 显示的内大拉丁,再转换成蒙古文u n i c o d e 名义字符序列后传送给蒙古文u n i c o d e 组件进行 显示。所以内大拉丁录入正确与否直接影响显现字符的正确输出。 以下表2 5 为作者举例说内大拉丁录入错误对显现字符输出正确性的影响。 录入错误的内大正确的内大拉丁转到蒙古文正确的蒙古文 拉丁 u n ic o d e 名义字符 u n i c o d e 名义字符 b i q i gb i c i g 融q 、融押、 戳a n舭a n h 秽,_ = a u s t r i y _ a v u v u u v v v v v v v v 蝴时t 球 、岍、 酝鼹酝螺弋t 专铀 c i 腿ge i h i r a g 嘴h 一 气氏 ? f b a y ib a i佘抓 表2 5 内大拉丁录入错误表 欠缺词语属性信息字段设置 电子词典要满足不同层次、不同领域的用户,就必须尽可能地把一个词的各种不同属性 信息都揭示出来。因此,义项和例句属性信息的欠缺直接影响到达日罕汉蒙电子词典y 1 o n 请参见 监巳;碰堕q 堂d ! 照垡:j ! 三鳗:鳗巴超型羔曼鲤乜坠至型墨塑2 垒兰:s 丛匝! 网络免费软件。 1 4 的质量,降低了它的使用价值。 2 2 达日罕汉蒙电子词典的完善策略 2 2 1 设置义项属性信息字段 义项是向他人说明一个语言单位或语词的所指内容。在词典编纂中,释义是一项十分复 杂的工作,涉及许多语言和非语言因素1 2 。在自然语言交流中,一个词所体现的意义在一定的 语言环境中会因人或外部非语言条件的不同而有很大的变化。因此,语言中的词语大多是多 义词,常常不止一个义项,有些词的义项多达十几个、甚至数十个。 例如,“把”是个多义词,它的义项达到数十个。“把”在现代汉语词典( 第五版) 中 有2 1 种不同的义项1 3 ;在现代汉语语法信息词典中有8 种不同的义项h ; 汉蒙词典( 第 三版) 中的译文是参考现代汉语词典的义项翻译而成的,该词典中“把”词的译文有1 8 个埔;在达日罕汉蒙电子词典v 1 o 中的译文有1 1 个1 6 。( “把”在上述四部词典中的具体 义项和译文见“表2 6 ”、“表2 7 ”、“表2 8 一、“表2 9 。) i :达日罕汉蒙电子词典v 1 o 为汉蒙翻译词典。翻译词典的目的是在一种语言的词汇单 位与另一种或几种语言的词汇单位间找到意义相等的对等词,以供翻译时进行查检1 7 。所以要 符合电子词典实用性和价值性的要求j 对词典中的多义词进行译义,就必须设置义项属性信 息字段。设置了义项属性信息字段,我们就可以根据义项属性信息,按照汉语表达习惯选择 最相近的词义进行翻译;同时,我们还可以根据义项属性信息,对词典添加词语的译义进行 检查,以确定其准确性。所以,设置义项属性信息字段是满足不同用户的要求及提高词典实 用价值的必然要求。 在管理维护工具的设计中,我们把义项属性信息字段直接链接至现代汉语语法信息词 典( 总库) 数据库。因为现代汉语语法信息词典( 总库) 是我国目前汉语词汇信息含量 最大、覆盖范围最广、规模最为完善的科学性大型词汇知识库。 ”章宜华语义学与词典释义上海:上海辞书出版社,2 0 0 2 ,5 7 ”中国社会科学院语言研究说词典编辑室现代汉语词典( 第五版) 北京:商务印书馆,2 0 0 5 ,2 0 ;2 1 “北京大学计算语言学研究所研制的8 万余条记录的总库和3 4 个分库的现代汉语语法信息词典。 “内蒙古自治区社会科学院蒙古语言文字研究所 ( 第三版) 北京:民族出版社,2 0 0 5 年 ”指达日罕汉蒙电子词典i f 1 0 通用词典数据库 ”曾东京也论翻译学词典中国翻译2 0 0 5 ,i l s 1 把 2 把 3 把 ! ub a 3 l ui b a 3 一”: 鱼。二照曼一 ? p ;b a 3 “ 加在量词后头,表示数量近于这个单蜮 指拜把子的关系 。一。二- : 甸子中表示处置的意思 i 甸子中表示致使的意思二:。二二二二 。,陋。,;曼垒;一 。句子中表 - i 鏖:- i 蜘量一一_ 手抓起 7 把 8 把 9 把 1 0 把 1 1 把 1 2 把 。,翩。一 - ,氇巍碣 示不如意的事情 的数量 用于手的动作 用于有把手的器具 l g i 地l 一 :。| v,:。;b a 3 ,- ! 。瓣:二:童。j p 曼墨i 。王。 用于某些抽象的事物 看守;把守 。, :、。- 、 。历德笸。,。, 从后面用手托起小臻儿两腿l 让他太小馕 1 3 把 v i b a 3 把持;把揽 1 4 把| y h a 3,:7 约束住使不裂开 1 5 把| y t b a 3 紧靠 1 6 把j y 二! b 蝇二二 给( g e i 3 ) 。 1 7 把;n b a 3把东西扎在一起的摺子 。 1 8 把l n;b a 3 :q + 车把 n 一j 龟礁挺o 。 一。逸二,。渣蠛- 。簧真嫡熹导篝铁懒。 i 照,。懑璺,。,。,瓠畦l 。,翦果塞嘲一 表2 6 “把”在现代汉语词典( 第五版) 中的义项 溺躐煮酾痨氅二,凋麓巍瞧糊蹶,越数量兹磊氐+ 。崩务澎蠢赫纛。缓 | 把 b e 3 q;用于手豹动作帮他一拉他一、搽( 一) 。脸出_ 1 把 :h a 3 魏 l 一 一 i “他的病治好里外检查一遍你籀 ;把 b a 3v 住手、手,i 着方向盘过大门一 ;把h a 3 :毽| 二手摄起豹数量一米一一她抓,一分量都一样_ ;把 b a 3 q:用于有把手的器:一、赢子一、好手 i 擐。:奎鹋一m 。ii 二乙- 量。二酒、写蠛令i 是k 二二 | 把 b a 4 ;柄花儿 | 把b e 3i ;, 。 佳手手藿方离盘广过大门卜 表2 7 “把”在现代汉语语法信息词典中的义项 把把把 哇56 一 | |二 y y 一 ;4; 二 一 把把把 凸7 n u l 1 2 。2 一 一 一 黝灞渊汉语词性 全拼音译文 童也 nb a 3 幻( 喇w ) 把 nb a 3 钿您文 美兰nh a 3曩积 把nb a 4w k 把n b a 4 两急耐 把nb a 4南承 把 nb a 4皇矗h 把ph a 3 书( c ) , 把 p b a 3 毋( 的) 把q b a 3 一( 耐) 巍竺 q h a 3。_ e 粑vh a 3 a 囊譬神 羲竺 vh a 3南m 把 vb a 3 - - 神 簸竺 vb a 3 爱嚣谛 羲竺 vh a 3 q 叫钿学 把v b a 3 a 硝竹婚 把 ub a 3删文 表2 8 “把”在汉蒙词典( 第三版) 中的译文 搦臻酾圉燃曩携溉囊霸翥飘;蕤;l ;垒囊麓纛二纛;。誊雾j 羲纛
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房屋租赁居间合同
- 正规车位租赁合同3篇
- 瑞恩的井课件
- 采购合同模板模板5篇
- 安全方面业务培训总结课件
- 甘肃温室工程建设方案(3篇)
- 福建礼堂装修工程方案(3篇)
- 安全文明校园评估培训课件
- 电网工程测量方案模板(3篇)
- 猫咪巨结肠教学课件
- 材料作文点拨课件+2025-2026学年统编版语文九年级上册
- 无线wifi安装协议书
- 中国智能驾驶商业化发展白皮书(2025):平权时代智驾商业落地的破局之路
- 小学科学新教科版二年级上册全册教案(2025秋版)
- 婚内财产协议书2025
- 2025年国家卫生健康委医药卫生科技发展研究中心招聘考试笔试试题(含答案)
- 中华医学会肺癌临床诊疗指南2025版解读
- 2025年宿州市公安机关公开招聘警务辅助人员110名笔试备考试题及答案解析
- 新课标(水平一)体育与健康《非移动性技能》大单元教学计划及配套教案(18课时)
- 【历史】2025年新版3年高考2年模拟:专题15-苏联社会主义建设
- GB/T 17614.1-2015工业过程控制系统用变送器第1部分:性能评定方法
评论
0/150
提交评论