




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
意念词典语义词典机器翻译易绵竹 薛恩奎 解放军外国语学院提 要 词典或词库建设是研制开发自然语言处理系统的一项重要基础性工程,它区别于纸版辞书的特征是能存放在计算机系统中供语言信息处理程序使用,它一般以CDROM(Compact DiscRead Only Memory高密度盘只读存储器)为介质,登录构成句子的词汇单位所负载的词法信息、句法信息、语用信息、概念信息及对译信息,这就是所谓的机器可读词典(Machine Readable Dictionary,MRD)或电子词典。本文将讨论意念词典、语义词典的性质和编纂原则以及它们在语言信息处理中的作用。关键词 意念词典 语义词典 电子词典 机器翻译1 电子词典是机器翻译系统工程化的一个重要方面据有关文献记载,前苏联工程师首次提出了机器翻译设想。1933年9月5日,他在莫斯科登记一项专利,其内容是要求保护“制造一台在从一种语言翻译成另一种语言或多种语言时能选择和打印词汇的机器”的专利,这实际上是一台查字典的机器,其思想已经使计算机介入了语言翻译环节。( 1984:214;吴蔚天等1994:224)1946年当世界上第一台电子计算机问世之时,就有人考虑将它应用到语言学研究中,并由此产生了“计算语言学”这一边缘性交叉学科。但是由于受计算机功能和程序设计环境上的制约,当时只能做词条索引及词语系统等方面的工作。1949年,美国工程师W.Weaver(韦弗)提出使用计算机可能“解决世界范围内的翻译问题”,其主要方法也是“查字典”:先为源语言中的每一个词查出一个目标语言中的等价词,再按照目标语言的语法规则来编排每一个词,从而达到翻译的目的。(林尧瑞等 1996:305)可见,词典在机器翻译的原初设想中占据重要地位。在计算语言学文献中,电子词典亦称自动词典或机器词典,它被认为是语言工程的支柱和基石,构建信息含量大、功能齐全的电子词典应当成为民族语言现代化的一项基本建设。冯志伟先生正确指出:“机器翻译系统的基本信息都来自机器词典,语法语义规则利用来自机器词典中的各种静态信息,运算出表示话语语义特征的各种动态信息来。因此,我们可以说,机器词典是机器翻译的基础,没有好的机器词典,机器翻译就等于做无米之炊,是根本无法进行的。近年来,机器词典的研制成为一种专门学问,叫做电子词典(electronic dictionary)。电子词典是机器翻译系统工程化的一个重要方面。”(冯志伟1994:231)电子词典是服务于机器翻译的知识库()的重要构件之一(另一重要构件是语法规则库),它构造的是知识库而不是数据库。电子词典的词条是具有完整意义的单词所代表的简单概念或词素(simple concept or lexeme)和具有完整意义的非自由短语(固定词组或句子)所代表的复合概念或句素(complex concept or phraseme/syntaxeme),而由这些概念所形成的层级化、秩序化的语义关系网络,能够充分揭示中外语言单位之间的内在逻辑联系,为计算机理解词义、句义及篇章义奠定基础。(姚天顺等1995:215216)众所周知,机器翻译的逻辑过程通常分为分析、转换和生成3个阶段,而对词汇的处理则贯穿机器翻译的全过程。在分析过程中,通过设置一定的语义限制,以便于从源语言一个词的多个义项中选择一个正确的词义,亦即排除词汇歧义:在生成过程中,源语言一个词义往往可用目标语言不同的词来表达,如何选择一个符合目标语言表达习惯的等价词则是选词模块的主要工作:而在转换过程中,主要涉及两种语言词汇的转换和语言表达结构的转换。2 意念词典的性质及编纂原则21 什么是意念词典确定于计算机语言信息处理的总词表或总词库,实际上就是构造某种语言的义类词典(),而义类词典亦称意念词典或概念词典(,)将义类词典确定为语言内容平面聚合关系结构的模式(),并把它看作该语言的语义场系统。( 2000:123124) 在各类辞书中,对义类词典或意念词典的译义大同小异,下面试列几条:(1)(thesauros,) 1),-;2),-(-,)( 1990:506)(2) ,(1996:13)(3) -, ( 1992:597-598)(4)() 1),;2),-( 1992:819)(5)THESAURUS dictionary of words and phrases grouped together acoording to similarities in their meanings.同义语字汇;同义语字典。(OALDCECT 1984:1223)由上面所引这些译义可以推断,意念词典旨在揭示词汇单位之间各种语义关系(种属关系、同义关系等),以构成语言知识库的语义描写系统,并使之与某个具体知识领域的概念层级系统对接起来,为人机通用的知识信息处理服务。22 意念词典的编纂原则与一般详解的词典并不同,意念词典的词条不是按字母顺序排列,而是按一定主题原则()排列。从这个角度看,编纂意念词典应当尽可能全面地搜罗有关语言中概念相近、语义相关的所有词汇及短语,并将它们按照一定的主题原则分门别类,也就把这些词汇和短语表示的不同意义分成若干概念类目,用特定的符号代码标示出来,分别填入不同的工作单。这样,意念词典的词条是由词典和短语所代表的概念类目(),而概念类目实际上就是语义场。确切地讲,意念词典输入的是“意念”(),即概念范畴,而输出的却是表达该概念范畴的词汇或短语。原则上,一部标准的意念(义类)词典应具有以下4种输入方式(参见2000:125)。1)由概念到概念(:),亦即从一个概念寻绎体现在纵横相联(上下位、种属、属属等关联)的概念图式中另一概念。这种图式是意念词典的基础,它被称作统览图式( )。2)由概念到语词符号(:),亦即从一个概念寻绎表达这个概念的所有语词,它是意念词典的主干部分。3)由语词符号到概念(:),亦即从贝字母顺序编排的词汇表中标志出某个语词在概念场的访问地址。4)由语词符号到语词符号(:),亦即由一个语词(多为词组成短语)找出另一个单个的词,比如,从找到总的说来,意念词典的构造原则在许多方面还存在争议,其争议的焦点可归结为下面4个方面的问题(2000:6465或访问http:/ramina.irk.ru/lang/dict/agens.htm)。1)如何提取语词的某个义素作为概念类目的名称?因为原则上任何义素均可选作概念类目,如俄语动词 (欺骗)既可列入主题栏,。也可并入, ,等类目。2)怎样才能使概念层级系统囊括所有的语义关系类型?须知,词汇单位之间的语义关系绝非仅限于种属、同义关系,还可能存在推涵/因果关系()、联想关系()、论证关系()等。因此,采用树型图的分析方法不可能构筑严整的概念层级系统,为了表征多重的语义关系,最理想的方法是用语义网络()结构图,使各个语词能在其中彼此关联,相互引证。3)如何制定概念类目划分的统一规则?因为只有根据统一的概念类目划分规则,方可判定语词的哪些义素能够选作概念类目,而哪些义素又是禁止用作概念类目的。4)怎样区分素朴的与科学的世界观()? 亦即如何使概念的层级系统或统览图式与素朴的和科学的世界图景相吻合()?所谓“素朴的世界图景”,是指操某种语言的中等智力者对世界的映像 ,这种映像建立在前科学家的一般概念之基础上,而这些概念是由中等智力者掌握的语言所前定的。波兰著名语言学家在研究用于词义描写的语义原语()过程中提出的心智语言(ligua mentalis),实质上就是素朴世界图景的概念构架。(2000:131)可把“科学的世界图景”理解为一个完整的知识系统,它综合具有世界观性质知识的各项具体科学的研究成果,对人类的全部认知经验和实践经验加以整体把握。( 1982:43)因此,持素朴的还是科学的世界观,对意念词典的构造起着决定性的作用。目前,针对具体科学领域(如电子学、地理学、经济学、政治学)而编制的意念词典被广泛应用到自动检索系统中,这样的意念词典类似于百科全书的功能。服务于信息检索目的的意念词典构成了信息语言()的基础,各类科技文献正是借助信息语言得以编码,供广大用户快速浏览检索。3 语义词典的性质及编纂原则31 什么是语义词典如果说意念词典以构造特定知识领域的概念层级系统为目的,那么语义词典的任务就是建立某种语言的词汇语义分类体系,其直接目标是为自然语言处理系统提供语义知识的支持。在语义词典当中应当设置语义处理机制,利用一定量的语义信息进行多义词的义项判别和歧义排除,以增强对句子中词汇语义理解的准确性。从前面的论述中可以看到,这两类辞书其实有共通之处,意念词典也注重揭示词汇单位之间的各种语义关系,不过这些语义关系是比较抽象的,与人类思维的概念范畴相关联的。要论两类辞书的不同之处,那就是前者的着眼点在于反映语言外的信息(,),后者的着眼点在于反映纯语言信息()。正因如此,把意念词典看作非语言学词典()对此表示异议,认为意念词典即便以先念的概念图式为基础,但不能否认思维单位(概念)和语义单位(词义)之间存在对应关系,因而意念词典能够反映语言的语义结构。(2000:126,131) 32 语义词典的编纂原则下面我们分别介绍两种语义词典的编纂原则;一种是机用语义词典,另一种是人用语义词典。321 机用语义词典的编纂原则东北大学姚天顺先生提出的词汇语义驱动(Lexical Semantic Driven,LSD)理论,可以看作是设计构造机用语义词典的方法论原则。所谓“词汇语义驱动”(LSD),就是在设置多种结构的复杂特征集基础上,构造一阶逻辑描述式。通过扩展与合一等运算集,由词汇语义规则驱动来完成词法结构、句法结构和语义结构的构造,最终实现语言分析。复杂特征集包括附着于每个概念结点的主结点信息、静态属性表和动态属性表。LSD理论的倡导者确定了49种类语义关第,并与概念结点组成中间转接语言(intermedia language)的语义网络。这些语义关系包括格关系(agent,patient)、事件间关系(condition,connect)、部分整体关系(partof)、伪关系(possessor,purpse)等。据此,作者设计了一种规则描述语言作为语言工程的通用语言,它同时面向计算机专业人员和语言工作者,并在此基础上研制了汉英双向机翻译系统CETRAN。(姚天顺 1995:233249,277281)我国著名机器翻译专家董振东先生逾10年工夫创建的知网(HowNet),是一个以汉语和英语的词语所代表的概念为描述对象、以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,计算机化是其主要特色。语义词典和义原(语义原语)分类树是知网系统的基础文件,每个词语义项的概念及其描述均形成其中一个记录。作者构造语义词典的原则可从知网系统的哲学观窥见一斑,这就是知网对客观世界的认识与把握,其根本点在于:世界上一切事物(物质的和精神的)都在特定的时间和空间内不停地运动和变化,它们通常从一种状态变化到另一种状态,并通常由其属性值的改变来体现。知网描述了下列16种概念语义关系:(a)上下位关系;(b)同义关系;(c)反义关系;(d)对义关系;(e)部件整体关系;(f)属性宿主关系;(g)材料成品关系;(h)施事/经验者/关系主体事件关系;(i)受事/领属物等事件关系;(j)工具事件关系;(k)场所事件关系;(l)时间事件关系(m)值属性关系;(n)实体值关系;(o)事件角色关系;(p)相关关系。这样,利用语义词典中设定的各种语义关系,配合知网提供的义原分类树,便可计算词汇之间的语义距离和语义关联度。请访问厦门大学一批研究者正是利用知网作为语义资源,设计了汉英机器翻译系统英文生成中的选词模型。(陈毅东等 2001:19-26)中国科学院计算技术研究所与北京大学计算语言学研究所联合开发了汉英机器翻译系统,从工程应用的目的出发,以配价语法作为语义分析的理论框架,构造了一部机用的现代汉语语义词典。它采用“语法分析为主、语义分析为辅”的策略及语义概念尽量简化的原则,以现代汉语语法信息词典作为语法资源库,建立起一个立足于短语本位语法体系的语义模型。(王惠等 2000:184-191)全俄科学技术信息研究所正在编制的词汇信息库()其实也具有机用语义词典的特征,同时具有鲜明的计算机化特色。它以莫斯科语义学派代表人物,等关于语言整合描写的思想为建库的理论基础,把通过计算机操作迅速检索的各种所需语义、语法类别词表作为词条编写的原则,此项研究必将有助于俄文信息的计算机处理。(详见张家骅2000:5269)322 人用语义词典的编纂原则至于人用语义词典的编纂原则,从俄罗斯著名语言学家院士领衔主编的,16,300 000 (俄语语义词典)中可以发现一些特点。尽管这部卷帙浩繁的辞书前两册已有电子版本发布在因特网上,但它仍主要是服务于人对俄语词汇语义系统的感知与掌握。众所周知,积极倡导建立“”的方法论原则。她主持编纂的俄语语义词典的理论基础可简述为:现代俄罗斯标准语的词汇组成是一个历史形成的自然系统,词汇系统循其自身的规律而存在、运动和发展;词类是词汇划分的起点,在语法范畴和语法形式中所体现的词类的抽象意义是所有词汇词义的高度抽象,俄语的全部词类均存在于词汇系统之中。通过对某个词类所有词汇语义属性的详尽分析来划分词汇类别(),而每一个词汇类别都是一棵多分叉的词汇树(),词义()是这棵树中最小的单位。这样,词汇系统在俄语语义词典中表现为如下的概念和术语层级体系:1)词类是宏观类别,其中每个类别在多数情况下可区分为若干概念领域,而概念领域又具有内部分支;2)词汇类别位于某个概念领域之内,它表征为一幅树型图,其枝节由顶端延伸到根部,词义是该类别的语义主导();3)词汇集及子集()构成词汇类别的树枝;4)词汇语义列()是词汇树的终极单位,它将具有相近或对立语义关系的词义集结在一起。集结在一起的词汇展现出一幅幅鲜活的“生活画面”(),并对其中特定的个别事物加以称名、叙述和描绘。正是由于这样一些生活画面的展现,使得词汇系统与世界的语言图景、词汇类别之终结的或接近终结的词汇子集与客观现实片段的映现以及同义词列连为一体,因而具有深刻的认知意义。俄语语义词典编纂者认为,该辞书与意念词典有着原则上的区别,它所依据的是语言集合的自身属性,而不是从主观臆断的概念出发。在该辞书中呈现的世界图景具有3个方面的特性:其一,能够显示出操某种语言的人在物质世界和精神世界中所感知与思议的一切现实事物;其二,能够揭示一切现实事物之间的联系及依存关系网络;其三,通过形式各异的汇集展示分布于不同词汇类别的评价性特征。(PCC 1998:7-23; 1999:3-16)4 意念词典和语义词典的构造样例演示41 (P.A.Roget)国际英语词汇和短语意念词典 (Rogets International Thesaurus of English Words and Phrases.New York:Thomas Y.Crowell 1922;B,2000/110/).该词典的范畴/概念分类大纲(Synopsis of Categories):Abstract Relations (抽象关系)Space (空间)Matter (物质)Intellect (智力)Volition (意志)Affections (情感)下面只列举表示抽象关系词汇的小片断:Class I.Words Expressing Abstract RelationsSection I.Existence1 Being,in the Abstract Existence.Nonexistence.2 Being,in the Concrete Substantiality.Unsubstantiality.3 Formal Existence Internal conditions Intrinsicality.External conditions.Extrinsicality.4Modal Existence Absolute.State.Relative.Circumstance.42 ()俄语语义词典电子版本出版信息:“”, ; 300 000 ,.www.slovari.ru/lang/ru/ivoc/index.html (“”),www.slovar1.ru/lang/ru/ivoc/help.html (“”)检索结果显示(以俄语词“”为例) (1),5, CEM1;960860160,- (0044;0302;1) (2), 1 CEM2;828329336, (, ,) (*), (0088;0593;1) (3), 2 CEM2;489104862 4: ,(0088;0594;1) (4), 3 CEM2;558352164:,(0088;05797;1 )5. 结 束 语本文简要论述了意念和语义词典的性质及编纂原则,表明这两种词典在机器翻译系统和信息检索系统中发挥着重要作用。语言工程被公认为是21世纪最具挑战性的知识工程,只有综合集成相关知识领域的基础理论及应用技术成果,才有可能锻造实施某项语言工程的原则性思维和技术性思维。我们目前正致力于面向俄文信息处理的通用语义码模式研究,下一步的工作重点是构造现代俄语动词语义编码词典。附录:语义工程及相关理论研究(参见:北京大学计算语言学研究所的网站 /doubtfire/973-beida/sem_project_list.htm)(一)国内中文信息处理学界1905语义工程分类体系之事物、属性、时间、空间鲁川的运动类概念分类体系鲁川的事元角色(格系统) 2 知网的概念描述体系知网的语义角色系统知网的动名义关系描述 3吴蔚天 (1999)汉语计算语义学 电子工业出版社。4林杏光、鲁川等 (1994)动词大词典中国物资出版社5北京大学计算语言研究所“中文概念辞书。(CCD)语言学界1刘叔新 (1987)现代汉语同义词词典天津人民出版社2张志毅 (1981)简明同义词典上海辞书出版社3梅家驹等 (1983)同义词词林上海辞书出版社4董大年等 (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 依托创新模型推动产业升级转型指南
- 2025年葡萄籽皮加工行业前景分析及投资机遇研究报告
- 2025年合肥市南门小学上派分校招聘代课教师招聘2人考试参考题库附答案解析
- 2025云南文山州麻栗坡县铁厂乡中心卫生院招聘2人笔试备考试题及答案解析
- 2025云南玉溪市红塔区溪汇中学教师招聘6人笔试备考试题及答案解析
- 2025浙江杭州市拱墅区半山街道办事处招聘编外聘用人员1人考试备考试题及答案解析
- 2025广东佛山市南海公证处招聘公证员4人笔试参考题库附答案解析
- 2025四川凉山州冕宁县第二幼儿园、第三幼儿园编制外幼儿教师10人考试模拟试题及答案解析
- 2025浙江宁波市慈溪市天元初级中学招聘派遣制工作人员1人笔试模拟试题及答案解析
- 2025年宁夏新商务高级技工学校招聘教师笔试模拟试题及答案解析
- 勉县一中小升初数学试卷
- 2025一建《建设工程经济》计算、时间、数字考点笔记
- 校园基孔肯雅热防控措施课件
- 第1课 中国古代政治制度的形成与发展 课件 统编版高中历史选择性必修1
- (2025年标准)离职手协议书
- 2025年团场人员考试题库
- 班组质量管理
- 2025年四川省建筑施工企业安管人员考试(企业主要负责人·A类)历年参考题库含答案详解(5卷)
- 药师考试历年真题综合测试试卷(含答案)
- 实战能力评估模型-洞察及研究
- 超声引导髂筋膜阻滞技术
评论
0/150
提交评论