基于本体的英汉翻译记忆系统模糊匹配的研究.pdf

上传人：a*** IP属地：河南上传时间：2020-03-03 格式：PDF 页数：70 大小：2.08MB 积分：0 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

基于本体的英汉翻译记忆系统模糊匹配的研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

湖南师范大学硕士学位论文基于本体的英汉翻译记忆系统模糊匹配的研究姓名徐小娟申请学位级别硕士专业电路与系统指导教师汪鲁才 20070401 摘要相似句子的匹配与查找是翻译记忆中的关键技术其中语义的表达和理解占据着非常重要的作用本文将语义网中的本体技术引入到翻译记忆系统中来提高机器翻译的语义处理能力论文介绍了机器翻译的研究发展现状和现有的技术方法分析了翻译技术中存在的问题同时对本体工程理论进行了研究探讨了本体在机器翻译技术中的优势提出了将本体引入到翻译记忆系统中的思想结合本体构建原则方法和现有w o r d n e t 结构研究了面向机器翻译领域本体的构造方法以计算机文献领域的专业术语为范围构建了一个知识本体C S O 为相似语句的查找提供了一个语义空间对机器测评中句子间的模糊匹配算法进行了研究将其应用于翻译记忆中的句子匹配中对算法中存在的不足进行了分析将本体中的概念相似度算法引入到模糊匹配算法中通过对现有模糊匹配算法的改进从语义上提高了系统检索相似语句的能力对基于本体的模糊匹配算法进行了实验测试验证了算法的可行性实验表明通过引入本体能够较全面地搜索到一些被忽略的语义相近的模糊词对句子的相似度也得到了定的提高从而提高了系统的匹配成功率关键词机器翻译翻译记忆本体概念相似度模糊匹配 A b s t r a c t M a t c ha n ds e a r c ho ft h es i m i l a rs e n t e n c ei so n eo ft h ek e y t e c h n o l o g i e si nt r a n s l a t i o nm e m o r y S e m a n t i ce x p r e s s i o na n d u n d e r s t a n d i n gp l a y sa ne x t r e m e l y i m p o r t a n tr o l e O n t o l o g y t e c h n o l o g yo fs e m a n t i cn e ti sp r o p o s e di nt h i sp a p e rS Oa st o i m p r o v et h es e m a n t i ca b i l i t yo fm a c h i n et r a n s l a t i o n T h er e s e a r c hb a c k g r o u n da n dt e c h n i c a lm e t h o d so fm a c h i n e t r a n s l a t i o na r ei n t r o d u c e dh e r e A n dt h ep r o b l e m se x s i t e di s a n a l y z e d M e a n w h i l e t h r o u g ht h er e s e a r c ho fO n t o l o g yt h e o r y t h e s u p e r i o r i t y o f O n t o l o g y i nm a c h i n et r a n s l a t i o ni s d i s c u s s e d a n dt h et h o u g h t o f O n t o l o g yi sa p p l i e d i n t r a n s l a t i o nm e m o r y C o m b i n i n gO n t o l o g yp r i n c i p l e m e t h o da n dw o r d n e ts t r u c t u r e t h eO n t o l o g yc o n s t r u c t i o nm e t h o df a c i n gm a c h i n et r a n s l a t i o n i ss t u d i e da n dak n o w l e d g eO n t o l o g yn a m e dC S Oi sc o n s t r u c t e d w i t h i nt h es c o p e o ft e r m i n o l o g y o fc o m p u t e r l i t e r a t u r e O n t o l o g yp r o v i d e sas e m a n t i cs p a c e i ns e m a n t i c s i m i l a rs e a r c h T h ef u z z ym a t c h i n gs t r a t e g yo fm a c h i n ee v a l u a t i o ni s a p p l i e di ns e n t e n c em a t c ho ft r a n s l a t i o nm e m o r y o fw h i c ht h e i n s u f f i c i e n c ye x i s t e di sp r e s e n t e d F u r t h e r m o r e t h ed e g r e eo f c o n c e p ts i m i l a r i t ya l g o r i t h mi su s e da sw e l lt oi m p r o v et h e a b i l i t yo fs e a r c h i n gs i m i l a rs e n t e n c e E x p e r i m e n t a lr e s u l t ss h o wt h a ta l g o r i t h mc a nf i n do u t n e g l e c t e dm e a n i n g f u lw o r dp a i r sf a i r l yw e l l T h ep r e c i s i o no f f u z z y m a t c h e dw o r dp a i r sa n dt h es e n t e n c es i m i l a r i t yi s i m p r o v e dc o r r e s p o n d i n g l yb yi n t e g r a t i n gt h ef u z z ym a t c h a l g o r i t h ma n dd e g r e eo fO n t o l o g yc o n c e p ts i m il a r i t y K e yW o r d s M a c h i n eT r a n s l a t i o n T r a n s l a t i o nM e m o r y O n t o l o g y C o n c e p tS i m il a r it y F u z z yM a t c h l I l 湖南师范大学学位论文原创性声明本人郑重声明所呈交的学位论文是本人在导师的指导下独立进行研究工作所取得的成果除文中已经注明引用的内容外本论文不含任何其他个人或集体已经发表或撰写过的作品成果对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明本人完全意识到本声明的法律结果由本人承担学位论文作者签名年月日湖南师范大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留使用学位论文的规定同意学校保留并向国家有关部门或机构送交论文的复印件和电子版允许论文被查阅和借阅本人授权湖南师范大学可以将本学位论文的全部或部分内容编入有关数据库进行检索可以采用影印缩印或扫描等复制手段保存和汇编本学位论文本学位论文属于作者签名导师签名 1 保密口在年解密后适用本授权书 2 不保密口请在以上相应方框内打日期年月日日期年月日基于本体的英汉翻译记忆系统模糊匹配的研究第1 章绪论 1 1 选题背景和课题来源随着经济全球化和互联网的发展人们需要利用计算机处理各种各样的信息然而语言壁垒给人们接收和处理其他语言的信息造成了很大的障碍不同国家民族之间越来越需要跨语言的交流因此对机器翻译的需求也越来越迫切 8 0 年代初随着计算机技术和语言理论的不断进步不断涌现的新方法新理论振兴了机器翻译的发展但对于机器翻译中语义的表达和处理一真以来也没有找到比较理想的方法机器翻译的先驱者之 R e i f l e r 曾经说过机器翻译最根本的是处理语义虽然经过多年的努力和探索这个问题仍然没有得到有效的解决本体的出现为解决语义问题提供了新的思路本体技术是9 0 年代在人工智能知识工程领域兴起的一个新的研究领域作为一种知识表示知识共享的工具本体表达了独立于语言的世界知识恰好可以作为表达语言深层语义的一个有效手段随着其研究的不断深入和推广一些研究者也开始将本体引入自然语言领域为表达和处理语义提供帮助国外已出现了一些运用本体的机器翻译系统如M i k r o k o s m o s 7 S U M O c z l 在国内这个领域也有些学者进行了尝试如董振东教授的知网面向汉英自然语言处理系统嘲王小捷的基于O n t o l o g y 的英汉机器翻译系统本文研究内容来源于省自然科学基金项目基于本体分类的翻译记忆系统的研究 0 5 J J 3 0 2 0 5 将知识工程和语义网的新方法一本体引入到机器翻译系统中对面向计算机辅助翻译领域的本体构建和模糊匹配算法进行了研究湖南师范大学硬士学位论文 1 2 机器翻译的研究进展 1 2 1 机器翻译的发展史机器翻译 m a c h i n et r a n s l a t i o n 又称机译 M T 就是计算机实现从一种自然语言文本到另一种自然语言文本的翻译陆1 是集语言学数学心理学和计算机科学等多种科学的一门综合性科学嘲机器翻译的研究自计算机诞生之初就被提出来了 1 9 4 6 年计算机诞生之初英美两个工程师布斯 A D B o o t h 和韦弗 w W e a v e r 第一次提出了利用计算机进行语言自动翻译的想法 1 9 4 9 年韦弗在题为翻译的备忘录中正式提出了机器翻译问题 1 9 5 4 年美国乔治顿大学与I B M 公司合作实现了世界上第一个淑系统标志着机器翻译从设想开始走向实践从那以后世界各国纷纷投入人力物力进行机器翻译研究机器翻译的发展可以分为草创期复苏期发展期三个时期在草创期 1 9 5 4 1 9 7 0 人们对机器翻译的复杂性估计不足认为好的译文可以通过查字典和重新排列词序两步操作来得到在翻译过程中很少进行句法处理因此译文的可读性很差难于付诸实用 1 9 6 6 年1 1 月美国科学院发表了黑皮书语言与机器报告简称 A L P A C 报告对机器翻译采取否定的态度认为机器翻译研究遇到了难以克服的语义障碍在短期内无法研制出实用化的机器翻译系统 A L P A C 报告的发表使得世界上许多国家纷纷停止了对机器翻译研究的支持机器翻译的研究从此陷入低谷踟在复苏期 1 9 7 0 1 9 7 6 C h o m s k y s 哺1 提出的转换生成语法在语言学理论上取得了重大发展机器翻译开始以基于转换的语法规则为主并且伴着人工智能的发展不断在M T 研究中引入人工智能技术人工智能方法的主要应用时语义表示和分析知识库应用等之后由于计算机软硬件的飞速发展计算机可读的大规模语料库越来越容易获取使得整个婀研究的视野发生了改变标志着舡研究进入了一基于本体的英汉翻译记忆系统模糊匹配的研究个新的时期繁荣期 1 9 7 6 一至今以1 9 7 6 年加拿大蒙特利尔大学与联邦政府翻译局联合开发的实用性机器翻译系统T A U MM E T E O 正式提供天气预报服务为标志的m 1 之后许多发达国家相继投入了巨额资金开展全国性和多国性的联合研究如欧共体欧盟前身的E U R O T R A 日本的 M u 美国C M L 的机器翻译研究等基于间接翻译的方法得到了更大的发展转换分析的层次从简单的语法层次发展到了语法和语义相结合的更深层次同时还出现了其它基于实例和统计的翻译技术我国的机器翻译研究始于1 9 5 6 年是最早开展机器翻译研究的国家之一n 1 1 但因为文革有过1 0 年的停滞 7 0 年代中期我国机器翻译研究从停滞走向了复苏 8 0 年代中期到9 0 年代初期产生了两个在中国机译史上具有重要意义的实用化系统它们分别是军事科学院研制的科译1 号 K Y 一1 英汉机译系统和中科院计算所研制的面向通用领域的高性能英汉机译系统 I M T i E C 一8 6 3 科译1 号发展成为今天的译星系列机器翻译软件 I M T i E C 一8 6 3 发展成为今天的华建系列翻译软件在语言信息处理这一领域方兴未艾之际机器翻译又重新成为人们研究的热点 1 2 2 机器翻译技术的国内外研究现状舭技术在不断发展中主要形成了几种基本的研究方法基于规则 R u l e b a s e d 的方法基于语料库 C o r p u s B a s e d 的方法 4 1 以及计算机辅助翻译方法 1 1 基于规则的机器翻译方法基于规则的机器翻译 R u l e B a s e dM a c h i n eT r a n s l a t i o n 简称 R B M T 方法是传统的也是一直占主导地位的方法由于6 0 年代 C h o m s k y 提出的转换生成语法理论被广泛接受从6 0 年代到8 0 年代中主宰了自然语言处理以及语言学和心理学的研究不管是在欧美还是在中国基于规则的方法在机器翻译中一直占据主流地位的技术湖南师范大学硕士学位论文路线基于规则的机器翻译 R u l e B a s e dM a c h i n eT r a n s l a t i o n 简称R B M T 是到目前为止最成熟的应用最广的技术 R B M T 方法把翻译过程看作是一个在语言学知识引导下的符号变换通过这种方法要求把有关源语言和目标语言的知识以计算机可以看懂的形式表示出来基于规则的M T 方法是通过先构造供翻译用的词语信息库和句法语义规则库然后对源语言语句的词法语义语法和句法进行分析并进行判断和取舍重新进行排列组合最后生成目标语言这一过程是使用人工智能的理论建立系统和推理机模仿人脑翻译的过程通过语言现象的综合和认识不断总结其规律形成自己的语法和语义规则体系系统利用这些规则来分析输入的语言形成一种内部表示然后根据这种内部表示转换成相应的目标语言结构并形成译文基于规则的方法在M T 发展中起了极为重要的作用在国内有 8 6 3 一M T E C 英汉系统译星英汉系统 M a t r i x 英汉系统中科院计算所与北京大学计算语言学研究所联合研制的汉英机器翻译系统东方快车金山快译等在国外有乔治敦大学的机译系统法国格勒诺布尔大学的俄法机译系统加拿大的T A U M M E T E D 系统日本的A T L A S 法国纺织研究所的T I T U S I V 系统美国的S Y S T R A N 系统等但是随着研究者对M T 系统处理真实文本的不断测试发现由人工确定的有限规则难以翻译大规模的现实语句町而且基于规则的机器翻译系统需要庞大而复杂的规则库支撑规则的来源是专家的知识获取和维护耗时费力又无法避免冲突规则的获取和维护瓶颈难以跨跃导致基于规则的机器翻译系统质量几十年没有本质性提高在可以预见的将来靠获取全面的规则仍然是不现实的 2 基于语料库的机器翻译方法一 8 0 年代末以后随着语料库语言学的兴起基于实例的机器翻译 e x a m p l eb a s e dm a c h i n et r a n s l a t i o n E 蹦T 得到越来越多的研究 2 0 o 基于语料库方法的原理是利用统计学和概率方法建立一个包含各基于本体的英汉翻译记忆系统模糊匹配的研究种句型的对照语料库在翻译时从语料库中抽取与输入句子相类似的例句然后模仿例句来实现源语言与目标语言的转换采用这种技术能够得到可读性和准确性较好的译文但这种方法的难点在于庞大语料库构筑及其有效运行机制的建立这种技术目前己越来越受到重视并己在很多产品的开发中得到应用它包括基于统计的M T 方法和基于实例的机器翻译方法基于统计的M T 方法口最早由I B M 的研究者提出来主要特征是以概率统计与随机过程的方法这种方法的主要内容是双语句对的对齐通过词汇同现的可能性来计算一种语言的一个词映射到另一种语言的一个词的概率基于实例的机器翻译通常称以类比为特征的的语料库机器翻译方法基于实例的机器翻译 E x a m p l e B a s e dM a c h i n eT r a n s l a t i o n 简称E B M T 根据自然语言处理中的相似性原理模仿相似实例的翻译来实现源文的翻译嘧1 其基本思想是由日本著名的机器翻译专家长尾真 M a k o t oN a g a o 1 9 8 4 年在他的论文中提出的通过参考人的翻译过程计算机也运用类比的原则完成翻译即给定机器翻译系统一些例句及对应的译文系统一定能够根据一定的原则识别所给例句的相似和差异之处进而翻译 3 计算机辅助翻译 c A T 技术提供F A H Q T 全自动高质量的翻译一直是机器翻译研究者的理想目标然而这一目标还远未能实现 9 0 年代初期人们开始认识到尽管有希望实现对翻译引擎的最终改进但是目前最现实的选择是脚踏实地地改变机器翻译的形象翻译界认为机器翻译目前在精确翻译领域还没有能力实现全面的解决方案计算机辅助翻译被定位为翻译人员的有益的助手能够帮助那些不是翻译家的人获取理解并传播信息基于这一背景人们提出了机助翻译的方法该方法的技术核心是翻译记忆 T M 技术由于人的翻译是在过去经验的基础上进行的面对新的翻译对象时总是先回忆是否己经翻译过相同的语句或者是曾经翻译过非常相湖南师范大学硕士学位论文似的语句嘲1 随后将原翻译的有关信息和翻译知识应用到当前的翻译任务中翻译记忆 T r a n s l a t i o nM e m o r y 简称T M 技术就是以这个思想为出发点利用以前的翻译经验为新的翻译任务提供思路和信息在实际的翻译过程中我们常常会发现很多内容都和以前翻译过的相似甚至有相当一部分是完全相同的据统计在翻译同类文章特别是某类文档的不同版本时记忆功能非常有用最多可达到6 0 9 6 的内容不需翻译法国塔多思 T R A D O S 公司的翻译工具和中国北京雅信 C A T 翻译平台就是一种计算机辅助翻译系统从技术路线上看 T M 技术脱胎于基于实例的机器翻译方法n 町它以双语或多语标注语料库为基础通过人机交互实现翻译实例的记忆积累再通过类比匹配的方法建立基于记忆的目标译文由于采用了基于实例的知识表示方法 T M 技术较好地解决了知识获取的难题同时n l 技术并不试图取代翻译人员而努力成为他们的友好的助手避免翻译中的重复劳动维护翻译的一致性在实际应用中 T M 技术确实在避免重复劳动和维护翻译一致性方面有很好的表现 T M 技术通常通过三个阶段实现类比翻译处理 1 实例检索即通过翻译实例检索机制经过相似度计算从翻译实例库里抽取与输入内容最优匹配的翻译实例 2 类比映射即建立输入语句同翻译实例在不同语言单位上的对应关系这些语言单位包括字符单词短语子旬甚至句子 3 类比转换即通过译文构造机制利用检索得到的最优匹配翻译实例构造输入语句的译文事实上有些T M 应用提供的解决方案只执行到第二阶段就不往下处理了而只将相似度和对应关系表示出来从而明确表达出输入内容同翻译记忆源文的差异并将翻译记忆的译文直接推荐给用户由用户进行第三阶段的类比转换处理这种做法回避了类比译文构造的困难因而更容易实现基于本体的英汉翻译记忆系统模糊匹配的研究 1 3 目前机器翻译系统存在的问题随着人工智能和计算语言学的理论与技术的发展和进步机器翻译的方法与技术也得到了很大的提高与发展各种机器翻译方法为解决语言障碍做出了不可忽视的贡献但由于电脑与人脑有着本质性的差别加上自然语言表达的繁杂和不规范性以及各种机器翻译方法本身都具有不同程度的局限虽然语言学工作者与计算机专家想出了许多方法用电脑模拟人脑的功能与思维方式但是始终无法模拟出人类基于先验知识的那种单刀直入式的思维效果到目前为止机器翻译系统的翻译质量以及译准率仍然不尽人意基于规则的机器翻译系统需要庞大而复杂的规则库支撑规则的获取和维护瓶颈难以跨跃导致基于规则的机器翻译系统质量几十年没有本质性提高基于语料库的方法则需要构建庞大的语料库支持计算机辅助翻译系统它以人作为主体机器辅助人来进行翻译己在某些领域取得了良好的应用效果但是对于某些特定的领域如各种科技专业文献领域其难以满足实际需要问题主要表现在 1 翻译软件以通用性为主对特定领域的专业性术语并未做特定处理例如专业术语中有很多缩略词在一般通用型的翻译软件中是没有考虑的例如C P U 与p r o c e s s o r 系统不会认为其具有相似性 2 目前市场上的翻译记忆软件其句子匹配仍然以完全匹配或部分完全匹配为主很少考虑模糊匹配的情况机器翻译的研究进入了反思的理性阶段人们对机器翻译的研究开始有了一些新的认识 1 机器翻译最根本的是处理语义要让计算机能够模拟人脑必须使计算机能在理解的基础上进行翻译理解主要是语义上的理解必须要以定的知识为基础对自然语言的理解需要如下两大类知识第一大类为语言学知识第二大类为世界知识乜 2 在传统的机器翻译系统中知识库作为存储知识为翻译转换过程提供所需知识的地方仅包含了词典语法规则或语料信息这些知识仅是语言学方面的知识不能为语义分析提供所需要的知识所以虽然传统的机器翻译系统也称其具有理解自然语言的能力但是它的理解只停留在刺激一反映的层次上原因就是它的知识库中不包括第二大类知识一世界知识所以达不到真正意义上的理解也就无法很好的消除歧义为了能够更深层次的理解机器翻译系统的知识库中须包括世界知识而且这些知识应是结构化的形式化的不仅能够挖掘出语句中的深层的语义结构且能为机器翻译系统识别因此利用语义知识对自然语言进行语义分析有利于解决句法分析不能解决的歧义问题从而更好地理解语言使计算机基于理解来进行翻译 1 4 研究内容从指导思想上来说本文研究的目标是在受限领域内科技文献领域通过计算机辅助翻译的方法来改善目前传统的机器自动翻译的不足从技术层面上说本文研究着眼于将语言学和世界知识相结合引入本体技术从语义方面实现机器对语言表达的真正理解本文的研究内容如下 1 研究了机器翻译的发展现状和现有的技术方法分析了翻译技术中存在的阿题同时对本体工程理论进行了研究探讨了本体在机器翻译技术中的优势提出了将本体引入翻译记忆系统中的思想 2 对本体构造原则和方法进行了研究利用本体工具构建了一个面向科技文献英汉翻译这一特定领域的小型本体一计算机领域本体 3 对翻译测评中的模糊匹配策略进行了研究将其应用于辅助翻译的句子匹配中同时对本体的概念相似度算法进行了研究将本体中的概念相似度算法引入到模糊匹配算法中通过对现有模糊匹配算法的改进从语义上提高了系统检索相似语句的能力 4 对算法的可行性进行了实验测试并对两种算法进行了性能比基于本体的英汉翻译记忆系统模糊匹配的研究较分析 1 5 本文结构本论文共分5 章第一章为绪论阐述了课题来源研究背景和意义对机器翻译的研究现状和存在的问题进行了分析同时介绍了本文的研究内容第2 章为本体技术的相关研究综述介绍了本体的相关概念分类本体描述语言和工具并对本体在机器翻译中的作用及优势进行了分析第3 章对面向机器翻译领域的本体构建原则和方法进行了阐述构建了一个面向计算机专业文献翻译领域的本体第4 章对机器测评的模糊匹配算法进行了研究并通过第3 章构建的本体引入本体的概念相似度算法来提高句子中实词之间语义相似的准确度从而提高相似查找的匹配成功率第5 章是对前几章所研究的关键技术及算法进行了实验主要是对翻译记忆中的句子相似查找进行测试对几种算法进行性能比较分析各章的联系和全文的组织结构如图1 1 所示 l 第1 章绪论 I I 第2 章本体技术相关研究综述 l I第3 章术语本体的构建 i f第4 章基于本体的模糊匹配算法的研究 J I第5 章一个基于本体的模糊匹配的实验测试图卜l 论文结构图 F i g 1 1 s t r u c t u r eo fp a p e r 湖南师范大学硕士学位论文第2 章本体技术相关研究 2 1 本体概述 2 1 1 本体的定义 O n t o l o g y 最早是一个哲学的范畴后来随着人工智能的发展被人工智能界给予了新的定义然后最初人们对O n t o l o g y 的理解并不完善这些定义也出在不断的发展变化中比较有代表性的定义如表2 1 所示表2 1 典型的本体概念定义 T a b I 2 1T y p i c a Id e f i n i t i o no fO n t o I o g yC o n c e p t 范畴提出时间提出人定义哲学客观存在的一个系统的解释和说明客观现实的一个抽象本质计算 1 9 9 lN e e h e s 给出构成相关领域词汇的基本术语和关系机以及利用这些术语和关系构成的规定这些词汇外延的规则定义 1 9 9 3 G r u b e r 概念模型的明确的规范说明 1 9 9 7B o r s t 共享概念模型的形式化规范说明 1 9 9 8S t u d e r 共享概念模型的明确的形式化规范说明目前在人工智能领域普遍被接受的是S t u d e r 给出的定义知识本体是共享概念模型的形式化规范说明瞌该定义体现了 O n t o l o g y 的四层含义 1 概念化通过抽象出客观世界中一些现象的相关概念而得到的模型其含义独立于具体的环境状态 2 明确所使用的概念及使用这些概念的约束都有明确显式的定义 3 形式化知识本体是计算机可读的基于本体的荚汉翻译记忆系统模糊匹配的研究 4 共享知识本体中体现的是共同认可的知识反映的是相关领域中公认的概念集它所针对的是团体而不是个体 O n t o l o g y 的目标是捕获相关的领域的知识提供对该领域知识的共同理解确定该领域内共同认可的词汇并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义此外最近K a r l s m h e 大学的E r o l B o z s a k 等又提出了本体的全新描述 1 o 5 C 9 R o 虫在此定义中本体O 被描述为一个五元组即概念集C 关系集 R 基于C 的概念分类9 基于R 的关系分类5 R 以及关系R 到C 的映射函数其中C 为一个笛卡尔积即C C C 拳C C 宰C C 且 C 不包含空集 2 1 2 语言学本体的分类按照本体的研究主题本体可以分为通用本体领域本体语言学本体和任务本体嘲等由于本文的研究是与语言和词汇相关的因此我们这里主要讨论语言学本体 1 W o r d N e t 词网 W o r d N e t t 8 3 是传统的词典信息与现代计算机技术以及心理语言学的研究成果有效结合的产物从1 9 8 5 年开始 P r i n c e t o n 大学的一组心理词汇学家和语言学家着手建立一部英语词典数据库以概念为基本描述对象把表示相同概念的义项放在一起称为同义词集合用其反映概念名词在词典存储中是按主题的等级层次组织的动词按各种搭配关系来组织形容词和副词以N 维超空间组织 W o r d b l e t 最具特色之处是按语义关系组织的试图根据词义而不是词形来组织词汇信息因此它本质上是一个带语义信息的词典 W o r d N e t 咳0 画了概念间的反义上下义部分整体继承因果等语义关系从而得到一个语义关联网许多学者不断对其进行扩充湖南师范大学硕士学位论文完善利用w o r d N e t 进行义项消歧的研究不过w o r d n e t 的语义区别对实际的N L P 来说往往被认为太详细一些研究者试图减轻这个详细性还有一些研究者呻 3 为适应自己的需要构建了他们自己领域的词典知识基础 2 S U M 本体 S U M O S u g g e s t e dU p p e rM e r g e do n t o l o g y 2 1 是S U O 推荐的上层本体标准该本体因为通过把一些可以公开免费得到的本体内容合并成一个广泛一致的结构而得名由于顶层本体在本体的层次结构中处于最上层抽象程度最高是所有领域或者应用相关的本体的基础本体的研究者们需要一个较权威的标准来参考甚至作为指导 2 0 0 0 年1 2 月 I E E E 批准成立了S U O 工作组制定一套顶层本体的通用标准 R O s u M 0 3 知网 H o W n e t 知网是由其创建人董振东先生花费逾十年研究心血的重要成果是一个以汉语和英语的词语所代表的概念为描述对象以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库它是一个网状的有机的知识系统知网中概念分为事物类事件类属性和属性值数量和数量值次要语义特征和句法概念在概念的描述中包含同义反义对义上下义部分整体材料成品属性宿主事件角色等关系表示知网共提出7 1 种语义角色十分详细但其建立的概念之间关系的描述还不完备例如知网只给出了事物类概念和事件类概念之间的关系但对事件类概念和事件类概念之间的关系没有给出不利于解决汉语主动词的确定问题 2 2 本体工程的方法 2 2 1 本体构建原则目前已有的本体很多出于对各自问题领域和具体工程的考虑摹于奉体的英汉翻译记忆系统模糊匹配的研究构造本体的过程也是各不相同的由于没有一个标准的本体构造方法不少研究人员出于指导人们构造本体的目的从实践出发提出了不少有益于构造本体的标准一般认为 T R G r u b e r 1 9 9 5 1 提出了指导本体构造的5 个原则是比较有影响的较通用的 1 清晰 c l a r i t y 明确有效地表述概念知识的内容客观地和形式化地定义概念名称准确地表达概念的内涵尽可能地使用标准术语概念知识虽然是应用于计算机环境但本身却要独立于计算机环境所有的定义都应该具有自然语言的文本说明 2 一致 C o h e r e n c e 本体应该是一致的它应该支持与其定义相一致的推理所定义的公理以及用自然语言进行说明的文档都应该具有一致性 3 可扩展性 E x t e n d i b i l i t y 本体应该为可预料到的任务提供概念基础它应该可以支持在己有的概念基础上定义新的术语以满足特殊的需求而无须修改已有的概念定义 4 编码偏差程度最小 M i n i m a le n c o d i n gb i a s 概念的描述不应依赖于某一种特殊的符号层的表示方法因为实际的系统可能采用不同的知识表示方法如果不是知识内容的需要而是为了标注或实现上的方便而做出某种表示选择就可能导致编码偏差编码偏差应尽可能最小化因为不同的知识系统往往使用不同的知识编码分成等级只有最小的编码偏差才能使本体具有独立性 5 最小本体承诺 M i n i m a lo n t o l o g i c a lc o m m i t m e n t 本体承诺应该最小只要能够满足特定的知识共享需求即可这可以通过定义约束最弱的公理以及只定义通讯所需的词汇来保证当前对构造本体的方法及其性能评估还没有一个统一的标准不过在构造特定领域本体的过程中有一点是得到大家公认的那就是需要该领域专家的参与湖南师范大学硕士学位论文 2 2 2 本体的描述 2 2 2 1 本体的知识表示机制 O n t o l o g y 能够以一种显示形式化的方式来表示语义提高异构系统之间的互操作性促进知识共享目前人工智能领域主要从以下三个方面对O n t o l o g y 展开研裂 1 基于本体的知识表示一方面研究如何创建特定领域的本体领域知识一方面研究通用本体的创建方法通用知识 2 本体的形式化表示及推理研究用于表示各种本体的知识表示系统提供形式化方法和工具促进本体的共享和重用基于特定领域和通用本体的知识推理方法和实现手段 3 不同本体表示之间的转换和集成主要研究提供不同本体的比较框架研究不同本体的转换和集成方法提供不同本体间互操作的手段建立知识本体的目的是用于人类计算机对知识的共享和重用由于本体具有相对稳定性并且独立于具体应用所以针对知识本体的建模方法也不同于普通的概念化建模方法 P e r e z 等人用分类法组织了 O n t o l o g y 归纳出5 个基本的建模元语 M o d e l i n gP r i m i t i v e s 3 5 I 类或概念指任何事务如工作描述功能行为策略和推理过程从语义上讲它表示的是对象的集合其定义一般采用框架结构包括概念的名称与其他概念之间的关系的集合以及用自然语言对概念的描述 2 关系在领域中概念之间的交互作用形式上定义为1 3 维笛卡儿积的子集 R C l C 2 C n 如子类关系 s u b c l a s s o f 在语义上关系对应于对象元组的集合 3 函数一类特殊的关系该关系的前n 1 个元素可以唯一决定第n 个元素形式化的定义为F C 1 C 2 C n 1 一C n 如 M o t h c r o 蹴是一个函数 m o t h e r o f x y 表示Y 是X 的母亲基于本体的英汉翻译记忆系统模糊匹配的研究 4 公理代表永真断言如概念乙属于概念甲的范围 5 实例代表元素从语义上讲实例表示的就是对象从语义上讲基本的关系共有4 种如表2 2 所示表2 2 基于O n t o I o g y 建模的四种基本关系 T a b l e2 2F o u rk i n d so fR e l a t i o n sb a s e do nO n t o I o g y 关系名关系描述 p a n o f 表达概念之间部分与整体的关系 k i n d 硝表达概念之间的继承关系类似于面向对象中的父类与子类之间的关系 i n s t a n c e o f表达概念实例与概念之间的关系与面向对象中对象和类之间的关系类似 a t t r i b u t e o f表达某个概念是另一个概念的属性如价格是桌子的一个属性在实际建模过程中概念之间的关系不限于上面列出的4 种基本关系可以根据领域的具体情况定义相应的关系长期以来本体应用中分类结构不明确没有一个统一的分类标准不同的应用从各自的角度出发无限制地使用包含关系对概念进行各种分类使得概念分类的一致性和合理性难以得到控制在有关O n t o l o g y 的理论研究中最有代表性的是G u a r i n o 等人对概念的分类所做的深入和细致的研究他们从一般的意义上分析了什么是概念概念的特性概念之间的关系以及概念的分类提出了一套用于指导概念分类的可行理论 G u a r i n o 认为概念之间的差别不仅体现在概念的定义上同时也体现在概念的某些特性上从这些特性出发归纳出概念的元特性最基本的特性从而用公式给出元特性的严格的形式定义在此基础上他们又讨论了元特性之间的关系和约束最终把研究结果作为概念分类的基本理论工具并提出一套完成的概念分类体系结构 G u a r i n o 的理论可以归纳如下概念分类理论的基础是概念元特性以概念元特性为出发点按照一定的规则把具有相同元特性组合的概念归为一类进而给出一般意义上的概念分类体系概念基本元特性包括持久特性非持久特性反持久特性半持久特性载体标识特性支持标识特性外部依赖特性等湖南师藏大学硕士学位论文 2 2 2 2 本体的描述语言自上个世纪9 0 年代以来一些研究团体提出了一些不同的环境下的O n t o l o g y 语言用来构造更加完备的本体信息以支持自动推理这一领域比较突出的成果有O n t o l i n g u a P o w e r l o o m S H O E O I L D A M L O I L R D F S O W L 等其中O W L 是一种标准的基于 W 3 C 标准的O n t o l o g y i 吾割3 7 1 它在R D F 和R D F S 基础上通过增加更多建模原语来描述特性类以及它们之间的关系并针对特性提供了更加丰富的类型定义和属性描述 O W L 采用面向对象的方式来描述领域知识即通过类和属性来描述对象并通过公理 A x i o m s 来描述这些类和属性的特征和关系在本文中我们确定采用W 3 C 组织最新推荐的O W L O n t o l o g yW e b L a n g u a g e 作为我们本体的描述语言 O W L 分为以下三个层次 1 O W LF U L L 包括所有的O W L 词汇和R D F S 提供的原语能够提供最大程度的知识描述能力但由于过于复杂且还不成熟因此还在不断的更新中 2 O W LD L 提供大部分O W L 词汇和支持R D F S 支持并在语义上等同于描述逻辑D L D e s c r i p t i o nL o g i c s 3 O W LL i t e 是O W LD L 中相对容易实现部分的子集合只提供层次分类和简单的约束功能基于O W LD L 的特点以及它与描述逻辑之间的等同性将主要针对O W LD L 进行研究首先O W L 语言的表达能力体现在对类和特性的描述上即通过一系列的构造子 C o n s t r u c t o r s 来构造类和特性如表2 3 列出了0 w L 中新增的构造算子基于本体的英汉翻译记忆系统模糊匹配的研究表2 3O W L 中新增的构造算子 T a b l e2 3N e wc o n s t i r u t i 0 0A ri t h i n e r i co p e r a t o r si nO W l 构造子语法实例 h t e r s e c t i o n O f C t n n C A n i m a l n M a l e U n i o n O f C 1 U U c C o u r s 日US h e e p D o g C o m p l e m e n t O f C M a l e O n e O f X 1 X 2 口 F i d o E l n A 1 l V a l u e s F r o m P c V h a s C h i M D o g S o m e V a l u e s F r o m了P C 3 h a s P a r e n t h e e p D o g M a x C a r d i n a l i t y l h a s C h i l d M i n C a r d i n a l i t y B P 2 h a s C h i l d 表2 4 中定义的是O W L 中的公理模型这些公理能够进一步描述类和特性的特征和关系例如类和特性之间的等价关系 E q u i v a l e n t C l a s s E q u i v a l e n t P r o p e r t y 类和属性的层次关系 S u b C l a s s O f S u b P r o p e r t y o f 类之间的互斥关系 D i s j o i n t W i t h 特性之间的相反关系 I n v e r s e O f S a m e l n D i v i d u a l A s 和 D i f f e r e n t F r o m 两个公理用来描述相同的实例和不同的实例因为在 O W L 中相同的实例可以用不同的名字加以标示公理 T r a n s i t i v e P r o p e r t y 用来描述特性之间的传递性即一个特性如果具有传递性那么 P X Y 1 7 P Y Z P X z 如果一个特性P 具有F u n c t i o n a l P r o p e r t y 那么P X Y a n dP X Z 一 Y Z 如果一个特性具有I n v e r s e F u n c t i o n a i P r o p e r t y 那么P Y X a n dP Z X 1 Y Z 公理S a m e l n D i v i d u a l A s 和D i f f e r e n t F r o m 用来定义实例之间的关系湖南师范大学硕七学位论文表2 40 W 1 中的公理 T a b l e2 4 x i i r lO w 公理语法实例 S u b C l a s s o f c I c 2 D o g A n i m a lnm a m m a l E q u i v a l e n t C l a s s C l C 2 T o m c a t i C a t n M a l e D i 司碰w i l hc I CM a l e F e m a l e S a m e i

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于本体的英汉翻译记忆系统模糊匹配的研究.pdf

文档简介

温馨提示

最新文档

评论

基于本体的英汉翻译记忆系统模糊匹配的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档