




已阅读5页,还剩65页未读, 继续免费阅读
基于本体的英汉翻译记忆系统模糊匹配的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
湖南师范大学 硕士学位论文 基于本体的英汉翻译记忆系统模糊匹配的研究 姓名 徐小娟 申请学位级别 硕士 专业 电路与系统 指导教师 汪鲁才 20070401 摘要 相似句子的匹配与查找是翻译记忆中的关键技术 其中语义的 表达和理解占据着非常重要的作用 本文将语义网中的本体技术引 入到翻译记忆系统中 来提高机器翻译的语义处理能力 论文介绍了机器翻译的研究发展现状和现有的技术方法 分析 了翻译技术中存在的问题 同时对本体工程理论进行了研究 探讨 了本体在机器翻译技术中的优势 提出了将本体引入到翻译记忆系 统中的思想 结合本体构建原则 方法和现有w o r d n e t 结构 研究了面向机 器翻译领域本体的构造方法 以计算机文献领域的专业术语为范围 构建了一个知识本体C S O 为相似语句的查找提供了一个语义空间 对机器测评中句子间的模糊匹配算法进行了研究 将其应用于 翻译记忆中的句子匹配中 对算法中存在的不足进行了分析 将本 体中的概念相似度算法引入到模糊匹配算法中 通过对现有模糊匹 配算法的改进 从语义上提高了系统检索相似语句的能力 对基于本体的模糊匹配算法进行了实验测试 验证了算法的可 行性 实验表明 通过引入本体 能够较全面地搜索到一些被忽略 的 语义相近的模糊词对 句子的相似度也得到了 定的提高 从 而提高了系统的匹配成功率 关键词 机器翻译 翻译记忆 本体 概念相似度 模糊匹配 A b s t r a c t M a t c ha n ds e a r c ho ft h es i m i l a rs e n t e n c ei so n eo ft h ek e y t e c h n o l o g i e si nt r a n s l a t i o nm e m o r y S e m a n t i ce x p r e s s i o na n d u n d e r s t a n d i n gp l a y sa ne x t r e m e l y i m p o r t a n tr o l e O n t o l o g y t e c h n o l o g yo fs e m a n t i cn e ti sp r o p o s e di nt h i sp a p e rS Oa st o i m p r o v et h es e m a n t i ca b i l i t yo fm a c h i n et r a n s l a t i o n T h er e s e a r c hb a c k g r o u n da n dt e c h n i c a lm e t h o d so fm a c h i n e t r a n s l a t i o na r ei n t r o d u c e dh e r e A n dt h ep r o b l e m se x s i t e di s a n a l y z e d M e a n w h i l e t h r o u g ht h er e s e a r c ho fO n t o l o g yt h e o r y t h e s u p e r i o r i t y o f O n t o l o g y i nm a c h i n et r a n s l a t i o ni s d i s c u s s e d a n dt h et h o u g h t o f O n t o l o g yi sa p p l i e d i n t r a n s l a t i o nm e m o r y C o m b i n i n gO n t o l o g yp r i n c i p l e m e t h o da n dw o r d n e ts t r u c t u r e t h eO n t o l o g yc o n s t r u c t i o nm e t h o df a c i n gm a c h i n et r a n s l a t i o n i ss t u d i e da n dak n o w l e d g eO n t o l o g yn a m e dC S Oi sc o n s t r u c t e d w i t h i nt h es c o p e o ft e r m i n o l o g y o fc o m p u t e r l i t e r a t u r e O n t o l o g yp r o v i d e sas e m a n t i cs p a c e i ns e m a n t i c s i m i l a rs e a r c h T h ef u z z ym a t c h i n gs t r a t e g yo fm a c h i n ee v a l u a t i o ni s a p p l i e di ns e n t e n c em a t c ho ft r a n s l a t i o nm e m o r y o fw h i c ht h e i n s u f f i c i e n c ye x i s t e di sp r e s e n t e d F u r t h e r m o r e t h ed e g r e eo f c o n c e p ts i m i l a r i t ya l g o r i t h mi su s e da sw e l lt oi m p r o v et h e a b i l i t yo fs e a r c h i n gs i m i l a rs e n t e n c e E x p e r i m e n t a lr e s u l t ss h o wt h a ta l g o r i t h mc a nf i n do u t n e g l e c t e dm e a n i n g f u lw o r dp a i r sf a i r l yw e l l T h ep r e c i s i o no f f u z z y m a t c h e dw o r dp a i r sa n dt h es e n t e n c es i m i l a r i t yi s i m p r o v e dc o r r e s p o n d i n g l yb yi n t e g r a t i n gt h ef u z z ym a t c h a l g o r i t h ma n dd e g r e eo fO n t o l o g yc o n c e p ts i m il a r i t y K e yW o r d s M a c h i n eT r a n s l a t i o n T r a n s l a t i o nM e m o r y O n t o l o g y C o n c e p tS i m il a r it y F u z z yM a t c h l I l 湖南师范大学学位论文原创性声明 本人郑重声明 所呈交的学位论文 是本人在导师的指导下 独立进行研究工作所取得的成果 除文中已经注明引用的内容外 本论文不含任何其他个人或集体已经发表或撰写过的作品成果 对本文的研究做出重要贡献的个人和集体 均已在文中以明确方 式标明 本人完全意识到本声明的法律结果由本人承担 学位论文作者签名 年月日 湖南师范大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留 使用学位论文的规定 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版 允许论文被查阅和借阅 本人授权湖南师范大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索 可以采用影印 缩印或扫 描等复制手段保存和汇编本学位论文 本学位论文属于 作者签名 导师签名 1 保密口 在 年解密后适用本授权书 2 不保密口 请在以上相应方框内打 日期 年月 日 日期 年月 日 基于本体的英汉翻译记忆系统模糊匹配的研究 第1 章绪论 1 1 选题背景和课题来源 随着经济全球化和互联网的发展 人们需要利用计算机处理各种 各样的信息 然而语言壁垒给人们接收和处理其他语言的信息造成了 很大的障碍 不同国家 民族之间越来越需要跨语言的交流 因此对 机器翻译的需求也越来越迫切 8 0 年代初 随着计算机技术和语言理论的不断进步 不断涌现的 新方法 新理论振兴了机器翻译的发展 但对于机器翻译中语义的表 达和处理 一真以来也没有找到比较理想的方法 机器翻译的先驱者 之 R e i f l e r 曾经说过 机器翻译最根本的是处理语义 虽然经过 多年的努力和探索 这个问题仍然没有得到有效的解决 本体的出现 为解决语义问题提供了新的思路 本体技术是9 0 年代在人工智能 知识工程领域兴起的一个新的研 究领域 作为一种知识表示 知识共享的工具 本体表达了独立于语 言的世界知识 恰好可以作为表达语言深层语义的一个有效手段 随 着其研究的不断深入和推广 一些研究者也开始将本体引入自然语言 领域 为表达和处理语义提供帮助 国外已出现了一些运用本体的机 器翻译系统 如M i k r o k o s m o s 7 S U M O c z l 在国内这个领域也有些学 者进行了尝试 如董振东教授的 知网 面向汉英自然语言处理系 统 嘲 王小捷的 基于O n t o l o g y 的英汉机器翻译系统 本文研究内容来源于省自然科学基金项目 基于本体分类的翻译 记忆系统的研究 0 5 J J 3 0 2 0 5 将知识工程和语义网的新方法一本 体引入到机器翻译系统中 对面向计算机辅助翻译领域的本体构建和 模糊匹配算法进行了研究 湖南师范大学硬士学位论文 1 2 机器翻译的研究进展 1 2 1 机器翻译的发展史 机器翻译 m a c h i n et r a n s l a t i o n 又称机译 M T 就是计算机 实现从一种自然语言文本到另一种自然语言文本的翻译陆1 是集语言 学 数学 心理学和计算机科学等多种科学的一门综合性科学嘲 机器翻译的研究自计算机诞生之初就被提出来了 1 9 4 6 年 计 算机诞生之初 英美两个工程师布斯 A D B o o t h 和韦弗 w W e a v e r 第一次提出了利用计算机进行语言自动翻译的想法 1 9 4 9 年 韦弗 在题为 翻译 的备忘录中 正式提出了机器翻译问题 1 9 5 4 年 美国乔治顿大学与I B M 公司合作 实现了世界上第一个淑系统 标 志着机器翻译从设想开始走向实践 从那以后 世界各国纷纷投入人 力物力进行机器翻译研究 机器翻译的发展 可以分为草创期 复苏期 发展期三个时期 在草创期 1 9 5 4 1 9 7 0 人们对机器翻译的复杂性估计不足 认 为好的译文可以通过查字典和重新排列词序两步操作来得到 在翻译 过程中很少进行句法处理 因此译文的可读性很差 难于付诸实用 1 9 6 6 年1 1 月 美国科学院发表了黑皮书 语言与机器 报告 简称 A L P A C 报告 对机器翻译采取否定的态度 认为机器翻译研究遇到了 难以克服的 语义障碍 在短期内无法研制出实用化的机器翻译系 统 A L P A C 报告的发表 使得世界上许多国家纷纷停止了对机器翻译 研究的支持 机器翻译的研究从此陷入低谷踟 在复苏期 1 9 7 0 1 9 7 6 C h o m s k y s 哺1 提出的转换生成语法在语言 学理论上取得了重大发展 机器翻译开始以基于转换的语法规则为 主 并且伴着人工智能的发展 不断在M T 研究中引入人工智能技术 人工智能方法的主要应用时语义表示和分析 知识库应用等 之后由 于计算机软硬件的飞速发展 计算机可读的大规模语料库越来越容易 获取 使得整个婀研究的视野发生了改变 标志着舡研究进入了一 基于本体的英汉翻译记忆系统模糊匹配的研究 个新的时期 繁荣期 1 9 7 6 一至今 以1 9 7 6 年加拿大蒙特利尔大学与联邦政 府翻译局联合开发的实用性机器翻译系统T A U MM E T E O 正式提供天气 预报服务为标志的m 1 之后许多发达国家相继投入了巨额资金开展全 国性和多国性的联合研究 如欧共体 欧盟前身 的E U R O T R A 日本的 M u 美国C M L 的机器翻译研究等 基于间接翻译的方法得到了更大的 发展 转换分析的层次从简单的语法层次发展到了语法和语义相结合 的更深层次 同时 还出现了其它基于实例和统计的翻译技术 我国的机器翻译研究始于1 9 5 6 年 是最早开展机器翻译研究的 国家之一n 1 1 但因为 文革 有过1 0 年的停滞 7 0 年代中期 我国 机器翻译研究从停滞走向了复苏 8 0 年代中期到9 0 年代初期产生了 两个在中国机译史上具有重要意义的实用化系统 它们分别是军事科 学院研制的 科译1 号 K Y 一1 英汉机译系统和中科院计算所研制 的面向通用领域的高性能英汉机译系统 I M T i E C 一8 6 3 科译1 号 发展成为今天的 译星 系列机器翻译软件 I M T i E C 一8 6 3 发展成 为今天的华建系列翻译软件 在语言信息 处理这一领域方兴未艾之 际 机器翻译又重新成为人们研究的热点 1 2 2 机器翻译技术的国内外研究现状 舭技术在不断发展中主要形成了几种基本的研究方法 基于规 则 R u l e b a s e d 的方法 基于语料库 C o r p u s B a s e d 的方法 4 1 以 及计算机辅助翻译方法 1 1 基于规则的机器翻译方法 基于规则的机器翻译 R u l e B a s e dM a c h i n eT r a n s l a t i o n 简称 R B M T 方法是传统的也是一直占主导地位的方法 由于6 0 年代 C h o m s k y 提出的转换生成语法理论被广泛接受 从6 0 年代到8 0 年代 中主宰了自然语言处理以及语言学和心理学的研究 不管是在欧美 还是在中国 基于规则的方法在机器翻译中一直占据主流地位的技术 湖南师范大学硕士学位论文 路线 基于规则的机器翻译 R u l e B a s e dM a c h i n eT r a n s l a t i o n 简 称R B M T 是到目前为止最成熟的 应用最广的技术 R B M T 方法把翻译 过程看作是一个在语言学知识引导下的符号变换 通过这种方法要求 把有关源语言和目标语言的知识以计算机可以 看懂 的形式表示出 来 基于规则的M T 方法是通过先构造供翻译用的词语信息库和句 法语义规则库 然后对源语言语句的词法 语义 语法和句法进行分 析并进行判断和取舍 重新进行排列组合 最后生成目标语言 这一 过程是使用人工智能的理论建立系统和推理机 模仿人脑翻译的过 程 通过语言现象的综合和认识 不断总结其规律 形成自己的语法 和语义规则体系 系统利用这些规则来分析输入的语言 形成一种内 部表示 然后 根据这种内部表示转换成相应的目标语言结构 并形 成译文 基于规则的方法在M T 发展中起了极为重要的作用 在国内有 8 6 3 一M T E C 英汉系统 译星 英汉系统 M a t r i x 英汉系统 中科 院计算所与北京大学计算语言学研究所联合研制的汉英机器翻译系 统 东方快车 金山快译等 在国外有乔治敦大学的机译系统 法 国格勒诺布尔大学的俄法机译系统 加拿大的T A U M M E T E D 系统 日 本的A T L A S 法国纺织研究所的T I T U S I V 系统 美国的S Y S T R A N 系 统等 但是随着研究者对M T 系统处理真实文本的不断测试 发现由人 工确定的有限规则难以翻译大规模的现实语句 町 而且基于规则的机 器翻译系统需要庞大而复杂的规则库支撑 规则的来源是专家的知 识 获取和维护耗时费力 又无法避免冲突 规则的获取和维护瓶颈 难以跨跃 导致基于规则的机器翻译系统质量几十年没有本质性提 高 在可以预见的将来靠获取全面的规则仍然是不现实的 2 基于语料库的机器翻译方法一 8 0 年代末以后随着语料库语言学的兴起 基于实例的机器翻译 e x a m p l eb a s e dm a c h i n et r a n s l a t i o n E 蹦T 得到越来越多的研究 2 0 o 基于语料库方法的原理是利用统计学和概率方法建立一个包含各 基于本体的英汉翻译记忆系统模糊匹配的研究 种句型的对照语料库 在翻译时 从语料库中抽取与输入句子相类似 的例句 然后模仿例句来实现源语言与目标语言的转换 采用这种技 术能够得到可读性和准确性较好的译文 但这种方法的难点在于庞大 语料库构筑及其有效运行机制的建立 这种技术目前己越来越受到重 视并己在很多产品的开发中得到应用 它包括基于统计的M T 方法和基 于实例的机器翻译方法 基于统计的M T 方法口 最早由I B M 的研究者提出来 主要特征是 以概率统计与随机过程的方法 这种方法的主要内容是双语句对的对 齐 通过词汇同现的可能性来计算一种语言的一个词映射到另一种语 言的一个词的概率 基于实例的机器翻译通常称以类比为特征的的语料库机器翻译 方法 基于实例的机器翻译 E x a m p l e B a s e dM a c h i n eT r a n s l a t i o n 简称E B M T 根据自然语言处理中的相似性原理 模仿相似实例的翻译 来实现源文的翻译嘧1 其基本思想是由日本著名的机器翻译专家长尾 真 M a k o t oN a g a o 1 9 8 4 年在他的论文中提出的 通过参考人的翻译 过程 计算机也运用类比的原则完成翻译 即给定机器翻译系统一些 例句及对应的译文 系统一定能够根据一定的原则识别所给例句的相 似和差异之处 进而翻译 3 计算机辅助翻译 c A T 技术 提供F A H Q T 全自动高质量的翻译 一直是机器翻译研究者的理 想目标 然而这一目标还远未能实现 9 0 年代初期 人们开始认识 到 尽管有希望实现对翻译引擎的最终改进 但是目前最现实的选择 是脚踏实地地改变机器翻译的形象 翻译界认为 机器翻译目前在精 确翻译领域还没有能力实现 全面的解决方案 计算机辅助翻译被定位为翻译人员的 有益的助手 能够帮 助那些不是翻译家的人获取 理解并传播信息 基于这一背景 人们 提出了机助翻译的方法 该方法的技术核心是翻译记忆 T M 技术 由于人的翻译是在过去经验的基础上进行的 面对新的翻译对象 时总是先回忆是否己经翻译过相同的语句 或者是曾经翻译过非常相 湖南师范大学硕士学位论文 似的语句嘲1 随后将原翻译的有关信息和翻译知识应用到当前的翻译 任务中 翻译记忆 T r a n s l a t i o nM e m o r y 简称T M 技术就是以这个 思想为出发点 利用以前的翻译经验为新的翻译任务提供思路和信 息 在实际的翻译过程中我们常常会发现 很多内容都和以前翻译过 的相似甚至有相当一部分是完全相同的 据统计 在翻译同类文章特 别是某类文档的不同版本时 记忆功能非常有用 最多可达到6 0 9 6 的 内容不需翻译 法国塔多思 T R A D O S 公司的翻译工具和中国北京雅信 C A T 翻译平台就是一种计算机辅助翻译系统 从技术路线上看 T M 技术脱胎于基于实例的机器翻译方法n 町 它以双语 或多语 标注语料库为基础 通过人机交互实现翻译实例的 记忆积累 再通过类比匹配的方法建立基于记忆的目标译文 由于采 用了基于实例的知识表示方法 T M 技术较好地解决了知识获取的难 题 同时n l 技术 并不试图取代翻译人员 而努力成为他们的友好 的助手 避免翻译中的重复劳动 维护翻译的一致性 在实际应用 中 T M 技术确实在避免重复劳动和维护翻译一致性方面有很好的表 现 T M 技术通常通过三个阶段实现类比翻译处理 1 实例检索 即通过翻译实例检索机制 经过相似度计算 从翻译实例库里抽取与 输入内容最优匹配的翻译实例 2 类比映射 即建立输入语句同翻 译实例在不同语言单位上的对应关系 这些语言单位包括字符 单词 短语 子旬甚至句子 3 类比转换 即通过译文构造机制 利用检 索得到的最优匹配翻译实例 构造输入语句的译文 事实上 有些T M 应用提供的解决方案只执行到第二阶段就不往 下处理了 而只将相似度和对应关系表示出来 从而明确表达出输入 内容同翻译记忆源文的差异 并将翻译记忆的译文直接推荐给用户 由用户进行第三阶段的类比转换处理 这种做法回避了类比译文构造 的困难 因而更容易实现 基于本体的英汉翻译记忆系统模糊匹配的研究 1 3 目前机器翻译系统存在的问题 随着人工智能和计算语言学的理论与技术的发展和进步 机器翻 译的方法与技术也得到了很大的提高与发展 各种机器翻译方法为解 决语言障碍做出了不可忽视的贡献 但由于电脑与人脑有着本质性的 差别 加上自然语言表达的繁杂和不规范性以及各种机器翻译方法本 身都具有不同程度的局限 虽然语言学工作者与计算机专家想出了许 多方法 用电脑模拟人脑的功能与思维方式 但是始终无法模拟出人 类基于先验知识的那种 单刀直入 式的思维效果 到目前为止 机 器翻译系统的翻译质量以及译准率仍然不尽人意 基于规则的机器翻译系统需要庞大而复杂的规则库支撑 规则的 获取和维护瓶颈难以跨跃 导致基于规则的机器翻译系统质量几十年 没有本质性提高 基于语料库的方法则需要构建庞大的语料库支持 计算机辅助翻译系统它以人作为主体 机器辅助人来进行翻译 己在某些领域取得了良好的应用效果 但是对于某些特定的领域如各 种科技专业文献领域 其难以满足实际需要 问题主要表现在 1 翻译软件以通用性为主 对特定领域的专业性术语并未做特 定处理 例如专业术语中有很多缩略词 在一般通用型的翻译软件中 是没有考虑的 例如C P U 与p r o c e s s o r 系统不会认为其具有相似性 2 目前市场上的翻译记忆软件其句子匹配仍然以完全匹配或部 分完全匹配为主 很少考虑模糊匹配的情况 机器翻译的研究进入了反思的理性阶段 人们对机器翻译的研究 开始有了一些新的认识 1 机器翻译最根本的是处理语义 要让计算机能够模拟人脑 必须使计算机能在理解的基础上进行翻译 理解主要是语义上的理 解 必须要以 定的知识为基础 对自然语言的理解 需要如下两大 类知识 第一大类为语言学知识 第二大类为世界知识乜 2 在传统的机器翻译系统中 知识库作为存储知识 为翻译转 换过程提供所需知识的地方 仅包含了词典 语法规则或语料信息 这些知识仅是语言学方面的知识 不能为语义分析提供所需要的知 识 所以 虽然传统的机器翻译系统也称其具有 理解 自然语言的 能力 但是它的理解只停留在 刺激一反映 的层次上 原因就是 它的知识库中不包括第二大类知识一世界知识 所以达不到真正意义 上的理解 也就无法很好的消除歧义 为了能够更深层次的理解 机 器翻译系统的知识库中须包括世界知识 而且这些知识应是结构化 的 形式化的 不仅能够挖掘出语句中的深层的语义结构且能为机器 翻译系统识别 因此利用语义知识对自然语言进行语义分析 有利于 解决句法分析不能解决的歧义问题 从而更好地理解语言 使计算机 基于理解来进行翻译 1 4 研究内容 从指导思想上来说 本文研究的目标是在受限领域内 科技文献 领域 通过计算机辅助翻译的方法来改善目前传统的机器自动翻译的 不足 从技术层面上说 本文研究着眼于将语言学和世界知识相结合 引入本体技术从语义方面实现机器对语言表达的真正理解 本文的研 究内容如下 1 研究了机器翻译的发展现状和现有的技术方法 分析了翻译 技术中存在的阿题 同时对本体工程理论进行了研究 探讨了本体在 机器翻译技术中的优势 提出了将本体引入翻译记忆系统中的思想 2 对本体构造原则和方法进行了研究 利用本体工具构建了一个 面向科技文献英汉翻译这一特定领域的小型本体一 计算机 领域本 体 3 对翻译测评中的模糊匹配策略进行了研究 将其应用于辅助翻 译的句子匹配中 同时对本体的概念相似度算法进行了研究 将本体 中的概念相似度算法引入到模糊匹配算法中 通过对现有模糊匹配算 法的改进 从语义上提高了系统检索相似语句的能力 4 对算法的可行性进行了实验测试 并对两种算法进行了性能比 基于本体的英汉翻译记忆系统模糊匹配的研究 较分析 1 5 本文结构 本论文共分5 章 第一章为绪论 阐述了课题来源 研究背景和 意义 对机器翻译的研究现状和存在的问题进行了分析 同时介绍了 本文的研究内容 第2 章为本体技术的相关研究综述 介绍了本体的 相关概念 分类 本体描述语言和工具 并对本体在机器翻译中的作 用及优势进行了分析 第3 章对面向机器翻译领域的本体构建原则和 方法进行了阐述 构建了一个面向计算机专业文献翻译领域的本体 第4 章对机器测评的模糊匹配算法进行了研究 并通过第3 章构建的 本体 引入本体的概念相似度算法来提高句子中实词之间语义相似的 准确度 从而提高相似查找的匹配成功率 第5 章是对前几章所研究 的关键技术及算法进行了实验 主要是对翻译记忆中的句子相似查找 进行测试 对几种算法进行性能比较分析 各章的联系和全文的组织 结构如图1 1 所示 l 第1 章绪论 I I 第2 章 本体技术相关研究综述 l I第3 章术语本体的构建 i f第4 章基于本体的模糊匹配算法的研究 J I第5 章一个基于本体的模糊匹配的实验测试 图卜l 论文结构图 F i g 1 1 s t r u c t u r eo fp a p e r 湖南师范大学硕士学位论文 第2 章本体技术相关研究 2 1 本体概述 2 1 1 本体的定义 O n t o l o g y 最早是一个哲学的范畴 后来随着人工智能的发展 被人工智能界给予了新的定义 然后最初人们对O n t o l o g y 的理解 并不完善 这些定义也出在不断的发展变化中 比较有代表性的 定义如表2 1 所示 表2 1 典型的本体概念定义 T a b I 2 1T y p i c a Id e f i n i t i o no fO n t o I o g yC o n c e p t 范畴提出时间提出人定义 哲学 客观存在的一个系统的解释和说明 客观现 实的一个抽象本质 计算 1 9 9 lN e e h e s 给出构成相关领域词汇的基本术语和关系 机 以及利用这些术语和关系构成的规定这些词 汇外延的规则定义 1 9 9 3 G r u b e r 概念模型的明确的规范说明 1 9 9 7B o r s t 共享概念模型的形式化规范说明 1 9 9 8S t u d e r 共享概念模型的明确的形式化规范说明 目前在人工智能领域普遍被接受的是S t u d e r 给出的定义 知识 本体是共享概念模型的形式化规范说明瞌 该定义体现了 O n t o l o g y 的四层含义 1 概念化 通过抽象出客观世界中一些现象的相关概念而得到 的模型 其含义独立于具体的环境状态 2 明确 所使用的概念及使用这些概念的约束都有明确 显式 的定义 3 形式化 知识本体是计算机可读的 基于本体的荚汉翻译记忆系统模糊匹配的研究 4 共享 知识本体中体现的是共同认可的知识 反映的是相关 领域中公认的概念集 它所针对的是团体而不是个体 O n t o l o g y 的目标是捕获相关的领域的知识 提供对该领域知 识的共同理解 确定该领域内共同认可的词汇 并从不同层次的 形式化模式上给出这些词汇和词汇之间相互关系的明确定义 此外 最近K a r l s m h e 大学的E r o l B o z s a k 等又提出了本体的全新 描述 1 o 5 C 9 R o 虫 在此定义中 本体O 被描述为一个五元组 即概念集C 关系集 R 基于C 的概念分类9 基于R 的关系分类5 R 以及关系R 到C 的 映射函数 其中C 为一个笛卡尔积 即C C C 拳C C 宰C C 且 C 不包含空集 2 1 2 语言学本体的分类 按照本体的研究主题 本体可以分为通用本体 领域本体 语言 学本体和任务本体嘲 等 由于本文的研究是与语言和词汇相关的 因 此我们这里主要讨论语言学本体 1 W o r d N e t 词网 W o r d N e t t 8 3 是传统的词典信息与现代计算机技术以及心理语言学 的研究成果有效结合的产物 从1 9 8 5 年开始 P r i n c e t o n 大学的一组 心理词汇学家和语言学家着手建立一部英语词典数据库 以概念为基 本描述对象 把表示相同概念的义项放在一起称为同义词集合 用其 反映概念 名词在词典存储中是按主题的等级层次组织的 动词按各 种搭配关系来组织 形容词和副词以N 维超空间组织 W o r d b l e t 最具特 色之处是按语义关系组织的 试图根据词义而不是词形来组织词汇信 息 因此它本质上是一个带语义信息的词典 W o r d N e t 咳0 画了概念间的反义 上下义 部分整体 继承 因果 等语义关系 从而得到一个语义关联网 许多学者不断对其进行扩充 湖南师范大学硕士学位论文 完善 利用w o r d N e t 进行义项消歧的研究 不过w o r d n e t 的语义区别 对实际的N L P 来说往往被认为太详细 一些研究者试图减轻这个详细 性 还有一些研究者呻 3 为适应自己的需要构建了他们自己领域的词 典知识基础 2 S U M 本体 S U M O S u g g e s t e dU p p e rM e r g e do n t o l o g y 2 1 是S U O 推荐的上层本 体标准 该本体因为通过把一些可以公开 免费得到的本体内容合并 成一个广泛 一致的结构而得名 由于顶层本体在本体的层次结构中 处于最上层 抽象程度最高 是所有领域或者应用相关的本体的基础 本体的研究者们需要一个较权威的标准来参考 甚至作为指导 2 0 0 0 年1 2 月 I E E E 批准成立了S U O 工作组 制定一套顶层本体的通用标准 R O s u M 0 3 知网 H o W n e t 知网 是由其创建人董振东先生花费逾十年研究心血的重要成 果 是一个以汉语和英语的词语所代表的概念为描述对象 以揭示概 念与概念之间以及概念所具有的属性之间的关系为基本内容的常识 知识库 它是一个网状的有机的知识系统 知网中概念分为事物类 事件类 属性和属性值 数量和数量值 次要语义特征和句法概念 在概念的描述中包含同义 反义 对义 上下义 部分整体 材料成品 属性宿主 事件角色等关系表示 知 网共提出7 1 种语义角色 十分详细 但其建立的概念之间关系的描述 还不完备 例如知网只给出了事物类概念和事件类概念之间的关系 但对事件类概念和事件类概念之间的关系没有给出 不利于解决汉语 主动词的确定问题 2 2 本体工程的方法 2 2 1 本体构建原则 目前已有的本体很多 出于对各自问题领域和具体工程的考虑 摹于奉体的英汉翻译记忆系统模糊匹配的研究 构造本体的过程也是各不相同的 由于没有一个标准的本体构造方 法 不少研究人员出于指导人们构造本体的目的 从实践出发 提出 了不少有益于构造本体的标准 一般认为 T R G r u b e r 1 9 9 5 1 提出 了指导本体构造的5 个原则是比较有影响的 较通用的 1 清晰 c l a r i t y 明确有效地表述概念知识的内容 客观地和形式化地定义概念名 称 准确地表达概念的内涵 尽可能地使用标准术语 概念知识虽 然是应用于计算机环境 但本身却要独立于计算机环境 所有的定义 都应该具有自然语言的文本说明 2 一致 C o h e r e n c e 本体应该是一致的 它应该支持与其定义相一致的推理 所定义 的公理以及用自然语言进行说明的文档都应该具有一致性 3 可扩展性 E x t e n d i b i l i t y 本体应该为可预料到的任务提供概念基础 它应该可以支持在己 有的概念基础上定义新的术语 以满足特殊的需求 而无须修改已有 的概念定义 4 编码偏差程度最小 M i n i m a le n c o d i n gb i a s 概念的描述不应依赖于某一种特殊的符号层的表示方法 因为实 际的系统可能采用不同的知识表示方法 如果不是知识内容的需要 而是为了标注或实现上的方便而做出某种表示选择 就可能导致编码 偏差 编码偏差应尽可能最小化 因为不同的知识系统往往使用不同 的知识编码分成等级 只有最小的编码偏差才能使本体具有独立性 5 最小本体承诺 M i n i m a lo n t o l o g i c a lc o m m i t m e n t 本体承诺应该最小 只要能够满足特定的知识共享需求即可 这 可以通过定义约束最弱的公理以及只定义通讯所需的词汇来保证 当前对构造本体的方法及其性能评估还没有一个统一的标准 不 过在构造特定领域本体的过程中 有一点是得到大家公认的 那就是 需要该领域专家的参与 湖南师范大学硕士学位论文 2 2 2 本体的描述 2 2 2 1 本体的知识表示机制 O n t o l o g y 能够以一种显示 形式化的方式来表示语义 提高异构系 统之间的互操作性 促进知识共享 目前 人工智能领域主要从以下 三个方面对O n t o l o g y 展开研裂 1 基于本体的知识表示 一方面研究如何创建特定领域的本体 领 域知识 一方面研究通用本体的创建方法 通用知识 2 本体的形式化表示及推理 研究用于表示各种本体的知识表示 系统 提供形式化方法和工具 促进本体的共享和重用 基于 特定领域和通用本体的知识推理方法和实现手段 3 不同本体表示之间的转换和集成 主要研究提供不同本体的比 较框架 研究不同本体的转换和集成方法 提供不同本体间互 操作的手段 建立知识本体的目的是用于人类 计算机对知识的共享和重用 由于本体具有相对稳定性并且独立于具体应用 所以针对知识本体的 建模方法也不同于普通的概念化建模方法 P e r e z 等人用分类法组织了 O n t o l o g y 归纳出5 个基本的建模元语 M o d e l i n gP r i m i t i v e s 3 5 I 类或概念 指任何事务 如工作描述 功能 行为 策略和推 理过程 从语义上讲 它表示的是对象的集合 其定义一般采 用框架结构 包括概念的名称 与其他概念之间的关系的集合 以及用自然语言对概念的描述 2 关系 在领域中概念之间的交互作用 形式上定义为1 3 维笛卡儿 积的子集 R C l C 2 C n 如子类关系 s u b c l a s s o f 在语义上关系对应于对象元组的集合 3 函数 一类特殊的关系 该关系的前n 1 个元素可以唯一决定 第n 个元素 形式化的定义为F C 1 C 2 C n 1 一C n 如 M o t h c r o 蹴是一个函数 m o t h e r o f x y 表示Y 是X 的母亲 基于本体的英汉翻译记忆系统模糊匹配的研究 4 公理 代表永真断言 如概念乙属于概念甲的范围 5 实例 代表元素 从语义上讲实例表示的就是对象 从语义上讲 基本的关系共有4 种 如表2 2 所示 表2 2 基于O n t o I o g y 建模的四种基本关系 T a b l e2 2F o u rk i n d so fR e l a t i o n sb a s e do nO n t o I o g y 关系名关系描述 p a n o f 表达概念之间部分与整体的关系 k i n d 硝 表达概念之间的继承关系 类似于面向对象中的父类与子类之间的关系 i n s t a n c e o f表达概念实例与概念之间的关系 与面向对象中对象和类之间的关系类似 a t t r i b u t e o f表达某个概念是另一个概念的属性 如 价格 是桌子的一个属性 在实际建模过程中 概念之间的关系不限于上面列出的4 种基 本关系 可以根据领域的具体情况定义相应的关系 长期以来 本体 应用中分类结构不明确 没有一个统一的分类标准 不同的应用从各 自的角度出发 无限制地使用包含关系 对概念进行各种分类 使得 概念分类的一致性和合理性难以得到控制 在有关O n t o l o g y 的理论研 究中最有代表性的是G u a r i n o 等人对概念的分类所做的深入和细致的 研究 他们从一般的意义上分析了什么是概念 概念的特性 概念 之间的关系以及概念的分类 提出了一套用于指导概念分类的可行理 论 G u a r i n o 认为概念之间的差别不仅体现在概念的定义上 同时也 体现在概念的某些特性上 从这些特性出发 归纳出概念的元特性 最 基本的特性 从而用公式给出元特性的严格的形式定义 在此基础 上 他们又讨论了元特性之间的关系和约束 最终把研究结果作为概 念分类的基本理论工具并提出一套完成的概念分类体系结构 G u a r i n o 的理论可以归纳如下 概念分类理论的基础是概念元 特性 以概念元特性为出发点 按照一定的规则 把具有相同元 特性组合的概念归为一类 进而给出一般意义上的概念分类体系 概念基本元特性包括 持久特性 非持久特性 反持久特性 半 持久特性 载体标识特性 支持标识特性 外部依赖特性等 湖南师藏大学硕士学位论文 2 2 2 2 本体的描述语言 自上个世纪9 0 年代以来 一些研究团体提出了一些不同的环境 下的O n t o l o g y 语言 用来构造更加完备的本体信息以支持自动推 理 这一领域比较突出的成果有O n t o l i n g u a P o w e r l o o m S H O E O I L D A M L O I L R D F S O W L 等 其中O W L 是一种标准的基于 W 3 C 标准的O n t o l o g y i 吾割3 7 1 它在R D F 和R D F S 基础上通过增加更 多建模原语来描述特性 类 以及它们之间的关系 并针对特性 提供了更加丰富的类型定义和属性描述 O W L 采用面向对象的方 式来描述领域知识 即通过类和属性来描述对象 并通过公理 A x i o m s 来描述这些类和属性的特征和关系 在本文中我们确定采用W 3 C 组织最新推荐的O W L O n t o l o g yW e b L a n g u a g e 作为我们本体的描述语言 O W L 分为以下三个层次 1 O W LF U L L 包括所有的O W L 词汇和R D F S 提供的原语 能 够提供最大程度的知识描述能力 但由于过于复杂 且还不 成熟 因此还在不断的更新中 2 O W LD L 提供大部分O W L 词汇和支持R D F S 支持 并在语 义上等同于描述逻辑D L D e s c r i p t i o nL o g i c s 3 O W LL i t e 是O W LD L 中相对容易实现部分的子集合 只提 供层次分类和简单的约束功能 基于O W LD L 的特点 以及它与描述逻辑之间的等同性 将主 要针对O W LD L 进行研究 首先O W L 语言的表达能力体现在对类 和特性的描述上 即通过一系列的构造子 C o n s t r u c t o r s 来构造 类和特性 如表2 3 列出了0 w L 中新增的构造算子 基于本体的英汉翻译记忆系统模糊匹配的研究 表2 3O W L 中新增的构造算子 T a b l e2 3N e wc o n s t i r u t i 0 0A ri t h i n e r i co p e r a t o r si nO W l 构造子 语法 实例 h t e r s e c t i o n O f C t n n C A n i m a l n M a l e U n i o n O f C 1 U U c C o u r s 日US h e e p D o g C o m p l e m e n t O f C M a l e O n e O f X 1 X 2 口 F i d o E l n A 1 l V a l u e s F r o m P c V h a s C h i M D o g S o m e V a l u e s F r o m了P C 3 h a s P a r e n t h e e p D o g M a x C a r d i n a l i t y l h a s C h i l d M i n C a r d i n a l i t y B P 2 h a s C h i l d 表2 4 中定义的是O W L 中的公理模型 这些公理能够进一步描 述类和特性的特征和关系 例如类和特性之间的等价关系 E q u i v a l e n t C l a s s E q u i v a l e n t P r o p e r t y 类和属性的层次关系 S u b C l a s s O f S u b P r o p e r t y o f 类之间的互斥关系 D i s j o i n t W i t h 特性之间的相反关系 I n v e r s e O f S a m e l n D i v i d u a l A s 和 D i f f e r e n t F r o m 两个公理用来描述相同的实例和不同的实例 因为在 O W L 中相同的实例可以用不同的名字加以标示 公理 T r a n s i t i v e P r o p e r t y 用来描述特性之间的传递性 即一个特性如果具 有传递性 那么 P X Y 1 7 P Y Z P X z 如果一 个特性P 具有F u n c t i o n a l P r o p e r t y 那么P X Y a n dP X Z 一 Y Z 如果一个特性具有I n v e r s e F u n c t i o n a i P r o p e r t y 那么P Y X a n dP Z X 1 Y Z 公理S a m e l n D i v i d u a l A s 和D i f f e r e n t F r o m 用来定义实例之 间的关系 湖南师范大学硕七学位论文 表2 40 W 1 中的公理 T a b l e2 4 x i i r lO w 公理语法实例 S u b C l a s s o f c I c 2 D o g A n i m a lnm a m m a l E q u i v a l e n t C l a s s C l C 2 T o m c a t i C a t n M a l e D i 司 碰w i l hc I CM a l e F e m a l e S a m e i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 多表连接查询技巧试题及答案
- VFP代码优化与性能提升试题及答案
- 物联网与网络工程试题及答案
- 公共政策在全球视野下的分析试题及答案
- 嵌入式软件工程与测试试题及答案
- 网络故障类型试题及答案研究
- 计算机嵌入式系统的挑战与对策试题及答案
- 机器人战斗班企业制定与实施新质生产力项目商业计划书
- 教育培训宣传折页设计行业跨境出海项目商业计划书
- 民间故事讲述馆行业跨境出海项目商业计划书
- 整形医院双眼皮培训课件
- Meta分析很全的课件
- 电商仓库流程及诊断
- 施工场地平整施工方案
- 静脉治疗课件
- NPUAP压疮指南更新的解读
- 2020年华为采购物料环保规范?V4
- IPQC制程检验流程图
- 进料检验报告单
- 2022年江苏省南京市中考历史试题(含答案)
- YYT 1182-2020 核酸扩增检测用试剂(盒)
评论
0/150
提交评论