




已阅读5页,还剩59页未读, 继续免费阅读
(教育技术学专业论文)受限域下动态几何自然语言作图方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r st h e s l s 摘要 伴随着信息技术的不断发展,新型的教育需求对传统教育方式产生了巨大的冲 击。传统教育方式越来越不能满足时代赋予教育的需求,为了保证教育的与时俱进, 迫切需要把不断发展的信息技术与比较稳定的教育方式结合起来,在信息技术与课 程整合的大潮流下,数学教育领域也出现了翻天覆地的变化,从传统的完全粉笔黑 板式教学逐渐过渡到使用p o w e r p o i n t 到使用动态几何甚至超级画板来教学。这种 新型的教学方式不仅能够培养学生的学习兴趣,提高课堂教学效率,而且为课外自 主学习提供了一个非常自由的平台。 然而,在利用几何软件实现数学教育教学的过程中,经常会遇到一些人机交互 问题。几何教学采用的典型教学方式是数形结合,教师根据几何定理、性质和命题 手动作出几何图形,通过对几何图形的度量、变换来证明几何结论,动态几何软件 在几何图形的动态变化方面起到了至关重要的作用,但是,动态几何软件不能准确 理解自然语言描述的几何命题,为了提高作图效率,减少人为工作量,实现动态作 图系统的自动化和智能化,需要采取相关手段来让计算机自动理解自然语言描述的 几何命题并将其转变为几何软件可以识别的形式化描述。然而,这种转换手段在现 有的几何软件中都没有得到比较好的解决,这为几何软件的自动化与智能化带来了 局限。 本文在分析了现有动态几何系统存在的问题并介绍了已有动态几何作图方法 的基础上,提出了一种与现有动态几何作图方法不同的作图方法,即受限域下动态 几何自然语言作图方法,按照该方法设计并实现了基于受限域动态几何自然语言作 图系统,主要研究工作有: ( 1 ) 几何词典与几何知识库的构建。本文构建的系统主要是针对初等数学教 学,几何词典和几何知识库主要来源于中学几何知识,通过对中学几何教材、教学 大纲以及丰富的教学资源进行分析,获取几何词典和几何知识库的内容,利用 o n t o l o g y 建模技术来构建一个几何学本体; ( 2 ) 几何元素识别及几何关系抽取。以几何词典和几何学本体为基础,找出 用自然语言描述的几何命题中的几何元素和几何关系; ( 3 ) 模式匹配算法及几何命令映射机制。把已经提取的几何元素和几何关系 进行语模匹配,经过语模匹配的几何元素和几何关系可以用几何语义来表示,利用 相应的映射机制实现几何语义向作图语义的映射。 论文的主要特色与创新之处在于: 硕士学位论文 m a s t e r st h e s i s ( 1 ) 在华中师范大学国家数字化学习工程技术研究中心开发的动态几何教学 软件的基础上,实现了动态几何软件对自然语言几何命题的理解; ( 2 ) 构建几何词典和几何知识库,生成形式化本体: ( 3 ) 构建关系模式规则,设计模式匹配算法,实现模式匹配和自然语言向作 图语义的转换; ( 4 ) 根据作图命令返回值,设计分句间作图命令融合算法,解决几何命令集 内部冲突。 关键词:动态几何作图;自然语言处理;模式匹配;命令映射 a b s t r a c t a 1 0 n gw 油n l ec o n t i n u o 吣d e v e l o p m e n to fi n f o n n a t i o nt e c h n 0 1 0 戥an e wt y i ) eo f e d u c a t i o n a ln e e d sh 弱m a d eag r e a ti m p a c tt 0t 1 1 e 仃a d i t i o n a le d u c a t i o n t 砌i t i o n a le d u c a t i o ni si n c r e 觞i n g l yu na _ b l et 0m e c tm ee d i l c a t i o n a in e e d st l l a te r ae n 仃u s t e d ,i no r d e rt o 胁s u r ee d u c a t i o na d v 锄c ew i t l l 廿l et i m e s ,t h e r ei sa nu 玛e n tn e e dt 0c o m b i n et h ed e v e l o - p i i l gi n f o 彻a t i o nt e c l l i l 0 1 0 9 y 拥de d u c a t i o n w i 廿lt 1 1 e 仃i e n di n 洫t e 伊a t i o nf o ri n f o 咖a t i o n t e c h n o l o 舒醐dc l l 玎i c u l u m ,m ef i e l do fm a t h e m a t i c se d u c a t i o nh 雒u n d e 唱0 n ee n o 玎n o u s c h a j l g e s ,t 1 1 e r ei sag r a d u a l 咖s i t i 彻自o mt h ec h a l k 锄db l a n l ( b o a r dt e a c h i n gt op o w e 巾。一 m tt 0d y i l a m i cg e o m e t 哆t 0s u p c rd r a w i n gb o a r d t h en e ww a yo ft e a c h i n gc 锄d c v e l o p s t u d e n t s i n t e r e s ti l ll e 锄i n g ,i m p r o v et 1 1 ee 衔c i e n c yo fc l a s s r o o mt e a c h i n g 锄dp m v i d ea 丘e ep l a t f 0 咖f o re x 缸眦嘶c u l a ri i l d 印e n d e n ts t u d y h o w e v e r ,i l l l eu s eo fg e o m 硎cs o f t w 盯e ,w eo r 朗e n c o u n t e rs o m ep r o b l e m st h a t h 眦n a n - c o m p u t e ri n t e r a c t i o n t h e 咖i c a l t e a c h i n go fg e o m e 奶,i sn u m b e ra n ds h a p ec 0 - m b 洒a t i o n t b a c h e 璐m a n u a l l ym a k e t h eg e o m e t r yb a s e do ng e o m e t r i cn l e o r e m ,t h en a t i l r ea n dt h ep r o p o s i t i o n d y n 枷i cg e o m e t 叮h 勰p l a y e dac n i c i a lr o l ei ng e o m e t i yc h 觚g e b u tn l ec o m p u t e rc 肌n o ta c c u r a t e l yu n d e r s t a n dt 1 1 eg e o m e t r i cp r o p o s i t i o nd e s c b e db y n a t u r a l l a n 粤l a g e nn e e d st ot a l 【em e a n st 0a l l o w t l l ec o m p u t e r 踟t o m a t i c a l l yt 0u n d e r s t a n dn a n i m ll 锄g u a g e 锄dc h a l l g ei ti i l t of 0 帅a ld e s c r i p t i o n b u ti nt h ee x i s t i n gg e o m e 仃y s o 小 ,a r e ,i td o e s n tg e tb e t t e rs o l u t i o n ,s ot h e r ei sl i m i t a t i o ni na u t o m a t i o n 锄di n t e l l i g e n t i ng e o m e t 哆s o 胁a r e t 1 l i sp 印e r 鲫a l y z e dt h ee x i s t i n gp m b l e m si nt 1 1 es y s t e mo fd y n a m i cg e o m e t i m 觚d d e s 嘶b c dt h ee x i s t c dm e m o d so fd y n a m i cg e o m e t r y p u tf o 刑a r d st h em e m o d t l l a tl i m i t e d d o m a i nd y n a m i cg c o m e 仃yn 狐l m l l a n g 岫g e 如1 w i n g ,d e s i 印e d 锄d 掀l l i z e dm ed y n a m i c g e o m e 奶,咖i n gs y s t e mb 硒e d 伽n a t u r a l l a n g u a g ep r o c e s s i n g t h em a i nr e s e a r c hw o r k 嬲f o l l o w s : ( 1 ) t h ec o n s 仃u c t i o no fd i c t i o n a 巧o fg e o m e 时a n dg e o m 硎ck n o w l e 电e b a s e t h i s p a p e rc 倪l s t m c t e ds y s t e mm a i n l yt om i d d l es c h o o l 髫i o m e t 呵k n o w l e d g e ,t h r o u g l lt 0t h e m i d d l es c h o o lg e o m e 仃yt c a c h i n gm a t e r i a l ,t e a c h i n gs y l l a b u sa n dr i c ht e a c h i n gr c s o u r c e s t 0c 踟yo n 廿l e 锄a l y s i s ,g e tt i l eg e o m e t r i cd i c t i o n a 巧锄dc o n t 朗to fg e o m e n yk n o w l e 电e b a s e ,u s i n go n t o l o g ym o d e l i n gt e c h n o l o g ) r t ob u i l dag e o m e 时o n t o l o g y ; ( 2 ) g e o m 硎ce l e m e i l t sr 。c o g n i t i o n 锄dg e o m e t r i cr e l a t i o n se x 打a c t i o n w i t hg e o m e t r i cd i c t i o n a 巧a n dg e o m e t r yo n t o l o g y 弱t h ef o 啪d a t i o n ,f i n do u tt h eg e o n l e t r i c a le l e m e n t 锄dg e o m e t r i cr e l a t i o n sd e s c r i b e di ng e o m e h yp r o p o s i t i o n s ( 3 ) p a t t e n lm a t c h i n ga l g o r i m m 柚dg e o m “cc o m m 锄dm a p p i n gm e c h 锄i s m nm t i c h e sl 锄g u a g em o d et og e o m 硎ce l e m e n t s 觚dg c o m e t r i cr e l a t i o n s h i p s ,g e tt h en a n 吼l 硕士学位论文 m a s t e r 。st h e s i s l a n 磬m g eo f m eg e o m e t 巧o fp r o p o s i t i 伽st 0t t l ef o m a lm l e s 锄dg e o m e t r i cq u 乏呲i t i e s ,b y m a p p i n gm e 印p r o p r i a t em e c h 觚i s m so fm er u l e so fg e o m 嘶cm a p p i n gt og e o m e 仃yc o - m m 锄d s k e yf e a t u r e sa n di 衄o v a t i o n so ft h ep a p e ra r et h e s c : ( 1 ) o nt l l eb 邪i so ft h ed e v e l o p m e n to fd y n 锄i cg e o m e 仃yo fc e n 嘲c h i n an o m a l u n i v e r s 时e n g i n e 丽n gr e s e 砌c e n t e rf o re l e 锄i n g ,a c h i e v et l l eu i l d e r s t a n d i n g 舶m n a t l l r a l l 卸g u a g et og e o m “cp r o p o s i t i o n s ( 2 ) b u i l dg m 嘶cd i c t i o n a d ,彻dg e o m e 仃yk n o w l e d g eb a s et og e n e r a t et 1 1 ef o 咖a l 0 n t o l o 弘 ( 3 ) b u i l dt h em l e so f t h er e l a t i o n a ls c h e m a ,d e s i g np a t t e mm a t c h i n ga l g o t h m s 锄d a c h i e v ep a t t e mm a t c h i n g 彻dm ec 佣v e 俗i o no fn a h 椭l l 锄g u a g es 锄a m i cm 印p i n g ( 4 ) a c c o r d i n gt 0m ep l o tc o 姗锄dr e t u l l l s ,d c s i 印c l a u s e si n t e r c l 0 p p i n gf i g u r c c o m m 锄dm s i o na i g o r i t l l mt 0s o l v et l l ei n t e m a lc 0 n f l i c t so ft l l eg e o m e t 叮c o m m 柏ds e t k e y w o r d s na _ t u r a ll 姐g u a g ep r o c e s s i n g ;p a t t 啪m a t c h i n g ;c o m m 锄dm a p p i n g : : 硕士学位论文 m a s t e r st h e s i s 1 1 研究背景与意义 1 绪论 随着信息技术的不断发展,新型的教育需求对传统教育方式产生了巨大的冲 击。传统教育方式越来越不能满足时代赋予教育的需求,为了保证教育的与时俱进, 迫切需要把不断发展的信息技术与比较稳定的教育方式相整合,在信息技术与课程 整合的大潮流下,数学教育领域也出现了翻天覆地的变化,从传统的完全粉笔黑板 式教学逐渐过渡到使用p o w e r p o i n t 到使用动态几何甚至超级画板来教学。 几何是数学学科中比较基础的课程之一,在初等数学几何教学过程中,数形结 合是广泛采用的方法,传统的粉笔黑板式教学方法应用于几何课程的教学时存在一 定的局限性:教师通过几何作图工具在黑板上作出的图形是静止不变的,不能体现 图形变换的特点;另外,教师在课堂上同时完成讲课和画图任务,降低了教学效率。 动态几何软件应用于数学几何教学领域之后,很好地解决了传统教学方式带来的局 限。利用动态几何教学软件,教师可以很快作出几何图形,而且只需要利用鼠标就 可以随意改变几何图形的位置,甚至改变几何图形中单个几何对象的位置,可以完 美地展示几何图形的动态变化特点。动态几何软件使原本固定、死板的数学几何图 形变得生动形象,图形的不断变化增强学生的视觉冲击力,培养学生的学习兴趣, 提高学生的求知欲,提升课堂教学效率,动态几何软件的应用增加了学生课外自己 动手学习的机会和主动性,同时为教师的科研提供了一个非常自由的平台。 然而,在利用动态几何软件实现数学教育教学的过程中,还是会遇到一些人机 交互问题。几何教学采用的是数形结合的教学方式,把用文字描述的几何定理、性 质、命题等用几何图形表示出来,通过对几何图形中几何对象的度量、变换来证明 根据几何公理推理出来的一些结论。目前,计算机还不能准确地理解用自然语言来 描述的几何命题,几何命题到几何图形的转换只能通过人工来完成。为了提高作图 效率,需要采取相关手段来让计算机自动理解自然语言描述的几何命题并将其转变 为几何软件可以识别的形式化描述。这种转换手段在现有的几何软件中都没有得到 比较好的解决,这为几何软件的自动化与智能化带来了局限。 智能计算就是要让机器能更好地和人进行交流,理解人的自然语言描述,甚至 能听懂人的口头语言描述,只有这样,才有可能让人与机器的交流更加自由方便。 现有的动态几何作图方法和动态几何作图软件虽然在作图方面已经日渐成熟,但是 并没有实现计算机对自然语言的自动理解,本文选择把自然语言理解技术和模式匹 配技术与动态几何作图原理结合起来进行研究,试图找出一种新的动态几何作图方 硕士学位论文 m a s t e r st h e s i s 法。 本文选题为受限域下动态几何自然语言作图方法研究,本文选题依托国家 8 6 3 计划知识浓缩与融合关键技术研究,在对已有动态几何作图方法进行学习的基 础上进一步作的研究。 选择本课题的研究意义主要体现在: ( 1 ) 受限域下动态几何自然语言作图方法的实现可以让计算机自动理解几何 命题,避免人工边理解几何命令边作图复杂的任务量,提高作图效率; ( 2 ) 本文提出的方法实现了自然语言处理技术和模式匹配技术在动态几何作 图系统中的应用; ( 3 ) 对于现有动态几何作图系统而言,实现动态几何作图系统的自动化与智 能化。 1 2 国内外研究现状 动态几何系统( d g s ,d y n 锄i cg e o m e n ys y s t e m ) 1 2 j 通常是指上世纪九十年代 发展起来的一个计算机几何作图环境,在这个几何作图环境下,使用者可以自由建 立点、线、多边形等几何元素并且可以定义这些元素之间的几何关系,对于已经构 建好的几何图形,使用者可以利用鼠标来改变各个几何元素的位置,虽然几何元素 的位置可以随意拖动,但是整个几何图形中各元素的几何关系始终保持不变。关于 动态几何系统的研究,国内外已经取得了一些实质性的成果。 从国内研究现状来看,中国科学院数学机械化中心研制成功的m m p 实现了几 何定理的自动证明、自动发现和几何图形的自动生成等功能,m m p 接受四种命题 输入方式:构造形式、代数形式、谓词形式和自然语言形式,也集成了多种证明方 法:例如面积法、吴方法以及演绎数据库法等。与几何专家相比较,它在几何 作图以及界面的友好方面都有了显著进步【3 】。中国科学院成都计算应用研究所开发 的平面几何教学软件嘉科平面几何实现了自动推理和智能解题功能。广州景中 教育软件有限公司开发了一款功能非常强大的几何教学软件超级画板,除 了实现图形光滑、智能画笔等平面几何功能外,还可以画函数图,实现测量和计算, 除此之外,它还包含了一个前推算法作为自动推理方法实现对图像的性质推理,产 生图形的几何信息,并把这些几何信息组织成数据库形式【4 】。华中师范大学国家数 字化学习工程技术研究中心开发实现的动态几何教学系统可以制作并绘制矢量图 形、动画,驱动矢量图形、动画,导出通用图片、动画及视频文件。 从国外研究情况来看,应该比较广泛的有几何画板、c i n d e r e l l a 、g e o m 咖 2 硕士学位论丈 m a s t e r st h e s l s e x p l o r e l 、g e o v i e w 以及几何专家等几款几何软件了。 几何画板( g e o m e t e ,ss k e t c h p a d ) 是一款非常成熟的作图软件,它为几何、代 数、微积分等数学分支提供了一个一般的作图工具,有着非常广泛的用户群1 5 1 。 在几何作图软件中,c i n d e r e l l a 能够产生很漂亮的几何图形,是一款非常优秀 的动态几何软件。它除了具有动态几何的特性以外,还有一个基于数值计算的定理 检测器,能够“发现”几何图形中的定理,c i n d e r e l l a 也能够产生可视证明,但是 由于它的自动证明和推理能力相当有限,因此c i n d e r e l l a 基本上还是作为一款动态 几何软件在使用1 6 7 j 。g e o m e n ye x p l o r e i 。由三个部分组成:动态几何、自动推理和可 视化推理过程瞵j 。g e 0 v i e w 首先是一个几何作图工具,它可以把输入的语句可视化: 任意输入一组几何约束语句,g e o v i e w 都可以自动产生作图顺序,生成几何图形, 产生非退化条件i 引。几何专家最早开发于1 9 9 2 年,原先是基于l i n u x 的0 l p e n w i n d o w s 环境,在1 9 9 7 年,高小山用c + + 语言重新实现了几何专家,推出了 w i n d o w s 版本。几何专家的推理能力是非常强大的,集成了吴方法、面积法、 全角法、推理数据库法、g r o b n e r 基法、向量法等多种不同的证明方法,虽然它的 自动证明能力达到了一定的高度,但是它的作图能力还是无法和几何画板等一些常 见的动态几何软件相比【1 o 1 1 ,1 2 ,13 1 。 通过对国内外相关研究现状的分析,可以得出以下结论: 第一,现有的动态几何软件的研究点主要侧重于几何作图、自动证明和自动推 理、可视化推理和代数计算等方面。 第二,部分动态几何软件的输入涉及到多种形式,如m m p 接受四种输入方式: 构造形式、代数形式、谓词形式和自然语言形式;g e o v i e w 可以把输入的语句可视 化:对于任意输入的一组几何约束语句,g e o v i e w 都可以自动产生作图顺序,生成 几何图形,产生非退化条件。 第三,几何软件对图形的处理主要体现在智能画笔和图形的动态变化等方面。 通过对国内外已有的动态几何系统以及相关理论知识的学习和研究,结合动态 几何在数学教育领域应用的相关特点,发现动态几何软件在处理自然语言方面还有 所欠缺。在动态几何应用于数学教学的过程中,教师和学生是软件的直接使用对象, 而这些直接使用对象对计算机技术并没有很深入的研究,因此,如何让应用软件提 供一种比较便利的方式来直接理解师生用最常见的描述提出的问题是本文研究的 关键。现有的动态几何软件都侧重于人工作图方面,对动态几何作图与自然语言理 解相结合的研究还没有形成比较成熟的体系。 3 硕士学位论文 m a s t e r st h e s i s 1 3 论文的研究内容 本文主要探讨了受限于下动态几何自然语言作图方法,并根据该方法设计并实 现了动态几何自然语言作图系统,自然语言处理技术和模式匹配技术是实现该系统 的主要技术方式,本文的具体框架结构图如图1 1 所示: 基本理论及技术基础 上 关键问题研究 几何词典 几何元素提取模式匹配 几何知识库 几何关系识别几何命令映射 构建 上 受限域下动态几何自然语言作图系统设计 图1 1 本论文框架结构图 1 4 论文的组织结构 本论文共分为六章,每章内容具体介绍如下: 第一章,绪论。本章主要介绍了本课题的研究背景和研究意义、国内外研究现 状、论文的主要工作以及论文的组织结构。 第二章,动态几何相关理论和技术基础。首先,简要介绍动态几何实现的原理 及其实现过程;然后,深入学习并研究了自然语言处理技术和模式匹配技术;最后, 对本体构建理论和技术作了比较系统的分析和总结。 第三章,受限域动态几何自然语言作图方法关键问题研究。本课题拟解决的关 键问题有三个:几何学词典及几何知识库的构建,几何元素提取及几何关系识别研 究,模式匹配算法及几何命令映射机制实现。本章通过对这三个关键问题的研究, 确立了对应问题的解决方案。 4 硕士学位论文 m a s t e r st h e s i s 第四章,受限域动态几何自然语言作图系统的设计。首先结合文献调研和系统 应用实践对当前不同类别的动态几何作图方法作出了比较系统而详细的描述。然后 根据本文提出的方法设计了一个受限域动态几何自然语言作图系统,对系统的功能 设计、系统架构设计、系统总体设计和数据库设计作了详细说明。 第五章,受限域动态几何自然语言作图系统的实现。针对系统功能模块的设计, 本章主要介绍对应模块的具体实现过程及部分代码表示,同时简要描述了系统的使 用流程,通过一系列的实例得到系统的性能测试结果。 第六章,总结与展望。本章在回顾论文的主要研究工作的基础上,同时指出在 论文研究过程中存在的问题以及可以进一步扩展的研究点。 5 一, 硕士学位论文 m a s t e r st h e s i s 2 动态几何自然语言作图原理及技术基础 2 1 动态几何自然语言作图理论基础 2 1 1 动态几何原理及其实现 ( 1 ) 动态几何的原理 动态几何软件在作图的过程中要求作出的图形具有动态性,也就是说,在修改 或拖动几何图形时要保证基本的几何关系不变。 例如,利用几何作图软件画一条线段,然后作出这条线段的中点,选中该线段 的某个端点,线段就会随着该端点一起移动,可以发现,线段的中点也会跟着移动, 但是中点这个几何特征始终不变。 从上面给出的实例可以看出,在手动拖动图形的几何元素时,图形会发生变化, 但图形中的几何关系不会改变。三等分点依然是三等分点,垂足依然是垂足。 在学习数学的时候,常常不可避免会遇到动态几何问题。动态几何问题就是用 运动变化的观点来探究几何图形的动态规律的一类问题。用运动变化的观点,创设 一个变化的情景,该情景是由某种静止的定态逐渐变化到按某一具体规则而运动, 通过观察和分析,归纳与总结,动中探静,以静制动,运动与静止相互协调,从这 个变化的过程中探求几何图形的本质、运动规律和解决方法,达到明确几何图形之 间的内在联系的目的。 ( 2 ) 动态几何的实现 动态几何图形主要靠动态几何作图软件来实现。动态几何软件主要是为用户提 供一个计算机作图环境,可以用来作几何图形,并实现几何作图的动态化n 引。动态 几何软件的使用者可以在该几何作图环境上自由建立点、线、多边形等几何对象并 且定义这些对象之间的关系;除此之外,使用者还可以利用鼠标任意移动几何对象, 不管如何移动几何对象,几何关系始终保持不变。 目前广泛使用的动态几何软件主要有几何画板和超级画板n 6 1 等,下面 简要介绍一下超级画板的主要功能。 超级画板n 是在中国科学院张景中院士的带领下开发的一款用于数学教学 的应用软件,它涵盖了数学教学领域多项内容,包括动态几何、符号运算和自动推 理等多项功能,除此之外,它还提供了一个编程环境,便于学习人员进行自主扩展 和开发。超级画板对解决各类数学教学中的问题都有很大的帮助,在概率统计、 代数运算、平面几何、解析几何、函数图像等方面都有涉及,因为范围广,智能作 6 硕士学位论文 m a s t e r st h e s i s 图也更加方便,功能更强大,变换也更为丰富。 2 1 2 本体构建理论 本体论n 踟( o n t 0 1 0 9 y ) 是从哲学领域发展过来的,哲学领域指出本体是一个系 统,用来解释世界上的一些现象。研究者在工程研究过程中,从知识共享的角度给 了本体论一个新的解释,指的是对客观存在的概念和关系的明确描述,具体包含 以下几层含义n 引: 概念模型( c o n c e p t u a l i z a t i o n ) ,是指按照一定的方式把客观世界中的一些现 象的相关概念描述抽象出来并依据相应的规则而构建的模型,该模型表示的含义与 某种特定的环境状态无关n 钏。 概念间的基本关系: p a r t o f :描述概念之间的继承关系; k i n d o f :描述的是概念与概念之间的类属关系,说明一个概念是另一个概念 的实例; i n s t a n c e o f :对象与类之间的从属关系; a t t r i b u t e o f :描述的是属性关系,描述一个概念的属性集合中包含另一个概 念的属性; 本体构建的基本原则: 明确( e x p l i c i t ) :要求定义明确, 的定义n 9 1 。 形式化( f o 瑚a 1 ) : 念和术语1 训。 即所使用的概念及其限制条件都要有明确 指的是用形式化的语言描述让计算机可以理解本体中的概 共享( s h a r e d ) :本体针对的对象群体是团体而不是个人,因此,本体需要反 映相关领域公认的知识。 构建本体的首要任务是搜集、分析和总结相关领域的知识,确定该领域内被共 同认可的词汇,给出词汇与词汇之间明确的相互关系,并提供对该领域知识的理解 模型。 o n t o l o g y 具有良好的概念和层次结构,通过给定概念的精确含义以及概念与概 念之间的关系来表示大家共同认可的、可被大众共享的知识。 根据不同的本体应用特征可以把本体分为以下几个基本类型: ( 1 ) 领域本体:主要针对的是某个具体的应用领域,采用一定的方式抽象出 该领域知识的内容和结构引,其中包括领域知识的概念、术语和类型,通过一定的 7 硕士学位论文 m a s t e r st h e s l s 限制条件对抽象出来的知识的内容和结构进行约束,以此作为该领域中描述具体知 识的基础。 ( 2 ) 通用或常识性的本体:主要针对的是世界上各种现象的常识和一般性知 识,这种本体可以跨领域使用。 ( 3 ) 应用本体:针对某种特定应用或者某个领域特定应用而构建的本体。 ( 4 ) 表示型的本体:主要用来描述本体知识的形式化表示方法,对应用领域 没有特定限制,这种本体主要提供一种框架,而不会具体描述需要表示的内容及内 容的表示方法。 依据不同类型本体的构建需求,本体构建方法也存在较大差异,领域本体构建 的方法可以分为:知识工程法、企业建模法、循环获取法、m e t h o n t o l o g y 、i d e f 一5 、 b e m e r a s e t a l 等。每一种本体构建方法都有各自的优点和缺点,参考文献她2 。 表2 1 本体构建方法 优点缺点 本体的构建框架和各阶每个步骤没有具体 段的指导方针都有参考的方法和技术表示 骨架法 价值;要求文档化;有 提出了一种本体获取的没有具体步骤描述 企业建模法 新方法;明确提出了需要和文档说明 解决的问题 循环获取法采用环状结构的开发思路没有具体的方法和技术 适合开发大型本体;提出没有具体的本体评估 m e t h o n t o l o g y 了要“撰写规格说明书;方法 并且详细描述了相关知 识来源及知识获取方法。 i d e f 一5提供两种互补的语言形每一步没有具体的描述 b e m e r a s e t a l 应用驱动的本体开发方缺乏文档化过程;不适 法,主要应用于电子网络合从无到有的本体构建 的开发 基于领域知识重用的采用手工交互操作与系没有从本体的深层次语 虚拟领域本体构造方 统自动分析相结合的方 义入手分析本体重用问 法题 法 8 硕士学位论文 m a s t e r st h e s l s 2 2 动态几何自然语言作图技术基础 2 2 1 中文分词技术 自然语言处理技术是一门比较特殊的学科,与社会科学和自然科学的许多主要 学科都有着错综复杂的联系啪,。 中文不同于英文,中文字与字之间没有用空格来区分,中文语言处理通常特指 以计算机为工具并采用可计算的方法来自动处理中文信息n 引。根据不同的标准,可 以把中文处理技术分为多种类别。按照语言处理技术的不同处理对象,把语言处理 技术可以划分为字处理技术、词处理技术、语句处理技术和篇章处理技术等等盟1 。 按照语言处理技术的应用领域,可以把语言处理技术划分为应用基础技术、应用技 术两大类旧1 。 本文在做研究的过程中,主要用到分词技术,下面对目前已有的中文分词技术 作一个比较系统的介绍。 ( 1 ) 中文自动分词方法介绍 目前广泛使用的中文分词方法可以归纳总结为基于词典的机械分词法、基于统 计的分词法和基于语义理解的分词法三大类滔1 。 1 、基于词典的机械分词法 基于词典的机械分词法,同时又被称为基于语言学知识的规则分词法,该分词 方法的基本思想是依据一定的算法将待分析的中文字符串与给定的机器词典中的 词条逐一进行匹配,如果在词典中找到与之相符的字符串,则匹配成功,辨识出该 词,它属于字符串匹配的一种分词方法。基于词典的机械分词通常是以分词词典为 基础,综合考虑相关语言学知识,由人工分析并制定出通用的词法规则、语法规则 或语义规则。由此可见,基于语言学知识的规则分词法最大的缺点就是人工分析制 定规则过程非常耗时耗力,并且人为主观因素掺杂其中,会降低分词的准确率。 在字符串匹配过程中,我们根据对字符串扫描方向的不同,可以把基于词典的 分词方法分为正向匹配方法和逆向匹配方法豳1 ;如果按照选择字符串长度的不同来 进行优先匹配,将该方法分为最大匹配方法和最小匹配方法。几种常用的机械分词 方法介绍如下: 1 ) 正向最大匹配分词方法 正向最大匹配分词( f o r w a r dm a x i m 岫m a t c h i n gm e t h o d ,简写为嗍) ,该分 词方法的基本思想是:对于给定的字符串,从字符串第一个字符开始,截取与分词 词典中最长词条相等的汉字个数来与分词词典进行匹配,若能找到该词,则切分出 9 硕士学位论文 m a s t e r st h e s i s 第一个词,从该词条的下一个词开始继续匹配,如果找不到该词,则去掉选取的字 符串的最后一个词,其他词构成子串继续进行匹配,如此反复循环,直到找到匹配 成功的词为止。 例如,有这样一个短语“课程与教学论 ,假设词典中最长词包含有5 个字,于 是截先取“课程与教学作为匹配字段,然后查找分词词典来匹配这个字段,由于 在词典中无法找到该词,因而匹配失败,接下来去掉最后一个汉字构成待匹配的字 符串为“课程与教 作为新的匹配字段,继续匹配词典,匹配失败,再取“课程与 作为新的匹配字段,来匹配词典,仍然失败,再去掉一个字,待匹配字符串变成“课 程”,由于词典中有“课程 一词,故而匹配成功,切分出第一个词“课程 。按照 同样的方法处理剩下的字符串,切分出第二个、第三个词, 2 ) 反向最大匹配分词方法 与f 删方法相对应的方法是反向最大匹配分词方法( b a c k w a r dm a x i m 姗 m a t c h i n gm e t h o d ,简称b 删) 。b 瑚分词方法与f 删相同,只不过是从待处理字符串 的最后一个字开始处理,如果遇到匹配不成功的情况就去掉待匹配当前字符串前面 的一个汉字。, 例如“课程与教学论 ,假设词典中词的最大长度为5 ,则首先取“程与教学论” 作为匹配字段来匹配分词词典,由于词典中找不到该词,结果匹配失败。然后去掉 前面的一个汉字,取“与教学论构成新的匹配字段,继续匹配,还是匹配失败, 最后,取“论 作为匹配字段,与分词词典匹配,分词词典中能够找到该词,匹配 成功,切分出第一个词“论,切分出的第二个词是“教学,依次向前匹配, 3 ) 最少切分法 最少切分法,就是要求字符串最后切分出来的词数最少。可以将上述f 删法和 b 删法相结合形成双向匹配法。一般情况下,从右到左的匹配切分精度要高于从左 到右的匹配切分精度,这样遇到的有歧义的词也比较少。在实际应用的分词系统中, 只是把机械分词方法作为一种粗分手段,通常还需要利用其他语言信息如语法和语 义信息来进一步提高分词的准确率。 2 、基于统计的分词法 为了解决语言处理中遇到的各种问题,基于统计的分词方法要先建立统计模 型,统计模型中的相关参数需要通过训练语料库来估算,把估算出来的参数值应用 到语言模型中解决分词问题。统计模型不仅有利于提高切分的准确率,而且可以发 现新词。基于统计的分词法的基本思想是:将待切分的语句进行全切分,得到所有 可能的切分结果,凭借语言模型计算出每种切分结果出现的概率,从计算结果中选 l o 硕士学位论丈 m a s t e r st h e s i s 出概率最大的词作为切分结果。不同的语言模型决定了概率的计算方法的差异。基 于统计的分词方法需要的参数值( 词性、词频信息) 可以从语料库中经过训练得到, 伴随着近年语料库的大规模建立,此方法的使用也越来越广泛。 基于统计的分词法具备良好的数学理论基础,并提出了一些消除歧义的方法; 大规模语料库能够提供充足的实例模型知识,应用也比较容易。从理论上讲,只要 语料库足够大,足够丰富,就能更系统、更客观的反映出语言学中的潜在规律。虽 然此方法具备很多优势,但也存在一些缺陷,由于大规模的标注语料库还不够完善, 它对自然语言的表示仍然比较简浅,而且,它表述的知识也不易被理解。 3 、基于语义理解的分词法 一般的分词系统,都努力在分词的时候消灭词之间的歧义切分问题,有部分系 统是在后续阶段消灭词之间的歧义切分,分词在整个过程中只是作为整个语言理解 的一个部分。它的思想就是在分词的时候,对一些句子的语法等进行分析,充分利 用已有的信息消灭词之间的歧义问题1 。基于语义理解的分词方法包含三个部分: 句子语法部分、分词部分、总控部分。分词部分在总控部分的帮助下,得到相关的 词或者句子的一些语法信息,来解决词语间的歧义问题。而由于中文语言知识的系 统性、复杂性,很难将各种语言信息转化成计算机可以直接读取的形式,故此方法 的应用还处于研究阶段。 以上论述了三种基本分词方法,具体描述了一些经典常用的分词方法,在实际 分词过程中,也可以采用其他分词方法,这些分词方法可以分为两类,机械分词和 非机械分词。机械分词的方法有“最佳匹配法( o p t i m 唧m a t c h i n gm e t h o d ) ”、“双 向扫描法 、“二次扫描法刀、“联想回溯法 、“有穷多层次列举法 、“设立切分 标志法 、“基于词频统计的分词法 等等。这些方法的基本思想均来自上述经典算 法,部分分词方法对经典算法进行了修改。 当前,基于语义的分词方法还在进一步深入研究中,在实际应用过程中,我们 经常把基于规则和基于统计的分词方法相结合,以分词词典为基础,利用统计学的 相关模型,来提高分词的精度。其中把规则分词和统计分词结合得较为突出的系统 是中国科学院计算机语言研究所研发的i c t c l a s 系统,它是目前分词效果最好的分 词工具,它主要运用层叠隐马尔科夫模型来提高分词的准确率,i c t c l a s 的分词精 度能够达到9 8 3 4 5 。该分词系统将词语、词性和词频构成分词词典的主要内容, 应用于1 9 9 8 年人民日报中,对日报内容作了分词和词性标注处理。 ( 2 ) 汉语自动分词系统 1 ) c d w s 硕士学位论文 m a s t e r 。st h e s i s c i ) w s ( t h em 6 d e r nw r i t t e nc h i n e s ed i s t i n g u i s h i n gw o r ds y s t e m ) 是j 匕京 航空航天大学计算机科学与工程系在1 9 8 3 年设计开发的,是我国第一个实用的自 动分词系统。c d w s 系统使用的是删分词方法,并在原有方法基础上对该分词方法 进行了改进,加入了一种检错技术对错误项进行修正。该系统有批处理和终端 对话两种工作方式,有两种操作方式:知识库启动和人工干预。其分词精度达到六 百二十五分之一,在惠普3 0 0 0 计算机上的分词速度每秒达到十一到十五字。另外, 北航在分词理论基础上做了进一步的深入研究,国内第一次论证中文自动分词的可 行性,并建立了对中文分词的一个计算模型,对分词过程中涉及到的一些理论概念 或者定义都有着很清楚的描述。最后还对产生歧义的一些词进行了归类。1 9 8 8 年该 系又研究制作了c a s s ( 中文自动分词系统) ,该系统采用的是正向的增字最大匹配 法a s m ( + l ,+ 1 ,1 ) ,该方法使得运行效果和范畴相比于之前的系统有了进一步的提 高。 2 ) 复旦分词系统 复旦分词系统是由复旦大学设计并实现的,主要包含四个模块:预处理,歧义 辨别,歧义字段处理和新词发现。预处理模块主要任务是把需要处理的中文切分成 比较短的词组;歧义辨别模块采用正向最小、逆向最大两种分词相结合的方法;歧 义字段处理模块采用已有信息和构词的基本方法来清除词语间的歧义;新词发现模 块主要解决因为未收录的新词情况而造成失误。经过多次试验结果证明,该系统对 中国的姓氏识别的正确率达到百分之七十,也能识别中文中的一些地名和特有领域 的专有词汇。 3 ) 哈尔滨工业大学统计分词系统 哈尔滨工业大学研发的系统是单纯采用统计的方法,该系统采用了词频统计和 词与词直接匹配的方法。此研发系统有三个部分:预处理部分、词频统计部分、切 割部分。我们对该系统进行了测试,得到的分词结果还比较正确,速度也比较快。 它
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新零售模式线上线下融合方案
- 兼职工作协议的注意事项
- 企业市场分析中的数据挖掘技术
- 2025年世界顶级几何题目及答案
- 浸出生产车间考试试题及答案
- 分数通分试题及答案
- 2025年善意的谎言辩论材料
- 2025年山西省晋中市事业单位工勤技能考试题库及答案
- CN120246490A 仓储系统、货架机器人、换电机器人及换电方法 (杭州海康机器人股份有限公司)
- CN120127918B 一种伺服电机定子冲片自动化叠片机 (江苏联博精密科技股份有限公司)
- 2025年三类人员安全员C证继续教育题库及参考答案
- 2025内蒙古锡林郭勒盟公安局招聘警务辅助人员95人考试参考题库附答案解析
- 急性肾小球肾炎
- 工程管理面试题目及答案
- 《一年级开学第一课》课件
- 2025秋人教版(2024)八年级上册英语一学期教学计划
- 会展推广的合同范本
- 武消院火灾调查B讲义01电气火灾调查
- 起搏器植入患者全程护理要点
- (2025年标准)会议代办协议书
- 工贸企业企业安全检查表
评论
0/150
提交评论