




已阅读5页,还剩67页未读, 继续免费阅读
(计算机软件与理论专业论文)基于净室技术和hnc理论的自动程序设计体系的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
蘑庆大学硕士学位论文 中文摘要 摘要 自动程序设计是软件工程师的梦想。随着人工智能、认知科学的理论研究发 展,以及人们在软件生产领域的实践,许多特定领域的、自动、半自动程序设计 系统已经出现。自动程序设计系统是对人们在各相关领域研究与实践成果的综合 运用和系统总结,是软件生产的重要发展方向。 自动程序设计是人工智能的个重要分支,是人工智能各个研究领域中最为 复杂的一个。它的复杂性源于它的综合性:它涉及了人工智能中几乎所有领域的 研究,是这些研究领域成果的综合运用。因此,自动程序设计系统研究的发展主 要表现在相关领域研究的发展和集成体系结构的研究上。 当前实用的研究思路往往都是对实际应用中的软件生产过程的自动化研究, 考虑提高其自动化水平。净室技术是i b m 公司实际应用的软件生产技术,1 9 9 6 年 由卡内基一梅隆大学软件工程研究所进行了系统总结和研究,提出了净室软件工程 参考模型( c r m ) 。c r m 的特点是它的规范化的生产管理技术和设计方法,这种特 点使它十分适于作为软件生产自动化过程的基础蓝本。 从自然语言表述的需求和解法到计算机可以理解的程序设计语言代码,它们 之间的本质联系在于其共同的语义内涵,它们是分别从不同的角度、用不同的方 式对同一语义内涵的描述。从这个意义上说,语义研究是自动程序设计系统研究 的本质性问题。概念层次网络( h n c ) 理论,是关于自然语言理解处理的一个理论体 系,h n c 理论的研究已经从最初针对汉语语义的研究中得到了一个通用的、无语 种区分的语义理解理论体系,具有重要的参考价值。 本文综合了上述两个方面的研究,对自动程序设计系统的体系结构作了初步 探索,提出了一个基本框架,力求使它成为一个具有灵活性的系统集成平台,在 它上面运用多种知识表示、存储方式,允许根据知识类型选择合适的组织方式, 并对其底层进行了程序实现的实验研究。 关键词:c r m ,h n c ,自动程序设计,体系结构 重庆大学硕七学位论文 英文摘要 a b s t r a c t a u t o p r o g r a m m i n gi s t h ed r e a mo fs o f t w a r ee n g i n e e r w i t ht h ed e v e l o p m e n to f a r t i f i c i a li n t e l l e g e n c ea n dc o g n i t i o nt h e o r y , a sw e l la st h ep r a c t i c ei nt h ef i e l do fs o f t w a r e p r o d u c i n g ,m a n ya u t o m a t i co rs e m i a u t o m a t i cp r o g r a m m i n gs y s t e m s i ns p e c i a lf i e l dh a v e c o m e o u t a u t o - p r o g r a m m i n gs y s t e mi st h ec o m p r e h e n s i v eu t i l i z a t i o na n ds y s t e m a t i c a l s u m m a t i o no fr e s e a r c hw o r ka n dp r a c t i c ei na l lt h er e l a t i v ef i e l d s a l s oi ti st h e i m p o r t a n td i r e c t i o no f s o f t w a r ep r o d u c i n g a u t o p r o g r a m m i n gi sa ni m p o r t a n tb r a n c hi na r t i f i c i a li n t e l l e g e n c e ,a n dt h em o s t c o m p l e xo n ea m o n ga l l t h ef i e l d si ni t i t s c o m p l e x i t yi s b a s e do nt h es y n t h e s i s :i t i n v o l v e si na l m o s ta l lt h er e s e a r c hf i e l d si na r t i f i c i a l i n t e l l e g e n c e ,a n d i ti st h e c o m p r e h e n s i v eu t i l i z a t i o no f t h e m t h u st h ed e v e l o p m e n to f a u t o p r o g r a m m i n gs y s t e m r e s e a r c hi sm a i n l yr e p r e s e n t e db yt h ed e v e l o p m e n to fr e s e a r c hi nr e l a t i v ef i e l d sa n di n i n t e g r a t e ds y s t e ma r c h i t e c t u r e c u r r e n t l y t h e p r a g m a t i c i d e ai so f t e nt or e s e a r c hi nt h ea u t o m a t i o no f r e a ls o f t w a r e p r o d u c i n gp r o c e d u r e ,t oi m p r o v ei t sd e g r e eo fa u t o m a t i o n c l e a n r o o mt e c h n o l o g yi st h e r e a ls o , w a r e p r o d u c i n gp r o c e s s i ni b m i n1 9 9 6 ,t h es e i ( s o f t w a r e e n g i n e e r i n gi n s t i t u t e ) i nc a m e g i em e l l o nu n i v e r s i t yr e s e a r c h e di ni ta n db e c a m et h es u m m a r i s t s e ip r e s e n t e d t h ec r m ( c l e a n r o o m r e f e r e n c e m o d e l ) ,w h o s e c h a r a c t e ri st h en o r m a l i z e d m a n a g e m e n ta n dm e t h o dw h i c hm a k ei t av e r ys u i t a b l eb a s ef o rs o f t w a r ep r o d u c i n g a u t o m a f t o n f r o mr e q u i r e m e n t d e s c r i p t i o n i nn a t u r a l l a n g u a g e t oc o d ei n p r o g r a m m i n g l a n g u a g e ,w h i c hc a nb e r e a db y c o m p u t e r , t h ei n t r i n s i cr e l a t i o nb e t w e e nt h e ml i e si nt h e s a m es e m a n t i cc o n t e n t i nt h i s s e n s e ,s e m a t i c r e s e a r c hi st h ee s s e n c ew o r ko f a u t o p r o g r a m m i n gs y s t e mr e s e a r c h h n c ( h i e r a r c h i c a ln e t w o r ko fc o n c e p t s ) i sa t h e o r ys y s t e mo fn a t u r a ll a n g u a g eu n d e r s t a n d i n gp r o c e s s i n g , w h i c hh a sb e c o m ea g e n e r a lt h e o r yo fs e m a n t i cp r o c e s s i n gs y s t e mw i t hl a n g u a g ei n s e n s i t i v e i tc a nm a k ea d i f f e r e n c ei na u t o - p r o g r a m m i n gr e s e a r c h t h i sa r t i c l es u m su pt h ei d e a si nt h et w o a s p e c t s r e l a t e d a b o v e ,d o s es o m e p r i m i t i v er e s e a r c hi nt h ei n t e g r a t e ds y s t e ms t r u c t u r eo fa u t o - p r o g r a m m i n gs y s t e m i t p r e s e n t s ab a s i c f r a m e w o r k ,m a k i n g i tai n t e g r a t e d s y s t e mp l a t f o r m w i t hag o o d f l e x i b i l i t y :i tc a nb e a rm u l t i p l em e a n so f k n o w l e d g e r e p r e s e n t i n g ,s t o r i n g ,a n do r g a n i z i n g a c c o r d i n g t ot h e s p e c i a lt y p e o fk n o w l e d g e a l s o ,i th a sd o n es o m ep r o g r a m m i n g i i 重庆大学硕士学位论文 英文摘要 e x p e r i m e n t s o nt h el o wl e v e lo f t h ef r a m e w o r k k e yw o r d s :c r m ,h n c ,a u t o - p r o g r a m m i n g ,a r c h i t e c t u r e l l i 重庆大学硕十学位论文 1 绪论 i 绪论 1 1 软件生产社会化的方向 随着软件的开发从最初实验室里科学家们用个人技艺创造出的精湛的艺术品 到今天各个软件公司货架上包装精美最终走入千家万户的大大小小的商品软件, 人们已经认识到软件生产间其它社会生产一样,是一种社会活动,它的前景同其 它生产活动一样必然走向社会化大生产的道路。这需要解决两个主要的问题: 一一是劳动者之间的组织方式的问题;二是生产的工艺问题,就是要以一种什么样 的方法得到产品的问题。具体到软件生产来说,对第一个问题的同答就是一种管 理模式,对第二个问题的回答则是软件的设计方法。如果把种以减员增效、离 可靠性、低成本为目标的管理模式同一种以有效控制人的智力资源、以预制方式 引入人的智力资源为策略的软件设计方法相结合,就导致了“自动程序设计”这 一课题。因此,自动程序设计代表着软件生产社会化的一个方向。 1 2 与其它领域研究的关系 自动程序设计是人工智能的一个重要分支“,是人工智能各个研究领域中塌 为复杂的一个。它的复杂性源于它的综合性;它涉及了人工智能中几乎所有领域 的研究,包括自然语言理解、专家系统、机器学习、知识与知识的表示、推理、 搜索等等,是这些研究领域成果的综合运用。囡此,自动程序设计系统研究的发 展主要表现在相关领域研究的发展和集成体系结构的研究上。 另一方面,当前实用的研究思路。1 往往都是对实际应用中的非自动程序设计 运作体系的自动化过程的研究,考虑在这一非自动化过程中运用人工智能的一些 研究成果“这就必然涉及对当前软件生产过程的研究。这主要包括两个方面 的内容:一是软件生产管理技术:二是作为这种管理技术的基础的设计方法。 1 3 净室技术 净室技术是种实际应用的软件生产技术,是一个与c 删( 软件能力成熟度 模型) ”。完全兼容的技术和工程实践。净室的理论基础建立在2 0 世纪7 0 年代末 8 0 年代初,资深数学家和鹏m 客座科学家h a r l a nm i i is 阐述了将数学、统计学及 工程学上的基本概念应用到软件的设想”1 ,受e f l s g e rd i j k s t r a 关于结构化编程、 n i c h o l a s i r t h 关于逐步求精、d a v i dp a r n a s 关于模块化设汁的影响,m i 】1s 为 软件的工程化方法奠定了科学基础。1 9 9 0 年,r i c h a r dl i n g e r 创建了i b m 净室软 件技术中心,在此,净室方法、自动化及技术改变得到进一步改进。 重庆人学硕士学位论文 1 绪论 净室的规范化生产管理技术和设计方法,十分有利于自动化过程的实现,本 论文对自动程序设计系统的研究正是开始于对净室技术本质的分析。 1 4 概念层次网络理论 如果从语义的角度考虑自动程序设计过程,可以把原始的文字型需求描述作 为源语义层描述( 基于自然语言的语义层) ,选择一种程序设计语言作为目的语义 层的基础语义体系,得到最终源程序的整个设计过程就表现为从源语义层的表述 向目的语义层的个语义翻译、细化过程。在这样的过程中,语义的处理能力至 关重要。 概念层次网络理论4 3 ,是关于自然语言理解处理的一个理论体系。h n c 理论的 研究已经从最初针对汉语语义的研究中得到了一个通用的、无语种区分的语义理 解理论体系,这一点对于自动程序设计系统的研究具有重要意义。 1 5 论文工作重点 根据论文工作安排,在2 0 0 3 年3 月到2 0 0 4 年4 月的这段时间里完成的工作 重点包括: 净室技术的分析; h n c 理论的研究: 自动程序设计系统体系结构设计; 中层、底层软件设计。 2 重庆火学硕士学位论文 2 c r m 体系结构分析 2c r m 体系结构分析 2 1 c r m ( 净室参考模型) 简介咱1 训 净室软件工程参考模型( c r m ) ,是由美国卡内基一梅隆大学软件工程研究所 开发的,它把净室对应到软件能力成熟度模型( c m m ) 。c r m 用1 4 个净室过程和 2 0 个相关的工作产品表示。它体现了净室的主要技术和过程。c r m 既是净室项目 管理和执行、过程评估和改进以及技术的转换和选用的指导,又是净室实践继续 发展的基线。它为软件小组培训净室方法,为净室项目实施指明了方向。c r m 是 由软件项目管理、规范、开发和测试组成。c r m 的1 4 个净室过程如下所示: 净室管理过程:a 项目规划过程、b 项目管理过程、c 行为改进过程、d 工程变 更过程 净室规范过程:e 需求分析过程、f 功能规范过程、g 使用规范过程、h 体系结 构规范过程、i 增量规划过程 净室开发过程:i 软件再工程过程、k 增量设计过程、1 正确性验证过程 净室认证过程:m 使用建模和测试规划过程、n 统计测试和认证过程 它们的关系如下图所示; 图2 i 净室参考模型 f i g u r e2 1cr e a n r o o mr e f e r e n c em o d e l 3 重庆大学硕士学位论文 2c r i v l 体系结构分析 2 2 从设计角度对净室技术的分析 可以看到,c r m 的内容主要体现在以下三个方面: 管理 这包括了全部净室管理过程和净室规范过程的增量规划过程以及净室开发过 程的软件再工程过程。这样化分的目的在于管理要体现生产的计划性和进度安排 的定量性。 设计 这包括了净室规范过程和净室开发过程。设计是真正的生产性劳动,针对软 件开发这一特殊的生产活动给出了一个规范的步骤,在这一系列步骤中规定了何 时、以何种方式将劳动者的智力资源凝结到劳动产品中去。 认证 这包括了净室认证过程的全部。认证是管理的手段,这是一个独立的认证过 程,但又是基于设计的认证过程。 在上述三个方面中,“设计”是最为核心的。c r m 最本质的就是这样一个没计 过程,一个规范化的、面向一般性需求的软件生产方式,规范化和面向一般性需 求( 即通用性) 是工业化生产的要求。而“管理”和“认证”都是针对这一一过程 的计划、进度安排、工作成果的阶段性检查。因此,“设计”是主线。下面,就从 “设计”角度对净室技术进行以下几个方面的分析: 净室的设计过程 净室过程的总体构想 解法的引入点 归约过程、归约点 2 2 1 净室的设计过程盒子结构开发过程 1 l 】 定义系统需求 1 ) 加上标签的需求 确定和确认黑盒 1 ) 定义系统边界和确定所有的激励和响应 2 ) 确定黑盒映射规则顺序枚举 3 ) 同系统拥有者和用户一起确认黑盒 确定和验证状态盒 1 ) 确定状态数据和初始状态值典型序列分析 2 ) 确定状态盒变换功能 3 ) 从状态盒导出黑盒的行为,把导出的黑盒与原来的黑盒进行比较看是否等 价 4 重庆大学硕士学位论文 2 c r m 体系结构分析 设计和验证明盒 1 ) 设计明盒的控制结构和操作 2 ) 必要时嵌入新的黑盒或重用黑盒 3 ) 从明盒导出状态盒的行为,把导出的状态盒与原来的状态盒进行比较看是 否等价 对新的黑盒重复上述过程 2 2 2 净室过程的总体构想 总体构想是建立在递归的思想上的,即任何规模的需求都可以用净室方法分 解为较小规模层次上的若干小需求来解决,然后每一个较小规模的需求又可以再 用同样的方法分解为更多更小规模的需求,这样递归运用净室方法直至某一个事 先确定的基础语义系统为止。这种递归需要解决两个问题: 在某一规模层次上的问题如何分解的方法问题( 即递归的分解方式) 最基本规模层次上的问题解法的描述或实现的问题( 即递归的结束条件) 2 2 2 1 递归的分解方式 如前对于设计过程的阐述,净室的基本步骤【1 2 ) 就是这一问题的最好回答。从 需求一 黑盒一 状态盒一 明盒的过程中,问题分解的步骤主要体现在黑盒的构造上, 对某一个需求( 其实就是某一规模层次上的问题) 通过加标签实现初步分解,通 过激励与响应的黑盒枚举将需求进一步描述为一系列相关联的工作场景,这一系 列工作场景的集合与原需求是等价的,而其内部的各个场景又是独立的、相互联 系的。这样就实现了一个需求到多个工作场景( 即枚举序列) 的分解,分解的整 个过程并未结束,但分解的粒度在很大程度上是由这一步来决定的,以后在归约 问题中还将专门讨论这一阶段中激励、响应的选择对于粒度的影响,它是控制最 终产品规模、防止组合爆炸的重要手段。状态盒阶段,其实就是对每一个分解出 的子场景的精确描述阶段,对它要做什么作出了定义。然后在明盒设计阶段作出 一个判断:是否状态盒的一个条目已到达了语义支撑环境,即是否可以用语义支 撑环境语言的简单顺序组合加以实现。若不能,则明盒设计阶段就成为递归的引 入点,即将这一状态盒条目作为一个新的需求用同样的算法进行处理;若能够, 则用语义支撑环境加以解决。 22 22 递归的结束条件 这个问题实质上就是对能够用语义支撑环境顺序实现的状态盒条目如何用净 室方法实现的问题,这里把它称为功能性需求或是原子性需求的净室方法实现。 这是十分重要的语义支撑环境的解法引入点,是实现净室方法完整性的重要一环。 现举例说明如下: 5 重庆大学硕士学位论文 2 c r m 体系结构分析 表2 1 带有标签的功能性需求 标签需求 i 1 交换两个数 表2 2 功能性需求的激励 t 曲l c 2 2s t i m u l u s l 激励说明需求跟踪号 fs ( a ,b )a ,b 是激励的参数,分别指明要交换内容的 1 两个存储单元的“名”,这一激励导制内容被 i 交换 表2 , 3 功能性需求的响应 i 响应说明需求跟踪号 in u l l 对功能性需求把操作放在响应或状态变化内 1 i 部是一样的,这里不妨放在状态变化里实现 表2 4 功能性需求的序列枚举 序列响应等价需求跟踪号 长度0 e m p 下y n u l ld 1 先前已将要交换 的两个数放在a , b 两个名字的存储 单元中了 长度1 s ( a ,b ) n u l le t y1 表2 5 功能性需求的典型序列分析 典型序列状态变量当前激励前的值当前激励后的值 e m p t yaxx byy s ( a ,b ) axy byx 表2 6 功能性需求的状态变量分析 f 状态变量值域初始值 ia ( 把激励参数作为状态变量)数由原值决定 ib ( 把激励参数作为状态变最)数 由原值决定 6 重庆大学硕七学何论文2 c r m 体系结构分析 表2 7 当前激励s ( a ,b ) l 标签号当前状态响应状态更新黑盒跟踪:s 之前的序列 + c = a l , a = x n u l la = be m p w b = y b = c 明盒设计部分与标准的设计过程相同。 从上述示例可见:功能性需求的设计具有极为简单的激励、响应结构,甚至 呵以说是故意生搬硬套净室模型,但这是有意义的,以后的讨论将表明这是一个 普遍性的需求分解模型,功能性需求的设计只是作为这一模型的一个特例出现。 其实质性的内容是放在状态更新的设计中( 见上表中状态更新栏) 。对于交换的需 求产生出了要求个辅助内部变量的需求和顺序赋值的需求,在当前的分解层次 中,不妨认为这两个予需求是两个黑盒,或者是最底层的语义支撑实体( 在绝大 多数语言中部提供了“变量”和“顺序赋值”的实现) 。 222 3 求解问题的构架 从以上两方面的分析可以看到净室方法求解问题的构架: 对任意规模的需求完成一个递归的分解、求解过程,逐层向最终的、预先任 意指定的一个语义支撑实体上靠拢。( 当然这个语义实体必须是完备的) 可以用如下的形式化描述: 净室求解( 需求) 标识化需求 分析激励 分析响应 序列枚举 典型序列分析 状态变量分析 构造状态盒 明盒设计 对明盒中还不是语义支撑实体的黑盒,依次作为新的需求,递归调用 净室求解( 新需求) 2 2 3 解法的引入点 还应注意到净室的方法中包括了两大类逻辑解法的引入: 7 重庆火学硕士学位论文 2 c r m 体系结构分析 “选择”的引入 或者说是“分支”的引入。这是通过激励的化分、由激励构成序列直至 明盒控制流的实现来完成的。这也是这一方法给人的最直接的印象,它是一个“事 件驱动”的设计方法; “顺序”的引入 这是通过状态变量的分析、状态变换的设计直至明盒控制流中每一功能 流的实现来完成的。这正是容易被忽略的地方,而没有这方面的引入,净室方法 就不能适用于“功能性”的需求。 显然,如果具有了分支和顺序的逻辑,就不难实现循环了。在净室整体构架 中没有内、外之分,只有层次的不同,任何所谓的”内部循环”其实就是上层的 黑盒,要实现它只需把它做为下一层中的需求来分析就变成了“外部的循环”,依 然可以用“分支”和“顺序”来实现了。 因此,净室方法中包含了结构化程序的3 个必备要素:顺序、选择、循环。 2 2 4 归约过程、归约点 净室方法的本质是穷举。 需求! ! ! ! ! 竺( r ,s )式( 2 1 ) r 是工作场景的集合 s 是各个工作场景的关系集,这是一个用二元组表示的树关系 甚至可以考滤一种极限的情况:以时间和空间作为四维空间,再加上并行性 一维,形成五维坐标,用这五维坐标足以描述世间的任何需求。以这五维空间的 一个点作为一个工作场景,那么r 就是这一需求在五维坐标中的一个点集,s 是 关系集。这种极限的情况表明净室方法的通性它可以在这样的极限小粒度状 况下描述任一需求。 但是并非所有需求都需要用这样小的粒度来描述。用小粒度的描述的唯一好 处是它可以适应大粒度无法描述的需求( 即保证通用性) ,而它的坏处就是其实现 成本的极剧增长,可能导致组合爆炸、项目失败。大粒度可以有效降低实现的成 本,甚至成为一个可以描述的需求能否实现的决定性因素。因此,粒度的选择, 应当遵循这样一条原则: 原则1 在能够描述需求的前提f ,尽可能扩大粒度。 通用性与实现成本是一种近似的正比关系: 公式1 净室因子= 通用性实现成本式( 2 2 ) 扩大粒度实质上就是一个抽象思维的过程,在此称之为归约过程。本质 ! 二说净室方法就是提供了一种有效的归约方法,将极细粒度可以描述、但不可能 实现的需求,通过抽象与归约,转化为较大粒度可以描述、同时又能以较低成本 8 重庆大学硕+ 学位论文 2 c r m 体系结构分析 实现的需求。上述可以图示如下: 图2 2 粒度对净室实现的影响 f i g u r e2 2e f f e c to f p a r t i c l es c a l e 图中粗黑箭头所指的方向就是净室的归约方向。 可以看出这里所讨论的净室方法的特征是“较大粒度”、“较低成本”,净室方 法是否能够达到“最大粒度”、“最小成本”则是归约的极限性证明的问题了,下 面仅对归约点行分析。 净室的归约点大致分布在三个位置: 定义系统边界激励与响应 不同的激励响应集的确定必然导致枚举序列的不同,一个激励、响应集基础 上的枚举序列可能对应另个激励、响应集基础上的若干枚举序列,而不同的枚 举序列又将最终导致不同的最终产品的规模( 代码量) 和复杂程度。值得注意的 是:在这里的“失之毫厘”,必将导致最终产品的“差之千里”更简明的激励、 响应集设计很可能导致最终产品代码量的几十甚至上百倍的缩小,而它们在功能 e 是等价的。因此,应把握这样一个原则: 原则2 在实现功能的前提f ,设计火粒度的激励、响应集。 这是对原则1 的一个具体化。 状态归约过程状态变量集 在典型序列分析中,用变量来封装每一激励序列的条件。这些变量可视为系 统的状念数据。对相关变量的典型序列进行检查可得到每个变量的范围。对每一 典型序列,变量值的组合是唯一的,这使得在分析完成时典型序列都是不相交的。 从上述对状态变量的设计原则中可以看到:状态变量设计的基本要求是能够 i 唯一的区分每典型序列的条件。是否还有附加的原则呢? 9 重庆大学硕士学位论文2 c r m 体系结构分析 假定有两组状态变量集,它们的不同点只可能是变量的个数以及变量的值域。 它们针对同一组典型序列都能满足唯一区分的要求,分别以它们为基础设计状态 盒、明盒直至最终产品代码,如果在明盒设计阶段仅作相同程度的归约的话,那 么可以断言它们的最终代码的繁简程度是不同的。状态变量数目多、值域大的方 案必将导致后期设计的繁杂、紊乱,最终影响产品代码的数量级、质量。因此, 在状态变量的设计中,可以附加这样的原则: 原则3 在唯一区分每一典型序列条件的前提下,设计数蕈少、值域狭窄的 状态变量集。 这就是状态归约过程。它指的是通过某种方法将一组状态变量的特定取值组 合唯一的标识出来,当然直接用状态变量组中每一变量的赋值状况也可以达到同 样的目的,但用这种方法能够更加简略,而在这里的简略将最终反映到产品代码 的繁简程度上去,甚至可以避免组合爆炸以决定一个系统的成败。 使用“规范函数”的方法就是一个有效的归约过程。规范函数是一个从基本 激励集到激励集的映射,这样激励集被划分成两个子集:基本激励集和抽象激励 集。它以激励和前缀条件为参数,映射到一个新的激励。通过前缀条件的判断, 引入了对复杂激励系统中各激励之间的横向关系的描述,同时包含了对系统当前 状态的判断。规范函数是围绕每一个事物属性对象构造的,它的内在复杂性比简 单状态变量更高,可以说状态变量是规范函数的一个特例,这一特例是在每一事 物属性之间没有联系的情况下得到的。但规范函数更加完整的描述了属性之问的 相互关联、依赖性,这是更加符合实际情况的,具有更广泛的适应性。同时更为 重要的是这种方法同简单状态变量表示法一样,体现了“归约”的思想,从逻辑 上说就是一种“抽象”过程,在序列枚举完成后,在达到同样的区分效果的原则 下,将达到同样效果的序列( 或者说是与之对应的状态) 加以归并,抽象出它们 之所以会产生相同效果的本质特征,形成为规范函数,这就大大简化了程序语义 的表述,对以后的程序实现起到了至关重要的作用。构造规范函数,体现了人类 的抽象思维过程,是人的智力劳动的引入点。 控制流归约过程明盒控制流 在明盒设计阶段,控制流的设计 1 3 , 14 】基本上是一个机械的过程; 1 0 厦庆大学硕士学位论文2 c r m 体系结构分析 图2 3 明盒控制流设计过程 f i g u r e2 3c l e a rb o x c o n t r o lf l o wd e s i g n 但在这一机械的选择执行的控制流上也可以作一些等价的调整f 15 1 。这种 调整本质上是针对某一种特定的语言环境,以依靠充分发挥语言的特色来求得产 品性能的提高为目的的。 2 3 小结 本文提出的净室设计方法的总体构想,将净室的方法从其模型范例【1 6 】中剿离 出来,对其本质进行研究,才能从自动程序设计的角度去考虑净室过程的自动化 方案。事实上,本论文的全部研究工作最初就是净室过程的全部或局部自动化方 案的研究。 从设计角度对净室技术的分析表明:净室技术的本质在于从需求出发不断向 着预先确定的、最终语义支撑实体的推进过程。 解法的引入点实际上是控制流知识的引入过程。 而规约过程则指明了向最终语义支撑实体的推进过程中为确保其收敛性的基 本原则。 重庆人学硕士学位论文3 h n c 理论分析 3 矾c 理论分析 3 1 h n c 理论对自动程序设计系统研究的意义 i - 1 n c 是h i e r a r c h i c a ln e t w o r ko f c o n c e p t s ( 概念层次网络) 的简称,是关于自 然语言理解处理的一个理论体系。 玳c 理论的研究已经从最初针对汉语语义的研 究中得到了个通用的、无语种区分的语义理解理论体系,这一点对于自动程序 设计系统的研究具有重要意义。因为在本论文所研究的自动程序设计体系结构中 采用了以知识聚类划分中间语义层、从最初的需求语义层到最终的计算机系统支 撑语义层分层推进的模式( 如下图) 。 ( k n o w l e d g es e ta )( k n o w l e d g es e tb ) ( k n o w l e d g e s e tc ) 图3 1 自动程序设计体系结构 f i g u r e 3 1a u t o p r o g r a m m i n gs y s t e ms t r u c t u r e 语义层之问的数据流是包含了上层知识的中间表述,每个中间层处理要作的 首先就是对输入的中间表述的语义的把握,然后才能加入本层的知识形成f 一层 的中间表述,直至形成程序。h n c 提供了语义把握的途径:对每个中间表述都看 作独立的具有某种特征的语言( 这种语言可能支持表结构、数学符号、英文、中 文等) 的表述,用h n c 的语义网络对其进行处理。它带来了体系结构的灵活性: 首先是本层知识表示的灵活。在同种“语言”中( 即本层的知识库的表述中) , 允许有多种表达同语义的方式,而由下一中间层的h n c 处理模块实现对所有这 些不同表达方式所蕴含的相同语义本质的唯一理解。这带来了本层知识库建设的 便利性。 另外它也有利于各个知识聚类所形成的中间语义层的组合使用。对于特定的 需求,要根据其涉及的领域从总体知识库中选取适当的知识聚类组成顺序的中间 语义层链,各个知识聚类形成的中间语义层是否能够上下对接决定了整个体系结 构的实用性。例如,在下图的知识聚类a 和b 中都要用到知识聚类c 中的语义t ( 对语义t 的知识表述在c 中) ,而在a 和b 中又由于本类知识的特点采用了不 同的表达方式,这就要求c 的h n c 理解处理对这两种表示形式得到同一的语义把 1 2 叫 一 。卜肼莹僦丁慨 一b 一 眦 m j 面工一譬删m 孽 脚竺 重庆大学硕士学位论文 3h n c 理论分析 握。正是由于h n c 的这种对语义本质的把握能力,实现了各知识聚类模块问的柔 性对接,这种组合运用方式使知识在多个领域需求项目丌发中的重用成为i ,能一 这是自动程序设计系统体系结构中知识库设计的目标之一。 k n o w l e d g e s e ta k n o w l e d g e s e tb 图3 2 知识聚类的组合 f i g u r e 3 ,2c o m b i n a t i o no f k n o w l e d g e s e t 3 2h n c 理论与传统计算语言学理论的不同m 西方语言学理论总的来说是在形态语言的基础上建立起来的1 9 0 0 1 ,汉语是 非形态语言,用形态语言的理论去描写非形态的汉语是不对路的,解决不了汉语 信息处理的句法分析问题。h n c 理论完全摆脱了现有的这套语法学束缚,从语言 的深层入手,以语义表达为基础,为汉语理解开辟了一条新路,提出了可供工程 实现的完整的自然语言理解的理论框架,是一个面向整个自然语言理解的强大而 完备的语义描述体系。这个理论体系的基本思路与传统计算语言学理论有本质的 不同,如下表所示: 表3 ih n c 与传统计算语言学的比较 t a b l e 3 1h n c c o m p a r e w i t hc o n v e n t i o n a lm e t h o d s 比较内容传统方式 h n c 句f 构成单元短语语义块 句子表述模式句法树句类物理表示式 每一模式的构成单元数量不定 确定 模式总数量不可穷尽已穷尽 句子分析方式句法分析句类分析 分析所依附的基本知识词性和句法成分概念联想脉络 理解处理所运用的知识句法知识为纲句类知识为纲 知识表示方式英语词语为主h n c 符号,全数字化 词义表示语义原语h n c 符号 1 3 重庆大学硕十学位论文 3h n c 理论分析 ( 续前表) 词义表示通用性无,与语种有关通用,与语种无关 知识库结构鱼一多层面 复杂特征集以概念层面知识为纲,以语言知 识为目 语境尚无对策可自动生成 解模糊能力及语句合理性判断能弱强可接近常人水平 力 方法论以综合与统计为主以演绎和验证为主 可以看出,h n c 试图对立足于西方语法学理论体系的自然语言理解处理方案 进行全面的改革,建立一种模拟大脑语言感知过程的自然语言表述模式和计算机 理解处理模式。 3 3h n c 理论的基本思路任“ h n c 理论的目标是建立一个模拟人类语言感知过程的理论模式。人对语言。的 理解本质上是一种认知行为,如果能够描述大脑认知结构的具体模式,计算机就 可以运用该模式对自然语言进行理解处理。h n c 理论把人脑认知结构分为局部和 全局两类联想脉络,认为对联想脉络的表述是语言深层( 即语言的语义层面) 的 根本问题。局部联想是指词汇层面的联想,全局联想是指语句层而的联想。理解 句子有两种思路:一是从组成句子的词语入手,一是从句子的整体结构和上下文 语境入手,前者是局部联想,后者是全局联想。h n c 理论的出发点就是运用两类 联想脉络来“帮助”计算机理解自然语言。 3 。4 局部联想脉络五元组和语义网络口羽 局部联想是词汇层面的联想,自然语言的词汇是用束表达概念的,因此,h n c 建立的局部联想脉络体现为一个概念表述体系,这个概念表述体系可以简单概括 如下:把概念分为抽象概念和具体概念,对抽象概念用五元组和语义网络来表达, 对具体概念采取挂靠展开近似表达方法。 概念有抽象与具体之分。从深层来看,抽象概念比具体概念更具有基元性、 系统性,更容易表达;具体概念是客观存在物在人的思维中的一种直接反映,它 里面包含了许多世界知识,而对世界知识是很难进行详尽表达的。但是人对具体 概念理解和认识的深度可以比抽象概念浅,所以可以采取实用原则,“不求甚解”。 h n c 理论侧重于抽象概念的表达。 1 4 重庆大学硕士学位论文 3 h n c 理论分析 h n c 理论通过五元组和语义网络层次符号来完整的表达抽象概念,前者表达 抽象概念的外在表现,后者表达抽象概念的内涵。 抽象概念需要从动态、静态、属性、值和效应五个侧面加以表达,这就是抽 象概念的五元组特性,简记为;( v ,舀u ,z ,r ) 特性,它们是抽象概念多元性表现的基 元。任何抽象概念都具有五元组特性,即都需要从五个侧面加以表达,不过,对 某个抽象概念各个侧面的表达,自然语言中未必都有相应的词语,而且不同语种 间存在着差别。反过来,自然语言中一个表达抽象概念的词语必定是从五元组中 的某个或某几个侧面来表达某个抽象概念。例如,“思考、思维、想法”就是分别 从五元组的v g ,g ,r 侧面对同一概念内涵的表达。五元组是词性的本质内容,是词性 的基元。 为表达抽象概念的内涵,h n c 设计了三大语义网络:基元概念语义网络、基 本概念语义网络和逻辑概念语义网络( 参见附录b ) 。语义网络是树状的分层结构, 每一层的若干节点分别用数字来表示,网络中的任一个节点都可以通过从最高层 开始、到该节点结束的一串数字唯一的确定,这个数字串叫做层次符号。三大语 义网络是抽象概念的三大聚类。 基元概念语义网络的一级节点分为两大类;一类是主体基元概念;另一类是 复合基元概念。 主体基元概念有6 个一级节点,分别是作用、过程、转移、效应、关系、状 态,它们构成作用效应链。作用效应链反映一切事物的最大共性。作用存在于一 切事物的内部和相互之间,作用必然产生某种效应,在达到最终效应之前,必然 伴随着某种过程和转移,在达到最终效应之后,必然出现新的关系或状态。过程、 转移、关系和状态也是效应的一种表现形式。新的效应又会引发新的作用,如此 循环往复,以至无穷,这就是宇宙间一切事物存在和发展的基本法则,也是语言 表达和概念推理的基本法则。 这6 个环节的源头是作用,结果是效应【23 1 。自然语言的主要内容就是对这6 个环节进行局部和总体的具体表述,对句类的划分就是以此为标谁的,作用效应 链既是用于表达概念的语义网络的核心,又是划分句类的标准,换句话说,它既 是局部联想脉络的基础,又是全局联想脉络的基础,两个联想脉络通过它联系起 来,所以,在一定意义上可以说作用效应链是h n c 的理论基础。 复合基元概念主要涉及人类活动,这是因为,自然语言是人类交际的工具, 其主要表达对象是人类活动而不是自然现象【2 “。复合基元概念总共设置了8 个一 级概念节点,根据人类活动的语境特征化分为三个层次,即生理本能活动、一般 理智活动和社会性活动。 基本概念语义网络共有9 个一级概念节点,序及广义空间、时间、空问、数、 1 5 重庆大学硕士学位论文3 h n c 理论分析 量与范围、质与类、度、客观的基本属性、含主观评价的基本属性。 逻辑概念语义网络分为两类:一类是语言逻辑概念,大体上相当于汉语的虚 词,有1 1 个一级概念节点,分为语义块区分标志符、语义块组合标志符、语义块 及句| t 日j 关系说明符三类。这1 1 个一级节点的划分主要基于它们对语义块感知及句 类辨议的作用,而不是它们的语法特性。另一类是基本逻辑概念,有两个一级概 念节点:比较和基本判断。 三大语义网络为表达抽象概念的内涵而设计,最终将用它来描写自然语言词 汇的语义,但网络本身却不是直接面向自然语言词汇的,而是面向构成词汇语义 的概念基元的,适用于任何语种。网络上的任何节点本身都是概念,但这些概念 都是庞大的概念海洋里的“元素”,即它们都是概念基元,通过各种方式的组合而 构成各种各样的、无数的概念,h n c 定义了8 种组合结构,用以表达复合概念。 三大浯义网络建立了语言深层概念的网络,它是一个整体的设计,是一个完 整的系统,它各个节点下的网络都形成相关联的概念的聚类,这些聚类就相当于 语义场 2 5 , 2 6 。更重要的是,通过语义网络,义场内部、义场之间都建立了联系, 而且这各种各样的联系都可以通过层次符号显式的表达出来,从而使计算机能够 掌握和操作。 五元组符号和语义网络的层次符号的适当组合可以实现对抽象概念的完整表 达。这种表达方式能够显式的表达出自然语言概念之间的关联性,从而有助于计 算机把握和理解。例如,“精神一振奋、无私奉献、慷慨就义、锦绣一山河、远大一 前程、承担责任、召开一会议”这些词语问的优先搭配在自然语言中是“理所当然” 的,把这些搭配中的词语用五元组和层次符号表示,各个搭配中的前后词语就会 具有相同或相近的层次符号,而只是五元组符号不同,从而使它们之间搭配的“理 所当然”得到显式的体现。可见,用五元组和语义网络层次符号表达语言概念的 方法可以解决语义搭配( 或称语义约束) 的难题。传统的词性搭配不能解决语义 问题,动词可与名词搭配,但“动+ 名”结构根本无法保证语义的正确,这种语 法正确、语义荒谬的困难必须借助语义约束来解决,但语义约束一直找不到表达 和把握的手段。三大语义网络完成了概念之间关联性的设计,找到了解决语义约 束问题的根本途径。 对概念关联性的表达是语义网络的首要目标。概念基元的首要价值与其说是 给出复合概念的精确表示,不如说是给出概念关联性知识和联想脉络的线索。自 然而语言理解的中心任务是解模糊,如同音模糊消解、一1 词多义模糊消解等,这 些模糊的消解统称为多义选一处理。对自然语言词汇的多义选一处理是人类理解 自然语苦过程中最频繁、最基本的操作。对这一过程的形式模拟不在于并行处理 或快速计算,而在于以什么巧妙的方式完成大量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-河北-河北保安员四级(中级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-江西-江西机械热加工二级(技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-江西-江西公路养护工五级(初级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-江苏-江苏检验员一级(高级技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西环境监测工二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西城管监察员二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西农业技术员三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东管工(技师/高级技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东水利机械运行维护工三级(高级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-广东-广东家禽饲养员五级(初级工)历年参考题库含答案解析
- 海南省白沙黎族自治县2025年上半年事业单位公开招聘试题含答案分析
- 2025年陕西省中考生物试卷试题真题(含答案详解)
- GB/T 45958-2025网络安全技术人工智能计算平台安全框架
- 小学语文新课程标准最新版2022
- 疫情防控实战演练方案脚本
- 资产评估事务所投标服务方案总体工作方案评估工作关键性内容及重难点分析
- (高职)旅游景区服务与管理电子课件完整版PPT全书电子教案
- 拆卸与安装油箱加油管
- 某国有企业精细管理降本增效经验交流汇报材料企业降本增效.doc
- 沪科版七年级数学上册全套ppt课件
- SCH壁厚等级对照表
评论
0/150
提交评论