(计算机应用技术专业论文)面向web服务的语义邮件过程研究.pdf_第1页
(计算机应用技术专业论文)面向web服务的语义邮件过程研究.pdf_第2页
(计算机应用技术专业论文)面向web服务的语义邮件过程研究.pdf_第3页
(计算机应用技术专业论文)面向web服务的语义邮件过程研究.pdf_第4页
(计算机应用技术专业论文)面向web服务的语义邮件过程研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机应用技术专业论文)面向web服务的语义邮件过程研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 电子邮件( 简称邮件) 是一种用电子手段提供信息交换的通信方式。目前已 成为现代社会主要通讯方式之一和互联网上最重要、最普及的应用之一。但是目 前所使用的电子邮件传输协议,并没有对邮件提供太多的语义特征描述,除邮件 头部域外,邮件正文通常是机器不可理解的。w e b 服务是一种新兴的分布式技术, 提供基于i n t e r a c t 的与开发环境无关的软件服务。 通过在普通邮件中嵌入语义标记,可以实现机器对邮件的理解。语义邮件是 指邮件内容可被计算机自动处理的电子邮件,语义邮件过程则是指以语义邮件为 信息交换方式的问题解决过程,华盛顿大学的l u k em c d o w e l l 等人给出了语义邮 件过程的形式化定义,并且给出了几个具体的应用系统,但系统的应用范围比较 局限,需要用户具备专业知识。 本文对华盛顿大学语义邮件过程中的本地应用服务调用扩展至w e b 服务调 用,提出了面向w e b 服务的语义邮件过程,通过自动发现和调用w 曲服务增强 语义邮件过程的问题处理能力,减轻邮件服务器负载。本文提出了基于a g e n t 的语义邮件服务框架,定义了负责邮件内容理解和邮件自动处理的语义邮件 a g e n t ,以及响应服务请求的w e b 服务a g e n t ;在语义邮件过程模板,邮件内容 理解,邮件过程管理,w 曲服务注册,w e b 服务语义匹配和调用等技术的基础上 实现了面向w e b 服务的语义邮件过程系统。 关键词语义邮件:语义邮件过程;w e b 服务 a b s t r a c t a b s t r a c t e l e c t r o n i cm a i l ( r e f e r r e dt oa se m a i l ) i sak i n do fc o m m u n i c a t i o nm a n n e ru s i n g e l e c t r o n i ci n f o r m a t i o n i nm o d e ms o c i e t y , i th a sb e c o m em a i nc o m m u n i c a t i o nm e a n s a n do n eo ft h em o s ti m p o r t a n ta n dp o p u l a ra p p l i c a t i o n si ni n t e m e t h o w e v e r , u n d e r c u r r e n te m a i lt r a n s f e rp r o t o c o l ,e m a i ld o e sn o ti n c l u d em o r ed e s c r i p t i o nr e l a t e d 晰t h s e m a n t i cf e a t u r e s e x c e p tt h eh e a d ,b o d yo fe m a i l sc a n tb eu n d e r s t o o db ym a c h i n e a u t o m a t i c a l l y w b b s e r v i c ei sa n e m e r g i n g d i s t r i b u t e d t e c h n o l o g y w h i c hi s i n t e m e t - b a s e da n dn o t h i n gt od ow i t hd e v e l o p m e n te n v i r o n m e n t t h r o u g hb i n d i n gs e m a n t i cm a r k u pt or e g u l a re m a i l ,i ti sp o s s i b l et om a k et h ee m a i l c o n t e n tc o m p r e h e n d e db ym a c h i n e s e m a n t i ce m a i li se m a i lw h i c hc o n t e n tc a nb e a u t o m a t i c a l l yh a n d l e db yc o m p u t e r s e m a n t i ce m a i lp r o c e s si sp r o b l e m s o l v i n g p r o c e s su s i n gs e m a n t i ce m a i la sm e a n so fi n f o r m a t i o ne x c h a n g e l u k em c d o w e l l e r e f r o mt h eu n i v e r s i t yo fw a s h i n g t o nh a v eg i v e naf o r m a ld e f i n i t i o no fs e m a n t i ce m a i l p r o c e s sa n daf e ws p e c i f i ca p p l i c a t i o n s b e c a u s et h es y s t e mr e q u i r e se x p e r tw r i t e s e m a n t i ce m a i lp r o c e s st e m p l a t ef o rn e wa p p l i c a t i o n ,a p p l i c a t i o no ft h es y s t e mi s l i m i t e d t h i st h e s i se x t e n d st h el o c a la p p l i c a t i o ns e r v i c ei n v o k i n gt ow e bs e r v i c ei n v o k i n g , a d v a n c e ss e m a n t i ce m a i lp r o c e s so r i e n t i n gw e bs e r v i c e ,t h r o u g ha u t o m a t i c a l l y d i s c o v e ra n di n v o k ew e bs e r v i c et oe x t e n dp r o b l e m ss o l v i n ga b i l i t y , a n dr e d u c ee m a i l s e r v e rl o a d t h i st h e s i sp r o v i d e ss e m a n t i ce m a i ls e r v i c ef r a m e w o r kb a s e do na g e n t s e m a n t i ce m a i la g e n ti s m a i n l yr e s p o n s i b l ef o rs e m a n t i ce m a i lm e s s a g ec o n t e n t u n d e r s t a n d i n ga n da u t o m a t i cp r o c e s s i n g w e bs e r v i c ea g e n ti sm a i n l yr e s p o n s i b l ef o r s e r v i c er e q u e s tp r o c e s ss u b m i t t e db ys e m a n t i ce m a i la g e n t b a s eo nr e s e a r c h e sa b o u t g e n e r a t e s e m a n t i ce m a i l p r o c e s st e m p l a t ed e f i n i n g ,a u t o m a t i c e m a i lc o n t e n t u n d e r s t a n d i n ga n dh a n d l i n g ,e m a i lp r o c e s sm a n a g e m e n t ,w e bs e r v i c er e g i s t r a t i o n , s e m a n t i cm a t c h i n ga n dc a l l ,t h i sp a p e rd e s i g n sa n di m p l e m e n t sas e m a n t i ce m a i l p r o c e s ss y s t e mo r i e n t i n gw e bs e r v i c e k e yw o r d ss e m a n t i ce m a i l ;s e m a n t i ce m a i lp r o c e s s ;w e bs e r v i c e i i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:蒸垄垩1 日期:兰1 2 :竺 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 签名:墨,盔晕 导师签名:查丝查 日期: 第l 章绪论 1 1 课题背景 第1 章绪论 电子邮件( 简称邮件) 是一种用电子手段提供信息交换的通信方式。该通信 方式从1 9 7 1 年诞生已经有3 0 多年的使用历史。随着i n t e m e t 的普及,方便、快 捷、低成本的邮件逐渐取代了传统的通信方式,成为现代社会主要通讯方式之一 和互联网上最重要、最普及的应用之一,大大方便了人们生活、工作和学习。据 统计目前全世界的邮件帐户超过1 0 亿个,成为i n t e m e t 上应用最广的服务,极 大改变了现代人的通信方式。 现在越来越多用户都要基于邮件展开工作,使用邮件发送通知,安排工作, 协调事务,发送文件,联系客户、处理任务【l 】、实现工作流【2 】等,每天会有大量 和邮件处理相关的工作要完成,查看每一封邮件的内容,并且执行相应的处理工 作,包括将邮件中的某些数据保存到其它位置,对数据进行统计分析,回复邮件 等。由于垃圾邮件的泛滥,用户邮箱被各类邮件充斥,人们每天花在邮件上的处 理时间大大增加。如果机器能够根据邮件内容自动完成某些现在需要手工完成的 工作,邮件的使用效率将大大提高。目前所使用的邮件传输协议1 3 ,4 。,并没有对 邮件提供太多的语义特征描述,除邮件头部域外,邮件正文通常是机器不可理解 的。这也是造成邮件智能化应用停滞不前的关键原因。 随着互联网的飞速发展,w e b 的缺陷逐渐暴露出来,如网页功能单调、搜索 引擎智能化程度低等,这是因为大部分w e b 内容是设计给人阅读的,而不是计 算机程序能够理解的。计算机能熟练地解析网页的版面,知道哪里是标题,哪里 有与其他页面的链接。但是,它分辨不出个人主页和天气预报的区别,因为没有 可靠的方法来处理其中的语义,没有办法智能地理解网页内容和进行操作。语义 w e b 5 , 6 , 7 】对现有的w e b 进行了语义扩展,为w e b 中的各种资源被人为地赋予明 确的语义信息,计算机可以分辨和识别这些语义信息,并对其自动进行解释、交 换和处理,从功能上看它将是一个能够“理解”人类信息的智能网络。将语义 w e b 的研究成果应用到邮件过程中,将促进邮件内容的机器可理解,从而协助人 们完成邮件的日常处理工作,增强邮件的智能处理程度。 w e b 服务【8 9 1o 】是近几年提出的一个概念,是一种新兴的分布式技术,其基 本思想是提供基于i n t e m e t 的与开发环境无关的软件服务。w e b 服务是一种新的 计算模式,较好地解决了i n t e m e t 上的数据相互孤立的格局,遵循w e b 服务体 系结构的服务间是可以相互调用的。w e b 服务以其普遍、易于开发等特点得到 北京t 业大学t 学硕十学位论文 了i b m 、微软、s u n 等大厂商的广泛支持,在应用集成领域有广阔的应用前景。 基于w e b 服务的公共技术标准s o a p t l l i w s d l 1 2 1 u d d i l l 3 1 已经成为事实上的行 业标准。w e b 服务技术拥有跨越平台的特点,以及便利的调用方式,因此可以在 邮件的通信过程中调用互联网上现有的w e b 服务来协助完成人们的日常事务, 通过结合w e b 服务,可以扩充以邮件通信方式来解决问题的领域,提高邮件的 可用性。 语义邮件的目标在于使人们日常处理的邮件既可以供人阅读,也可以被机器 理解,使得一些基于邮件的简单而普遍的事务性工作,例如收集一群人的信息, 处理计划和事件信息,回答一些经常问到的问题等,可以利用机器自动处理。将 语义w | e b 技术应用于邮件通信过程,在对邮件内容添加语义描述信息的基础上, 可以开发相应的软件代理a g e n t 程序,智能地处理邮件内容以及执行与其相关的 任务。w e b 服务技术的出现使得我们可以在不考虑开发平台,编程语言,通信方 式的情况下方便的调用他人提供的服务。因此可以通过自动发现和调用w e b 服 务来处理邮件过程中的问题,将大大提高邮件处理各种事务的能力。 1 2 邮件智能化研究现状 邮件数量的逐渐增大,增加了邮件管理的烦杂琐事。邮件智能化研究的目的 在于通过计算机协助邮件的管理,提高邮件处理的工作效率。语义邮件过程研究 也是邮件智能化研究的一部分。因此邮件智能化研究是语义邮件过程研究的基 础。 ( 1 ) 垃圾邮件过滤研究 随着邮件用户的日益增多,它带来的问题日益突出。低成本的邮件发送方式, 广告的泛滥,同时传统的邮件不具备可靠的安全性,导致了目前邮件领域最为突 出的问题垃圾邮件问题。人们离不开邮件的同时,同时又要忍受垃圾邮件的困 扰。垃圾邮件造成了大量人力、物力及财力的浪费。 目前已出现的各种垃圾邮件过滤方法。 基于数据挖掘的垃圾邮件过滤方法【h 】,分析了己有的垃圾邮件过滤规则的算 法的本质,给出了将邮件表示成事务的方法,将垃圾邮件的训练集表示成事务集 后,再从训练集中挖掘出频繁特征集。 研究人员也提出了基于语义理解的垃圾邮件过滤处理【1 5 , 1 6 】。将语义理解的研 究和垃圾邮件过滤算法的研究结合起来,构建一个通过语义理解对垃圾邮件进行 过滤的模型,并提出一种改进的分词算法,提高了分词的效率、准确率和识别未 登录词的能力。 2 第l 章绪论 由于基于统计的垃圾邮件分类中关键词的语义缺失问题,有研究人员提出了 基于本体的内容分析法【1 7 】,将基于本体的自然语言语义理解应用于反垃圾邮件 中,以解决关键词的语义问题。 语义w e b 技术在垃圾邮件过滤中的研究【1 8 】。对邮件内容加入了语义分析以 及相似识别技术,通过半人工的方式建立庞大的垃圾邮件知识库来识别垃圾邮 件。 以上基于垃圾邮件过滤的研究成果都推动了邮件智能化处理的发展。 ( 2 ) 邮件搜索研究 传统的网络搜索技术主要通过基于字符串匹配的全文检索技术,来搜索用户 提交的关键词,通常按照发件人,收件人,邮件内容中的关键字等方式进行搜索。 检索过程是把用户的查询关键词与全文中的每一个词进行比较,而不考虑查询请 求与文档语义上的匹配。因此存在搜索的结果相关度低,冗余信息太多,搜索引 擎无法对常识性问题给予回答,智能化水平低。语义w e b 是比万维网更先进的 网络,它所承载的信息内容高度结构化,并且都具有明确的语义。在这种情况下, 传统搜索引擎已经显得落后。有研究人员基于语义w e b 技术,提出了面向语义 w 曲的搜索引擎【l 引。模型能够根据用户的查询关键字或者询问问题,进行基于 知识的推理,从而提高检索结果的相关度,并且实现一定水平的语义检索。 邮件用户常常重复某些词或字并重复交换同一类型的信息,因此邮件是开发 语义搜索引擎的目标。i b m 最近推出了基于语义的邮件搜索软件i o p e s ,该搜 索引擎可以为企业l o t u s n o t e s 和m i c r o s o f to u t l o o k 用户提供服务,它能自动索 引和分析用户的邮件信息,用户可以输入简单的关键词查询或是使用基本的自然 语言指令进行搜索。它能够允许使用者搜索基于概念的邮件,:比如日期和电话号 码。同时也能够使搜索者定义他们自己的概念。用户安装了这一软件后,能够索 引和分析使用者储存的邮件,搜索结果并不会列出邮件的标题或显示邮件的全部 内容,而是会提炼出包含准确内容的信息,或者显示你需要的精确数据,如电话 号码、地址等。同时,这种搜索引擎还可以帮助你找到邮件中的附件,然后给出 你想要的直接链接。 ( 3 ) 邮件过程研究 美国华盛顿大学( u n i v e r s i t yo f w a s h i n g t o n ) l u k em c d o w e l l 等专家首先提出 了语义邮件的一般概念以及语义邮件过程的理论与应用【2 0 , 2 1 】。本文将在第二章对 华盛顿大学的语义邮件做详细介绍。 北京工业大学工学硕士学位论文 1 3 课题研究内容 邮件是和w w w 一样是一个巨大的信息空间,很多人都将在上面花费一定的 时间。手动处理大量的正常邮件费时费力,往往使用户的工作效率急剧下降。人 们可以通过邮件和智能代理进行交互。在那些以前需要用户手动完成的任务当 中,可以由邮件智能代理自动完成。目前的邮件除头部外不具备任何语义特征, 使邮件客户端难以解析邮件,从而也就不能自动处理邮件过程中的任务。 语义邮件是指邮件内容可被计算机自动处理的邮件。语义邮件就是通过对普 通的邮件添加语义特征使得邮件能够提高使用效率。可以对以下三种情况添加语 义特征。更新,使用邮件向某些数据源添加数据( 如添加一个事件到w e b 日历) 。 查询,使用邮件查询信息( 如查询某人的电话号码) 。过程,使用邮件管理目前 主要使用手动处理的一些简单但是乏味的过程。通过应用语义w e b 技术使得邮 件的发送者和接收者认可一致的术语,从而达到邮件人可读,机器可读,将普通 邮件过渡到语义邮件。 语义邮件过程则是指以语义邮件为信息交换方式的问题解决过程。在华盛顿 大学的研究中,通过利用模板使数据被格式化便于计算机自动处理,重点在邮件 过程的分析,针对不同的应用都有独立的语义邮件过程模板,但不涉及与其他外 部模块的交互以及合作。本文研究内容建立在华盛顿大学的研究基础上,通过研 究语义邮件过程的特点,简化语义邮件过程模板的创建,将华盛顿大学语义邮件 过程中的本地应用服务调用扩展至w e b 服务调用。通过以上研究,使邮件适应 w e b 智能应用的需要,扩展邮件的应用范围。 1 4 本文内容组织 本文共分4 章。 第l 章介绍了本文的课题背景、邮件智能化研究现状、课题研究内容和文章 的组织结构。 第2 章为语义邮件过程,主要包含语义w e b 技术的应用,以及语义邮件过程 的研究。 第3 章提出面向w e b 服务的语义邮件过程,首先介绍w e b 服务的概念,架 构,服务协议栈,同时重点分析面向w e b 服务的语义邮件过程的特点和相关模 块,语义邮件a g e n t ,w e b 服务a g e n t 的具体内容。 第4 章给出面向w e b 服务的语义邮件系统的具体设计与实现。 最后,对本文的研究内容进行了总结,指出了需要进一步深入研究的问题。 4 第2 章语义邮件过程 2 1 语义w e b 技术 第2 章语义邮件过程 语义w e b 是互联网创始人t i mb e m e r s 。l e e l 2 2 ,2 3 】于2 0 0 0 提出的下一代万维网 的蓝图,语义w e b 是当前w 曲的扩展,通过规范的定义信息所包含的语义,使 w e b 上的信息具有计算机可理解的语义,满足智能软件代理的访问和检索,其研 究的侧重点就是如何把信息表示为计算机能够理解和处理的形式,即带有语义。 语义w e b 技术目标就是为i n t e r n e t 的用户提供全方位的智能化及个性化的服务 瞄j 。邮件作为i n t e r n e t 上大家广泛使用的工具之一,同样需要智能化的支持。但 是与不断发展的w e b 技术相比,邮件相关的理论及技术的发展非常缓慢,传统 的邮件早已不能适应智能化、个性化的发展需要。因此将语义w e b 技术的相关 研究应用到邮件通信过程中是推进该领域向智能化方向发展的一个重要方面。 图2 1 是语义w e b 的体系架构【2 5 】。 t 1 m s t p r o o f o 口口 f l o g i c o n t o l o g yv o c a b u l a r y o 譬 匕 c d r d f + r d fs c h e m a x 缸+ n s + x 匝s c h e m a u n i c o d e删 图2 1 语义w e b 核心层 f i g u r e 2 - 1c o r el a y e ro fs e m a n t i cw e b 在其体系结构中,第一层是u n i c o d e ( 统一编码) 和u r i ( 统一资源定位器) , 它是整个语义w e b 的基础,u n i c o d e 处理资源的编码,u r i 负责标识资源:第二 层是x m l ( 可扩展标记语言) + n s ( 命名空间) + x m ls c h e m a ( x m l 模式) , 用于表示数据的内容和结构;第三层是r d f 2 q ( 资源描述框架) + i m fs c h e m a ( r d f 模式) ,用于描述资源及其类型;第四层是o n t o l o g y l 2 7 1v o c a b u l a r y ( 本体 北京工业大学丁学硕十学位论文 词汇) ,用于描述各种资源之间的联系,o w l t 2 8 1 ( 网络本体描述语言) 用于该层 网络本体的描述,第五层是l o g i c t 2 9 】( 逻辑层) ,在下面四层的基础上进行逻辑 推理操作;第六层是p r o o f ( 验证层) ,根据逻辑陈述进行验证以得出结论;第七 层是t r u s t ( 信任层) ,在用户间建立信任关系。第二、三、四层是语义w e b 的关 键层。 语义w e b 技术优秀的分层技术使得它更容易应用到其它领域,语义邮件将在 后面的篇幅中使用其二,三,四层相应的技术。以下将对语义w e b 中的关键技 术进行介绍。 2 1 1x m l x s d x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 称为可扩展标记语言。x m l 让每个人都 能创建自己的标签,来对网页或页面的部分文字进行注释。x m l 允许用户在文 档中加入任意的结构。x m l 具有易于建立和易于分析的优点,更重要的是具有 既与平台无关、又与厂商无关的开放性。x m l 解决了数据表示的问题,但它没 有定义一套标准的数据类型,更没有说怎么去扩展这套数据类型。x s d ( x m l s c h e m a ) 称为x m l 模式,是一种标准定义语言,它采用x m l 的文法,易于建立 和分析,完成数据类型定义,并支持自定义类型和继承。它定义了一套标准的数 据类型,并给出了一种语言来扩展这套数据类型。x m l 是语义w e b 技术和w e b 服务技术的基础。x m l 的以上优点可以应用于邮件内容中元数据的表示。 2 1 2r d f r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 称为资源描述框架,它是一种用于 描述w e b 资源的标记语言。r d f 通过属性和值来描述资源之间的关系,是处理 元数据的基础。 r d f 的基本结构是对象属性值三元组,也就相当于句子中的主语、动词和 宾语。这些三元组可以用x m l 语法来表示。用这种结构描述由机器处理的大量 数据,是非常自然的方法。r d f 模式是一个描述r d f 资源的属性( p r o p e r t y ) 和 类( c l a s s ) 的词汇表,提供了关于这些属性和类的层次结构的语义。 r d f 是一个处理元数据的x m l 应用,所谓元数据,就是“描述数据的数据” 或者“描述信息的信息”。也许这样解释元数据有些令人难以理解,举个简单的 例子,书的内容是书的数据,而作者的名字、出版社的地址或版权信息就是书的 元数据。数据和元数据的划分不是绝对的,有些数据既可以作为数据处理,也可 以作为元数据处理,例如可以将作者的名字作为数据而不是元数据处理。 简单而言,一个r d f 文件包含多个资源描述,而一个资源描述是由多个语 6 第2 章语义邮件过程 句构成,一个语句是由资源、属性类型、属性值构成的三元体,表示资源具有的 一个属性。资源描述中的语句可以对应于自然语言的语句,资源对应于自然语言 中的主语,属性类型对应于谓语,属性值对应于宾语。 可以使用三种方法来表示这种r d f 陈述:图形、x m l 和n 3 t 3 0 】( n o t a t i o n 3 ) 。 图形是最为形象直观的一种方法。 r d f 可以使用图形进行表述。将关于资源的陈述表示为一个由结点和弧组 成的图,其中的弧的起始节点是主体资源;弧本身代表资源的属性;弧的结束节 点是属性值,可以是原始值,也可以另外一个资源。 图2 2 为r d f 陈述的图形表示法: h t t p :t 黼 图2 - 2r d f 图形表示法 f i g u r e 2 2g r a p h i c a lr e p r e s e n t a t i o no fr d f r d f 陈述可以使用x m l 格式进行表述: r d f 陈述也可以利用n 3 格式表述,它相比x m l 格式更为简洁易读,如下 所示: 7 北京工业大学工学硕士学位论文 语义邮件中的元数据的关系可以使用r d f 来描述。 2 1 3o w l o w l ( w e bo n t o l o g yl a n g u a g e ) 称为网络本体语言。o w l 是w 3 c 开发的 用于对本体进行语义描述的语言。 首先看本体论。因为两个系统可能采用不同的标识符表示同一概念,也可能 用一个标识符表示不同的含义,程序若要在两个数据库之间进行信息的比较和合 并,就必须了解某些标识符表示的是否是同一事物。对该问题的一个解决方法就 是本体论。本体是概念化的显式说明,包括分类和一套推理规则。分类定义对象 的类别及其之间的关系,使我们能够表达实体之间的大量关系,而根据推理规则, 程序可以进行自动推理。简单地说,就是在不同的系统间定义一本字典或者度量 表,使它们对实体及其之间的关系达成共识,以便交流和共享。 o w l 是w 3 c 规范的重要扩充和改进,都是建立在人工智能知识表示基础 之上的本体语言,提供了一种自然方式来描述在w e b 词间的类与子类之间的关 系,以及在类与类之间( 或子类与子类之间) 关系上的限制。它以r d f 为基础 并比r d f 模式添加了更多的用于描述属性和类的词汇,例如类之间的不相交性、 等价性、更丰富的属性类型、属性特征等。o w l 能够清晰地表达词汇表中的词 条的含义以及这些词条之间的关系。o w l 相对x m l 、r d f 和r d fs c h e m a 拥有 更强大的语义表达能力,同时还保证了描述逻辑的可判定推理。r d f 的表述方 法也适用于o w l ,可以使用图形、x m l 或n 3 对o w l 文件进行表述。使用o w l 对语义邮件过程模板进行描述,使得邮件内容机器可理解成为可能。 下面是使用o w l 语言的x m l 描述片断举例: ”a nq u e s t i o nt oa s kt h ep a r t i c i p a n t s ” l o w l 技术结合r d f ,r d f 模式可以扩展对语义邮件的元数据的描述能力。 2 2 邮件过程 邮件是用户通信的手段。因此在邮件的通信过程中往往隐含着具体的任务。 现实中的邮件任务包括发送通知,安排工作,协调工作,发送文件,客户取得联 系、跟踪任务、实现工作流,订阅电子杂志等。日常生活中,人们使用邮件的收 发功能,针对邮件的操作主要有撰写新邮件,发送邮件,接收邮件,回复邮件, 转发邮件,阅读邮件。对于一个具体邮件通信过程,某个任务通常首先由发件人 a 撰写一封新邮件给收件人b 、c 等,b 、c 等收到邮件后阅读邮件内容,并对 邮件做相应的处理,处理方式如图2 3 所示,任务需要通过邮件的交互方式去完 成。为了研究的方便,将这样一个发件人,收件人通过邮件互相交互来完成任务 的过程称为电子邮件过程( 简称邮件过程) 。 很多邮件用户每天都将收到大量的邮件,邮件过程的分类【3 1 1 将有利于邮件的 管理,目前的分类方式可以归纳为以下几种。 基于发件人地址的邮件过程分类,普通邮件客户端的邮件分类功能一般是基 于发件人地址进行的归类的。 。 基于收件人对邮件处理方式的邮件过程分类1 3 2 ,首先对每封邮件进行大概的 扫描,感兴趣的邮件将纳入处理范围,通常的处理方式包括忽略,立即回复,推 迟处理。如图2 3 所示: 9 图2 - 3 收件人处理邮件 f i g u r e2 - 3r e c i p i e n td e a l i n gw i t he m a i l 基于言语行为【3 3 , 3 4 】的邮件过程分类。言语行为理论是语言语用研究中的一 个重要理论。它最初是由英国哲学家约翰奥斯汀在2 0 世纪5 0 年代提出的。 言语行为理论指出,某个人说话的同时是在实施某种行为。根据言语行为 理论,说话者说话时可能同时实施三种行为:言内行为,言外行为和言后 行为。可以将言语行为理论应用于邮件类型的识别上。邮件言语行为被定 义为三元组( v ,o ,s ) ,v ( v e r b s ) 代表动词,o ( o b j e c t s ) 代表宾语,s ( s u b j e c t ) 代表主语。言语行为的动作v e r b s 包括r e q u e s t ,c o m m i t ,p r o p o s e ,s u g g e s t , d e l i v e r 。a b o r ta n dd e c l i n e 等。o b j e c t 代表相应行为的内容,o b j e c t 通常按 照数据类型分类包括i n f o r m a t i o n ,r e s o u r c e ,f e e d b a c k 等。s u b j e c t 代表对相 应行为进行后续处理的主体。 传统的基于发件人地址的分类方式不涉及邮件内容的理解。基于收件人处理 邮件方式的分类法可以定义邮件过程的生命周期。邮件过程的生命周期为某发件 人撰写新邮件发起一次邮件通信任务作为开始,到发件人和收件人针对这次邮件 通信任务不再做任何回复作为结束。语义邮件过程也是建立在这个邮件过程生命 周期之上。基于言语行为的邮件过程分类,从邮件行为的角度出发,结合言语行 为的三元组表示法和邮件过程的生命周期,可以将邮件过程简单地分为三类。分 别为,发送数据给收件人,向收件人请求数据,与收件人之间协调某些活动,可 以简单的概括为信息发布,信息收集,任务协调处理,并使用三元组表示如下。 信息发布,用户a 给用户b 发送一封通知邮件,该邮件并不需要用户b 做 任何回复,三元组为( s e n d ,c o n t e m ,n u l l ) 。邮件过程生命周期短,仅发件人发送 邮件,收件人查看邮件。机器可以充当发件人的角色当某个时间触发时( 如达到 指定的时间) 自动给多人发送通知消息。 1 n 第2 章语义邮件过程 信息收集,用户a 给用户b 发送一封请求相关的邮件,该邮件需要客户b 按照邮件请求内容,回复相应内容,三元组为( r e q u e s t ,c o n t e n t ,r e p l y ) 。邮 件过程生命周期较长,发件人发送邮件,收件人查看邮件,收件人回复邮件,发 件人查看回复邮件。机器可以对多个用户的回复内容进行解析并自动处理( 如将 收集到的数据自动存储到文件系统或者数据库) 。 任务协调,用户a 给用户b 发送一封协商相关的邮件,b 回复邮件,在a , b 未同时确认协商结果之前重复邮件的往复发送过程,三元组为( n e g o t i a t e , c o n t e n t ,r e p l y ) 。邮件过程生命周期长,发件人发送邮件,收件人查看邮件,收 件人回复邮件,发件人查看回复邮件,若双方对任务协商一致,邮件过程生命结 束,若双方未协商一致,重复以上过程。机器可以充当协调者的角色,在给定的 约束条件下,自动判断当前状态是否满足约束条件,如果不满足将给某个用户发 送提醒邮件并要求用户通过邮件重新提交数据。 通常的邮件内容都不包含语义特征,因此邮件过程的处理都需要人的参与, 邮件过程的各处理阶段都不能实现自动应答,而是通过人理解后进行手工回复, 因此避免不了一些简单但乏味的工作都需要手工重复处理。普通的邮件过程都是 人与人之间的收发操作,机器并不参与过程的自动处理,邮件过程中的任务处理 不会涉及到对外界服务的请求和服务自动调用的概念,这将大大限制邮件的使用 效率,以及邮件的应用范围。 通过对邮件过程进行分类,可以发现在邮件过程中的某些阶段是可以利用机 器自动参与到邮件通信过程中去的。 2 3 语义邮件过程 语义邮件是指邮件内容可以被计算机自动处理的邮件。语义邮件过程是指以 语义邮件为信息交换方式的问题解决过程。普通邮件过程的处理都需要人的参 与,语义邮件过程因为以语义邮件为信息交换方式,因此可以实现机器对邮件内 容的自动理解,从而自动处理任务。图2 - 4 表达了最简单的语义邮件处理机制。 北京工业大学1 = 学硕士学位论文 发送语义邮件 智能回复 图2 - 4 语义邮件处理 f i g u r e2 - 4d e a l i n gw i t hs e m a n t i ce m a i l 基于上节邮件过程的分类研究,对于信息发布,信息收集,任务协调处理环 节中某些阶段都可以由机器进行自动处理。 机器在某个条件满足的情况下,自动给某些用户发送通知等消息。 机器自动收集由发起者向参与者请求的数据。在达到收集最后时间,自动统 计收集信息,并且对用户数据进行解析,分类或重定向到任何存储空间,并将统 计结果自动回复给发起者【3 5 1 。 机器自动协调任务的处理,用户设置请求数据的约束条件,被请求的用户回 复请求数据,机器将在定时统计已收集数据是否满足约束,如果不满足则向某用 户发送建议,要求该用户重发数据。通过往复交互,在达到最后时间时,将最终 的协调结果自动回复给数据请求者。 另外由机器自动回复用户的检索请求。由机器给用户共享文件。由机器自动 调用外部服务来解决邮件通信过程中问题。 这些过程都可以由机器参与,从而达到实现语义邮件过程的目的。那么如何 让机器理解邮件内容,需要对邮件内容进行格式化处理,即对邮件内容嵌入标记。 通过在邮件过程中应用语义w e b 技术来实现邮件内容的知识表示和推理,本文 将在第三章第三节语义邮件a g e n t 进行详细介绍。 2 3 1 华盛顿大学语义邮件过程模型 华盛顿大学( u n i v e r s i t yo f w a s h i n g t o n ) l u k em c d o w e l l 等专家首先提出了语 义邮件的一般概念以及语义邮件过程的理论与应用。本节将对该系统进行描述, 并在下一节结合该系统的现状创建改进语义邮件过程模板的创建。 1 2 第2 章镕义邮件过程 ( 1 ) 系统描述 为了实现基于语义邮件的自动应用,首先将它表示成一个语义邮件过程s e p ( s e m a n t i c e m a i lp r o c e s s ) 。一个s e p 由3 个组成部分,如图2 - 5 1 2 0 1 所示,分别 是:发起者( o r i g i n a t o r ) 、管理者( m a n a g e r ) 和参与者( p a r t i c i p a n t ) 。发起者通 过撰写一封邮件发送给管理者( 一个程序或代理) 以启动一个s e p 。在接下去的 时蚓里,管理者将自动与多个参与者之问进行协商,最终把协商结果传达给发起 者。 - _ = 型叫 _ - 0 2 二一 。= 竺:= 竺:! :! :; _ 坠罂= 一 ;参一? b 。遘d 霉三鎏罐爹 _ _ ,_ r - 图2 - 5 语义邮件过程 f i g u r e 2 - 5s e m a n t i c e m a h p r o c e s s 圈2 - 6 口0 1 是一个语义邮件过程创建的过程。首先由专业编写者基于s e p 本体 编写相应的s e p 模板,模板经过表单生成器生成相对应的w e b 表单,然后以表 单形式提供给发起者使用发起者以h t t p 方式访问提供该表单w e b 页面,如图 图2 7 脚i ,按照表单上的提示,填写表单,主要包括填写该语义邮件过程的参与 者,过程描述,请求参数,约束内容等,点击表单的s u b m i t 后系统将自动实例 化一个s e p 声明,并且初始化新的语义邮件过程。m a n a g e r 在后台将根据表单中 填写的内容自动给所有参与者发送一封语义邮件,参与者将收到携带标记的语义 邮件,如图2 - 8 l ”j 参与者阅读该语义邮件,通过按照邮件内容提示在原始语 义邮件的基础上进行内容修改和添加,并且同复该邮件,此时m a n a g e r 将承担智 能机嚣人的功能,自动与参与者进行邮件交互,通过使用机器自动理解和处理邮 件内容的方式来完成整个语义邮件过程。 a u t h o rf 口册6 e ? 0 n 鲫1 a i 。7 图2 - 6 语义邮件过程创建图 f i g u r e2 - 6c r e a t i o no f s e m a n t i ce m a i lp r o c e s s 1 3 譬| l 钾+ 竺工;1 五 图2 7s e p 模扳袁单 f i g u r e2 + 7s e pt e m p l a t ef o r m r 锄俐* 帅曲w 6 n r 啡咖e 山 叠n tw e d 肛舢:3 5 m 幽2 - 8 添加语义标记的邮件 f i g u r e2 - 8e m a i la d dw i t hs e m a n t i ct a g s 1 4 第2 章语义邮件过程 目前华盛顿大学语义邮件所提供的可用的公用s e p 模板有4 种。r s v p ( 请 尽快回答) ,该过程被用来收集一组参与者的回复,并且返回收集结果给发起者。 g r o u p m e e t i n gc o o r d i n a t i o n ( 组约会协调) ,该过程用于决策出一组参与者的最 佳约会方案。b a l a n c e dc o l l e c t i o n ( 平衡收集) ,该过程,首先设置一个平衡条件, 通过邮件自动引导参与者如何去达到平衡要求。f c f s ( 先来先服务) ,该过程提 供n 个资源( 如1 0 张奥运门票) ,参与者可以通过先来先得的方式请求资源( 公 司内部通过谁先回复邮件谁先得的方式进行邮件抢票) 。 ( 2 ) 推理模型l s e p s 2 0 1 机器对语义邮件进行自动处理,需要推理模型的支持。管理者需要决策,已 收集数据在何时将达到发起者在实例化语义邮件时给出的目标。华盛顿大学语义 邮件提出了语义邮件过程的两个推理模型并对其原理进行了论证,分别是逻辑语 义邮件过程的模型( l s e p ) 和一个基于决策理论的s e p ( d s e p ) 。管理者使用 模型的推理功能实现与参与者之间的自动协商。本文主要通过分析l s e p s 模型 对s e p 模板的创建过程进行改进,因此主要对l s e p s 进行介绍。 l s e p s 定义:l s e p 是一个五元组a ( p ,d ,r ,m ,c 仃) ,其中: 参与者集合p :参与语义邮件过程的主体的集合。尸可以包含发起者。 支持数据集d :一组关系的集合,这些关系包含过程中参与者提交的数据。 d 的初始化数据由发起者指定,在d 中存在的关系模式包括:属性关系名称、 数据类型和定义域范围。属性存在默认值。在d 中有一个特殊的数据类型 e m a i l a d d r e s s ,它的域值取决于尸,以确保每个参与者仅能影响数据表格中与自 身相关的列。 回复集尺:邮件的所有可能回复序列集合。 消息集m :引导整个语义过程的消息集,包括提醒参与者进行回复或拒绝某 个参与者的回复。 约束集c n :d 中所有关系的约束集。c d 由逻辑描述语言进行定义,可以使 用一些谓词逻辑( = , ,) ,l i k e ,和,仨。 当有参与者的回复r 到达时,l s e p s 模型通过将该回复r 与目前的数据集d 的状况进行状态叠加后,基于约束集c d 进行判断,推理得到合适的输出。 华盛顿大学的语义邮件过程给出了语义邮件进行自动实例化的方式。但是在 使用这个系统的过程中存在不足之处。首先s e p 模板需要专业人士结合相应的 s e p 本体进行编写,这需要对s e p 本体有深入的理解,因此这项工作是普通用 户不可能完成的,普通用户通过手工的方式编写新应用的s e p 模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论