(计算机应用技术专业论文)基于主动服务的用户导航系统.pdf_第1页
(计算机应用技术专业论文)基于主动服务的用户导航系统.pdf_第2页
(计算机应用技术专业论文)基于主动服务的用户导航系统.pdf_第3页
(计算机应用技术专业论文)基于主动服务的用户导航系统.pdf_第4页
(计算机应用技术专业论文)基于主动服务的用户导航系统.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)基于主动服务的用户导航系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 主动服务是人们针对按需服务的目的提出的一种新技术,用户个性化服务 在主动服务中占有重要的地位。本文改进了已有的主动服务原型系统中简单的 需求分析子系统,提出结合用户兴趣模型主动为用户推荐服务的个性化用户导 航系统。论文的主要工作如下: 1 ) 在用户需求的预处理方面,使用基于多层隐马模型的汉语词法分析系统 i c t c l a s 进行分词,以获得关键词表。使用向量空间模型为关键词表建立文本 表示,这样利用向量相似度匹配算法便能计算用户需求与某个兴趣类的匹配程 度。 2 ) 在导航系统中,采用用户兴趣类集对每个用户进行动态建模。根据基本 竞争规则和阀值控制更新用户兴趣类集,添加用户的新兴趣类以及删除用户不 再感兴趣的类,以反映用户兴趣的多样性及跟踪用户兴趣的变化。 3 ) 针对传统的按照用户属性对用户进行分类的不足,提出构造d a g s v m 扩展b t 树建立s v m 多分类器,利用用户兴趣类集中已有的用户兴趣对用户进 行分类。 4 ) 针对不同用户分类方法在新老用户服务中的优缺点,采用用户属性分类 和用户个性分类相结合的方式为用户推荐服务。通过构造映射矩阵,给出从用 户属性类型到用户个性类型的映射,并在此基础上实现双分类协作。 本文提出的主动服务下的导航系统在兴趣导航、需求预处理、用户管理、 分类统计、用户分类等模块的协作下,能处理用户需求、建立用户模型,个性 化地为用户推荐服务。 关键词:主动服务导航系统,用户兴趣建模,s v m 多分类器,分类映射 a b s t r a c t a c t i v es e r v i c ei sak i n do fn e w t e c h n o l o g yp r o p o s e df o r t h ep u r p o s eo fs e r v i n g a c c o r d i n gt ou s e r sr e q u i r e m e n t u s e rp e r s o n a ls e r v i c ep l a y sa ni m p o r t a n tr o l ei n a c t i v es e r v i c e t h i s p a p e ri m p r o v e ds i m p l er e q u i r e m e n ta n a l y s i ss u b s y s t e mi n t r a d i t i o n a la c t i v es e r v i c ep r o t o t y p es y s t e ma n dp r o p o s e da p e r s o n a lu s e rn a v i g a t i o n s y s t e mw h i c hc a np r o v i d ec o m m e n d e ds e r v i c ef o ru s e r sa c t i v e l yb yc o m b i n gu s e r i n t e r e s tm o d e l t h em a i nc o n t e n t sa r ea sf o l l o w s : 1 ) f o rt h ep r e t r e a t m e n to fu s e r sr e q u i r e m e n t ,i c t c l a s ( i n s t i t u t eo fc o m p u t i n g t e c h n o l o g y , c h i n e s el e x i c a la n a l y s i ss y s t e m ) b a s e do nm u l t i - l a y e rh m m ( h i d d e n m a r k e tm o d e l ) f o rc h i n e s ea n de n g l i s hl e x i c a la n a l y s i sw a s a d o p t e d ,i no r d e rt o g a i nak e y w o r dl i s t v e c t o rs p a c em o d e lw a su s e dt ob u i l dt e x te x p r e s s i o no f k e y w o r d s i nt h i sw a y , v e c t o rc o m p a r a b i l i t ya l g o r i t h mw a se m p l o y e dt oc o u n tt h e s i m i l a r i t yb e t w e e nu s e r sr e q u i r e m e n t sa n dc e r t a i ni n t e r e s tc l a s s 2 ) i nt h i sn a v i g a t i o ns y s t e m ,au s e ri n t e r e s ts e tw a sa d o p t e dt ob u i l dd y n a m i c m o d e lf o re v e r yu s e r a d d e du p d a t e du s e ri n t e r e s ta n dd e l e t e di n t e r e s tw h i c hu s e ri s n o ti n t e r e s t e di nb a s e do nb a s i cc o m p e t i t i o na n dt h r e s h o l d c o n t r o l l e dt r i g g e rr u l ei n o r d e rt or e f l e c tt h ev a r i e t yo fu s e ri n t e r e s t sa n dt r a c kt h ec h a n g e so fu s e ri n t e r e s t s 3 ) a i m i n ga tt h el a c ko ft r a d i t i o n a lu s e rc l a s s i f y i n gm e t h o d ,s v mm u l t i c l a s s i f i e r b yc o n s t r u c t i n gd a g s v me x t e n d e db tt r e ew a sp r o p o s e d ,i no r d e rt oc l a s s i f yu s e r s b yu s e ri n t e r e s t sw h i c hh a v eb e e ns t o r e di nu s e ri n t e r e s tf i l e 4 ) a i m i n ga tt h ea d v a n t a g e sa n dd i s a d v a n t a g e so fd i f f e r e n tu s e rc l a s s i f i c a t i o n m e t h o d s ,u s e ra t t r i b u t ec l a s s i f i c a t i o na n du s e r p e r s o n a l i t yc l a s s i f i c a t i o nw e r e c o m b i n e dt oc o m m e n ds e r v i c e st ou s e r s t h ec l a s s i f i e dm a p p i n gf r o mu s e ra t t r i b u t e c l a s s i f i c a t i o nt ou s e rp e r s o n a l i t yc l a s s i f i c a t i o nw a so b t a i n e dv i ac o n s t r u c t i n gt h e m a p p i n gm a t r i x ,w h i c hc a ni m p l e m e n td u a lc l a s s i f i e dc o o r d i n a t i o n t h en a v i g a t i o ns y s t e mb a s e do na c t i v es e r v i c ew a sp r o p o s e di n t h i s p a p e r w o r k e di nt h ec o o p e r a t i o nw i t hd i f f e r e n tm o d u l e si n c l u d i n gu s e ri n t e r e s tn a v i g a t i o n , p r e t r e a t m e n to fu s e r sr e q u i r e m e n t ,u s e rm a n a g e m e n t ,c l a s s i f i e ds t a t i s t i ca n du s e r c l a s s i f i c a t i o nc a nw e l ld e a lw i t hu s e rr e q u i r e m e n t s ,b u i l du s e ri n t e r e s tm o d e la n d i i c o m m e n d p e r s o n a ls e r v i c e sa n ds oo n k e y w o r d s :a c t i v es e r v i c e n a v i g a t i o ns y s t e m ,u s e ri n t e r e s tm o d e l i n g ,s v m m u l t i c l a s s i f i e r , c l a s s i f ym a p p i n g i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特i i i i 以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示了谢意。 签名: 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:刍与二一导师签名:j 哲址日期:龇加 武汉理r t 大学硕士学位论文 1 1 研究背景和现状 第1 章引言 近年来w e b 服务技术得到快速发展和应用,它采用可扩展标记语言( x m l ) 定义一组w e b 服务协议栈,通过s o a p ,w s d l ,u d d i ,w s f l ,b p e l 4 w s 等开放协议和标准,提供了面向i n t e r n e t 应用的统一服务注册、发现、绑定和 集成机制,成为i n t e r n e t 环境下实现互操作的一种主要机制【1 6 1 。 随着电子商务与其它应用的不断发展,用户对i n t e r n e t 应用的智能化程度 要求越来越高。人们希望网络不再提供那些固定的、一成不变的服务,而是要 求网络所提供的服务能够根据应用的变化而变化,随用户的不同提供个性化服 务。如何使w e b 服务根据用户需求而变化,如何在这个变化过程中对i n t e m e t 所提供的服务进行定位、协调和通信,并对其执行结果进行评估和验证,以及 如何评价和保证新服务的q o s 和安全性等等,都是目前的w e b 服务所未考虑 和解决的问题。针对这些问题,人们提出了一种基于w e b 服务的服务计算新模 式一主动服务。 主动服务是在w e b 服务基础上,增加识别用户需求和处理功能,使用户能 根据特定需要选择合适的功能集,按需创建新的服务和应用。使i n t e r n e t 具备 面向用户需要进行“按需服务 的能力1 1 j 。 1 1 1 主动服务的现状 随着i n t e r n e t 的不断发展和普及,使得人们被包围在了信息的汪洋大海中。 为了高效的获取有用信息,近年来,主动服务技术越来越多的被提出用于解决 i n t e m e t 应用中的问题。 主动服务和程序挖掘就是在i n t e r n e t 上搜索、挖掘和获取构件资源,创建 和扩展本地构件资源库。然后根据用户服务需求,从本地构件库中检索提取能 够满足用户需求的构件资源,并组装执行。 1 ) 基于主动服务的各种原型系统已有实现,下面介绍一下主动服务的原型 系统【1 】: 武汉理工大学硕士学位论文 书人机接口子系统:用户请求输入与导航。 木需求分析与功能分解子系统:分析用户输入生成x m l 语言描述的关键 词表,明确搜索条件,判别服务是否已有。 掌本地构件挖掘子系统:搜索本地构件,构件组装和验证,执行权交人机 接口子系统。 宰本地构件资源库子系统:建立构件目录信息库,提供存储与搜索功能。 宰代理平台及系统管理子系统:监视代理运行情况,完成代理操作,提供 代理注册功能。 木i n t e r n e t 上构件挖掘子系统。 该原型系统的研究重点放在前四个子系统,而利用智能代理在网络上自动 搜索和下载构件( 大部分为收费构件) 自动装入本地构件库以及使用网络上不 可下载的网络构件仍然没有很完善的解决方法。 2 ) 目前主动服务和程序挖掘的研究还处在初始阶段: 首先主动服务的各种开发平台都是基于w e b 服务或j a v a 等构件的,虽然 它们提供了相应开发工具但都不能满足用户需求。开发主动服务的相应支撑平 台成为一个重点。 其次基于程序挖掘的主动服务其服务质量问题,比如网络传输延迟,程序 组装执行后的结果和用户要求是否一致都应进一步研究。 另外挖掘来的程序安全性,多代理技术的使用和主动服务标准及规范的制 定还需要完善。 1 1 2 导航系统的现状 随着基于构件的程序挖掘思想的提出, 掘的关键。主动服务还处于初级研究阶段, 装上。对于与用户交互的部分很少涉及。 正确获取用户需求描述成为程序挖 研究的重点都放在构件的搜索和组 目前大多数系统的人机交互采取“提问搜索”方式,不能根据不同用户的兴 趣爱好给出相应的建议。用户兴趣的状态信息没有保留下来,用户的每次搜索 都是相互独立的。没有综合用户个性化检索和利用群体共性做主动推荐的各种 优点。而且人机交互系统结构简单、形式单一,不能很好地和用户交流,很难 根据用户反应提供适合的服务。采用搜索模式的时候,用户总是向系统发送一 些关键词。系统根据关键词进行匹配,并返回结果集。存在命中率低和成本高 的弊端【2 1 ,2 4 1 。 2 武汉理工大学硕士学位论文 1 2 研究目的和意义 研究的目标是设计一个主动服务下的用户导航系统的完整架构。它能获取 并记忆用户常用的服务、使用习惯、交互行为等信息,分析用户的多种兴趣, 建立用户配置文件,为每个用户提供个性化的智能导航。 其关键问题之一是系统中用户接口的设计,准确有效地获得用户的需求, 适应主动服务的需要。之二是用户模型的建立采用何种技术,使对用户个人兴 趣集的分析更为精确。之三是用户信息文件,为系统提供分析依据的大量数据 的存储结构。之四是导航系统如何在用户信息文件的基础上主动为用户推荐服 务。 系统必须具备两方面的能力:一是构建用户信息模型,即跟踪用户行为, 学习、记忆用户兴趣,通过描述用户的兴趣来建立个性化用户模型;二是构建 个性化信息模型,即将个性化信息从全局信息空间中分离出来。此外,还需要 有功能强大的网络信息搜索能力和友好的用户界面【1 7 , 2 3 , 4 0 , 4 2 1 。一个理想的用户 模型可由以下几个部分构成【2 2 】: 1 ) 用户兴趣库:关于用户的描述信息,这些信息关系到用户的个人数据, 比如用户的年龄、教育程度和上作、兴趣和爱好、用户的领域知识。 2 ) 文档分析处理:基于内容的方法是从资源本身抽取信息来表示资源,使 用最广泛的方法是用加权关键词矢量。基于分类的方法是利用类别来表示资源, 对文档资源进行分类有利于将文档推荐给对该类文档感兴趣的用户。 3 ) 信息检索知识获取:将得到的用户需要或请求提交给搜索引擎进行处理, 并将搜索引擎返回的文档内容提交给信息过滤匹配系统进行信息过滤。 , 4 ) 信息过滤和匹配:根据用户个性化需求自动对检索到的信息进行过滤, 即使获取的信息更好的满足个性化需求。 本文提出的主动服务下的用户导航系统是在这个思想的指导下进行设计 的,在原有的主动服务系统架构下,改进了简单的提问搜索式用户接口,通过 跟踪用户个人兴趣的变化,主动将用户感兴趣的信息推送( p u s h ) 1 2 9 , 3 2 l 给用户, 使主动服务系统能更好的针对用户个性进行服务。 武汉理丁大学硕士学位论文 1 3 本文的组织结构 第1 章引言部分介绍主动服务导航系统的研究背景和现状以及研究目的。 第2 章介绍主动服务程序挖掘系统及其各个子系统,并将简单介绍主动服 务下的导航系统。为了弥补w e b 服务不能扩展的问题,人们提出了应用w e b 服务技术、构件技术、智能代理技术和数据挖掘技术,根据用户需求进行服务 定制的模式“主动服务”。 第3 章就分词、停词和关键词表向量化展开讨论,给出具体的需求预处理 方法。用户通过用户界面输入自己的服务要求,导航系统将记录用户申请的服 务的相关信息,分析和分解用户需求。 第4 章具体介绍了用户兴趣模型的实现技术,文档表示和工作流程。使用 动态用户兴趣类集基本竞争和门阀控制算法,建立和维护x m l 用户信息文件, 采用用户管理模块获取和更新用户信息文件,兴趣导航模块从信息文件中读取 导航信息。 第5 章按用户个性类型统计服务,再将某类用户感兴趣的服务推荐给该类 的某个用户。对用户进行分类是智能方向的主要问题。根据按用户属性枚举分 类和按用户兴趣集及s v m 多分类器的用户分类对新用户和老用户适用性能的 不同,结合用户分类映射,为不同用户提供更实用的导航。 第6 章给出整个的主动服务导航系统的结构,各子模块的功能,以及导航 系统与主动服务其他子系统的信息交互。 第7 章总结和展望。 1 4 本文主要工作 本文完成了主动服务下的用户导航系统的详细设计工作。该用户导航系统 能够分解用户需求,获取用户兴趣信息并根据用户兴趣集建立个性化用户信息 文件。利用分类统计所有用户历史需求为不同类型的用户推荐他们可能感兴趣 的服务。其主要研究工作如下: 1 ) 多兴趣类维护的动态用户兴趣建模。( 详见发表论文f 1 1 ) 2 ) 基于支持向量机及分类映射的双分类协作用户导航。( 详见发表论文【2 1 ) 4 武汉理工大学硕士学位论文 第2 章主动服务导航 随着电子商务与其它应用的不断发展,用户对i n t e m e t 应用的智能化程度 要求越来越高。人们希望网络不再提供那些固定的、一成不变的服务,而是要 求网络所提供的服务能够根据应用的变化而变化,随用户的不同提供个性化服 务。主动服务是在w e b 服务基础上,增加识别用户需求和处理功能,使用户能 根据特定需要选择合适的功能集,按需创建新的服务和应用。使i n t e m e t 具备 面向用户需要进行按需服务的能力【1 j 。 2 1 主动服务与程序挖掘 2 1 1 主动服务的提出 计算机网络不断普及,i n t e m e t 应用应运而生,随着电子商务与其他应用的 迅速崛起,人们不再满足于i n t c m e t 上的信息发布与共享,传统的w e b 服务也 得到快速发展【1 6 】,不仅为人们提供和发布信息,也进行事务处理和代管设备的 服务。 w e b 服务的定义: 定义1 :w e b 服务就是一个作为服务而通过i n t e m e t 标准发布的简单应用程 序。 定义2 :w e b 服务就是在i n t e m e t 环境下,通过标准网络协议和数据格式可 以发布、定位和调用的模块化的应用逻辑。 标准化组织w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) :w e b 服务是由u r i 标识 的软件应用程序,其接口和绑定可以通过x m l 构件进行定义,描述和发现【3 6 l 。 因此w e b 服务具有以下特点: 书w e b 服务是可重用的软件模块,为用户提供指定服务而不关心该服务的 实现细节。 宰w e b 服务支持的应用都具有标准化的数据格式和协议,使系统和内容的 集成变得更加容易。 5 武汉理工大学硕士学位论文 乖w e b 服务基于i n t e m e t ,以应用为出发点而设计,把原来基于技术集成的 思想转变到了基于服务的集成。 但是w e b 服务还存在一些不足: 现有w e b 服务基于固定计算模块,无法进行功能扩展。 串现有w e b 服务基于静态部署方法,无法感知用户需求的变化,不能面向 用户按需服务。 计算设备、网络、模式和软件,正逐渐由以计算机为中心向以人为中心转 变,通过i n t e m e t 和w e b 服务体系,为i n t e m e t 用户提供诸如网格计算和按需 计算的服务是一件梦寐以求的事。 为了更好地解决w e b 服务面临的用户要求智能化、个性化和综合化问题, 人们提出“主动服务”的概念。主动服务仍是基于i n t e r n e t 平台和以服务集成为主 的,所以可以将主动服务看作w e b 服务的一种。 与传统w e b 服务不同,主动服务是一种可根据用户需求进行服务定制的 w e b 服务。它除了传统w e b 服务的开放性、自治性和集成性外,还具有智能性。 主动服务的宗旨是为用户提供个性化、综合化服务。 主动服务根据用户的服务需求,从i n t e m e t 或者本地网络中搜索或者挖掘 能提供给用户需求的程序,然后组装、编译和执行它们,进而为用户提供服务, 改变了w e b 服务无法根据用户需求动态变化的情况,更适应用户需求。 主动服务的实现过程大致可分为三个阶段: 宰服务需求定义阶段:用户输入一个具体的任务,系统通过服务主动发现 模块在i n t e m e t 上搜索,以寻找一个可以完成该任务的服务。 若有合适的服务返回,直接执行该服务以完成任务。 若没有合适的服务返回,调用需求分析模块分解计算任务,形成任务的组 装方案。 宰服务发布与定制阶段:利用服务主动发现模块对组装方案中的服务进行 发现,分析所发现的服务的组合关系、服务协商关系,完善服务组装方案。这 个阶段需要在用户的参与下,动态修改组装方案。 掌服务执行发布阶段:此时系统已有一个完备的服务组装方案,清晰定义 每个子服务的执行顺序、执行条件、执行方式。将它提交给用户确认后,提交 服务给用户执行并对该服务进行注册发布以便重用。 主动服务地实现依赖于:w e b 服务技术、构件技术、智能代理技术和数据 6 武汉理工大学硕+ 学位论文 挖掘技术。 2 1 2 程序挖掘 要为用户提供智能化、综合化和个性化的主动服务,需要涉及程序的复用 和重组。构件技术的出现和发展,为软件复用和实现主动服务提供实现基础。 1 ) 构件的概念 1 9 6 8 年贝尔实验室的m c l l r o y 首次提出“软件组装生产线”的思想,从此 构件技术作为软件复用的关键技术之一,受到软件界的注意,并被大量加载到 i n t e r n e t ,成为提供主动服务的程序基础。 构件指具有相对独立功能和可复用的软件模块。具备良好的封装性和功能 上的完整性,对外只提供构件功能和复用接口【4 5 】。 因此构件具有如下特点:独立发布。严格定义的接口封装某种特定功 能。在构件框架中即插即用。可以与其它构件协作与组装。可被接口相 同的其他构件替换。 以构件技术支持的软件实体以开放、自主的方式存在于i n t e m e t 的各个节 点上,形成了i n t e r n e t 上的可重组、可复用的程序资源,为实现主动服务提供 了程序基础。 2 ) 智能代理 代理技术的主要思想是赋予软件一定智能,代替用户完成某些任务,以简 化用户工作。智能代理是人工智能研究和网络技术发展的必然结果。 一个智能代理包括三个基本要素:感知、推理和行为,其中感知引起推理, 推力产生行为和结果。 智能代理的性能包括自主性、智能性和移动性。 木自主性:代理能够接受相应用户的委托。提出建议、意见、决策。 母智能性:代理具有获取相关知识和应用知识解决问题的能力。人工智能 方法:知识推理学习。 木移动性:代理能否在网络节点之间移动,完成所指定的功能。优点:便 捷合适的计算资源和信息资源;缺点:系统的复杂性和不安全性。 智能代理主要是帮助或者代替用户完成委托的任务,一般可分为: 拳接口代理:帮助和引导用户完成委托的任务。它通过学习可以适应相应 用户的使用偏好,并自动执行一些常用流程。 7 武汉理下大学硕士学位论文 毒信息代理:对i n t e r n e t 或分布式数据库中的信息进行智能的检索,搜索 获取用户感兴趣的信息。 丰任务代理:能根据特定的领域知识,通过规划、推理和学习来帮助用户 完成特定的任务和进行复杂的决策。 代理的智能:每个智能代理往往都拥有一个推理机和知识库。知识库中存 放着相应的推理规则和事实,当代理感知到一个事件后,推理机就根据代理的 当前状态、运行的上下文,按照知识库中的规则进行推理,产生一定的动作、 做出相应的反应。 此外,有些代理还能根据以往的操作,产生统计数据作为推理论断的参数 或者直接产生新的推理规则,这就具有了学习的能力。 知识推理:推理是根据规则和事实进行推导,按照推导的方向可分为前向 推导和后向推导。 搴前向推导指根据规则,对已有的事实,推出新的事实 木后向推导则是根据规则,对一个命题进行真假判断。 代理学习有如下方法: 幸机械地重复所教授的动作。 幸根据统计数据调整参数和权重。比如神经元网络学习。 擘归纳:通过对一系列的事例进行抽象,形成一般性规则。比如决策树和 神经元网络 奎聚类:通过扫描得到高维的数据样本,根据其相似性形成分类标准。聚 集在一起的数据样本往往在特征属性方面具有很大的相关性。 代理体系结构:f i p a ( f o u n d a t i o nf o ri n t e l l i g e n tp h y s i c a la g e n t ) 提出的代理 体系结构参考模型,每个代理都运行在一个支持平台上,并且这些平台之间能 够互相传递信息。 3 ) w e b 数据挖掘 数据挖掘( d a t am i n i n g ) 是随着数据库技术的迅速发展和数据库系统的广 泛使用,从海量数据中帮助用户发现隐含知识的技术【4 3 1 。将数据挖掘应用到 w e b 领域,帮助用户从i n t e r n e t 上搜索和获取信息称为w e b 挖掘技术( w e b m i n i n g ) 。 w e b 挖掘方案: 乖数据准备:对数据进行选择,消除噪音和冗余数据,推算缺失数据。转 8 武汉理工大学硕士学位论文 换离散值数据和连续值数据,对数据值分组分类,计算和组合数据项,缩减数 据量。把网络文件转化为数据挖掘算法支持的形式。 木模式识别:采用各种技术选取参数分析数据,得到可能形成知识的模型, 常用的技术有决策树、聚类分类、粗糙集、神经网络等。 木评估模型:评估得到的知识模式模型,用数据检验其正确性。 木一致性检查。 宰支持及预测:运用知识描述的关系或结果对决策提供支持,以提高系统 性能。或者根据得到的规则对将发生的问题做出预测。 4 ) 程序挖掘 前面讲到的构件技术、智能代理技术、w e b 挖掘技术为主动服务提供了基 础。下面介绍主动服务的实现机制程序挖掘。程序挖掘是在i n t e m e t 环境下 为实现主动服务而提出的。它的研究目的在于如何方便地获取、组织、分析和 挖掘i n t e r n e t 上的构件。 程序挖掘( p r o g r a mm i n i n g ) 就是利用多个智能代理,分析用户计算请求, 从大量的构件资源中识别、发现、获取所需的构件,并进行自动组装,形成实 现用户所需计算功能的程序的过程【钏。它是大量软构件中的智能再发现与提高 的过程。 程序挖掘系统在客户端、服务器等中设置相应的智能代理,并将它们按照 一定的协议组织起来构成一个支持程序挖掘的多代理系统【2 1 。 通过智能代理系统把构件提供的服务功能反馈给用户,找到相关构件后, 对它们进行组装、编译和验证、测试,最后提交给用户。智能代理还能学习和 记录用户已经进行过的解决方案。 多代理系统的组成:用户接口代理。任务管理代理。任务分析代理。 构件搜索代理。组装验证代理。领域知识代理。构件目录代理。构 件库代理。 简单地讲,程序挖掘过程可分为两部分: 宰在i n t e m e t 上搜索和获取构件资源,创建和扩展本地构件资源库。 拳根据用户提出的服务需求,从本地构件资源库中搜索出能满足用户需求 的构件资源并组装执行。 9 武汉理工大学硕士学位论文 2 2 主动服务的模块划分 在主动服务思想下,程序挖掘系统需要访问和搜索分布在i n t e r n e t 和局域 网中各种异构构件库,并实现分布在构件库中构件资源的共享和复用,为用户 提供主动服务。其一般过程如图2 - 1 所示: 图2 1 程序挖掘步骤 根据程序挖掘的一般步骤,可以将主动服务系统切分为以下几部分: 1 ) 人机接口模块和需求分析模块 人机接口模块功能:完成用户与程序挖掘系统间的通信。方便用户输入需 求,为用户提供信息帮助,返回程序挖掘及相关服务的结果。 需求分析模块功能:分析用户输入的需求,从用户输入得到构件系统需要 的信息。 由于功能上的合作性,通常将人机接口( 不包含返回结果) 与需求分析放 在一起讲,其实现步骤如下: 用户以自然语言形式提出需求。 对需求进行自然语言理解与分析,获取用户需求关键词表。 根据关键词表确定需求领域和候选功能集。 1 0 武汉理工大学硕士学位论文 对用户需求进行功能分解,得到需求分解方案及功能顺序表。 原型系统c o m p l l 】关键技术: x m l 语言一用于描述用户需求关键词、属性词表等。 正向最大匹配算法一用于关键词抽取。 2 ) 构件搜索模块 功能:一方面负责在i n t e r n e t 上搜索和挖掘构建资源;另一方面在构件资 源库中检索提取构件。 i n t e r n e t 上的构件资源: 开发人员自由发布的构件,没有统一规范的组织结构,只有功能说明, 可自由下载。 专业开发商提供的构件,具备统一规范的组织结构,按构件资源库形式 发布,用户可按需下载。 在线构件,仅提供服务,不能下载。 关键技术: 智能代理。 多代理系统( m u l t i - a n g e n ts y s t e m ,m a s ) 及运行平台a r e ( a n g e n t r u n n i n ge n v i r o n m e n t ) 。 实现方案:搜素和下载第1 、2 类构件到本地构建资源库,搜素和描述第3 类构件。 3 ) 构件组装和验证模块 功能:组装执行搜索到的构件资源,在满足用户需求的情况下创建新的服 务。 构件组装就是根据功能顺序表以及构件的接口描述信息在构件之间建立调用关 系,根据这种调用关系,协调它们的接口行为使之成为一个有机整体【1 1 。 关键技术:通用构件描述语言( u n i v e r s a lc o m p o n e n td e s c r i p t i o nl a n g u a g e , u c d l ) 一用于不同格式的异构构件描述的互相转换。 其理想过程如下: 将功能顺序表和构件的u c d l 描述通过图形化构件组装工具生成一套 图形化构件组装方案,并交由用户确认。 武汉理工大学硕士学位论文 运行脚本生成模块,生成供运行的脚本。 通过u c d l 构件代理运行脚本,调用构件实体并确认它们之间的连接。 给出组装结果,生成供执行的代码。 4 ) 构件资源库 功能:用于集中存储和管理从i n t e r n e t 上搜索到的构件资源。 构建:按照u c d l 规范建立本地构件资源库( l o c a lc o m p o n e n tr e s o u r c e w a r e h o u s e ,l c i 州) 。 关键技术: 对于第1 、2 类构件,按照u c d l 描述规范并存储在l c r w 中;对第3 类构件,将功能描述和位置索引存储在l c r w 中。 使用多刻面分类和网状组织结构组织l c r w 中的构件资源。 l c r w 提供的操作:构件入库、构件检索和构件组合与协作。 2 3 用户导航系统 主动服务下的用户导航系统是主动服务程序挖掘系统的一个子模块,它主 要负责用户需求描述和程序挖掘的人机界面以及为用户提供他们可能感兴趣的 已有服务。 在程序挖掘中导航系统的主要任务如下: 1 ) 用户需求输入:面向用户的人机界面,提供需求输入、消息反馈和使用 帮助。 2 ) 关键词抽取:当用户输入请求后,需要进一步对其进行细化分解和功能 分解,确定需求领域,获取用户关键词表。 3 ) 用户行为记忆个性化服务:为了更好地满足用户需求,系统获取并记忆 用户常用的服务,为每个用户建立用户文件,作为识别用户和提供个性化服务 的基础。 4 ) 服务导航:系统不仅可以处理用户需求,还能主动为用户推荐服务。 本文提出的主动服务导航系统,使用用户兴趣模型和基于s v m 双分类映 射技术为用户提供智能导航,更贴合主动服务智能化的思想。 1 2 武汉理工大学硕士学位论文 2 4 本章小结 为了弥补w e b 服务无法扩展和不能按需服务的缺点,人们提出了根据用户 需求进行服务定制的一种新技术,即“主动服务”。 本章介绍了主动服务的实现机制一程序挖掘( p m ) 。所谓程序挖掘,就是 利用多个智能代理,分析用户计算请求,从大量的构件资源中识别、发现、获 取所需构件,并进行自动组装,形成实现用户所需计算功能的程序的过程。 接着介绍主动服务系统的功能划分及核心技术。主动服务的原型系统大致 可分为人机接口和需求分析模块、构件搜索模块、构件组装和验证模块、构件 资源库几个部分。 本文提出的主动服务下的用户导航系统作为主动服务系统的一个子系统, 扩展了人机接口和需求分析模块的功能,其主要任务有用户需求输入、关键词 抽取、用户行为记忆和个性化服务。 1 3 武汉理工大学硕士学位论文 第3 章用户需求分解 3 1 用户需求获取 主动服务是一个通过分析用户需求找到对应的服务组合来满足用户需求的 问题求解过程。因此,在主动服务系统中,最关键的问题在于让系统准确理解 用户意图,然后通过形式化的方法分解或描述它,使系统能进一步分析和处理, 为用户提供符合需求的服务1 3 , 3 0 , 3 3 1 。 广义的讲用户输入的需求可以有音频输入、文字输入、视频输入、图标导 航。其方式丰富多样,最为常见的是文字输入。 对于文字输入,用户输入的又需求具有模糊和不确定性。 根据用户需求内容的这些特点,要求主动服务系统具备很高的需求分析能 力。正确处理用户的需求,并使用形式化方法描述它,为主动服务系统其他模 块的工作提供处理的对象和内容,如功能分解子系统、构件搜索子系统、构件 组装子系统,因此可以说获取用户需求是整个主动服务系统的门槛,也是用户 导航子系统的核心问题之一。 首先,在主动服务用户导航系统的人机界面中,为用户提供一个可供输入 需求自然语言文本的窗口。通过人机界面中的自然语言理解与分析模块对用户 输入进行信息提取,得到描述用户需求的关键词表。 当用户键入一段需求文本后,可按下列步骤从这段文本信息中抽取信息特 征:分词专停词专向量化。 3 2 词法分析 词是汉语信息处理使用的、具有确定的语义或语法功能的基本单位。包括 信息处理用现代汉语分词规范的规则限定的词和词组【3 8 】。在汉语中,词与词之 间不存在分隔符,词本身也缺乏明显的状态标记,因此,中文信息处理的特有 问题就是将汉语字串分割为合理的词语序列,即汉语分词【8 1 。汉语分词是句法 分析等深层处理的基础,也是机器翻译、信息检索和信息抽取等应用的重要环 1 4 武汉理工大学硕士学位论文 节。 经过国内外学者的研究,提出了很多有效的分词算法,通常分为两大类: 1 ) 基于语言学知识的规则方法,如:最大匹配算法,n 最短路径方法。 2 ) 基于大规模语料库的机器学习方法,这种方法可以达到较好的分词效果, 因此应用较为广泛。如:基于n 元语言模型,隐马模型的算法。 汉语分词的主要瓶颈是切分排歧和未登录词识别。经过多年努力,研究者 们在分词算法、切分排歧和未登录词识别方面均取得较大的进展,但排歧和未 登录词识别往往和分词相对独立,忽略了具体的分词算法。 在这种状况下,中国科学院的刘群等人提出了基于层叠隐马模型的汉语词 法分析。 基于层叠隐马模型的方法,旨在将汉语分词、切分排歧、未登录词识别、 词性标注等词法分析任务融合到一个相对统一的理论模型中。 在预处理的阶段,采取n 最短路径粗分方法,快速地得到能覆盖歧义的最 佳n 个粗切分结果;随后,在粗分结果集上,采用低层隐马模型识别出嵌套了 人名、地名的复杂地名和机构名;然后,将识别出的未登录词以科学计算出来 的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普 通词一起参与各种候选结果的竞争。最后,在全局最优的分词结果上进行词性 的隐马标注f 3 7 ,3 9 1 。这种方法应用到中科院计算所汉语词法分析系统i c t c l a s 8 】 中,取得了良好的分词和标注效果,并被广泛使用。 基于多层隐马模型的汉语词法分析系统i c t c l a s ( i n s t i t u t eo fc o m p u t i n g t e c h n o l o g y , c h i n e s el e x i c a la n a l y s i ss y s t e m ) 提供一套完整的动态链接库 i c t c l a s d l l ,通过调用该系统直接获得中文分词、词性标注和未登录词识别的 结果。 图3 - 1 是采用i c t c l a s l 0 版对网上用户常见的一个问题进行处理的结果: 1 5 武汉理1 学硕十学位论文 鬻蒙i 爹露瑟燃曩爹冀黧凌缓酽” ;:j :裂:掰蛊蕞篙;攀麓:j ,裂:叼蒌力茹:;器; 怨” ( ,s r c “a r 口 “s r c ) u 蛐y ) a 甜 c 押f 。- “= r c “y ) 蓬蒸囊獭蓊薰馨季巍霉 ( 3 r c ( 甜y ( yt 驴。- 。) ( s r o ) - “s r c “y ) 埘,( 啦y 距? = 。i ) ( ,5 0 0 、0 0 0 s r c ) c y 即f 。n ( s r c ) 自苗,) 啊 v 吐咖卵o = 。r ) ( 一) ,“) ( ,蚍y ) 螂 e :4 v + ) w m 0 “埘) ( “口 抨e = 。r 。 ( s r c 每僖5 r c v ”v 埘 t 押c = 。- , 一“5 r c ) a 叮) 图3 - i c t c l a s 分词演示幽 + 操作选项:二绂标注( 不仅可以对酬语进行切分,还能标注详细词性) 。 输出格式:x m l ( 导航系统采用x m l 文档建立用户信息文件,因此分 训结果集也统一采州x m l 文档格式) 。 + 词的表示: s r c ) 配霄 ( t y p e 属性标注词性) 。 n i c t c l a s 是词法分析系统i c t c l a s 的n e t 框架( n e t 2 0 ) 包装版本, 在原有e x e 源码的基础上使j ; jc + + c l i 源码封装成n i c t c l a sd l l ,并做了一 定程度的简化。可以使用v s 2 0 0 5 扣丌,提供简译的接口,适用于普通的分词, 在c # 执行程序中能直接凋用。 分训系统调用代码通用接口: 1 ) 声明: n i c t c l a sn i c t c l a s ;卢明计象 n i c t c l a s = n e wn i c t c l a s 0 ; 2 ) 操作: 武汉理工人学硕士学位论文 n i c t c l a s o p e r a t e t y p e = e o p e r a t e t y p e o n l y s e g m e n t ;词语切分 n i c t c l a s o p e r a t e t y p e = e o p e r a t e t y p e f i r s t t a g ;一级标注 n i c t c l a s o p e r a t e t y p e = e o p e r a t e t y p e s e c o n d t a g ;- - 级标注 3 ) 输出格式: n i c t c l a s o u t p u t f o r m a t = e o u t p u t f o r m a t p k u ;= i l 大标注 n i c t c l a s o u t p u t f o r m a t = e o u t p u t f o r m a t _ 9 7 3 ;9 7 3 标准 n i c t c l a s o u t p u t f o r m a t = e o u t p u t f o r m a t x m l ;x m l 输出 4 ) 分词处理: s t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论