(计算机应用技术专业论文)分布式文档管理系统的研究和实现.pdf_第1页
(计算机应用技术专业论文)分布式文档管理系统的研究和实现.pdf_第2页
(计算机应用技术专业论文)分布式文档管理系统的研究和实现.pdf_第3页
(计算机应用技术专业论文)分布式文档管理系统的研究和实现.pdf_第4页
(计算机应用技术专业论文)分布式文档管理系统的研究和实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)分布式文档管理系统的研究和实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着全球信息化进程的不断发展,文档管理已经成为企业提高其核心竞争力 的重要手段。传统文档管理系统往往侧重于对文档的流通处理,而缺乏一种灵活 的机制来高效地发现和利用文档信息,从而造成了文档信息的浪费;同时,传统 文档管理系统还不能有效保护用户的隐私文档,造成了隐私文档信息泄露。 针对现有文档管理系统的不足,本文提出了一种分布式文档管理系统框架, 以提高文档管理系统中文档信息的发现和利用程度,同时还提供了更完善的访问 控制策略来保护隐私文档。论文的贡献主要体现在以下几个方面: 1 ) 本文提出了一个功能上较为全面的分布式文档管理系统框架,该框架主 要侧重于对文档信息的发现、利用和保护,实现了文档信息效用的最大化。 2 ) 通过对用户兴趣建模的研究,本文构建了一个基于本体的用户兴趣模型, 解决了用户建模中用户多兴趣及用户群体兴趣的问题。 3 ) 本文在安全访问控制方面,采用了下一代安全访问控制模型u c o n 来 解决系统的安全问题,根据本文作者所在研究团队对于u c o n 的研究成果一基 于本体的u c o n 模型,将基于本体的u c o n 模型应用于文档管理系统的安全访 问控制建模,很好地解决了文档管理系统的安全问题,尤其是文档共享与隐私问 题。 4 ) 采用l u c e n e 作为全文检索引擎来实现了系统的全文检索功能,使得对文 档信息的检索更为全面和准确,从而提升了文档信息的利用价值,促进了文档信 息的共享性和传播性。 5 ) 采用新的j a v ae e5 的技术开发平台和开发框架a p u s i co p e r a m a s k s ,来 实现本文设计的文档管理系统。同时,本系统的实现对于新技术的应用和推广也 做出了有益的尝试。 关键词:文档管理系统,用户兴趣模型,u c o n ,全文检索 a b s t m c t a b s tr a c t w i t l l 廿l ed e v e l o p m e n to fi 0 n i l a t i o ng l o b a l i z a t i o n ,d o c u i n e mm a j l a g e m e n th a s b e c o m et 1 1 ec h i e fc h 锄e lf o rc o m p a i l i e st 0i m p r 0 v e 也ec o m p e t i t i v e n e s s t t a d i t i o n a l d o c 啪e n tm a n a g e m e n ts y s t e m sa l w a y ss 仃e s sm ec n u l a t i o no fd o c 吼e n t 锄dl a c ko f an e x i b l em e c 】 l 砌s mt o ll o c a t ea n dm a :k eu s eo fd o c u m e n ti i l f b n n a t i o nl e a d st os o m e w a s t eo ni t ,o n 证l eo 也e rh a n d ,t r a d i _ t i o n a ld o c u m e n tm a n a g e m e n ts y s t e mc 踟0 t p r o t e c ts e c r e td o c 啪e n t so fu s e r se 丘e c t i v e l y 、) v ! h j c hr e s u l t sh t h el e a ko fd o c u m e n t i n f 0 n n a t i o n t 0s o l v cm ed e f i c i e n c yi np r e s e n t e dd o c 啪e n tm a n a g e m e n ts y s t e m ,t h j sp 印e r p u t sf 0 例r dad i s t r i b u t e dd o c 啪e n tm a i l a g e m e n tf 锄e 、r k 、:m c h c a ni i n p r 0 v e e f f i c i e n c yo fr e t r i e v i l l gd o c 啪e n ta n du s i n gd o c u m e n t m e a n 、h i l e ,m e 厅a m e 啪r k p r 0 v i d e sap e r f e c tl l s a g ec o n t r 0 1m o d e lt op r o t e c ts e c r e td o c 啪e n t s t h em a i n c o n t r i b u t i o n so fn l i sp a p e ra r e 嬲f o l l o w s : 1 ) t h ec o m p r e h e n s i v ed i s t r i b u t e dd o c u m e n tm a l l a g e m e n t 盘锄e w o r kp o s e db y t h i sp a p e rs n _ e s s e st h ed i s c o v e r y ,u s a g ea n dp r o t e c t i o i lo fd o c 眦e n ti 疵肌a t i o na n d m a l ( e st h ee 伍c i e n c yo fi t 如i l yr e a l i z e d 2 ) t h r o u 曲r e s e a r c ho nm o d e l i n gu s e r si n t e r e s t s ,au s e rm o d e l i n gm e t h o db 嬲e d o no n t 0 1 0 9 yi sp r e s e n t e db yt b j sp a p e r i ts o l v e dt h ep r o b l e m so fm u l t i u s e ri n t e r e s t s a i l du s e r 伊o u pi n t e r e s t s 3 ) a s f o ra c c e s sc o n t r o lm o d e l ,t h i sp a p e ra d o p t su c o nw h i c hi sn e x tg e n e r a t i o n a c c e s sc o n t r 0 1m o d e lt oh a v ep r o b l e m so nd o c u i i l e n tm a i l a g e m e n ts y s t e ms a f e t y s 0 l v e d b a s e do nt h ea c h i e v e m e n t so fr e s e a r c h i n go nu c o n ,w h i c hi sa c h i e v e db y o u rr e s e 砒g r o u p ,t l l eu c o nm o d e lb a s e do no n t o l o g yi sa p p l i e dt od o c 啪e n t m a n a g e m e n ts y s t e m ,w h i c hr e s u l t st os o l v es y s t e ms a f e t yp r o b l e m se s p e c i a l l yd o c 啪e n t s h a r e 锄ds e c r c tp r o b l e m s 4 ) a d o p t i n gl u c e n e 缎如l l t e x tr e 仃i e v i n ge n g i n et or e a l i z e 如l l t e x ti n d e xm a k e s t l l es e a r c h e so nd o c 啪e n ti n f o 咖a t i o nm o r ec o m p r e h e n s i v ea n da c c u r a t e a tt h es a n l e “m ee x a l t l l a b s t 阻c t t h eu t i l i z a t i o no fd o c 岫e mi n f 0 哪a t i o n 锄dp r o m p tt h es h a r e 锄ds p r e a do fi t 5 ) u s i n gn e wj a v ae e5t e c 眦q u ep l a t 】b n na i l da p u s i co p e r a m a s k sf r a m e w o r kt 0 i m p l e m e n tt h es y g t e mp r e s e n t e di nm i sp a p e r t h i ss y s t e ma l s om a l ( e ss o m eb e n e f i c i a i a l t e m p t st 0p o p u l 撕z e 锄da p p l y 协i sn e wt e c l l n o l o 科 k e y w o r d s :d o c 啪e n tm a n a g e m e n ts y s t e m ,u s e r si n t e r e s tm o d e l ,u c o n ,f u l l 一t e x t i n d e x i i i 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。 本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研 究所等机构将本学位论文收录到中国学位论文全文数据库或其它 相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名:茳j 二蜀邀指导教师签名: 关巳 揖。伯o 日多红谚年艺) 万月矽日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经 发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 学位论文作者签名:曳涵敞 跏俾d 汨卜日 第一章绪论 1 1 研究背景 第一章绪论弟一早三酉化 2 0 0 7 年3 月份,国际数据公司( i d c ) 对全球信息增长的状况做了一个全新 的统计分析:到2 0 0 6 年底,全球数字信息的总量达到1 6 1 e b ( 1 e b = 1 0 1 3 字节) , 相当于已出版的书籍量的3 0 0 万倍,且仍在增加。未来五年内,每年都要增长 5 7 ,这预示着全球逐渐进入了一个数字化的信息时代,也预示着知识经济时代 的到来。 世界著名未来学家托夫勒的“第三次浪潮 学说预测了知识经济的到来为社 会带来的深刻变化【1 】: 1 ) 高技术部门的崛起推动着第三次浪潮的发展。 2 ) 信息与经济的全球化、网络化。 3 ) 知识将成为最关键的社会经济资源。 4 ) 就业模式和企业生产组织模式将发生重大转变,动态联盟等新型的联盟 剧增。 5 ) 知识型企业成为知识经济时代最有生命力的核心组织单元。 随着数字信息量的爆炸式增长,企业部门或者政府机构的文档数量也呈指数 级膨胀。传统管理信息系统主要对企业的结构化数据实行管理,而对非结构化数 据的文档则缺乏有效的管理方法和手段【2 3 】。d e p l l i 咨询集团的一项调查表明:在 企业所获取的知识中,大约4 6 是以文档的形式存在的。然而,这些知识当中被 很好的归类,并及时地提供给需要这些知识的人,从而能够发挥作用的仅仅只有 1 2 。在全球化的知识经济时代,因为数字技术带来的“速度、联结以及无形价 值”的剧变,使知识的管理效率变成企业兴衰存亡的关键【2 】。 文档作为知识的载体,在充当记录和保存历史的同时,也担负着共享和传播 知识的职责,进而实现知识的再生。因此在某种程度上而言,对文档的管理就是 对知识的管理。然而传统文档管理只重视企业文档的凭证效用,而轻视其作为知 识载体的功能【3 1 。这样导致蕴含的大量知识资源得不到有效利用,造成了企业知 第一章绪论 识的浪费,从而影响了企业的核心竞争力。而且,传统文档管理系统中对文档信 息的利用只能通过用户检索的方式,造成了文档信息利用方式的不灵活,效率也 比较低下。 如何设计出满足企业需求的文档管理系统,使得企业在文档系统的帮助下能 够充分共享和利用文档信息,从而促进企业的快速发展已成为当前企业迫切需要 解决的问题之一。 1 。2 国内外现状分析 最初的文档管理系统主要用来处理特定领域的复杂办公业务,随着办公自动 化概念的提出,文档管理系统也得到了迅速的发展【4 - 卯。从最初的单用户文档管 理系统,到后来的多用户文档管理系统,从办公自动化系统中对公文流转管理的 集成到专业的文档管理系统,各种各样的文档管理系统相继出现,来满足对文档 管理的需求。文档管理系统当前已经被广泛应用,文献【6 1 0 】表明许多领域都离 不开文档管理系统的支持,这些领域包括:电子政务,项目文档管理,建筑工程, 水利工程,核工业等。 文档管理系统经历了从静态的手工方式,发展到加入了工作流的动态方式, 正向着融合了商业智能和知识管理的概念,并加入了计算机支持的协同工作的设 计文档信息管理的方向在发展【】。文档管理的商业化软件系统中,国外的产品一 般系统都比较庞大,价格高昂。国内的一般都是在l 0 t u sn o t e s 群件产品的基础 上进行二次开发的产品,系统的功能主要包括办公自动化,电子邮件,工作流和 公文管理。单领域专业化的产品中,也以国外的产品居多;而通用型的文档管理 系统在国内相对比较少。 从功能上来看,文档管理系统最重要的功能是【1 2 】:直接操作文档,检索和 存储文档,文档交流,文档合作,模式化和自动的文档工作流。当前已经存在大 量的研究来将工作流和文档管理结合起来:文献 1 3 】提出了一个形式化的计算机 公文流通管理系统:文献 1 4 针对如何控制文档流程和动态管理系统需求的问 题,提出了建立应用工作流技术的文档管理系统的方法。文献 1 5 提出了基于 c o r b a 的分布式文档工作流管理系统的体系结构,并阐述了文档工作流管理的 第一章绪论 具体实现。 文档管理系统中的安全控制是文档管理系统的关键部分。一个好的安全控制 机制才能保证文档系统的安全使用【1 6 】。现有安全控制的方法主要是通过分层次 的方式来实现的。在系统层次上,通过定义用户和口令来保证登录系统的用户的 可靠性;在文档层次上,一般采用访问控制列表的方法【 l 和基于角色访问控制 ( r b a c ) 的方法【1 3 】。a c l 的基本思想是使用列表来表示对象和用户之间的访闯控 制信息【1 9 】,即通过建立访问控制列表来实现权限控制。l 出a c 的基本思想是把整 个访问控制过程分成两步【2 0 】,访问权限与角色相关联,角色再与用户关联,从 而实现了用户与访问权限的逻辑分离。 文档管理系统的数据库目前主要有两种形式【2 u ,一种是文档型数据库,一 种是关系型数据库。关系型数据库在计算机数据管理的发展史上是一个重要的里 程碑,这种数据库具有数据结构化、最低冗余度、较高的程序与数据独立性、易 于扩充、易于编制应用程序等优点,目前较大的信息系统都是建立在结构化数据 库设计之上的。从1 9 8 9 年起,i 触l s 公司的n o t e s 产品提出了数据库技术的全新 概念一“文档数据库”,用来管理文档。文档型数据库不同于关系数据库,关系 数据库是高度结构化的,而文档型数据库允许创建许多不同类型非结构化的或任 意格式的字段。在结构上,关系数据库应用数学方法来处理数据库数据,其数据 模型建立在数学概念基础上,而文档数据库的基本元素就是文档。基于文档型的 文档管理系统目前主要的产品就是l 0 t u s 公司的d o c u m e n tm a n a g e r 【2 2 】。 1 3 存在问题 随着全球经济一体化的发展,企业的各部门遍布世界各地,增加了对企业各 部门文档管理的复杂性,导致对文档信息的检索困难,难以实现文档的共享性和 隐私性,降低了文档的利用率和价值。从知识管理的角度出发,企业的文档信息 不能够形成一个整体,就不能够很好地管理企业的知识,也就不能很好地从文档 信息中抽取出更加合理、更优化的信息( 知识) ,最终不能使企业最大限度地利用 知识为企业创造更多的价值。 根据对国内外文档管理系统现状的分析和对当前企业对于文档管理需求的 第一章绪论 研究,传统的文档管理系统主要存在如下的问题: 1 ) 对文档的检索一般都是基于关键字的匹配,导致对文档信息的检索过于 简单,使得很多文档信息不能被充分地检索出来,造成了文档信息的浪费: 2 ) 对文档信息的利用只能通过用户检索的方式,即文档信息只能被动使用, 而无法主动推送,从而导致文档信息的潜在效用得不到充分发挥: 3 ) 文档管理系统的访问控制模型大多采用r b a c 模型,由于r b a c 模型不 能有效地保护隐私文档,导致了系统在文档隐私方面存在着安全隐患; 4 ) 传统文档管理系统一般都是采用集中式的架构来管理文档,缺乏对分布 式的支持,不能够满足跨地域企业对文档管理的需要; 由于存在上述问题,传统文档管理系统已经不能很好地满足企业的需求,因 此需要提出一种新的文档管理系统框架,在高效地发现和使用文档信息的同时, 还能够有效地保护隐私文档的安全。 1 4 研究目的和内容 针对现有文档管理系统所存在的问题和不足,本文提出了一种分布式文档管 理系统框架。该框架主要侧重于文档信息的发现、利用、保护,在保证隐私文档 安全的条件下使得文档信息的效用最大化。本文所做的工作如下: 1 ) 提出了一种分布式文档管理系统框架。该框架集成了全文检索、用户兴 趣模型以及u c o n 模型,侧重于对文档管理系统中文档信息的发现、利用和保 护。同时由于采用分布式的架构,使得系统具有易于扩展、负载均衡等特点。 2 ) 通过对当前两种主要全文检索技术的分析和比较,本文采用基于l u c e n e 的检索引擎来设计和实现了全文检索功能,使得系统具有更全面的文档信息检索 的能力。 3 ) 对用户兴趣建模进行了研究,并构建了一个基于本体的用户兴趣模型, 解决了文档管理系统中面向部门用户群体兴趣建模的问题。通过建立用户兴趣模 型,使得文档管理系统能够按照用户的兴趣来进行文档信息的主动推送,奠定了 个性化服务的基础,丰富了文档管理系统中对文档信息的利用途径。 4 ) 采用了下一代安全访问控制模型u c o n 来解决系统的安全问题,根据 4 第一章绪论 本文作者所在研究团队对于u c o n 的研究成果基于本体的u c o n 模型,将基 于本体的u c o n 模型应用于文档管理系统的安全访问控制建模,很好地解决了 文档管理系统的安全问题,尤其很好地解决了文档共享与隐私问题。 5 ) 对本文设计的框架进行了实现。系统实现采用当前较新的技术平台j a v a e e5 以及a p u s i co p e 例m a s k s 框架,因此在新技术的应用和推广方面本文作出了 一定的尝试。 1 5 本文结构安排 论文共分为六章,各章的内容组织如下: 第一章:绪论。首先对文档管理系统进行了概述,然后分析了国内外文档管 理系统的现状,从而找出了现有文档管理系统所存在的问题。针对这些问题,给 出了本文的研究方向以及所做的工作。 第二章:分布式文档管理系统的设计。设计了一种分布式文档管理系统的框 架( d d m s ) 。通过分析文档管理的业务需求和功能需求,建立了文档管理系统 的模型,并且通过用例图来描述了系统所要实现的功能。然后给出了整个系统架 构以及系统核心模块的设计。 第三章:文档管理系统中的用户兴趣建模。首先阐述了用户兴趣模型的相关 概念,然后在对用户兴趣建模技术研究的基础上,本文构建了一个基于本体的用 户兴趣模型,然后对该模型进行了实例化,为文档信息的推送奠定了基础。 第四章:文档管理系统中的安全访问控制。分析了传统文档管理系统中基于 r b a c 访问控制模型所不能解决的问题,然后介绍了下一代使用控制模型u c o n 的相关概念。最后,将基于本体的u c o n 模型应用于文档管理系统的安全访问 控制建模,很好地解决了文档管理系统的安全问题,尤其是文档共享与隐私问题。 第五章:d d m s 系统的实现。全文思想的验证,利用新的j a v a 髓5 平台和 开源框架o p e r a m a s k s ,对本文设计的文档管理系统进行了实现,不仅对前文的 相关理论进行了验证,也为新技术的应用和推广做出了一定的努力。 第六章:总结与展望。概括了全文的主要内容并对今后的研究方向作了介绍。 5 第二章分布式文档管理系统的设计 分布式文档管理系统( d d m s ) 图2 1 系统功能结构图 2 1 2 功能描述和用例设计 d d m s 是采用b s 架构的分布式文档管理系统,主要侧重于对文档信息的 发现和主动推送,使得文档信息可以被充分的利用。该系统实现的功能主要有以 下几个方面: 1 ) 提供对文档的管理。系统没有提供在线编辑文档的功能,对文档的管理 是通过文档的上传、下载以及文档删除来实现的。这些操作必须由具有相应权限 的用户才能进行操作。 2 ) 提供对部门的管理。企业中的文档往往都是所属于不同的部门,因此对 部门的合理组织能够便于文档的分类和管理。 3 ) 提供对部门说明信息维护的功能。企业中的各个部门的职能是不同的, 通过给每个部门增添说明信息来描述该部门所负责的职能,这样就便于系统用户 7 日志维护模块系统维护模块用户管理模块权限维护模块部门维护模块 兴趣模型维护模块 文档检索模块文档维护模块 日志删除备份数据还原备份系统参数设定 用户权限的增删改 权限的增删改 部门增删改 部门说明信息增删改 兴趣增删改 全文检索传统检索 文档增删改 第二章分布式文档管理系统的设计 g 巡早么2 篓3 昌一一一蓊:j 艿护 部门说哩! ! ! 攀护 、二夕系统用户维护 生鬃瑟r 奉一 良好的适应性:系统能适应企业对系统的硬件环境、软件环境、管理内 容、模式和界面的要求; 9 第二章分布式文档管理系统的设计 可靠性:采用成熟的技术方法和软硬件开发平台,以保证在以后的实际 应用中安全、可靠,使系统真正成为企业文档管理过程中的得力助手; 安全性:系统应提高完善的安全机制,确保系统数据的受限访问; 可维护性:系统应易于维护、安装; 可扩展性:系统应适应未来信息化建设的要求,能方便地进行功能扩展, 以建立完善的信息集成管理体系。 2 2 2 分布式架构设计 随着网络技术和w 如技术的发展,跨地域、跨平台的分布式计算的规模越 来越大,应用也越来越广泛,集中式计算和两层客户服务器结构模式的应用己 不能满足现代企业的管理需求,构建可扩展、可伸缩、易管理、跨平台、高复用 性和安全性的多层次分布式结构应用已成为企业信息化建设的焦点。 在当前世界级企业不断涌现的同时,企业的规模已不再局限于局部地区范围 之内,而是遍布于世界各地之间,企业对文档的管理已逐渐呈现出无地域界限的 趋势。分布式的结构恰好迎合了当前文档管理系统的需要,不仅满足了企业部门 内部对文档的访问需求,同时也兼顾了企业部门之间以及企业与客户之间的对文 档信息访问的需求。同时,由于分布式架构还能有效缓解文档集中式管理而导致 服务器负载过重的问题,从而提供了更好的服务。 针对分布式的特点,并从文档管理系统的实际需要和将来文档管理功能的扩 展出发,在系统设计时需要采用分布式的设计思想。 2 2 3 系统体系结构 系统的体系结构采用的是b s 结构扩展后的多层结构,是面向企业级网络应 用的体系结构。本系统结构如图2 4 所示。系统实现采用基于j 2 e e 中间件技术 的三层体系结构:表示层、业务层和数据层。 表示层:主要包括用户的界面以及用户和系统的交互; 业务层:是系统业务逻辑的具体实现,以组件方式封装系统中的各类业 务逻辑,主要包括文档管理组件集、工作流系统组件集和系统配置组件, 1 0 第二章分布式文档管理系统的设计 2 3 1 两种全文检索技术比较 目前比较成熟的全文检索技术有如下两种: 1 ) 使用关系数据库中的全文检索功能组件。比较典型的有o r a c l e 9 i 中提供 的o r a c l et e x t 全文检索组件以及m i c r o s o f is q l s e e r 2 0 0 0 中提供的m i c r o s o r s e a r c h 全文检索功能组件。 2 ) 使用扩展性较强的全文检索引擎工具包,比较典型的有a p a c h ej a l ( a n a 的l u c e n e 引擎工具包。它是一个开放源代码的全文检索引擎工具包,但它不是 一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引 擎和索引引擎。l u c e n e 全文检索引擎架构的实际应用已经越来越广泛1 4 4 1 。 基于关系数据库的全文检索功能组件的优势是在实现全文检索的同时,还能 够利用关系数据库的完备功能,比如触发器、事务等,但是关系数据库的完备功 能会以执行效率的降低为代价:而l u c e n e 则缺乏关系数据库的事务支持等功能。 在建立索引方面,数据库索引的设计仅仅针对少数字段信息建立索引,并非 为全文检索设计,因此利用数据的索引仅能根据已建立索引字段进行检索,无法 实现全文检索【4 5 1 。同时数据库的索引还不支持模糊查询。利用数据库索引得到 的检索结果不能进行相似度排序,从而不便于对检索得到的相关重要文档的信息 提取。相反,l u c e n e 则在上述方面都提供了相应的功能,从而使得基于l u c e n e 的检索具有更强大的功能。 除上述之外,l u c e n e 还具有以下突出的优点: 1 ) 可以进行增量索引,也可以对大量的数据进行批量索引,并且接口设计 用于优化批量索引和小批量的增量索引。 2 ) 索引文件格式独立于应用平台。l u c e n e 定义了一套以8 位字节为基础的 索引文件格式,使得不同平台的应用能够共享建立的索引文件。 3 ) l u c e n e 只提供了一个通用的结构( d o c 啪e n t 对象) 来接受索引的输入。因 此输入的数据源可以是各种类型的文档,只要能够设计相应的解析转换器将数据 源构造成d o c 啪e n t 对象即可进行索引。 4 ) 优秀的面向对象的系统架构,方便扩充新功能。 因此采用l u c e n e 来作为全文检索的引擎具有很多的优点,同时文献【4 6 1 还表 1 2 第二章分布式文档管理系统的设计 要检索的某个关键词或者短语的文档。 4 ) 检索结果排序:就是对检索的结果按照一定的策略进行排序,使得重要 的信息能够首先被发现。l u c e 眦默认按照相关度排序,l u c e 雎对d o c 啪e n t 和 f i e l d 提供了一个可以设置的b o o s t i n g 参数( 其默认值为1 ) ,通过这个参数的值 来反映记录的重要性。b o o s t i n g 参数的值越大表示越重要,检索的结果就越靠前, 便于用户对重要信息的首先获取。 2 3 3l u c e n e 的中文分词 由于英文具备自然分隔符特性,因此英文分词比较简单( 按照空格来分词) 。 l u c e n e 自带的s t o pa n a l y z e r 模块可以分词,而且还能够区分出英文单词的大小 写,同时还能够过滤掉各类标点符号和语法词,能够满足一般的检索需要【4 7 1 。 然而在汉语中,词是最小的、能够独立活动的、有意义的语言成分,但汉语 是以字为基本的书写单位,词语之间没有明显的区分标记。因此,中文分词相比 较于英文分词而言,则要复杂的多。虽然从l u c e n e l 9 版本开始提供了对中文分 词的支持,但是其分词的效率低下,不能满足实际的中文分词的需求。因为l u c e n e 采用的是基于单字的一元切分发,也就是说对每个单字都建立索引,而在汉语中 有很多的单字是没有实际意义的,从而可以省略掉,比如汉字“吗”就是可以省 略的。由于这些单字的存在,导致建立了过多无用的索引,不仅增加了维护索引 的系统开销,同时也影响了检索的效率。 因此本系统没有采用l u c e n e 自带的标准中文分词接口,而是采用了中国科 学院计算所汉语词法分析系统i c t c l a s 。i c t c l a s 是目前最好的汉语词法分析 系统之一,该系统的主要功能有中文分词、词性标注、未登录词识别。i c t c l a s 系统提供了j a v a 接口,可以通过i ( j a v an a t i v ei n t e r f a c e ) 来调用,并且具有很 好得的兼容性【4 引。 2 4 用户兴趣管理设计 用户兴趣管理模块主要包括建立用户兴趣和主动信息推送两个功能。 1 4 第二章分布式文档管理系统的设计 2 4 1 建立用户兴趣 用户兴趣模型采用后面第三章的基于本体的用户兴趣建模的方法来构建,通 过引入兴趣类型这个属性来扩展了用户兴趣的表示方式,可以通过关键字或者 v s m 等方式来表示用户兴趣。为了便于系统的实现,本文采用了基于关键字列 表的方式来表示用户兴趣。用户兴趣值可以表示为一个二元组( 关键字类型,关 键字) ,比如某个用户对“王刚”这个作者很感兴趣,那么该兴趣值可以表示成 ( 作者,王刚) 。采用前文阐述的基于本体的用户兴趣模型,该用户兴趣可表示 为( 兴趣标志,王刚,3 级,兴趣链接) ,而兴趣链接至二元组( 作者,王刚) 。 由于采用这种方式,使得用户兴趣不仅能关注文档的关键字,还能关注于文档的 作者以及标题,拓展了兴趣关注的范围。 本系统提供了三种用户兴趣建立的方式:第一种是通过选择用户类兴趣来继 承该类的兴趣;第二种是用户手工输入自己的兴趣:第三种是前面两种情况的复 合。用户兴趣建立的过程如图2 6 所示。 图2 6 用户兴趣建立流程图 第二章分布式文档管理系统的设计 表2 1w 曲服务、c o 妯a 与d c o m 的比较 特征c o r b ad c o m w 曲服务 远程过程调用机制i i o p 协议远程过程调用 超文本传输协议 j 编码通用数据表示网络数据表示 扩展标记语言j 接口描述接口定义语言接口定义语言 w 曲服务描述语言 发现 命名服务与交易服务注册库 u d d i 防火墙的友好性否否 是 协议的复杂性高 高低 跨平台友好性 部分 否 是 从技术方面看,w 曲服务解决了c o r b a 和d c o m 遇到的问题,比如如何 通过防火墙,协议的复杂性,异类平台的集成等。本文旨在设计一个易与其它系 统整合,方便今后功能扩展,能够与其他异构系统通信的分布式文档管理系统, 因此本文采用w - e b 服务技术构建分布式文档管理系统的体系结构,主要利用w r e b 服务来检索文档信息,从而提高文档信息的检索范围。 2 5 2w e bs e r v i c e 调用方法 w r e b 服务的调用方法基本相同,主要分为以下几个部分: 1 ) 分析w s d l 文档:通过某种途径找到一个w 曲服务之后,使用者可分 析其相应的w s d l 文档,以找出调用参数、返回参数和调用端口地址。由于w s d l 文档是基于x m l 的文本文件,具有标准的格式,因此既可以人工分析其结构, 也可以利用相应的工具软件或通过编程的方式来加以解析。 2 ) 在w s d l 文档的基础上确定s o a p 消息格式:对w 曲服务的调用是通 过向其发送s o a p 消息来实现的。不同的w 曲服务其s o a p 消息格式大致相同, 只是在调用参数的个数和参数名称方面有所不同,应根据w s d l 文档提供的信 息来形成具体的s o a p 消息。 3 ) 发送并接收s o a p 消息:将上述s o a p 消息以x m l h t t p 协议格式发送 到w s d l 文档中指定的访问端口地址,位于该端口的w 曲服务执行之后就会以 s o a p 消息的形式返回查询结果,返回的s o a p 消息的格式仍然由w s d l 文档 所规定。用户程序可以轻易地通过x m l d o m 对象接收s o a p 消息,并从中取 出所需信息。 第二章分布式文档管理系统的设计 2 5 3 基于w e bs e r v i c e 的分布式文档信息检索 1 ) 系统工作原理 基于w 曲服务的分布式文档信息检索系统的工作原理类似于元搜索引擎。 首先,文档检索系统在接收到用户输入的检索关键词后,根据系统所涉及到的 w e b 服务分别形成相应的s o a p 消息请求,然后发送到相应的端口地址,调用 这些w r e b 服务。s o a p 消息的格式和w - c b 服务的端口地址可通过w s d l 文档获 得,在文档检索系统建立阶段已嵌入到系统中。 其次,各个w r e b 服务在各自的站点分别执行,并将检索结果以s o a p 消息 响应的形式返回给调用它的分布式信息检索程序 分布式信息检索程序接收上述检索结果,进行分类、排序、合并等操作,并 按某种事先预定的方式显示给用户。这一过程如图2 8 所示。 输 形成并 叫w e b 服务l接收多整显 入 发送多 个s o a p理不 检 个s o a p j 。舟1。消息响 返检 t t u ,j 队7 了 + 回 索 索 消息请 应 条 求 结结 件 1 鼬腩nr 果果 图2 8 基于w e b 服务的分布式文档信息检索系统工作原理 2 ) 文档检索服务的注册和发现 本文设计的文档管理系统采用分布式的架构,因此每个文档管理系统站点都 开发自己的w r e b 服务。文档检索服务必须经过注册,并且被用户发现后才可以 被调用。各站点首先将创建好的文档检索的w r e b 服务通过u d d i 注册中心发布, 服务请求者通过注册中心查找到所需服务后,与服务提供者绑定,并获取相关消 息。 u d d i 注册中心分为公有注册中心( 面向全球便用的u d d i 注册服务) ,也可 以使用私有注册中心( 某一范围使用的u d d i 注册服务) 。u d d i 注册中心主要提 供u d d i 查询a p i 和u d d i 发布a p i 。u d d i 注册中心提供的函数主要有: u d d i i n q u 时:u d d i 查询a p i : 1 9 第二章分布式文档管理系统的设计 u d d ip u b l i c a l i o n :u d d i 发布a p i : u d d i s e c u r i t ) r :u d d i 安全认证a p i ; u d d i s u b s c r i p t i o n :u d d i 订阅a p i ; u d d i r e p l i c a :t i o n :u d d i 复制a p i : 在w 曲服务实现过程中,每个部门将创建的w 曲服务发布到u d d i 注册中 心后,用户需要找到服务并调用该服务。但是在本部门内部,部门私有的w | e b 服务则并不需要发布到文档服务注册中心,可以使用代理的方式,对编译好的 w 曲服务的d l l 文件直接引用,或使用虚拟代理,根据w s d l 描述文件,自动生 成代理【5 1 。5 2 1 。 2 6 系统权限架构设计 权限系统的整体架构如图2 9 所示。 图2 9 权限系统的架构 1 ) 用户验证:用户登录系统时,首先进行合法性验证。如果用户身份合法 则进一步获得用户的角色、所属部门等属性,根据这些信息从权限控制器获得用 户的访问权限。假如某个用户对某个页面只具备查询的操作权限,当用户登录系 统时,权限控制器提供给用户的此页面仅具有查询功能按钮,其他的功能按钮不 予显示或者将其它的按钮锁定使其无法被用户操作。 2 ) 权限控制器:对整个访问控制系统中的用户、部门、角色、权限以及客 体资源等进行配置、授权及管理。 第三章文档管理系统中的用户兴趣建模 第三章文档管理系统中的用户兴趣建模 用户兴趣模型是反映用户兴趣特征的数据模型,即用户信息需求的计算机语 言描述,是个性化信息服务的直接对象。有了用户兴趣模型,元搜索引擎才能据 此针对不同用户提供个性化搜索服务。因此用户兴趣模型是个性化服务的基础和 核心。用户兴趣模型的质量直接关系到个性化服务的质量。 3 1 用户兴趣模型概述 3 1 1 用户兴趣模型定义 所谓用户兴趣模型( u s c rm o d e l ) 是指对用户的基本信息、兴趣、偏好和访问 模式等个性化需求信息的一种形式化描述,它应当能被系统“理解,并能有效 地应用于为用户提供信息或知识服务用户兴趣模型【2 4 】被用来捕捉并记录用户 的需求兴趣点,存储和管理用户的历史行为和用户的背景信息,通过建立模型来 记录、管理用户的兴趣,描述用户可能的潜在兴趣需求。 用户兴趣模型不仅仅是用户个体的兴趣描述信息,而是一种面向算法的、具 有特定数据结构的、形式化的用户兴趣描述。而用户兴趣建模就是从有关用户兴 趣和行为的信息( 如浏览内容、浏览行为、背景知识等) 中归纳出可计算的用户 兴趣模型的过程。有了用户兴趣模型,元搜索引擎才能据此针对不同用户提供个 性化搜索服务,因此用户兴趣模型是个性化服务的基础和核心。用户兴趣模型的 质量直接关系到个性化服务的质量。 3 1 2 用户兴趣模型分类 用户兴趣模型可以从三个角度对其加以分类口5 】: 1 ) 根据用户信息需求的稳定性,可将用户兴趣模型分为长期模型和短期模 型。长期模型反映用户比较稳定的信息需求,比如科研用户大多对某一课题在较 长的一段时间内有较强的信息需求。短期模型则反映用户动态的、短暂的信息需 求。 第三章文档管理系统中的用户兴趣建模 6 ) 基于用户一项目评价矩阵的表示。本方法用一个r m x l l 矩阵来表示用户模 型。其中m 为系统用户数,n 为项目产品数。矩阵中的每个元素r 的表示了用户i 对项目j 的评价,通常值越大,表示用户对相应项目的偏好程度越高。空元素值 表示用户没有对相应的项目做出评价。这种表示方法简单、直观,不需要任何学 习技术就能够从收集的原始数据( 显性的用户评价数据) 中直接生成,但也正因为 如此,使得这种表示方式缺乏对用户兴趣变化的适应能力,难以被调整来反映用 户最新的兴趣。 7 ) 基于本体论的表示法。由于本体论对特定领域对象的表示与描述具有规 范性、可重用性、可靠性等特点,有些研究者将本体论应用于信息检索领域,对 文档、用户模型进行描述,以提高系统的联想能力和精确性【2 引。 引入本体来表示用户模型的优点在于能够实现知识的重用和共享,包括用户 间本体类样本的共享以及与其他外部本体的知识交流与共享;缺点在于本体的设 计在很大程度上依赖于研究人员的知识和经验。 8 ) 粗兴趣粒度表示和细兴趣粒度表示法。粗兴趣粒度表示是指在用户模型 中只区分用户感兴趣和不感兴趣两大类的用户模型表示法;细兴趣粒度表示则在 用户模型中区分用户的兴趣主题。在现有个性化服务系统中,用户模型大多采用 粗兴趣粒度表示法,因为粗兴趣粒度用户建模实现起来较为简单,可以借鉴成熟 的机器学习方法。但应该说,细兴趣粒度用户模型更能细致地刻画用户的兴趣和 偏好,也利于用户理解和修改模型,能提供更高质量的个性化服务。 3 2 基于本体的用户兴趣建模 3 2 1 本体定义 本体至今还没有一个统一的定义。文献【3 0 】对本体给出如下陈述和定义: 本体是由一个用于描述某种现实情况的特定术语集和一个显式定义的公理 集组成,这组公理用于描述上述术语的内涵。 本体可形式化地表示为一个四元组:o :兰 c ,r ,f ,a ;其中: c :概念。本体中的概念是广义上的概念,它除了包括一般意义上的概念外, 第三章文档管理系统中的用户兴趣建模 还包括任务、功能、行为、策略、推理过程等。本体中的这些概念通常按照一定 的关系形成一个层次结构。 r :概念之间的关系,表示概念之间的一类关联。可以用关系r :c l c 2 c 。表示概念c l ,c 2 ,c n 之间存在的n 元关系r 。 f :函数。是一种特殊的关系,可以形式化表示为f :c l c 2 c n 1 一c n 。 a :概念或者概念之间的关系所满足的公理,是一些永真式集合。 本体的定义是随应用变化的。在最简单的情况下,本体只描述由“包含关系 关联起来的层次概念。复杂的本体包括概念的定义和概念相互之间的关系以及概 念与概念之间的关系所满足的公理。 3 2 2 用户兴趣的本体建模 由于文档管理系统中存在着主动信息服务的需求,本文提出了一种基于本体 的用户兴趣模型构建方法。本文为用户兴趣模型引入了如下的本体定义: 定义3 1 基于本体的用户兴趣模型是一个五元组u m :三( c p ,r ,f ,a ,i ) 。 c 是用户兴趣模型概念集;r 是一个二元组的关系,记为i e ( i 沁p ,r 砷,其中r c p 是用户兴趣模型概念属性集合,r c r 是用户模型概念之间关系集,r c r i 域是c 1 c 1 ; f 是函数集;a 是公理集,用来表示规则;i 是实例集,是一个三元组,它包括用 户兴趣模型概念实例集、用户模型概念属性实例集和关系实例集三个部分,记为 i = ( i c ,i c a ,埘。对该模型的各个部分详细描述如下: 1 ) 本文设计的用户兴趣模型涉及的主要概念有:用户类、用户基本信息、 兴趣类、用户兴趣

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论