(管理科学与工程专业论文)基于知识管理的办公自动化系统的研制.pdf_第1页
(管理科学与工程专业论文)基于知识管理的办公自动化系统的研制.pdf_第2页
(管理科学与工程专业论文)基于知识管理的办公自动化系统的研制.pdf_第3页
(管理科学与工程专业论文)基于知识管理的办公自动化系统的研制.pdf_第4页
(管理科学与工程专业论文)基于知识管理的办公自动化系统的研制.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(管理科学与工程专业论文)基于知识管理的办公自动化系统的研制.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要 广基于知识管理的办公自动化系统称为第三代o a 系统,是应办公自动化软件市场 i 于如疑发现、共享和利用的需求而产生的新一代0 a 系统。本文在分析现有o a 系统 不足的基础上,提出一个第三代o a 系统的实施模型,并开发了一个初步的第三代 o a 系统o 针对第_ c - - 代o a 系统的协作特征,本文提出基于a o v 网络的工作流设计方法。该 方法将工作流程分解成若干个工作流环节和连接环节的流向,一个工作流坏节表示一 个自然的办公活动,连接工作流环节的流向表示办公活动的逻辑或时f 日j 顺序。工作流 搜索算法独立于工作流数据,算法主要用于检查工作流程的完整性并负责将公文发往 合适的用户。 文档分类管理是在o a 系统中最常见的办公活动之一,也是实施知识管理的基础。 针对常见文档分类过程的效率低、主观性强等缺点,本文在总结现有聚类算法的基础 上提出了一种基于相似性的文档聚类分析算法。该算法将文档集合映射为由关键字权 值表示的向量组,采用凝聚的层次聚类算法逐步合并向量。聚类分析的结果是若干个 子集,每一子集内的文档一般属于同一个主题领域。本文还以实例对文档聚类算法的 特点和结果进行了分析。 在o a 系统中,关联规则分析可用于发现隐形知识,数据来源为0 a 系统中的结 构化数据信息。本文总结了关联规则分析在o a 中的应用特点,并以一个实例来阐述 关联规则在o a 中的应用,最后分析关联规则的产生过程及其含义。 关键词:办公自动化知识管理工作流数据挖掘文档聚类分析关联规则分析 华中科技大学硕士学位论文 i 目_ 目_ _ 目_ 目# # = g # _ 目_ = a b s t r a c t t h et h i r do a s y s t e m ,勰o f f i c e a u t o m a t i o ns y s t e mb a s e d o n k n o w l e d g em a n a g e m e n t ,l s g e n e 瑚f e di nr e s p o u s et ot h ed e m a n d s o ft h eo f f i c ea u t o m a t i o ns o f t w a r em a r k e t t od i s c o v e r , s h a r ea n du t i l i z ek n o w l e d g e 髓l i sp a p e rf i r s ta n a l y z e st h ed e f i c i e n c i e so f t h ep r e s e n to a s y s t e m ,t h e np r e s e n t s a l li m p l e m e n t a lm o d e lf o ro as y s t e mi i i ,a n dd e v e l o p s ap r e l i m i n a r y o a s y s t e m t 1 1 b a s e do nt h ec o l l a b o r a t i v ef e a t u r e s o ft h eo as y s t e mi i t h i sp a p e rp r e s e n t st h e w o r k f l o wd e s i g nm e t h o db a s e do na o vn e t w o r k t h a td i v i d e sw o r k f l o wi n t os e v e r a l w o r k f l o wt a c h e sa n dw o r kd i r e c t i o n st h a tc o n n e c tt h e m 。e a c hw o r k f l o w t a c h er e p r e s e n t sa n a t u r a lo f f i c ea c t i v i t y , a n de a c hw o r kd i r e c t i o nr e p r e s e n t st h el o g i c a lo rt e m p o r a lo r d e ro f t h eo f f i c e a c t i v i t i e s i n d e p e n d e n t o fw o r k f l o wd a t a ,w o r k f l o w s e a r c h i n ga l g o r i t h m i s a p p l i e dt oc h e c k t h ei n t e g r i t yo ft h ew o r k f l o wa n d t od e l i v e rd o c u m e n t st oc o r r e s p o n d i n g u s e r s d o c u m e n tc l a s s i f i c a t i o nm a n a g e m e n t i st h em o s tc o m m o no f f i c ea c t i v i t yi no as y s t e m a sw e l la st h eb a s i so f i m p l e m e n t i n gk n o w l e d g em a n a g e m e n t c o n s i d e r i n g t h ed e f i c i e n c i e s o f 逊ec o m m o nd o c u m e n tc l a s s i f i c a t i o np r o c e s s e s ,s u c ha si n e f f i c i e n c y ;s u b j e c t i v i t y , a n d s o o n ,o nt h eb a s eo fs u m m a r i z i n g t h ec u r r e n tc l u s t e ra n a l y s i sa l g o r i t h m s ,t h i sp a p e rp r e s e n t sa d o c u m e n tc l u s t e ra n a l y s i sa l g o r i t h mb a s e d 潍s i m i l a r i t y ,t h ea l g o r i t h mc o t w e r t s 晷s e to f d o c u m e n t si n t oas e to fv e c t o r sd e n o t e db yt h ew e i g h t so fk e yc h a r a c t e r s ,a n d t h e n g r a d u a l l y c o m b i n e sv e c t o r 谤a d o p t i n gt h e a l g o r i t h m f o r a g g l o m e r a t i v e h i e r a r c h i c a l c l u s t e r i n g t h eo u t c o m eo f t h ec l u s t e ra n a l y s i si ss e v e r ns u b s e t s ,e a c ho fw h i c hc o n t a i n s d o c u m e n t si nt h e 妇l t es u b j e c td o m a i n 。t h i sp a p e ra l s op r e s e n t se x a m p l e st oa n a l y z e c h a r a c t e r sa n do u t c o m e so f d o c u m e n tc l u s t e ra l g o r i t h m i no a s y s t e m a s s o c i a t i o nr u l ea n a l y s i s s u s e dt od i s c o v e rp o t e n t i a lk n o w l e d g e ,w h o s e d a t as o u r c ei ss t r u c t u r e dd a t ai no as y s t e m t h i sp a p e rs u m m a r i z e st h ec h a r a c t e r so f t h e a p p l i c a t i o no fa s s o c i a t i o n r u l ea n a l y s i si no a s y s t e m 。a n dt h e no f f e r s 熊e x a m p l et o d e s c r i b et h ea p p l i c a t i o no fa s s o c i a t i o nr u l e a n di nt h ee n da n a l y z e st h ep r o d u c i n gp r o c e s s a n dt h e s i g n i f i c a t i o n o f t h ea s s o c i a t i o np a l e k e yw 8 堪:o f f i c ea u t o m a t i o n k n o , m e d g em a n a g e m e n t , w o r k f l o w , d a t am i n i n g , d o c u m e n tc l u s t e ra n a l y s i s ,a s s o c i a t i o nr u l ea n a l y s i s n 华中科技大学硕士学位论文 l 。 谦蘧豹援出 l 绪论 8 蛰簿我爨来,醚饕数攥蓐技本静歉展,钳对金攀犍革疰庭露鹣慧患系统抟研究氇 取得了跨越式进展。从办公自勘化软件技术的角度来褥,信息系统根搌其功能特点被 分为三健。 第一代0 a 系统,如目前广泛采用的各类管理信息系统( s ) ,其特点是以教据处 瑾爻串心,瘦裰基于文辞系统或,彝关系墅数摄瘴系统,戳鳝麴化数搽为存德帮处理对 象,鞭调对数据的计黛和统计能力。薷一代0 a 系统的缺点是不能对协作办公活动撼 谈支持,两潍环境下靛办公潘动本身典寿蛰 乍漆特点,要求多照户协终办公。 随筲i n t e r n e t i n t r a n e t 技术在企事业单位中的广泛应用,以工作流为中心的第 二搜潍系统改交了翠辩雠系统不麓熹持漭 擘经务煞弱点。第二伐o a 系统纂予霸络 ( 常常是局域网) ,通过e m a i l 和群组软件实现工作流程的自动化处理。第二代o a 系 统处理靛数据j c 孛象不戮予结梭纯鼗撂,魏最常觅的囊发乎套l o t u s ,它强文蹬数据蓐 保存备类数据,不仅继承了关系数据滕的高效灵活,也拓宽了处理数据对象的范围, 露欲处理嚣缮搀讫静数据售惠。更重要的是,繁二代激鑫予实凌了辫王俸滚辩全蕾 支持,因而完全可以满足协作实时办公的需要,最大限度释放了网络平台的价值。 在办公实践率,两络鳃爱穗使霉入躺对售惑共享约霉求嚣蘸突窭,垒整嚣要越寒 越多的外界信息和企业内部信恩的积累,对信息进行分类管理。从信息中获取有效知 谈,并将知识广泛传撵。知识管理螅摄念壶鳆蔼诞生,鞋帮豌企避解决躲谖菸摹霜露 利用的间题,冀目标是通过建立企业知识门户将企业内部的“信息孤岛”连接起来, 傻褥鬟产在需要嚣对嫫可激获搭有效媚滚,避兔错误帮重复工律。知识管理关注舞籁 获取、组织、利用和传播散布在企业信息系统和人们头脑中的知识,从技术层面来看, 歙谖管壤羧是要解决躲识静获载帮剽矮。第三代0 a 系统静概念出戴慈提出,酃鞋翱 识管理为特征的第三代o a 系统。和过豢的o a 不同的魑,第一代o a 以数据处耀为中 心,第二 弋o a 以按 乍交淡为中心,露籀三找瓢以知识簧理为中心。在第三代激系 统中,从简单黯电子部件、群彳牛与协律、直至构建w e b 应用,其核一心目的都媾在获 褥积利蹋知识,通过对知识欧运用提嵩众事、监肇位的办公 乍、韭效率。 基于阻上琢阁,本课题的目标就是研究基于知识管理的第三代o a 系统模型并初步 华中科技大学顽士学位论文 实现一个第三代o a 系统。系统首先针对o a 环境下的办公活动特点,对工作流重新设 计,使工作流数据和算法相独立,改善系统的可操作性和可理解性。然后从知识管理 的技术层面出发,致力于知识发现及其应用,采用聚类算法实现了文档聚类r 并采用 关联规则分析实现了图书采购过程的决策支持,从而显著加强了o a 系统的功能。 1 2 基于知识管理的第三代o a 系统的研究意义 目前,基于知识管理的第三代o a 系统的市场需求正逐步升温,知识管理的目标 在于促进企业内部的知识共享和利用,并继而提升企业的核心竞争力,因而其广阔的 市场应用前景引起了企事业单位用户和开发人员的关注。但知识管理的实现是一个复 杂的系统工程,实施知识管理带来的是一场全新的变革,包括从技术到管理,这一过 程不可能一蹴而就。而且鉴于当前第二代o a 系统在企事业单位中的广泛应用,如何 在升级o a 系统过程中保护企业信息资源和投资也是一个现实问题。处于上述因素的 考虑,本文开发了一个基于知识管理的第三代o a 系统,不仅完整继承并改进第二代 o a 系统,也实现了初步的知识管理,这一系统的开发具有如下意义: 使工作流的定义过程更加清晰,由于本系统采用新的设计方法,使得工作流 的定义和搜索算法相独立,无论从设计还是使用的角度来看,都有良好的可理解性。 从开发人员角度来看,系统具有更好的可维护性和功能可扩充性;从使用者角度来看, 工作流的定义过程不需要普通用户去理解开发平台的工作流特性即可方便快捷的完 成。 实现了无用户指导的文档分类管理,使文档分类管理更加有效和智能化。通 常文档分类管理是由用户手工完成,分类过程不仅费时费神。而且主观性过强,分类 结果的质量取决于用户在各个相关领域的专业水平。而无用户指导的分类是通过文档 聚类算法实现的,聚类算法根据文档的自然相似程度进行文档聚集,尽可能的消除了 用户的主观性。聚类结果的测试只需改变输入参数即可完成,大大减轻了用户的工作 量。 使系统具有一定的数据挖掘能力,系统中实现了一个关联规则分析的实例, 通过挖掘历史借阅信息获得有效知识,为图书采购过程提供决策依据。在以往开发的 o a 系统中尚未出现过关联规则分析的应用,本系统引入关联规则分析证明了o a 系 统中文档数据的结构化数据部分和关系数据库中的数据样可以用作数据挖掘的数 据来源。更重要的是,这一应用实例可以用于启发用户的需求,拓展数据挖掘在o a 系统中的应用,最终建立完备的知识发现机制。 华中科技大学硕士学位论文 1 3 国内外研究开发概况 2 0 世纪8 0 年代中期,组织和管理学权威p e t e r d r u c k e r 首次提出了知识管理的概念。 时至今日,国内外许多机构和商业企业陆续提出了知识管理的层次或结构模型,并从 技术和管理角度启动了知识管理的实施,有一些软件公司在此基础上开发了以知识管 理为核心的第三代o a 系统【。0 “引,这些系统通常有以下几个特点: 1 ) 比较完整地继承了第二代o a 系统的功能,可满足日常办公的基本需要。 2 ) 有一个知识管理模块,并在不同智能的程度上实现了文档的分类管理。 3 ) 由于开发工具和算法设计方面的原因,缺少对隐形知识的发现能力。 知识管理的系统性使得其实现思路复杂,可行的作法是根据知识管理的层次将其 实施过程分解为若干步骤逐步实现。从技术层面来看,知识管理要解决知识的发现和 利用,由于基于知识管理的o a 系统一般采用l o t u s 群件系统开发,而知识发现算法 逻辑复杂,如何利用l o t u s 群件系统实现知识分类管理和更复杂的知识发现算法是系 统开发的难点之一。下面,将从理论模型和应用两方面来介绍国内外的研究现状。 1 3 1 知识管理的理论模型及其应用 知识管理的概念在“知识经济”的时代倍显突出,但实施知识管理的首要难题是 界定知识管理概念的内涵和外延,构造知识管理的层次或结构模型。自从知识管理的 概念出现以来,国内外各科研院所和商业企业从不同角度和层次提出了自己的知识管 理概念。 中国人民大学行政管理学系的李传军从权变理论出发【3 l ,提出知识管理的本质是当 组织面临日益增长的非连续的环境变化时,针对组织的适应性、组织的生存及组织的 能力等重要方面的一种应对措施。组织中的知识分为显性知识和隐形知识两类,显性 知识是般的信息资源,而隐形知识存在于员工的头脑中。知识管理的目标是共享和 利用隐形知识,因而要在组织中实施知识管理,必须从组织结构和管理制度入手,实 现制度更新和观念更新,鼓励、启发个人贡献知识。 南昌职业技术师范学院图书馆的肖菲等人 4 1 ,从知识管理的核心基础出发,将知识 管理化分为两代:第一代知识管理的核心是数据库、群件、文档管理以及更高一层的 数据挖掘等技术,是“以技术为中心”的知识管理;而第二代知识管理的核心是高性 能的学习,融合知识管理和组织学习,强化能够自然产生创新和创造力的环境,帮助 华中种技大学硕士学位论文 缝织瑟茯建裁逡耨翔谈。第一代知识管理预禽予翔漆静发现耨稍爝,第二代知识替瑗 则在第一l 弋知识管理撼础上进步深入,使组织系统能产生、确认知识辩使其制度化a 瘳予强镶警疆概念翡不一熬,氟谖鬻莲静鼷次结将模囊氇不尽辐弼,其实攘遥稷 缺少支撑平台翘工具。2 0 0 0 譬5 月,l o t u s 公翊从誊句建第三代办公自勘化系统的方案 孛燕出了掰嚣皴识警疆概念戳爱宠整熬实瑷恶骆,鼠效识浚动角度来豢,黧瑷瞽瑾瓣 模型是由发现知识、定位知识、传递知识和肖效利用知识等几个环节缀成,从结构泉 看,絮谖营瑾交企遂蒸懿设藏、管理麓鬟、螽谖笈瑗窝豁识共事磷爱等帮分缀袋,l o t u s 公司开发了一系列用予实现知识管理的工具,并将这些工具集成一个k - - s t a t i o n 平台 上,齐没苔霹褒筵乎裔上擒建众堑蠢淡门产。 隐形知识的驻性化媳知识管理的一个重要课题,也就是知识发现( 戚者称为知识 获致。骢形辩识甄毽撼爨工头脑中豹稚识,氇趣捂数据蘩惑串憝含簿寒被发现鼹焱 识。从管理的角度着手可以促进员工膊形知t 疑的显性化,但针对海量髂息的知识发现 帮是一令技寒瀚难题。邋鬻,瓤营瑾擎霜度理瓣翡瑟谖警瑾嚣法楚躲谖茨襞这重要 环节作为重点米实现。 孥审簿菠丈攀僖惑警瑾暮魏瘸涛谈为潮,躲谈管理熬核心瓷予藏莰躲滚蕊流动蟊菠 用,并创造价值。其中爆重要的阶段是知识的流动,知识流动的模型描述为:知识获 彀翔识壤竭躲谖转移,荚孛绺谖获取是这令攘鍪 翁基藏,除了鬻霓瓣撩索藏 术外,通常还采用数据挖掘技术来实现。数据挖掘技术在知识流动模型中主要实现四 耪珐戆:数爨慧蓥、簸援分类、羧攥聚黉帮美联蔑鄹。 南歼大学计髀机系的李飞等人在知识管理和表达系统的研究中【7 】,成用了数据挖掘 技拳黧天工智慧接泰;翅谖管疆与表达系统是赘争系缝中翡一个子系统,餐禽麓户嚣 知识库,这种划分基于狨义的知识管理的概念,即用普懑的信息篱理方式来管艘知识, 不龟搔缎瑷靛发溪过程辩裂薅过程。箕串翔谖麾蠢鼗豢笼据予象绞获褥,舞识露又毒 用作稚溅机的知识库,围而知识管理与袋达系统是数据挖掘系统和专家系统的纽带和 辚粱, 知t 髓发现趋知识管理的基础,在较艇杂的环境中应用数据挖掘技术来发现知识是 实楚熟识彗理熬必经之途。上霹提出载鳎谖警理模型串穗经怒怒浞发璇佟舞一个重要 的环节但针对的数攒还是以结构化数据为主,而办公舟动化环境中大激的数据是半 结擒化酶,钤黠逛一特豫零境下瓣疑识袋理还憝要避一步礤究。 华中科技大学硕士学位论文 1 3 2 知识发现在第三代o a 中的应用 2 0 0 0 年5 月,l o t u s 公司发表技术自皮书第三代o a 以知识管理为核心的新 一代办公自动化中除了描绘知识管理的模型外,还介绍了该公司对第三代o a 系统 功能的观点:“不仅模拟和实现了工作流的自动化,更模拟和实现了工作流中每一个 单元和每一个工作人员运用知识的过程”。技术白皮书还介绍了l o t u s 群件的新产品, 这些产品构建了一个更加面向用户的高端集成化开发环境,可以便利地实现文档管 理、电子白板、专家定位、内容编目和信息检索等功能,这些基础功能构成知识管理 的基础设施,在此基础上继而实现企业知识门户( 或称为知识地图) 。 继l o t u s 公布技术自皮书后,国内外企业纷纷推出自己的第三代o a 产品,从其知 识发现的功能层次上可将这些系统分为两大类:以实时协作和普通文档管理技术为孩 心的o a 以及以数据挖掘和智能检索技术为特征的o a 。第一类o a 系统由于缺少最 基本的知识发现功能,所以本质上应该划为第二代o a 系统,但针对实时协作的办公 活动采用新的设计方法,使企业协作到达个更高的水平。第二类o a 系统不同程度 地实现了知识发现的功能,而且通常以数据挖掘技术为主。 合强软件公司开发的o a 2 0 0 0 第三代o a 系统中,除了完备的同常事务处理模块 外,还单独开发了一个知识管理模块。这个知识管理模块提供了从高到低各个层次对 文档的管理,并提供了相当灵活的查询、检索、移动、加锁解锁等功能。该模块中还 记录和跟踪用户对文档的修改和访问,这一功能可以用来分析用户访问模式,从中发 现有效知识。 虽然知识发现在第三代o a 系统的应用尚处于探索阶段,但知识发现从理论到应 用都发展的相当迅速,许多相关产品已经进入了市场,并有望在o a 系统得到应用 0 2 。 i b m 公司在9 0 年代末期进入知识发现领域,并开发出产品t e x tm i n e r ,突出智能 的“文本挖掘”功能,主要功能是特征抽取、文档聚集、文档分类和检索。t e x tm i n e r 的特征抽取器能从文档中抽取人名、组织名和地名以及由多个字组成的复合词。此外, 特征抽取器还能抽取表达数字的词汇,例如,“钱”、“酉分比”、“时间”等。抽取完特 征以后,有相似特征的文档就被自动聚集成一个集合。利用这一功能,知识发现系统 可以从大量文档中找到相关文档。t e x t m i n e r 还可以对文档进行自动分类。 概率论中的贝叶斯公式在知识发现中的应用研究亦有相当进展【8 1 。a u t o n o m y 公司 以概率论中的贝叶斯公式和香农的信息论作为其技术的理论基础开发文本挖掘产品, 一一。 5 华中科技大学硕士学位论文 其最核心的产品是c o n c e p t a g e n t s ,在经过训练以后,它能自动地从文本中抽取概念。 在其c e om i k el y n c h 看来,按照香农的信息论,文档中除有效概念外,还有大量的 冗余信息。而词或短语是否为冗余可根据它在文档中的随机度( 概率) 束判定。如果 能滤去冗余,就可从文档中自动抽取出表达文档主题的概念。在该公司的解决方案中, 先要对系统进行训练,处理一些文档,由使用者对非冗余概念做出认定和识别。按照 贝叶斯概率理论,这一步实际上是让系统获得关于概念的先验概率。系统在随后的自 动处理中根据这些概念在文档中出现的实际情况,按贝叶斯公式求出后验概率,以此 作为冗余过滤的依据。这一方法与语种无关,由于每个用户都要对系统进行个别训练, 因而系统的文本挖掘天然就具有高度个性化的特点。 相关的其它产品也正在相继面市,这些产品都是以文档为数据处理对象,应用先 进的数据挖掘技术来获取知识,其实现过程在o a 系统的开发中有很好的借鉴作用。 1 4 第三代o a 系统模型 综合各种对知识管理的观点,拍】,本文认为知识管理是一项复杂的系统工程, 它由企业信息基础设施、管理制度和方法、知识获取和发现、知识共享和评估四个部 分组成,其结构如图1 1 。 图1 1 知识管理的组成 信息基础设施是企业的硬件基础及信息系统运用经验的积累,而管理制度和方法 涉及企业的管理思维,知识共享和评估也与企业的管理方法直接相关。本文将从技术 的角度来阐述知识管理,并致力于实现其中一个环节:知识获取和发现。 在l o t u s 平台下,知识管理的实簏可分为三个层次:第一层次实现充分的协作和文 档管理;第二层次运用数据挖掘技术和智能检索发现知识和定位知识:第三层次则运 6 华中科技大学硕士学位论文 用开发工具构建企业知识门户框架。系统模型图见图1 - 2 。 建立企业知识门户 1 发现知识定位知识 f 协作和文档管理 图1 2 第三代o a 实施模型 第层次的实施通过运用l o t u s 群件的工作流特性和文档数据库实现,如前所述, 当前常见的第三代o a 系统多停留在这一层次。 第二层次则是主要通过利用数据挖掘技术发现隐形知识或提高检索的智能来实 现。在这层次,数据挖掘技术被广泛应用,本文所研究的系统就是在这个层次上的 初步实现。 在本文中,使用了“关联规则分析”和“聚类分析”技术。关联规则分析可用于 在结构化数据中发现有趣的关联关系,最典型的例子是“购物篮分析”,它可用来发 现顾客购买商品的的组合模式和规则。l o t u s 文档数据库中包含大量结构化数据信息, 这些信息可以用作关联规则分析。聚类分析用于划分一组对象集合,根据对象之间的 相似程度进行将集合划分为若干个子集,它与普通分类的特点是无用户指导。l o t u s 中最基础的文档管理就是对文档进行分类,对文档进行聚类分析就是根据文档之间的 领域相似程度进行聚类,获得智能化程度较高的聚类结果。 1 5 本文的主要工作 针对现有的o a 系统普遍存在的上述问题,本文的主要目的就是开发一个初步的 基于知识管理的第三代o a 系统,使系统具有初步的知识管理特征。系统的某些功能 华中科技大学硕士学位论文 模块的实现在技术上具有示范作用,在应用中将根据实际需求开发出新的模块。在 o a 环境中,可能用到的数据挖掘技术有:针对文档的聚类、针对结构化数据的关联 规则分析等,为此目的,本文主要对以下内容进行了研究: 1 )7 - 作流的设计与实现。根据办公流程的a o v 网络特性设计工作流,使工作 流的设计和定义更易理解,并分离了工作流数据和算法。 2 )聚类算法在文档数据库中的应用。o a 中的文档管理最基础的功能就是分类 存储,为实现分类过程的智能化,本文设计了一种文档聚类算法来实现文档的聚类。 3 )关联规则分析在文档数据库中的应用。文档数据库中存在的结构化信息也可 以用作关联规则分析的数据来源,本文设计了关联规则分析算法并实现了一个实例。 4 )文档管理在各个模块中的应用。文档管理在办公无纸化过程中有广泛的应用, 本文实现了其中部分重要应用,如图书管理、电子论坛等。 围绕以上研究内容,本文主要由以下几章组成: 第一章,介绍了课题提出的背景、目的和研究意义,分析了国内外在知识管理理 论方面的研究以及知识管理在o a 中的应用情况,针对现有o a 系统的不足提出第三 代o a 系统的模型。 第二章,介绍了系统的特点、开发平台和体系结构,并分析该结构的性能和安全 特点,然后概要介绍了系统的模块组成。 第三章,分析了办公活动的工作流特征,将工作流程看作“外延”的a o v 网络, 并根据其特征设计工作流模块。随后介绍算法的设计,算法针对“顺序执行”和“选 择分支”两种形式的流向实现,支持两种流向任意组合。 第四章,介绍了聚类算法并分析文档聚类的特点,在此基础上设计了文档聚类分 析算法,详细阐述该算法在l o t u s 平台上的实现,并以实例分析该算法的特点。 第五章,介绍了关联规则分析的概念及a p r i o r i 算法,并针对图书采购决策这一实 例阐述关联规则分析的应用过程。 第六章,对全文进行总结和展望。 一 一 8 华中科技大学硕士学位论文 2 1 系统设计原则 2 系统总体设计 本系统的设计原则基于绪论中提出的知识管理的实施模型,即在充分的协作和文 档管理之上,采用有效的数据挖掘技术来发现知识。系统以早期开发的一个o a 系统 为参照模型,引入知识管理的新模块,在设计过程中不仅继承了第二代o a 的设计风 格和优点,也体现了以知识管理为特征的第三代o a 的设计思想。 系统设计的原则如下: 1 ) 通用性: 系统设计过程中参照了早期实现的o a 系统,大多数通用功能都得到了继承和进 一步优化。系统可应用于大多数办公室环境,具有一定的通用性。 2 ) 新颖性: 系统设计过程中引入知识管理的概念,并针对办公环境下的计算特点设计了部分 数据挖掘算法,提高系统功能的智能程度。 3 ) 开放性: 系统的各个模块相互独立,具有良好的可扩充性。系统的开放性使得设计者可以 根据实际需要,在知识管理模块中更加广泛地采用数据挖掘技术。 4 ) 可理解性和可操作性: 为便于开发者和使用者理解o a 系统特有的工作流特性,系统的工作流模块基于 a o v 网络设计,这使得系统的功能简洁易懂,使用方便。伴随着可理解性和可操作 性的改善,系统的可靠程度也得到了提高。 5 ) 稳定性和安全性: 采用l o t u s 群件为开发平台,采用先进成熟的技术构建系统,保证系统的稳定性 和安全性。 2 2 软件平台 本系统采用l o t u s 群件作为软件开发和运行平台。l o t u s 是个为群件i 作组提供 的通过计算机网络达到数据共享与协同工作的分布式系统平台。它包含了一整套的基 9 华中科技大学硕士学位论文 于通讯基础设施的文档数据库,同时具备分布式储存和通讯的特点。 l o t u s 在客户端的软件是l o t u sn o t e s ,这是个浏览器软件,除了用于浏览l o t u s 应用界面外,还支持h t t p 等应用层协议,并内嵌了i e 5 浏览器。服务器端软件是 d o m i n os e r v e r ,开发者使用的软件是d o m i n od e s i g n e r 。l o t u s 是目前o a 系统开发中 广泛采用的开发平台,它具有以下特点: 1 ) l o t u s 全面实现了对非结构化信息的管理和共享; 2 ) 内含强大的工作流开发环境; 3 ) 内含安全、可靠的l o t u s 邮件系统; 4 ) 提供了“所见即所得”的g u i 开发环境: 5 ) 提供了稳定强大的解释性语言l o t u s s c f i p t ,语法类似于b a s i c ,简单易学: 6 ) 提供了良好的外部接口n o t e s a p i ,可发挥其它高级语言的数据处理和i o 能力。 2 3 系统总体特点 2 3 1 系统体系结构 信息系统的体系结构在过去几十年的发展历程中经历了主机结构、文件服务器结 构、客户机朋艮务器( c l i e n t s e r v e r ) 结构、浏览器服务器( b r o w s e r s e r v e r ) 结构等1 1 7 - 2 0 2 0 世纪9 0 代初兴起的客户机服务器( c l i e n t s e r v e r ) 结构将应用系统一分为二, 前台客户机完成交互任务,后台服务器负责数据管理。c s 结构将处理工作合理地分 配到客户端和数据库服务器上,由于主要数据处理工作在后台数据库服务器上完成, 因而c s 体系的性能瓶颈在服务器端,这有利于优化企业资源配置。c s 结构的系统 运行于局域网中,这一封闭特性使得c s 系统的安全性级别较高。典型的二层c s 结 构如图2 1 所示。 华中科技大学硕士学位论文 图2 1 二层c s 结构 随着i n t e m e t 的广泛应用以及企业规模增大和分散化分布,c s 体系的封闭性特征 以及客户端程序的复杂性都成为突出的缺点,针对c s 体系的这些缺陷,人们提出了 浏览器j 6 l 务器( b r o w s e r s e r v e r ) 结构。b s 体系改变了c s 传统模式的客户机服务 器二层结构,它的客户端采用合适的浏览器软件直接访问服务器,服务器一般分为应 用服务器和数据库服务器,从而形成了客户机w e b 服务器数据库服务器的三层结构, 这就是b s 体系结构,如图2 2 。b s 结构本质上仍可以看作c s 结构的一种特殊情况: 瘦客户端l i e 服务器模型,客户端功能的简化使得系统对客户机的软硬件配置要求降 低。经验表明采用b s 体系结构的信息系统具有更好的通用性和开放性。 w e bb r o w s e rw e bb r o w s e r 图2 2b s 结构 本系统基于b s 结构来构建。客户端浏览器是l o t u sn o t e s ,应用服务器和数据库 服务器均为l o t u sd o m i n os e r v e r ,数据库服务器只能访问位于服务器端的数据库文件。 争 壶 华中科技大学硕士学位论文 为避免服务器端出现性能“瓶颈”,只有安全性要求较高的模块和共享数据的模块放 在服务器端的数据库文件中,其它模块放在客户端的数据库文件中,对数据的并发操 作由l o t u s 平台处理,系统管理员定期检查并更新客户湍数据库文件,保持系统数据 的一致性。 l o t u s 数据库文件均为文档数据库,除了存储结构化数据外,还可以存储关系数据 库无法管理的非结构化信息。 2 3 2 系统技术特点 本系统是在对第三代o a 的探索性研究基础上设计实现的,实现过程中采用了新 的设计方法和算法,相对于目前成熟的第二代o a 技术具有一定的技术前瞻性。本系 统的主要技术特点有以下几个方面。 模块的可扩充性:从代码模块级别来看,系统设计过程中大量使用函数来完成单 一功能,这提高了代码的可复用性。从功能模块级别来看,由于系统基于l o t u sd o m i n o 设计,各功能模块具有高度独立性,需求的变化不影响模块内部和外部接口,通常只 需增删模块。 算法的逻辑独立性:在工作流模块的设计中,根据工作流的a o v 网络特性,将 工作流程看作一组工作环节和工作流向的有机组合。这一设计方式使得工作流的实现 算法和工作流数据独立,这使得用户定义工作流的方式更加灵活方便。 数据处理的智能化:数据挖掘技术是实施知识管理的有效方法之一,与传统的信 息系统中数据处理不同,数据挖掘技术是非平凡的数据处理技术。在知识管理模块中, 系统采用数据挖掘技术实现了文档聚类和关联规则挖掘,这些功能的实现使得系统具 有较高程度的智能特征。 响应的实时特征与非实时特征:系统中的工作流基于协作实时办公,与协作相关 的文档处理响应时间、更新处理时间、传送时间都是实时完成的,一般不超过2 秒。 知识管理模块的运算比较复杂,处理数据量大,因而处理时间较长,但由于此模块处 理不涉及协作办公,这一模块不需具备实时性特征,响应时洲要求可以放宽。 2 3 3 系统的安全特征 l o t u sn o t e s 在进行客户和服务器之间的鉴定时,在为文档签名时,以及在为邮件 - 上啦衄立三歪黑塞怼旦皇堡堂堑童婴墼逛:查堡垂旦堕垒塑簦鎏: 华中科技大学硕士学位论文 公钥算法也称为非对称加密算法,在非对称加密中,有两个分别用于加密和解密 的密钥:公钥和私钥,公钥对外公开,私钥保密,信息用其中一个密码加密后可以用 另一个密码解开。公钥算法一般具有相当高的安全级别,如著名的r s a 算法,其算 法基础是个数论问题,即根据公钥计算私钥时必须分解质因数( 该因数是两个质数 的乘积) ,质因数分解的难度为r s a 算法提供了较高的安全级别。 当系统管理员为用户注册i d 时,产生了对密钥:私钥放在用户的i d 文件中, 公钥保存在公用通信录中。在l o t u s 系统中,这一对密钥不仅用于加密解密,还可用 于数字签名。用户在编辑文档保存后,系统会使用该用户的私钥加密文档,其他用户 可以使用该用户的公钥解密文档。当用户要发送加密邮件或消息给对方用户时,系统 先使用用户自己的私钥加密,再使用对方公钥加密;对方收到加密邮件或消息后先使 用自己的私钥解密,再使用发送者公钥解密。这就是l o t u s 系统中保密通信的两个典 型应用,如图2 3 。此外私钥还用于在用户登录时鉴别用户身份。 明文卜叫一级密文卜_ _ 爿:级密文 i j i 一1 j hf j , 广_ a p u b 厂 b p r i v 厂 明文 一一级密文b 一 一级密文 c 。一c 。一( ,j 图2 3公钥算法的应用 基于公钥算法的l o t u s 系统安全级别高,已经得到了理论和实践的证明。本系统 一般将本地用户的用户i d 文件拷贝到本地,这样只需在本地就可以完成用户身份鉴 别,避免私钥在网络上传输,进一步提高了用户密码的安全性。 2 4 系统的模块组成 本系统在已有的第二代o a 系统基础上开发,继承了传统o a 系统的绝大部分功 能模块。本文的主要阐述重点在工作流模块的重新设计、文档聚类分析模块以及关联 规则分析模块三部分。 当用户使用合法的帐号密码登录后,打开的系统界面如图2 - 4 。 1 3 华中科技大学硕士学位论文 图2 - 4 登录界面 系统共由日常办公、个人邮件、日程安排、电子公告牌、日常信息以及公用通讯 薄等6 个小模块和系统设置、综合业务、资源管理以及知识管理等4 个大模块组成, 其模块结构如图2 - 5 。 第三代0 a 系统1 日 常 办 公 囊 l 囊 铋 圭【i 识 管 理 关 肤 规 裂 堕l 图2 5 系统模块结构图 1 ) 系统设置:实现了用户自定义工作流和机构人员定义。 工作流定义:关于工作流的进一步讨论见第三章:公文收发模块的工 作流设计; 机构人员定义中实现了机构人员的建立、编辑、删除,机构人员信息 1 4 文档聚类分析一 资源管理二 t档案管理一 一熊一 二引蓠 一 一系统设置一一 一 一系统设置一一 一 一个人邮件一 图书管理 一 会议管理一 f l l 。 l 引刚引瓢 丽构人员定义一 华中科技大学硕士学位论文 中包括用户名与用户i d 的联系。机构人员定义的作用是建立熟识人名和用户 i d 的对应关系,在整个o a 环境中,用户角色都是基于熟识名。 2 ) 日常办公:公文文档的建立、编辑、发送、审阅以及状态查看。公文文档在发 送时首先按其所属工作流进行用户权限检查,其次要检查该流程的完整性,然后将公 文发往下一个用户,如果用户正处于选择分支流程,则用户必须按提示选择下一个用 户。更进一步的讨论见第三章:公文收发模块的工作流设计。 3 ) 个人邮件:直接访问位于服务器上的个人邮件数据库,权限检查由l o t u s 邮件 数据库完成。 4 ) 目程安排:赢接访问位于服务器的个人邮件数据库中的日程安排视图。 5 ) 电子公告牌:以文档形式实现了信息的发布、删除,文档的浏览次数更新等功 能,电子公告牌模块的设立在企业内部建立起了一个交流平台。 6 ) 日常信息:包括交通信息、邮编信息和天气信息等日常生活信息。交通信息中 包括列车、航班信息的建立及其查询,可以根据始发站和终止站查询列车或者航班。 邮编信息与天气信息的建立、编辑和删除。 7 ) 公用通讯薄:包括单位通讯薄( 外部单位) 和员工通讯薄( 内部员工) 的建立、 编辑、删除和查询,用于存储公用的通讯地址。 8 ) 综合业务中包含三个子模块,用于企事业单位常见业务的办理: 车辆管理包括司机、车辆信息的建立和维护,车辆预约信息,申请用 车和车辆使用记录等: 会议管理包括会议草稿、发出会议和历史会议,会议草稿用于会议的 起草和保存,起草会议包括确定会议时间、地点、人员( 主持人和参与人) , 起草完毕的会议发送后将发往参会人员; 工作简报用于工作简报的建立和维护。 9 ) 资源管理:这一大模块中包括图书期刊管理、客户信息管理、科技档案管理等 子模块。 图书期刊管理中实现了图书信息、读者信息、借阅信息的分类管理, 并提供借阅查询,在图书信息中实现了相关的借书、还书、预约手续等,借阅 信息中也实现了还书手续。借阅信息的历史记录将用于后面关联规则分析中一 个图书采购决策的应用实例; 客户信息管理包括客户信息的建立、编辑和删除: 科技档案管理包括科技档案的建立、编辑、删除和查询。 l o ) 知识管理:这是本系统的一个重点实现目标,此模块目前包括:知识分类管 华中科技大学硕士学位论文 理、关联规则分析、文档聚类分析三个子模块。 知识分类管理实现了文档的分类存储,按层次结构管理文档。文档的 建立、编辑、删除和分类查看。知识分类管理主要是为下一步的文档聚类分析 提供预处理功能; 文档聚类分析基于本文提出的文档聚类分析算法,用于实现对文档的 无指导分类。更深入的讨论见第四章:文档聚类分析; 关联规则分析应用已知的关联规则分析算法,通过分析系统存储的结 构化数据信息,获取关联规则。详细的讨论见第五章:关联规则分析。 2 5 小结 本章介绍了基于知识管理的o a 系统的设计原则、软件平台和体系结构特点,劳 概要介绍了系统的模块组成。在后面章节中将详细介绍其中几个重要模块:工作流设 计、文档聚类分析和关联规则分析。 1 6 华中科技大学项士学位论文 3 公文收发模块的工作流设计 公文收发仍然是办公自动化中最常见的办公活动,本章将详细介绍公文收发中的 工作流设计,包括工作流的特点、设计和实现,并结合一个实例进行论述a 3 1 工作流的a o v 网络拓扑2 1 】 办公自动化环境中,最常见的办公活动就是公文收发,一个典型的公文收发过程 是多名用户作为不同角色参与办公的过程。为保证公务活动的高效可靠,现代办公自 动化技术必须具备协作、实时的特点,使工作流程的处理自动化,这就是工作流概念 的由来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论