(计算机软件与理论专业论文)基于个性化内容管理的科研信息系统.pdf_第1页
(计算机软件与理论专业论文)基于个性化内容管理的科研信息系统.pdf_第2页
(计算机软件与理论专业论文)基于个性化内容管理的科研信息系统.pdf_第3页
(计算机软件与理论专业论文)基于个性化内容管理的科研信息系统.pdf_第4页
(计算机软件与理论专业论文)基于个性化内容管理的科研信息系统.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机软件与理论专业论文)基于个性化内容管理的科研信息系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于个性化内容管理的科研信息系统 信息科学与技术学院计算机系计算机软件与理论专业 硕士研究生:陈朋 摘要 导师:汤庸教授 近年来,随着i n t e m e t 上数据的爆炸式增加,国内外信息化建设也掀起了前 所未有的高潮。由于信息化建设中或缺乏统筹规划或新旧信息系统同时存在,造 成了各种不同信息系统共存的情况,必然会形成彼此沟通不畅的信息孤岛。科研 人员随之面临的难题有:数据资源急剧增加,数据格式多种多样,同时对数据的 需求反而越来越专业化。内容管理技术的出现解决了异构平台上的数据集成以及 不同格式的数据的有效利用,比如图片、视频、邮件、报告等等。而个性化技术 的出现则可以在一定的程度上解决i n t e r n e t 中信息的多样化与用户需求的专业化 之间的矛盾,个性化建模技术作为个性化技术的核心问题,主要是研究如何有效 地组织用户的个性信息,用户兴趣的表示,更新,存储以及计算。 通过对市场主流内容管理应用系统的研究,对内容管理核心概念及体系结构 的研究,以及个性化服务相关理论,我们提出了个性化内容管理的模型,并且通 过此模型,我们开发了一个基于j 2 e e 的科研信息系统。它能够对异构的系统中 的不同格式的数据内容进行管理,并且更好的为科研人员提供量身定做的特色功 能,从而更好的满足广大科研人员的现实需求。 关键字:内容管理,个性化,用户建模 r e s e a r c hi n f o r m a t i o ns y s t e mb a s e do np e r s o n a l i z e d c o n t e n tm a n a g e m e n t c o m p u t e rs o f t w a r ea n dt h e o r y ,i n f o r m a t i o na n ds c i e n c ec o l l e g e n a m e :p e n gc h e n s u p e r v i s o r :p r o f e s s o ry o n gt a n g w i t ht h eg r e a ti n c r e a s eo fd a t ao nt h ei n t e r n e ti nr e c e n ty e a r s ,t h ec o n s t r u c t i o n o fi n f o r m a t i o ns y s t e m sd e v e l o p sg r e a t l yi nb o t hc h i n aa n da b r o a d h o w e v e r , b e c a u s eo ft h el a c ko fo v e r a l lp l a n sa n dc o n s i d e r a t i o n so rn e wa n do l ds y s t e m se x i s t t o g e t h e r , k i n d so fd i f f e r e n ts y s t e m sw o r ki nt h es a m et i m ew h i c hc a u s e st r o u b l e d c o m m u n i c a t i o n t h ep r o b l e m st or e s e a r c h e r sa r er a p i d l yi n c r e a s i n gd a t ar e s o u r c ea n d am u l t i p l i c i t yo fd a t af o r m sw h i l ep e o p l e sd e m a n df o rd a t ab e c o m e sm o r ea n dm o r e s p e c i a l i z e d n ec o n t e n tm a n a g e m e n tt e c h n o l o g yc a nb ea p p h e dt ou n i f yd a t ai n i i l f o r m a t i o ns y s t e r n sa n dm a k eb e t t e ru s eo fd i f f e r e n tf o r m so fd a t a ,s u c ha sp i c t u r e s , v i d e o s ,m a i l sa n dr e d o n se t e t h ep e r s o n a l i z e ds e r v i c et e c h n o l o g yc a nr e m o v et h e c o n t r a d i c t i o nb e t w e e nt h ed i v e r s i f i c a t i o no fi n f o r m a t i o na n dt h es p e c i a l i z a t i o no ft h e u s e r s d e m a n d a sac e n t r a lc o n c e r ui np e r s o n a l i z e ds e r v i c e ,也eu s c r s h t e r e s t c o n s t r u c t i o nm o d e lt e c h n o l o g ym a i n l ya i m st op r o b ei n t oh o wt oo r g a n i z et h eu s e r s p e r s o n a l i z e di n f o r m a t i o ne f f e c t i v e l ya n dh o wt oi n d i c a t e ,u p g r a d e , s t o r ea n d c a l c u l a t et h eu s e r s i n t e r e s t n l i s p a p e rp r e s e n t s ap e r s o n a l i z e dc o n t e n tm a n a g e m e n tm o d e lt h r o u 曲 r e s e a r c h i n go nt h e o r i e so fc o n t e n tm a n a 鲇m e n ta n di n d i v i d u a l i z e ds e r v i c ea n d p r e v a l e n te o n t e n tm a n a g e m e n ts y s t e r n so nt h em a r k e t t h i sp a p e ra l s od e v e l o p sa r e s e a r c hi n f o r m a t i o ns y s t e r nb a s e d j 2 e eu s i n gt h em o d e lm e n t i o n e da b o v e t h e s y s t e mc a nb ea p p l i e dt om a n a g ed i f f e r e n tf o r m so fd a t ai nd i f i e r e n ts y s t e m sa n do f f e r b e t t e rs e r v i c eo fp e r s o n a l i z e df u n c t i o n sf o rr e s e a r c h e r s k e yw o r d s :c o n t e n tm a n a g e m e n t ,p e r s o n a l i z a t i o n ,u s e rm o d e l i n g n 1 1 研究背景 第1 章引言 信息技术近年取得了突飞猛进的发展,越来越深远地影响着人们的日常生活 和工作。因特网作为一种新的大众传媒,由于其快速,方便而受到人们的普遍欢 迎。电子商务,信息共享,教育科研,电子邮件等等服务使因特网成为浩瀚的信 息海洋。万维网是到目前为止世界上最丰富和最密集的信息来源。对于这个世界 上最丰富和最密集的信息来源,而且其信息的组织是异构的、多元的和分布的。 如何开发和利用这些丰富的资源就成了人们普遍关注的问题。 随着信息化的深入发展,科研机构也渐渐地暴露出一些问题:1 、很多科研 机构早已意识到信息化建设的重要性,在机构内部针对不同的应用需求建立不同 的业务子系统,这些信息系统通常是在不同历史时期建成的,所采用的技术和标 准并不完全相同,使得系统与系统之间互不兼容,数据资源得不到有效共享,导 致了各种信息资源彼此分隔、相互封闭,形成了“信息孤岛”;2 、随着学术的发 展与网络的兴起,这些应用系统使得科研机构内部的数据开始以几何级数迅速增 长,而且数据以不同的存储方式和数据格式存在,比如文档、报告、资料、邮件、 音频和视频等等。大量非结构化数据的存在,而又没有系统的管理;3 、不同应 用系统的用户界面各异,客户端配置繁琐,维护工作相对复杂,移植性和扩展性 较差;4 、用户在使用不同的应用时,需要在不同的系统之间进行切换,用户需 要记忆不同的用户名和密码,非常不便;5 、中小型科研机构还面临着资金和技 术相对不足,受时间、成本、经济效益、财力等因素的制约,不可能投入大量的 人力、财力去开发大型新系统或购买成熟的商业软件。 内容管理技术针对内容的广泛性和多样性,通过综合运用先进的计算机技 术,对各种结构化和非结构化的各种数字资源进行采集、管理、利用、发布、挖 掘等处理,从而为科研人员提供更方便有效的功能,更好地满足他们的需求。 并且,由于信息不断地更新和增加,信息量以指数规律迅猛地增长和扩展, 因而形成了“信息爆炸”。对于普通的用户来说,i n t e r a c t 上的“信息迷向”和“信 息过载”已经成为日益严重的问题。i n t e m e t 提供的信息的复杂性和广泛性,加 上没有考虑浏览者知识水平、认识能力等个性信息,造成浏览者无法正确理解和 有效利用信息。另外,现有的大部分信息服务系统存在着明显的缺陷,比如资源 分散;对所有用户是一副面孔,有求必应,无求不动;用户按格式请求,系统按 字面匹配,因而查询方式有限、死板;没有统一的标准,而且门户林立,各自为 政,不同信息源使用不同服务机制,不同服务使用不同身份认证机制。解决这些 问题关键在于将i n t e m e t 从被动接受浏览者的请求转化为主动感知和配合浏览者 的信息需求,实现i n t e r a c t 系统对浏览者的主动信息服务。 个性化服务则是未来信息服务的主流模式,它实现的是“信息找人,按需服 务”。其实现途径就是通过对用户的基本信息、兴趣爱好和访问历史的收集和分 析,建立用户模型,并将用户模型应用于信息的比较、过滤和排序,从而指导用 户的浏览过程和信息检索,或向用户主动推荐信息。 1 2 国内外研究现状 1 2 1 内容管理研究现状 目前,无论在国内还是在国外,内容管理产品都正处于开发应用的黄金时期。 根据m e t a 集团的报告,在全球2 0 0 0 强公司中,采用网站内容管理的企业在2 0 0 2 年第一季度就达到了6 0 。据信息技术研究和咨询公司i d c 称,内容管理软件 2 市场仍在早期发展阶段,亚太地区内容管理软件市场2 0 0 5 年的收入增长了2 5 , 达到了1 2 7 6 亿美元,特别是澳大利亚、韩国、印度和中国的需求迅速增长。2 0 1 0 年亚太地区( 不含日本) 内容管理软件市场规模可能将增长到2 4 5 3 亿美元。 在国外,内容管理产品市场主要由四大提供商把持。据f o r r e s t e rr e s e a r c h 公司2 0 0 1 年对北美地区8 7 4 位高级主管的调查表明,i n t e r w o v e n 公司的企业内 容管理解决方案以2 8 的应用比例遥遥领先,之后的是v i g n e t t e 公司,占据1 6 的份额,d o c u m e n t u m 公司占据1 5 份额。微软公司在2 0 0 1 年5 月份购买了加 拿大企业n c o m p a s sl a b s 之后获得了该公司的r e s o l u t i o n 软件产品,并更名为 m i c r o s o f t 内容管理系统,该系统占据1 4 的市场份额。 对于国内市场来讲,这些厂商固然在内容管理的影响力、技术、资金等方而 具有一定优势,但他们的产品而向的应用规模较大、功能大而全、价格昂贵、技 术应用难度高、不支持中文等问题是制约它们目前在中国快速发展的原因。因为 中文内容管理技术和市场与国外相比,具有一些特殊性: 1 、语言处理问题:这些内容管理产品都来自国外厂商,在内容的理解、检 索和表示方面,都以英语为主要语言,这对国内绝大多数用户来说是无法接受的。 2 、工作流程问题:受到中国国情的限制,国内无论在政府机构还是企业, 其工作流程还没有完全实现国际接轨,和国外仍存在巨大的差别。这使得他们对 内容管理系统在流程控制上的要求也与国外不同。 3 、成本问题:这些产品的价格都相当高,以微软的内容管理系统为例,其 售价高达每个处理器4 2 ,9 9 9 美元。而且内容管理实施的成本在国外也都要在一 年后才能完全收回并产生效益,加上服务的费用,对于国内用户来说,特别是中 小企业来说,这是一个巨大的投资和风险。 随着国内信息产业的发展,内容管理越来越受到政府和企业的重视。在2 0 0 3 年北京市政府采用内容管理产品建设北京市政府,之后云南、陕西等省份也开始 进行电子政务的建设。在企业方面,联想集团、海尔集团等国内大型企业也纷纷 展开企业网站内容管理的建设。目前,国内的内容管理产品市场却远未发育成熟。 3 大部分的内容管理提供商是在原来的办公软件提供商的基础上发展起来的,产品 的质量、功能和性能与国外相比仍有巨大的差距。t r s 和t u r b o c m s 是目前国内 影响力较大的两个内容管理产品。 目前关于内容管理及其应用的参考文献并不多。下面概要地介绍本文所收集 到的相关文献。 文献( 1 】从用户的角度考虑了在查找某一问题的解答时需要特定的信息和资 源,根据内容作为影响用户自服务的主要因素,提出有效地创建自服务内容的需 求。文献【2 】论述了内容管理的定义,然后探讨了内容管理的核心概念,并且论证 了从传统的数据管理到内容管理的转变的必要性,最后给出了内容管理系统的框 架。文献【3 j 在介绍了多样化上网装置自动识别技术,并说明如何利用开放源代码 工具实现基于x m l 核心的网站内容管理和按各种接入设备对内容的特殊要求提 供相应的内容格式和所需的个性化内容。文献1 4 1 分析了目前网站内容发布中的不 足之处,该文介绍了一个基于j 2 e e 的网站内容管理系统的设计与实现,通过采 用发布代理和消息中间件,能实现对于多个站点基于模板的静态网页发布。文献 f 5 】分析了企业内容管理模型的构架及其解决方案,最终提出了在j 2 e e 平台上构 建的企业内容管理模型的具体实现方案,利用r m i 及c o r b a 的有效结合,解 决了大型企业在内容管理模型构建过程中出现的需要充分保护现有投资,利用遗 留信息系统等系统集成的问题,并且为企业增加新的业务逻辑预留了接口。文献 1 6 】通过对s t r u t s 框架的介绍,并结合构建网站内容管理系统为例,阐述了基于 s t r u t s 开发w e b 应用程序的实现过程,它将数据处理和页面显示完全分开,由不 同的功能组件来完成,提高了系统的可扩展性和灵活性。文献1 7 1 提出了一种先进 的企业内容管理与知识集成构架,该构架以企业内容管理为基础,融合p o r t a l , w e bs e r v i c e s 等技术,具有良好的与其它应用集成的能力,在此基础上,根据基 于网络应用的发展需求,给出了一个基于的松散耦合的内容管理与知识集成构 架,w e bs e r v i c e s 为企业信息化的发展提供了完善的应用集成解决方案。文甜8 l 介绍了内容管理中x m l 和元数据、工作流管理、应用集成和数据检索与挖掘等 关键技术。文献【9 】通过对i n t e r w o v e n 产品在亚太区的应用情况分析了企业内容管 理解决方案的强劲市场需求。文献【1 0 l 介绍了分布式内容的统一查询的一种实现 4 方式,而在文献i l l 】中则描述了对分布式多媒体内容进行有效管理的系统框架。 1 - 2 2 个性化服务研究现状 自1 9 9 3 年以来,i n t e m e t 一直以惊人的速度发展,从最早仅连接美国的少数 几所大学和科研机构,到现在已经几乎触及世界的每个角落。接入i n t e m e t 的站 点亦如雨后春笋般地增长。据o c l c 统计,至2 0 0 2 年,全球接入i n t e r n e t 的站 点数已达9 0 0 万。相应地,i n t e m e t 中的信息也迅速增长。1 9 9 8 年年初i n t e m e t 中的页面总数为3 2 亿,1 9 9 9 年2 月这个数字上升为8 亿,到2 0 0 0 年7 月这个 数字已经发展成为2 1 亿,而且仍在以每天7 0 0 万的速度增加。i n t e r n e t 已经成为 全球最大、也最为方便快捷的数字图书馆。 然而与常规图书馆不同,i n t e m e t 是一个高度开放、异构、分布式的信息空 间,没有统一的管理,信息杂乱地散布在全球各个站点上,而且每天以极快的速 度更新。i n t e m e t 的高度无序和不可管理性给信息的使用带来了极大的困难。 传统的i n t e r a c t 服务为用户使用i n t e m e t 资源提供了一些可行的途径。然而, 相对于巨大,无序的i n t e m e t 信息空间,每个用户真正感兴趣的信息非常有限, 仅仅是i n t e r a c t 信息空间的沧海一粟。在传统i n t e m e t 服务模式下,为了找到真 正感兴趣的信息,用户要耗费大量的时间和精力。以搜索引擎为例,当用户输入 关键词后,搜索引擎返回的结果往往成百上千,其中包含大量与用户兴趣不相关、 重复、甚至是过时的信息。由于每个用户的兴趣不同,从中找出真正感兴趣的信 息是一个既耗时又耗力的过程。 而且,由于每个用户感兴趣的信息不同,相应地其所关注的信息子空间就不 尽相同。然而传统i n t e r n e t 服务没有考虑用户的差异,使得每个用户面对同样的 信息空间。显然,传统的“人找信息”的服务模式已经越来越难以适应迅速增长 的i n t e r a c t 信息资源,用户迫切需要一种能够根据用户的特点自动组织和调整信 息的服务模式,个性化服务应运而生。 1 9 9 5 年3 月,卡内基梅隆大学的r o b e r ta r m s t r o n g 等人在美国人工智能协 会( a a a i ) 春季会议上提出了个性化导航系统w e b w a t c h e r ,斯坦福大学的m a r k o b a l a b a n o v i c 等人在同一次会议上推出了个性化推荐系统l i r a 。同年8 月,麻省 理工学院的h e n r yl i e b e r m a n 在国际人工智能联合大会( u c a ) 上提出了个性化 5 导航智能体l e t i z i a 。这三个系统被公认为个性化服务发展初期最为经典的系统, 标志着个性化服务的开始。 在此后的几年中,个性化服务系统层出不穷。1 9 9 6 年,加州大学i r v i n e 分 校的b r i a ns t a r r 等人提出了发现用户感兴趣页面有价值变化、进而通知用户访问 的个性化服务智能体d o i c a r e ;同年,卡内基梅隆大学的d u n j am l a d e n i c 在 w e b w a t e h e r 的基础上进行了改进,提出了个性化推荐系统p e r s o n a l w e b w a t c h e r ; 1 9 9 6 年,著名的网络公司y a h o o ! 也注意到了个性化服务的巨大优势和潜在商机, 推出个性化入口m y y a h o o ! 。 1 9 9 7 年,a t & t 实验室提出了基于合作方式的个性化推荐系统p h o a k s 和 r e f e r r a lw e b ;斯坦福大学的m a r k ob a l a b a n o v i c 和y o a vs h o h a m 推出了基于内容 和合作方式的个性化推荐系统f a b 。同年3 月,c o m m u n i c a t i o n so ft h ea c m ) ) 组织了个性化推荐系统的专题报道,标志着个性化服务已经受到相当的重视。 1 9 9 9 年,德国d r e s d e n 技术大学的t a n j aj o e r d i n g 实现了个性化电子商务原 型系统t e l l i m ;麻省理工学院的h e n r yl i e b e r r n a n 提出了基于合作方式的个性 化导航系统l e t sb r o w s e ;意大利t o r i n o 大学的l i l i a n aa r d i s s o n o 和a n n ag o y 提 出了个性化网上商店s e t a 。个性化服务开始向全球发展。 2 0 0 0 年,n e c 研究院的k u r td b o l l a c k e r 等人为搜索引擎c i t e s e e r 增加了 个性化推荐功能,将c i t e s e e r 个性化;爱尔兰d u b l i n 大学的b a r r ys m y t h 和p a u l c o t t e r 提出了个性化电视网站p 1 v ;同年,美国n s f 基金开始支持有关个性化 服务的研究;同年4 月,以美国为主的多国个性化研究机构和网络公司成立了个 性化协会,旨在推动个性化服务的发展,同时保护个性化服务中涉及的用户隐私。 这一年,我国也开始了个性化服务的研究。清华大学的路海明等提出基于多a g e n t 混合智能实现个性化推荐。 2 0 0 1 年,纽约大学的g e d i m i n a s a d o m a v i c i u s 和a l e x a n d e r t u z h i l i n 实现了个 性化电子商务网站的用户建模系统l :l p r o ;i b m 公司在其电子商务平台 w e b s p h e r e 中增加了个性化功能,以利于商家开发个性化电子商务网站;n e c 研究院的e r i cg l o v e r 等人提出了个性化元搜索引擎原型系统i n q u i r u s 2 。我国也 广泛开展了对个性化服务的研究,提出了一些原型系统。清华大学的冯翱等人提 出了基于a g e n t 的个性化信息过滤系统o p e nb o o k m a r k :南京大学的潘金贵等人 6 设计并实现了个性化信息搜集智能体d o l t r i a g e n t 。 近几年,个性化服务逐渐从学术研究走向实际应用,成为业界的热点概念。 很多公司纷纷推出个性化系统,提供个性化服务。很多网站,如m i c r o s o f t 、a o l 、 c n n 、珂c o s 、i b m 等,均推出了个性化功能;很多电子商务网站也注意到了个 性化服务的巨大商机,开始提供个性化服务,如a m a z o n 、e b a y 、b e s t b u y 、e x p e d i a 等;我国的部分网站( 如新浪网) 也推出了个性化服务。 总之,i n t e m e t 的迅速发展和i n t e m e t 资源的指数增长使得个性化服务脱颖而 出,已经成为网络技术和智能信息处理中新的研究热点。 1 3 研究目的与意义 基于以上对内容管理和个性化服务的现状分析,我们可以看到,随着信息时 代的到来,学术机构特别是科研团队面l 临的“信息爆炸”情况也已经非常严重。 他们面临的困境有:信息沟通不畅,文献共享不足,数据不能充分利用,毫无个 性化的功能降低了用户体验、造成了信息垃圾等等。为了解决以上这些问题,中 山大学协同软件研究中心适时提出了“基于个人科研信息协同工作平台”项目。 以该项目为依托,并综合基于国内外的内容管理相关概念、主要特点和关键 技术,以及个性化服务和用户建模理论,我们开发了基于个性化内容管理的科研 信息平台系统,不仅为广大的科研人员提供了一个方便、高效的内容管理和发布 平台,极大的提高内容的利用价值,而且提出了自己的个性化理论和用户模型, 提供了个性化的特色功能。 1 4 论文内容及结构 7 本文内容是以如下方式组织的: 第一章绪论,这部分对论文内容作了概括性介绍,给出了论文内容简介、论 文课题的目的和意义以及国内外该领域的研究情况。 第二章内容管理理论,这部分详细的介绍了内容管理的概念、系统组成和涉 及的关键技术。 第三章个性化服务理论,这部分对个性化服务相关内容尤其是用户兴趣建模 进行了详细的介绍,列举分析了现有的个性化服务方式和用户兴趣建模方法。 第四章个性化内容管理框架,这部分重点探讨了个性化服务和内容管理相结 合以实现优劣互补的可行性、思路和大体框架,并且提出了本文的个性化用户兴 趣模型,分析了如何有效利用该个性化用户兴趣模型。 第五章个性化科研信息系统的设计和实现,这部分详细介绍了科研信息系统 的设计和实现,并通过一些实例演示,介绍了其主要功能。 第六章总结与展望,我们总结了本文完成的主要工作以及这些工作成果的价 值和实际意义,指出了课题的一些不足之处和可以开展的后续工作,并对前景进 行了展望。 8 第2 章内容管理理论 现实中的内容是以多种形式存在的,包括:使用纸张的文档、资料、信件和 表格等,电子邮件和传真;各种电子表格、演示文稿、文档和报表;还有各种多 媒体记录,如数字音频记录或视频资料等。人们在管理这些内容和数据上耗费了 大量时间,在寻找自己需要的内容上也付出了相当大的精力,甚至高达二分之一 的工作时间在处理这些工作,而且这种无益活动只会有增无减。有关专家预测, 在未来3 - 5 年中,人类创造的信息将比有史以来所产生的信息总和还要多,需要 管理的信息范围非常巨大。一方面是低下的内容管理效率,另一方面是不断膨胀 的内容数量。这一简单的事实对比体现了一个迫切的需求:需要有效地将内容管 理起来。所以,内容管理技术是知识时代的必然产物。优秀的内容管理不论对企 业还是科研机构来说,都能够很好地做到信息的有效利用和增值利用。内容管理 是许多r r 先进技术的综合应用,重点解决了各种数字资源的采集、管理、利用、 传递和增值,能为决策提供支持和参考。 2 1 内容管理简介 内容管理系统( c o n t e n tm a n a g e m e n ts y s t e m ,简称c m s ) 是企业信息化建设 和电子政务的一项新兴的技术。内容管理目前还缺少标准的定义,不同的组织和 厂商都根据自己的定义来理解内容管理,这也说明了c m 市场仍在迅速发展中。 2 1 1 内容管理的概念 9 “内容管理”由“内容”和“管理”两部分组成。所谓“内容”,就是具有 价值的能够容易、安全、快速地进行共享和利用的信息资产。它既可以是任何类 型的数字信息的结合体,又可以是文本、图形图像、w e b 页面、业务文档、数据 库表单、视频、声音文件等。内容是对各种结构化数据和非结构化数据的信息聚 合,这在某种程度上也包含了知识。所谓管理就是施加在“内容”对象上的一系 列处理过程,包括收集、确认、批准、整理、定位、转换、分发、更新、存档等, 目的是为了使“内容”能够在正确的时间、以正确的形式和方法传递到正确的地 点和人。这样,内容管理可以定义为:内容管理是协助组织和个人,借助信息技 术,实现内容的创建、储存、分享、应用、更新,并在个人、组织、业务、战略 等诸方面产生价值的过程。而内容管理系统就是能够支撑内容管理的一种工具或 一套工具的组合【3 3 1 。 2 1 2 内容管理系统的组成 内容管理系统是针对实际问题提出的解决方案,是人、过程与技术的集成, 需要从人员组织、业务流程以及内容管理系统的建立等多方而共同协调实现。内 容管理的应用范围较广,有关内容管理的研究可以分为以下内容【3 5 】: 功能研究:包括数据检索、数据存储、格式转换、多语种支持、安全管理、 页面创建、个性化定制、同步和复制等。 行业研究:包括流媒体服务、多媒体内容管理、电子数据交换、元数据和标 引等。 集成研究:包括工作流管理、数字版权保护、数据挖掘等。 一个好的内容管理系统应具备以下的组件: 1 ) 采集系统:进行采集、获取、分节、编辑、整合及转换内容等工作,并 可加入元数据以对内容组件进行定义及搜寻。 2 ) 管理系统:负责组件、内容及公布模板的存取管理,并可记录内容的版 1 0 本、工作流程的状态、权限的设定及更新处理等等,也可说是快速提供 采集系统和出版系统正确及有效内容的管理系统。 出版系统:负责将内容从数据库中快速且自动地根据所建立的公布模板 送至各种出版媒体上。 4 ) 工作流系统:确保整个内容从收集、储存及公布可以有效及正确地运行 的整个流程。 在内容管理建立及整理初期虽会花费较多的人力及时间,但杂乱无章的内容 经过上面四个系统的收集、储存、管理、公布处理,将可对用户的需求反应达到 及时、准确的最大效能,并加速组织内部知识的、形成及完善,进一步提升组织 对外的竞争力【3 刀。 2 2 内容管理的关键技术 随着人们现实需求的不断变化和技术的不断发展,从内容管理诞生到今天, 围绕内容管理关键技术的讨论一直是人们关注的焦点。目前,内容管理关键技术 的研究侧重于支撑内容管理平台的核心技术研究,主要包括元数据、x m l 技术、 工作流管理技术、应用集成技术以及数据检索和挖掘技术【矧。 2 2 1 元数据 元数据( m e t a d a t a ) 是关于数据的数据,是以计算机系统能够使用与处理的格 式存在的、与内容相关的数据,它是对内容的一种描述方式。通过这种方式,可 以表示内容的属性与结构信息。元数据分为描述元数据、语义元数据、控制元数 据和结构元数据。 在内容管理系统中,元数据描述信息资源或数据等对象的数据,给计算机提 供了自动处理内容所需要的信息,从而使得计算机可以自动的处理内容,使得能 够识别资源,评价资源,追踪资源在使用过程中的变化,实现简单高效地管理大 量信息资源,实现信息资源的有效发现、查找、一体化组织和对使用资源的有效 管理。 2 2 2 x m l 可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e ,x m l ) 是面向i n t e m e t 应用的 标记语言,它是从标准通用标记语言( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e , s g m l1 演化而来。x m l 作为s g m l 的最小完备子集,在继承s g m l 强大功能 的同时,删除了其复杂繁琐的定义,使得x m l 更加简单、易用。x m l 是基于 文本的、自描述的结构化语言,它完全独立于平台和编程语言,所以特别合适作 为i n t e m e t 上不同应用程序之间进行数据交换和消息传递的数据载体。在i n t e m e t 空前发展的推动下,从1 9 9 6 年互联网联合组织( w 3 c ) 开始设计x m l 到1 9 9 8 年 x m l l 0 成为w 3 c 推荐的正式标准,x m l 自其诞生之日起就成为i n t e m e t 上最 受人瞩目的焦点。 在内容管理中,内容的描述是扩展其它应用的基础技术。x m l 具有的规范 性、结构化、可扩展性、简洁性等特性使得它已成为描述文档内容的标准语言。 有许多x m l 的相关技术,如:x s l ,验证规则( d t d 与x m l s c h e m a ) 、d o m 、 s a x 、x l i n k 、x p a t h 、x p o i n t e r 、j d o m 等。这些技术都可以应用在基于内容管 理的系统。 x m l 技术是目前公认的对内容管理影响最大、贯穿于其整个生命周期的技 术。内容管理厂商基本上都将结构简单、易于理解的x m l 结构作为动态内容管 理的组织结构。x m l 可以很方便地将内容从规则和表达中分离出来,x m l 标记 的文档可以使用户更方便地提取和重用自己想用的内容,并使用自己喜欢的表达 格式,这为用户提供了一个很好的按需定制的特性,具有非常好的灵活性。通过 x m l 还可以使内容脱离格式,成为只和上下文相关的数据,以便于内容的检索、 合并或者重用,满足了跨媒体出版的需求。一个基于x m l 的通用存储方式,还 可以帮助组织管理和维护大量的不同内容。 2 2 3 工作流管理技术 随着内容管理走向应用前台,与业务流程和工作环境的结合日益紧密,内容 工作流和内容协作支撑技术的核心作用开始凸现出来。虽然内容存储、检索和分 析方面的需求作为信息基础应用相对稳定,但内容采集、加工、发布和服务等内 容应用却常常要发生变化,内容管理需要做到随需应变,以提高内容在业务流程 中的流转效率。为了让内容能够及时、准确地自动传递到相关人员手中,内容管 理流程需要符合业务流程的随需应交的要求。 工作流技术是内容管理的关键技术之一,一方面它可以连接内容管理系统中 的各个功能或业务活动,构建灵活、规范、统一的内容管理流程,另一方面,部 分内容管理工作流可以作为内容管理平台与其它企业应用之间的桥梁,为应用集 成中的过程集成提供支持。内容管理中的工作流技术主要分为内嵌式工作流和独 立的工作流两种,其中内嵌式工作流主要用于内容管理平台内部流程的管理,而 独立的工作流更适于为内容管理平台和其它应用的交互提供支持。 目前,工作流技术已广泛应用在内容管理的各个应用领域,如政府办公、审 批流程、企业内容管理流程等。 2 2 4 应用集成技术 从信息系统功能的角度看,内容管理就是对其包含的数据和元数据在整个生 命周期( 采集、加工、发布) 中的管理,目的就是使信息能够更快速、无缝地集 成到信息基础设施中来,这就要求内容管理产品平台能够很好地与已有的应用系 统进行交互,如e r p 、c r m 等应用系统,并能处理来自这些应用的数据,因此 应用集成技术也是内容管理研究中的关键技术之一。目前,应用集成研究主要分 为用户界面集成、数据集成、功能集成三种类型,其中功能集成还可以分为业务 流程集成以及函数方法集成两种类型。每类集成方式都有各自的方法研究、集 成技术研究以及功能和性能评价的相关研究等。在内容管理中,应用集成主要体 现在单点登录、统一用户认证、内容管理和工作流管理集成等方面。 内容管理应用集成既要体现平台所有的功能,又要尽量遵循标准。只有遵循 业界标准,才能保证开发人员容易上手,应用容易移植。内容管理目前还没有成 熟的标准,需要基于已有标准进行扩展。 2 2 5 数据检索和挖掘技术 数据检索技术也是内容管理系统的关键技术之一。该技术用来帮助使用者快 速定位所需内容。按照搜索方法可分为全文搜索、上下文搜索等。目前,内容检 索技术正向异构内容信息源整合检索方向发展。随着人们对信息获取和利用上的 认识不断加深,加之跨组织流程再造、内部知识资源整合、供应链管理、客户关 系管理、电子商务等概念不断冲击着企业经营者,有关企业内部和外部多种信息 资源的整合变得比以往更重要,也更紧迫。由于这些信息来源不同,存储格式和 系统不同,访闯和检索方式也不同,因而出现了异构资源整合检索的问题,用户 需要统一对这些内容进行访问和检索。面对海量的内容数据和并发检索压力,要 保证检索性能,就需要将分布群集检索、高速缓存和负载均衡这些技术都结合到 检索里来。目前,内容管理中的检索技术正向多样化、智能化发展,其中包括智 能化知识检索技术、自然语言查询、多媒体信息检索技术等。 内容管理中另一个关键技术是内容挖掘和智能关联技术。分类、摘要、标引、 聚类、相关分析等自然语言处理技术将被愈来愈多地应用于内容分析和内容服 务。 总之,内容管理是一个集人、过程与技术于一体的工程,它不是简单的功能 堆砌,而是需要将上述各功能和技术有机的集成在一起,以实现真正有效率的内 容管理服务。 1 4 第3 章个性化服务理论 3 1 个性化服务简介 3 1 1 个性化服务的概念 个性化是使事物具有个性,或者使其个性凸显。这里包含了两层含义,其一, 个性是需要经过培养而逐步形成的。这个过程我们可以称之为使个体个性化的一 个过程:其二,个体总是具有一定的个性的,让这种个性得到别人的了解、认可, 并在一定的空间得以体现、展示,是每个个体都拥有的潜在需求,这个过程我们 也称之为个性化的过程。我们这里讨论的个性化其实指的是信息服务方面( 如无 特殊说明,以下个性化服务均指个性化信息服务) ,那么什么是个性化信息呢? 这个概念可从两个角度来分析。其一,个性化信息是指反映人类个性特性的一切 信息,这些信息包括了这个个体的各种属性的描述:其二,个性化信息是指由人 类个体特性所决定的其对信息的需求的一种信息组合,也就是由人类个性对信息 需求的决定关系而产生的一系列对个体有用的信息【明。 因此,我们可根据前面阐述的两种个性化过程和两类个性化信息,找到个性 化信息服务的定位。个性化信息服务首先应该是能够满足用户的个体信息需求的 一种服务,即根据用户提出的明确要求提供信息服务,或通过对用户个性、使用 习惯的分析而主动地向用户提供其可能需要的信息服务。其次,个性化信息服务 应能够根据用户的知识结构、心理倾向、信息需求和行为方式等来充分激励用户 需求、促进用户有效检索和获取信息,促进用户对信息的有效利用并在此基础上 进行知识创新。 目前个性化服务的主要形式有:个性化推荐、个性化信息检索和个性化网站 3 1 2 个性化服务的关键技术 个性化服务涉及的技术较多,如用户建模技术,个性化推荐技术,网站自适 应技术,用户隐私保护技术等。但目前研究较多、也是最为关键的两项技术是用 户建模技术和个性化推荐技术【3 9 1 。 一、用户建模 个性化服务的形式多种多样,但无论何种形式,都需要首先建立对用户的描 述,然后才能据此提供针对不同用户的个性化服务,因此,用户模型是个性化服 。务的基础和核心。根据建模过程中用户的参与程度,用户建模技术可以分为用户 手工定制建模、示例用户建模和自动用户建模。 1 用户手工定制建模 用户手工定制建模是指用户模型由用户自己手工输入或选择的用户建模方 法,如用户手工输入感兴趣信息的关键词列表,或者是选择感兴趣的栏目等。在 个性化服务发展的早期,用户手工定制建模是用户建模的主要方法。这种方法实 现简单,也具有较好的效果,但它存在以下三方面问题: 1 ) 完全依赖于用户,容易降低用户使用系统的积极性。 即使用户乐意手工输入用户模型,用户也难以全面、准确地罗列自己感 兴趣的栏目或关键词,从而导致用户模型不够准确。 3 ) 当用户兴趣发生变化时,用户必须重新输入用户模型。 2 示例用户建模 示例用户建模是指由用户提供与自己兴趣相关的示例及其类别属性来建立 用户模型的建模方法。由于用户对自己的兴趣和偏好等最有发言权,因而用户提 1 6 供的有关自己兴趣的示例最能集中、准确地反映用户的兴趣和偏好等特点。示例 一般通过要求用户在浏览过程中对测监过的页面标注感兴趣、不感兴趣或者感兴 趣的程度来得到。浏览过的页面及相应的标注成为用户建模的示例。 3 自动用户建模 自动用户建模是指根据用户的浏览内容和浏览行为自动构建用户模型、建模 过程无需用户主动提供信息的建模方法。在现有的个性化服务系统中,采用自动 用户建模方法构建用户模型的系统主要有卡内基梅隆大学的p e r s o n a l w e b w a t c h c r 、德国国家研究中心的e l f i 、麻省理工学院的i 上t i z i a 等。 实际上,用户浏览的页面就可以反映用户的兴趣主题。例如用户经常浏览与 “蚁群算法”相关的页面,则容易推测“蚁群算法”是用户感兴趣的主题。因此, 如果能够对用户浏览的页面进行聚类,就能够得到用户感兴趣的主题,从而也就 能够实现自动用户建模。此外,对用户访问日志进行挖掘也是一条实现自动用户 建模的途径。通过日志挖掘可以发现用户的访问摸式、购买习惯等用户特点,构 建用户模型。 总的说来,自动用户建模由于无需用户主动提供信息,因而不会造成对用户 的干扰,有利于提高个性化服务系统的易用性,促进个性化服务的发展。 二、个性化推荐 根据实现途径的不同,个性化推荐技术可以分为基于规则的推荐、基于内容 的推荐、合作推荐和混合推荐【3 。 1 基于规则的推荐 基于规则的推荐是指根据事先生成的规则向用户推荐信息的方式。基于规则 的推荐方式较多地应用于电子商务网站,根据用户浏览和购买的日志生成规则, 向用户推荐感兴趣的商品。 2 基于内容的推荐 1 7 基于内容的推荐是指通过比较资源与用户模型的相似程度向用户推荐信息 的方式。它是目前个性化推荐的主流,典型系统包括斯坦福大学的l i r a 、麻省 理工学院的l e t i z i a 、加州大学的s y s k i l l & w e b e r t 和n e w s d u d e 等。 3 合作推荐 合作推荐又被称为社会推荐,是指通过相同或相近兴趣的用户对资源的评价 向用户推荐信息的方式。合作推荐实质上是现实生活中经常采用的推荐方式,如 两个兴趣相近的朋友相互推荐爱听的音乐、爱看的书等。与基于内容的推荐不同, 合作推荐并不比较资源与用户模型的相似性,而是通过比较用户之间的相似性来 推荐信息。具有相近兴趣的用户被视为一个用户类。当用户对某信息感兴趣时, 该信息就可以推荐给同类的其他用户。 4 混合推荐 混合推荐是指既通过比较资源与各个用户模型的相似度进行基于内容的推 荐,又通过相近兴趣的用户群进行合作推荐的一种推荐方式。由于混合推荐可以 发挥两种推荐方法的优点,抵消两种推荐方法的缺点,因而具有更好的推荐性能。 3 1 3 个性化服务的意义 个性化服务的意义在于,它首先是信息服务业发展的方向,新的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论