(计算机软件与理论专业论文)一个语义桌面系统的设计与实现.pdf_第1页
(计算机软件与理论专业论文)一个语义桌面系统的设计与实现.pdf_第2页
(计算机软件与理论专业论文)一个语义桌面系统的设计与实现.pdf_第3页
(计算机软件与理论专业论文)一个语义桌面系统的设计与实现.pdf_第4页
(计算机软件与理论专业论文)一个语义桌面系统的设计与实现.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机软件与理论专业论文)一个语义桌面系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学硕士学位论文 摘要 在过去的二十多年间,个人计算机与w e b 领域出现了巨大的变革。随着人类迈入知识 社会,信息里爆炸式增长信息资源管理需求越发复杂。相比之下,桌面系统在这变化的二 十年中,却鲜有本质上的发展与革新。由于现有桌面系统工具的支持有限,个人用户面临着 海量信息资源无法被及时有效地组织与检索的困境。个人信息资源的组织与检索成为困扰最 终用户日益严重的问题。 语义桌面是指将语义w e b 相关的技术引入到桌面系统中,使得用户能够像使用个人语 义w e b 一样使用个人计算机。语义桌面希望将用户桌面系统上的各种信息资源和应用程序 相互关联起来,井通过本体实现无缝的信息集成和语义互操作。语义桌面主要用于帮助人们 实现个人信息管理。是一种新兴的个人信息管理工具范型是桌面系统新的发展方向。 本文对个人信息管理研究领域和语义桌面研究现状进行了相对深入地调查研究,并在该 工作的基础上,设计实现了一个语义桌面系统,命名为m yw o n d c r s p a c e 系统。与现有的语 义桌面工具相区别的是:m yw o n d e r s p a c e 系统在遵从语义桌面基本设计思想的基础上有所 改进和创新。m yw o n d e r s p a c e 系统强调了以信息资源为中心,建模组织与信息资源相关的 各种元数据信息;将桌面系统文件夹组织结构解释为自定义分类本体用于组织信息资源:支 持创建弱语义主题和弱语义关联用于组织信息资源,方便用户灵话自由地组织信息资源:统 一语义标签与语义主题,实现了系统资源组织管理多样性与统一性的结合;基于桌面搜索实 现信息资源的动态组织,为手工方式的资源组织提供了一种额外的、实时动态的资源组织方 法。 最后,本文使用经验性的比较方法,通过实现三个特定应用场景,在资源分类组织与信 息资源检索这两个方面对m yw o n d e r s p a c e 系统进行了评估。评估结果表明m yw o n d e r s p a c e 系统较目前广泛使用的w i n d o w s 资源管理器在信息资源组织、维护和检索方面具有一定的 优势。 关键词:语义桌面,个人信息管理,语义w e b ,本体,多分类组织,语义标签,桌面搜索 东南大学硕士学位论文 a b s t r a c t d u r i n gt h ep a s tt w od e c a d e s , c o n s i d e r a b l ep r o g r e s sh a sb e e na c h i e v i n gi np e r s o n a lc o m p u t e r i n d n s u 7a n dw e ba p p l i c a t i o nf i e l d t h ea r a o u n to fi n f o r m a t i o ng r o w se x p l o s i v e l y , a n dt h es t o r a g e v o l u m ei n c r e a s e sm p l y h o w d e f , t h er a r e l yr e v o l u t i o no fi n f o r m a t i o nm a n a g e m e n ti n d e s k w ps y s t e m s c o m p u t e ru s e 幅f m dt h a ti t sd i f f i c u l tf o rt h e m t oo r g a n i z e 。m a i n t a i n , a n dl 叫f f i e v e i n f o r m a t i o na st h e yn e e di nt i m e s e m a n t i cv e s k t o pi sak i n do fs o f t w a r ea p p l i c a t i o n si nd e s k t o ps y s t e m s ,w h i c hi san e w p a r a d i g mi np e r s o n a li n f o r m a t i o nm a n a g e m e n tt o o l s s e m a n t i cd e s k t o pi n n o d u o c 5t h es e m a n t i c w e bt e c h n o l o o e si n t od e s k t o ps y s t e m s , w h i c hm a k e sc o m p u t e ru 娜t o 哪t h e i rp e r s o n a l c o m p u t e r sa ss u r f i n gt h e i rp e r s o n a ls e m a n t i cw e b s i nt h i sp a p e r , w ef i r s t l ys m v e yt h ep e r s o n a li n f o r m a t i o nm a n a g e m e n tr e s e a r c hf i e l d , a n dt h e n i u 删u c et h es t a t e - o f - a r to fs e m a n t i cd e s k t o pa p p l i c a t i o nf i e l d 。b a s e do np r e v i o u sw o r k s , w e d e s i g na n di m p l e m e n tns e m a n t i cd 6 k t o ps y s t e mn a r a e dm yw o n d e r s p a m yw o n d e r s p a c e s y s t e m 鲫p p o 咻c r 枷n g 辩m 删ct o p i 髂a n ds e m a n t i ct e l a t i o n s h i p s , w h i c hh e l p sc o m p u t e ru s e r s t oc l a s s i f yt h e i ri n f o r m a t i o i l 托8 0 f c b yc o m p a r i s o nw i t hs o m ee x i s t i n gp e r s o n a li n f o r m a t i o n m a n a g e m e n tt o o l s , m yw o n d e r s p a c es y s t e ma c h i e v e ss e v e r a li m p r o v c r n e n t sa n di o n o v a t i o n s b ya d o p t i n ge m p i r i c a le x p e r i m e n ta p p r o a c h e s , w ed “e l o pt h r e eu s c rs c e n a r i o st oe v a l u a t e m yw o n d e r s p a c es y s t e m t h er e s u l t ss h o wt h a tm yw o n d e r s p a c es y s t e me n h a i c c st h e “瞎o u r c e o r g a n i z a t i o na n di n f o r m a t i o nm a n a g e m a n tf o rp e r s o n a lc o m p u t e ri l q c r s k e y w o r d s :s e m a n t i cd e s k t o p , p e r s o n a li n f o r m a t i o nm a n a g e m e n t , s e m a n t i cw e b , o n t o l o g y , m u l t i p l ec l a s s i f i c a t i o n , s e m a n t i ct a g ,d e s k :t , ps e a r c h - 东南大学硕士学位论文 图表 图表1 个人信息管理的四大主要活动:获取,组织,维护和检索。7 图表2 修订的语义w e b 体系结构描述1 3 图表3m yw o n d e r s p a c e 系统应用框架图示1 7 图表4 举例:利用语义w e bu r i 来唯一标识信息资源文件2 0 图表5 基于缓存方式的元数据管理和基于请求事件的元数据管理2 l 图表6 语义桌面:基于缓存方式的元数据管理模式2 2 图表7 本文中出现的命名空间及前缀2 5 图表8 举例:基于本体多分类组织信息资源2 6 图表9 本体定义:用于描述信息资源与语义主题之间关联的属性2 7 图表l o 举例:基于自定义分类本体多分类组织信息资源 图表l l 本体定义:用于支撑创建自定义分类本体的主题描述本体。3 0 图表1 2 本体定义:用于描述语义主题相互之问关联的属性3 1 图表1 3 系统预定义的被动方式的属性 图表1 4 举例:将本体显示为树状主题视图 图表1 5 算法描述:编辑本体操作中的删除实体算法 图表1 6 本体定义:以信息资源为中心的元数据描述本体。3 6 图表1 7 系统支持托管的信息资源类别一 图表1 8 系统不支持托管的信患资源类别3 9 图表1 9 举例:将普通资源文件解释为m w s :i n f o r e s o u r c e 类型的语义w e b 资源3 9 图表2 0 举例:根据快捷方式所指向目标资源的不同进行相应地解释操作。4 l 图表2 1 举例:将文件夹解释为m w s :t o p i c 类型的弱语义主题 图表2 2 举例:将文件夹中的包含组织关系解释为语义关联。4 3 图表2 3 举例:将w e b 资源解释为m w s : n f o r e s o u t c 2 类型的语义w e b 资源4 3 图表2 4 资源转换规则总结与分析 图表2 5 算法描述:计算数据源闭包算法 4 4 4 5 图表2 6 算法描述:用于数据源维护列表的添加数据源算法4 6 图表”算法描述:用于数据源维护列表的删除数据源算法。4 7 图表2 8 举例:为信息资源添加语义标签 图表2 9 系统体系架构图 图表3 0m yw o n d e r s p a e e 系统用户主界面5 4 图表3 1 主题描述本体术语表一 图表3 2a c m 计算分类系统中f 结点层次结构 图表3 3 使用w i n d o w s 资源管理器完成应用场景3 的过程6 0 图表3 4 使用m yw o n d e r s p a c e 系统完成应用场景3 的过程6 1 v 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我 所知除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:盥 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和 电子文档可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内 容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的 全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 研究生签名:里 导师签名:_ 与纽日期:沪7 ;。) 第一章绪论 1 1 研究背景 第一章绪论 1 1 1 桌面系统面临的困境 从二十世纪8 0 年代开始,伴随着w i n d o w s 系列、m a co s 系列个人操作系统在世界范 围内的广泛普及。桌面系统( d e s k t o ps y s t e m s ) 成为晟终用户管理桌面信息资源的首选工 具,并逐渐成为人们日常工作、生活中使用频率最高的,最为重要的软件工具1 2 人类迈入知识社会p 1 之后信息呈爆炸方式增长。随着数据存储技术的发展进步,存储 设备的存储容量在不断增长的同时,价格也在不断下降。因此,越来越多的数据信息被存储 在本地桌面系统上。数据信息容量的快速增长,带来了如何组织管理这些海量信息资源的现 实问题。面对信息资源不断增长的挑战,传统桌面系统所提供的基于文件、文件夹的组织管 理方式,因为缺乏有效应付数据大量增长的可伸缩性( s e a l l n gu p ) 而无法很好地帮助最终 用户组织、管理与检索桌面系统上与日俱增的信息资源。用户不得不花费更多的时间与精力, 付出更大的代价来组织、检索其所需要使用的信息资源。信息资源的组织与检索成为困扰最 终用户日益严重的问题1 4 j 同时,人们对桌面信息资源组织的应用需求往往具有多样性的特点。不同的工作目标与 处理对象。会导致不同的桌面信息资源管理行为方式例。对在短期内需要经常使用的信息资 源,需要有很好的组织方式来方便保持、记录与恢复信息资源使用时的上下文( c o n t e x t ) 嘲, 帮助用户继续其未完成的工作;对需要长期存档的信息资源,需要有合适的方法来有效支持 存档信息资源的快速查找与精确检索。传统的桌面系统未考虑到信息资源组织需求的多样性 特点,没有提供合适的管理方法适用于不同的组织管理需求。 不同用户对信息资源的管理层次和组织程度要求不同。由于组织信息资源需要时间与精 力的付出,普通用户往往趋向于简单组织信息资源1 7 j 。文书工作者( c l 酣c a t w o r k e r ) 由于工 作上的原因,需要对信息资源进行严谨精细的分类组织信息工作者( i n f o r m a t i o nw o r k e r , 也称为知识工作者,k n o w l e d g ew o r k e r i m ) 由于持续地重复使用大量信息资源,需要灵活自 由的组织方式帮助他们快速恢复信息资源的使用,继续他们的信息创造工作唧。传统的桌面 系统难以满足不同层次的信息资源管理的需求。 随着计算机的广泛普及使用,大量不同类型、不同数据格式的桌面数据文件,如文字形 式的w o r d 文档,w e b 页面、电子邮件、i m 消息,图片形式的位图文件、矢量图形文件, 音频形式的m p 3 文件以及视频形式的v c d 文件、a v i 格式文件等等,均需要特定的桌面 应用程序来给予支持处理。更重要的是,大量的用户信息分散在这些相对孤立的桌面应用程 序与数据文件中,而难以跨越各种桌面应用边界实现信息之间的共享与集成i 。传统的桌 面系统无法有效地支持在不同类型、不同数据格式,不同应用程序之间实现跨越应用边界的 信息共享与集成。 对信息资源进行分类组织是最常见的信息管理方法。用户对信息资源进行分类组织时, 往往会遇到需要将某个资源分类到多个类别中去的情况,而现有的桌面系统却无法很好地支 东南大学硕士学位论文 持信息资源的多分类1 ( m u l t i p l ec l a s s i f i c a t i o n ) 【l l 】。与此同时,基于严格的资源分类体系进 行分类组织往往限制了用户的分类行为1 “。更令用户困惑的是,花费大量的时间与精力在 某种桌面应用程序中构建资源分类体系而在另外一种桌面应用程序中却要重复构建相似的 资源分类体系( c l a s s i f i c a t i o nh i e r a r c h i e s ) 叫。资源分类体系无法在各种桌面应用之间实现共 享与重用是传统的桌面系统所无法解决的问题。 信息资源之间存在大量的显式或是隐式的语义关联。这些关联的信息如若能通过人工方 式,或是自动方式表达出来,则可以极大地帮助信息资源的组织、维护与检索,并使得用户 能够通过这些关联探索寻找感兴趣的信息。相对于搜索而言,用户更喜欢利用信息之间 的关联信息进行导向与浏览【l ”。在现有桌面系统上,用户难以实现信息资源之间的关联, 也缺乏工具自动化地构建信息之间的关联。 在短短的二十多年的时间里,个人计算机与w e b 领域出现了巨大的变革:信息资源呈 爆炸式增长,资源管理需求越发复杂。相比之下,桌面系统在这变化的二十年问,却鲜有本 质上的发展与革新。传统的桌面系统与信息管理日益暴露出缺点与不足。于是,研究开发新 型个人信息管理工具来满足人们日常生活与工作的需要成为计算机科学工作者日益关注的 研究问题。 1 1 2 语义w e b 与语义桌面 语义w e b ( s e m a n t i cw e b ) i l 町是由t u nb e m e r s l e e 在1 9 9 8 年倡导的下一代万维网的发 展方向。万维网联盟( w 3 c ) 于2 0 0 1 年2 月启动了s a l l t i c w e b a c t i v i t y 研究项目1 1 7 】用以 促进语义w e b 的研究与应用。随着工作的深入,语义w e b 得到了广泛的关注,并逐步取得 了很大的进展。2 0 0 4 年2 月1 0 日w 3 c 正式发布了与r d f ,r d f s 和o w l 语言相关的 1 2 个技术规范,这标志着语义w e b 的资源描述框架、本体描述语言等基础工作已经得到奠 定。同年,w 3 c 成立了“s e m a n t i cw e bb e s tp r a c t i c e sa n dd 印1 0 y m r ,工作组,用以全面支 持基于语义w e b 技术的各种w 曲应用的研究与开发工作,从而宣告了 s e m a n t i cw e b a c t i v i t y 开始进入关注各种w e b 应用研发的第二个阶段引领着w e b 应用向语义互操作 ( s e m a n t i ci n t e r o p e m b i l i t y ) ”的方向发展。 但与此同时,使用个人计算机创建信息。组织信息,维护和使用信息的最终用户,在其 日常使用的桌面系统上,却无法享受语义w e b 技术所带来的各种信息集成与语义互操作的 便利。桌面系统作为个人用户最重要的信息空间( i n f o r m a t i o ns p a c e ) 瑚l ,却长期与开放自 由的w e b 世界相互隔离,变成相对孤立的信息空间。 若在现有广泛普及的桌面系统上,运用语义w e b 技术,使得用户可以方便地对桌面资 源添加语义标注信息,并在资源之间建立语义关联。就可以实现基于语义互操作方式的全新 的桌面资源组织与信息检索方式j ,从而方便最终用户组织管理桌面系统上的信息资源。 通过基于w 3 c 统一规范标准的相关语义w e b 技术的引入,桌面资源就可以方便地实现与语 义w e b 世界的各种信息资源进行信息集成和语义互操作,从而将本地桌面系统与更为广阔 的w e b 世界相互联系起来。同时,在桌面系统上实现本地化的语义w e b 应用,也可以促进 语义w e b 技术的发展进步,促进语义w e b 应用的推广普及。 语义桌面( s e m a n t i cd e s l a o p ) 口”,就是将语义w e b 的相关技术引入到桌面系统中,从 而方便实现桌面信息资源的共享与集成,实现基于语义互操作方式的桌面资源管理应用。语 包括资源类别的多分类和信息资源的多分类 - 2 第一章绪论 义桌面是语义w e b 技术与传统桌面系统相结合的产物,主要用于帮助人们管理桌面信息资 源,是一种新兴的个人信息管理工具范型( p a r a d i g m ) 。语义桌面对个人信息管理领域的理 论研究与工具开发也起到很大的推动作用【2 2 】。 1 2 本文工作 为了尝试对现有桌面系统所面临的诸多问题( 细节见2 1 3 节) 中的部分问题进行研究 并提出解决方案,为了实现对桌面信息资源添加语义信息、建立信息资源之间的语义关联, 为了探索基于语义互操作方式的桌面资源管理方式与方法,本文设计并实现了m y w o n d e r s p a c e ( 简称m w s ) 语义桌面工具。 本文采用的研究方法主要是先收集、分析用户需求,按照设想的方法和思路进行工程实 践,建立预期的应用环境然后模拟实际的应用场景收集用户体验信息,并运用经验性的比 较方法对比、分析实验结果,最后得出工作结论。 1 2 1 系统设计目标 m yw o n d e r s p a 系统是语义桌面工具,其主要设计目标是支持对桌面信息资源添加语 义信息,支持在信息资源之问建立语义关联,实现基于语义互操作的桌面资源组织管理。 系统尝试面对的具体研究问题包括: 支持对信息资源添加语义信息;支持在信息资源之间建立语义关联; 支持对信息资源进行多分类组织;支持灵活自由地构建资源分类体系;支持资源分 类体系的共享与重用; 支持跨越不同应用边界的不同类型、不同数据格式信息资源之间的共享与重用。 系统需要解决的具体工具实现问题包括: 组织桌面系统上不同异构数据源的信息资源,包括本地桌面系统与w e b 上的信息 资源,包括不同类型,不同数据格式的信息资源; 对信息资源进行统一标识处理;抽取信息资源已有的语义信息:支持对信息资源添 加新的语义信息; 支持基于主题方式分类组织信息资源;用户可以自定义主题用于分类组织信息资 源; 支持基于资源分类体系( 包括分类表和词表) 分类组织信息资源;支持资源多分类 组织,包括资源的多分类和主题的多分类;支持用户自定义资源分类体系; 支持对信息资源添加与内容相关的语义信息; 利用信息资源的语义信息与分类组织结构进行信息检索。 - 3 - 东南大学硕士学位论文 1 2 2 主要研究成果 本文工作初步设计实现了语义桌面工具m yw o n d e r s p a c e 系统。该语义桌面工具支持对 桌面信息资源添加语义信息支持在信息资源之间建立语义关联,初步实现了基本的基于语 义的桌面信息资源组织、维护和检索功能。 系统的具体实现功能包括( 1 ) 获取、解释并组织信息资源;( 2 ) 创建( 或导入) 并维 护用于多分类组织信息资源的用户本体;( 3 ) 利用语义主题和语义关联多分类组织信息资源 ( 4 ) 添加语义标签组织信息资源;( 5 ) 基于桌面搜索实现信息资源的动态组织;( 6 ) 使用 桌面搜索检索信息资源。系统功能实现覆盖了系统预期的设计目标。详细内容参见第三章 设计思想各小节。 系统的主要创新工作包括( 1 ) 以信息资源为中心,建模组织与信息资源相关的各种元 数据信息;( 2 ) 将桌面系统文件夹组织结构解释为白定义分类本体用于组织信息资源;( 3 ) 支持创建弱语义主题和弱语义关联用于组织信息资源;( 4 ) 统一语义标签与语义主题:( 5 ) 基于桌面搜索实现信息资源的动态组织。详细内容参见第三章设计思想各小节 关于系统具体实现方面的详细内容请参见第四章系统实现各小节 通过建立应用环境,模拟实际应用场景进行实验并收集用户体验信息,并经过对比、分 析实验结果表明该语义桌面工具初步达到了系统设计目标。详细内容参见第五章用户体验 各小节。 一4 第二章相关工作 第二章相关工作 语义桌面是语义w e b 技术与传统桌面系统相结合的产物。主要用于帮助人们管理桌面 信息资源,是一种新兴的个人信息管理工具范型。语义桌面的最初研究工作源自语义w e b 领域,但语义桌面所需要解决的问题在个人信息管理领域已研究多年,且语义桌面研究目标 的实现很大程度上依赖于个人信息管理领域的研究发展。因此,语义桌面可以视为个人信息 管理工具的新的工具范型与发展方向 本章节首先介绍了个人信息管理领域的相关工作,包括该领域的一些基本概念,发展历 史以及研究现状。随后,本文在2 2 节中介绍了目前最广泛使用的个人信息管理软件基础设 施:在2 3 节中介绍了语义w e b 的兴起,目标及其体系结构;在2 4 节中介绍了语义桌面的 相关工作,包括语义桌面的定义、发展与现状。 2 1 个人信息管理 个人信息管理( p e r s o 曲i n f o r m a t i o nm a m a g e m e n t ,p i m ) 刚,主要是指最终用户收集、 存储、组织、检索和使用他们所关心的信息资源来完成任务( 与工作相关或无关) 并履行个 人角色的日常活动。这些信息资源主要是指与最终用户密切相关的,且由最终用户个人拥有 掌控的信息资源,包括文档( 纸质或电子文档) ,w e b 页面和电子邮件。为帮助实现个人信 息管理的一系列相关的软件工具或软件基础设施称之为个人信息管理工具( p e r s o n a l i n f o r m a t i o nm a n a g e m e n tt o o l s ,p i mt o o l s ;又称为个人信息系统,p e o n a li n f o m l 砒i o n s y s t e m s ) 阱】 对个人信息管理的研究主要包括理论研究与实践研究两个方面阅。理论研究主要是指 研究与个人信息管理密切相关的各种信息收集、存储、组织、检索和使用活动的理论与方法, 涉及到用户行为与心理等多方面的研究活动 实践研究的主要研究对象是个人信息管理工具,包括以下多方面的内容:( 1 ) 研究随着 使用时间的增加,用户使用个人信息管理工具的行为方式及变化特点;( 2 ) 研究现有个人信 息管理工具对个人信息管理活动的支持程度,调研用户体验情况,并长期收集相关的用户反 馈信息:( 3 ) 理解用户关于个人信息管理工具的需求及变化,挖掘新的或是潜在的用户需求: ( 4 ) 根据研究收集而得的行为方式、反馈信息与需求信息,改进或研发新型个人信息管理 工具,用于满足最终用户进行个人信息管理的实际需要,用以提高个人信息管理工具的应用 水平。值得注意的是:对个人信息管理工具进行用户行为和用户反馈方面的研究具有长期性 和复杂性瞄l 。 个人信息管理研究的一个重要目的,就是通过研究所得设计新型个人信息管理工具删。 各个时期个人信息管理工具的发展情况往往反映了当时个人信息管理研究的水平与现状。个 人信息管理的研究历史也可以通过个人信息管理工具的发展历史来间接给予表述。 下文第2 1 1 节中主要介绍了个人信息管理领域的一些基本概念;第2 1 1 节中主要介绍 了个人信息管理和个人信息管理工具的发展历史;第2 1 3 节主要介绍了目前该领域的主要 研究现状。 5 东南大学硕士学位论文 2 1 i 基本概念 信息( i n f o r m a t i o n ) 信息在不同领域,不同应用情况下有众多不同的定义与解释2 。本文只讨论信息在计算 机科学领域中的定义与解释。在a m e r i c a n h e r i t a g e 词典口1 中,对信息( i n f o r m a t i o n ) 这一条 目,给出了7 种不同的解释;其中第5 条解释为:“c o m p u t e rs c i e n c e p r o c e s s e d ,s t o r e d , o r t r a n s m i t t e dd a m 。在w o r d n e t 词典闭中,名词信息具有5 种解释;其中第2 条解释为:“a c o l l e c t i o no f f a c t s f r o m w h i c h c o n c l u s i o n s m a y b ed r a w n ”;其相关的同义词为d a t a 。 j f e a t h e r 和p s t u r g e s 在2 0 0 3 年的一文中,将信息定义为“a na s s e m b l yo fd a t ai na c o m p r e h e n s i v ef o r mc a p a b l eo f c o m m u n i c a t i o na n du 辩例该定义更多的是从信息的作用或 是使用价值的角度给出的相对宽泛的定义。 本文不尝试给出信息的定义,但仍从计算机科学的角度对信息的一些特点,以及与信息 相关的其他重要概念给予相关介绍 第一信息与数据( d a t a ) 并不等同信息是被处理过的数据【卅。数据是原始的事实( r a w f a c t s ) 。信息具有可以被人们所理解的含义,具有使用价值,广泛用于人们之间的交流。数 据不一定具有含义不一定被人们所理解,不一定具有价值。数据必须经过处理才能转化为 信息。信息亦可以被视为数据,从而进行再次处理。信息可看为数据的一个子集;非信息的 数据一般被称为原始数据( r a wd a t a ) 。 信息可由多种不同形式的数据同时给予表达,且所传递的含义保持不变。例如,某只宠 物猫的年龄是五岁,这段信息可以用阿拉伯数字表示( 5 ) ,可以用罗马数字表示( v ) ,可 以用二进制串给予表示( 1 0 1 ) ,也可以用其他多种表示方式。但所有的这些数据所要表达的 信息都是相同的,都传递着相同的含义。 信息在特定的上下文( c o n t e x t ) 中具有一定的内在相关性,具有特定的结构特点数据 之间相对孤立,没有特定的联系。缺乏上下文,缺乏结构特征。 信息所表达的含义具有不同的粒度大小,数据没有粒度的度量。 第二,信息可由多种媒介( m e d i a ) 给予表达譬如:数据,文档,表格,图片,声音 或是视频等不同的媒介载体所表达的信息具有不同的特点:数据主要包含数据记录,文档 主要包含文字信息,图片主要包含静态或动态的图像信息,声音主要包含连续的音频信息, 视频主要包含连续的动态图像信息。所有这些媒介所表达的信息都是可以被人类所理解的。 第三,资源( r e s o u r c e ) 是信息的载体( c a r r i e r ) 资源( 又称为信息源i n f o r m a t i o ns o u r , 也称为数据源d a t a s o u r c e ) 是信息的容器( c o n t a i n e r ) ,承载具有一定上下文关联的,不同粒 度的信息集合。资源界定了所承载信息的边界,维护其所组织信息的上下文。 资源具有不同的信息组织粒度。信息组织的粒度越低其上下文就越可能丢失,信息的 含义就越可能相对模糊,产生二义性。 针对不同的应用需求和使用需要,资源可分为不同的类型。资源由不同的数据格式( d a t a f o r m a t ) 给予表现。不同的数据格式需要不同的处理模型( p r o c e s sm o d e l ) 进行处理。在操 2 信息至少在认知学,生物学,物理学,语谭学,计算机科学通信理论,系统论等领域具有不同的定义 与解释 一6 第二章相关工作 作系统中,具有不同数据格式的文件( 6 l e ) 一般具有不同的文件后缀名( f i l ee x t e n s i o nn a m e ) 。 一般地。不同数据格式的文件由各自特定的应用程序给予解释处理。 个人信息( p e r s o n a li n f o r m a t i o n ) 个人信息既可以指“i n f o r m a t i o na b o u ta ni n d i v i d u a l ”,又可以是“p e r s o n a li n f o r m a t i o ni st h e i n f o r m a t i o nm a n a g e da n ds t o r e dw i t h i np e r s o n a lo r g a n i z e rs o f t w a r e p ”。 在本文中,个人信息专指个人拥有的,并被个人直接管理的信息。 个人信息与普遍意义上的信息之间存有一定的区别。个人信息的一些主要特点包括:( 1 ) 个人信息的所有权属于个人;个人直接管理其所有的个人信息,可以随意修改或是删除这些 信息;( 2 ) 个人信息往往是个人为了某些目的而编撰、收集、整理和组织维护的信息,这些 信息对个人具有价值;( 3 ) 个人信息涉及的内容非常广泛,任何信息都可以在一定条件下成 为个人信息:( 4 ) 个人信息主要经由不同类型的资源文件给予承载:相同类型的资源文件之 间可以构成个人信息空间( p e r s o n a li n f o r m a 6 0 ns p a c e ) 吲;( 5 ) 个人信息主要存储在本地 个人计算机的桌面系统上,并由多种桌面个人信息管理工具处理维护。对个人信息的访问具 有本地性,私有性和快捷性的特点。 由于个人资源文件是个人信息的主要载体与存在方式,本文中资源文件也常常指代个人 信息资源。 个人信息管理( p e r s o n a li n f o r m a t i o nm a n a g e m e n t ) 个人信息管理主要是指对个人信息进行的管理活动由于个人信息主要以资源文件的 方式存在与呈现,对个人信息的管理也主要是指关于由资源文件所组织的个人信息的整体, 或是资源文件中所包含的不同粒度的个人信息( 资源文件的片断) 所进行的管理活动。其中, 又以管理以资源文件为单位整体出现的个人信息为主。所以,个人信息管理也可以宽泛的理 解为对个人资源文件的管理。 个人信息管理可以从获取、组织、维护和检索这四个主要活动来给予刻画。 图表1 个人信息管理的四大主要活动:获取,组织,维护和检索 1 获取( a c q u i s i t i o n ) 7 - 东南大学硕士学位论文 个人信息可以来源于多种不同的信息源。个人信息的获取主要包括从i i l t e m e t 下载的资 源文件;从光盘或是磁盘中拷贝复制的资源文件;或是最终用户自己创建,编辑的资源文件 ( 包括应用程序自动生成的资源文件) 。 2 组织( o r g a n i z a t i o n ) 用户可能需要对获取的个人信息进行组织。信息组织的目的是因为用户需要检索信息。 信息检索依赖于信息组织:如果信息不加以组织,就很难找到p 3 l 。 最常见的两种组织方式包括添加元数据( m c t a d a t a ) 3 与创建资源分类体系。用户可以对 资源文件添加各种描述性元数据,包括系统定义的属性( s y s t e m - d e f i n e df i l ea t t r i b u t e s ) p 4 j , 例如资源文件的文件大小,数据类犁,修改日期,访问属性等;或是用户白定义的元数据 ( t w - d e f r e e dm e m d a m ) ,例如资源文件的文件名,资源文件的主题、说明,对资源文件所 添加的标签( t a g ) 等等。 人类有收集与分类组织资源的天性9 ”。用户可以将获取的各种信息资源按照自己的分 类方式给予组织管理:通过创建文件夹( f o l d e r ) 或目录( d i r e c t o r y ) 结构来组织管理一些具 有相关性的资源文件。这种分类组织方法具有明显的个性化特点。 值得注意的是,用户更多的倾向于利用分类组织方式来提示自己,便于自己记住资源文 件的存储位置,方便今后快速找到所需资源文件;而不是倾向于根据资源文件之间的内在关 系或是相互联系。其中的主要原因在于:( 1 ) 对资源进行合理的分类是困难的1 ( 2 ) 用户 需要花费时问与精力来组织资源文件( 3 ) 在已经分类组织好的资源文件的基础上添加新的 资源文件时,需要花费额外的时间与精力将新的资源文件加入其中并同时保持原有分类组织 的的完整性和一致性( 4 ) 现有的分类组织资源的实现方法是通过文件系统( f i l es y s t e m ) 将抽象分类结构与物理存储结构紧密结合起来,导致用户更倾向于利用存储结构来帮助记忆 资源文件位置,而不是在建立存储结构的同时考虑构建分类结构来帮助组织资源。( 5 ) 由于 抽象分类结构与物理存储结构的紧耦合,现有分类组织的实现方法无法支持多分类的情况 ( 即一个资源文件可以属于多个分类的情况) 。 3 维护( m i n t e n a n e e ) 最终用户对个人信息的维护主要是指用户根据自己的需要,对已有的资源文件进行整 理。维护活动主要包括:更新某些旧有文件;合并或拆分某些相关文件;删除某些无用文件: 对某些资源文件进行存档或备份保存等等。 对资源文件的维护也需要花费用户的时间与精力一般这种维护活动的发生主要取决于 特定情况的出现,而非基于某些特定规则的满足p ”。譬如由于资源文件的不断累积,导致 系统缺乏存储空间,或是系统使用性能下降,从而无法满足用户的使用需要,于是用户必须 花费一定的时间精力来维护累积的大量资源文件。 从已有获取、组织、维护的个人信息中查找检索用户所需的资源文件是个人信息管理中 一项重要的活动在大部分情况下,个人信息的获取、组织、维护的主要目的在于帮助实现 个人信息的快速,准确的检索与获取。 3 元数据是为了达到识别、发现目的,有时是为了管理目的描述信息体属性的结构化信息【3 3 1 元数据是 重要的信息组织、信息维护和信息检索手段元数据町被宽泛的划分为三类:描述性元数据、结构性兀数 据和管理性兀数据 - 8 - 第二章相关工作 用户如需使用某个资源文件,首先需要找到该资源文件。在桌面系统中,常用的寻找资 源文件的方式主要有两种。 一种方式是基于位置的查找( i o c a t i o n - b a s e df i n d i n g ) 。通过记忆目标文件的存储地址, 直接定位目标文件。这种方式需要用户记住目标文件的存储目录,但却是一种简单快捷的方 法。这种方式对于查找新获取的资源文件或是最近需要使用的资源文件非常有效。研究显示, 用户习惯于将自己最近需要使用的资源放置于固定的自己熟悉的位置,以方便使用。这是一 种非常关键的自我提醒( r e m i n d e r ) 方式p ,j 实际调查显示,用户往往记住目标文件所在的 大致位置( 一般是目标文件所在的文件夹,或是其父文件夹) ,然后定位到目标文件附近, 再通过快速浏览找到目标文件。 如若用户忘记了目标文件的存储目录,可以通过基于检索的方式找到目标文件。这就是 另外一种基于文本的检索( t e x t - b a s e ds e a r c h ) 的方式。这种方式一般是通过基于关键字搜 索来实现目标文件的检索。这种方式需要信息检索工具的支持。最重要的是用户需要提供合 适的关键字作为搜索的输入。这些关键词一般来源于期望的目标文件的文件名,文件属性和 文件内容。同时,信息检索工具可能需要建立高效的索引来提高检索的效率。这些索引结构 需要占用一定的存储空间。 研究表明,用户更倾向于基于位置查找的方式。原因很可能在于用户喜欢直接控制其所 拥有的资源文件f 蚓。 个人信息管理工具( p e r s o n ! i n f o r m a t i o nm a n a g e m e n tt o o l s ,p i mt o o l s ) 个人信息管理工具主要是指帮助实现个人信息管理的软件基础设旆与应用程序。其 中,软件基础设施主要是指负责存储管理文件与目录的文件系统。 桌面应用程序负责创建、编辑各种不同数据格式的资源文件。这些资源文件统一由文件 系统负责存储管理。用户可以通过资源浏览器,或命令行( c o m m a n dl i n e ) 界面来查看所 有存储在文件系统中的资源文件。各种桌面应用程序可以通过存储在文件系统中的文件来实 现信息的相互共享与操作。 b a r r e a n 在1 9 9 5 年的一文中指出,个人信息管理工具必须要具有信息获取,组织和存储, 维护,检索和输出这五个基本功能p ”这与个人信息管理的四大主要活动是相吻合的。同 时,最新的个人信息管理工具也都广泛地提供了信息输出的基本功能 研究表明。个人信息管理工具必须帮助用户灵活适合地完成特定的信息管理任务个人 信息管理工具必须能够很好的维护或恢复用户工作场景的上下文,便于用户顺畅地完成一系 列相关的信息管理任务而不必频繁地切换工作上下文。个人信息管理工具还应该提供特定功 能用以支持不同数据格式之间信息资源的转换,以便于在不同个人信息管理工具之间实现 信息的共享与互操作。 同时,个人信息管理工具要易于学习易于使用,符合用户的使用习惯。在实际使用过 程中,用户应更多地侧重于完成与任务相关的各种操作行为,而并非关注于熟悉或是精通使 用个人信息管理工具自身 9 东南大学硕士学位论文 2 1 2 发展历史 个人信息管理主要关注于人们需要记忆或关心的信息。因此在古代,与个人信息管理主 题相关的研究或工具更多的是以记忆术( m n e m o n i ct e c h n i q u e s ) 的形式出现的 3 7 1 。 在数个世纪中,纸张是记录信息的主要介质。随着造纸术和印刷术的广泛普及,由纸张 记录的文档数量的不断增长对纸质文档的管理成为了信息管理的主要内容。于是,不断有 新的工具出现,用于纸质文档的管理。例如现今广泛使用的档案柜( f i l i n gc a b i n e t ) ,诞生于 二十世纪早期。新的工具的诞生不断地扩展了人们管理与处理信息的能力。 现代个人信息管理起源于v a n n e v a rb u s h 与1 9 4 5 年发表的著名的( a sw em a yt l f l i | a k ) 一文口目。b u s h 指出随

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论