




已阅读5页,还剩51页未读, 继续免费阅读
(计算机系统结构专业论文)个性化服务在数字图书馆科技查新中的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文针对现有数字图书馆科技查薪部门中存在着数据分析能力 欠缺、信息关联现象严重和个性化服务单一等问题,使用人工和计算 机相结合的思想,将个性化服务技术引入到科技查新中。 首先,通过对个性化服务涵义和特点、可行性及障碍因素、个性 化技术研究现状、个性化服务平台及内容、以及个性化服务服务途径 和措施研究,建立了个性化对称主动服务模型,该模型通过对数据的 关联分析和挖掘以及自动地推荐用户群体的兴趣来为用户提供个性 化的服务。其次,对设计的模型,进行了详细的说明,既模型的基本 框架、模型中的服务对象潜在需求的主动发现、模型中的服务的主动 推销。同时研究了基于用户兴趣的个性化对称主动服务模型实现步 骤:( 1 ) 数据预处理( 2 ) 数据挖掘( 3 ) 个性化推荐。再次,建立了基于主 动模型的科技查新平台设计。通过分析科技查新要素,建立科技查新 对称主动服务平台。以对称服务平台的系统结构框架为基础,通过建 立检索词表,使用聚类将检索词分为适当的组类,并对该组类的文档 进行兴趣度设计,把文档按兴趣度个性化地推荐给用户。最后,设计 科技查新系统。 本文所作的研究工作,对数字图书馆科技查新工作的革新建设和 发展提供了科技查新主动服务与用户交流相结合的方法。 关键词科技查新,对称主动服务模型,个性化信息服务, 数字图书馆 a b s t r a c t i nt h i sp a p e rt h ee x i s t i n gd i g i t a ll i b r a r yn o v e l 够s e a r c hd e p a r t m e n t s e x i s td a t aa n a l y s i sc a p a b i l i t i e sa r el a c k i n g ,i n f o r m a t i o nr e l a t e ds e r i o u s a n dp e r s o n a l i z e ds e r v i c e ss u c ha sas i n g l ei s s u e ,t h eu s eo fm a n u a la n d c o m p u t e r c o m b i n a t i o no f t h i n k i n g ,p e r s o n a l i z e d s e r v i c et ot h e i n t r o d u c t i o no f t e c h n o l o g yt oc h i n an o v e l t ys e a r c h f i r s t l y , t h em e a n i n go f p e r s o n a l i z e ds e r v i c e sa n df e a t u r e s ,f e a s i b i l i t y a n d o b s t a c l e s ,p e r s o n a l i z e dt e c h n o l o g y , t h ep e r s o n a l i z e ds e r v i c ep l a t f o r m a n dc o n t e n t , a n dp e r s o n a l i z e ds e r v i c em e a n sa n dm e a s u r e ss e r v i c e s , a p e r s o n a l i z e ds e r v i c ei n i t i a t i v es y m m e t r i cm o d e l ,t h em o d e lo fd a t a m i n i n ga n dc o r r e l a t i o na n a l y s i s ,a n da u t o m a t i cr e c o m m e n du s e rg r o u p s i n t e r e s t e di np e r s o n a l i t yt op r o v i d eu s e r sw i t ht h es e r v i c e s s e c o n d l y , t h e d e s i g no ft h em o d e lf o rad e t a i l e de x p l a n a t i o n m o d e li st h eb a s i c f r a m e w o r ko ft h em o d e lo fp o t e n t i a lc l i e n t sd e m a n dt h ei n i t i a t i v ef o u n d t h a tt h em o d e lo fs e r v i c em a r k e t i n gi n i t i a t i v e s a c c o r d i n gt ot h es t u d y b a s e do nu s e ri n t e r e s ti nap e r s o n a l i z e ds e r v i c em o d e ls y m m e t r ya c t i v e s t e p st oa c h i e v e :( 1 ) d a t ap r e p a r a t i o n ( 2 ) d a t am i n i n g0 ) p e r s o n a l i z e d r e c o m m e n d a t i o n t i l i r d t h ee s t a b l i s h m e n to fam o d e ib a s e do nt h e i n i t i a t i v eo ft h en o v e l t ys e a r c hp l a t f o r md e s i g n b ya n a l y z i n gn o v e l t y s e a r c he l e m e n t s ,b u i l dn o v e l t ys e a r c h s y m m e t r i ca c t i v es e r v i c e p l a t f o r m s s y m m e t r i c s e r v i c e p l a t f o r m f o rt h e s y s t e m a r c h i t e c t u r e f r a m e w o r k , t h r o u g ht h ee s t a b l i s h m e n to fk e yw o r d sl i s tc l u s t e r i n gw i l l u s ek e yw o r d si n t ot h ea p p r o p r i a t ec l u s t e r , a n dt h a tc l u s t e rd o c u m e n tf o r t h ei n t e r e s ti nt h ed e s i g n , d o c u m e n t sp u tb yi n t e r e s ti np e r s o n a l i z e d r e c o m m e n dt ou s e r s f i n a l l y , t h ed e s i g nn o v e l t ys e a r c hs y s t e m i nt h i sp a p e r , t h er e s e a r c hw o r k , d i g i t a l l i b r a r yf o rt h es c i - b u i l d i n g i n n o v a t i o na n dd e v e l o p m e n to f n o v e l t ys e a r c ha c t i v es e r v i c ew i t hu s e r s c o m b i n em e t h o d s k e y w o r d sn o v e l t ys e a r c h , s y m m e t r i c s e r v i c em o d e l i n i t i a t i v e , p e r s o n a l i z e di n f o r m a t i o ns e r v i c e s ,d i g i t a ll i b r a r y 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共 同工作的同志对本研究所作的贡献均已在在论文中作了明确的说明。 作者签名: 盈纽型2 日期:- 独芦吐月j e t 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即;学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名: 导师签名: 日期: 中南大学硕士学位论文 第一章绪论 1 1 研究的背景 第一章绪论 随着社会信息化的发展,科技查新作为科技信息服务业中的一个重要部分, 在科技与经济活动中扮演着极为重要的角色。科技查新作为科技管理的一项基础 工作,为科研管理部门和有关专家进行科技成果和新产品的鉴定和奖励、专利申 请及科研立项的评审等提供了可靠的文献依据。因此,受到有关部门的高度重视。 科技查新报告己成为有关部门进行科技成果评价和科研立项中必不可少的材料 之一。 科技查新是国家科技部为了避免科研课题重复立项和客观正确地判别科技 成果的新颖性、先进性而设立的一项工作,由具有科技查新资质的查新机构承担 完成。查新机构根据查新委托人提供的需要查证其新颖性的科学技术内容,按照 科技查新规范操作,有偿提供科技查新服务。 科技查新工作本身也是个信息服务【1 3 】工作。首先它是以用户需求为中心, 而用户的需求无论在数量上还是在内容上都是不停变化的,怎样为用户提供必要 的、可靠的信息服务成为查新工作所考虑的问题,为用户提供个性化定制服务成 为查新工作的发展趋势。其次,查新工作对数据维护相对繁杂,获取到的信息都 需作加工处理,以便于查新工作中工作人员的查询、用户需求的匹配。因而, 个性化信息服务为用户的科技查新提供了方便。 1 2 研究现状 科技查新是我国特有的专有名词。我国的科技查新工作始于1 9 8 5 年,当时 中国科学院医学情报所率先开展科技查新工作,而后国防科工委等部委也提出了 查新要求,为规范查新管理,国家科委于1 9 9 0 年、1 9 9 4 年、1 9 9 7 年先后批准了 三批3 8 个科技信息机构为一级查新单位,各省市、各部委也认定了多家查新机 构,并先后颁布了有关科技成果鉴定、查新机构管理的相关规定,特别是2 0 0 0 年颁布的科技查新机构管理办法与科技查新规范,标志着我国科技查新 工作逐步迈入法制化的轨道。下面通过对1 9 9 8 年以来的文献进行了分析研究, 以此了解我国查新工作研究现状: l 时问分布 通过对1 9 9 8 年以来的文献进行了分析研究,以此了解我国查新工作研究现 中南大学硕士学位论文第一章绪论 状,并提出一些建设性意见。发表查新文献具体分布嗍见表1 - 1 : 表1 - 1 查新文献发布时间表 年代 9 驰卑1 9 9 9 韭2 姗年蝴单2 c c 2 盘确年甚计 文糕擞 铺部抬配黼 掰 簟薹 文黼藏 赫如秘并3 02 6 2 i 4 磁科 百分吨讯啪岛6 i 嚣4 7 嚣努钵舒讳 接心 盘献擐l o埔1 361 0曲 秘 百骨比i 俺嬲2 i 2 3 幡懒l , 从表1 - 1 可知,近几年发表的查新方面的文献比较平均,论文数量均不算多, 发表于核心期刊上的数量更少,其平均比例为1 7 ,最高一年2 0 0 1 年的比例也 只有2 3 ,最低一年的比例只有9 。 2 文献分布 1 9 9 8 年以来,共有1 2 9 种期刊登载查新方面的论文,其分布如表i - 2 : 表1 - 2 查新论文期刊分布表 刊载论文数超过8 篇的期刊有8 种,其具体分布如表i - 3 。 表i - 3 刊载查新的主要期刊 i 捌刊名稃沧空羹精刊名称蛇立盘期刊名尊论文数 i 叛擘惦擞点俘 6 7 馈摧辩毒i l躐孝黼暂缘潍识1 4 i 理代情报i l德撤探索取北搿辑婊鞭擘科9 i 中肇敷擎糟 垴擞帮誊s礴控宜献锵盘擘鹌3 从统计分析中,我们发现,与医学相关的情报学刊或科技期刊上发表了大量 查新方面的论文,这与我国医学行业查新开展最早、查新量最大有关 虽然刊载查新论文的图书、情报领域的核心期刊有1 4 种,但其刊载数量极 小,仅6 1 篇。只占所有论文的1 5 ,说明查新论文的学术性有待提高。 3 查新论文主题分析 查新的研究文章大体可分为查新工作概述、查新检索、查新报告、查新质量 人员素质、网络资源利用等等。其研究分布如图: 2 中南大学硕士学位论文 第一章绪论 目卜1 查新的研究分布 经统计,查新论文有近一半的文献为查新经验查新流程等一般性文章,研究 查新检索策略、查新质量的文献也占较大比例。 在这些论文中,主要有以下观点: ( 1 ) 充分利用网络资源,尤其是网上免费资源,可提高查新的文献保障。 ( 2 ) 将“信息发现” 5 1 与“知识发现”【q 引入查新检索,并探讨非“0 ”化处 理技术:将“系统评价方法”引入查新工作。 ( 3 ) 目前查新存在的主要问题有:查新机构管理松散、缺乏查新质量的监督 机制、查新人员素质有待提高、需要健全查新文献保障体系等等。 ( 4 ) 查新质量评估网包括查新机构评估及查新报告评估,查新机构的评价因 素包括:文献资源、人员结构、设备状况、业务状况、内部管理、用户反馈等等, 查新报告质量取决于检索质量与报告撰写质量。查新质量评估方法目前尚无统一 标准模式和模式,常用的方法有:模糊数学评判法、层次结构模型、加权评分法 等等。 ( 5 ) 大量论文介绍了本单位或本地区的查新工作现状。 1 。3 课题研究目的和意义 通过设计个性化服务模型及其基于该模型的查新系统,能够满足不同层次的 用户对文献资源的需求,又可集合查新用户的行为、习惯、偏好和特点,对用户 提供更有用的信息。同时也使科技查新工作更具有深度和广度,是对科技查新工 作的进一步深化。为科研立项、正确评价科技成果提供了更科学、更可靠的、更 实用性依据,满足用户需求。 科技查新个性化服务一方面扩展了科技查新信息服务的领域和范围,另一方 面又为用户的需求动态的提供了可靠的服务。查新工作的个性化服务是我国当前 深化科技查新信息服务体制改革的一项重要举措,也是本文对信息服务的一有益 3 中南大学硕士学位论文第一章绪论 探索,他在密切科技信息部门和科研、生产、部门之间的联系,促进科技信息资 源的开发和利用等方面都具有十分重要的意义。 1 4 本文的工作和论文组织 本文各章的组织如下: 第一章介绍本论文的课题来源、研究现状、研究目的和意义以及论文的工 作和组织。 第二章主要对个性化服务基本理论进行介绍,分别介绍的个性化服务的涵 义及特点、可行性及障碍因素、个性化技术的研究现状、服务平台及内容、服务 途径及措施。 第三章设计出个性化服务模型对称主动服务模型,首先建立模型框架 结构,然后通过模型中的两个关键能力:主动发现和主动推销进行知识发现和个 性化推销。用户的主动发现是把采集资源进行数据挖掘后发现有价值的信息,并 通过主动推销,选定需要推销的用户和用户所需要的资料发送给用户。 第四章基于对称主动服务模型,设计出了科技查新服务平台。通过对历史 信息、查新用户检索的关键词进行聚类并提供与其相似的关键词信息,同时并提 供该信息的相似性文档并主动推荐出来。 第五章在建立的科技查新平台基础上,设计出查新系统。系统采用b s 模 型,运用j s p 、s e r v l e t 和j a v a b e a n s 组件技术,初步实现了基于用户兴趣的个性 化查新系统。 第六章在结束语中对本文进行了总结,本文的研究工作初步建立了查新个 性化服务系统,但要构建一个完善的个性化服务平台并为用户服务,还有许多问 题值得研究,以后的工作是对科技查新信息咨询服务理论进一步研究的同时,采 用更成熟的计算机相关技术来搭建更好的科技查新个性化服务平台,为读者提供 个性化的服务。 4 中南大学硕士学位论文第二章个性化服务现状及描述 第二章个性化服务现状及描述 社会的日益发展,海量数字资源迅猛增长对个性化信息服务提出了新的要 求。信息服务是将集成化的信息资源依据一定的目的和特定的用户需求,以及信 息资源的个性化特征进行处理并形成特色化信息产品,再通过不同的信息推送方 式,分散传递给各类用户的过程。 2 1 个性化信息服务的涵义和特点 1 个性化信息服务的涵义嘲 海量数字资源为我们带来了丰富的信息,但其缺陷在于不能为我们解决正 确、有效地查询和获取有用信息。因此,个性化信息服务是信息服务的必然方向。 何谓个性化信息服务? 在一些文献里,有将个性化信息服务称之为“个性服务”、 。个性化定制服务”、“个性化信息搜索服务”、“个性化信息推荐服务”、“个性化 信息提醒服务”和“个性化信息代理服务”等等。 个性化信息服务从本质上讲,既是一种个性服务,又是一种信息服务。在科 技查新过程中,它是基于在查新工作中用户需求呈现出差异性和个性化趋势而开 展的以满足用户需求为目标的信息服务。作用在于创建个性化环境,根据用户或 用户群的特点组织信息,按用户需求提供查新服务。其实质是根据用户需求,因 人而异地提供独特的信息和针对性服务。 2 个性化信息服务的特点【9 - 2 】 个性化信息服务的中心是用户,只有研究和掌握用户的需求行为、兴趣、爱 好和习惯,才能为用户推荐和提供更具针对性的信息服务。而这些的前提是先要 对个性化信息服务特点有深入的了解和掌握。 ( 1 ) 以用户为中心。个性化信息服务的根本就是尊重用户,所有的服务必须 以方便用户,满足用户需求为前提,尊重用户意愿,研究用户行为,了解用户的 个人需求、习惯、爱好和兴趣并提供“量身定制”0 3 的信息服务。 ( 2 ) 针对性。针对不同的用户采取不同的服务策略;针对不同用户的不同要 求、特点提供不同的查新服务;针对用户的不同需求,动态的改变服务方式和内 容。 ( 3 ) 主动性。个性化信息服务注重提供友好的服务平台【1 4 】,方便用户交互, 鼓励用户自由表达个性需求和自主反馈对服务过程和结果的评价,主动为用户选 择和提供可能需要的信息与服务。 5 中南大学硕士学位论文第二章个性化服务现状及描述 ( 4 ) 准确性。个性化信息服务不仅要为用户提供准确的信息,还要精确的按 用户指定的方式、地点提供信息服务。 ( 5 ) 定制式。用户可根据自己的兴趣和需求,在特定的网上功能和服务方式 中设定信息需求和查新服务表现形式,选取特定的服务功能。 ( 6 ) 要有多种的信息服务方式。如为用户提供多种的信息显示方式、信息提 供方式( 纸质、电子版、网络版、电子邮件等) ;在时间上提供全天候的服务 方式,在地点上提供全方位的服务方式。 ( 7 ) 能够积极主动推荐用户所需的信息。 在现代信息服务环境下,实现个性化信息服务还必须满足以下两点要求:乱个性 化信息服务应该是能够满足用户的个性化信息需求的一种服务。用户的信息需求 不仅随着用户的年龄、职业、知识结构等变化而改变,而且还随着社会环境的变 迁而改变。用户根据社会和自身的发展需要,不断产生新的信息需求,特别是在 网络环境下,信息用户对信息服务的期望值及质量要求都比以往有很大提高。这 就要求查新工作者能够不断深入调查、了解、分析和研究用户的需求心理和需求 行为。b 个性化信息服务也是展示信息服务部门个性的服务。随着知识经济的发 展,各种信息服务机构迅速发展起来。科技查新要及时调整自身的服务方向,针 对不同用户,制定不同的服务策略。一方面凭借丰富的馆藏资源,生产出各种载 体的信息产品,以便于存储和检索;另一方面必须善于利用各种信息技术,并在 应用的过程中迸一步创新,最终形成适合于融汇多种信息技术的技术综合体,保 证与用户的信息交流渠道的畅通和有序,提高信息服务水平。 2 2 个性化服务的可行性及障碍因素 1 个性化服务的可行性 强大的网络功能和丰富的网络资源,以及查新工作站的协作联合的强大优 势,为查新工作开展个性化服务提供了技术支持和资源保障。 ( 1 ) 从网络资源来看,互联网上有4 0 0 多个学术文献库,联接有上千个图书 馆、1 0 0 多万个信息源,仅中国互联网上就有多个中文期刊全文数据库、多个索 引数据库,加速建设的多个数字图书馆已有数百万册图书上网。 ( 2 ) 从网络功能来看,任何个人所需的信息,都可通过网络传递、检索利用, 如用e m a i l 传递咨询信息、解答用户问题、建立用户个人档案等。从服务优势 看,查新工作站拥有信息服务的专业队伍,并有自己的固定用户群体,他们的创 新活动需要丰富的资源和个性化服务。 ( 3 ) 从服务优势来看,传统资源的单一的服务方式已被打破,信息资源间联 合协作的格局已初步形成。高校合并资源重组,国家教育部的中国高等教育文献 6 中南大学硕士学位论文 第二章个性化服务现状及描述 保障与服务体系,以及国家图书馆正在建设的中国数字图书馆工程和科技部建设 的图书文献信息中心等,都在有效地加强联合协作,为信息远距离传递与利用提 供了强大的服务优势。 2 个性化信息服务中的障碍因素 ( 1 ) 信息因素。在网络环境下,信息的爆炸性增长和信息资源数字化、虚拟 化的发展使得用户需求的特定性与信息资源的多样性和无限分散性之间的矛盾 加剧,一些检索能力较差的查新员更是难以找到所需的资源。其间,各种检索工 具和搜索引擎虽应运而生,但难尽人意。可见,海量信息便于用户选择与利用, 却不利于快速准确的检索,也增加了个性化服务的困难。 ( 2 ) 素质局限。衡量个性化服务的标准是满足用户的个性需求,而用户的满 意度在很大程度上取决于查新员对个性化服务认识不足,服务意识不强,知识单 一,业务水平和能力与先进的网络技术、专深的学科知识不相匹配,从而影响了 查新服务的开展和深化。 ( 3 ) 模式制约。传统查新服务依赖手工检索,其资源主要是馆藏文献,以借 阅为主,被动服务。而今许多查新工作虽然更新了服务手段,实现了联机并网, 但不过是用计算机代替人工,把传统信息服务“移植”到网络上。如查新主页中 韵查新工作多为查新工作介绍等,忽视了深层次主动服务和商品位的产品开发。 只有从根本上改变被动服务模式,个性化信息服务才会有更新、更快、更大的发 展。 ( 4 ) 资源影响。随着数字资源的增多,资源数据库变得相当复杂,如每增加 一种数字资源,就得修改查新结果,添加相应的检索数据,甚至重新查新。各种 联机目录、数据库、电子出版物和其他网络资源也因数据格式不统一,导致检索 途径和方法的不同以及查新过程的繁杂。所有这些都会影响资源的查新结果和制 约个性化信息服务的开展。 2 。3 个性化服务技术分析 个性化主动信息服务系统的实现是一个复杂的过程,它依赖于很多现己成型 的技术,这些技术被应用于信息检索1 纠的( i n f o r m a t i o nr e t r i e v a l ) 、信息过滤 0 9 - 2 玎( i n f o r m a t i o nf i l t e r i n g ) 、用户建模瞄渊( u s e rm o d e l i n g ) 和机器学习 ( m a c h i n el e a r n i n g ) 等。下面对个性化主动信息服务三个关键技术,即用户模型 的建立、信息资源的描述和组织以及智能个性化推荐机制进行简单介绍。 中南大学硕士学位论文第二章个性化服务现状及描述 2 3 1 用户建模 对个性化主动信息服务系统来说,最重要的是用户的参与,为了获取并跟踪 用户的兴趣,必须为每个用户建立一个用户模型。用户模型准确描述用户的兴趣, 刻画用户的特征以及与其他用户之间的关系等。 根据建模过程中用户的参与程度,用户建模技术可以分为用户手工定制建 模、示例用户建模和自动用户建模。 1 用户手工定制建模 是指用户模型由用户自己手工输入或选择的用户建模方法,如用户手工输入 感兴趣信息的关键词列表,或者是选择感兴趣的栏目等,是个性化服务发展早期 用户建模的主要方法。y a h o o ! 站点1 9 9 6 年推出个性化服务m y y a h o o 是用户手工 定制建模的典型代表。 用户手工定制建模方法实现简单,也具有较好的效果,但它存在以下三方面 问题:其一,完全依赖于用户,容易降低用户使用系统的积极性;其二,用户难 以全面、准确地罗列自己感兴趣的栏目或关键词,从而导致用户模型不够准确: 其二,当用户兴趣发生变化时,用户必须重新输入用户模型。 2 示例用户建模 由用户提供与自己兴趣相关的示例及其类别属性来建立用户模型。由于用户 对自己的兴趣和偏好等最有发言权,因而用户提供的有关自己兴趣的示例最能集 中、准确地反映用户的兴趣和偏好等特点。示例一般通过要求用户在浏览过程中 对一浏览过的页面标注感兴趣、不感兴趣或者感兴趣的程度来得到。浏览过的页 面及相应的标注成为用户建模的示例,从示例中抽取关键词并计算其出现在正, 反例比例中的概率构成用户模型。加州大学i r v i n e 分校于1 9 9 6 年推出的个性化 推荐智能体s y s k i l l & w e b e r t 就采用了示例建模的方法。 示例建模要求用户反馈自己对推荐资源的评价,给用户造成了一定的干扰, 很少有用户愿意向系统主动表达自己的喜好,因此很难收到实效。 3 自动用户建模 因为用户的很多动作都能体现用户的喜好,比如:用户保存某页面、标记书 签、拖动滚动条等。所以,比较实际的做法是跟踪用户的行为自动构建用户模型。 例如,卡内基梅隆大学的p e r s o n a lw e bw a t c h e r 、德国国家研究中心的e l f i 、 麻省理工学院的l e t i z i a 等都采用了自动用户建模方法。 这种自动用户建模方法实际上是改进了示例用户建模方法中的示例获取途 径,将其转化为无需用户标注的自动示例获取方法。这种方法虽然实现简单,但 容易引入噪声,不利于构建高质量的用户模型。 还可以对用户浏览的页面进行聚类,得到用户感兴趣的主题,从而实现自动 8 中南大学硕士学位论文 第二章个性化服务现状及描述 用户建模。此外,对用户访问日志进行挖掘也是一条实现自动用户建模的途径。 通过日志挖掘可以发现用户的访闯摸式、购买习惯等用户特点,既而构建用户模 型。 总的说来,自动用户建模由于无需用户主动提供信息,因而不会造成对用户 的于扰,有利于提高个性化服务系统的易用性,促进个性化服务的发展用户模型 通常表示为一个用户描述文件( u s e rp r o f i l e ) ,是一种面向算法的、具有特定数 据结构的、形式化的用户描述。用户的描述和资源的描述密切相关,一般的做法 是用同样的机制来表达用户和资源,具体的方法将在信息资源的描述和组织部分 详细论述。 为了跟踪用户兴趣的变化,用户模型需要相应地进行调整,可以允许用户主 动更新,也可以由系统自适应地修改。系统要自适应地修改用户模型,可以收集 用户对系统向其推荐资源的反馈( f e e d b a c k ) 信息进行学习。用户兴趣的学习过 程,实质上是一个机器学习( m a c h i n el e a r n i n g ) 的过程,各种机器学习方法成为 有望解决这一问题的途径。例如,文献1 2 4 采用了b p 神经网络来学习用户的兴趣。 文献唧j 对著名的神经网络学习法贝l j d e l t a 法则进行了改进和扩展,得到了一种用 户p r o f i l e 学习算法。美国麻省理工学院媒体实验室曾根据用户的反馈信息,使 用遗传算法产生新的p r o f i l e s ,探索用户可能感兴趣的新领域。文献阅中,根 据用户的反馈调整模型的权重,使用的主要是基于强化学习的渐变式方法。 2 3 2 信息资源的描述和组织 个性化主动信息服务系统应用的领域决定了它所处理的资源。目前,个性化 主动信息服务系统处理的资源有w e b 页、超链接、w e b 访问日志 2 6 1 、b o o k m a r k 和 相关文档、搜索引擎返回的查询结果等等,这些资源都属于文本范畴对文本资源 的描述可以用基于内容的方法和基于分类的方法来表示。 1 基于内容的方法 从资源本身抽取能表达其内容的特征来表示资源。目前最常用的是向量空间 模型( v e c t o rs p a c e - t o d e l ) ,基本思想是:将文档看成由其中的词及其在该文档 中的出现频率组成的无序序列,即用词及其权重的集合来表示一个文档。建立向 量空间模型,首先要提取文档特征,要达到两个目标:一是选取最好的词;二是 选取的词最少。其次,要计算每个特征的权值。特征提取的方法目前有:通过计 算信息增益( i n f o r m a t i o ng a i n ) 、互信息( m u t u a li n f o r m a t i o n ) 、期望信息增益 ( e x p e c t e di n f o r m a t i o n6 a i n ) 等方法。每个特征的权值计算,使用最广泛的是 t f i d f 方法向量空间模型的缺点是内容过滤时必须精确匹配文档,很难获得满意 的结果。 9 中南大学硕士学位论文第二章个性化服务现状及描述 2 基于分类的方法对文档资源进行分类,利用类别来表示资源。 文本分类的方法有多种,比如:朴素贝叶斯( n a i v e - b a y e s ) ,k 最近邻方法( k n n ) 和支持向量机( s v m ) 等文献【27 l 中,采用n a i v e - b a y e s 方法建立了一个领域分类模 型,然后计算所有文档和用户兴趣在这个分类模型中的概率分布,用概率分布来 表达文档和用户兴趣。实验表明,概率模型比向量空间模型更好地表达了文档的 特征和用户兴趣。 2 3 3 个性化信息推荐机制 个性化信息推荐机制主要有基于规则的推荐、信息过滤和信息分流。其中信 息过滤又具体分为基于内容过滤( c o n t e n t b a s e df i l t e r i n g ) 、协作过滤 ( c o l l a b o r a t i v ef i l t e r i n g ) 和混合过滤。下面从实现的角度分析这几种技术。 1 基于规则的推荐 是指根据事先生成的规则向用户推荐信息的方式,比如事先生成的适合于某 用户的购买规则是“如果购买了牛奶,就会同时购买面包”,那么当用户再次浏 览牛奶相关的商品时,网站可以同时向用户推荐与面包相关的信息。基于规则的 推荐方式较多地应用于电子商务网站,根据用户浏览和购买的日志生成规则,向 用户推荐感兴趣的商品。基于规则的系统其优点是简单、直接,缺点是规则质量 很难保证,而且不能动态更新,此外,随着规则的数量增多,系统将变得越来越 难以管理。 2 基于内容过滤的推荐 利用信息资源与用户之间的相似性来过滤信息,使用同一特征空间( 如 k e y w o r dv e c t o rs p a c e ) 来表示用户兴趣和所有信息资源,把符合用户兴趣的新 的资源推荐给用户。由于基于内容的推荐需要进行匹配计算,因而较多地应用于 可计算的文本领域,如浏览页面的推荐、新闻组中的新闻推荐等。其优点是简单 有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣 的资源,只能发现与用户已有兴趣相似的资源。 3 基于协作过滤的推荐 是迄今为止最成功的个性化推荐技术,被应用到很多领域。它利用用户和用 户之间的兴趣相似性来过滤信息,把和用户兴趣相似的其他用户的意见提供给特 定用户,其关键问题是用户聚类。协作过滤实质上是现实生活中经常采用的推荐 方式,如两个兴趣相近的朋友相互推荐爱听的音乐、爱看的书等。协作过滤并不 比较资源与用户模型的相似性,而是通过比较用户之间的相似性来推荐信息。因 此无需考虑资源的表示形式,把用户对资源的评分向量作为用户兴趣的表示形式 即可实现。由于协作过滤不依赖于待推荐资源的内容,因而不仅适于可计算的文 l o 中南大学硕士学位论文 第二章个性化服务现状及描述 本领域,还可以广泛应用于其他领域,如音乐、电影、书等。其优点是能为用户 发现新的感兴趣的资源,缺点是要求用户对资源做出评价,而且在实践中存在两 个很难解决的问题:一个是数据稀疏性,即用户评价过的资源相对于所有资源项 来说是极其少的,在计算用户兴趣相似度时,许多用户对资源的评价没有交集, 造成推荐质量不高;另一个是系统的可扩展性差,用户聚类算法的计算量随着用 户和资源数目的增长成非线性增加,所以对于大数据量,协同过滤算法的可扩展 性不甚理想。随着系统规模的扩大,它的效能逐渐降低。 4 基于混合过滤的推荐 是指既通过比较资源与各个用户模型的相似度进行基于内容的推荐,又通过 相近兴趣的用户群进行协作过滤的一种推荐方式。由于混合推荐可以发挥两种推 荐方法的优点,抵消两种推荐方法的缺点,因而具有更好的推荐性能。文献m 提 出了一种基于聚类的协同过滤和基于内容过滤相结合的个性化推荐算法,利用矩 阵聚类算法,对原始“用户一资源”评分矩阵进行划分,再利用划分后的子矩阵 进行协同过滤生成推荐结果。同时在用户对资源的评价数目特别少的情况下,结 合基于内容过滤的方法实现个性化推荐。实验表明,该算法优于传统协同过滤算 法。文献嘲设计了一个推荐系统模型,把产品信息、用户信息和交易信息映射 到一个双层图形中,综合运用基于内容的过滤和协作过滤算法计算对象之问的相 关性,作为系统参数。该模型把推荐活动转化为图的搜索任务。测试结果表明, 这种混合过滤方法使查准率和查全率都有所提高。 5 信息分流 是指在过滤系统为多个用户进行信息过滤服务时,将具有相同或相似信息需 求的用户合理地组织在一起,使他们公共信息部分得到最大限度的体现,依据这 些需求,将信息进行分流,达到提高效率的目的。 上述推荐技术中,应用最广泛的是信息过滤技术,尤其混合过滤实现了基于 内容的过滤和协作过滤的优势互补,越来越受到研究者的重视。但是信息过滤技 术比较注重于对单个用户的推荐效果,而缺乏从宏观上对如何提高整个推荐系统 性能的考虑。信息,分流机制足关系到整个系统效率的核心问题,但目前还没有 得到充分地关注。 2 3 4 个性化系统性能评估 n s f 组织的数字图书馆个性化专题研讨会的报告中指出,目前还没有一形成 针对个性化系统的严格的评估体系和广泛适用的评估方法 2 9 1 。往往借鉴其它领 域的评估方法。大多数个性化系统都设计一个试验系统,采用信息检索领域广泛 使用的查准率( p r e c i s i o n ) 和查全率( r e c a l l ) 来评价试验结果试验采用的数据集 中南大学硕士学位论文 第二章个性化服务现状及描述 也各不相同,不具有代表性,例如,文献【2 刀的数据集来自i n s p e c 科学文摘数据 库,文献【2 司采用b 上免费可得的电影数据库测试推荐算法的性能,文献捌使 用一个在线中文图书商店的数据库作为测试领域,还引入了机器学习领域常用于 评估分类器预测准确率的预留法( h o l d o u t ) 测试系统的查准率和查全率。 2 3 5 个性化系统的安全问题 个性化服务系统为了更好的满足用户的个性化需求,需要用户提供很多的个 人信息,而这些个人信息往往涉及到用户的隐私,所以,个性化系统的用户信息 安全问题尤为重要。现有大部分个性化服务系统都忽略了如何保护用户的隐私。 为了规范w e b 用户信息的保密性,w 3 c 成立了p 3 p 工作组来锯决这个问题,但还不 够成熟个性化服务技术要获得实际应用,必须提出一个有效的保护用户隐私的机 制,只有保障系统的安全,才能顺利实现个性化服务。 2 4 科技查新个性化信息服务的平台及内容 2 4 1 个性化服务的平台 在科技查新站中,一般都建立了一系列国内外文献数据库。这些布局使科技 查新工作置身于全新的环境中,突破了地理空间对信息传播的限制,极大的扩宽 了信息的交流范围并实现了瞬时交流,为用户的科研提供了广泛的信息基础。 网络信息资源优势也越来越得到特别是各种网络数据库的使用,更使查新工 作受益。一些世界著名的检索工具如美国的化学文摘c a 、美国工程索引e i 、科 学引文s c i 、国际科技会议文摘数据库i s t p ,而k l u w e ra c a d e m i cp u b l i s h e r 出 版的k l u w e ro i ll i n e ;e l s e r v i e rs c i e n c e 公司出版的s c i e n c ed i r e c to n c i t e , 我国出版的清华同方数据库系统,超星图书馆等全文数据库。为科技查新工作提 供了巨大的信息支撵平台。使科技查新工作能够更好,更准确。同时,网络信息 资源“海量”和“无序”的特点,又使它在检索、获取、处理和利用上与其他载 体的信息资源相比具有很大的差异,令查新人员很难在短暂的时间里准确的获取 所需要的信息。因此,在网络环境下,研究信息资源的特点,分析网络信息资源 存在的问题,制定相应的对策,就成了新形式下查新工作的新课题。 查新工作在原来手工检索的基础上迈向了网络化,建立统一检索平台,以及 加快查新工作网络化进程。科技查新的建设首先要树立用户中心,设计最能为用 户理解和掌握的用户界面,选择各种适用的技术,让用户能够满足最大的需求。 网页的美工设计、栏目的内容设计以及有关数据库的链接都是至关重要的。 查新工作站拥有一批掌握现代信息技术的查新专业人员,他们既了解文献信 中南大学硕士学位论文第二章个性化服务现状及描述 息,又熟悉计算机网络技术,由于工作性质本身就是与文献信息、数字资源、检 索方法打交道,积累了丰富的经验。尤其在国外数据库( 如c a 、e i 等) 查新检 索过程中具有优势,可为用户查新检索提供更加准确的科技查新报告。 在网络环境下,查新员如何更好的以个性化的方式为用户提供服务,是一个 新课题,查新工作有必要与用户进行适时的网上交流。因此,营造良好的网络环 境,将查新工作站网上服务引入用户的桌面,成为相互交流的一个方向。随着数 字资源的大量引入,怎样提高查全率、查准率,提高查新效率以及如何解决查全 率和查准率这一矛盾将面临这巨大的挑战。因此,查新机构在选择检索方法时, 应当根据查新委托人对检索的要求、查新项目所属学科特点和查新机构自身的检 索条件等具体情况来确定,但应当以机检方法为主、手检方法为辅。 查新员作为查新检索的智能代理,必须在海量的信息资源中检索到有价值的 信息颇费周折,通过查新工作,利用图书馆丰富的资源和自身的优势为用户获取 有用的文献信息资源并提供有利的智能中介服务。从用户需求出发,筛选,整理 网上杂乱无章的信息。 在良好的网络环境下,查新员可以增加一项新的业务工作,就是负责管理用 户已查的资源,在以后的环境中,不需要再为其他的用户在各文献数据库中查找 以往的信息资源,只需要对以后的信息资源进行分析对比。这样,既可以节省时 伺,又能提高准确性。 2 4 2 个性化服务的内容 个性化服务最终的目的是将用户所需的信息快捷而顺利地提供给用户。而在 这个服务系统中,服务内容是至关重要的。个性化信息服务内容至少包括个性化 内容定制服务、营造个性化信息检索环境、开展个性化界面制定服务和个性化信 息推荐服务四个方面。 1 个性化内容定制服务 个性化内容定制服务是有效获取用户需求信息的途径之一。它通过获取用户 个性化信息,从而能够充分理解用户的需求,为用户提供更为准确的信息服务, 提高用户的满意度。同时通过与用户的直接或间接的沟通,更能融洽与用户的关 系。 在个性化内容定制服务中,用户可以根据自已的兴趣和需求定制信息。其定 制的内容有信息资源、界面和服务等等。在数字图书馆中,通常提供数据库资源、 电子期刊、电子图书、机关网站、学科导航、搜索引擎等给用户选择定制。 2 营造个性化信息检索环境 用户的个性化行为贯穿于用户信息检索与利用的始终。用户在从事信息检索 中南大学硕士学位论文第二章个性化服务现状及描述 的过程中,由于受检索信息资源的时空限制,会选择不同的检索途径,运用不同 的逻辑表达式,制定不同的检索策略,乃至不同的选取原则和排序方法。这些都 表现出用户检索的个性化特征。因此,在设置检索方案,选择搜索引擎,定制检 索途径,提供检索线索时,必须充分支持用户在检索策略、检索方法和检索结果 选择处理中的个性化要求。在个人检索模板定制上,用户可根据个人需要的信息 的专业( 用分类号或主题词、关键词确认) 、应用目的、深度、语言、地域、数 量、时域等进行定制。必须深入到文献资源、信息资源的内部,分析出能表达 其内容的多个知识点,使之单元化和个性化,将其确定为具有鲜明特色并含有 动态生成能力的检索标示。从丽为现代用户打造能够满足个性化检索与服务要求 的信息环境,构建能够充分展示用户个性化的检索平台,提高用户进行信息检索 与利用的效率。 3 开展个性化界面制定服务 个性化界面制定是让用户根据自已的爱好选择桌面的显示方式。包括界面的 结构布局、显示颜色图案和显示内容的排列方式等。例如在一些网站中,用户可 以根据自已的个性需求,设定“我的主页”“我的个人档案”等等,这类服务都 是个性化界面制定服务。 4 个性化信息推荐服务 通过网络资源,了解用户的需求和兴趣,为用户提供个性化的信息推荐服务, 这是网络服务的_ 个发展方向。 以上四种服务主要表现在:服务时空的个性化,在用户希望的时间和希望的 地点得到服务;服务方式的个性化,能根据用户个人爱好或特点来开展服务;服 务内容的个性化,所提供的服务不再是千篇一律,而是各取所需,各得其所。个 性亿信息服务首先应能够满足用户的个体信息需求,即根据用户提出的明确要求 提供信息服务,或通过对用户个性、使用习惯的分析而主动地向用户提供信息服 务。其次,个性化信息服务应该是一种培养个性、引导需求的服务,帮助个体培 养个性、发
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师招聘之《小学教师招聘》过关检测及完整答案详解【网校专用】
- 2025年教师招聘之《小学教师招聘》考前冲刺测试卷附参考答案详解ab卷
- 建筑工程勘察方案(3篇)
- 家具工程实施方案(3篇)
- 教师招聘之《小学教师招聘》综合提升试卷附答案详解【考试直接用】
- 2025年武器、弹药及其零件合作协议书
- 动物主题公园创新创业项目商业计划书
- 金融中介服务创新创业项目商业计划书
- 智能家居设备安全漏洞检测平台创新创业项目商业计划书
- 物联网网关创新创业项目商业计划书
- 脑疝的观察与护理
- 腹腔热灌注护理课件
- 宣传思想文化试题及答案
- 消防装备维护保养课件
- 乡村调解员课件
- 2025初中语文新教材培训
- 体重管理宣教课件
- 美术培训学期课件
- 厂房居间协议书范本
- 市场摆渡车管理制度
- 联想集团绩效管理制度
评论
0/150
提交评论