(计算机应用技术专业论文)基于xml的个性化信息服务.pdf_第1页
(计算机应用技术专业论文)基于xml的个性化信息服务.pdf_第2页
(计算机应用技术专业论文)基于xml的个性化信息服务.pdf_第3页
(计算机应用技术专业论文)基于xml的个性化信息服务.pdf_第4页
(计算机应用技术专业论文)基于xml的个性化信息服务.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着i n t e r a c t 上信息的急剧增长,传统的信息服务方式己不能满足人们的需要,个 性化信息服务成为是前的研究热点。本文在讨论各种现有用户建模技术及相应的个性化 信息推荐方式的基础上,给出一种新型的综合用户建模方法。该方法充分发挥各种建模 技术的优点;并且随着用户访问时间的积累,能动态的调整用户模型;在此基础上根据 用户模型建立综合的个性化推荐模式。提供更加有效的信息服务。我们设计的实验网站 为科技论文网站,提供计算机领域四个研究方向的论文,论文内容以x m l 格式存储, 以充分发挥x m l 网页的结构化和语义功能。把我们给出的综合用户建模技术和信息推 荐技术应用于该实验网站,形成了个性化信息服务机制,有效的提高了个性化信息服务 水平。 关键词: 个性化信息服务;用户建模;个性化推荐;x m l a b s t r a c t w i t ht h er a p i d l yi n c r e a s i n gi n f o r m a t i o no ni n t e r n e t , t r a d i t i o n a li n f o r m a t i o ns e r v i c ec a n n o ts a t i s f yc u s t o m e r sa n ym o r e t h i sp a p e rd i s c u s s e sc u r r e n tu s e rm o d e l i n gt e c h n i q u e sm a d t h ea b i l i t yo f c o r r e s p o n d i n gp e r s o n a l i z e dr e c o m m e n d a t i o n i tp u t sf o r w a r dan e w e o m p o s i t i v e u s e rm o d e lt od e v e l o pt h e s em o d e l s a d v a n t a g e s o u ru s e rm o d e li sm o d i f i e da u t o m a t i c a l l y a c c o r d i n gt ou s e r s v i s i t i n gb e h a v i o r s ;t h e r e f o r et h es e r v i c e st h ep e r s o n a l i z e dr e c o m m e n d a t i o n a p p l i e da r en l o r ea n dm o d ee f f e c t i v e ,o u rt e s tw e b s i t ei s t op r o v i d ee s s a y so i lc o m p u t e r s c i e n c ed o m a i n t h ee s s a y s c o n t e n t sa r em e m o r i z e di nx m lf o r m a tf o ri t sg o o ds e m a n t i c f u n c t i o n sa n de x c e l l e n tc o n s t r u c t i o n s w ep u to u rc o m p o s i t i v eu s e rm o d e la n dp e r s o n a l i z e d r e c o m m e n d a t i o nt e c h n o l o g i e si n t ot h et e s tw e b s i t et oc o n s t r u c tap e r s o n a l i z e ds e r v i c es y s t e m e x p e r i m e n tr e s u l t si n d i c a t et h a ti ti m p r o v e st h ep e r s o n a l i z e ds e r v i c ee f f e c t i v e l y k e y w o r d s :p e r s o n a l i z e ds e r v i c e ;u s e rm o d e l i n g ;p e r s o n a l i z e dr e c o m m e n d a t i o n ;x m l i i 河北大学 学位论文原创性声明 本人郑重声明: 所里交的学位论文,是本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知, 除了文中特别加以标注和致谢的地方外,论文中不包含其它 人已经发表或撰写的研究成果,也不包含为获得河北大学或其它教育机构的学位或证书 所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了致谢。 l 一 作者签名:垄丝日期:堂年l 月上日 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向国 家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公布 论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存论文。 本学位论文属于 1 、保密口,在年月日解密后适用本授权声明。 2 、不保密口。 ( 请在以上相应方格内打“”) 作者签名:查当丝日期:型主年月上l 日 导师签名:盎互日期:堕年- 一l 月日 第1 章绪论 1 1 个性化信息服务的起源 第1 章绪论 个性化服务是指针对不同用户提供不同的服务策略和内容的服务模式。与不区分用 户的普通服务模式相比,个性化服务显然具有更高的服务质量。实际上,个性化服务并 不是一个现在才有的新概念。古语所说的“因材施教”,就是教育领域中一种典型的个 性化服务。在大工业生产之前,个性化服务是一种司空见惯的服务模式,人们穿的衣服、 鞋子都是根据个人的特点专门定做的。生产力发展以后,为了提高生产效率,大量的产 品被标准化以利于批量生产,人们消费的东西不再是为某个人专门制备,而是很多用户 使用完全相同的产品。标准化和批量化的服务是以降低服务质量为代价的。随着物质产 品的日益丰富,个性化服务又重新受到人们的重视。 在数字信息技术高度发展的今天,个性化服务主要是指以提供个性化信息为主要方 式的个性化信息服务。 i n t e m e t 个性化信息服务是个性化信息服务在i n t e m e t 中的拓展,也是个性化信息服 务新的应用和发展领域。随着i n t e m e t 上信息的急剧增长,个性化信息服务( p e r s o n a l i z e d i n f o r m a t i o ns e r v i c e ) 将为用户提供有针对性的、高质量的信息服务。 自1 9 9 3 年以来,i n t e m e t 一直以惊人的速度发展,从最早仅仅连接美国的少数几所 大学和科研机构,到现在已经几乎触及世界的每个角落,接入i n t e m e t 的站点亦如雨后 春笋般地增长。中国官方新华社和半官方中国新闻社的报道引述中国互联网络信息中心 的资料显示,自从1 9 9 9 年中国网站可以开始登记以来,数目经历了大幅度的增长。到 2 0 0 3 年1 2 月3 1 日为止,中国网站实际数目为5 9 5 ,5 5 0 个,比较2 0 0 2 年同期增加了6 0 3 。 报告同时说,到2 0 0 3 年底,中国全国域名数目为1 ,1 8 7 ,3 8 0 个,比较2 0 0 2 年同期增加 了2 6 ,3 ( h t t p :n e w s 8 t h d o b b c c o u k c h i n e s e s i m p l o w n e w s i d _ 3 5 9 0 0 0 0 n e w s i d _ 3 5 9 3 3 0 0 3 5 9 3 3 6 1 s u n ) 。i n t e r a e t 已经成为全球最大、也最为方便快捷的数字图书馆。 然而与常规图书馆不同,i n t e m e t 是一个高度开放、异构、分布式的信息空间,没有 统一的管理,信息杂乱地散布在全球各个站点上,而且每天以极快的速度更新。i n t e m e t 河北大学工学硕士学位论文 的高度无序和不可管理性给信息的使用带来了极大的困难。 传统的i n t e r a c t 服务为用户使用i n t c m e t 资源提供了一些可行的途径。然而,相对于 巨大、无序的i n t e r n e t 信息空间,每个用户真正感兴趣的信息非常有限,仅仅是i n t o m e t 信息空间的沧海一粟。在传统i n t e m c t 服务模式下,为了找到真正感兴趣的信息,用户 要耗费大量的时间和精力。以搜索引擎为例,当用户输入关键词后,搜累引擎返回的结 果往往成千上万,其中包含大量与用户兴趣不相关、重复、甚至是过时的信息。由于每 个用户的兴趣不同,从中找出真正感兴趣的信息是一个既耗时又耗力的过程。而且, 由于每个用户感兴趣的信息不同,相应地其所关注的信息子空间就不尽相同。然而传统 i n t e m e t 服务没有考虑用户的差异,使得每个用户面对同样的信息空间。显然,传统的 “人找信息”的服务模式已经越来越难以适应迅速增长的i n t e m e t 信息资源,用户迫切 需要一种能够根据用户的特点自动组织和调整信息的服务模式,个性化信息服务应运而 生。 1 2 个性化信息服务形式 最早的个性化信息服务是以个性化导航、过滤和推荐的服务形式出现。 所谓个性化导航是指在用户访问i n t e m e t 的过程中进行前瞻搜索,找出用户感兴趣 的信息,提示用户下一步的浏览路径;个性化过滤则是指在用户访问i n t c r n c t 的过程中对 信息进行预处理,仅将用户感兴趣的信息呈现给用户;个性化推荐是指在用户访问 i n t e r a c t 的过程中对信息进行预处理,将用户感袋趣的信息推荐给用户,提示用户浏览。 不难发现,“导航”和“过滤”在实现技术和实现目的上与“推荐”是相似的,因而在 本文中我们将“导航”、“过滤”和“推荐”统称为推荐。 一些大型网站推出了以减少用户浏览负担、提高用户访问效率为置的的个性化信息 服务。由于这种个性化信息服务形式是网站提供并以提高网站易用性为目的,因而我们 称这种个性化信息服务形式为个性化站点。 随着i n t e m e t 中信息量的指数增长,m 融乱信息检索系统的检索效率日益受到关注。 为不同的用户提供有针对性的检索结果,也即个性化信息检索,成为种新的个性化信 为不同的用户提供有针对性的检索结果,也即个性化信息检索,成为一种新的个性化信 息服务形式。 第1 章绪论 1 3 个性化信息服务相关技术 i n t e r a c t 个性化信息服务的实现需要综合多种技术。首先,由于需要为不同的用户提 供有针对性的服务,因而需要获取用户的兴趣、习惯等用户信息,并对这些用户信息进 行描述,构建出反映用户特点的用户模型。这一过程也就是用户建模。其次,不同的 服务形式需要相应的支撑技术。如要实现个性化推荐,就需要相应的个性化推荐技术: 要实现综合推荐,还需要用户聚类技术,以发现具有相近兴趣的用户;要实现个性化网 站,就需要针对用户的数据挖掘技术和网站自适应技术。最后,为了在实现个性化信息 服务的同时保护用户的隐私,还需要相应的安全技术,以实现对用户隐私的保护。在 个性化信息服务的相关技术中,数据挖掘技术目前已经发展得较为成熟,已经被很多个 性化信息服务系统所采用。网站自适应技术从1 9 9 6 年开始就已经成为人工智能领域的 研究热点,其研究成果可以直接应用于个性化站点的实现中。保护用户隐私的安全技术 可以借鉴现有的很多安全机制。用户建模和个性化推荐是个性化信息服务特有的技术, 虽然取得一些研究成果,但仍有许多问题有待研究解决。 1 4 研究和发展动态 最近,很多供应商给他们的顾客提供个性化网络工具【1 划,这些工具给用户提供了很 多方便,使普通的消费者能够轻松的找到他们所希望的商品。个性化推荐系统根据目标 产品种类的不同具有不同的形式和功能。例如针对音乐和书籍的工具s a r w a r 4 1 ,通过分 析用户以往购书的情况,推荐合适的书籍。 1 9 9 7 年b a l b a n o v i c 和s h o h a m 提出了基于内容推荐和协作推荐的方法 5 1 ,1 9 9 9 年协 作推荐的方法被g o o d 、s c h a f e r 等人深化和发展 6 1 。每一个推荐方法都有各自的优缺点, 所以很多学者都尝试着融合多种方法,建立综合的推荐模式【7 】【8 l 。 1 5i n t e m e t 个性化信息服务技术的应用 近年来,涌现出很多基于个性化信息服务技术的商业软件系统。主要有个性化推荐 系统、个性化信息检索系统、个性化网站等等。 网络经济在某种意义上就是“眼球经济”,抓住了用户的“眼球”,才有盈利的可能。 - 3 - 问北大学工学硕士学位论文 l i i 薯i _ - 鼍_ _ _ _ 尊皇曼曼置量_ _ 皇_ 置_ 皇薯囊薯嘲皇墨蕾皇冒墨皇 退一步说,即使站点的生存不是靠站点本身获取的利润,用户的访问量仍然是衡量站点 生命力的主要标志。由于在网络环境中用户进入和退出站点都只是举手之劳,因而如果 网站不能吸引用户的注意力,用户便会在顷刻之间离开网站。因此吸引用户的注意力是 站点设计者追求的永恒目标。增强站点对用户的吸引力一方面可以通过提供更好的内 容来实现,另一方面也要为用户提供一个能方便快捷地浏览感兴趣信息的途径。后者对 于大型网站尤其重要。对于像y a h o o ! 、a o l 、m i c r o s o f t 、l y c o s 、c n n 等大型网站,其 中的信息包罗万象,而每个用户感兴趣的信息只是网站信息集合的一个很小的子集,这 就使得用户需要花费大量的时间和精力才能从中找到感兴趣的信息。事实上,网站的信 息是网站设计者按照自己的理解组织的,与用户的理解和需求或多或少地存在偏差,因 而用户沿着网站设计者组织的信息结构搜寻,往往难以找到所需的信息。用户难以迅速 地定位感兴趣的信息必然会降低用户对网站的满意度,进而降低网站的访问量。个性化 站点是指那些为不同用户提供相应内容和服务的网站。每个用户享受的都是站点为其专 门定制的内容和服务,这种个性化的服务无疑会提高用户的满意度,增强喇站的吸引力。 面对个性化站点提供的诱人前景和巨大商机,很多著名的网站都纷纷将站点个性化。 y a h o o ! 公司于1 9 9 6 年推出个性化入口m y y a h o o ! ,用户从成百上千的栏目中选择自己 感兴趣的模块,如新闻、股票价格、天气等,形成个性化y a h o o ! 页面。用户登录后, y a h o o ! 显示用户定制的个性化页面,方便用户快速浏览真正关注的信息。提供类似服 务的还有l y c o s 、c n n 等网站。此外,d u b l i n 大学还推出个性化电视网站p t v 。它通过 跟踪用户的浏览内容自动构建用户模型,为用户提供个性化的电视节目列表。对于近年 来兴起的电子商务站点而言,为用户提供方便快捷的商品查找途径显得更为重要。如果 用户寻找感兴趣或想购买的物品需要的时间太长,则用户极有可能放弃浏览或购买。反 之,如果网上商店能够为用户提供高效的服务,则不但会增加销售量、提高用户的忠诚 度,而且还能将潜在的客户转化为实际购买的客户,扩大客户群。 2 0 世纪9 0 年代后期,电子商务站点的个性化也受到了广泛的关注。电子商务网站 可以通过用户的浏览数据、购买记录和其它信息挖掘出用户的兴趣和偏好,向用户提供 个性化的购买页面、产品新闻、广告和促销等。目前,很多的电子商务网站都提供由用 户定制的个性化购买页面。 第1 章绪论 自自日皇篁 i e 自e e ! | 自目| 墨 1 6 研究内容和本文结构 本文主要研究以用户建模技术和个性化推荐技术为核心的个性化信息服务机制。通 过对现有的用户模型和个性化推荐技术的分析,提出了一种改进的综合建模方式以及相 应的推荐技术。本文主要有六个方面的内容。 第二章介绍了网页的格式分类,常见的网页是h t m l 格式,虽然应用广泛,但是具 有缺乏结构和语义的致命弱点。x m l 网页作为一种新的网页载体,是一种半结构的语 义丰富的标记语言。基于x m l 技术的个性化信息服务,较好的提高了服务的质量和效 果。 第三章介绍了用户访问信息的收集和处理。这一部分是用户建模的必备条件,也是 个性化服务的重要前提。用户在访问网站的时候,访问行为( 包括浏览次序、浏览时间、 是否保存等等) 反应了用户对页面的喜好程度,这是用户建模的重要依据。我们的网站 的主要目的是给用户推荐所需研究方向的科技论文,论文的分类矢量和用户的分类矢量 是相互参考,相互完善的关系。这是本文所提出的用户建模的特色之处。 第四章阐述了用户建模过程。用户建模是个性化信息服务的重要组成部分,从建模 方式上可以划分为用户手工定制建模、示例用户建模和自动用户建模。本文逐一分析了 各种建模技术的特点,在此基础上提出了一种综合的建模方法,改进了用户建模的性能。 第五章阐述了个性化推荐技术。个性化推荐技术是个性化信息服务的核心内容,根 据推荐内容的来源可以分为基于内容推荐、基于规则推荐和基于协作推荐。本文介绍了 各种个性化推荐技术的特点,改进了其中的规则推荐和协作推荐,进而建立了一种综合 的推荐体系,在增加推荐数量的同时,保证了用户对推荐网页的满意程度。 第六章阐述了基于自适应x m l 网页的个性化语义检索。这是个性化信息服务在搜 索引擎领域的应用,利用x m l 的良好结构和语义性能,大大提高了搜索引擎的查准率。 通过建立网页分类矢量,把个性化信息服务技术融入搜索引擎机制,滤除了具有同名属 性元素的不同研究方向论文,查全率和查准率都有了进一步的提高。 第七章是实验部分。我们建立了基于x m l 网页的实验网站,网站结构为树状结构, 叶子节点是具体的论文。如图1 6 论文网页示例,论文中包含题目、作者、摘要等信息。 附录中附有相应的x m l 和x s l 文件。 河北大学工学硕士学位论文 图1 6 论文网页示例 利用实验网站,我们记录了大量用户访问行为,服务器端的日志文档中也记录了大 量访问信息。我们按照不同的建模方式和个性化推荐方法不断的更新这些数据,通过比 较分析来评价这些用户模型和推荐方式的性能。 - 6 - 第2 章网页格式分类 第2 章网页格式分类 随着互联网的迅速发展,各类网站纷纷建立,而且越来越多。人们在享受了互联网 的方便和快捷的同时,也常常被淹没在无边无际的数据之中,往往找不到自己所需要的 信息。个性化网站技术结束了从前人找信息的模式,实现了信息找人的新型模式。但是 传统的h t m l 网页的数据和内容交融在一起,给数据的抽取和重建造成了很大的困难。 1 9 9 8 年由互联网协会( w 3 c ) 提出和设计的可扩展标记语言x m l 9 ,正在逐步成为新 一代w e b 数据描述和数据交换的标准。x m l 允许在一组结构化的元素集合内定义网页 所包含的数据,而这些元素能够表示那些数据的特征描述( 包括类别,范围,状态等) 。 x m l 通过样式页x s l 来显示其中的内容,因此x m l 中的信息是和显示分离的。 x m l 作为一种元标记语言被设计出来,从根本上解决了w e b 文档和其它资源描述 所面临的问题。 2 1h t m l 网页的不足 h t m l 网页在互联网的发展历程中有着重要的地位,可以显示丰富多彩的文字、图 片和动画,通过d h t m l 技术结合简单的客户端脚本几乎可以展现任何动态效果,h t m l 使互联网变得生动有趣。但是随着网页承载的数据量的不断扩大,h t m l 的缺陷越来越 明显的暴露出来。 首先,h t m l 虽然能够较好的显示数据( 几乎可以以任何方式) ,但是它不允许对已 经定义的元素的有限参数进行扩展“”。其次,h t m l 无法表示元素之间的相互关系,或者 说h t m l 无法表现关联数据库的关联和联系,因此f i t m l 中的数据都是散乱的,没有任何 层次结构关系。而且,h t m l 文档不提供结构的有效性检验。浏览器对于h t m l 网页采 用简单阅读并显示其内容,对于其结构的缺陷“视而不见”,这样作的好处是简化了编 辑网页的工作,但是对于信息定位和抽取带来了极大的困难。 如果网页采用通用的x m l 技术组建,便可以有效的解决以上问题。 河北大学工学硕士学位论文 2 2 x 匝的优势 2 2 1 舳简介 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 语言是由w 3 c 。定义的一种元标记语言,是 s g m l “”( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 的针对应用的一个子集。h t m l 和捌l 都派生自s g 眦,从技术上说,h t m l 仅仅是s g m l 用来描述w e b 页的一个应用。随着 i n t e r n e t 快速的发展,h t m l 的弊端日益明显。为此,w 3 c 建立了) ( m l 工作组( x w g ) 来 创建x m l 。) o v i l 包含3 个要素“:d t d ( d o c u m e n t t y p ed e f i n i t i o n ) 或x m l s c h e m a ( y d l 大纲) 、x s l ( e x t e n s i b l es t y l e s h e e tl a n g u a g e ,即可扩展样式语言) 和x l i n k ( e x t e n s i b l el i n kl a n g u a g e ,可扩展链接语言) 。d t d 和x m l 大纲规定了x m l 文 件的逻辑结构,定义了) m 心文件的元素、元素的属性以及元素和元素属性之间的关系; , n a m e s p a e e i l 2 】( 域名) 实现统一的x m l 文档数据表示以及数据的相互集成;x s l 用于 规定x m l 文档呈现的样式,这样使得数据与其表现形式相互独立;而x 1 i n k 将进一 步扩展目前w e b 上已有的简单链接。 2 2 2x m l 的语义灵活性 简单的说,h t m l 用来描述网页内容韵显示方式,x m l 用来描述数据的结构。x m l 用 灵活的语义来表示同样的节点,借阻区分节点间细微的差别。 示例1 :有一个班级的学生信息,我们可以轻松的通过语义表达反映他们的基本情 况。x m l 文档片段如下: 赵昆 赵昆 张强 李卫 第2 章网页格式分类 在一个综合大学里重名是很常见的现象。如果要寻找一个叫赵昆的女生,我们需要 在网页中搜索。在传统的h t m l 文档中根本无法区分哪一个赵昆是我们所要寻找的目标, 而x m l 文档中通过层次的嵌套和语义的说明就很容易的表示出来。 2 2 3 ) 0 v i l 具有层次结构 利用x m l 的层次结构我们很容易通过简单的查询获得准确的信息。例如我们要搜寻 赵昆老师的学生的信息,只要找到相应的老师节点即可,见示例1 的x m l 文档。 2 2 4x m l 文档具有标准性约束 在h t m l 网页中,浏览器简单的显示网页内容,这样的结果导致h t m l 网页缺乏统一 的标准,信息检索也就失去了依据。x m l 凭借d t d 或s c h e m a 来定义文档,约束其内容。 例如我们可以约束学生每个科目的成绩在0 到1 0 0 之间等,这样就使不符合要求的x m l 文档成为非法文档,从而有效避免检索大量垃圾文档。 示例2 :x m ls c h e m a 文档 2 3 网页存储结构 为了研究用户建模和个性化推荐技术的性能,我们建立了个性化提供论文网页的网 站系统。此系统通过分析用户提交的兴趣情况和系统的访问记录,构建用户模型,在用 户模型的基础上提供用户所需的论文网页,即个性化信息服务。 基于上述的x m l 网页的诸多优点,我们选择x m l 网页作为本网站的主要载体。存储 结构为:题目、作者、关键字、内容摘要、中图分类号等。( 详见附录示例文档:示例 河北大学工学硕士学位论文 i llp l ii l l ll e 田曹e ! ! ! 曹| j 目l 论文x m l ) 。 分类矢量是本论文的重要组成,表明了此页面( 论文) 的所属类别。我们的类别共 有四类,所以此矢量为四维单位矢量,分别表示对四个不同科目的隶属程度。分类矢量 是根据网页的内容形成的。 论文的入库过程是自动完成的。我们指定网页的来源( 某个合作网站,例如软件学报) , 程序通过给定的地址得到包含论文的最新网页。论文在网上主要有两种存储格式,一是 h t m l 的网页形式,二是p d f 等文件格式。对于前者我们直接返回网页中全体字符串, 通常的h t m l 网页中同时含有显示信息和数据信息,我们只对其中的论文,即数据信 息感兴趣,所以我们要通过既定的算法,滤掉页面的显示内容。对于文件格式存放的 论文,我们先下载该文件,然后通过专门的文本提取软件来提取论文内容。 专业论文是按照论文分类号严格区分的,例如t p 表示计算机科学技术,t p 3 1 表示 计算机软件等等,因此我们简单的利用论文分类号建立该论文的分类矢量。 我们的信息是以x m l 网页形式提供和维护的。因此,必须智能的检索出论文中的 题目、作者、关键字等特定内容,构造x m l 网页。在实践中我们主要是通过论文的标 准格式特点来完成的。 2 4 页面的显示为x s l 显示模式 为了显示x m l 文档,必须要有一个机制来描述如何显示文档。这些机制之一是c s s , 但是x s l ( 可扩展的样式表语言) 是x m l 的首选样式表语言,它要比h t m l 使用的 c s s 复杂得多。x s l 是w w w 协会推荐的一种标准。这种语言的前两部分在1 9 9 9 年 1 1 月已经成为w 3 c 推荐标准。2 0 0 0 年,包括x s l 格式化部分的完整x s l 推荐标准成 为w 3 c 的候选标准。 x s l 不仅仅是一个样式表,它包含3 个部分:一个转换x m l 文档的方法、一个定 义x m l 部分和模式的方法和一个格式化x m l 文档的方法。x s l 的功能为:x m l 转 换成h t m l 、过滤和分类x m l 数据、对x m l 文档的部分进行寻址以及基于数据值格 式化x m l 数据向不同设备( 如屏幕、纸或扬声器) 输出x m l 数据。 我们把论文网页通过x s l 还原成为规范的论文格式( 见附录l e a f x s l ) 。 第3 章用户访问页面信息的收集与处理 第3 章用户访问信息的收集与处理 在个性化信息服务系统的体系结构中,用户信息收集模块是个性化信息服务系统的 基础模块。用户访问i n t e r n e t 的过程产生以下六种信息: 用户输入搜索引擎的查询关键词。 用户浏览的页面。 用户的浏览行为,包括用户在每个页面上驻留的时间,对每个页面进行的操作( 如 选择喜欢的页面,保存、打印页面) ,对鼠标和键盘的操作等。 服务器日志。用户对网站的访问会被服务器记录下来,包括用户的i p 、访问时 间、用户所在的时区、访问的页面、页面的大小等信息。服务器日志可分为代理服务器 日志和网站服务器日志。代理服务器日志记录用户对所有网站的访问,网站服务器日志 只记录用户对某个网站的访问。 用户下载、保存的页面和资料等。 用户手工输入的其它信息。 3 1 收集内容 用户访问信息的收集和过滤过程1 3 】,是一个信息抽取和挖掘的过程,不同的系统根 据需要提取的内容不剐1 4 - 2 2 1 。 本系统收集的内容主要有用户i d 、用户名、用户密码、访问页面、发生时间、停留 时间、会话d 等。 3 1 1 用户i d = 用户口+ c o o k i e 用户i d 是用户的标识,我们通过两种方式来辨别用户。一是通过用户的i p ,由于 系统可以自动获取用户的评,所以采用i p 来标识用户给智能化处理带来了很大的方便。 用户不需要任何操作,只要登录服务系统就可以获得针对性很强的信息服务。但是,实 际上并非同一p 就是间一个用户。很多大型单位的m 是共用的,因此仅仅靠p 来判定 用户是不准确的。我们采用i p + c o o k i e 的方式来解决群体用户共用i p 的问题。c o o k i e - 1 l - 河北大学工学硕士学位论文 是存储在用户计算机上的小段文本,记录的内容是由服务器决定的,这样我们就可以把 用户的身份标识以密文的方式写入用户的c o o k i e 中,用户再次访问的时候,通过c o o k i e 的内容就可以获知用户的身份。 3 i 2 用户名+ 用户密码 有一些用户没有固定的计算机( 比如使用公用机房的大学生) ,这样一来,i p + c o o k i e 的方式就无法识别这些用户,个性化信息服务也就无从谈起。还有些群体用户不愿意开 放c o o k i e 功能。为了解决上述问题,我们开设了用户名+ 密码的服务方式。用户无论 在哪里上网,只要出示正确的用户名和密码,系统就能够辨别用户的身份,进而提供相 应的个性化信息服务。 3 1 3 访问页亟和发生时间 用户的访问页面是用户兴趣的重要标志,记录用户的访问时间和停留时间对于研究 用户的访问行为具有重要意义。 3 1 4 会话i d 用户对页面的访问次序表明了页面的相互关联关系,因此用户的访问顺序应该被记 录和研究。 a s p n e t 的s e s s i o n 技术提供有关当前请求会话的信息。为从a s p n e t 应用程序 请求页或文档的每个用户维护一个s e s s i o n 对象。当用户在应用程序中从一页移动到另 一页时,存储在s e s s i o n 对象中的变量不会被放弃;相反,只要用户在应用程序中访问 页,这些变量就将保持。 h t l p 是一个无状态的协议,这意味着它不会自动指示一个请求序列是否都来自相 同的客户端,甚至不指示单个浏览器实例是否仍活跃地查看某个页或站点。因此,如果 没有其它基础结构的帮助,要想生成需要维护某些跨请求状态信息的w e b 应用程序, 就可能会非常困难。a s p n e t 提供以下支持便于使用的会话状态功能,该功能是a s p 开发人员所熟悉的,与其它n e tf r a m e w o r ka p i 兼容。可靠的会话状态功能,可以 1 2 第3 章用户访问页面信息的收集与处理 经受得住i n t e m e t 信息服务( s ) 重新启动和辅助进程重新启动而不丢失会话数据。 可缩放的会话状态功能,该功能可用于网络场( 多计算机) 和网络园( 多进程) 两种情 况,使管理员可以将更多的处理器分配给w e b 应用程序以提高它的可缩放性。 每个活动的a s p n e t 会话都是使用1 2 0 位的s e s s i o n i d 字符串进行标识和跟踪 的,该字符串只包含u r l 中所允许使用的a s c i i 字符。s e s s i o n l d 值是使用保证唯一 性和随机性的算法生成的,其中保证唯一性的目的是确保会话不冲突,保证随机性的目 的是确保怀有恶意的用户不能使用新的s e s s i o n l d 来计算现有会话的s e s s i o n i d 。根据 配置应用程序设置的方式,通过 玎r r pc o o k i e 或嵌套有s e s s i o n i d 字符串的修改的 u i u 跨客户端服务器请求与s e s s i o n i d 字符串进行通信。 综上所述,我们采用会话( s e s s i o n ) 技术为当前用户会话提供信息,提供对可用于 存储信息的会话范围的缓存的访问,以及控制如何管理会话的方法。 3 2 会话的清洗 使用会话技术有效的记录了用户对页面的访问信息,但是这种信息的记录是粗糙 的,很多无用的信息( 例如图片、显示模式的加载) 由于也向服务器进行了提交要求, 所以也会以会话的形式被系统所记录,但是这些信息对于我们研究网页内容之间的关系 是没有意义的。实际上造成了我们对数据分析的干扰,成为噪音。所以必须使用必要的 算法清洗数据,滤除噪音。 3 3 抽取页面关联规则 按照s e s s i o n 中页面的次序,抽取频繁路径,建立页面的相互关联规则。 3 3 iw 曲数据挖掘技术的意义 随着i n t e r n e t 的飞速发展,网上的数据资源空前的丰富。但是数据资源中蕴涵的 知识却至今未能得到充分的挖掘和利用,数据丰富但知识贫乏的问题非常严重。例如商 业领域中,在日益激烈的电子商务买方市场竞争中,任何与消费者行为有关的信息对商 家来说都非常重要。 河北大学工学硕士学位论文 l 目_ _ _ _ _ _ _ i i i _ _ _ _ _ l _ _ - _ i _ 目前,大多数的用户从w e b 上获取信息的途径主要是通过搜索引擎或者通过救! i 览 w e b 页面,搜索引擎虽然部分的解决了资源发现的问题,但其精确度不高,不能为用户 提供结构化的信息,也不能提供文档分类、过滤等动能;而浏览w e b 页面在用户需要查 找、查全大量的资料时,基本不能提供资源发现的功能,显然,这两种信息检索手段都 不能满足用户的基本要求。 数据库领域采用了数据挖掘技术,以从大量数据的集合中发现有用的信息,但数据 挖掘绝大部分工作所涉及的是结构化数据库,很少有处理w e b 上的异质、非结构化信息 的工作。因此怎样从w e b 上大量的信息中有效的、快速的找出用户感兴趣的信息就成为 项重要而迫切的课题,人们也迫切需要这样一种能快速、有效地发现资源和知识的工 具。近年来兴起的数据挖掘( d a t am i n i n g ) 技术在w e b 上的应用,即w e b 数据挖掘技 术为解决这个问题带来了一线曙光。 3 3 2 关联规则挖掘 关联( a s s o c i a t i o n s ) 分析的目的是为了挖掘隐藏在数据间的相互关系,即对于给 定的一组项目和一个记录集,通过对记录集的分析,得出项目集中的项目之间的相关性。 我们网站的叶子之间的相关性用关联规则来描述,关联规则反映了一组叶子页面之 间的密切程度或关系。 令i = i 。,i 。,i 。) 是网页集合,d 是所有会话的集合。会话片断t 是i 上的一个 子集,集合t i ,每个会话用唯一的标志t i d 来标识。关联规则是形如x 等y 的蕴含式, 其中x c _ i ,y c _ i 且x n y = a ,x 称为规则的条件,y 称为规则的结果。 景信度和支持度 关联规则x j y 对事物集d 的支持度( s u p p o r t ,) 定义为d 中包含有会话x 和y 的 百分比。关联规则x j y 对会话集合d 的置信度( c o n f i d e n c e ) 定义为d 中包含有x 的 会话数与同时包含y 的百分比。即: s u p p o r t ( x y ) = ( 包含x 和y 的会话数会话总数) l o o c o n f i d e n c e ( x j y ) = ( 包含x 和y 的会话数包含x 的会话数) x 1 0 0 置信度和支持度均大于给定阈值( 即最小置信度阈值和最小支持度阙值) 。即: s u p p o r t ( x 辛y ) = m i n s u p 第3 章用户访问页面信息的收集与处理 c o n f i d e n c e ( x = = y ) 。m i n c o n f 的关联规则称为强规则;否则称为弱规则。 数据挖掘主要就是对强规则的挖掘。通过设置最小支持度和最小鬣信度可以了解某 些数据之间的关联程度。 关联规则挖掘即给定一组i t e m 和记录集合,挖掘出i t e m 间的相关性,使其置信度 和支持度分别大于用户给定的最小置信度和最小支持度。 在关联规则挖掘算法中,把项目的集合称为项集( i t e m s e t ) ,包含有k 个项目的项 集称为k 一项集。包含项集的事务数称为项集的出现频率,简称为项集的频率或支持度计 数。如果项集的出现频率大于或等于最小支持度s 与d 中事务总数的乘积,则称该项集 满足最小支持度s 。如果项集满足最小支持度,则称该项集为频繁项集( f r e q u e n t i t e m s e t ) 。 关联规则的挖掘主要被分解为下面两步: 第1 步:找出所有的频繁项集,即找出支持度大于或等于给定的最小支持度阈值的 所有项集。可以从i 到k 递归查找k 一频繁项集。 第2 步:由频繁项集产生强关联规则,即找出满足最小支持度和最小置信度的关联 规则。对给定的l ,如果其非空子集a c l ,s u p ( l ) 为l 的支持度,s u p ( a ) 为a 的支持度, 则产生形式为a j l - a 的规则。 3 3 3 网页关联规则挖掘的实现 实验网站中的叶子页面是系统准备提供给用户的论文,网页之间的相互关联规则体 现在论文被用户依次浏览的频繁程度。页面关联规则如下: p a g e a p a g e b s u p p o r t = 1 ,c o n f i d e n c e = 3 0 支持度为1 表示在所有的s e s s i o n 中包含p a g e a 和p a g e b 的s e s s i o n 占1 ;置信 度为3 0 意味着先访问p a g e a 再访问p a g e b 页面的s e s s i o n 占只访问p a g e a 的s e s s i o n 数量的3 0 。 在网页的会话访问集合中,按照用户的访问次序,页面排列有序。用户对该页面的 访问行为( 包括停留时间、喜好程度) 构成了此页面的相对于访问用户的页面重要度。 河北大学工学硕士学位论文 l i i i t _ _ l _ - - i _ - l _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ - _ _ _ _ - 自l 目l _ - _ _ _ _ _ _ _ _ _ _ l _ _ _ - _ _ 在关联挖掘的过程中不是所有的页面都参与计算的。这是因为,在用户访问网页的时候, 很多网页不是用户主观上想要访问的网页,而是为了访问其它网页不得不经过的过渡页 面。我们设置了页面重要度来检验页面的重要程度,通过设定合适的域值,过滤掉过渡 页面。然后按照既定的支持度和置信度建立网页之间的关联规则。 3 3 4 存储结构 在存储结构上,每个网页的关联网页保存成为链表形式。每个网页因为自身的内容 差异,所以可能拥有不同数量的关联网页,以链表形式存储较好的满足了这种差异的处 理需求。关联页面的建立和存储主要是为了基于规则的个性化推荐做准备。 第4 章用户建模 第4 章用户建模 个性化信息服务的形式多种多样,但无论何种形式,都需要首先建立对用户的描述, 然后才能据此提供针对不同用户的个性化信息服务,因此,用户模型是个性化信息服务 的基础和核心。 简单地说,用户建模就是从用户信息中构建用户模型。不过,仅仅是对用户兴趣的 准确描述还不能称为用户建模。作为以计算机平台为依托的个性化信息服务系统,可计 算性是它对用户模型的基本要求。也就是说,个性化信息服务系统中的用户模型不是对 用户个体的一般性描述,而是一种面向算法的、具有特定数据结构的、形式化的用户描 述。相应的,用户建模是指从有关用户兴趣和行为的信息( 如浏览内容、浏览行为、背 景知识等) 中归纳出可计算的用户模型的过程。 根据建模过程中用户的参与程度,用户建模技术可以分为用户手工定制建模、示例 用户建模和自动用户建模“。 0 1 用户手工定制建模 用户手工定制建模是指用户模型由用户自己手工输入或选择的用户建模方法,如用 户手工输入感兴趣信息的关键词列表,或者是选择感兴趣的栏目等。在个性化信息服务 发展的早期,用户手工定制建模是用户建模的主要方法。 用户手工定制建模方法实现简单,也具有较好的效果,但它存在以下三方面问题。 其一。完全依赖于用户,容易降低用户使用系统的积极性。 心理学研究表明,用户不愿意参与对系统的训练,即使用户知道对系统进行训练会 给自己带来好处。对用户而言,易用性是用户衡最服务质量的重要标准,任何一种服务, 不管其性能如何,只要享用这种服务需要用户付出很多努力,用户一般都会放弃这种服 务,除非别无选择。实验证明,很多用户根本不去定制自己感兴趣的栏目,而是接受系 统默认的配置作为自己的用户模型。 其二,即使用户乐意手工输入用户模型,用户也难以全面、准确地罗列自己感兴趣 的栏目或关键词,从而导致用户模型不够准确。 河北大学工学硕士学位论文 社会科学和自然科学的科目分类越来越细,如果引入的栏目太多,页面过长,会导 致用户厌烦。然而如果所列栏目太少,必然要求用户选择相似栏目,准确性就会大大降 低。 其三,当用户兴趣发生变化时,用户必须重新输入用户模型。 用户手工定制的用户模型是静态的,一旦用户定制完毕,该用户模型就不会发生任 何变化。这种静态的、一成不变的特点显然与用户兴趣固有的渐变特性不符合。经过的 时间越长,手工定制的用户模型与用户真实兴趣的差别就越大。当用户模型不能很好地 反映用户兴趣的时候,用户将不得不重新手工定制用户模型,这给用户带来了额外的负 担。 4 2 示例用户建模 示例用户建模是指由用户提供与自己兴趣相关的示例及其类别属性来建立用户模 型的建模方法。由于用户对自己的兴趣和偏好等最有发言权,因而用户提供的有关自己 兴趣的示例最能集中、准确地反映用户的兴趣和偏好等特点。示例一般通过要求用户在 浏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论