数据挖掘技术论文网络服务构建论文.doc_第1页
数据挖掘技术论文网络服务构建论文.doc_第2页
数据挖掘技术论文网络服务构建论文.doc_第3页
数据挖掘技术论文网络服务构建论文.doc_第4页
数据挖掘技术论文网络服务构建论文.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术论文网络服务构建论文数据挖掘技术现代网络服务系统构建研究摘要:针对当前网络服务构建过程中出现的问题,提出了基于数据挖掘技术的网络服务系统模型,提出了系统的功能,达到根据用户当面访问行为,分析用户模式,动态为用户推荐页面,具有一定的应用价值。关键词:数据挖掘;网络服务;数据预处理;关联规则1 绪论近年来,随着Internet技术和Web网络服务技术的迅速发展,网络已经成为一个巨大的、全球性的信息服务中心。随着网络服务信息量的迅速增长,传统的客户页面访问模式已经不适应客户的要求。针对这些问题,很多大型的网络服务提供商推出了个性化网络服务方式,提供不同服务策略和服务内容的服务模式,提前收集网络用户信息,分析用户行为和兴趣等,进而提供满足用户需求的网络服务。在现代网络服务构建过程中,往往面临网络服务数据量过大,用户信息收集困难等问题,解决这些问题的最有效的方法就是将数据挖掘技术应用到现代网络服务构建中。通过数据的有效挖掘,可以更好的了解用户兴趣,分析用户的访问模式,根据用户的个性需求,为用户实时提供推荐页面。2 基于数据挖掘的现代网络服务系统结构及功能2.1系统结构进行Web数据挖掘的研究主要是为了将知识发现的结果应用到实际中,为科学决策提供支持。因此将Web数据挖掘运行在网络服务系统的用户数据库和数据仓库之上,根据Web数据挖掘个性化服务系统的作用及Web数据完决的一般流程,可创建一种基于数据挖掘的现代网络服务系统框架,如图1所示。该系统模型是基于关联规则挖掘思想,通过预处理获得的用户事物数据,采用改进后的频繁模式挖掘算法,发现用户的频繁访问路径,然后根据用户当前请求的页面,寻找匹配的模式,从而预测用户下一步要访问的页面,动态的提供页面的链接,使用户能够方便、快捷地找到自己所需要的内容。2.2系统功能现代网络服务系统信息收集部分可获取用户访问站点的所有信息,根据用户访问信息完成完挖掘操作。然后当用户再访问站点时,网站从挖掘模型进行调整,用户访问的将是调整后的新服务页面,网络服务运行的整个周期中,此过程不断反复运行。图1可以得出整个服务过程基本符合数据挖掘的一般过程,整个系统的运行由网络管理者通过与用户交互进行控制,整个系统功能可以分为以下三个方面:(1)数据准备阶段。数据准备模块是该模型的基础阶段,主要包括数据采集和数据预处理两个处理流程,具体如图2所示:数据采集阶段首先将访问数据读入到关系数据库中,然后对数据进行预处理,转换为适合数据挖掘的可靠数据。将服务器上的日志文件中无用和无关的数据进行清理和合并后进行用户识别和会话识别。数据预处理操作是进行挖掘的关键问题,数据准备阶段是整个系统的基础。(2)事务挖掘模块。事务挖掘模块是整个系统的核心部分,面向用户及Web站点的服务方,她可以根据用户的需求通过传递参数的方式,调用相应的模式挖掘算法,对前面得到的事务数据库进行挖掘,分析用户的浏览兴趣。在进行模式挖掘时可采用的算法包括关联规则挖掘算法,用户聚类挖掘算法、用户分类挖掘算法以及序列模式挖掘算法等。本系统主要采用关联规则挖掘技术,挖掘用户事务中的强关联规则,并通过频繁访问模式挖掘算法挖掘用户频繁访问路径。该方法比较适合于站点访问用户比较多,新用户比较少的站点中,具有快速、准确的特点。因此在挖掘模块中要解决信息、规则库动态更新的问题,为用户提供更好的、动态的现代网络服务系统。(3)实时监控模块。实时监控模块对用户的访问行为进行监视,对用户下一步的操作行为进行在线预测。主要根据用户当前操作比对模式库,分析得出用户的使用模式信息,动态调整站点的显示内容和显示方式,将生成的推荐页面集合预送给用户,为用户提供个性化服务。监控模块的调整实现方式主要有:分析预测用户感兴趣的页面,增加链接的方式将这些页面的连接推荐给用户,调整站点结构以尽量缩短用户的访问路径,将浏览的路径以明显的形式提示用户。对用户使用模式的分析结果是网站结构进行再调整的重要依据,根据用户访问兴趣,调整网站现有的网页链接关系,有助于提高用户的访问效率。3 关联规则在现代网络服务系统中的应用3.1频繁访问模式挖掘通过Apriori算法及其改进算法可以挖掘出数据库中的关联规则,但其挖掘对象主要是针对数据库中的无序数据。而在通过Web数据挖掘发现用户频繁访问模式时,挖掘对象是用户有序的页面访问路径,页面之间顺序不能颠倒,因此在进行频繁访问模式挖掘时和以往的挖掘算法有所区别。在Web数据预处理的基础之上已经生成了用户事务集合,通过最大向前引用路径方法识别的用户事务其实就是一个MFP。频繁遍历路径是指包含在MFP集合中满足一定支持度的连续页面序列。频繁遍历路径通常也称为频繁访问模式,而发现频繁访问模式的过程就是发现频繁遍历路径的过程。长度为k的MFP称为k-项集,也称为k-引用,而包含k-引用的MFP占所有MFP的比例如果大于事先设置最小支持度minsup,则称k-引用为频繁k-引用。3.2关联规则应用在现代网络服务构建中,对挖掘出来的关联规则,一般可以采用最长匹配选择法,在规则集中选择关联规则时,尽可能匹配长度最长的关联规则。如规则1为A,B,BD,规则2为B,CE,规则3为CF,按照最长匹配原则,则选择规则3,把D最为预测的结果,有时也可以基于项集支持度进行选择,但最长匹配选择法预测的页面更接近用户的访问兴趣,通常人们采用该方法进行项测推荐。另外,可将挖掘出来的用户频繁访问路径作为模式库,根据识别的当前用户操作对比模式库,找出侯选匹配的模式,并进行筛选,可得到最终的推荐集。推荐集中的页面是用户可能会联系当问的集合,这些页面推送到用户浏览器的缓存中。用户频繁访问路径置信度越高,则沿该路径浏览的概率就越大。本系统是基于事务划分的页面推荐方法进行推荐。方法的思想是在通过频繁遍步路径挖掘算法处理后得到了用户频繁访问路径集合,将前面生成的用户事务集合中的每一个事务T,利用给出的最长匹配选择法对事务T和用户频繁访问路径集合中的项进行比较,从而获得对应的规则集,将规则集中所有规则的后项作为推荐页面存入到页面推荐集合中,最后可由服务器端的程序将页面推荐集合整理后以合适的方式向客户端浏览器发出推荐页面列表。在用户访问的窗口中,除显示用户当前访问的页面外,还可显示被推荐页面的主题,点击后,即链接到对应页面。4 结语本文针对当前现代网络服务构建中存在的问题,提出了基于数据挖掘技术构建现代网络服务系统,提出系统的结构及其功能,在传统挖掘算法基础上提出在网络服务环境中进行频繁访问模式挖掘算法,该方法速度快,效率高,具有一定的实际应用价值。参考文献1 陈敏,苗夺谦.一种基于Close模式发现用户频繁访问路径的方法J.计算机工程,2007,33(8):14-162 陈耿等.关联规则挖掘中若干关键技术研究J.计算机研究与发展,2005,42(10):1785-17893 Xin Jin,Yanzan Zhou,Banshed Mobasher:A maximum entropy web recommendation system:combining collaborative and content featurea.KDD 2005:612-6174 Mobsher B,Dai H.Effect

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论