(计算机应用技术专业论文)基于xml的web日志挖掘研究.pdf_第1页
(计算机应用技术专业论文)基于xml的web日志挖掘研究.pdf_第2页
(计算机应用技术专业论文)基于xml的web日志挖掘研究.pdf_第3页
(计算机应用技术专业论文)基于xml的web日志挖掘研究.pdf_第4页
(计算机应用技术专业论文)基于xml的web日志挖掘研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(计算机应用技术专业论文)基于xml的web日志挖掘研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于x m l 的w e b 日志挖掘研究 摘要 w e b 日志挖掘的主要目标是从w e b 的访问记录中抽取感兴趣的模式,通过 分析这些挖掘结果可以帮助理解用户的行为,从而改进站点的结构或为用户提 供个性化的服务。 在w e b 数据挖掘领域中w e b 日志挖掘技术对于网站的结构优化和页面内容 的重新组合都起到了重要作用。目前检索w e b 的信息主要采用搜索引擎来完成, 但是大多数搜索引擎都缺少主动性,没有考虑访问用户的兴趣偏好和访问者的 不同,无法有效地解决信息迷失和信息过载的问题。而解决这个问题的途径之 一就是将数据挖掘技术应用于w e b 服务器日志的挖掘,通过日志挖掘,从用户 在w e b 网站上浏览行为的数据中获取用户的浏览模式。根据用户的行为模式, 改进网站的设计和服务,开展个性化服务和构建智能w e b 站点。 本论文详述了在研究个性化信息推荐服务中必须要着重解决的以下几个方 面的问题:w e b 日志的预处理、w e b 日志挖掘算法、个性化推荐方法。详细讨论 了w e b 日志挖掘预处理的各个步骤,并且给出了每一步的关键算法。w e b 日志 挖掘预处理过程主要包括:数据清理、用户识别、会话识别、路径补充和用户事 务模式识别。 本文分别以关联规则和聚类两种方式完成对用户的个性化服务,即为用户 提供推荐页面集。本论文提出一种改进的关联规则a p r i o r i 算法,该算法为关 联规则a p r i o r i 算法的改进,通过引入分辨矩阵实现只需扫描一次数据库,避 免不必要的多次扫描,从而提高a p r i o r i 算法的效率,减少了扫描事务数据库 的次数,并提高项集的支持计数速度。 最后,本文初步设计了一个具有独创性的日志预处理系统,以产生日志挖 掘所需的数据。本文初步建立了一个用户访问模式挖掘系统,系统的建立有助 于查询、分析访问者的操作、了解用户的访问信息。通过监测用户的访问行为, 根据对用户的访问情况进行日志挖掘,并以图例方式描述挖掘后的数据,了解 用户的喜好加以改进,以提供个性化服务。 关键词:数据挖掘w e b 挖掘w e b 日志挖掘x m l t h er e s e a r c ho nx m l - b a s e dw e bu s ed a t am i n i n g a b s t r a c t t h em a i no b je c t i v eo ft h ew e bv i s i tr e c o r d so fw e bu s a g em i n i n gi st oe x t r a c t i n t e r e s t i n gp a t t e r n ,d i g g i n gt h r o u g ht h ea n a l y s i s o ft h e s er e s u l t sc a nh e l p u n d e r s t a n dt h eu s e r sb e h a v i o r ,t h u si m p r o v i n gt h es t r u c t u r eo rs i t et op r o v i d eu s e r s w i t hp e r s o n a l i z e ds e r v i c e s t h i st h e s i sd e s c r i b e st h ec o n c e p to fw e bu s a g em i n i n g , p r i n c i p l e s ,t h em a i nm e t h o d sa n dt e c h n i q u e s ,s u m su pt h ec u r r e n tw e bu s a g e m i n i n gr e s e a r c ha n da p p l i c a t i o no ft h eh o td i r e c t i o n w e bd a t am i n i n gh a v ep l a y e da ni m p o r t a n tr o l ei nt h ea r e ao fw e bl o gm i n i n g t e c h n o l o g yf o rt h es t r u c t u r eo fw e bs i t e sw e bp a g ec o n t e n to p t i m i z a t i o na n d r e s t r u c t u r i n g w e bi n f o r m a t i o nr e t r i e v a li sc u r r e n t l ym a i n l yu s e ss e a r c he n g i n e st o c o m p l e t e ,b u tm o s ts e a r c he n g i n e sl a c ko fi n i t i a t i v e ,w ec a nn o te f f e c t i v e l ys o l v e t h ei n f o r m a t i o no v e r l o a da n di n f o r m a t i o nl o s ti s s u e sw i t h o u tc o n s i d e r i n gt h eu s e r s p r e f e r e n c e sa n d i n t e r e s t so fd i f f e r e n tu s e r s o n ew a yt os o l v et h i sp r o b l e mi sa p p l y d a t am i n i n gt e c h n i q u e st ow e bs e r v e rl o g s ,d i g g i n g ,d i g g i n gt h r o u g ht h el o g s ,f r o m t h eu s e r sb r o w s i n gb e h a v i o rd a t ai nt h ew e bt og e tt h eu s e r 。sb r o w s i n gp a t t e r n s a c c o r d i n gt ot h eu s e r sb e h a v i o rp a t t e r n s ,i m p r o v es i t ed e s i g na n ds e r v i c e s ,t oc a r r y o u tp e r s o n a l i z e ds e r v i c ea n db u i l ds m a r tw e bs i t e t h i st h e s i sd e t a i l st h ep e r s o n a l i z e di n f o r m a t i o ni nt h es t u d yr e c o m m e n d e dt h e s e r v i c ew h i c hm u s tf o c u so ns o l v i n gt h ef o l l o w i n ga s p e c t s :w e bl o gp r e p r o c e s s i n g , w e bl o gm i n i n ga l g o r i t h m s ,p e r s o n a l i z e dr e c o m m e n d e dm e t h o d w e bl o gm i n i n g d i s c u s s e di nd e t a i lt h ev a r i o u ss t e p si np r e p r o c e s s i n g ,a n dg i v e st h ek e yt oe v e r y s t e po f t h ea l g o r i t h m w e bl o gm i n i n gp r e t r e a t m e n tp r o c e s si n c l u d e s :d a t ac l e a n i n g , u s e ri d e n t i f i c a t i o n ,s e s s i o ni d e n t i f i c a t i o n ,p a t h ,u s e rs e r v i c e st oc o m p l e m e n ta n d p a t t e r nr e c o g n i t i o n i n t h i st h e s i s ,a s s o c i a t i o nr u l ea l g o r i t h ma n dc l u s t e r i n ga r et w ow a y st o c o m p l e t e t h eu s e r s p e r s o n a l i z e ds e r v i c e ,t h a ti s ,t h ep a g e s e to fu s e r si s r e c o m m e n d e d t h i st h e s i sp r o p o s e sa ni m p r o v e da p r i o r ia s s o c i a t i o nr u l ea l g o r i t h m f o ra s s o c i a t i o nr u l ea l g o r i t h ma n dt h ea l g o r i t h ma p r i o r ic o m b i n a t i o nd i s t i n g u i s h m a t r i c e sb yi n t r o d u c i n go n l ys c a no n c ead a t a b a s e ,c a na v o i ds o m eu n n e c e s s a r y s c a n n i n g ,t h e r e b ye n h a n c i n gt h ee f f i c i e n c yo fa p r i o r ia l g o r i t h mt or e d u c et h et h e n u m b e ro fs c a n n i n gt r a n s a c t i o nd a t a b a s et oi m p r o v et h es u p p o r to fi t e m s e tc o u n t i n g s p e e d f i n a l l y ,a no r i g i n a ll o gp r e t r e a t m e n ts y s t e mi sp r e l i m i n a r yd e s i g n e dw h i c h 4 g e n e r a t et h er e q u i r e dd a t af o rl o gm i n i n g ,t h i st h e s i sp r e l i m i n a r i l y e s t a b l i s h e da u s e ra c c e s sp a t t e r nm i n i n gs y s t e m ,t h es y s t e mw i l lc o n t r i b u t et ot h eq u e r y ,a n a i y s l s o ft h eu s e r so p e r a t i o n ,u n d e r s t a n dt h eu s e r sa c c e s st oi n f o r m a t i o n ,b ym o n i t o r i n g t h eu s e r sa c c e s sb e h a v i o r ,b a s e do nt h eu s e r sv i s i tl o gm i n i n gt o u n d e r s t a n dt n e u s e r t sp r e f e r e n c e sa n dm a k ei m p r o v e m e n t s ,a n dt h el e g e n dd e s c r i b e d i nd e t a i la f t e r t h ed a t am i n i n gi no r d e rt op r o v i d ep e r s o n a l i z e ds e r v i c e k e y w o r d s :d a t am i n i n gw e bm i n i n gw e b u s ed a t am i n i n gx m l 5 插图清单 图1 1w e b 日志挖掘的应用模型2 图1 2 日志挖掘中数据预处理流程图。3 图2 1 经典数据挖掘系统5 图3 1 日志源文件1 4 图3 2 程序运行图表2 0 图3 3 产生的x ls 文件图21 图3 4 产生的x m l 文件图21 图5 1 日志预处理软件截图3 4 图5 2 软件数据转换截图3 5 图5 3 转换后的x ls 数据3 5 图5 4 清理后转换成的x m l 数据3 6 图5 5c 1 e m e n t i n e 日志挖掘软件截图3 6 图5 6 对c s ( u s e r - a g e n t ) 的一个聚类分析图。3 7 图5 7cs m e t h o d 字段的一个聚类分析图3 8 图5 8 支持度图38 图5 9 置信度图38 图5 - 10 实行a p r io r i 建模的规则支持度百分比3 9 图5 1 1 建模后访问该序列最频繁的排名前1 0 位页面3 9 图5 12 根据挖掘结果站点优化图40 9 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得 金目巴王些太堂 或其他教育机构的学位或 证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示谢意。 学位论文作者签名:秀多 签字日期:9 7 年2 月,7 日 学位论文版权使用授权书 本学位论文作者完全了解盒月巴王些太堂有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授 权金月巴王些态堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 多一 签字吼哆年脚,7 日 学位论文作者毕业后去向: 工作单位:合肥师范学院 1 3 6 9 6 5 4 7 6 0 8 通讯地址:合肥师范学院 2 导师签名: z 形 签字甚辩jo 7 年7 i z 乒乃b 电话: 邮编:2 3 0 0 6 l 致谢 这篇论文得以完成,首先要感谢我的导师王浩教授。两年多来,得到了他 的悉心指导和关心,导师渊博的知识,崇高的品德,严谨的治学态度和实事求 是的科学作风,给我留下深刻的印象,同时也为我树立了榜样,激励我永远奋 发向上。同时也要感谢王浩教授在本人的学习和研究中给予的大力支持和帮助, 以及对课题中的某些研究方法和要点提出的建议和意见,至此学位论文完成之 际,谨向他表达我最崇高的敬意和深深的谢意。 此外,在论文的撰写过程中还得到了周围很多人的大力支持和无私指导, 包括关心帮助 和鼓励过我的家人,同学,朋友等等,没有他们的关心帮助与鼓励,我很难完 成我的工作,在此,我表示衷心的感谢。 6 作者:方杰 2 0 0 9 年10 月2 6 日 1 1 引言 第一章绪论 随着万维网的发展应用,w w w 己成为一个巨大的、广泛分布的全球性信息资 源中心,i n t e r n e t 涉及的面广,它涉及到各个行业如教育、政府、金融、新闻、 广告等部门中许多文本文件和图像信息,在w e b 中包含了动态而丰富的超级链接 信息s d w e b 页面访问信息,这为人们提供了丰富而有用的资源,为人们的生活带 来的巨大的便利,随着w w w 技术的迅猛发展,i n t e r n e t 上的信息量剧增,然而, 由于w e b 上数据的动态和庞大等特征,要想在w e b 上找到有效的资源和发现有用 的知识仍具有极大的挑战性,实践已经证明,目前传统的数据处理方法很难满 足w e b 这一动态性的数据源的处理需求,w e b 挖掘( w e bm i n i n g ) 正是在这样的背 景下产生并迅速发展起来的,并发展成为一个热门的研究领域。w e b 挖掘是一门 交叉性学科,涉及计算机网络技术、数据挖掘、信息学、计算机语言学等多个 学科,不同的研究者从自身的应用领域出发,对w e b 挖掘的含义有着不同的理解, 因此w e b 挖掘产品的开发也各有其侧重点,本文主要对w e b 日志挖掘的整个过程 的关键技术进行分析和讨论,研究基于x m l 的w e b 日志挖掘。w e b 日志挖掘是指对 用户访w e b 时在服务器上留下的访问日志进行挖掘,挖掘的目的是在海量的w e b 日志数据中自动、快速地发现用户的访问模式,优化站点结构、提高用户查找 信息的质量和效率并进行个性化服务等。 1 2 选题背景与研究意义 日志信息的挖掘是w e b 挖掘中的一个重要的研究方向,目前主要的日志挖掘 主要采用国外的几种软件,而日志挖掘中重要的数据预处理软件和日志挖掘软 件国内尚无成熟的产品,本文详细分析了面向日志挖掘的数据预处理的过程, 以及如何实现日志挖掘中的数据预处理,并在d e l p h i 开发工具中成功完成了i i s 文本日志文件至u x l s 格式及x m l 格式文件的转换,实现了日志挖掘中的数据预处 理。论文以合肥师范学院的网站的数据为例,利用专业的数据挖掘工具对预处 理后的数据进行挖掘研究,利用关联规则算法及兴趣度选择算法对日志数据进 行测试,以便获取访问用户的特征和访问习惯,对网站的完善提出重要的评判 和建议,并与用户个人信息数据相结合,发现其中蕴含的知识,提取出用户的 兴趣特征,从而开发有利于用户的界面和功能,构建w e b 智能化网站。图1 1 是 w e b 日志挖掘的应用模型。 1 3 国内外的研究现状 图1 1w e b 日志挖掘的应用模型 日志挖掘作为一个新兴的研究领域,具有重要的理论研究意义和实际应用 价值,尽管目前出现了许多日志挖掘算法和模型,但这些工作并不是完全的系 统开发,更多的还是出于探索性的研究目的,从目前来看,国内此方面的研究 与国外研究相比还有较大差距。目前日志挖掘研究方向有: ( 1 ) w e b 信息的智能查询:信息时代的万维网并不是一个有组织的信息仓 库,内容庞杂,w e b 中的智能查询不仅可自动生成可查找的索引、对信息资源自 动抽取、利用分类技术可自动管理和组织数据,也可以发现用户感兴趣的访问 模式。 ( 2 ) 用户路径模式挖掘:在w e b 中,文档一般通过超级链接以方便于用户 的浏览,用户为寻找信息经常通过超链接从一个页面跳转到另一个页面。捕捉 用户浏览路径并理解用户浏览路径有助于改进网站的系统设计,对市场决策也 有着重要的指导意义。 ( 3 ) 提高网站响应速度:传统上一般通过优化传输、减少阻塞、预先传输 某些页面等方法用以解决网络响应速度慢的问题。如果对服务器端日志文件利 用关联规则进行挖掘,不仅可以有效地调度网络代理的缓存而且可以提高网络 的响应速度。因为关联规则是基于统计规律的,反映了大多数用户的兴趣,当 用户浏览某个页面时,网站可根据关联规则预先下载与该页面相关联的页面, 即用户最有可能访问到的页面,从而提高网络的响应速度。 w e b 日志的挖掘方法可以分为: ( 1 ) 以m i n g - s y a nc h e n 为代表的基于w e b 事物的方法:他们首先提出了最 大向前引用序列( m f r ) 的概念,用m f r 方法将用户会话分割成一系列的的事务, 2 数据预处理阶段 模式发现阶段 应雨 然后采用与关联规则相似的方法来挖掘频繁浏览路径。 ( 2 ) 以j i a w e ih a n 为代表的基于数据立方体( d a t ac u b e ) 的方法:将w e b 日志保存为数据立方体,然后在其基础上进行数据挖掘和o l a p 操作; 1 4 日志挖掘技术现状及存在的问题 w e b 日志挖掘技术主要针对服务器的日志文件,采用数据挖掘的技术作相应 的处理,但是由于w e b 日志本身具有半结构化、噪音数据较多、不精确、不完备 等诸多特点,传统的以及优化的数据挖掘技术在处理w e b 日志时总存在不够精确 和贴切的问题,处理效果往往不是很理想,而且传统处理w e b 日志的技术主要针 对的是日志文件中的静态页面记录,一般是基于语法的,往往缺乏对动态的页 面及其其中的语义信息的处理,w e b 服务器响应用户请求时,在将请求的文件下 载给用户的同时,同时也把这次请求的相关信息写入日志;由于代理服务器以 及防火墙等多种因素的影响,使得用于w e b 日志挖掘的日志记录存在不精确性, 直接在其基础上进行挖掘非常困难而且容易得到错误结果,因此w e b 日志记录必 须在经过预处理之后才能用于w e b 日志挖掘。 目前日志挖掘一个难点是如何对原始日志数据进行预处理,只有高效的预 处理才能得到高效率的日志挖掘效果,而传统预处理方法有诸多缺点,诸如产 生的数据库不具有可扩展性和数据交换性。预处理后的数据,如果没有将其转 换为可以使用的数据库格式,无法对其进行行之有效的数据挖掘,如果我们能 把日志信息提取出来,转换为x m l 这一半结构化的数据模型,这样很容易就可以 将其与关系数据库中的属性一一对应起来,可以很方便地实施精确查询与模型 抽取,所以,x m l 可以用来解决搜索多样的并且数据库不兼容的问题,使不同来 源的非结构化数据很容易地结合在一起。在w e b 挖掘过程中,用户经常需要与结 构相异的数据源之间进行数据传递,而x m l 的自定义性、可扩展性可以标示各 种类型的数据,描述w e b 页中的数据纪录,用户可以对接收到数据进行处理, 也可以在不同数据库间进行传递,这样,在这类应用中,x m l 解决了数据间的统 一接口问题。但基于x m l 的日志挖掘研究还处在实验中,至今还没有一个实用的 系统处在应用阶段。 图1 2 日志挖掘中数据预处理流程图 另一个难点是如何提高现有挖掘算法的有效性,一般来讲,经典的数据挖 掘算法都可以直接用至i j w e b 用法挖掘上来,但是为了提高挖掘质量,研究人员在 户话件厢会义 一貉径补充一 z 弹设嬲 _ 用户识剐一 一 一敦据滔理 ,|。,。l _ | | 数据采集 蒜 扩展算法上进行了不懈地努力,包括复合关联规则算法、改进的序列发现算法 矗盘 号子0 w e b 日志挖掘中的最后一个难题是如何在多个用户使用同一个代理服务器 的环境下如何标识某个用户,以及如何识别属于该用户的会话和相关使用记录, 这个问题看起来简单,但却在很大程度上影响着挖掘质量,所以有人专门在这 方面进行了研究。 1 5 论文的工作与组织结构 本文主要从合肥师范学院人事处网站的日志着手,首先通过d e l p h i 开发出 一个日志预处理系统,将日志信息预处理转换为数据库文件及x m l 文件,并初步 实现一个基于x m l 的w e b 日志挖掘系统,通过相应的挖掘算法给出挖掘结果,并 将挖掘结果应用于网站的优化中,改进网站的功能。 第一章介绍了论文的选题背景和研究意义,并就目前日志挖掘国内外的研 究现状以及存在的难题做了详细的介绍和分析。 第二章介绍了数据挖掘的产生、数据挖掘的功能、数据挖掘的分类以及数 据挖掘的未来发展趋势,对日志挖掘做了详细的阐述,对w e b 日志挖掘的应用领 域做了说明。就x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 及其应用于日志挖掘进行 了充分地说明和论证。 第三章介绍了日志的预处理,介绍了日志文件的格式、预处理的相关过程、 相应的预处理算法,并通过d e l p h i 软件开发实现一个预处理软件,实现日志信 息到数据库文件及x m l 文件的转换。 第四章介绍了目前主流的日志挖掘算法,介绍了关联规则概念、a p r i o r i 算 法、兴趣度选择算法及w e b 日志中关联规则的兴趣度。提出了一种改进的频繁访 问路径a p r i o r i 挖掘算法。 第五章在前面研究的基础上,通过分析用户访问站点的日志建立了一个用 户访问模式挖掘系统。介绍了实验环境及开发平台。设计并实现了一个初步的 日志挖掘系统w l d m s ,并将挖掘结果应用于网站的优化中,完善网站的功能。 第六章为论文总结与展望,就论文中存在的问题总结,并提出改进意见, 明确以后的研究方向。 4 2 1 数据挖掘概论 第二章w e b 日志挖掘技术简介 数据挖掘( d a t am i n i n g :d m ) 是从模糊的、大量的、有噪声的、不完全的、 而且随机的数据库中,提取出隐含在其中的、不为人知的、但是又包含潜在有 用的信息和知识的过程,数据挖掘是一门受到来自各种不同领域的研究者极度 关注的交叉性学科,因此产生了很多不同的专业术语名称,其中最常用的术语 是“数据挖掘”和“知识发现,相对而言,知识发现主要流行于人工智能和 机器学习领域,而数据挖掘主要流行于数据分析、统计、数据库和管理信息系 统领域,数据挖掘的功能反映了数据挖掘算法发现的模式的种类。 2 1 1 数据挖掘的功能 数据挖掘的任务有两个:其一,机器的数据库理解( d a t a b a s eu n d e r s t a n d i n g b ym a c h i n e ) ,即将数据库变换为在表述上更为简洁及理解的模型,然后再利 用这个模型去求解新问题;其二,人的数据库理解( d a t a b a s eu n d e r s t a nd i n gb y h u m a nb e i n g ) ,即根据需求简化数据并将其翻译为自然的表示形式( 例如,图 表、数学公式) ,这两类任务的共同之处都是为了建立一种模型,但是前者在功 能上需要所建立的模型能为计算机所理解,并可被使用用以解决新问题,即具 有外延性,后者同时提出了新的问题,因为它的目标是以人为阅读对象,发现隐 含在大量数据中的规律,它的外在表现是人通过数据挖掘的报告所作出的决策 之中,从而获得模型,需要在这个领域内可阅读或可解释,相对“机器的数据库 理解”这一任务,将不得不需要考虑许多新的问题。 数据挖掘的对象包含大量数据信息的各种类型数据库,如关系数据库、空 间数据库、多媒体数据库、文本数据源、面向对象数据库、时态数据库以及 i n t e r n e t 等类型数据或信息集均可以作为数据挖掘的对象,图2 1 是经典的数据 挖掘系统图。 旦一 旦一 h j jj o 钵i j ;i 一一一士一一一一 数烈挖掘j 彖缝 1 。一 图2 1 数据挖掘系统结构图 数据挖掘的方法包括:粗糙集法、人工神经网络方法、决策树方法、统计 分析方法、模糊数学法、遗传算法等,事实上,任何一种挖掘工具往往是先根 据具体的业务问题再选择一种合适的挖掘方法,而每种方法各有其优点,要视 具体问题选定合适的挖掘方法。 2 1 2 数据挖掘系统分类及w e b 数据挖掘分类 根据不同的标准,数据挖掘系统可以分类如下: ( 1 ) 根据挖掘的具体知识类型分类:数据挖掘系统可以根据所挖掘的知识 类型分类,即根据数据挖掘的功能分类,如关联、区分、特征化和分类、相关 分析、聚类、预测、演变分析和离群点分析,一个综合的数据挖掘系统往往提 供多种或集成的数据挖掘功能,此外,数据挖掘系统还可以根据所挖掘的知识 的粒度或抽象层进行区分,包括原始层知识( 原始数据层) 、广义型知识( 高 抽象层) 或多层次知识( 考虑若干抽象层) ,一个高级的数据挖掘系统应当支 持多抽象层次的知识发现,数据挖掘系统还可以分类为挖掘数据的奇异性( 如 异常或离群点) 与挖掘数据的规则性( 通常出现的模式) ,一般而言,关联和 相关分析、概念描述、预测和聚类、分类挖掘数据的规则性,可以将离群点作 为噪声排除,这些方法也对检测离群点有帮助。 ( 2 ) 根据挖掘的数据库类型分类:数据库系统本身可以根据不同的标准( 如 数据类型或所涉及的应用、数据模型) 分类,每一类可能需要自己的数据挖掘 技术,这样,数据挖掘系统就可以进行相应的分类,例如,根据所处理数据的 特定类型分类,可以有空间的、数据流的、文本的、时间序列的、多媒体的数 据或万维网挖掘系统,如果根据数据模型分类,可以有事务的、关系的、数据 仓库的或对象一关系的挖掘系统。 ( 3 ) 根据应用范围分类:数据挖掘系统也可以根据其应用分类,例如,可 能有些数据挖掘系统特别适合教育、电信、金融、股票市场、商业等,不同的 应用通常需要集成对于该应用具有特别有效的方法,因此,标称“全能的 数 据挖掘系统可能并不适合特定领域的挖掘任务。 ( 4 ) 根据所采用的技术类型分类:数据挖掘系统也可以根据所用的数据挖 掘技术分类,这些技术可以根据用户的交互程度( 例如交互探查系统、自动系 统、查询驱动系统) 或所用的数据分析方法( 例如面向数据库或面向数据仓库 的技术、统计学、模式识别、神经网络、可视化、机器学习等) 描述,复杂的 数据挖掘系统通常采用多种数据挖掘技术,或采用有效的、集成的技术,结合 多种方法的优点。 w e b 数据挖掘是i n t e r n e t 应用研究和数据挖掘技术相结合的研究领域,网 络中蕴藏着许多信息,例如一个对于网络的分析就可以揭示出人类语言群落的 多少,因为任何以某种语言写成的网页总是链接与它相同语言的页面,而与其 他语言群落的联系很少。 6 w e b 数据挖掘是指利用数据挖掘技术对结构和规则、w e b 存取模式、以及动 态w e b 内容的查找,一般地,根据挖掘对象的不同,可以将w e b 数据挖掘分为三 大类:w e b 内容挖掘( w e bc o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 使用挖掘( w e bu s a g em i n i n g ) ,也有人认为w e b 结构挖掘可以被认为是w e b 内容挖掘的一部分,这样可以简单的把w e b 挖掘分为w e b 内容挖掘和w e b 使用挖 掘。 w e b 内容挖掘是指从w e b 文档内容中获取有用知识的过程,同时也可以对w e b 组织结构和链接关系进行挖掘,从人为的链接结构中获取有用的知识,由于文 档之间的互相关联性,因此能够提供一些文档内容之外的信息,利用这些信息 对页面进行排序,进而发现重要的页面,目前w e b 内容挖掘多数是基于文本信息 的挖掘,它和通常的平面文本挖掘的功能和方法比较类似,但由于互联网上的 数据基本上都是h t m l 格式的文件数据格式流,因此可以利用文档中的h t m l 标记 来提高w e b 文本挖掘的性能。 目前w e b 内容挖掘主要使用的技术有两种类型:一种类型是建立在统计模型 的基础上,采用的技术有决策树、分类、聚类、关联规则等,主要技术包括: 文本总结,指从文档中抽取信息,用简洁的形式对文档内容进行摘要或者解释; 文本分类,指在已有数据的基础上学会一个分类函数或构造出一个分类模型, 即通常说的分类器;文本聚类:把一组文档按照相似性归纳成若干个类别,大 致可以分为层次凝聚法和平面划分法两种方法,另一种类型是建立一个以机器 学习为主的人工智能模型,采用的方法包括神经网络、自然法则计算方法等。 w e b 结构挖掘即挖掘w e b 潜在的链接结构模式,即通过分析一个网页链接和 被链接数量以及对象来建立w e b 自身的链接结构模式,这种模式可以用于网页归 类,并且可以由此获得有关不同网页间相似度及关联度的信息,发现页面的结 构$ 1 w e b 间的结构,在此基础上对页面进行聚类和分类,w e b 结构挖掘有助于用 户找到相关主题的权威站点和权威页面,这种方法可以用来改进搜索引擎的搜 索质量。用户在使用搜索引擎时,不仅希望检索出所需信息,更希望检索出的 信息具有很高的质量和权威性,因此w e b 结构挖掘目前被广泛应用于搜索引擎领 域。对网上的超链接结构进行分析是w e b 结构挖掘研究的主要内容。w e b 结构挖 掘可以确定页面的具体等级( p a g e r a n k ) 、识别权威页( h u b a h o r t i t y ) 或关键页, 并通过对检索结果进行页面具体分析以及根据页面的重要性进行输出,使访问 者能够优先查看相对权威的页面,使得检索结果的组织得到了极大改善,从而 提高了搜索引擎的检索质量,p a g e r a n k 算法和h i t s 算法是w e b 结构挖掘中两种常 见的排序算法。 w e b 使用挖掘是指利用数据挖掘技术对w e b 服务器中的日志记录进行分析, 发现各种用户使用模式的过程,其目的在于更好的为用户提供各种服务,w e b 使 用挖掘可以挖掘出用户的隐藏信息,根据用户行为趋势确定企业未来的战略方 7 向,w e b 使用挖掘的基本流程主要包括数据准备、数据预处理、模式发现和模 式分析几个步骤。其基本功能如下: 可以根据实际用户的浏览情况,调整网站的网页的链接结构和内容,更 好的服务用户。 应用缓存技术加快网络信息传输,从用户的访问信息中可以分析用户的 访问模式,从而可以预测用户将要访问的页面,预先将这些页面送入缓存之中, 提高系统的访问效率。 对电子商务活动提供了进行更加深入分析的可能,从用户的每次浏览的 页面可以发现他的兴趣爱好,这样商家可以为该用户定制观看的内容或提供浏 览建议,这样可以方便用户的浏览和查询。 2 1 3 数据挖掘工具 数据挖掘工具根据其适用的范围分为两类:通用挖掘工具和专用挖掘工具, 通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的 数据类型,例如,i b m 公司a l m a d e n 研究中心开发的q u e s t 系统,s g i 公司开发的 m i n e s e t 系统,加拿大s i m o n f r a s e r 大学开发的d b m i n e r 系统,很多数据库厂商也 在自己的产品中集成了数据挖掘工具,如微软s q ls e r v e r ,通用的数据挖掘工 具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用 来选择。 专用数据挖掘工具是针对某个特定领域的问题提供解决方案,涉及相关算 法的时候充分考虑了需求、数据的特殊性,并对此作了相应的优化。对任何领 域,都可以开发出具有特定功能的数据挖掘工具。例如,i b m 公司的a d v a n c e d s c o u t 系统针对n b a 的数据,帮助教练优化战术组合,特定领域的数据挖掘工具针 对性比较强,只能用于一种应用,也正因为针对性强,往往采用特殊的算法, 可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。 2 1 4 数据挖掘的未来发展趋势 当前,数据挖掘知识发现的研究方兴未艾,由于数据、数据挖掘任务和数 据挖掘方法的多样性,给数据挖掘提出了许多挑战性的课题,同时,数据挖掘 语言的设计,高效而有用的数据挖掘方法和系统的开发,交互式和集成的数据 挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都是目前数据挖 掘研究人员、系统和应用开发人员所面临的主要问题,研究的焦点聚集在以下 几方面: 数据挖掘语言的形式化描述:即研究专门用于知识发现的数据挖掘语言, 也许会像s q l 语言一样走向形式化和标准化; 可视化数据挖掘:是从大量数据中发现知识的有效途径,在数据挖掘过 程中进行人机交互,也便于数据挖掘的过程能够被用户理解,该技术将有助于 推进数据挖掘作为数据分析的基本工具; 8 w e b 数据挖掘:主要是利用数据挖掘技术从w e b i 艮务器及w e b 文档中自动 发现并提取出有用信息的过程,在w e b 上有海量数据信息,这些数据通常是半结 构化,因此开发新的w e b 挖掘技术以及对w e b 文档进行预测处理及得到关于文档 的特征表示就成为w e b 挖掘的研究重点; 多媒体数据挖掘t 是指从大量的图形数据、视频图像数据、文本数据、 音频数据乃至多种多媒体数据的开采中,通过分析视昕特征和语义,发现其中 所隐含的、有价值的模式,它和传统的数据挖掘方法中处理的数据具有明显不 同的地方,传统的数据挖掘处理的数据一般属于结构型数据,是数据库中表格 形式中的记录和字段,而多媒体数据挖掘处理的往往是非结构化的数据; 数据挖掘中的信息与隐私安全:随着数据挖掘工具和网络的日益普及, 数据挖掘要面对的一个重要问题就是如何进行隐私和信息保护,这就需要进一 步开发有关方法,使得在适当的信息访问和挖掘中能确保隐私的保护与安全; 其他方面还有:可伸缩的数据挖掘方法;应用的探索;数据挖掘语言的 标准化;复杂数据类型挖掘的新方法;数据挖掘与数据库系统、数据仓库系统 矛i w e b 数据库系统的集成; 2 2w e b 日志挖掘 随着i n t e r n e t 的发展应用,w w w 上的信息量剧增,其中包含了大量的数据信 息,如何从访问的w e b 日志数据中快速地抽取用户感兴趣的访问模式,通过对 服务器日志的分析和挖掘获取用户访问路径及关注点,以便优化站点结构,提 高用户查找信息的质量和效率和进行个性化服务等,这就是目前w e b 日志挖掘的 重点研究方向,当前w e b 日志挖掘一般包含以下三个阶段:数据预处理阶段、模 式发现、模式分析。 w e b 日志挖掘在电子商务、校园网、搜索引擎等领域均有广泛的应用: ( 1 ) w e b 日志挖掘在校园网及图书馆中的应用:利用w e b 日志挖掘技术,根 据用户的浏览行为、以及经常访问的网页,进行分析挖掘,从而了解访问者的 兴趣爱好、研究方向,找出用户的浏览模式和兴趣模式,确定个性化服务内容, 主动将相关资料送到用户手中,同时对图书馆工作也有较强的指导作用,因此, 应充分重视在图书馆网站建设中实施w e b 挖掘技术的作用,为学校师生创造更为 丰富优越的w e b 资源环境,不断转变管理服务模式。 ( 2 ) w e b 日志挖掘在电子商务中的应用:w e b 日志挖掘作为w e b 数据挖掘中 的一种,应用日志挖掘有助子开展更为有效的电子商务活动,发现潜在的有价 值的信息,改进网站设计,找到潜在用户并为已有用户提供个性化服务,使商 务网站的资源更加的合理配置,数据挖掘技术与电子商务结合,不仅能提高电 子商务活动的效率,还能进一步提高和完善电子商务网站功能。 ( 3 ) w e b 数据挖掘在搜索引擎中的应用:用户在使用搜索引擎时,不仅希 9 望检索出所需信息,更希望检索出的信息具有权威性和很高的质量,对网上的 超链接结构进行分析是w e b 结构挖掘研究的主要内容,w e b 结构挖掘不仅可以确 定页面的等级( p a g e r a n k ) ,还可以识别关键页或权威页( h u b a u t h o r t i t y ) ,并 通过对检索结果进行页面等级分析来根据页面的重要性进行输出,使用户能够 优先查看比较权威的页面,检索结果的组织得到了极大改善,从而提高了搜索 引擎的检索质量。 目前实际运行的网站所包含的信息是庞大的,对于一般访问者来说,要从 大量的信息中寻找到感兴趣的东西是很难的,真正的用户个性化服务应该是不 同的用户他所访问的网站有不同的特点,因为每个用户在浏览网页时,只会寻 找它所感兴趣的信息,但由于访问者的行为具有某种规律性和重复性,因此使 得发现用户的行为模式成为可能,w e b 使用挖掘在w e b 用户建模中起着非常重要 的作用,它是研究w e b 访问者在线行为最直接的方法,我们假设已完成对日志数 据的预处理,得到了用户的浏览路径,此时就要对路径进行进一步的分析,揭 示用户兴趣路径,不仅可以为优化w e b 站点的拓扑结构提供相应的参考,而且还 可以为网站管理者制定更有效的管理策略分析提供依据,在这里我们一般用关 联规则兴趣度选择算法或改进的算法来进行路径分析。 2 3x 池 2 3 1x m l 技术概述 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 是由w 3 c 于1 9 9 8 年2 月发布的一种标准,具有简单、国际化、高效可扩充、开放等特点,随着计算 机和w e b 技术的发展,x m l 技术在异构系统及数据库间实现信息的高效传输、交 换、共享并保证数据的完整性上发挥着越来越重要的作用,x m l 数据由嵌套和标 记元素组成,标记包含对文档存储形式和逻辑结构的描述,这种结构使x m l 很适 合描述w e b 上的半结构化数据,甚至非结构化数据,使得“以关系数据库为存贮 手段,以x m l 为交换载体 的数据管理模式成为可能。 x m l 解决了h t m l 不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论