(计算机应用技术专业论文)基于数据挖掘的个性化信息服务相关技术的研究及应用.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的个性化信息服务相关技术的研究及应用.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的个性化信息服务相关技术的研究及应用.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的个性化信息服务相关技术的研究及应用.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的个性化信息服务相关技术的研究及应用.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的个性化信息服务相关技术的研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

济南大学硕士学位论文 摘要 随着i n t e r n e t 应用的迅速发展,网络上信息迅速增长,信息种类也越来越多, 人们面对太多的信息无法选择和消化,i n t e r n e t 上信息资源分布的广泛性又给用户 寻找感兴趣的信息增加了困难,也就是所谓的信息过载和信怠迷失。为了有效地解决 信息过载和信息迷失给人们带来的种蕈中困扰。最近很多学者提出了;胂被认为能有效 解决这些问题的技术- w e b 个性化信息服务技术。 基于数据挖掘的个性化信息服务是疆前w e b 个性化服务中应用和研究的关键技 术,w e b 个性化信息服务是指w e b 站点上透过跟踪,研究用户登陆、浏览记录等信息, 发现用户的喜好,动态地为用户提供浏览建议,制定浏览内容。w e b 数据挖掘是利用 数据挖掘技术在网页数据中发现潜在的、有用的模式或信息。本文主要对基于w e b 使用挖掘的个性化信息服务中若于关键技术进行了研究和应用。 本文的主要研究内容如下: 1 w e b 使用挖掘的方法研究。详细的研究和探讨了w e b 使用挖掘的整个过程( 如: 数据收集、数据预处理、模式发现、模式分析以及应用) 。对各个过程进行了详细的 介绍,尤其是针对过程中非常重要的数据预处理过程,给出了该阶段各项任务的相关 算法。 2 。本文对模糊聚类的概念、方法和技术进行了详细的研究,将模糊聚类运用到 w e b 使用挖掘中,在实现w e b 服务器日志的数据预处理后,对w e b 事务数据进行w e b 模糊聚类、分析、研究,有效的抽取如用户感兴趣的模式。通过w e b 使用挖掘技术可 按照用户的兴趣和爱好来改进和优化w e b 站点上的信息组织与显示,针对不同用户提 供不同的服务镱略和服务内容,改善网站的质量,使网站建设和修改更加有的放矢, 减少用户的无效点击操作次数,缩短查找信息的时间,提高访问效率,更好地实现 w e b 个性化服务。 3 。文本提出了w e b 使用挖掘技术的模糊聚类过程模型。对于该模型在w e b 事务中 的w e b 用户聚类、w e b 页面聚类等方面的应用和实现进行了探索性研究。研究了基予 页面层次和偏好度获取浏览频繁路径的方法。 4 结合已有的个性化信息服务框架模型,并对其进行了改进。依照该框架开发的 网站针对用户不同的兴趣,对用户提供个性化信息服务,从而使网站更具入性化。 关键词:数据挖掘;个性化信息服务;模糊聚类;w e b 使用挖掘 i 纂于数据挖掘的个性化信息服务相关技术的研究及应用 _ - _ - _ _ - - - _ - - _ _ - _ _ _ - _ _ _ _ _ _ _ _ _ _ _ l _ _ ii i i i - - _ - - _ - _ - _ _ - - a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ei n t e m e ta p p l i c a t i o n s ,t h e r ea l em o r ea n dm o r e d i f f e r e n tk i n d so fi n f o r m a t i o no nt h ei n t e r a c t t h eh u g ea m o u n to fi n f o r m a t i o nd i s t r i b u t e d o nt h ei n t e r a c tm a k e si th a r d e rf o rt h ei n d i v i d u a lu s e rt oa c q u i r ew h a tt h e yn e e d s u c h p h e n o m e n o nc o u l db ec a l l e d i n f o r m a t i o no v e r l o a da n d 砌o r m a t i o na s l r a y i no r d e rt o s e t t l ed o w nt h e s ei s s u e s ,m a n ys c h o l a r sp u tu pak i n do ft e c h n o l o g yw h i c hw a st h o u g h tt o s o l v et h e s e sp r o b l e m se f f e c t i v e l y - - p e r s o n a l i z e ds e r v i c e t e c h n o l o g yo fw e bi n f o r m a t i o n p e r s o n a l i z e ds e r v i c et e c h n o l o g yo fw e bi n f o r m a t i o nb a s e do nd a t am i n i n gi st h ek e y t e c h n o l o g yo ft h ea p p l i c a t i o na n dr e s e a r c ho ft h ew e bp e r s o n a l i z e ds e r v i c e w e b p e r s o n a l i z e ds e r v i c ei st h a tw e b s i t e sc o u l de x a m i n eu s e r s l o gi n f o r m a t i o nb yt r a c k i n g b s e r s l o g , a n dt h e nf i n du s e r s i n t e r e s ti no r d e rt op r o v i d ed y n a m i c a l l yb r o w s i n g s u g g e s t i o n sa n dc o n t e n t sf o ru s e r s w e bd a t am i n i n gi st h a tf i n d st h ep o t e n t i a la n du s e f u l m o d e lo ri n f o r m a t i o ni nw e bd a t ab yu s i n gd a t am i n i n gt e c h n o l o g y i nt h i sp a p e rw e s t u d i e dt h ep e r s o n a l i z e di n f o r m a t i o ns e r v i c eb a s e do nw e b u s a g em i n i n gi nd e t a i l 。 t h em a i nc o n t e n ti nt h ep a p e ri sa sf o l l o w s : 1 t h es t u d yo ft h ea p p l i c a t i o n so ft h ew e bu s a g em i n i n g i ts t u d i e sa n de x p l o r e st h e w h o l ep r o c e s so fw e bu s a g em i n i n g ( s u c ha s :d a t ac o l l e c t i o n , d a t ap r e p a r a t i o n , p a t t e r n d i s c o v e r y , p a t t e ma n a l y s i sa n dt h ea p p l i c a t i o n s ) i ti n t r o d u c e se a c hp r o c e s si nd e t a i l , e s p e c i a l l yt ot h et h ep r o c e s so fw e bd a t ap r e p r o c e s s i n g ,a n dt h er e l a t e da l g o r i t h mo fa l l a s s i g n m e n t sh a sb e e ng i v e n o u t 。 。 2 i nt h i sp a p e rw er e s e a r c h e dt h ef u z z yc l u s t e r sc o n c e p t ,t h e o r ya n dt e c h n o l o g yi n d e t a i la n dp u tt h ef u z z yc l u s t e r i n gi n t ot h ew e bu s a g em i n i n g a f t e rt h er e a l i z a t i o no ft h e d a t ap r e p r o c e s so f t h ew e bs e r v e rl o g ,m a k ew e bf u z z yc l u s t e r i n g ,a n a l y s i sa n ds t u d yo f t h e w e bu s a g ed a t aa n dd r a wo f ft h ee f f e c t i v em o d e lw h i c ht h eu s e r sa r ei n t e r e s t e di n t h ew e b u s a g em i n i n gt e c h n o l o g yc a ni m p r o v ea n do p t i m i z et h ei n f o n u a t i o no r g a n i z a t i o na n d d i s p l a yo nt h ew e b s i t ei na c c o r d a n c ew i t ht h ei n t e r e s t sa n dh o b b y , a n di m p r o v et h eq u a l i t y o ft h ew e bs i t ea c c o r d i n gt od i f f e r e n tu s e r st os u p p l yd i f f e r e n ts e r v i c es t r a t e g ya n ds e r v i c e 1 i 济南大学硕士学位论文 s ot h a tt h ec o n s t r u c t i o na n di m p r o v e m e n to ft h ew e bs i t ei sm u c hm o r ee f f c c t i v ea n dc a n r e d u c et h ei n v a l i dc l i c k ,s h o r t e nt h et i m eo ff i n d i n gi n f o r m a t i o n ,i m p r o v ee f f i c i e n c yo fv i s i t a n da c h i e v ew e b p e r s o n a l i z e ds e r v i c e 3 t h i sp a p e rh a sb r o u g h tf o r w a r dt h ep r o c e s sm o d e lo ft h ef u z z yc l u s t e r i n g 。i tm a k e s e x p l o r a t o r ys t u d yo nt h ew e bu s e r sc l u s t e r i n go ft h ew e bu s a g ea n dt h ea p p l i c a t i o n i t r e a l i z e st h ec l u s t e r i n go fw e bp a g e s t h i sp a p e rs t u d i e dt h em e t h o db a s e do nt h ep a g el a y e r a n dp r e d i l e c t i o nt oa c h i e v eb r o w s i n gf r e q u e n tr o u t e 4 c o m b i n i n gt h ee x i s t i n gf r a m e w o r km o d e lo fp e r s o n a l i z e di n f o r m a t i o ns e r v i c e s , s o m ei m p r o v e m e n t sa r ep u tf o r t h 。a c c o r d i n gt ot h ed i f f e r e n ti n t e r e s t so fu s e r so fw e b , p e r s o n a l i z e di n f o r m a t i o ns e r v i c e sa r ep r o v i d e da n dt h a tm a k e st h ew e b s i t em u c hm o r e h u m a n i s t i c k e yw o r d s :d a t am i n i n g ;p e r s o n a l i z e di n f o r m a t i o ns e r v i c e ;f u z z yc l u s t e r i n g ;w e bu s a g e m t r n n g i i i 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含 任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出 重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律责任由本人承担。 论文作者签名:逢:盔纨 冒 期:坦兰:堑堕竺 关于学位论文使用授权的声明 本人完全了解济南大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借鉴;本人授权济南大学可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保 存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:盏缸么导颊签名: 济南大学硕士学位论文 第1 章绪论 随着社会的不断发展和进步,网络已经广泛渗透到人类社会的各个角落。面对网 络上所展示出的庞大的信息资源,如何快速、准确地从动态、异质、半结构化的数据 中提取人们感兴趣的、隐含的、有应用价值的知识,已引起很多学者的广泛关注和浓 厚兴趣,越来越多的学者投入其中,对其进行研究和探索。 1 1 研究背景 随着i n t e r n e t 应用的迅速发展,i n t e r n e t 己成为最大的分布式信息库,网上有 各种各样的信息资源,例如新闻、商品信息、数字图书馆、个人主页等。同时由于具 备方便、快捷和便宜的特点,使它被认为是最理想的电子商务环境。最近几年已经出 现了许多电子商务网站,例如易趣、淘宝、阿里巴巴等等。各种信息迅速增长,信息 种类也越来越多。人们面对太多的信息无法选择和消化,即淹没在繁杂的信息中,此 现象称为信息过载。上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困 难,用户不知道如何更有效地发现自己所需的信息资源,就是所谓的信息迷失。 近年来,很多学者提出用各种方法来解决这些问题,例如机器学习,信息检索, 人工智能,数据管理等。当前主要采用搜索引擎来检索信息,例如,百度、g o o g l e 等。它们为用户获取信息提供了便利。然而,随着网络资源的不断丰富和网络信息量 的不断膨胀,现有搜索引擎技术不足逐渐显现出来。大多数搜索引擎缺少主动性,没 有考虑个体用户的兴趣偏好,未能有效地解决信息过载和信息迷失的问题。最近学者 们提出了一种被认为能有效解决这些问题的技术个性化信息服务技术【l 】。 w e b 个性化信息服务是指针对不同用户提供不同的服务策略和服务内容的服务 模式,其实质就是以用户需求为中心的触服务。个性化服务通过收集和分析用户信息 来学习用户的兴趣和行为,进而实现主动信息推荐服务。因此,通过网络提供的个性 化服务可以比较有效的解决用户“信息过载【2 l ”和“信息迷失【2 】 的困扰。 w e b 数据挖掘是实现w e b 个性化信息服务核心技术之一。是将传统的数据挖掘 同w e b 结合起来,进行w e b 数据挖掘,即从与相关的资源和用户浏览行为中抽取感 兴趣的、潜在有用韵模式和隐藏的信息,为用户提供个性化推荐服务和协助管理者优 化站点结构,提高站点效率,更好地为用户服务。 w e b 个性化信息服务是一个非常活跃的研究领域,其目标是用例钥知识表示用户 基于数据挖掘的个性化信息服务相关技术的研究及应用 的信息需要和兴趣,向用户提供个性化的信息服务和主动信息服务,无论从理论研究 还是商业应用都具有非常重要的意义。 w 曲数据挖掘( w 曲d a t am i n i n g ) 简称w 曲挖掘【3 j ,它是数据挖掘技术在w 曲 环境下的应用,是从数据挖掘发展过来的集w e b 技术、数据挖掘、计算机技术、信 息科学等多个领域的一项新技术。w e b 挖掘就是从与w w w 相关的资源和用户浏览 行为中抽取感兴趣的、潜在有用的模式和隐藏的信息。根据挖掘对象的不同,可以将 w e b 挖掘分为三类 4 1 :w e b 内容挖掘( w | e bc o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r e m i n i n g ) 和w e b 使用挖掘( w e bu s a g em i n i n g ) 。如图1 1 所示: 文本 挖掘 w - e b 挖掘 w e b 内容挖掘liw e b 结构挖掘llw e b 使用挖掘 多媒体 挖掘 超链接il 页面结ii 用户浏览il w r e b 站点 挖掘 li 构挖掘ii 模式挖掘il 结构挖掘 图1 1w r e b 挖掘分类 w e b 挖掘是实现w e b 个性化信息服务的核心技术之一。w e b 使用挖掘是w e b 挖掘 的一种重要的挖掘方法,它在个性化信息服务中扮演着重要角色。w e b 使用挖掘是从 w e b 的访问记录中抽取用户感兴趣的模式0 通过对用户浏览网站的使用数据收集、分 析和处理,建立用户行为和兴趣模型,这些模型可以帮助理解用户行为,改进站点结 构以及为用户提供良好的个性化信息服务。由于个性化信息推荐服务所面i 临的关键问 题是需要对大量非注册用户的行为模型进行深层理解。传统的协同过滤方法很难处理 非注册用户的情况,而w e b 使用挖掘能较好处理这类问题;同时,借助于w e b 使用挖 掘可以从传统的基于使用数据的静态建模转换到基于用户操作行为的动态建模,在系 统里帮助改善用户的网络使用经验。因此,基于w e b 使用挖掘建立的个性化系统是实 ! 现良好个性化信息服务的一个非常有效的途径。 基于w e b 使用挖掘个性化信息服务站点实质上是一种以用户需求为中心的站点, 减少了用户无效点击操作,缩短了用户查找时间。图1 2 是基于w e b 使用挖掘的w e b 个性化信息服务系统结构: 2 济南大学硕士学位论文 图l 。2 基于w e b 使用挖掘的w e b 个性化信息服务系统结构 个性化信息服务站点的基础是具有强大数据分析处理功能的w e b 挖掘,它在当 前的信息分析技术中是最具有应用前景的一种技术,具有极大的商业价值,也将给计 算机科学诸多领域的发展带来深远影响。随着知识经济的发展,个性化信息服务技术 最终将成为一种向用户提供智能服务的有效手段,必将在人们的生活中褥到更广泛的 应用,扮演更重要的角色。 _ l 。2 研究现状及存在问题 随着i n t e m e t 应用迅速发展导致“信息过载 和“信息迷失 问题的出现,w e b 个性化技术已越来越受到人们的重视。国内外已经发展了许多个性化信息服务系统及 相关技术,以提高网站的组织结构及外观表现形式。为了给用户在w e b 上提供更方 便、更智能、更个性化的服务。到目前为止,所开发的比较著名的个性化信息服务系 统有: 1 v a n t i 系统利用自适应规则为每一组相同的用户访阀模式实现定制化。 2 f o o t p r i n t s 系统诤】:利用可视化技术,为用户提供w r e b 站点被频繁访问的路径。 3 s i t e h e l p 系统1 7 1 :分析每一个用户已经访闯的w 曲页,学习用户的兴趣模式, 从用户感兴趣的w e b 中提取关键词,然后,提供给用户,系统基于用户相关反馈技 术为用户推荐其它相关w e b 页。 4 w e b w a t c h e r 系统鸭采用跟踪用户浏览w e b 站点的行为或者访问路径方法, 学习用户的访问模式,将用户可能感兴趣的w e b 页面在线推荐给用户。 5 b a m s h a dm o b a s h e r 等人【9 】提出一种新的推荐w e b 推荐系统:该系统基于协同 特征和内容特征为用户提供个性化推荐服务。 6 n a s r a o u i 等人【1 0 】采用聚类用户访问模式方法,预测用户未来的访问行为。 3 基于数据挖掘的个性化信息服务相关技术的研究及应用 7 c o o l e y d e 等人【1 1 1 和b u c h n e r 等人【1 2 】利用数据挖掘技术从访问的l o g 文件中提取 用户的访问模式,用于市场决策和智能推荐服务。 8 s c h e c h t e r 等人【1 3 】户的访问路径模式预测用户未来可能的h t t p 请求,让代理服 务器执行预取操作,将相关w e b 页放入其c a c h e 中,以加快访问速度。还有, m o b a s h e r b c o o l e y r 等人【1 4 】通过u r l 聚类产生推荐的方法。 9 m o b a s h e r b ,d a i h 等人【坫】通过w e b 使用挖掘和w 曲内容挖掘结合提高推荐质 量的方法等。各种数据挖掘方法如关联规则技术,聚类挖掘技术被广泛的应用于w e b 日志分析中以提高个性化推荐服务质量。 到2 0 0 1 年,个性化信息服务研究已在商业领域得到越来越广泛的应用。纽约大 学g e d i m i n a sa d o a v i c i u s 和a l e x a n d e rt u z h i l i n 实现了个性化电子商务网站的用户建模 系统i p r o ;i b m 公司在其电子商务平台w e b s p h e r e 中增加了个性化信息服务功能, 以利于商家开发个性化电子商务网站;n e c 研究院的e r i cg l o v e r 等提出个性化元搜 索引擎原型系统i n q u i r u s 2 。清华大学冯翱等人提出了基于a g e n t 的个性化信息过滤系 统o p e nb o o k m a r k ;南京大学潘金贵等实现了个性化信息搜集智能体d o e t r i a g e n t 。 近几年以来,个性化信息服务逐渐从学术研究走向实际应用,很多电子商务网站 也注意到了个性化服务的巨大商机。但目前己存在的个性化信息服务系统大都基于特 殊领域进行,未考虑大部分领域与用户是否有新颖信息需求的偏好,对于建立用户的 访问模型未采用在线学习方式,不是动态更新。w 西包含丰富和动态的超链接信息及 w e b 页面的访问和使用信息,这为数据挖掘提供丰富资源的同时,也提出了新的挑战。 通过上面对当前w e b 个性化信息服务系统的构建及相关技术的分析,尽管w e b 使用挖掘技术已经在个性化信息服务系统中得到了广泛的应用,但是还存在着以下几 方面的问题【1 6 】: 1 用户识别:w e b 使用挖掘是以分析用户与网站的交互行为作为基础的,用户识 别是个性化信息服务系统中十分重要的处理步骤,用户识别的准确性将影响到随后获 得的用户访问模式的有效性和准确性。目前的w e b 个性化技术还不能很好地解决这 个问题,其中涉及识别准确度、实现复杂性以及用户隐私等多方面问题。 2 数据预处理问题:对w e b 访问日志进行有效的数据预处理非常重要。其中包括 数据清理、用户与会话识别、页面过滤、路径完善和用户事务模式识别。因l o g 文件 包含很多“噪声 ,必须过滤完“噪声”后再进行其它步骤。 3 性能评价问题:基于w e b 使用挖掘技术的个性化信息服务系统采用不同的分析 4 济袁大学硕士学位论文 技术,如何评价它们的建模效果以及系统最终的推荐质量也是一个非常重要的问题。 目前对于个性化信息服务系统的评价,不同的系统采用不同的方式和测试数据,因此 很难评价多个不同个性化信息服务系统服务质量的好坏。 4 用户浏览模式问题:浏览模式的生成、学习及进一步的处理是构建w e b 个性化 信息服务的依据和基础。选择合适的挖掘策略及相关算法的设计与选择是个性化系统 的核心。 5 。站点结构优化:进行站点结构优化时,如何对站点进行优化,使站点才能吸弓l 用户的注意是至关重要的。 1 3 课题主要研究内容 随着i n t e r n e t 技术和智能电子商务网的普及,人们希望能够快速准确的从w e b 页面中寻找自己需求的信息,这样的话,各电子商务网站设计者们也希望能够根据用 户偏好确定网站内容的设置、布局等,提高网站市场竞争力。w e b 个性化信息服务技 术能更好地理解用户的需求,发现用户隐藏的兴趣和群体用户的行为规律,从而制定 相应的信息过滤策略,按照用户的个性化信息服务需求进行主动式的信息服务。 目前对w e b 挖掘的研究着重于w e b 上传统的数据挖掘方法的运用,很多研究工作 没有足够关注w e b 使用数据的特征,这样会影响所获知识的质量。聚类分析是w e b 个性化的关键技术之一,根据用户行为的不同可将他们划分为不同群体,各个群体有 着明显的行为特性。寻求具有更强的鲁棒性、并行性且易于与其它挖掘方法结合的聚 类技术进行相似兴趣用户的聚类,成为w e b 个性化中的关键问题。 本课题研究内容主要是针对w e b 使用挖掘和个性化信息服务的理论与方法展开 研究。研究当前国际上w e b 挖掘情况的基础上,针对w e b 臼志文件数据的特点,对 已有的w e b 个性化信息服务系统体系结构进行了改进,并研究了数据预处理方法和聚 类挖掘算法,实现了一种对访问w e b 用户和w e b 页面的模糊聚类算法。课题研究首先 要收集站点访闫者的信息并对其进行分析,在此基础上个性化地改进站点的信息组织 与显示,把适当的信息提供给访问者,在不增加现有站点硬件设备的同时使站点更具 人性化,并可据此寻找设计的不合理之处,以备站点管理员进行修正,使网站建设更 加有的放矢,减少无效操作,缩短用户查找时间。w e b 个性化信息服务除可实现对用 户的页面推荐和电子商务网站中的商品推荐外,还可应用于互联网上多个应用领域。 5 基于数据挖掘的个性化信息服务相关技术的研究及应用 1 4 论文组织结构 本文一共分为6 章,各章具体内容安排如下: 第1 章为绪论,主要探讨了课题的研究背景,研究现状及存在问题,并给出了论 文的整体组织结构。 第2 章为w e b 使用挖掘及个性化服务相关技术研究,介绍了w e b 使用挖掘以及实现个 性化信息服务系统的相关技术基本技术,探讨了w e b 数据挖掘与个性化服务的相关理 论及涉及的一些关键技术和研究方向。 第3 章为w e b 使用挖掘中的聚类算法研究,本章主要介绍了聚类、模糊聚类、w e b 使用挖掘常见的算法,对模糊聚类进行了详细的介绍,并对一些聚类算法的优缺点做 了比较,从而选定模糊聚类算法来进行研究。 第4 章为算法设计与应用,本章主要对w e b 数据预处理过程以及模糊聚类理论和 技术进行了研究,针对其中遇到的具体问题展开对w e b 数据进行使用挖掘的研究思 路,给出了各项预处理过程的相关算法。并提出了w e b 使用挖掘技术的模糊聚类过 程模型。并用该模型在w e b 事务中对用户和页面聚类等方面进行了探索性研究。最 后研究了基于页面层次和偏好度获取浏览频繁路径的方法,并给出了相应算法和具体 应用实例。 第5 章为个性化信息服务系统体系结构,本章在已有的框架结构的基础上,探讨 了新的框架结构。将个性化信息服务系统框架进一步分为数据预处理模块、数据挖掘 模块、站点优化模块。 第6 章对本课题进行了回顾,总结了成果及不足和目前存在的局限,指出了后续 工作并对将来的发展作了展望。 6 济南大学硕士学位论文 第2 章w e b 使用挖掘及个性化服务相关技术研究 数据挖掘( d a t am i n i n g ) 是数据库系统及其应用的学科前沿。数据挖掘通紫又 称数据库中的知识发现班瓠,是自动的或方便的模式提取,这些模式代表隐藏在大型数 据库、数据仓库或其他大量信息存储中的知识。数据挖掘是一个多学科领域。这些学 科包括数据技术、人工智能、机器学习,神经网络、统计学、模式识别、知识库系统、 知识获取、信息检索等。随着数据处理工具、先进数据库技术以及万维网技术的迅速 发展,大量的形式各异的复杂类型的数据如结构化与非结构化数据、超文本与多媒体 数据不断的涌现。因此数据挖掘面临的一个重要课题是针对复杂类型数据的挖掘,这 包括空间数据、多媒体数据、时间序列数据、文本数据和w e b 数据,其中w e b 数据尤 为重要,也是我们课题所要研究的内容。 2 。1 数据挖掘 2 1 1 数据挖掘技术发展背景 数据库技术在2 0 世纪8 0 年代的辉煌使得它普及到人类活动的各个角落,成为各 行各业信息化建设的基本工具。经过2 0 多年的数据积累,存放在大型数据库中的海 量数据变成了难得再访问的数据档案。没有强有力的数据分析工具,理解这些数搌己 经远远超出了人的能力,同时计算枫网络的广泛应用,加上使用先迸的自动数据生成 和采集工具,人们所拥有的数据量急剧增大。i n t e r n e t 的迅猛发展使得网络上的各 种资源信息异常丰富,在其中进行信息的查找有如大海捞针。随着信息技术的发展, 信息以指数级的速度增长,而隐藏在其中的知识并没有很好的挖掘和利用,数据的迅 速膨胀与数据分析方法的滞后之闻的矛盾越来越突出,这种突出的矛盾称为“数据爆 炸而知识贫乏。人们迫切需要利用一种崭新的技术和工具智能地、自动地将数据转 换成有用的信息和知识,获取的信息与知识可以广泛应用,包括商业决策、生产控制、 市场分析、工程设计和科学探索等。 机器学习主要的研究问题在于如何通过大量的训练事例进行学习,产生知识。2 0 世纪9 0 年代机器学习成为研究的热点之一。将数据库和机器学习结合起来,就产生 了海量数据中的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) ,篙称k d d ,这就是 数据挖掘这个新兴的领域。 数据挖掘( d a t am i n i n g ) 技术是为了解决传统分析方法的不足,并针对大规模数 乍 基于数据挖掘的个性化信息服务相关技术的研究及应用 据的分析处理而出现的,它是架设在数据和信息之间的桥梁,通过数据挖掘工具可以 发现隐藏在大量数据中的丰富知识( 如规律、约束、模式等) 。数据挖掘是信息技术自 然演化的结果。数据挖掘可以广泛地用于各种应用,包括商务管理、生产控制、电子 商务、金融投资、欺诈甄别、市场行销、市场分析、科学探索和通信网路管理等。数 据挖掘有两个任务: 1 机器的数据库理解:将数据库变换为在表述上可为计算机理解的更为简洁的模 型,然后利用这个模型求解新问题。 2 数据库理解:根据需求简化数据并将其翻译为自然的表示形式( 数学公式,自然 语言与图表等) ,发现隐含在大量数据中的规律并使之为人理解。数据挖掘可以从实 例数据中直接导出规则,用于构造知识库;也可在数据库中对己有规则进行验证,因 此对知识库的维护和更新也是有用的。 2 1 2 数据挖掘定义 数据挖掘( d a t am i n i n g ) n 8 3 是从大量的、不完全的、有噪声的、模糊的和随机的 数据,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。 8 9 年开始出现数据挖掘以来,人们对数据挖掘在不同应用领域下过很多定义。随着 对数据挖掘研究不断深入,人们对数据挖掘的理解越来越全面,对数据挖掘的定义不 断修改。比较公认的定义有以下2 种: 定义i :数据挖掘就是要从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。 定义2 :是由f a y y a d 在1 9 8 9 年给出的,数据挖掘是从目标数据集合中识别出有 效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。这里,模式是指 用某种语言l 来表示的一个表达式e ,它可用来描述数据集f 中数据的特性,e 所描 述的数据是集合f 的一个子集f e 。e 作为一个模式要求它要比列举出数据子集f e 中 所有元素的描述方法简单。 2 1 3 数据挖掘的过程 数据挖掘的过程一般由3 个主要阶段组成n 引:数据准备、挖掘操作、结果的表述 和解释。数据准备阶段包括数据选择和样本数据处理。根据数据挖掘方法和工具的要 求选择合适的数据( 样本、训练集、测试集等) ,并对选择的数据进行预处理( 离散化、 8 济南大学硕士学位论文 连续化、编码等) 。挖掘操作包括规则发现和规则分析及建模。首先将确定的数据挖 掘算法在预处理屠的数据中执行,得到相应的结果( 规则) ,秀对结果进行辨证分析并 将其用于预测、预报等建模工作中。结果的表述和解释阶段是将建模的结果以容易理 解的、能够接受的形式展现给用户,为用户提供满意的决策支持。 2 1 4 数据挖掘常用技术和方法 数据挖掘技术是多学科的综合,它涉及到统计学、集合论、逻辑学、信息论、人 工智能等学科理论,并结会各自的特点和应用提出了各种各样的挖掘技术和方法。但 从构成大多数挖掘系统的基础来看,实际上只有几种基本技术。根据数据挖掘的方法 分,可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中, 可细分为:回归分析( 多元回归、自回归等) 、判别分析( 贝叶巍判别、费歇尔判别、 非参数判别等) 、聚类分析( 系统聚类、动态聚类等) 、探索性分析( 主元分析法、相 关分析法等) 、以及模糊集、粗糙集、支持向量机等。机器学习方法中,可细分为: 归纳学习方法( 决策树、规则归纳等) 、基于范例的推理c b r 、遗传算法、贝叶斯信 念网络等。神经网络方法,可细分为:前向神经网络( b p 算法等) 、自组织神经网络 ( 自组织特征映射、竞争学习等) 等。数据库方法主要是基于可视化的多维数据分析 或o l a p 方法,另外还有面向属性的归纳方法。常用数据挖掘的方法简介如下: 1 神经网络方法潮 神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度 容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型 的神经网络模型主要分3 大类:以感知机、b p 反向传播模型、函数型网络为代表的, 用于分类、预测和模式发现的蓠馈式神经网络模型;以h o p f i e l d 的离散模型和连续 模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型:以a r t 模型、 k o h o l o n 模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是”黑箱” 性,人们难以理解网络的学习和决策过程。 2 。遗传传算法口 遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是神仿生全局 优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖 掘中被加以应用。s u n i l 已成功地开发了一个基于遗传算法的数据挖掘工具,利用该 工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数 9 基于数据挖掘的个性化信息服务相关技术的研究及应用 据挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗糙集等技术的结合 上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的链接 和隐含层单元;用遗传算法和b p 算法结合训练神经网络,然后从网络提取规则等。 但遗传算法的算法较复杂,收敛于局部极小的较早等收敛问题尚未解决。 3 决策树方法 决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到 一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规 模的数据处理。最有影响和最早的决策树方法是由q u i n l a n 提出的著名的i d 3 算法。 它的主要问题是:i d 3 是非递增学习算法;i d 3 决策树是单变量决策树,对复杂概念 的表达困难;对同性间的相互关系强调不够;抗噪声性差。针对上述问题,出现了许 多较好的改进算法,如s c h l i m m e r 和f i s h e r 设计了i d 4 递增式学习算法;钟鸣、陈 文伟等提出了i b l e 算法等。 4 粗糙集方法 粗糙集理论是一种研究不精确、不确定知识的数学工具。粗糙集方法有几个优点: 不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗糙集处理 的对象是类c a - - 维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的 数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗糙集的数学基础是集 合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的,因此连续 属性的离散化是制约粗糙集理论实用化的难点。现在国际上已经研制出来了一些基于 粗糙集的工具应用软件,如加拿大r e g i n a 大学开发的k d d r ;美国k a n s a s 大学开发 的l e r s 等。 5 统计分析方法 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定性关系) 和相关关系( 不能用函数公式表示,但仍是相关确定性关系) ,对它们的分析可采用统 计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计( 求大量 数据中的最大值、最小值、总和、平均值等) 、回归分析( 用回归方程来表示变量间的 数量关系) 、相关分析( 用相关系数来度量变量间的相关程度) 、差异分析( 从样本统计 量的值得出差异来确定总体参数之间是否存在差异) 等。 6 模糊集方法 即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式发现和模糊 l o 济南大学硕士学位论文 聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是厢隶属度来刻画模 糊事物的亦此亦彼性的。 7 聚类 聚类( c l u s t e r i n g ) 是一个将数据集划分为若干组( c l a s s ) 或类( c l u s t e r ) 的过程, 并使得同一个组内的数据对象具有较高的相似度;磊不同组中的数据对象是不相似 的。聚类分析是一种重要的人类行为。通过聚类,人们能够识别出共性和个性的东蘑, 从孺能够归纳、分析、推理出整体中蕴涵的知识。由于聚类技术能够分析海量数据, 在许多领域有着广泛的应用,各方蘧的研究工作也在逐步的进行,并且一些采用聚类 技术的应用软件已经推向了市场,其中比较热点的应用包括生物学、医学、商务、 i n t e r n e t 、证券、e r p ( 企业资源计划) 等领域,本课题中,我们将对各种聚类算法进 行了比较,然后将模糊聚类算法应用到个性化信息服务的数据挖掘中。聚类是一个富 有挑战性的研究领域,它的潜在应用提出了各自特殊的要求。与其它数据库对象不同, 聚类目标往往是高维稀疏、菲结构化( 或半结构化) 数据,其挑战性和特殊性不言而喻。 数据挖掘对聚类的典型要求如下: ( 1 ) 针对大数据集的处理能力 聚类分析的对象往往是大数据集合样本,所以在算法设计中,应该注意偏差累积 和效率问题。 ( 2 ) 对高属性维数据的处理能力 对于一个聚类闷题,假设有n 个对象,描述每个对象的属性有m 个,每一个属性 对应一个维,当m 比较大,并且每一个对象都有很大一部分属性的取值为零,那么该 聚类问题为高属性维稀疏聚类问题。 ( 3 ) 对象分布形状不规爨| j 的处理能力 聚类整体往往是不均匀的,存在着稀疏区域和密集区域。这就要求算法能发现任 意形状的簇。 ( 4 ) 对异常值的处理能力 绝大多数现实世界的数据库都包含了孤立点、空缺、未知数据或者错误的数据。 算法要求能够兼容异常数据,不会对聚类过程和结果造成大的波动。 ( 5 ) 聚类结果的表达与解释 用户希望聚类结果是可解释的、可理解的、和可用的。也就是说,聚类的结果应 该和应用目标相联系,并且可以用来改进应用质量。 基于数据挖掘的个性化信息服务相关技术的研究及应用 2 2w e b 数据挖掘 2 2 1w e b 挖掘 w e b 数据挖掘是指在w w w 上挖掘有趣的、潜在的、蕴藏的信息以及有用模式的过 程。与传统的数据挖掘相比,w e b 数据挖掘有自身的特点:首先,w e b 挖掘的对象是 海量的、异构的、分布的文档。其中对w e b 服务器上的日志和用户信息等数据开展 的挖掘,仍然属于传统的数据挖掘的范畴。其次,w e b 在逻辑上是一个由文档节点和 超链接构成的图,因此w e b 的挖掘所得到的模式可能是关于w e b 内容的,也可能是关 于w e b 结构的。再者,由于w e b 文档是半结构化或无结构的,且缺乏机器理解的语义, 而数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现 知识,因此有些数据挖掘技术并不能直接的应用于w e b 数据挖掘,需要对w e b 文档进 行预处理。 2 2 2w e b 挖掘的分类 按照挖掘对象的不同,一般将w e b 挖掘分为3 大类:w e b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论