




已阅读5页,还剩51页未读, 继续免费阅读
(教育技术学专业论文)数据挖掘在用户行为分析中的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电火学硕士学位论文 数据挖掘在用户行为分析中的研究与应用 摘要 随着信息技术的发展,各行业的信息系统数年来收集了海量数 据,且数据还正以指数级增长,这些海量数据中包含大量和用户相关 的信息。及时、精确地从这些海量信息中发现有用的知识,挖掘出这 些数据背后隐含的模式,能够帮助企业决策市场战略,留住已有的用 户并且吸引新的用户,帮助企业在市场竞争中取得先机。本文采用数 据挖掘的方法对企业用户相关数据进行用户行为分析,找出隐藏其中 的规律和模式。并从基于数据挖掘的运营商v i p 客户用户行为分析和 远程教育学生用户行为分析两个方面进行说明。 移动通信市场竞争的日益激烈,使得v i p 用户越来越成为电信运 营商的争夺焦点。如何吸引并留住最有价值的v i p 用户和发展潜在 v i p 用户,已经成为电信运营商竞争的关键。在本文中我们采用数据 挖掘的方法对v i p 用户的现网数据进行用户行为分析,找出v i p 用 户行为特征,提出合适的算法和模型,为业务提供方制定v i p 用户营 销策略提供依据。 同样在远程教育领域,由于i n t e r n e t 和w e b 技术的发展,远程教 育已经成为网络研究和应用的热点之一,而现在远程教育系统模式单 一,大都以系统自身为中心,学生只是被动地接受完全相同的学习内 容,并没有真正体现出个性化教育的优势。在本文中我们以学习者个 别差异为出发点,以学习者的需求、兴趣爱好为中心,采用w e b 数 据挖掘的方法对远程教育系统的日志数据进行用户行为分析。找出远 程教育学习者的用户行为特征,为构建个性化远程教育学习环境提供 依据,实现远程教学的按需学习和因材施教的要求。 育 关键词:数据挖掘;用户行为分析;决策树;时间序列;远程教 北京邮电大学硕士学位论文 r e s e a r c ha n d a p p l i c a t i o no fd a t am i n i n gt e c h n o l o g y u s e di nt h ea n a l y s i so fv i pu s e rb e h a v i o r a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , t h ei n f o r i l l a t i o n s y s t e m so fm a n yi n d u s t r i e sh a v ec o l l e c t e dah u g ea m o u n to fd a t at h e s e y e a r s t h e s ed a t ai n c l u d ea1 0 to fi n f o r m a t i o na b o u tt h ec u s t o m e r sa n d i n c r e a s e e x p o n e n t i a l l y t h u s ,h o w t o a c c u r a t e l y f i n do u tu s e f u l k n o w l e d g ea n dd i s c o v e rt h ei m p l i c i tm o d eo ft h ed a t at i m e l yc a l lh e l pt h e e n t e r p r i s e st of o r m u l a t et h es t r a t e g i e so fm a r k e t ,t ok e e pt h ef o r m e r c u s t o m e r s ,t oa t t r a c tn e wc u s t o m e r sa n dt ot a k et h ep r e e m p t i v e o p p o r t u n i t i e s b a s e do nt h eb e h a v i o ro fc u s t o m e r s ,t h i st h e s i sa n a l y s e s r e l a t i v ed a t ao ft h ee n t e r p r i s e su s e r sb ya d o p t i n gt h em e t h o do fd a t a m i n i n gt od i s c o v e rt h ec o n c e a l e dl a wa n dm o d e t h ea n a l y s i si sb a s e do n t h eb e h a v i o ro fv i pc u s t o m e r so ft h eo p e r a t o r sa n ds t u d e n t sw h or e c e i v e d ad i s t a n c ee d u c a t i o n b e c a u s eo ft h ec o m p e t i t i o no ft h em o b i l ec o m m u n i c a t i o n sm a r k e t s i n c r e a s i n gf i e r c e l y , v i pc u s t o m e r sh a v eb e c o m et h ef o c u so fc o m p e t i t i o n f o rt h et e l e e o m m u n i c a t i o nb u s i n e s s h o wt oa t t r a c ta n dr e t a i nt h em o s t v a l u a b l ev i pc u s t o m e r sa n dd e v e l o pt h ep o t e n t i a lv i pc u s t o m e r sh a s b e c o m et h ek e yo ft h ec o m p e t i t i o n i nt h i sp a p e rw eu s e dd a t am i n i n g m e t h o d st oa n a l y z et h en e t w o r kd a t a o fv i pc u s t o m e r s ,f i n dt h eb e h a v i o r o fv i pc u s t o m e r s ,a n dm a k et h er i g h ta l g o r i t h m sa n dm o d e l st op r o v i d e t h eb a s i sf o rb u s i n e s sp r o v i d e r st od e v e l o pm a r k e t i n gs t r a t e g y i nt h el i g h to fd i s t a n c ee d u c t i o n ,d i s t a n c ee d u c t i o nh a sb e e na f o c u so fn e t w o r kr e s e a r c ha n da p p l i c a t i o n ,a st h ed e v e l o p m e n to fi n t e m e t a n dw e bt e c h n o l o g y h o w e v e r a sd i s t a n c ee d u c t i o ni nr e c e n td a y si s o n e s y s t e mm o d e l ,f e a t u r i n gi t so w ns y s t e m ,t h es t u d e n t sh a v e t or e c e i v e t h e c o m p l e t e l ys a m el e a r n i n gp a s s i v e l y t h u s ,i td o e s n t r e f l e c tt h e a d v a n t a g e so fc h a r a c t e r i s t i ce d u c a t i o n i nt h i st h e s i s ,c o n s i d e r i n gt h e i n d i v i d u a ld i f f e r e n c e sa n de m p h a s i n go nt h ed e s i r e sa n di n t e r e s t so ft h e l e a r n e r s ,w ea n a l y s et h ed a t ao fd i s t a n c ee d u c m i o ns y s t e mt h r o u g ht h e m e t h o do fw e bd a t am i n i n g ,w h i c hi sb a s e do nt h eb e h a v i o ro fc u s t o m e r s i i 北京邮电大学硕士学位论文 w ef i n do u tt h ec h a r a c t e r i s t i c so ft h eb e h a v i o ro ft h ed i s t a n c ee d u c m i o n l e a r n e r st op r o v i d et h eb a s i sf o rt h el e a r n i n ge n v i r o n m e n to fc h a r a c t e r i s t i c d i s t a n c ee d u c a t i o na n dm a k et h es t u d e n t sl e a r ni na c c o r d a n c eo ft h e i r a p t i t u d ew h i c hi sn e c e s s a r yi nd i s t a n c ee d u c m i o n k e y w o r d s :d a t am i m n g ,u s e rb e h a v i o ra n a l y s i s ,d e c i s i o nt r e e ,t i m e s e r i e s ,d i s t a n c ee d u c m i o n i 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。 申请学位论文与资料若有不实之处, 本人签名:j 乏垄牮i 一 本人承担一切相关责任。 日期: ! i :! :! 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:耋丝佳日期:! ! :! 型 导师签名:生罐 日期: 哟:墨,z2 北京邮电大学硕上学位论文 1 1 课题来源及研究的意义 第一章绪论 信息系统数年来收集了海量数据,且数据还正以指数级增长,企业迫切地需 要高效、精确、科学地分析数据,以找出其背后的寓意,进而了解企业的经营状 况和外部环境,做出科学的决断,在现代激烈的竞争中胜出,所以,如何将数据 点石成金,是摆在我们面前的一个很现实也很诱人的一个问题。 电信市场面临着巨大的竞争压力,在v i p 客户市场尤为突出。统计表明,v i p 客户是电信运营商收入的主要来源,电信运营商8 0 的收入来自于占客户总数 2 0 的v i p 客户。v i p 客户对于电信运营商具有无与伦比的重要性,如何吸引并 留住对企业最有价值的v i p 客户,已经成为电信运营商竞争的焦点。如何发展和 保留v i p 客户,并为其提供个性化的营销服务,是电信运营商需要不断注意并要 解决好的焦点问题,因此建立起一个更全面,更系统的v i p 客户用户行为分析系 统势在必行。 为了吸引并留住最有价值的v i p 客户和发展潜在v i p 客户,我们采用数据挖 掘的方法对现网中v i p 客户的现网数据进行分析,找出v i p 用户行为特征,提出 合适的算法和模型,为业务提供方制定v i p 用户营销策略提供依据。而现网数据 往往是不完整,有噪声,零乱的,不能直接进行挖掘,我们需要先将这些数据进 行提取,整合,加载构建合适的数据仓库或进一步构建多维立方体,以便进行后 序的数据挖掘。 同样在远程教育领域中,远程教育模式给学生的学习带来了极大的便捷,使 学生可以足不出户进行学习,但这也造成了远程教育中教的行为与学的行为的时 空分离。在教师和学生时空分离的情况下,学生不能像在传统的教室中那样,可 以得到教师直接和接续的指导。现在的远程教育忽略了学生的学习是一个个性的 过程。教师和学生不能面对面的进行人际交互,教师也不能及时通过观察和交流 来了解学生的学习过程。没法做到因人而异、因材施教、兼顾到个体的差异。因 此在远程教育的教学过程中给学生提供个性化的服务是非常必要的。为了能满足 学生个性化的需要,使远程教育系统能够根据学生的需求、兴趣爱好、能力差异 等特点,智能化地为学生选择对应的学习资源,提供智能化的学习指导,并根据 用户的需求变化,动态地改变所提供的资源信息和服务内容。我们对远程教育系 统学生的用户行为进行挖掘分析,挖掘出化学习用户的行为习惯,兴趣和学习特 征等模式规律,便于远程教育系统根据挖掘出的模式规律有针对性的对学生提供 北京邮电大学硕士学位论文 个性化的学习资源和服务。 不同行业有其自身的特点,因此在对不同行业的用户行为进行分析时,要把 握其用户行为的特点和行业特性,进行分析比较。 1 2 国内、外研究现状 1 2 1 数据挖掘概述 近几十年来,人们利用信息技术进行生产和搜集数据的能力大幅度提高u 1 , 千万个数据库被用户商业管理、政府办公、科学研究和工程开发等,并且这一势 头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称为信息爆炸的 时代,信息过量几乎成为人人需要面对的问题,如何才能不被信息的汪洋大海所 淹没,并从中及时发现有用的知识,提高信息利用率呢? 要想使数据真正成为一 个企业的资源,只有充分利用它为企业自身的业务决策和战略发展服务才行,否 则大量的数据可能成为包袱,甚至成为垃圾。因此,虽然人们即将被数据淹没, 却饥饿于知识的挑战的险境,于是,数据挖掘和知识发现技术应运而生,并得以 蓬勃发展,越来越显示出强大的生命力。 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、统计学技 术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在模 式,预测客户的行为,帮助企业的决策者调整市场策略以减少风险,做出正确的 决策。数据挖掘并不是一项全新的技术,它的出现与发展有其自身的必然性。随 着公司数据库的猛增,特别是数据仓库的出现,原有的数据库工具己无法满足用 户的需求,用户不仅需要一般的查询和报表工具,更需要的是那些能够帮助他们 从浩如烟海的数据中提取出高质量信息( 预测性) 的工具,数据挖掘的出现和发展 正好符合了这一潮流。它也是当前数据库和信息决策领域的最前沿研究方向之 一。 从技术层面上讲,数据挖掘是指从大量数据中提取隐含的、先前未知的并有 潜在价值的信息和规律的过程。数据挖掘( d a t am i n i n g ) 是一种决策支持过程瞄。, 它通过对大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助 商业决策的关键性数据,做出归纳性的推理,从中挖掘出潜在的模式,为管理层 提供决策支持,帮助企业的决策者调整市场策略,做出正确的决策。数据挖掘是 一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术。它能开采出潜 在的模式,找出最有价值的信息,指导商业行为或辅助科学研究。并可从数据库 中发现知识、数据分析、数据融合等。原始数据可以是结构化的,如关系数据库 2 北京邮电大学硕士学位论文 中的数据,也可以是半结构化的,如文木、图形、图像数据。 从商业层面上讲,数据挖掘又可以描述为:按企业既定业务目标,将大量的 企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步 将其模型化的先进有效的方法。数据挖掘是种新的商业信息处理技术,其主要特 点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理, 从中提取辅助商业决策的关键性数据,由于各行业业务自动化的实现,商业领域 产生了人量的业务数据,所有企业面临的一个共同问题是:企业数据量非常大, 而从其中发现真正有价值的信息却很少,这些数据占据了宝贵的资源却没有得到 充分的应用。而数据挖掘能够帮助企业从大量的数据中经过深层分析,获得有利 于商业运作、提高竞争力的信息。 1 2 2 数据挖掘技术现状 数据挖掘所能发现的知识有以下几种h 。: 广义型知识:反映同类事务共同性质的知识: 特征型知识:反映事物各方面的特性知识: 差异型知识:反映不同事物之间属性差别的知识: 关联型知识:反映事物之间依赖或关联的知识: 预测型知识:根据历史的和当前的数据推测未来数据: 偏离型知识:揭示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微 观到中观再到宏观,以满足不同用户、不同层次决策的需求。例如:从一家超市 的数据仓库中,可以发现一条典型关联规则可能是“买面包和黄油的顾客十有八 九也买牛奶一,也可能是“买食品的顾客几乎都用信用卡 ,这种规则对于商家开 发和实施客户化的销售计划及策略是非常有用的。至于发现的工具和方法,常用 的有分类、聚类、模式识别、可视化、决策树、遗传算法、不确定性处理等。 数据挖掘涉及的学科领域和方法很多,有多种分类方法。根据数据挖掘任务 分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发 现、依赖关系或依赖模型发现、异常和趋势发现等等:根据挖掘对象分,有关系 数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据 库、异质数据库、遗产数据库、以及互联网w e b :根据数据挖掘方法分,可以粗 分为机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细 分为归纳学习方法( 决策树、规则归纳等等) 、基于范例学西、遗传算法等。在统 计方法中,可细分为回归分析( 多元回归、自回归等) 、判别分析( 贝叶斯判别、 费歇尔判别、非参数判别等) 、聚类分析( 系统聚类、动态聚类等) 、探索性分析( 主 北京邮电大学硕士学位论文 元分析法、相关分析法等) 等。神经网络方法中,可细分为前向神经网络( b p 算 法等) 、自组织神经网络( 自组织特征映射、竞争学习等) 等。数据库方法主要是 多维数据分析或o l a p 方法,另外还有面向属性的归纳方法。 目前应用比较广泛的主要有关联分析,分类分析,回归分析,时间序列分析 等方法,每种方法都解决了不同类型的问题。 1 2 3 数据挖掘与o l a p 分析 联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快 速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性 的存取,允许管理决策人员对数据进行深入观察。决策数据是多维数据,多维数 据就是决策的主要内容。o l a p 专门设计用于支持复杂的分析操作,侧重对决策 人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大 数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人 员,以便他们准确掌握企业( 公司) 的经营状况,了解对象的需求,制定正确的 方案。 联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示 等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅 速做出正确判断。它可用于证实人们提出的复杂的假设h 。,其结果是以图形或 者表格的形式来表示的对信息的总结。它并不将异常信息标记出来,是一种知识 证实的方法。 数据挖掘与o l a p 不同的地方是,数据挖掘不是用于验证某个假定的模式( 模 型) 正确性,而是在数据库中自己寻找模型,它在本质上是一个归纳的过程。比 如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素h 。,数据挖 掘工具可能帮助找到高负债和低收入是引起这个问题的因素,甚至还可能发现一 些分析师从来没有想过或试过的其他因素,比如年龄。数据挖掘和o a l p 具有一 定的互补性。在利用数据挖掘出来的结论采取行动之前,要验证一下如果采取这 样的行动会给公司带来什么样的影响,那么o l a p 工具能回答这些问题。而且在 知识发现的早期阶段,o l a p 工具还有其他一些用途。如可以帮助探索数据,找 到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都能 帮助更好的理解数据,加快知识发现的过程。 1 2 4 数据挖掘与数据仓库的关系 数据仓库拥有以下四个特点: 4 北京邮电大学硕士学位论文 1 面向主题。数据仓库中的数据是按照一定的主题域进行组织。主题是一个 抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通 常与多个操作型信息系统相关。 2 集成的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基 础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证 数据仓库内的信息是关于整个企业的一致的全局信息。 3 相对稳定的。数据进入数据仓库以后,一般情况下将被长期保留,也就 是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期 的加载、刷新。 4 反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数 据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点( 如开始应 用数据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发 展历程和未来趋势做出定量分析和预测。 在大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数 据集市中。从数据仓库中直接得到进行数据挖掘的数据有许多好处w 。数据仓 库的数据清理和数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的 数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖 掘时就没必要再清理一次了,而且所有的数据不一致的问题都己经解决了。数据 挖掘可能时数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库 不可。但如果数据仓库的计算资源已经很紧张,那最好还是建立一个单独的数据 挖掘库,这样能够保障实施的效率。 1 3 论文的内容结构 论文从构建用户行为分析的挖掘模型系统开始,讨论了数据挖掘算法在用户 行为分析中的应用,并结合v i p 客户用户行为分析和远程教育学生用户行为分析 这两个案例来分析说明。论文分为五章,主要内容如下: 第一章绪论:概述了课题来源及研究的目的和意义,以及国内外对数据挖掘 在用户行为分析上的研究现状。 第二章相关理论及技术:简要介绍了数据挖掘的基本理论。通过文献分析, 主要概述了数据挖掘的产生、定义、功能和常用算法等。 第三章构建用户行为分析通用挖掘模型:主要介绍了构建用户行为分析通用 挖掘模型系统的流程和用于用户行为分析的常用数据挖掘算法。 北京邮电大学硕士学位论文 第四章运营商v l p 客户用户行为分析:介绍了运营商v l p 客户用户行为分析 数据来源入及类别,并做了三个专题分析,分别是基于决策树的v i p 客户业务定 制分析,基于时序算法的各级别用户每日业务收益预测分析,基于时序算法的各 级别用户每月业务收益预测。 第五章远程教育学生用户行为分析:介绍现远程教育体系与学生个体化需求 之间的矛盾,分析挖掘模型数据来源及数据处理的方法。就基于关联规则算法的 知识点关联分析和基于聚类算法的关键字检索分析进行了详细的说明。 第六章总结:对论文做了总结,对实验结果的适用性做了恰当的分析,并提 出了论文需要进一步研究和改进的地方。 6 北京邮电大学硕士学位论文 2 1 数据挖掘 2 1 1 数据挖掘的功能 第二章相关理论及技术 数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖 掘的目标是从数据库中发现隐含的,有意义的知识,数据挖掘技术指出,面对快 速增长的数据收集而没有强有力的工具,数据库中的数据就会形成数据坟墓。数 据挖掘技术通过对数据的清理和集成、选择和变换、建立知识库和模式评估等过 程将“数据坟墓 转变为金子。有一种说法:所谓数据挖掘实际上是从“数据库 中挖掘知识 ,是挖掘已有数据的描述性作用和对发展的预测性作用。 主要有以下五类功能。 1 自动预测趋势和行为 数据挖掘在大型数据库中自动寻找预测性信息,以往需要进行大量手工分析 的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题, 数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户。 2 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量 的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏 的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此 关联分析生成的规则带有可信度。 3 聚类 数据库中的记录被化分为一系列有意义的子集,即聚类。聚类增强了人们对 客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的 模式识别方法和数学分类学。8 0 年代初m c h a l s k i 提出了概念聚类技术,其要点 是:在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描 述,从而避免了传统技术的某些片面性。一些特定症状的聚集可能预示了一个特 定的疾病,租v c d 类型不相似的客户聚集,可能暗示成员属于不同的文化群。聚 集通常作为数据挖掘的第一步,例如,“哪一种类的促销对客户响应最好? 对 于这一类问题,首先对整个客户做聚集,将客户分组在不同的聚集里,然后对每 个不同的聚集回答问题,可能效果会更好。 4 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概 7 北京邮电大学硕士学位论文 念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述 不同类别对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象 的共性。生成区别性描述的方法很多,如决策树方法,遗传算法等。 5 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏 差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与 模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结 果与参照值之间有意义的差别。 2 1 2 数据挖掘的步骤 数据挖掘是一个利用各种数据分析工具在海量数据中发现模型和数据间关 系的过程,这些模型和关系可以用来做出预测。在实施数据挖掘之前,先制定采 取什么样的步骤,每一步都做什么,达到什么样的目标是必要的。有了好的计划 才能保证数据挖掘有条不紊的实施并取得成功。很多软件供应商和数据挖掘顾问 公司都提供了一些数据挖掘过程模型,来指导用户来一步一步的进行数据挖掘工 作。 f 0 1 基本数据挖掘步骤一般包括以下三个部分旧。:数据的准备、模型的建立、模 型的验证和评价。 1 数据的准备 数据的准备包括数据取样,数据特征探索,分析和预处理,同时要明确问题, 选择合适的数据,必要时要进行调整。具体来说,例如计算统计变量( 比如平均 值、均方差等) ,再用图表或图片直观的表示出来,可以看出一些变量之间的相 关性( 比如有一些值经常同时出现) 。选择正确的数据源对整个数据挖掘项目的成 败至关重要。 数据取样要把好数据的质量关,在任何时候都不要忽视数据的质量,即使是 从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。因为数据挖掘的 目的是要探索企业运作的规律性的,如果源数据有误,则还谈什么从中探索规律 性? 若真的从中还探索出了什么“规律性”,再依此去指导工作,则很可能是在进 行误导。若是从正在运行着的系统中进行数据取样,则更要注意数据的完整性和 有效性。 2 建立模型 这一步是数据挖掘工作的核心环节,对建立模型来说,要记住的最重要的事 情就是它是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对商业问 题最有用。在寻找好的模型的过程中学到的东西会启发修改数据,甚至改变最初 8 北京邮电大学硕士学位论文 对问题的定义。 一旦决定了数据挖掘的类型之后,就需要选择模型的类型。模型的类型可能 是一颗决策树、神经网络、甚至传统的数学统计。选择什么样的模型决定了需要 对数据作那些预处理工作。如神经网络需要作数据转换,有些数据挖掘工具可能 对输入数据的格式有特定的限制等。一旦所有的数据准备好之后,就可以开始训 练模型了。 就目前的技术发展水平而言,数里统计方法还是数据挖掘中最常用的主流技 术手段。市场上很多的软件供应商和数据挖掘咨询公司一般都提供了很多的软件 包,包含有很多实用数理统计方法。而在数据挖掘模型中使用哪一种方法,具体 用软件包的什么方法来实现,主要取决于数据集的特征和要实现的商业目标。实 际上,这种选择也不是唯一的,可以多试几种方法,从具体的实际中选出最适合 的方法和软件。 3 验证和评价模型 从上述过程中将会得出一系列的分析结果、模式或模型,评价的办法之一就 是直接使用原来建立模型的样板数据来进行检验。假如这一关就通不过的化,那 么决策支持信息的价值就不太大了。一般来说,在这一步应得到较好的评价。这 说明确实从这批数据样本中挖掘除了符合实际的规律性。 另外一种办法就是另找一批数据,已知这些数据反映了客观实际的规律性。j 这次的检验效果可能会比前一种差。差多少是要注意的。若是差到不能容忍的程 度,那就要考虑第一次构建的样本数据是否具有充分的代表性或是否是模型本身 不够完善。这时候可能要对前面的工作进行反思了。若这一步也得到肯定的结果;j 那数据挖掘应得到很好的评价了。 再一种办法是在实际运行的环境中取出新鲜数据进行检验。如在一个应用实 例中,就进行了一个月的现场实际检验。 一般来说,使用模型得到的如果是一个直接的结论,则当然很好,但是,实 际上这种情况非常少,更多的时候得出的是对目标问题多侧面的描述,这时候就 要能很好的总结它们的规律性,提供合理的决策支持信息。所谓合理,实际上往 往是要在所付出的代价和达到预期目标的可靠性的平衡上做出选择。假如在数据 挖掘过程中,就遇见到最后要进行这样的选择的话,那么最好把这些平衡的指标 尽可能的量化,以利于综合抉择。 在实际应用中,随着应用数据的不同,模型的准确率肯定会有所变化。更重 要的是,准确度自身并不一定是选择最好模型的正确评价方法,需要进一步的了 解错误的类型和由此带来的相关费用的多少。在实际应用中,如果每种不同的预 测错误所需付出的代价也不同的话,那么代价最小的模型就是我们所要选择的。 9 北京邮电大学硕士学位论文 模型解释的另一个重要组成部分是确定模型的价值。一个模型可能看起来是很有 意义的,但要实施它有可能花的钱比赚的钱多,则我们要考虑投资效益率的问题。 4 模型的实施 模型建立并经过验证之后,可以有两种主要的是使用方法。第一种是提供给 业务人员或分析人员做参考,通过查看和分析这个模型后提出行动方案建议。比 如,可以把模型检测到的聚集、模型中蕴涵的规则或表明模型效果的r o i 图表拿 给分析人员看。另一种是把此模型应用到不同的数据集上。模型可以用来表示一 个事例的类别。还可以用模型在数据库中选择复合特定要求的记录,并用o a l p 工具做进一步的分析。这里需要指出的是,上面的各个步骤按顺序排列,要注意 数据挖掘过程并不是线性的,要取得好的结果就要不断重复这些步骤。比如在“建 立模型”时,可能觉得在“数据预处理”时做的不够好,或者是往里面添加一些 新的数据。 当提交一个复杂的应用时,数据挖掘可能只是整个产品的小部分,虽然可能 是最关键的一部分。例如,常常把数据挖掘得到的知识与领域专家的知识结合起 来,然后应用于数据库中的数据。在欺诈检测系统中,包含了数据挖掘发现的规 律,也有人们在实践中早己总结出的规律。 2 2w e b 数据挖掘 2 2 1w e b 数据挖掘概述 因特网是目前世界上最丰富和最密集的信息来源,也是人们获得信息的重要 手段。随着w e b 站点的规模和复杂度的增加,如何利用w e b 上的信息源,发现对 个体有价值和感兴趣的信息,成为人们研究的重点。由于w e b 信息中许多数据是 半结构和无结构的( 如图像、声音等多媒体数据流) ,相对于数据库中清晰的结构 化数据。这些数据混杂地存在于w e b 中,传统的搜索引擎已经不能够满足在w e b 知识搜索的需要。更不要说w e b 上的知识发现n 。,因此将数据挖掘的术引入w e b 中,成为解决这个问题的一个方式。可以使w e b 信息检索发展到更高一层的水平 上。 w e b 数据挖掘,简称w e b 挖掘,是数据挖掘技术在w e b 环境下的应用,从因 特网及其相关资料和行为中提取有用的模式和隐含信息。w e b 上信息的多性决定 了w e b 挖掘任务的多样性。目前,国际上对w e b 挖掘的研究主要集中在:搜索引 擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取以及 w e b 上新型应用的研究等。应用领域中通用的w e b 挖掘工具还比较少,主要分为 1 0 北京邮电大学硕士学位论文 文本信息挖掘工具和用户访问模式挖掘工具。 按照处理对象的不同,w e b 挖掘一般可以为三大类:w e b 内容挖掘、w e b 结构 挖掘和w e b 使用挖掘。 w e b 内容挖掘 w e b 内容挖掘指从w e b 内容数据文档中发现有用信息,w e b 上的信息五花 八门,传统的i n t e r n e t 由各种类型的服务和数据源组成,包括嗍、f t p 、t e l n e t 等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子 商务数据,以及其他通过各种w e b 可以访问的数据库。w e b 内容挖掘的对象包括 文本、图像、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文 本进行的w e b 挖掘被归类到基于文本的知识发现( 1 ( d t ) 领域,也称文本数据挖 掘或文本挖掘,是w e b 挖掘中比较重要的技术领域,也引起了许多研究者的关注。 最近在w e b 多媒体数据挖掘方面的研究成为另一个热点。 w e b 内容挖掘一般从两个不同的观点来进行研究。 从资源查找( i r ) 的观点来看,w e b 内容挖掘的任务是从用户的角度出发, 怎样提高信息质量和帮助用户过滤信息。 而从d b 的角度讲w e b 内容挖掘的任务主要是试图对w e b 上的数据进行集成、 建模,以支持对w e b 数据的复杂查询。 w e b 结构挖掘 w e b 结构挖掘的对象是w e b 本身的超连接,即对w e b 文档的结构进行挖掘。 对于给定的w e b 文档集合,应该能够通过算法发现他们之间连接情况的有用信 息,文档之间的超连接反映了文档之间的包含、引用或者从属关系,引用文档对 被引用文档的说明往往更客观、更概括、更准确。 w e b 结构挖掘在一定程度上得益于社会网络和引用分析的研究。把网页之间 的关系分为i n c o m i n g 连接和o u t g o i n g 连接,运用引用分析方法找到同一网站 内部以及不同网站之间的连接关系。在w e b 结构挖掘领域最著名的算法是h i t s 算法和p a g e r a n k 算法。他们的共同点是使用一定方法计算w e b 页面之间超连接 的质量,从而得到页面的权重。 w e b 使用挖掘 w e b 使用挖掘是对用户访问w e b 时在服务器上留下的访问记录进行挖掘,即 对用户访问w e b 站点的存取方式进行挖掘。挖掘的对象是服务器上的包括s e r v e r l o gd a t a 等在内的日志文件记录。 2 2 2w e b 挖掘流程 与传统数据和数据仓库相比,w e b 上的信息是非结构化或半结构化的 10 i 、 北京邮电大学硕士学位论文 动态的、并且是容易造成混淆的,所以很难直接以w e b 网页上的数据进行数据挖 掘,而必须经过必要的数据处理。典型w e b 挖掘的处理流程如下: 1 查找资源:任务是从目标w e b 文档中得到数据,值得注意的是有时信息 资源不仅限于在线w e b 文档,还包括电子邮件、电子文档、新闻组,或者网站的 日志数据甚至是通过w e b 形成的交易数据库中的数据。 2 信息选择和预处理:任务是从取得的w e b 资源中剔除无用信息和将信息 进行必要的整理。例如从w e b 文档中自动去除广告连接、去除多余格式标记、自 动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。 w e b 内容挖掘的预处理:把网页中的文本、图片及其他文件转换成数据挖掘 算法可用的形式。 w e b 结构挖掘的预处理:对w e b 的页面结构进行分析、变形,使之适用于数 据挖掘系统。 w e b 使用挖掘的预处理:过滤掉价值不大的信息( 如用户访问的传输协议, 错误代码等) ,补充用户完整路径,识别用户( s i n g l ei pa d d r e s s m u l t is e r v e r s e s s o n s m u l t i p l e i p a d d r e s s s i n g l e s e r v e r s e s s i o n m u l t i p l e i p a d d r e s s s i n g l eu s e rm u l t i p l ea g e n t s i n g l eu s e r ) 和识别事务( 可以根据用 户跨越页面时间长短来划分事务,也可以根据用户一系列的p a g e v i e w 直到退回 首页划分为一个会话事务) 。 3 模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之 间进行。 4 模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也 可以是与分析人员进行交互来完成。 w e b 挖掘技术作为一个完整的技术体系u 川,在进行挖掘之前的信息获得 i r ( i n f o r m a t i o nr e t r i e v a l ) 和信息抽取i e ( i n f o r m a t i o ne x t r a c t i o n ) 相当重 要。信息获得( i r ) 的目的在于找到相关w e b 文档,它只是把文档中的数据看成未 经排序的词组的集合,而信息抽取( i e ) 的目的在于从文档中找到需要的数据项 目,它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组 织整理并适当建立索引。 2 3 本文涉及的主要数据挖掘算法 2 3 1 聚类 聚类分析就是通过分析数据库重的记录数据,根据一定的分类规则,合理的 1 2 划分记录集合,确定每个记录所在的类别。通过进行聚类分析,能够有效的把数 据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。 与分类模式不同,聚类分析输入的是一组未分类记录,进行聚类前并不知道 将要划分成几个组和什么样的组,也不知道根据哪几个数据项来定义组。聚类分 析和分类分析是一个互逆的过程,例如在最初的分析中,分析人员根据以往的经 验将要分析的数据进行标定,划分类别,然后用分类分析方法分析该数据集合, 挖掘出每个类别的分类规则:接着用这些分类规则重新对这个集合( 抛弃原来的 划分结果) 进行划分,以获得更好的分类结果。这样,分析人员可以循环使用这 两种分析方法,直至得到满意的结果。 聚类分析所采用的分类规则是由聚类分析工具决定的u 引。聚类分析的方法 很多,其中包括系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、运筹 方法等。采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果。聚 类分析在电信领域中主要应用于v i p 客户特征的识别、客户群体的细分、话费欺 诈的早期识别等等。 2 3 2 决策树算法 在数据挖掘分类技术中,决策树分类算法是应用最广的归纳推理算法之一。 它是一种逼近离散值函数的方法,对噪声数据有很好的健壮性并且能够学习析取 表达式。在这种方法中学习到的函数被表示为一棵决策树u 训。学习得到的决策 树也能再被表示为多个if - t h e n 的规则。决策树算法有如下优点: 首先,决策树方法能够生成可以理解的规则。由于教务管理系统的最终用户 是教师或教学管理者,他们往往不具备数据挖掘的知识,因此挖掘方法的可解释 性十分重要。而决策树是以树型结构表示最终分类结果的,而且还可以生成 i f - t h e n 形式的规则,这样接近于人们对现实世界事物的认知和表示方式。 其次,决策树算法的计算量相对来说不是很大。决策树方法的计算量相对其 他方法来说比较小,这样可以缩短计算时间,提高系统的执行效率。 第三,决策树算法可以处理连续和离散数据。成绩库的数据涵盖面比较广, 包含的种类也比较多,不仅有定性属性( 即离散型数据) 还有定量属性( 即连续型 属性) 。其中定性属性占多数,而决策树方法处理离散数据的效果比较好,同时 也可以处理连续型数据。 第四,决策树可以清晰的显示出属性的重要程度。决策树是通过计算信息墒 选择分裂属性的,而信息嫡正是该属性重要性的度量标量。 2 3 3 关联规则算法 北京邮电大学硕士学位论文 夺 1 什么是关联规则 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量 的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理配药计算讲解
- 管理学原理组织结构
- 居民议事协商能力提升培训
- 永煤消防考试题库及答案
- 银行研发面试题目及答案
- 中国好老师信息技术与学科教学深度融合培训心得体会模版
- 2025年苏教版科学小学四年级下册期末复习检测题附答案(三)
- 阳城公务员考试题及答案
- 叙永公务员考试题目及答案
- 行政公务员的考试题及答案
- 电气工程及其自动化毕业设计 基于PLC的喷涂机器人控制系统的设计
- 管理学基础-形考任务三-国开-参考资料
- 团员发展纪实簿
- 高频变压器作业指导书
- 事业单位招聘人员体检表
- Visio图标-visio素材-网络拓扑图库
- 轨道交通建设工程施工现场消防安全管理课件
- 绿色施工策划书(模板)
- 腾讯微博VS新浪微博
- 公共政策导论完整版课件全套ppt教学教程(最新)
- 肺癌生活质量量表
评论
0/150
提交评论