(计算机应用技术专业论文)基于数据挖掘技术的个性化学习系统研究.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘技术的个性化学习系统研究.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘技术的个性化学习系统研究.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘技术的个性化学习系统研究.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘技术的个性化学习系统研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘技术的个性化学习系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆大学硕士学位论文中文摘要 摘要 为了真正实现以学习者为主体的个性化学习,就要注重学习者特征分析以及 在此基础上实现学习个性化。后者是个性化学习的关键技术。 随着数据挖掘技术在教育领域的广泛应用,对改进的i d 3 算法的研究作为一 个研究热点在个性化学习领域得到了广泛的关注。为了有效利用学习资源,本文 对数据挖掘中的决策树算法i d 3 算法进行了研究,并结合个性化学习数据的特点, 设计实现了一种基于i d 3 算法的决策树新算法一i l i d a - i d 3 算法,并根据新算法 设计了教育信息挖掘模型。 本论文的主要工作体现在: 本文分析了常见学生模型以及i e e e l 4 8 4 2 p a p i 模型规范的优缺点,分析了 影响个性化学习的参数,提出了一个相对完整的个性化学生模型。 新算法主要做了以下改进:1 ) 根据i d 3 算法信息量计算公式的特点,提 出了针对i d 3 算法信息量计算的近似计算方法,简化了信息量计算的复杂度,提 高了决策树构造的效率。2 ) 学习者有许多属性,对个性化学习挖掘结果所做的贡 献也是不同的,如果考虑所有属性,挖掘涉及的属性就会很多,时间上就会浪费。 本文在i l i d a i d 3 算法中引入相关度概念,先对进行挖掘的非分类属性进行相关 性分析,将与分类属性相关度小于事先规定的阈值的属性剔除,这减少了子树的重 复,有效的降低了决策树的复杂度,从而使生成的知识更容易理解。3 ) 在生成 决策树过程中,由于反复划分,一些数据子集可能变得太小,使得进一步划分失 去了统计意义,为了避免这一问题,算法根据预先设定的分类阈值进行判断,如 果给定子集中的样本数少于该阈值,该子集的进一步划分停止。作为替换,创建 一个叶节点。在树剪枝时,对作为替换创建的叶节点,找出子集中分类属性具有 最大样本数的类别,作为该叶节点的分类属性的值。4 ) 引进了复合度量基准取代 信息增益作为决策属性选择的标准。在一定程度上解决了决策树采用信息增益基 准所造成的偏向有许多值的属性的缺陷,并可改善决策树结构和分类正确率。 根据i l i d a - i d 3 算法,本文设计出一个面向个性化学习评价的数据挖掘模 型:个性化学习评价挖掘模型。 关键词:数据挖掘,决策树,i d 3 算法,个性化学习,熵 重庆大学硕士学位论文英文摘要 a b s t r a c t i no r d e rt or e a l l yr e a l i z ei n d i v i d u a l i z e ds t u d y i d e at h a tt h el e a r n e r sa r et h ep r i n c i p a l p a r ti nl e a r n i n g , p e o p l es h o u l da t t a c hi m p o r t a n c et ot h el e a r n e rc h a r a c t e r i s t i ca n a l y s i s a n do o m et r u eh e r eo nt h eb a s i sl e a r n i n gi n d i v i d u a t i o n , t h el a t t e ri st h ek e yt e c h n o l o g y o f i n d i v i d u a l i z e ds t u d y w i t ht h ef a c tt h a tt h ed a t am i n i n gt e c h n o l o g ye x t e n s i v eu s ei ne d u c a t i o nf i e l d , r e s e a r c ht oi d 3i m p r o v e da l g o r i t h ma sah o ts p o th a sg o tb r o a da t t e n t i o ni n i n d i v i d u a l i z e ds t u d yf i e l d t ou t i l i z et h ed a t aa c c u m u l a t e da b o u ti n d i v i d u a l i z e dl e a r n i n g , c l a s s i f i e a t i o nr u l e sw a sr e s e a r c h e da n di d 3a l g o r i t h mw a si m p r o v e da c c o r d i n gt ot h e a r a c t e r i s t i eo fi n d i v i d u a l i z e d l e a r n i n gi n f o r m a t i o n a n dan e ) l ,a l g o r i t h mc a l l e d i l i d a - i d 3a l g o r i t h mi sd e s i g n e db a s e do i lt h ei d 3a l g o r i t h m an e wi n d i v i d u a l i z e d l e a r n i n gi n f o r m a t i o nd a t am i n i n gm o d e li sd e s i g n e da n dr e a l i z e da c c o r d i n gt op r a c t i c a l r e q u i r e m e n to nt h eb a s eo f i l i d a - i d 3a l g o r i t h m t h em a i nr e s e a r c hw o r k sa r ed e s c r i b e da sf o l l o w s : t h ep a p e ra n a l y s e sp a r a m e t e rt h a te f f e c ti n d i v i d u a l i z e dl e a r n i n g , a n di tp u t s f o r w a r dai n d i v i d u a l i z e dl e a r n i n gm o d e lb a s e do nt h ec u r r e n ts t u d e n tm o d e la n di e e e 1 4 8 4 2p a p im o d e l ,w h i c hd e s c r i b e st h el e a r n e r sp e r s o n a l i z e di n f o r m a t i o nb e t t e r t h ei l i d a - i d 3a l g o r i t h mh a st h ef o l l o w i n gi m p r o v e m e n t s :( 1 ) a c c o r d i n gt o i d 3a l g o r i t h mi n f o r m a t i o na m o u n t sc a l c u l a t ef o r m u l a , t h ep a p e rh a v eb r o u g h tf o r w a r d t h ei m p r o v e m e n tm e t h o d a n di th a sf a c i l i t a t e dc o m p l i c a t e dd e g r e et h a ti n f o r m a t i o n m o u n t sc a l c u l a t ea n dh a v ei m p r o v e de f f i c i e n c yo fd e c i s i o nt r e e ( 2 ) c o r r e l a t i o n d e g r e ec o n c e p ti si n t r o d u c e di l i d a i d 3a l g o t h r i mt oh a v ea l l1 1 0 一c l a s s i f i e da t t r i b u t e s b e i n ga n a l i z e da c c o r d i n gc o r r e l a t i o nd e g r e e , a n dc o r r e l a t i o nd e g r e et h r e s h o l di ss e tt o d e l e t et h ea t t r i b u t e sw h i c hh a v et h ec e r r e l a t i o nd e g r e ev a l u e sb e l o wt h ed e f a u l t t h r e s h o l d ( 3 ) c l a s s i f i c a t i o nt h r e s h o l d i ss e tt oa v o i dp o r t i o n i n gt h em i n e dd a t a s e t r e p e a t e d l y a n yd a t a s e t 、i t l li t e m sn u m b e rl e s st h a nt h ec l a s s i f i c a t i o nt h r e s h o l dw o u l d n o tb ep a r t i t i o n e da n ym o r e ,i n s t e a d ,al e a f - n o d ei sc r e a t e da n dt h el e a f - n o d ew o u l d h a v et h ec l a s s i f i c a t i o na t t r i b u t ev a l u ew h i c hh a st h el a r g e s tn u m b e ro fi t e m si nt h e d a t a s e t ( 4 ) c o m p l e xm e a s u r es t a n d a r di st a k e nt or e p l a c ei n f o r m a t i o ng a i nt ob e s t a n d a r do f c h o o s i n ga t t r i b u t ei ni d 3a l g o r i t h m b a s e do nt h ei l i d a - i d 3a l g o r i t h m ,i n d i v i d u a l i z e dl e a r n i n gd a t am i n i n gm o d e l h a sb e e nd e s i g n e d 重庆大学硕士学位论文英文摘要 k e y w o r d s :d a t am i n i n g , d e c i s i o nt r e e , i d 3a l g o r i t h m , i n d i v i d u a l i z e dl e a r n i n g , e n t r o p y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重废太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者躲谚哥签字嗍岬年盯日 学位论文版权使用授权书 本学位论文作者完全了解重庆太堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。本人授权重庆太堂可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 保密() ,在年解密后适用本授权书。 本学位论文属于, 不保密( v ) 。 ( 请只在上述一个括号内打“”) 学位论文作者签名: z 刍虿 f 导师签名: 卸 1 乳 签字日期:矿1 年占月厂日签字日期:圳7 年6 月r 日 重庆大学硕士学位论文 1 绪论 1 绪论 数据挖掘( d a t am i n i n g ) 是一个多学科交叉研究领域【1 】,它融合了数据库 ( d a t a b a s e ) 技术、人工智能( a r t i i i c i a li n t e l l i g e n c e ) 、机器学习( m a c h i n el e a r n i n g ) 、统 计学( s t a t i s t i c s ) 、知识工程( k n o w l e d g ee n g i n e e r i n g ) 、面向对象方法( o b j e c t o r i e n t e d m e t h o d ) 、信息检索( i n f o r m a t i o nr e t r i e v a l ) 、高性能计算( h i g h p e r f o r m a n c ec o m p u t i n g ) 以及数据可视化( d a t av i s u a l i z a t i o n ) 等最新技术的研究成果。经过十几年的研究, 产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它 的研究正向着更深入的方向发展。数据挖掘之所以被称为未来信息处理的骨干技 术之一,主要在于它以一种全新的概念改变着人类利用数据的方式。 二十世纪,数据库技术取得了决定性的成果并且已经得到广泛的应用。但是, 数据库技术作为一种基本的信息存储和管理方式,仍然以联机事务处理( o l t p : o n - l i n et r a n s a c t i o np r o c e s s i n g ) 为核心应用,缺少对决策、分析、预测等高级功能 的支持机制。众所周知,随着数据库容量的膨胀,特别是数据仓库( d a t aw a r e h o u s c ) 以及w e b 等新型数据源的日益普及,联机分析处( o l a p :o n - l i n ea n a l y t i c p r o c e s s i n g ) 、决策支持( d e c i s i o ns u p p o r t ) 以及分类( c l a s s i n g ) 聚类( c l u s t e r i n g ) 等复杂 应用成为必然。面对这一挑战,数据挖掘和知识发现( k n o w l e d g ed i s c o v e r y ) 技术应 运而生,并显示出强大的生命力。数据挖掘和知识发现使数据处理技术进入了一 个更高级的阶段。它不仅能对过去的数据进行查询,并且能够找出过去数据之间 的潜在联系,进行更高层次的分析,以便更好地做出理想的决策、预测未来的发 展趋势。 1 1 问题的提出及研究意义 1 1 1 问题的提出 当前是高度信息化的社会,社会发展对社会成员提出了更高的要求。传统的 学习观念,学习模式已不能满足当前学习的需要,学习变革势在必行。当前的学 习发展趋势,从以教师为中心的灌输式转变为以学生为中心的主动式学习,从应 试学习转向素质学习,从以传授知识为主的教学转向培养学生创新能力、自学能 力的启发式、发现式教学。而以计算机技术、网络技术等为基础的现代化信息技 术手段为学习发展提供了新型的教学环境。运用现代网络和信息技术构建一个合 理有效的网络教学环境是推进我国网络学习发展的一项十分重要和急迫的系统工 程。该工程的顺利实旌有利于充分利用我国学习资源,普及全民素质学习,构建 终身学习体系【2 】。 重庆大学硕士学位论文1 绪论 1 1 2 研究的意义 信息时代,网络学习的出现为解决学习资源的匮乏提供了契机。同时由于信 息时代对创造性人才的需求学习者开始注重对学习者个性的分析。因此对个性 化的学习成为网络远程学习实施的一个重要的要素。但是由于网络远程学习正处 在发展阶段,一些理论体系和方法还没有形成,对于个性化的学习的研究严重滞 后于网络学习发展的需求,成为制约远程学习质量的重要因素。 目前,基于网络的学习主要沿用传统班级授课模式的体系和方法。我国传统 的教学是在行为主义理论指导下进行的,对不利于学习者创造力的培养欠缺。而 网络远程学习需要在建构主义和人本主义学习理论的指导下进行新的教学探索。 其中一个重要的方面就是对学习者本身特征的重视,实行个性化教学。 新兴的数据挖掘技术能够从海量的数据中发现一些未知的、有价值的规律, 无疑为提供个性化的学习服务提供了强有力的支持。 本课题利用数据挖掘技术,充分利用学生的学业纪录、浏览模式、在线记录、 个性调查等数据,获得的学生的个性特征,将教师的教学经验变成计算机能够操 作的策略规则,建立一个满足要求的较为成功的个性化学习评价系统。具体实现 通过运用决策树算法去挖掘学生个性特征,开展具体的模型应用,从而为构建的 个性化网络学习系统提供支持。具有一定理论研究价值和实用意义。 1 2 国内外研究现状 目前数据挖掘技术的应用侧重于商业的大数据量应用,在学习上应用的与在 商业中的应用既有相同点又有不同点。国际学术研究领域中,个性化网络教学这 一课题己有一些人在研究并作出了研究性和实践性的成果。对这些研究成果的分 析,可以看出当前个性化网络学习发展的方向,即人工智能,数据挖掘,信息过 滤,代理技术等的应用。下面列出一些相关研究: 结合使用协作化过滤与关联规则挖掘技术的网页个性化专家e x p 盯t s y s t e mw i t ha p p l i c a t i o n ( u l ( ) ,为每一位用户建立服务档案,记录用户的浏览习惯 与喜好与特点,然后有针对性的为用户选择更需要的资源,提供更好的服务。 美国佛罗里达州政府目前应用数据挖掘分析网络环境下学生学习行为,提 供教师成绩预测,学生划分等多种功能,不久的将来计划为家长开放所需的功能。 目前在国内,学习领域的数据挖掘应用存在着下述几个难题。首先网络环境中 的教学理论在有关动态收集学生个性化数据方面的研究还比较薄弱欠缺,没有给 出构建个性化学生信息数据源的一个有章可循的依据。建立有效的个性化网络教 2 重庆大学硕士学位论文1 绪论 学平台方面的数据挖掘模型的研究刚刚开始,目前尚处在研究实验阶段。如何把 模型挖掘至旷的知识应用到网上教学过程中从而实现闭环的信息流,也是研究的关 键所在。虽然数据挖掘技术在个性化学习中的应用已经成为一个研究热点。不过还 处于研究阶段,国内虽然有少数工业产品出现,但是相关的成功应用案例较少。还 未见成熟工业产品。 图1 1 美国佛罗里达州政府教育数据挖掘项目 f i 9 1 1t h eu s a f l o r i d ag o v e r n m e n te d u c a t i o ni n f o r m a t i o nd a t am i n i n gp r o j e c t 1 3 本文研究的目的和研究内容 1 3 1 本文研究的目的 本课题将数据挖掘技术应用到远程学习中,改变传统的基于课程的学习机制, 并将个性化的学习的需求集成于一体,把个性化的学习作为一种服务提供给学生, 从而提供一种全新的学习模式。本课题的研究的目的是为数据挖掘技术在个性化 的学习评价中的应用提供一个实验模型,并从数据挖掘的角度来分析和解决这一 领域的问题。 1 3 2 本文研究的主要内容 对个性化学习评价系统的国内外研究现状进行研究分析 目前在国内,学习领域的数据挖掘应用存在着下述几个难题。首先网络环境中 的教学理论在有关动态收集学生个性化数据方面的研究还比较薄弱欠缺,没有给 出构建个性化学生信息数据源的一个有章可循的依据。建立有效的个性化网络教 学平台方面的数据挖掘模型的研究刚刚开始,目前尚处在研究实验阶段。如何把 模型挖掘到的知识应用到网上教学过程中从而实现闭环的信息流,也是研究的关 键所在。虽然数据挖掘技术在个性化学习中的应用已经成为一个研究热点,不过还 处于研究阶段,国内虽然有少数工业产品出现,但是相关的成功应用案例较少。还 未见成熟工业产品。 对个性化学习的本质特征进行研究分析 3 重庆大学硕士学位论文1 绪论 个性化学习的思想和实践经历了从古代、近代、现代到当代的漫长历程。随 着计算机技术、多媒体技术与网络通讯技术的成功嫁接,产生了多媒体计算机网 络,使网络教育成为了现实。然而,传统的网络学习系统并没有将学习、授课、 交流等子系统同学习者个性化的学习有效结合起来,它对所有的学习者“一视同 仁”,只是提供了一个统一的学习界面和丰富的学习资源。但是学生在很多方面是 不同的。 一般而言,由于知识背景的不同,在同一门课的学习上,学生通常会显示出 不同的学习兴趣,不同的学习方式,个性化学习则较好的考虑了学习者的个性特 征,并根据个性特征确定需要,为其提供合适的学习内容。个性化学习主要有以 下本质特征1 2 】。 1 ) 个性化学习强调以个别差异为出发点,以学习者兴趣与需求为中心,以每 个学习者能力与个性的最大发展为目标。相应地,要求学习安排适应个别差异的 环境条件,创设相应的情境,建构相应的课程知识以及建立相应的评价制度。 2 ) 个性化学习环境的基本要求是能够为同一个学习单元提供多种学习途径。 因为每个人有不同的学习方式,一个有效的学习安排对另一个人不一定同样有效。 个性化的学习环境应该尽量能够提供学习者学习最有效的方法、途径。 3 ) 个性化学习同时强调,学习者可以根据自身情况采取不同的学习进度。例 如学习内容的不同、学习的兴趣点不同、学习的安排不同等等。个性化的学习环 境会尽量根据每一个学习者的需求量身定制,与传统学习方式相比,学习效果要 好。 当然,要实现为学习者提供有效的学习路径,定制不同的学习进度等,这要 求一直都清楚地掌握学习者的学习进展,随时掌握学习者的学习行为,然后根据 这些信息提供适当的方式,这需要一个持续的评估方式。 本文研究了决策树学习算法中的i d 3 算法,分析了此算法有以下三方面的 不足: 1 ) 在决策树的每个节点上只选择单个属性,属性间的相关性强调不够,这一 缺点导致决策树中子树的重复和有些属性在同一决策树上被多次选择。 2 ) 在生成决策树过程中,由于递归地划分,一些数据子集可能变得太小,进 一步划分它们就失去了统计意义。 3 ) 倾向于有许多值的属性。 在上述研究的基础上,本文针对i d 3 算法的不足,提出一套结合个性化学 习信息中数据的特点对i d 3 算法进行了改进的算法。算法主要做了以下改进: 1 ) 根据i d 3 算法信息量计算公式的特点,提出并验证了针对i d 3 算法信息量 计算的改进方法,该方法简化了信息量计算的复杂度。简化了信息量计算的i d 3 4 重庆大学硕士学位论文1 绪论 算法构造的决策树与经典i d 3 算法构造的决策树有大致相同的分类准确率,在相同 规模的数据集中,i d 3 改进算法构造决策树所用的计算时间比i d 3 算法构造决策树 所用的计算时间少,i l i d a i d 3 算法提高了决策树构造的效率。 2 ) 学习者有许多属性,对个性化学习挖掘结果所做的贡献也是不同的,如果 考虑所有属性,挖掘涉及的属性就会很多,时间上就会浪费。本文在的i l i d a _ i d 3 算法中引入相关度概念,先对进行挖掘的非分类属性进行相关性分析,将与分类 属性相关度小于事先规定的阈值的属性剔除,这减少了子树的重复,有效的降低了 决策树的复杂度,从而使生成的知识更容易理解。 3 ) 在生成决策树过程中,由于反复划分,一些数据子集可能变得太小,使得 进一步划分失去了统计意义,为了避免这一问题,算法根据预先设定的分类阈值 进行判断,如果给定子集中的样本数少于该阈值,该子集的进一步划分停止。作 为替换,创建一个叶节点。在树剪枝时,对作为替换创建的叶节点,找出子集中 分类属性具有最大样本数的类别,作为该叶节点的分类属性的值。 4 ) 引进了复合度量基准取代信息增益作为决策属性选择的标准。在一定程度 上解决了决策树采用信息增益基准所造成的偏向有许多值的属性的缺陷,并可改 善决策树结构和分类正确率。 5 ) 根据改进的i d 3 算法,设计了面向个性化学评价的数据挖掘模型。 最后,对所做的工作进行了归纳于总结,展望将来进一步的研究工作。 1 4 论文结构 本文共分六章。 第一章绪论,阐述了本文研究的背景、意义、网络学习发展现状以及研究的 内容和目标。 第二章相关数据挖掘理论基础与决策树学习算法。介绍了数据挖掘的定义, 数据挖掘的环境,过程,功能,分类,方法,数据挖掘应用领域;介绍了决策树 方法的描述过程,决策树的生成过程,决策树的构造算法数学模型,最后对决策 树学习算法进行了讨论。 第三章介绍了建构主义学习理论,基于建构主义的网络学习。对影响网络化 学习的个性化参数,学习者模型规范,学习倾向,学习风格进行了详细的介绍。 第四章系统讨论了基于i d 3 算法的决策树分类挖掘。介绍了经典的i d 3 算法 和实例,i d 3 算法优缺点及i d 3 算法的目前发展的情况。最后针对以上i d 3 算法的 优缺点,对i d 3 算法的进行了改进,设计实现了i l i d a i d 3 算法。 第五章设计了面向个性化学评价的数据挖掘模型:个性化学评价挖掘模型。 利用学生的学业纪录、浏览模式、在线记录、个性调查等数据,获得的学生 5 重庆大学硕士学位论文 l 绪论 的个性特征,将教师的教学经验变成计算机能够操作的策略规则,建立一个满足 基本要求的个性化网络教学学习评价系统。 第六章总结本文的特点和创新点,并指出下一步工作展望。 6 重庆大学硕士学位论文 2 基本概念 2 基本概念 2 1 数据挖掘的基本概念 2 1 1 数据挖掘的定义 1 9 5 9 年5 月,在第1 l 届国际人工智能联合会议的专题讨论会上,首次提出 基于数据库的知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,e k d d ) 技术。该技术涉 及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视 化和高性能计算领域。1 9 9 5 年,在美国计算机年会( a c m ) 上,提出了数据挖掘( d a t a m i n i n g ,d m ) 的概念,即通过从数据库中抽取隐含的、未知的、具有潜在使用价值 信息的过程。数据挖掘是k d d 过程中最为关键的步骤,在实际应用中对数据挖掘 和k d d 这二个术语往往不加区别。数据挖掘诞生后,诸多因素促进了数据挖掘技 术的发展和应用,大规模数据库,尤其是数据仓库的出现,促使数据挖掘技术得 到迅速发展和应用;计算机技术,尤其是网络技术和并行处理体系的发展,速度 快、运算能力强的计算系统为数据挖掘的实现提供了良好的环境;全球经济一体 化的进程日益加快,企业所面临的市场竞争压力日趋严重,企业经营管理者希望 能够从企业积累的大量历史数据中找到经营管理中存在的问题和解决问题的对 策;相关科学的发展也促进了数据挖掘技术的应用。 数据挖掘的定义【3 】【4 l :数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪 声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是 潜在有用的信息和知识的过程。 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是数 据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信 息应具有未知,有效和可实用三个特征。 先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些 不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越 是出乎意料,就可能越有一价值。在商业应用中最典型的例子就是一家连锁店通 过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系,这就是著名的啤酒与尿 布的故事。信息的有效性要求挖掘前要对被挖掘的数据进行仔细检查、只有保证 信息( 或数据) 的有效性,才能保证挖掘出来的信息的有效性。最为重要的是要求所 得的信息是有可实用性,即这些信息或知识对于所讨论的业务或研究领域是有效 的、是有实用价值和可实现的。 2 1 2 数据挖掘的环境 数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效 7 重庆大学硕士学位论文2 基本概念 的,可实用的信息,并使用这些信息做出决策或丰富知识。数据挖掘环境可示意 如下图: 图2 1 数据挖掘环境框图 f i 9 2 1d a t am i n i n ge n v i r o n m e n tm o d e l 2 1 3 数据挖掘过程 图2 2 描述了数据挖掘的基本过程和主要步骤: 图2 2 数据挖掘的基本过程和主要步骤 f i 9 2 2b a s i cp r o c e s sa n dt h em a j o rs t e p so f d a t am i n i n g 数据挖掘的过程可以分为6 个步骤: 理解业务:从商业的角度理解项目目标和需求,将其转换成一种数据挖掘 的问题定义,设计出达到目标的一个初步计划。 理解数据:收集初步的数据,进行各种熟悉数据的活动。包括数据描述, 数据探索和数据质量验证等。 准备数据:将最初的原始数据构造成最终适合建模工具处理的数据集。包 括表、记录和属性的选择,数据转换和数据清理等。 建模:选择和应用各种建模技术,并对其参数进行优化。 模型评估:对模型进行较为彻底的评价,并检查构建模型的每个步骤,确 认其是否真正实现了预定的商业目的。 模型布署:创建完模型并不意味着项目的结束,即使模型的目的是为了增 进对数据的了解,所获得的知识也要用一种用户可以使用的方式来组织和表示。 通常要将活动模型应用到决策制订的过程中去。该阶段可以简单到只生成一份报 告,也可以复杂到在企业内实施一个可重复的数据挖掘过程。 重庆大学硕士学位论文 2 基本概念 2 1 4 数据挖掘的功能 数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的 知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之 间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识, 根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常 现象。所有这些知识都可以在不同的概念层次上被发现,以满足不同层次决策的 需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是买 影碟机的顾客十有八九也买光盘这种规则对于商家开发和实施客户化的销售计划 和策略是非常有用的。 以下将主要从挖掘任务和挖掘方法的角度,着重讨论数据抽取、分类发现、聚 类和关联规则发现四种非常重要的发现任务。 数据抽取 数据抽取目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数 据抽取方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值, 或者用直方图、饼状图等图形方式表示。数据挖掘主要关心从数据泛化的角度来 讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上 的过程。由于数据库上的数据或对象所包含的信息总是最原始、基本的信息( 这是 为了不遗漏任何可能有用的数据信息) 。人们有时希望能从较高层次的视图上处理 或浏览数据,因此需要对数据进行不同层次上的泛化以适应各种查询要求。数据 泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 分类发现 分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目 的是找出一个分类函数或分类模型( 也常常称作分类器) ,该模型能把数据库中的数 据项映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是从利 用历史数据记录中自动推导出对给定数据的广义描述,从而能对未来数据进行预 测。 要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记 录或元组构成,每个元组是一个由有关字段( 又称属性或特征) 值组成的特征向量, 此外,训练样本还有一个类别标记。一个具体样本的形式可为:( v l ,v 2 ,v n : c ) ;其中v i 表示字段值,c 表示类别。分类的效果一般和数据的特点有关。 聚类 聚类是把一组个体按照相似性归成若干类别,即物以类聚”。它的目的是使得 属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可 能的大。聚类能帮助市场分析人员从客户数据库中发现不同的客户群,并且用购 9 重庆大学硕士学位论文2 基本概念 买模式来刻画不同的客户群的特征。此外,聚类分析可以作为其它算法的预处理 步骤。聚类方法包括统计方法、机器学习方法、神经网络方法等。 关联规则发现 关联规则是形式如下的一种规则,“在购买面包和黄油的顾客中,有9 0 的人 同时也买了牛奶”( 面包 黄油一牛奶) 。用于关联规则发现的主要对象是事务型数 据库,其中针对的应用则是售货数据,也称货篮数据。如果对这些历史事务数据 进行分析,则可对顾客的购买行为提供极有价值的信息。例如,可以帮助如何摆 放货架上的商品( 如把顾客经常同时买的商品放在一起) ,帮助如何规划市场( 怎样 相互搭配进货) 。又如,可以针对学生的学业情况记录,分析学生的学习兴趣与学 科发展的规律和相关性,“公共课和专业基础课成绩好的学生中,有8 7 5 的人专 业课成绩也很好 ( 公共课八专业基础课一专业课) 。“专业课成绩好的学生中,有 7 7 8 的人公共课成绩也很好”( 专业课一公共课) 。可以利用发现的关联规则,在教 学中采用某种策略,使这些关联规则所反映的学习规律在教学中发挥作用。 2 1 5 数据挖掘的分类 数据挖掘涉及的学科领域和方法很多,有人工智能、数据统计、可视化、并行 计算等。数据挖掘有多种分类方法【5 】。 根据挖掘任务 可分为分类模型发现、聚类、关联规则发现、序列分析、偏差分析、数据可视 化等。 1 ) 分类( c l a s s i f i c a t i o n ) 其旨在生成一个分类函数或分类模型,该模型能把数据库中的数据项映射到给 定类别中的某一个。既可以用此模型分析已有的数据,也可以用它来预测未来的 数据。 2 ) 聚集( c l u s t e r i n g ) 聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不 依赖于预先定义好的类,不需要训练集。 3 ) 数据可视化( d e s e r i p f i o na n dv i s u a l i z a t i o n ) 数据可视化严格地讲不是一个单独的数据挖掘任务,它被用来支持其他挖掘任 务。可视化是采用图形、图表等易于理解的方式表达数据挖掘结果。 4 ) 关联规j j ( a f f i n i t yg r o u p i n go ra s s o c i a t i o nm l e s ) 关联规则是寻找数据库中值的相关性,主要是寻找在同一个事件中出现的不同 项的相关性,比如在一次购买活动中所买不同商品的相关性。 5 ) 序列分析( s e q u e n c e a n a l y s i s ) 序列模式分析同样也是试图找出数据之间的联系。但它的侧重点在于分析数据 1 0 重庆大学硕士学位论文2 基本概念 之间前后( 因果) 关系,因此对数据往往要求引入时间属性。序列模式分析非常适于 寻找事物的发生趋势或重复性模式。 6 ) 偏差分析( d e v i a t i o n a n a l y s i s ) 是用来发现与正常情况不同的异常和变化,并迸一步分析这种变化是否是有意 的诈骗行为,还是正常的变化。如果是异常行为,则提示预防措施;如果是正常 的变化,那么就需要更新数据库记录。 根据挖掘对象 可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、 多媒体数据库、异质数据库以及互联网等。 根据挖掘方法 可粗略地分为:机器学习方法、统计方法、神经网络方法、决策树、可视化、 最近邻技术等。在机器学习中,可细分为归纳学习方法( 决策树、规则归纳等) 、基 于范例学习、遗传算法等;在统计方法中,可细分为:回归分析( 多元回归、自回 归等) 、判别分析( 贝叶斯判别、非参数判别等) 、聚类分析( 系统聚类、动态聚类等) 、 探索性分析( 主元分析法、相关分析法等) 等。 2 1 6 数据挖掘的方法 数据挖掘方法通常可以分为两大类:一类是统计型,常用的技术有概率分析、 相关性、聚类分析和判别分析等;另一类是人工智能中的机器学习型,通过训练 和学习大量的样本集得出需要的模式或参数。由于各种方法都有自身的功能、特 点以及应用领域,数据挖掘技术的选择将影响最后结果的质量和效果,通常是将 多种技术结合使用,形成优势互补。常用的数据挖掘方法有决策树方法、遗传算 法、贝叶斯网络、粗糙集、神经网络、统计分析等。 决策树方法:决策树方法是从机器学习中引出的,它根据给定的训练样本数据 集来构建分类模型,以树的形式来表达模型。决策树的算法通常分为两个阶段: 决策树的构建和决策树的修剪。模型建成后,对于树中每一类别的描述,形成分 类规则。目前已形成了多种决策树算法,如1 i ) 3 ,c a 5 ,c a r t ,s l i q ,s p r i n t 等。 遗传算法:遗传算法是一种全新的最佳化空问搜寻法,其最初概念是由j o h n h o l l a n d 于1 9 7 5 年提出,是一种基于生物进化理论的技术,其基本观点是i 置者生 存”。在数据挖掘时,常把任务表示成一种搜索问题,利用遗传算法强大的搜索能 力找到最优解。它模仿生物进化的过程,通过进行选择、交叉和变异遗传操作, 直至找出最优解。遗传算法己在优化计算和分类机器学习方面显示出了明显的优 势。 贝叶斯网络:贝叶斯网络基于后验概率的贝叶斯定理,是建立在对数据进行统 重庆大学硕士学位论文2 基本概念 计处理基础上的方法。将不确定事件通过网络连接起来,可以对与其他事件相关 的事件的结果进行预测,其网络变量可以是可见的,也可以隐藏在训练样本中。 贝叶斯网络具有分类、聚类、预测和因果关系分析的功能,其优点是易于理解, 预测效果较好,缺点是对发生频率很低的事件预测效果不好。在医学和制造业等 领域的应用具有较好的效果。 粗糙集:该理论是波兰p a w l a k 教授在1 9 8 2 年提出的,它是一种新的数学工具。 这一方法在数据挖掘中具有重要的作用,常用于处理含糊性和不确定性的问题, 发现不准确数据或噪声数据内在的结构联系,也可以用于特征归约和相关分析。 其主要优点就是不需要任何关于数据的初始的或附加的信息,因此广泛应用于不 确定、不完整的信息分类和信息获取。 神经网络:神经网络是最常用的数据挖掘技术之一,最早由心理学家和神经生 物学家提出,旨在寻求开发和测试神经的计算模拟。它类似于人类大脑重复学习 的方法,先给出一系列的样本,进行学习和训练,从而产生区别各种样品之间的 不同特征的模式。样本集应该尽量体现代表性,为了精确地拟合各种样本数据, 通过上百次,甚至上千次的训练和学习,系统最后得出潜在的模式。当它遇到新 的样品数据时,系统就会根据训练结果自动进行预测和分类。最大的特点是难于 理解,即无法解释如何得出结果和使用了什么规则。它需要很长的训练时间,需 要大量的参数,而且解释性较差。该算法的优点是对复杂问题能进行很好的预测, 对噪声数据的承受能力比较高,以及它对未经训练的数据分类模式的能力。神经 网络可细分为前馈式、反馈式和自组织神经网络,具有优化计算、聚类和预测等 功能,在商业界得到广泛的应用。金融市场采用神经网络建立信用卡和货币交易 模型,用于识别信贷客户、股票预测和证券市场分析等方面。 统计分析:统计分析的理论基础主要是统计学和概率论的原理,是一种较为精 确的数据挖掘技术。它是一种基于模型的方法,包括回归分析、因予分析和判别 分析等,该方法的优点是容易理解,对结果描述精确。统计分析在实际应用中较 为广泛,著名的统计产品供应商s p s s 公司开发了s p s s 和s y s t a t 统计软件包, 同时,s a s 公司也开发出相应的产品s a s 和j m p ,这些产品都占有一定的应用市 场。 2 1 7 数据挖掘的应用领域 数据挖掘技术及其相关的决策支持系统的发展很快。目前己经直接给商业界、 公共服务行业等众多行业带来令人吃惊的利润。并且,很多院校和科研机构也正 投入大量的资金进行数据挖掘技术的进一步开发和更深入的研究。目前,数据挖 掘最集中的应用领域包括以下七个方面,而且每个领域又都有自己特定的应用问 题和应用背景。 重庆大学硕士学位论文2 基本概念 金融:金融事务需要收集和处理大量的数据,通过对这些数据进行分析, 发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业 兴趣,也可观察金融市场的变化趋势。数据挖掘在金融领域应用广泛,包括金融 市场分析预测、账户分类、信用评估等。 市场营销:市场业应用数据挖掘技术进行市场定位、消费者分析、辅助制 定市场营销策略等。 零售业:零售业是最早运用数据挖掘技术的行业。目前,主要应用于销售 预算、货架安排、顾客购买行为、零售点的选择、价格分析等。 制造业:制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产 过程分析等。 司法:数据挖掘也可应用于案件调查、诈骗监测、犯罪行为分析等方面, 这些都可以给司法工作带来巨大的收益。 科学发现:在信息量极为庞大的天文、气象、生物技术等领域中,所获得 的大量实验和观察数据靠传统的数据分析工具难以应付,因此对功能强大的智能 化自动分析工具要求迫切,这种需求推动了数据挖掘技术在科学研究领域的应用 发展。 保险业:对受险人员的分类将有助于确定适当的保险金额度。通过数据挖 掘,可以确定不同职业、不同年龄段、处于不同社会层次的人的保险金。 2 2 决策树学习算法 数据挖掘有着广泛的应用,如数据库营销、客户群体划分、客户流失性预测、 欺诈检测和客户信用记分等。根据所挖掘的知识的不同对应着不同的实现方法。 其

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论