(计算机应用技术专业论文)数据挖掘分类技术在高校教学中的应用研究.pdf_第1页
(计算机应用技术专业论文)数据挖掘分类技术在高校教学中的应用研究.pdf_第2页
(计算机应用技术专业论文)数据挖掘分类技术在高校教学中的应用研究.pdf_第3页
(计算机应用技术专业论文)数据挖掘分类技术在高校教学中的应用研究.pdf_第4页
(计算机应用技术专业论文)数据挖掘分类技术在高校教学中的应用研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘分类技术在高校教学中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 由于数据库中存在着大量数据,因此从数据库中发现有用的信息显得卜分重 要。数据挖掘技术就是为解决这个问题而产生的。对数据挖掘技术的研究,国内 外己经取得了许多令人瞩目的成就,并成功地应用到了许多领域,但在教育领域 中的应用并不广泛。 由于我国大众化高等教育的普及,高校学生数量的激增,给高校教学工作带 来了诸多新的问题,教师迫切地需要科学地研究分析包括学生成绩在内的各个教 学环节中的大量的数据信息,从中获取知识,继而科学地指导教学。本文在分析 了数据挖掘技术在高校教学研究中应用的可行性之后,提出了一种以提高教学质 量为根本目标的应用数据挖掘分类技术进行高校教学研究的实施方案。 分类是数据挖掘的重要组成部分,它根据类标号已知的数据建立模型,进而 使用该模型来预测类标号未知的数据所属的类。常用的分类方法有决策树分类、 贝叶斯分类、神经网络分类等,其中决策树方法在可理解度、易训练性、易实施 性和通用性等方面优于其他的分类方法。本文选择将决策树分类法应用到高校教 学研究中。 根据所提出的实施方案,本文以学生成绩分析为例,完整地实现了数据分类 挖掘的全过程,包括:确定数据挖掘对象及目标:以网上在线调查的方式为主采 集数据;采用数据集成、数据清理、数据转换、数据消减等数据预处理技术;使 用i d 3 决策树算法生成决策树,并利用事后修剪法对决策树进行修剪;最后由决 策树产生分类规则。完成了成绩分析决策树模型的建立。 在本文的研究过程中,作者独立开发了基于决策树i d 3 算法的决策树分类器, 该分类器使用简单,有良好的用户界面,具有数据文件访问、生成决策树、修剪 决策树、产生分类规则、保存分类结果等功能。实验结果表明,该分类器的分类 效果良好。 关键词:数据挖掘;分类;决策树;分类器;分类规则 a b s t r 龃t a b s t r a c t a st h e r ea r el a r g ea m o u n t so fd a t ai nt h ed a t a b a s e s ,i tisv e r yi m p o r t a n tf o ru st o f i n dt h eu s e f u li n f o r m a t i o nf r o mt h ed a t a b a s e ,a n dt h ed a t am i n i n gt e c h n o l o g yi sa n e f f i c i e n ts 0 1 u t i o nt ot h i s p r o b l e m t h er e s e a r c ho fd a t a m i n i n g h a sr e a c h e d s i g n i f i c a n ta c h i e v e m e n ta n dh a sb e e na p p l i e ds u c c e s s f u l l yi nm a n ya r e a s h o w e v e r , s u c c e s s f u la p p l i c a t i o no fd a t am i n i n gi nt h ef i e l do fe d u c a t i o nh a sn o tb e e nr e p o r t e d w i t hp o p u l a r i z a t i o no fh i g h e re d u c a t i o n ,m o r ea n dm o r es t u d e n t sc o m ei n t ot h e u n i v e r s i t ya n di tb r i n g su sm a n yn e wp r o b l e l s t h et e a c h e r sw a n tt oa n a l y z el a r g e n u m b e r so fd a t as c i e n t i f i c a l l y ,w h i c h i n c l u d i n gs t u d e n t s r e s u l tw a sb r o u g h ti nt h e p r o c e s s o ft e a c h i n g t h e yw a n tt o o b t a i n g l - e a t b e n e f i t sf o r t h ee d u c a t i o n a f t e r a n a l y z i n g t h e f e a s i b i l i t y 0 f u s i n g d a t a m i n i n gt e c h n i q u e i nt h ea r e ao f h i g h e r e d u c a t i o n ,t h i sp a p e rg i v e sap r o j e c tt oa c h i e v ei t c l a s s i f i c a t i o ni sa v e r yi m p o r t a n tt a s k i nd a t a m i n i n g i tb u i l d sam o d e l a c c o r d i n g t ot h ed a t aw h o s ec l a s s1 a b e l sa r e k n o w n ,a n dt b e n us e st h i sm o d e lt o p r e d i c tt h e c l a s s e so ft h ed a t aw h o s ec l a s s1 a b e l sa r eu n k n o w n t h e r ea r es o m e f a m o u sc l a s s i f i e d a l g o “t h m s s u c ha sd e c i s i o n t r e e , t h e b a y e s , a n dt h en e u r a l n e t w o r k a m o n gt h e m ,t h ed e c i s i o nt r e ee x c e e d st h eo t h e r si n t h ef e a t u r eo fw e l l u n d e r s t a n d i n g ,w e l lt r a i n i n g a n da c h i e v a b l e i nt h i s p a p e r ,w e s e l e c tt h ed e c i s i o n t r e ec l a s s i f i e dm e t h o di nt h ea p p l i c a t i o no fh i g h e re d u c a t i o n a c c o r d i n gt ot h ep r o j e c t ,w ea c c o m p l i s ht h ed a t am i n i n gp r o c e s st oa n a l y z et h e s t u d e n t sr e s u l t t h ep r o c e s si n c l u d e sm a k i n gs u r et h ed a t am i n i n gt a r g e t ,c o l l e c t i n g t h e d a t a ,p r e p r o c e s s i n gd a t a ,c l a s s i f y i n ga n dg e n e r a t i n gt h e c l a s s i f i c a t i o nr u l e w e us ei d 3a l g o r i t h m st og e n e r a t ead e c i s i o nt r e e ,u s ep o s t p r u n i n gm e t h o dt op r u n i n gt h e t r e e a n dt h e na c c o r d i n gt ot h ed e c i s i o nt r e e ,w eo b t a i nt h ec l a s s i f i c a t i o nr u l e i nt h ec o u r s eo fr e s e a r c h i n g ,w ea c c o m p l i s had e c i s i o nt r e ec l a s s i f i e r t h e c l a s s i f i e ri ss i n l p l eb u ti th a san i c ei n t e r f a c e 1 tc a no p e nd a t af j l e ,g e n e r a t ed e c i s i o n t r e e ,p r u n et h eb r a n c h , c r e a t et h ec l a s s i f i c a t i o n r u l e , a n ds a v et h er e s u l t t h e e x p e r i m e n ts h o w st h a t t h ec l a s s i f i e rc a ns u c c e s s f u l l yb u i l dd e c i s i o nt r e e sa n dh a sa i i a b 吼m c t g o o dp e r f o r m a n c e k e y w o r d s :d a t am i n i n g ;c 1 a s s i f i c a t i o ;d e c i s j o nt r e e ;c 1 a s s i f i e r ;c l a s s i f i c a t i o n r u i e 第一章绪论 第一章绪论 1 1数据挖掘技术研究背景及研究意义 随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速 度迅速增长。进入九十年代,伴随着因特网( i n t e r n e t ) 的出现和发展,将整个世 界联成一令小小的地球村,人靠l 可以跨越时空地在网上交换数据信息和协同工作。 这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库, 而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。激增的数据背后隐藏着 许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这蝗 数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无 法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺 乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。于 是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成 为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有 用的知识,提高信息利用率呢? 要想使数据真正成为一个公司的资源,只有充分 利用它为公司自身的业务决簧和战略发展服务才行,否则大量的数据可能成为包 袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战, 从数据库中发现知识( k n o w l e d g ed i s c o v e r vi nd a t a b a s e s ) 及其核心技术一一数据 挖掘( d a t a m i n i n g ) 便应运而生,并得以蓬勃发展,越来越显示出其强大的生命 力。 数据挖掘( d m ) 就是从大量的、不完全的、有噪声的、模糊的、随机的实 际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息 和知识的过程。 数据挖掘技术的应用领域十分广阔,它可以从关系数据库、数据仓蓐、文本 和多媒体数据库、事务数据库和互联网等各种数据源上设法获取诸如分类模型、 聚类模型、回归模型、关联模型和时间序列模型等多种知识模型”“。可以蜕, 有数据积累的地方,就有数据挖掘技术的用武之地。目前,数据挖掘技术在货篮 广东t 业大学t 学颂十学位论文 数据分析、金融风险预测、产品质量分析、电信、分子生物学、基因工程研究、 i n t e r n e t 站点访问模式发现以及信息搜索等领域得到了广泛的应用“。数据挖掘 技术被认为足数据库和人工智能“”领域中研究、开发和应用最活跃的分支之一, 汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视 化技术、并行计算等方而的学者和工程技术入员,投身到数据挖掘这一新兴的研 究领域,形成了新的技术热点。 1 2 数据挖掘的发展历史及国内外研究现状 数据挖掘是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些 方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习的过程 就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这 些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某类 的问题“3 。随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程, 知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给 计算机输入已被代码化的规则,计算机是通过使用这些规则来解决某些问题。专 家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。8 0 年 代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成 果应用于处理大型商业数据库。8 0 年代末,一个新的术语一一数据库中的知识发 现( k d d ) 一出现,人们接受了这个术语,并用k d d 来描述整个数据发掘的 过程,包括最开始的制定业务目标到最终的结果分析,而数据挖掘( d m ) 则用 来描述使用挖掘算法进行数据挖掘的子过程。 从数据库中发现知识( k d d ) 一词首次出现在1 9 8 9 年举行的第十一属围际联 合人工智能学术会议上。到目前为止,由美国人工智能协会主办的k d d 国际研讨 会已经召开了多次,规模由原来的专题讨论会发展到国际学术大会,研究重点也 逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科 之间的相互渗透。i e e e ( i n s t i t u t ef o re l e c t r i c a la n de l e c t r o n i ce n g i n e e r s ) 、a c m ( a s s o c i a t i o nf o rc o m p u t i n gm a c h i n e r y ) 等其它学会、学刊也纷纷把数据挖掘与 知识发现( d a t am i n i n ga n dk n o w l e d g ed i s c o v e r y ,d m k d ) 列为会议议题或出版 专刊,成为当前国际上的一个研究热点。 第一章绪论 到目前为止,对关系数据库和事务数据库进行数据挖掘和知识发现的研究已 经取得了一定的进展,最有影响的发现算法有:加拿大s i m o nf r a s e r 大学j h a n 教授的概念树提升算法、1 b m 的r a 譬r a w a l 的关联算法、澳大利亚的j r q u i n l a n 教授的分类算法、密西根州立大学e r i c k ( o o d m a n 的遗传算法等。i b m 、g t e 、 s a s 、m i c r o s o f t 、s i l i c o ng r a p h i c s 、i n t e g r a ls o l u t i o n s 、t h i n k i n gm a c h i n e “d a t a m i n d 、 u r b a ns c i e n c e 、a b t e c h 、u n i c at e c h n o l o g i e s 等公司,相继开发出一些实用的k d d 商业系统和原型系统,如市场分析用的b e b a v i o r s c a n 、e x p l o r e r 、m d t ( m a n a g e m e n t d i s c o v e r vt 0 0 1 1 ,金融投资领域的s t o c ks e l e c t o r 、a i ( a u t o m a t e di n v e s t o r ) ,欺诈 预警用的f a l c o n 、f a i s 、c l o n e d e t e c t o r 等。 与国外相比,国内对d m k d 的研究稍晚,没有形成整体力量。目前,国内从 事数据挖掘研究的人员主要集中在大学,也有部分在研究所或公司。所涉及的研 究领域很多,一般集中于算法的研究、数据挖掘的实际应用以及有关数据挖掘理 论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如国家自然科 学基金、8 6 3 计划、“九五”计划等,但至今还没有关于国内数据挖掘产品的报道。 国内企业运用数据挖掘技术来协助业务活动的应用还处于起步阶段。成功应 用的案例还比较少,这对数据挖掘技术和二 具的研究人员以及开发商米说,我国 是一个有巨大潜力的市场。 1 3 数据挖掘技术在高校教学中应用的研究现状及意义 数据挖掘技术在商业、金融业以及企业的生产、市场营销等方面都得到了广 泛的应用,而在教育领域应用相对较少,高校中对学生信息、成绩等数据的处理 还一般停留在简单的数据的备份和查询阶段。 近年来随着高校的不断扩招,学生人数大幅度增加,给高校学生管理、教学 工作带来了严峻考验,传统的教学管理手段已逐渐不能适应社会的发展。随着数 据挖掘技术的成熟及应用领域的不断扩展,不少高校研究人员已开始研究将数据 挖掘技术应用于高校的教学、管理中“”“6 ”。例如,将数据挖掘技术应用于学生 信息管理、高校的教学评估、学生成绩分析及考试系统中,对提高学校教学管理 水平起到了很好的指导作用“”“”“。 广东t 业大学工学硕士学位论文 1 4 本文的研究内容及论文结构 高等学校多年来的教学和管理工作积累了大量的数据,目前这些数据还未能 得到有效利用,只是一个待开发的“宝藏”。鉴于社会对高等学校发展的需求和 目前高校数据管理现状,利用这些数据理性地分析学校各方面工作的成效以及学 生培养过程中的得失变得十分重要”。 本文主要研究在高校扩招、师生比过大的教学条件下,教师如何利用丰富的 信息资源,采用数据挖掘分类技术,获得辅助决策知识,指导教学,从而进一步 提高教学质量。 本课题的研究开始于广东省高校1 5 1 工程项目基于网上资源利用的计 算机文化基础教学改革的研究,在教改项目研究的过程中,笔者收集了大量的数 据信息,如何将这些信息转换成知识,从而指导教学改革的研究,并指导学生的 学习,是本文探讨的主要内容。 论文的结构: 第一章绪论。主要介绍了本论文的研究背景和研究意义,综述了数据挖掘 的理论渊源、发展现状,以及国内外数据挖掘的发展情况。 第二章数据挖掘技术。丰要介绍数据挖掘的基本知识,包括数据挖掘的过 程、数据挖掘的任务、数据挖掘的分类以及数据挖掘的常用技术和方法。 第三章数据挖掘中的分类技术。主要介绍数据挖掘中分类技术的基本知 识、常用分类方法,及各种分类方法的比较。 第四章探索数据挖掘分类技术在高校教学中的应用。主要探索在高校教学 中数据挖掘分类技术的应用,提出了数据挖掘技术在高校教学应用中的实施方案。 第五章决策树分类器的实现。主要介绍本文作者在探讨数据挖掘分类技术 的应用过程中所开发的决策树分类器 结束语主要总结了笔者在论文研究阶段的工作,论文的创新点。并对数据 挖掘技术存高校教学管理中的进一步研究进行了分析和展颦。 4 第= 章数据挖掘技术 第二章数据挖掘技术 本章主要介绍数据挖掘的相关知识,包括数据挖掘与知识发现的概念、数据 挖掘的过程、数据挖掘的任务、数据挖掘的分类、数据挖掘的对象,最后介绍了 数据挖掘的常用技术和方法。 2 1数据挖掘与知识发现 数据挖掘( d a t am i n i n g ,简称d m ) 就是从大量的、不完全的、有噪声的、 模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但义有潜在的 有用信息和知识的过程。是数据库中的知识发现( k n o w l e d g ed i s c o v e r y i n d a t a b a s e s ,简称k d d ) 的核心。 知识发现( k d d ) 被认为是从数据中发现有用知识的整个过程。数据挖掘只 是数据库中知识发现的一个步骤,但又是最重要的一步,它用专门算法从数据巾 抽取模式。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原 始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文 本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法叫以 是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识 可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身 的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者, 尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技 术人员”“。 因为数据挖掘算法的好坏将直接影响到k d d 所发现知识的准确性,而且目 前k d d 研究大部分集中在数据挖掘算法和应用的技术上,因此人们往往不严格 区分数据挖掘和数据库中的知识发现,两者互为使用。一般在科研领域中称为 k d d ,而在工程领域则称为数据挖掘。 广东工业人学工学硕士学位论文 2 2 数据挖掘过程 k d d 过程如图2 1 所示。k d d 过程可以概括为三部分:数据预处理( d a t a p r e p r o c e s s i n g ) 、数据挖掘( d a t am i n i n g ) 及结果的解释和评估( i n t e r p r e t a t i o n & e v a l u a t i o n ) 引。 l 塑塑型里一山璺塑壁坦一山墨堡煎价_ 一一 - - - - 4 二二j j 二二二一 d 图2 1k d d 过程图 f i g u r e2 1 ak d dp r o c e s s 一数据预处理 数据预处理是数据挖掘( 知识发现) 过程中的一个重要步骤,尤其足在对包 含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处 理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的 目的2 1 1 。 数据预处理又可分为四个步骤:数据清洗( d a t a c l e a n i n g ) 、数据集成( d a t a 第二二章数据挖掘技术 i n t e g r a t i o n ) 、和数据变换( d a t at r a n s f o r m a t i o n ) 、数据消减( d a t ar e d u c t i o n ) 。 数据清洗处理例程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或 除去异常值( o u t l i e r ) ,以及解决不一致问题。 数据集成就是将来自多个数据源( 如:数据库、文件等) 数据合并到一起。 由于描述同一个概念的属性在不同数据库取不同的名字,在进行数据集成时就常 常会引起数据的不一致或冗余。大量的数据冗余不仅会降低挖掘速度,而日j 也会 误导挖掘进程。因此在数据集成中还需要注意消除数据的冗余。 数据转换主要是对数据进行规格化( n o r m a l i z a t i o n ) 操作。如把连续值数据 转换为离散型数据,以便于符号归纳,或是把离散型数据转换为连续值型数据, 以便于神经网络计算。 数据消减的目的就是缩小所挖掘数据的规模,但却不会影响( 或基本不影响) 最终的挖掘结果。现有的数据消减包括:( 1 ) 数据聚合( d a t a a g g r e g a t i o n ) :( 2 ) 消减维数( d i m e n s i o n r e d u c t i o n ) ,即从初始特征中找出真正有用的特征以减少数 据挖掘时要考虑的特征或变量个数。;( 3 ) 数据压缩( d a t a c o m p r e s s i o n ) ;( 4 ) 数 据块消减( n u m e r o s i t vr e d u c t i o n ) 。 二数据挖掘 数据挖掘阶段首先要确定挖掘的任务或目的,如数据分类、聚类、关联规则 发现或序列模式发现等。确定了挖掘任务后,就要决定使用什么样的挖掘算法。 选择实现的算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与 之相关的算法来挖掘;二是要根据用户或实际运行系统的要求,有的用户可能希 望获取描述型的( d e s cr i p t i v e ) 、容易理解的知识,而有的用户只是希望获取准确 度尽可能高的预测型( p r e d i c t i v e ) 知识。选择了挖掘算法后,就可以实施数据挖 掘操作,获取有用的模式。 三结果的解释和评估 数据挖掘阶段发现出来的模式,经过评估可能存在冗余或无关的模式,这时 需要将其剔除;也有可能模式不满足用户要求,这时则需要圆退到发现过程的前 面阶段,如重新选取数据,采用新的数据变换方法,设定新的参数值,甚至换一 种挖掘算法等。另外,k d d 由于最终是面向人类用户的,因此可能要对发现的模 式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换 广东r 业大学_ _ r = 学硕士学位论文 为“i f t h e n ”规贝0 ”。 数据挖掘仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有两个影响要 素:一是所采用的数据挖掘技术的有效性,二:是用于挖掘的数据的质量和数量( 数 据量的大小) 。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的 转换,则挖掘的结果是不会好的。 整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数 据不太好。或是使用的挖掘技术产生不了期望的结果。这时,用户需要重复先前 的过程,甚至从头重新开始。 2 3 数据挖掘的分类 数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术等几个方 面进行分类n 。 一按数据库类型分类 数据挖掘主要是在关系数据库中挖掘知识。随着数据库类型的不断增加,逐 步出现了不同数据库的数据挖掘。现在,除关系数据库挖掘外,还有模糊数据挖 掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。 二按数据挖掘对象分类 数据挖掘除了对数据库这个主要对象进行挖掘外,还有文本数据挖掘、多媒 体数据挖掘、w e b 数据挖掘等。由于对象不同,挖掘方法的差异很大。 三按数据挖掘任务分类 数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差监测、预测等。 按任务分类可将数据挖掘分为:关联规则挖掘、序列模式挖掘、聚类数据挖掘、 分类数据挖掘、偏差分析挖掘和预测挖掘等类型。 四按数据挖掘的方法和技术分类 数据挖掘的技术和方法较多。包括归纳学习类、聚类方法类、统计分析类、 仿生物技术类、模糊数学类、可视化技术类等。 第= 章数据挖掘技术 2 4 数据挖掘的任务 数据挖掘的任务主要有关联分析、聚类分析、分类、预测、时序模式和偏差 分析等。 一关联分析( a s s o c j a t i o na n a l y s i s ) 两个或两个以上数据项的取值之间存在某种规律性,就称为关联,刊以建立 起这些数据项的关联规则“。数据关联是数据库中存在的一类重要的、可被发现 的知识,它反映一个事件和其他事件之间依赖或关联。如果两项或多项属性之间 存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。 例如,买面包的顾客中9 0 还买牛奶,这就是一条关联规则。在商场中将这 两样物品摆放在一起销售,将会提高销售量。 在大型数据库中,这样的关联规则可以产生很多,这就需要进行筛选。一般 用“支持度”和“可信度”两个阀值来淘汰那些无用的关联规则。 二聚类分析( c lu s t e r in g ) 聚类是把数据按照它们的相似性归纳成若干类别,同一类别中的数据距离较 小、彼此相似,不同类别中的数据距离偏大、彼此相异”。聚类分析可以建立宏 观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。 聚类方法包括统计分析方法、机器学习方法和神经网络方法等。 在统计分析方法中,聚类分析是基于距离的聚类。这种聚类分析方法是一种 基于全局比较的聚类,它需要考察所有的个体才能决定类的划分。 在机器学习方法中,聚类是无导师的学习。此时距离是跟据概念的描述来确 定的,又称为概念聚类,当聚类对象动态增加时,概念聚类则称为概念形成。 在神经网络中,自组织神经网络方法用于聚类。如a r t 模型、k o h o n e n 模型 等,这是一种无监督学习方法。当给定距离阀值后,各样本按阀值进行聚类。 三分类( c ia s s i f ic a t i o n ) 分类是数据挖掘中应用得最多得任务。分类就是找出一个类别的概念描述, 并用这种描述来构造模型( 一般用规则或决策树模式表示) 。类别的概念描述代表 着这类数据的整体信息,也就是该类的内涵描述”9 l 。 广东工业人学工学硕士学位论文 类的内涵描述分为:特征描述和辨别性描述。特征描述是对类中对象的共同 特征的描述。辨别性描述是对两个或多个类之间的区别的描述。 分类的过程是:分析输入数据,通过在训练集中的数据所表现出来的特性, 经过有关算法,为每一个类找到种准确的描述或者模型,并使用这种类的描述 对未来的测试数据进行分类。 四预测( pr e d ic a t i o n ) 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种 类及特征进行预测”。 典型的预测方法是回归分析,即利用大量的历史数据,以时间为变量建立线 性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出 该时间的状态。 近年来,发展起来的神经网络方法( 如b p 模型) ,实现了非线性样本的学习, 能进行非线性函数的判别。 分类也能进行预测,但分类一般用于离散数值;回归预测用于连续数值;神 经网络方法预测既由丁以用于连续数值,也可以用于离散数值。 五时序模式( t i m e s er ie sp a t t er n ) 时序模式是指通过时问序列搜索出的重复发生概率较高的模式”。与回归一 样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不 同。 在时序模式中,需要找出在某个最小时间内出现比率一直高于某一最小百分 比( 最小支持度闽值) 的规则。这些规则会随着形势的变化作适当的调整。 时序模式中,一个有重要影响的方法是“相似时序”。用“相似时序”的方 法,要按时间顺序查看时间事件数据库,从中找出另一个或多个相似的时序事件。 六偏差分析( d e v ia t i o n ) 数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非 常重要的。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、 观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是, 寻找观测结果与参照值之间有意义的差别。 第二章数据挖掘技术 2 5 数据挖掘的对象 数据挖掘的对象主要是关系数据库。随着数据挖掘技术的发展,逐步进入到 空间数据库、时态数据库、文本数据库、多媒体数据库、环球网w e b 等。文字、 音频、图像、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视 频的数据量很大,要从千万计的多媒体数据中找出需要的数据和信息是很困难的。 目前,对多媒体数据的处理只能在存取、编辑、集成、快进快退等基本操作上, 对多媒体信息的检索仅靠文件标识、关键字等进行检索,局限性很大。目前兴起 的基于内容的多媒体检索,通过实例的查询方式,检索相似图像、音频、视频信 息,已成为研究的热点。基于内容的音频、视频信息的聚类、分类、相似查询等 数据挖掘技术正在兴起。 2 6 数据挖掘的方法和技术 数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分 析方法、模糊数学方法及可视化技术,以数据库为研究对象,形成了数据挖掘的 方法和技术“m ”“2 。 数据挖掘的方法和技术可分为以下六大类: 一归纳学习法 归纳学习法是目前重点研究的方向。从采用的技术上看,分为信息论方法和 集合论方法。 1 信息论方法( 决策树方法) 信息论方法是利用信息论的原理建立决策树。在知识工程领域,决策树是一 种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是 比较直观的,因而比较易于理解。该类方法的实用效果好,影响较大。由于该方 法最后获得的知识表示形式是决策树,故一般称它为决策树方法。这种方法一般 用于分类任务中。信息论方法中较有特色的方法有:l d 3 、i b l e 方法。 2 集合论方法 集合论方法是开展较早的方法。近年来,由于粗集理论的发展使集合论方法 广东t 业大学工学硕上学位论文 得到了迅速的发展。这类方法中包括:覆盖正例排斥反例方法( 典型的方法有a q 系列方法) 、概念树方法和粗糙集方法。 二聚类方法 聚类分析是直接比较样本中各样本之间的距离,将距离较近的归为一类,而 将距离较远的分在不同类中。它把一个给定的数据对象集合分成不同的簇,是一 种无监督分类法。其中较有特色的方法有:k m e a n s ( k 平均值) 、c l a r a 算法、b i r c h 算法、c h a m e l e o n ( 变色龙) 算法、c l i o u e 算法等。 三统计分析方法 这是利用统计学原理对数据库中的数据进行分析的方法,统计分析既是一门 独立的学科,也作为数据挖掘的。大类方法。统计分析方法包括有:常用统计( 如 求大量数据中的最大值、最小值、总和、平均值等) 、相关分析( 求相关系数来度 量变量间的相关程度) 、回归分析( 求回归:亏程来表示变量间的数量关系) 、差异 分析( 从样本统计量的值得出差异,来确定总体参数之间是否存在差异) 、判别分 析( 建立一个或多个判别函数,并确定一个判别标准。对未知对象利用判别函数 将它划归某一个类别) 、b a y e s 网络( 利用联合概率和b a y e s 公式所描述的各网络 变量问的因果关系来进行数据分析) 。 四仿生物技术 仿生物技术典型的方法是神经网络方法和遗传算法”。这两类方法已经形成 了独立的研究体系,它们在数据挖掘中也发挥了巨大的作用。 1 神经网络方法 它是模拟了人脑神经元结构,以m p 模型和h e b b 学习规则为基础的,建立 了三大类多种神经网络模型( 前馈式网络、反馈式网络、自组织网络) 。 神经网络的知识体现在网络连结的权值上,是个分布式矩阵结构。神经网 络的学习体现在神经网络权值的逐步计算上( 包括反复迭代或者是累加计算) 。当 需要从复杂或不精确数据中获得概念比较困难的时候,利用神经网络技术特别有 效。经过训练后的神经网络就像是具有某种专门知识的“专家”,因此可以像人一 样从经验中学习。 2 遗传算法 第二章数据挖掘技术 这是模拟生物进化过程的算法。它由繁殖( 选择) 、交叉( 重组) 、变异( 突 变) 三个基本算子组成。 这种遗传算法起到产生优良后代的作用。这些后代需要满足适应值,经过若 1 二代的遗传,将得到满足要求的后代( 问题的解) 。遗传算法已在优化计算和分类 机器学习方面发挥了显著的效果。 五可视化技术 可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。 例如把数据库中多维的数据变成多种图形,这对于揭示数据中的状况,内在本质 以及规律性起到很强的作用。 。j j 视化数据挖掘的目的是使用户能够交互地浏览数据及挖掘过程,提高数据 挖掘效果。可视化技术在数据挖掘的各个阶段都扮演着重要角色。如在数据准备 阶段,使用散点图、直方图等统计可视化技术显示源数据,可以对数据有个初步 的了解,为更好的选取数据打下基础。在挖掘阶段,用可视化形式描述各种挖掘 过程,从中用户可以看出数据从哪个数据仓库或数据库中抽取出来,怎样抽取以 及怎样预处理,怎样挖掘等。在表示结果阶段,用可视化技术使发现的知识更易 于理解。 六模糊数学方法 由于模糊性是客观的存在,而且系统的复杂性愈高,使精确化能力便愈低, 这就意味着模糊性愈强。这是z a d e h 总结出的互克性原理。 利用模糊集合理论可对实际问题进行模糊评判、模糊决策、模糊模式识别、 模糊关联规则和模糊聚类分析。 七其它的方法 还有许多其它的方法如逻辑回归方法、关联规则方法、最近邻方法、文本采 掘、w e b 采掘、序列分析、s v m 、h y b r i d 等,也常被一些特定领域广泛采用。 2 。7 本章小结 本章主要介绍了数据挖掘的过程、分类、任务、对象和方法,为之后章节中 广东t 业大学工学硕上学位论文 的数据挖掘的实际应用奠定了坚实的理论基础。 在第四章中将要介绍关于数据挖掘技术在高校教学研究应用中的探索,在研 究中,我们选择分类技术进行探讨。 1 4 第三帝数据挖掘中的分类技术 第三章数据挖掘中的分类技术 数据分类( d a t ac 1 a s s i f i c a t i o n ) 在数据挖掘中是一项非常重要的任务,目前 在商业上应用最多,在其他领域的应用也逐渐展开。本章首先介绍分类的目的、 分类的过程、分类的评估标准等分类技术的基本知识,接着介绍了决策树、贝叶 斯分类及神经网络分类等几种常用的分类方法及各种分类方法的比较。 3 。1分类的基本概念 3 1 1 分类的目的 分类就是根据数据集的特点找出类别的概念描述,这个概念描述代表了这类 数据的整体信息,也就是该类的内涵描述”。 分类的目的是:分析输入数据,通过在训练集中的数据所表现出来的特性, 为每一个类找到一种准确的描述或者模型。这种描述常常用谓词表示。并使用这 种类的描述对未来的测试数据进行分类。尽管这些未来的测试数据的类初;签是未 知的,我们仍可以由此预测这些新数据所属的类。 分类可描述为:给定一训练数据的集合丌简称为训练集或训练数据库) ,丁中 的元素记录由若干个属性描述。在所有属性中有日仅有一个属性作为类别属性。 属性集合用矢量x = ( x l ,x 2 ,孔) 表示,其中墨( 1 f 肝) 对应各非类别属性, 可以具有不同的值域,即对于任1 属性x f = ( z l ,工2 。,x 。 ,m i 随属性的不同而变 化。当属性的值域为连续值域时,该属性称为连续属性( n u m e r i c a l a t t r i b u t e ) , 否则称为离散属性( d i s c r e t e a t t r i b u t e ) ;用c 表示类别属性,c = f c j ,q ,“ ,即 数据集有足个不同的类别。那么,r 就隐含地确定了一个从矢量x 到类别属性c 的映射函数日:“x ) 一c ,分类的目的就是采用某种方法( 模型) 将该隐含函数日 表示出来。 分类器的构造方法有统计方法、机器学习方法、神经网络方法等。统计方法 包括贝叶斯法和非参数法( 近邻学习或基于事例的学习) ,对应的知识表示则为判 广东工业大学工学硕士学位论文 别函数和原型事例”1 。机器学习方法包括决策树法和规则归纳法,前者对应的表 示为决策树,后者则一般为产生式规则。1 。神经网络方法主要是b p 算法,它的 模型表示是前向反馈神经网络模型( 由代表神经元的节点和代表连接权值的边组 成的一种体系结构) ,b p 算法本质上是一种非线性判别函数。另外,还有兴起的 粗糙集( r o u 曲s e t ) 方法,其知识表示是产生式规则。 3 1 2 分类的过程 分类的过程一般分为两个步骤:第一步,通过已知数据集建立概念描述模型, 该模型是通过对数据库中各数据行内容的分析而获得的。第二步,就是利用所获 得的模型进行分类操作,首先对模型分类的准确率进行估计,如果一个模型的准 确率绎测试被认为是可以接受的,那么就可以使用这。模型对未知类型的数据行 或对象进行分类“1 。 图3 1利用训练集进行学习 f i g u r e3 1l e a r n j n gw i t ht r a i n i n gd a t as e t 以信用卡系统的信用分级分类为例,图3 一l 及图3 2 分别描述了分类的两个 步骤的运行机制。第一步,利用训练数据集进行学习,训练集( t r a i n i n g d a t as e t ) 被分类算法( c l a s s i f j c a t i o na l g o r i t h m ) 分析生成分类规则( c l a s s i f i c a t i o nr u l e s ) 。 第二步,用测试数据( t e s t i n gd a t as e t ) 进行模型评估,如果准确率可以接受, 则分类规则将用来对新数据进行分类。 第二章数据挖掘中的分类技术 测试数据 姓名年龄收入 李强 4 0高 吴凌 p ( c l x ) , l j m ,j j r 17 、 即假定样本为类c 。的概率大于假定为其它类的概率。根据贝叶斯定理, p ( c ,l x ) :! ! 兰! 堡! ! ! 里! ! 一。 p ( x ) f ,1 其中,尸( x ) 指任意一个数据对象符合样本x 的概率,对于所有类来说,它为 常数。由公式可看出,只需要p ( x i c f ) p ( c ,i i 最大即可。p ( c f ) 为任意一个数据对象 是类c 。的概率,可以用p ( g ) = j 。船( 其中,s 。是类c f 中训练样本数,s 是训练样本 广东工业大学工学硕士学位论文 总数) 计算。给定样本的类标号,假定各属性值相互条件独立( 类条件独立) ,这 样p ( x i c 。) 的计算可使用公式 p ( x lc f ) = 兀p ( 坼l g ) i = 1 ( 3 4 ) 概率尸( 靴i c f ) 可以由训练样本估算:1 ) 如果a t 是分类属性,则p ( 札l c 。) = 跚脂。, 其中 :是属性a t 上值为z 女的类c f 的训练样本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论