(计算机应用技术专业论文)数据挖掘在高职院校基础数据平台中的应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘在高职院校基础数据平台中的应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘在高职院校基础数据平台中的应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘在高职院校基础数据平台中的应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘在高职院校基础数据平台中的应用.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要 随着现代信息技术、通讯技术和计算机技术的高速发展,数据库应用的范围、 深度和规模不断扩大,许多领域积累了海量的数据,数据挖掘技术的研究也得到了 空前的重视。 近几年,由于我国大力发展职业教育,高职学生数量的激增,给学生管理工作 带来了诸多新的问题,迫切需要建立一套科学而完善的学生管理信息分析系统。把 数据挖掘技术应用到高职学生信息管理工作中,是解决上述问题的一种有益探索。 数据挖掘技术对有效地分析和管理学生海量数据,提高管理水平和效率具有重要意 义,并且能够对高职院校各项工作起到辅助决策的作用。 在优选挖掘方法的基础上,运用数据挖掘技术对高职院校基础信息一学生学业成 绩数据库进行挖掘。对待挖掘数据进行预处理,构建了待挖掘数据库一成绩管理数据 库,建立了高职学生职业岗位能力评价的指标体系和模型。用统计分析方法进行了 基于统计描述的数据挖掘,用模糊聚类方法对高职学生岗位职业能力进行综合评价。 同时得到了同一门课程各班级间优秀率和低劣率的分布及对比;不同班级、专业间 集中量数、差异量数的比较和显著性检验。 从成绩管理数据库中进行数据挖掘以发现知识、获取有用信息的一种有益尝试 和重要应用,是对职业教育的丰富与发展,对指导教学、促进素质教育具有积极的 意义。 关键词:数据挖掘模糊聚类成绩管理数据库职业能力评价体系 i 华中科技大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h em o d e r ni n f o r m a t i o nt e c h n o l o g y ,c o m m u n i c a t i o n t e c h n o l o g ya n dc o m p u t e rs k i l l ,t h er a n g e , d e p t ha n dd i m e n s i o n so ft h ed a t au s i n ga r e b e c o m i n gl a r g e r , m a n yf i e l d sh a v ea c c u m u l a t e dag r e a tn u m b e ro fd a t a , a l s ot h er e s e a r c h o fd a t am i n i n gt e c h n o l o g yh a sb e e nv a l u e dg r e a t e rt h a nb e f o r e i nr e c e n ty e a r s ,a sc h i n ah a sb e e np a y i n gg r e a ta t t e n t i o nt od e v e l o pt h ep r o f e s s i o n a l e d u c a t i o n , a n dt h en u m b e ro f v o c a t i o n a lt e c h n i c a lc o l l e g es t u d e n t si si n c r e a s i n gs oq u i c k l y t h a ti ta p p e a r sm a n yn e wp r o b l e m st ot h ew o r ko ft h es t u d e n t sm a n a g e m e n t ,i tu r g e n t l y n e e d saf u l ls e to fs c i e n t i f i ca n dc o n s u m m a t ea n a l y t i c a is y s t e ma b o u tt h ev o c a t i o n a l t e c h n i c a lc o l l e g es t u d e n t s m a n a g e m e n t i ti sau s e f u le x p l o r a t i o nt oa p p l yt h ed a t am i n i n g t e c h n o l o g yt ot h ew o r ko ft h ev o c a t i o n a lt e c h n i c a lc o l l e g es t u d e n t s i n f o r m a t i o nt os o l v e t h ea b o v em e n t i o n e dp r o b l e m st h ed a t am i n i n gt e c h n o l o g yh a sg r e a ts i g n i f i c a n c et o a n a l y z ea n dm a n a g et h es t u d e n t s h e a v yd a t ae f f i c i e n t l y ;w h a t sm o r e i ti sa b l et oh a v ea p a r ti na s s i s t i n ga n dd e c i d i n ge v e r yw o r ko f v o c a t i o n a lt e c h n i c a lc o l l e g e o nt h eb a s i so f p r e f e r r e dt h em i n i n gm e t h o d s ,w eu s ed a t am i n i n gt e c h n o l o g yt om i n e t h ed a t a b a s ea b o u tb a s i c a l l yi n f o r m a t i o no fv o c m i o n a it e c h n i c a lc o l l e g es u c ha st h e s t u d e n t s g r a d e f i r s tw ep r e t r e a t e dt h ea w a i tm i n i n gd a t a , w eh a v ec o n s t r u c t e d t h ea w a i t m i n i n gd a t a b a s e ,n a m e l yg r a d em a n a g e m e n td a t a b a s e ,a l s oe s t a b l i s h e dt a r g e ts y s t e m sa n d m o d e l sa b o u ts t u d e n t s p o s tp r o f e s s i o n a la b i l i t y a n dt h e nm i n ei nv i e wo f t h ep o r t r a y a lo f s t a t i s t i c sr u l e su s i n gt h es t a t i s t i ca n a l y s i s ,u s i n gf u z z yc l u s t e r i n gw a yt oe v a l u a t et h e v o c a t i o n a lt e c h n i c a lc o l l e g es t u d e n t sp o s t p r o f e s s i o n a la b i l i t ys y n t h e t i c a l l y w eh a v e m i n e ds u c hr e s u l t sa st h ed i s t r i b u t i o na n dc o n t r a s ta b o u te x c e l l e n tr a t ea n d1 0 wr a t eo f t h e s a m el e s s o ni nd i f f e r e n tc l a s s e s , a l s om i n e dc o m p a r i s o no fc o n c e n t r a t i n gm e a s u r i n gp o i n t a n dd i f f e r e n tm e a s u r i n gp o i n ta n da p p a r e n tt e s t sb e t w e e nd i f f e r e n tc l a s s e sa n dm a j o r s t h i st h e s i si sab e n e f i c i a la t t e m p ta n di m p o r t a n ta p p l y m e n ta b o u td a t am i n i n ga n d 华中科技大学硕士学位论文 a c q u i r i n gv a l u a b l ei n f o r m a t i o na n df i n d i n gk n o w l e d g ef r o mt h eg r a d ed a t a b a s e sr i c ha n d d e v e l o p st h et e a c h i n gt e c h n o l o g y , s oa st oc o n d u c tt h et e a c h i n gf u r t h e r i t sa l s om a k i n ga c o n t r i b u t i o nt ot h es t u d e n t ss y n t h e t i c a l l yq u a l i t ye v a l u a t i o nt os o m ee x t e n t k e y w o r d s :d a t am i n i n g ,f u z z yc l u s t e r i n g ,g r a d em a n a g e m e n td a t a b a s e , p r o f e s s i o n a la b i l i t y , e v a l u a t i o n s y s t e m 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 学位论文作者签名 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本论文属于, 不保涮 ( 请在以上方框内打“”) 学位论文仨者签名:矿籀锄 日期:枷6 年,月1 fe t 指剥币签名名刍宰 日期:旃r 月f 日 华中科技大学硕士学位论文 1 1 数据挖掘的历史及发展 1 绪论 随着现代信息技术、数据库技术、网络技术和计算机技术的高速发展及数据库 管理系统的广泛应用,数据库存储的数量急剧增大,以g i g a b y t e 为数量级的数据存 储在实际应用中已经变得越来越普遍,以t e r a b y t e 数量级的商业应用也越来越多, 在科学计算领域出现了p e t a b y t e 级的应用【“而且数据存储量增加的势头十分迅猛, 形成了和计算机集成芯片0 c ) 发展中的“摩尔定律”相似的“数据积累摩尔定律”,即企 业中的数据量平均经过1 8 个月就会翻一群“。传统的信息系统大部分是查询驱动的, 数据库作为历史知识库对于一般查询过程是有效的,但当数据和数据库的规模急剧 增加时,传统的数据库管理系统的查询检索机制和统计方法己远远不能满足现实的 需要,它迫切要求能够自动、智能和快速地从数据库中挖掘出有用的知识和信息。 如何迅速、准确、有效但适量地提供用户所需要的信息,发现信息之间潜在的联系。 支持管理决策就是数据挖掘和数据仓库要解决的课题。 用数据库管理系统来存储数据,用人工智能的方法来分析数据,挖掘大量数据 隐含的知识,这两者结合促成了数据库中的知识发现( k d d :k n o w l e d g ed i s c o v e r yi n d a t a b a s e ) 的产生。知识发现的提出,让人们相信有能力最终认识数据的真正价值, 即蕴藏在数据中的信息和知识。知识发现是指从大型数据库或数据仓库中提取人们 感兴趣的知识。这些知识是隐含的、事先未知的、潜在的有用信息。知识发现是目 前国际上数据库和信息决策领域的最前沿的研究方向之一,引起了学术界和工业界 的广泛关注。同时它也是一门交叉性学科,涉及机器学习、模式识别、统计学、数 据可视化、高性能计算、专家系统等领域,内涵极为广泛、理论和技术难度很大, 从而使针对大型数据库的k d d 技术一时还难以满足应用需要。于是,1 9 9 5 年的计 算机学会( a c m ) 会议提出了数据挖掘的概念【3 】。 数据挖掘( d m :d a t a m i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、 华中科技大学硕士学位论文 随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程【4 】。它是知识发现的重要步骤。 数据挖掘与传统数据分析工具的主要区别在于它们探索数据关系时所使用的方 法不同。传统数据分析工具使用基于验证的方法,即用户首先对特定的数据关系做 出假设,然后使用分析工具去验证这些假设。这种方法的有效性受到很多因素的限 制,如提出的问题和预先假设是否合适等。与分析工具相反,数据挖掘使用基于发 现的方法,运用模式匹配和其他算法决定数据之间的重要联系。 l ,2 国内外数据挖掘研究现状 数据库中的知识发现( k d d ) 1 3 1 - - 词自首次出现在1 9 8 9 年8 月举行的第1 1 届 国际联合人工智能学术会议上以来,迄今为止,由美国人工智能协会主办的k d d 国 际研讨会已经召开了1 2 次,规模由原来的专题讨论会发展到国际学术大会,人数由 二三十人到七八百人,研究重点也逐渐从发现方法转向系统应用,并且注重多种发 现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数 据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。 1 9 9 7 年亚太地区在新加坡组织了第一次规模较大的p a k d d 学术研讨会很有 特色。今年将在澳大利亚墨尔本召开的p a k d d 9 8 已经收到1 5 0 多篇论文,空前热 烈。 此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷 开辟了k d d 专题或专刊。i e e e 的k n o w l e d g e a n dd a t ae n g i n e e r i n g 会刊领先在1 9 9 3 年出版了k d d 技术专刊,所发表的5 篇论文代表了当时k d d 研究的最新成果和动 态,较全面地论述了k d d 系统方法论、发现结果的评价、k d d 系统设计的逻辑方 法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,k d d 系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系 和区别,以及相应的基本对策。6 篇论文摘要展示了k d d 在从建立分子模型到设计 制造业的具体应用。 华中科技大学硕士学位论文 不仅如此,在i n t e m e t 上还有不少k d d 电子出版物,其中以半月刊k n o w l e d g e d i s c o v e r y n u g g e t s 最为权威,如要免费订阅,只需向 h t t p :w w w k d n u g g e t s c o r n s u b s c r i b eh t m l 发送一份电予邮件即可,还可以下载各种各 样的数据挖掘工具软件和典型的样本数据仓库,供人们测试和评价。另一份在线周 刊为d s + ( d s 代表决策支持) ,1 9 9 7 年1 0 月7 目开始出版,可向d s t r i a l 匡驰g cc o r n 提 出免费订阅申请。在网上,还有一个自由论坛d m e m a i l c l u b ,人们通过电子邮件 相互讨论d m k d 的热点问题。 当前,世界上比较有影响的典型数据挖掘系统有c o v e rs t o r y 、e x p l o r a 、 k n o w l e d g ed i s c o v e r yw o r k b e n c h 、d bm i n e r 、q u e s t 等。 与国外相比,国内对数据挖掘和知识发现的研究稍晚,没有形成整体力量。1 9 9 3 年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单 位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、 中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统 工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开 展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、 中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南 京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发 现以及w e b 数据挖掘。 可以看出,数据挖掘的研究和应用受到了学术界越来越多的重视。进行数据挖 掘的开发并不需要太多的积累,国内软件厂家如果进入该领域,将处于和国外公司 实力相差不很多的起跑线上,并且,现在关于数据挖掘的一些研究成果可以在i n t e m e t 上免费获取,这更是一个可以利用的条件。 1 3 论文研究的背景和意义 随着信息技术的蓬勃发展,高校信息化建设也有了重大进展。特别是最近几年 来,由于“2 1 1 工程”及相关计划的推动,以清华大学为代表的一些高校在网络基础设 3 华中科技大学硕士学位论文 施、信息系统建设方面都有了大的发展。他们有良好的网络环境,校园网络应用系 统和用户都达到了相当的规模,网络用户涵盖了教师、学生、职员、工人等校内各 类人群和无法计数的校外访问者,初步实现了网上办公、网上管理、网上教学和网 上服务。 但是,由于高校信息化是一项新鲜事物,国内外都没有成熟的理论和通用的模 式,在高校信息化建设的过程中,由于缺乏全局统一的系统规划,应用系统建设容 易各自为政,信息难以交换,形成信息孤岛,更难以在更高的层次上进行信息的处 理,如信息挖掘、决策支持等。信息缺乏有效的共享,对整个学校应用系统的效率 和准确性都产生了重大的影响1 5 】。 因此,我们首先必须在统一规划和统一管理的基础上解决好高校各信息管理系 统的集成。然后将数据挖掘技术应用到教育信息化中,加快高校教育信息化的发展, 促进领导方式和管理方式的改变和创新,实现信息资源共享,提高教育行政部门和 学校的信息处理和服务能力,使各级管理部门能够及时掌握更多的教育信息和动态, 提高决策的可预见性和决策水平。这对于规范管理,加强服务,提高教育行政质量 和效率,提高学校教育教学和科研管理水平与能力,具有十分重要的意义【6 】。 1 4 论文的主要工作 湖南教育厅组织技术力量开发了全省高校统一的基础数据平台,这对刚刚兴起 的高职院校的信息管理有很大地指导作用,对高职院校的教育管理信息化及现代化 有非常大的帮助。本文尝试将数据挖掘技术引入高职院校教学信息管理之中,主要 通过湖南省各高校使用的k e y c o m 数字校园基础数据平台分析常德职业技术学院的 基础数据信息,以期发现对学校教学管理、学生管理、教师管理、物质设备管理、 后勤管理等有用的信息,并对高等学校数据管理工作提出建议,由于时间和精力有 限,本论文仅就学生考试成绩信息进行数据挖掘,以期加快高职院校课程教学改革, 为学院有效评价学生能力,企业选拨人才提供一种方法。 第一章是绪论,主要介绍本论文的研究背景和研究意义,综述了数据挖掘的理 4 华中科技大学硕士学位论文 论渊源、发展现状,以及国内外数据挖掘的发展情况。 骤。 第二章介绍数据挖掘技术的概念、分类、算法、主要方法,以及数据挖掘的步 第三章介绍湖南省教育厅开发的k e y c o m 数字校园基础数据平台,并重点介绍 本平台的特点、功能以及总体结构和数据库设计等方面的部分内容。 第四章用统计分析方法对学生成绩数据库进行统计分析。 第五章建立高职学生职业岗位能力评价体系,并用模糊聚类分析方法建立一套 实用的学生评价系统。 华中科技大学硕士学位论文 2 数据挖掘技术的研究 2 1 数据挖掘基本概念 数据挖掘( d a t am i n i n g 简称d m ) 是从超大型数据库或数据仓库中发现并提取隐 藏在内部的信息的一种新技术。目的是帮助决策者寻找数据间潜在的关联,发现被 经营者忽略的要素,而这些要素对预测趋势决策行为也许是十分有用的信息。数据 挖掘就是从大量的不完全的有噪声的随机的数据集中识别有效的、新颖的、潜在有 用的以及最终可理解的模式的非平凡过程【7 1 。 数据挖掘是一门涉及面很广的交叉学科,包括数据库、机器学习、神经网络、 数理统计、模式识别、粗糙集、模糊数学、知识库系统等相关技术,是目前数据库 研究、开发祁应用中最活跃的分支之一,传统的d d s 系统通常是在某个假设的前提 下通过数据查询和分析来验证或否定这个假设,而数据挖掘技术则能够自动分析数 据,进行归纳性推理,从中发掘出数据间潜在的模式;或产生联想,建立新的业务 模型帮助决策者调整市场策略,找到正确的决策。 数据挖掘的对象可以是结构化的,如关系数据库中的数据,也可以是半结构化 的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据t8 】【9 】。挖掘的方 法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。被挖掘的 知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自 身的维护。数据挖掘技术是面向应用的,它不是简单的数据检索查询,而是对这些 数据进行微观,乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,发 现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测【l o i 1 1j 。它把人们 对数据的应用从低层次的末端查询操作,提高到为决策者提供决策支持。在数据仓 库基础上挖掘的知识通常以图表、可视化、类自然语言等形式表示出来,数据挖掘 所发现的模式、知识并不都是有意义的,必须进行评价、筛选和验证,把有意义的 放到知识库中,随着时间的推移将积累更多的知识。知识库根据挖掘的知识类型包 华中科技大学硕士学位论文 括总结性知识、关联性知识、分类模型知识、聚类模型知识,这些知识是有特定前 提和约束条件,面向特定领域的易于被用户理解的。 2 ,2 数据挖掘的分类 目前对数据挖掘的研究活跃而杂乱,每年有大量的研究文献涌现,主要针对数 据挖掘的处理过程、功能模型、算法研究、应用等不同层面。 数据挖掘有多种分类方法【1 2 l 1 3 1 : 1 根据挖掘任务区分:分为概念描述、分类或预钡9 模型发现、聚类挖掘、关联 规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等; 2 根据挖掘对象区分:分为面向关系数据库挖掘、面向对象数据库挖掘、面向 空间数据库挖掘、面向时态数据库挖掘、面向文本数据源挖掘、面向多媒体数据库 挖掘,以及w e b 挖掘等; 3 根据挖掘方法区分:可分为机器学习方法、统计方法、神经网络方法和数据 库方法。在机器学习中,又可细分为:归纳学习方法( 决策树、规则归纳等) 、基于范 例学习、遗传算法等。在统计方法中,可细分为:回归分析( 多元回归、自回归等) 、 判别分析( 贝叶斯判别、费歇尔判别、非参数判别等) 、聚类分析( 系统聚类、动态聚 类等) 、探索性分析( 主元分析法、相关分析法等) 等。在神经网络方法中,可细分为: 前向神经网络( b p 算法等) 、自组织神经网络( 自组织特征映射、竞争学习等) 等。数 据库方法主要是多维数据分析或o l a p 方法,另外还有面向属性的归纳方法等。 下面将主要从数据挖掘的任务和方法的角度,来简述概念描述、分类发现、聚 类和关联规则发现的概念和方法。 概念描述 概念描述是描述式数据挖掘的最基本形式,它提供数据的特征化或比较描述。 所谓的特征化就是以简洁汇总的形式描述与给定任务相关的数据集,而比较指的是 对给定的多个数据集进行的比较描述。 概念特征化和比较一般有两种方法:基于数据立方体o l a p 的方法和面向属性 7 华中科技大学硕士学位论文 归纳的方法。 分类 分类挖掘用于提取描述给定的数据集类别组成的模型,这个模型可以帮助预测 未知类别数据记录的分类情况【1 4 】。预测的准确率、计算效率、强壮性、可伸缩性及 可理解性是评估分类方法的五个标准。 分类模型的构造方法有统计方法、机器学习方法、神经网络方法、粗糙集方法 等。机器学习方法包括决策树法和规则归纳法,前者对应的表示为决策树,后者则 一般为产生式规则。 i d 3 和c 4 5 算法是常用的基于决策树归纳的分类算法,它们以信息论度量来 为决策树的子节点选择测试属性。但是,这种早期的决策树算法总是假定数据是驻 留在内存中的,这对大型数据库上的数据挖掘是一种限制。后来出现的一些可伸缩 性算法,如s l i qs p r i n t 等算法就可以有效的解决这个问题。 聚类 聚类是把一组给定的对象集合按照各个对象的相似性划分成若干个类别的过 程。它的目的是使得属于同一类别的对象之间彼此最为相似,而属于不同类别的对 象问的差异尽可能的大。 聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。 在统计方法中,主要研究基于几何距离的聚类,如欧式距离、明考斯基距离等,该 方法不具有线性的计算复杂度,难以适用于大型数据库的情况。机器学习方法中, 类别需要由聚类学习算法来自动确定,在很多人工智能文献中,聚类也称概念聚类, “相似性”不再是统计方法中的几何距离,而是根据概念的描述来确定的,常见的神 经网络聚类方法主要是自组织特征映射方法。 关联规则 关联规则用于在大量数据中找出一组项目之间的关联关系和相关关系。常表示 为规则形式,形如x y 的关联规则解释为:满足x 的数据库元组也很可能会满足 y 。关联规则发现的主要对象是事务型数据库。支持度和置信度是对关联规则的兴趣 度度量,只有满足最小支持度阅值和最小置信度闽值的规则才被认为是“有趣”的。 r 华中科技大学硕士学位论文 2 3 数据挖掘的主要方法 数据挖掘所涉及的学科领域和方法很多,以下是非常重要的发现方法1 ,5 1 l 关联分析( a s s o c i a t i o n sa n a l y s i s ) 关联分析的目的是为了挖掘出隐藏在数据问的相互关系。关联分析就是给定一 组i t e m 和一个记录集合,通过分析记录集合,推导出i t e m 问的相关性。例如,“7 2 包含i t e ma ,b 和c 的记录同时也包含i t e md 和e ”其中百分比7 2 称为规则“包含 i t e m a ,b 和c 的记录同时也包含i t e m d 和e 的可信度。关联分析广泛用于购物篮 或事物数据分析。 2 序列模式分析( s e q u e n c ep a t t e r n sa n a l y s i s ) 序列模式分析的目的也是为了挖掘出数据之间的联系,但分析的侧重点在于分 析数据间的前后( 因果) 关系。运用序列模式分析,零售商可以发现客户潜在的购物模 式,例如“客户在购买微波炉前最常购买何种商品”。 3 聚类分析( c l u s t e r i n ga n a l y s i s ) 聚类分析的输入集是一组未标定的记录,也就是说此时输入的记录还没有被进 行任何分类。其目的是根据一定的规则,合理地划分记录集合,并用显式或隐式的 方法描述不同的类别。 4 分类分析( c l a s s i f i c a t i o na n a l y s i s ) 分类是这样的过程,它找出描述并区分数据类或概念的模型,以便能够使用模 型预测类,标记未知的对象类。 5 孤立点分析( o u t l i e ra n a l y s i s ) 数据库中可能包含一些数据对象,他们与数据的一般行为或模型不一致。这些 数据对象是孤立点。大部分数据挖掘方法将孤立点视为噪声或异常而丢弃。然而, 在一些应用中,罕见的事件可能比正常出现的那些更有意义。孤立点分析正是对这 些异常的数据进行分析。 6 演变分析( e v o l u t i o na n a l y s i s ) 数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这 q 华中科技大学硕士学位论文 可能包括时间相关数据的特征化、区分、关联、分类、或聚类,这类分析的不同特 点包括时间序列数据分析、序列或周期匹配和基于类似性的数据分析。 2 4 数据挖掘的算法 数据挖掘算法是对数据挖掘方法的具体实现,一般由3 个部分组成【1 7 1 1 ) 模型( 从数据库中所发现的模型) 表示:用于描述要发现的模型是语言。如果语言 的描述能力较强,就有助于发现精确的数学模型。但是,能力过强的描述语言却有 可能导致所发现的模型过分一般化,降低了预测的精度。常用的模型表示方法有决 策树、非线性回归、基于事例的推理、贝叶斯网络和归纳程序设计等方法。 2 ) 模型( 从数据库中所发现的模型) 评价标准:对1 个所发现的模型在多大程度上 符合发现目的和要求作出定量的评价。对预测类的模型,可以利用一些测试数据集 来评价其精确度。对描述类的模型,可以在精确度、新颖性、实用性及可理解性等 多个方面进行评价。 3 ) 发现方法:分为参量发现和模型发现。在模型表示和模型评价标准被确定之后, 数据挖掘就完全变成了一个优化任务,即从数据的描述中发现最适合评价标准的参 量或模型。具体说来,参量发现就是在确定数据集和模型表示之后,寻找最适合模 型评价标准的参量。模型发现是一个循环地试探过程,需要不断更改模型表示最 后确定出恰当数量的模型。 一般说来,不存在一个普遍适用的算法。一个算法在某个领域非常有效,但在 另一个领域却可能不太合适。因此,在实际应用中,要针对特定的领域,精心选择 有效的数据挖掘算法。下面介绍一些常见的数据挖掘算法: ( 1 ) 决策树方法( d e c i s i o nt r e e s ) 决策树方法利用信息论中的信息增益寻找数据库中具有最大信息量的字段,建 立决策树的一个结点,再根据字段的不同取值建立树的分支,在每个分支子集中重 复建立树的下层结点和分支的过程,即可建立决策树。 它是一种将一个训练文件( t r a i n i n gf i l e ) g i 分成一组规则的技术。它由节点分支组 1 0 华中科技大学硕士学位论文 成,起始节点称为根节点。训练文件被分为两个或更多的子集,这取决于试验的结 果。最终结果是一组包括所有可能的规则。由于它是以树状结构的图形来表示模型 的,因此容易理解,它已成为常用工具。 用于数据分类,一般分成两个阶段:树的构造和树的修剪。首先利用训练数据生 成一个测试函数,根据不同取值建立树的分支;在每个分支子集中重复建立下层结 点和分支,从而生成一棵决策树,然后对决策树进行剪枝处理,最后把决策树转化 为规则。 算法通常有c h i s u a r e da u t o m a t i ci n t e r a c t i o n g ,i d 3 ,i b l e ( 2 ) 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ) 神经网络最早是由心理学家和神经生物学家提出的,旨在寻求开发和测试神经 的计算模拟。在结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模 型,在数据挖掘中可用来进行分类、聚类、特征采集。粗略地说,神经网络是一组 连接的输入输出单元,其中每个连接都与一个权相联。在学习阶段,通过调整神经 网络的权,使得能够预测输入样本的正确类标号来学习。由于单元之间的连接,神 经网络学习又称连接者学习。 神经网络需要很长的训练时间,因而对于有足够长训练时间的应用更合适。它 需要大量的参数,这些通常主要靠经验确定,如网络拓扑或“结构”。由于人们很难 解释蕴涵在学习权之中的符号含义,神经网络常常因其可解释性而受到批评。这些 特点使得神经网络在数据挖掘的初期并不看好。然而神经网络的优点包括其对噪声 数据的高承受能力,以及它未经训练的数据分类模式的能力。 最流行的神经网络算法是2 0 世纪8 0 年代提出的后向传播算法。 ( 3 ) 遗传算法( g e n e t i ca l g o r i t h m s ) 遗传算法是一种优化技术,试图结合自然进化的思想。基于达尔文的进化论中 基因重组、突变和自然选择等概念。利用生物进化的一系列概念进行问题的搜索, 最终达到优化的目的。根据适者生存的原则,形成由当前群体中最适合的规则组成 新的群体,以及这些规则的后代。典型情况下,规则的适合度( f i t n e s s ) 用它对训练样 本集的分类准确率评估。后代通过使用诸如交叉和变异等遗传操作来创建。在交叉 1 1 华中科技大学硕士学位论文 操作中,来自规则对的子串交换,形成新的规则对。在变异操作中,规则串中随机 选择的位被反转。由先前的规则群体产生新的规则群体的过程继续,直到群体p 进 化”,p 中的每个规则满足预先指定的适合度阈值。 这是模拟生物进化过程的算法,由3 个基本算子组成: 繁殖( 选择) ,是从1 个旧种群( 父代) 选出生命力强的个体,产生新种群( 后代) 的过程。 交叉( 重组) ,选择2 个不同个体( 染色体) 的部分( 基因) 进行交换,形成新个体。 变异( 突变) 对某些个体的某些基因进行变异( 1 变0 ,0 变1 ) 这种遗传算法可以 起到产生优良后代的作用。这些后代需满足适应度值,经过若干代的遗传,将得到 满足要求的后代( 问题的解) 。 遗传算法易于并行,并且已用于分类和其他优化问题。 ( 4 ) 粗糙集方法( r o u g hs e ta p p r o a c h ) 粗糙集理论可以用于分类,发现不准确数据或噪声数据内在的结构联系。它用 于离散值属性。粗糙集理论基于给定训练数据内部的等价类的建立。形成等价类的 所有数据样本是不加区分的,即对于描述数据的属性,这些样本是等价的。给定现 实世界数据,通常有些类不能可用的属性区分。粗糙集可以用来近似或粗略地定义 这种类。给定类c 的粗糙集定义用两个集合近c a :c 的上近似和c 的下近似。c 的下 近似由一些这样的数据样本组成,根据关于属性的知识,他们毫无疑问属于c 。c 的上近似由所有这样的数据样本组成,根据关于属性的知识,他们不可能被认为不 属于c 。通常用判定表表示这些规则。 所以说粗糙集方法是一种处理含糊和不确定问题的新型数学工具,它通过引入 不可分辨关系、等价类、上近似、下近似等概念考察知识表达中的不同属性的重要 性,来确定哪些属性是冗余的,哪些属性是必不可少的。 ( 5 ) 模糊论方法( f u z z ys e ta p p r o a c h e s ) 模糊论方法利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模 式识别等。对于数据挖掘系统进行分类,模糊逻辑是有用的。它提供了在高抽象层 处理的便利。一般地,模糊逻辑在基于规则的系统中的使用涉及: 1 2 华中科技大学硕士学位论文 将属性值转换成模糊值。 对于给定的新样本,可以使用多个模糊规则。每个可用规则为分类的成员关 系都有贡献。通常,对每个预测分类的真值求和。 组合上面得到的和,得到一个系统返回的值。这一过程可以这样做:用每个分 类的真值和加权,并乘以每个分类的平均真值。所涉及的计算可能很复杂,这取决 于模糊成员关系图的复杂性。 ( 6 ) 关联规则( a s s o c i a t i o n sr u l e ) 关联规则是指数据对象之间的相互依赖关系,而发现规则的任务就是从数据库 中发现那些确信度和支持度都大于给定值的强壮规则。 一个大型数据库,其各个字段之间存在着各种各样的关系,这些关系就隐含在 数据库所包含的数据中,关联规则挖掘的目的是找出这些隐藏的关联。 在文献 1 6 】中建立了一个描述关联规则挖掘问题的数学模型:设i = i i i 2 ,i m ) 为一组数据项的集合,d 为事务处理集合,其中每一个事务一组数据项的集合且有 r ,。每一个事物对应于一个标志符,称为t i d 。设x 为一个数据项集,称事物 t 包含x 当且仅当x e 丁x j t 称为一条关联规则,其中x c i ,t i ,a n d x n 丁= m c 称为规则z t 在事物集d 中的置信度,如果d 中c 的事物既包含x , 又包含t ,s 称为规则) e t 在事物集d 中的支持度,如果d 中s 的事物包含x u t , 设定一个最小支持度m i n s u p ,则关联规则挖掘问题就是找出所有置信度和支持度大 于给定值的规则。 一般关联规则挖掘问题可以分为两个步骤寻找支持度大于预定义最小值的数据 项集:从上个步骤中产生的数据项集中生成关联规则。 在这两个步骤中关联规则挖掘效率取决于第一步,当数据集得到后,相应的关 联规则可以直接得到。因此,关联规则挖掘的主要工作在于第一步的实现。a p r i o r i 和d h p 算法可以用于寻找待求数据项集。 a d r i o r i 算法1 7 1 是关联规则挖掘中应用最为广泛的算法之一。它的主要思想是: 数据项集通过循环来获得,在每一次循环中,扫描数据库一次同时生成相同大小的 13 华中科技大学硕士学位论文 数据项集,数据项集的生成按照递增的顺序进行。在第一次循环中通过对数据库的 次扫描生成大小为l 的数据项集,随后,在第k 次循环中,对l k - ,o l k - l 为k - 1 次循 环中生成的大小为k 1 的数据项集) 作用侯选集生成函数得到侯选集c k , 通过对数 据库的一次扫描分别计算c k ,通过对数据库的一次扫描分别计算c k 中的每一个数据 项的支持度,所有大于预先设定最小支持度的数据项组成大小为k 的新的数据项集 l k 。 与a d r i o r i 算法类似,d h p 算法【”1 也是从l k l 中生成侯选集c k 。不同的是,h d p 算法在进行循环并计算数据项的支持度时,建立并维护一张h a s h 表。生成侯选集 c k 时,并不是将所有通过侯选集生成函数得到的数据项加入c k 而是通过h a s h 表进 行选择。通过对h a s h 表的操作,d h p 算法可以大大减小侯选集的规模,从而提高算 法的计算效率。 ( 7 ) 朴素贝叶斯模型( b a y e st h e o r e m ) 朴素贝叶斯模型【1 9 】,建立分类条件分布,假定所有变量对于给定的分类是条件 独立的,p ( x i c k ) = p ( x l ,i c k ) = h p ( x j i c k ) l 蜓m ,这种近似允许我们用一元分布 的乘积来近似需要o ( k p ) 个概率的完整条件分布,近似后每个类所需的概率总数是 0 噼p ) 因此条件独立模型对变量数p 是线性的,而不是指数的。 分类是最基本的一种认知形式,数据分类就是对数据库中的每一类数据,挖掘 出关于该类数据的描述或模型,而这些数据库中的类是事先利用训练数据建立起来 的。 ( 8 ) 覆盖正例、排斥反例方法 利用覆盖所有正例,排斥所有反例的思想来寻找规则,首先在正例集合中任选 一个种子,到反例集合中逐个比较,与字段值构成的子相容则舍去,相反则保留按 此思想循环完所有正例种子,将得到的正例的规则。 可视化技术采用直观的图形方式将信息模式、数据的关联成趋势呈现给用户( 决 策者1 ,以便用户交互地分析数据关系。可视化数据分析技术拓宽了传统的图表功能, 使用户对数据的剖析更清楚。 1 4 华中科技大学硕士学位论文 2 ,5 数据挖掘的技术 数据挖掘中的关键技术是进行模式识别和关系识别的算法,许多算法来源于人 工智能和机器学习等研究领域。 数据挖掘分为两类:预言性数据挖掘和描述性数据挖掘。预言性数据挖掘是进行 数据分析,建立一个或一组模型,并根据模型产生关于数据的预测:描述性数据挖 掘是以概要的方式对数据信息进行描述,提供数据的对用户有趣的一般性质。 预言性数据挖掘分析:采用的主要方法是分类,分类是根据训练集数据找到可以 描述并区分数据类别的分类模型,使之可以预测未知数据的类别。分类可以采用神 经元网络算法和决策树算法。 描述性数据挖掘分析:包括异常监测、聚集等多种数据挖掘方法。异常检测是数 据挖掘中一个重要方法,用来发现“小的模式”,即找到数据集中与大多数数据不同 或不一致的数据对象。聚集则是把数据集分为不同的簇,使得簇与簇之间的差别明 显,而簇内个体之间的差异较小。 2 6 数据挖掘处理过程 数据挖掘是一个需要经过反复多次处理的过程。如同软件工程在软件开发中的 作用,数据挖掘的处理过程模型为数据挖掘提供了宏观指导和工程方法。合理的处 理过程模型能将各个处理阶段有机地结合在一起,指导人们更好地开发及使用数据 挖掘系统。数据挖掘处理过程一般有几个阶段,这几个处理阶段分别是数据准备、 数据选择、数据预处理、数据缩减、数据挖掘目标确定、挖掘算法确定、数据挖掘、 模式解释及知识评价1 9 2 0 1 。 挖掘算法的确定需要反复试探、比较、调整。这里提出数据挖掘的一种新原型 处理模型。该模型的思想是利用确定的数据挖掘目标选择算法,根据确定的数据挖 掘目标和挖掘结果调整算法,在前一次的选择基础上重新筛选数据。如图2 1 数据挖 1 5 华中科技大学硕士学位论文 3 掘处理模型流程图 图2 1数据挖掘处理模型流程图 数据准备:根

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论