(计算机应用技术专业论文)基于数据挖掘的课程相关性方法研究与实现.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的课程相关性方法研究与实现.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的课程相关性方法研究与实现.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的课程相关性方法研究与实现.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的课程相关性方法研究与实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的课程相关性方法研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据挖掘就是从大量的 不完全的 有噪声的 模糊的 随机的数据中 提取 隐含在其中的 人们事先不知道的 但又是潜在有用的信息和知识的过程 被信息 产业界认为是数据库系统最重要的前沿之一 是信息产 i k 界最有前途的交叉学科 关联规则是数据挖掘中一个重要的研究内容 本文对数据挖掘技术尤其是关联规则 挖掘技术进行了系统 深入地分析和研究 并将其投入到实际应用中 主要包括以 下 些内容 首先对数据挖掘技术进行了简要的回顾 在提出数据挖掘基本概念的基础上 对数据挖掘可发现的模式进行了详细地分类 归纳和总结 对数据挖掘的体系框架 及运行过程也作了详细的探讨 对数据挖掘技术的国内外研究现状和当前的研究热 点进行了归纳和总结 为本文的全面展开奠定了基础 然后重点讨论了关联规则挖掘算法 在提出关联规则基本概念的基础上 对关 联规则的典型挖掘算法一a 州o r i 算法及其基本思想进行了详细的分析和研究 针对 提高算法效率的各种优化技术也进行了研究和讨论 为改进算法的提出和构造建立 了理论上的必要性前提 客观地分析了现有几种算法的优缺点 针对于经典频繁项集挖掘算法的不足 重点探讨了基于聚类的关联规则改进算法和基于权值的关联规则挖掘算法 基于聚 类的关联觇则改进算法的目的是提高算法效率 在预处理阶段先将数据聚类 缩小 数据集 对关联规则挖掘算法改进后 再进行挖掘 基于权值的关联规则挖掘算法 的目的是提高挖掘结果的合理性 针对于各数掘项的不同地位或重要性 利用一线 性函数对各数据项设置权值 然后再进行关联规则挖掘 最后将数据挖掘技术应用到教学管理系统中 对现有数据库中的学生成绩数据 实施挖掘 进行课程相关性分析 适应于当前数据源的特点 在己提出的改进算法 的基础上 对算法进行形式上的改变 通过数据准备 数据挖掘 结果描述 结果 评价四个方面详细描述设计过程 挖掘结果可供决策者更科学的设置课程 适应学 分制改革的需要 也为教学管理工作增加了新的内容 关键词 数据挖掘 聚类分析 关联规则 相关性分析 a b s t r a c t d a t a m i n i n gi st h ep r o c e s so fa b s t r a c t i o nu n a w a r e p o t e n t i a la n d u s e f u li n f o r m a t i o na n d k n o w l e d g ef r o mp l e n t i f u l i n c o m p l e t e n o i s y f u z z ya n ds t o c h a s t i cd a t a w h i c hi sd e e m e d t ooneo faf o r e l a n do fd a t a m i n i n gs y s t e ma n dap r o m i s i n gc r o s s s u b j e c ta s s o c i a t i o nr u l e i so n eo fm o r ei m p o r t a n tr o l ei na b s t r a c t i o na s s o c i a t i o nr u l e s t h i sd i s s e r t a t i o n s y s t e m a t i c a l l ya n dd e e p l ys t u d i e sa n da n a l y s e st h ed a t a m i n i n gt e c h n i q u e e s p e c i a l l yt h e o f l ef o ra s s o c i a t i o nr u l e s f u r t h e r m o r ea p p l i e si tt op r a c t i c e t h em a i nc o n t e n t sa r el i s t e d a sf o l l o w s a tf i r s t t h ea p p e a r a n c eo ft h ed a t a m i n i n gt e c h n i q u ei sr e v i e w e di nb r i e eb a s e do nt h e b a s i cc o n c e p t so fd a t a m i n i n g t h i sd i s s e r t a t i o nn o to n l yc l a s s i f i e sa n ds u m m a r i z e st h e f i n d a b l ep a t t e r n so fd a t a m i n i n gi nd e t a i l b u ta l s os t u d i e sa r c h i t e c t u r es t r u c t u r ea n d r u n n i n gp r o c e s so fd a t a m i n i n g i ns u c c e s s i o n t h ed i s s e r t a t i o ns u m m a r i z e sa n ds t u d i e st h e c u r r e n ts t a t u so ft h ed a t a m i n i n gt e c h n i q u ei no u rn a t i v ec o u n t r ya n do v e r s e a s a l lo ft h e a b o v eb e c o m et h eb a s i sf o rt h i sd i s s e r t a t i o n t h e n t h ed i s s e r t a t i o nd i s c u s s e st h ed a t a m i n i n gt e c h n i q u ef o ra s s o c i a t i o nr u l e s b a s e d o nt h eb a s i cc o n c e p t so ft h ea s s o c i a t i o nr u l e s i ta n a l y z e sa n ds t u d i e si t st y p i c a lm i n i n g a l g o r i t h m sn a m e da p r i o r ia n di t s b a s i c i d e a si nd e t a i l a l lk i n d so fo p t i m i z e d t e c h n i q u e sw h i c ha r ed e s i g n e dt op r o m o t et h ea l g o r i t h m se f f i c i e n c ya r ea l s os t u d i e da n d d i s c u s s e dh e r ea n da tt h es a m et i m et h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s i e a l lo ft h e a b o v er a t i o n a l l ye s t a b l i s ht h en e c e s s a r yp r e m i s ef o ro p t i m i z e da l g o r i t h m sp r o p o s i t i o n a n dc o n s t r u c t i o n t h ed i s s e r t a t i o na n a l y z e st h ea l g o r i t h m s m e r i t sa n dd e f e c t so b j e c t i v e l y c o n s i d e r i n g t h ed e f e c t so ft y p i c a la l g o r i t h mf o rm i n i n gf r e q u e n ti t e m s e t s t h i sd i s s e r t a t i o nd i s c u s s e s i m p r o v e da s s o c i a t i o nr u l e sb a s e d o i lc l a s s i f i e ra n da s s o c i a t i o nr u l e sb a s e do nw e i g h t t h e a i mo ft h ei m p r o v e da s s o c i a t i o nr u l eb a s e d o nc l u s t e ri st oi m p r o v i n gt h ea l g o r i t h m s e f f i c i e n c y i ti n t r o d u c e sc l u s t e r i n ga td a t ap r e p r o c e s s i n gs t a g et or e d u c et h ed a t as e t s a n d b e a e r st h ea l g o r i t t m lw h i l em i n i n g t h ea s s o c i a t i o nr u l e sb a s e d o nw e i g h ti st om a k et h e o u t c o m em o r er e a s o n a b l eb ys e t t i n gw e i g h tf o rt h ed a t ai t e m s d i f f e r e n td a t a i t e mh a s d i 髓r e n ts t a t u s s oi tf i r s tu s e sal i n e a rf u n c t i o ns e t t i n gw e i g h tf o re a c hd a t a i t e ma n dt h e n m i n i n gt h ed a t a b yd o i n gt h a t t h em i n i n go u t c o m eb e c o m e sm o r er e a s o n a b l e a tl a s t i ta p p l i e st h ed a t a m i n i n gt oe d u c a t i o nm a n a g e m e n ts y s t e m a n de x p e c t st o d e r i v ec o u r s e sc o r r e l a t i o n sb ya n a l y z i n gt h es t u d e n t s s c o r ed a t a b a s e a c c o r d i n gt ot h e c h a r a c t e f i s t i co ft h ed a t as o u r c e i tc h a n g e st h eo l df o r m a to ft h ea l g o r i t h ma n dd e s c r i b e s t h e d e s i g n i n gp r o c e s sd e t a i l e d l y f r o mf o u ra s p e c t s n a m e dd a t ap r e p r o c e s s m g d a t a m i n i n g r e s u l td e s c r i p t i o na n dp a t t e r ne v a l u a t i o n i tm e e t st h en e e do ft h er e f o r mo f t h ec r e d i ts y s t e ma n dp r o v i d e sas c i e n t i f i cb a s i sf o rc o l l e g em a n a g e m e n ta n d d e c i s i o n m a k i n g k e y c o r d s d a t a m i n i n g c l u s t e r i n g a s s o c i a t i o nr u l e s c o r r e l a t i o na n a l y s i s i i i 原创性声明 本人郑重声明 所呈交的学位论文 是本人在导师的指导下 独直进 行研究所取得的成果 除文中已经注明引用的内容外 本论文不包含任何 其他个人或集体已经发表或撰写过的科研成果 对本文的研究作出晕蛰贞 献的个人和集体 均已在文中以明确方式标明 本人完全意识到奉声明的 法律责任山水入承担 论文作者签名 童垒叁 日期 2 堂皇墨i 关于学位论文使用授权的声明 本人完令厂解济南大学有关保留 使用学位论文的规定 同意学校保 留或向国家有关部门或机构送交论文的复印件和电子版 允许论文被套睫 和借鉴 本人授权济南大学可以将学位论文的全部或部分内容编入有关数 据库进行检索 可以采用影印 缩印或其他复制手段保存论文和汇编本学 位论文 保密论文在解密后应遵守此规定 论文作者签名 盔塞蠢 导师签名 日期 皇 堕 a 济南大学硕士学位论文 1 1 课题研究背景及意义 第一章绪论 目前 各普通高校都开始引进并研究学分制 学分制己成为高校教学管理体制 改革的突破口 济南大学在2 0 0 3 级新生中全面推进实施学分制改革 学分制体现 人的全面发展 和 以学生为主体 的现代教育理念 建立灵活高效的学生自主 选择课程的教学管理体制是实施学分制的核心任务 学生能否顺利地选好课是搞好 学分制管理的关键 但由于同学们尤其是新迸校的学生 自主选择学习的能力普遍 不足 对一些课程的内容不是很了解 往往可能只凭自己的感觉或凭课程名称来确 定自己所要选的课程 有的同学可能选一些比较容易取得学分的课程 根本不是从 专业需要和拓宽知识面等方面考虑 这必然造成盲目选课 另外 实行学分制后 选课应从本专业的培养方向出发 哪些课程应先选 哪些课程应后选 这一系列的 问题 学生不易掌握 尤其是低年级的学生 可能会应先修的课程还未修完 就选 修后续课程 有时还可能同时选修先修课程和后续课程 这样 学生在学习过程中 会出现许多困难 有些课程不易取得学分 即使有的课取得学分 也会使所学的知 识没有系统性 知识结构脱节 不能形成完整 合理的体系 因此 给学生提供合 理的课程相关性信息 指导学生选课显得尤为重要 信息技术的发展使收集 存储数据的能力迅速增长 当前 无论是企业 科研 机构或者政府部门 都积累了海量的数据资料 随着高校教学规模的扩大 数据量 快速增长 教学管理系统中积累了大量原始数据 这些数据一般通过数据库系统 1 1 来存储和管理 二十世纪 数据库技术取得了决定性的成果并且已经得到广泛的应用 这意味 着 我们已具有将这样的 数据洪流 转换为 整齐有序 但却 堆积如山 数据 集合的能力 但是 面对 堆积如山 的数据集合 数据库所能做到的只是对数据 库中已有的数据进行存取和简单的操作 人们通过这些数据所获得的信息量仅仅是 整个数据库所包含的信息量的很少一部分 隐藏在这些数据之后的更重要关于这些 数据的整体特征的描述及对其发展趋势的预测的信息却无法得到 而这些信息在决 基 f 数据挖掘的课稃孝l 笑性方法研究与寰现 定制定过程中具有重要的参考价值 因此导致了 数据丰富 但信息贫乏 在需 要对大量数据分析之后才能做出正确决策的领域中 这已是 或将是 普遍存在的 问题 这样 快速的数据产生与搜索技术和拙劣的数据分析方法之间形成了鲜明的对 照 需要新的技术来 智能地 和 自动地 分析这些原始数据 以使消耗大量财 力与物力所收集与整理的数据得以利用 面对这一挑战 数据挖掘技术应运而生 并显示出强大的生命力 数据挖掘技术 2 3 4 可以高度自动地和智能地分析原有的数据 从大量的数据中 发现隐藏于其后的规律或数据间的关系 从中挖掘出潜在的模式获取有意义的信 息 归纳出有用的结构 帮助决策者做出正确的决策 它通常采用机器自动识别的 方式 不需要更多的人工干预 是目前国际上在数据库 数据仓库和信息决策领域 最前沿的研究方向之一 也是计算机科学和技术应用的一大研究热点 如今 越来越多的研究投向了数据挖掘 在现有技术中 数据挖掘主要应用 2 5 8 1 于科学研究 市场营销 金融投资 真假甄别 产品制造 通信网络管理以及i n t e m e t 应用等方面 从以上应用来看 数据挖掘的研究主要是面向商业应用尤其是电子商 务的 很少应用于非商业机构 尤其是与校园信息网的结合 9 1 还不够广泛 本课题将数据挖掘技术应用到教学管理系统中 经过调研 认为课程设置是直 接影响到教学质量以及学生有效掌握知识的关键因素 课题研究的目的是通过数据 挖掘技术分析学生成绩数据库 得课程相关性信息 给教务管理人员和学生提供一 个有指导意义的参考 为决策提供重要依据 适应学分制改革的需要 也给多年来 的计算机教学管理工作又添上了新舶内容 数据挖掘无论在理论还是在技术本身还不够成熟 本课题在汲取别人经验的前 提下 对数据挖掘理论进行研究并应用于高校教学管理系统 具有一定的理论与应 用价值 1 2 国内外研究现状 自1 9 8 9 年第1 1 届国际联合人工智能学术会议上首次提出k d d 7 1 这一概念以 来 数据挖掘日益受到人们的关注 并已经成为当前计算机领域的一大热点 其研 2 济南大学硕士学位论文 究的重点也逐渐从发现方法转移到系统应用 并且注重多种发现策略和技术的集 成 以及多学科之间的相互渗透 1 2 1 数据挖掘技术 k d d t 5 1 0 1 1j 一词首次出现在t 9 8 9 年8 月举彳亍的第l l 届国际联合人工智能学术 会议上 迄今为止 由美国人工智能协会主办的k d d 国际研讨会已经召开了7 次 规模由原来的专题讨论会发展到国际学术大会 人数由二三十人到七八百人 论文 收录比例从2 x 1 到6 x 1 研究重点 1 2 1 3 1 也逐渐从发现方法转向系统应用 并且注重 多种发现策略和技术的集成 以及多种学科之间的相互渗透 其他内容的专题会议 也把数据挖掘和知识发现列为议题之一 成为当前计算机科学界的一大热点 此外 数据库 人工智能 信息处理 知识工程等领域的国际学术千 j 物也纷纷 开辟了k d d 专题或专刊 i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊领先在1 9 9 3 年出版了k d d 技术专刊 所发表的5 篇论文代表了当时k d d 研究的最新成果和动 态 较全面地论述了k d d 系统方法论 发现结果的评价 k d d 系统设计的逻辑方 法 集中讨论了关于数据库的动态性冗余 高噪声和不确定性 空值等问题 k d d 系统与其它传统的机器学习 专家系统 人工神经网络 数理统计分析系统的联系 和区别 以及相应的基本对策 不仅如此 在i n t e m e t 上还有不少k d d 电子出版物 其中以半月刊k n o w l e d g e d i s c o v e r yn u g g e t s 最为权威 另一份在线周刊为d s d s 代表决策支持 1 9 9 7 年 l o 月7 日开始出版 在网上 还有一个自由论坛d me m a i lc l u b 人们通过电子邮 件相互讨论d m k d 的热点问题 而领导整个潮流的d m k d 开发和研究中心 当数 设在美国e m d e n 的i b m 公司开发部 从总体上 国外在数据挖掘领域中的研究内容 十分广泛 从挖掘知识的种类 看 已经取得了明显的成果 l 关联规则的研究 近几年对关联规则的研究内容较多 现在 关联规则的 挖掘旧1 6 已经从单一概念层次关联规则的发现发展到多概念层次关联规则的发现 并把研究的重点放在提高算法的效率和规模可收缩性上 目前 人们对于定量关联 规则以及其他种类的关联规则的发现研究较为深入 提出了关联规则的兴趣性的概 念 与此同时 在提高挖掘过程的效率方面也作了不少的研究 比较著名的算法有 蜷j 数据挖 l 的深w 相天r 07 研究ij 妾观 a p r i o r i c h a r m f p g r o w t h m a g n u m o p u s s g e n m a x 等 2 数据分类技术研究 基于决策树的分类方法在大规模数据库条件下的应用 研究 在较高的抽象层次分类中 m m e h t e 等人钉对夫型数据库提出了种快速分 类算法 称为q u e s t 中的超级学习算法 s l i q 分类与回归的管状领域研究 最 近邻分类方法的改进等等 3 聚类规则研究 近年 聚类开始在大掣数据库中得到研究 rn g 和jh a n 基于随机搜索以及统计学中的两个聚类算法p a m 和c l a r a 给出了一个适用于大 型应用的聚类算法 c l a r a n s m e s t e r 等人针对c l a r a n s 算法的缺点 提出了 改进技术 通过引入更为有效的空间数据库存取算法 如r 树 来提升c l a r a n s 算法的性能 t z h a n g 等人则提出了另一种聚类算法 b i r c h 4 泛化 简约和特征提取研究 利用数据可视化大大扩展了数据的表达和理 解能力 这是数据简约的一种非常重要的技术 它i 1 受到f 1 益广泛的重视 与国外相比 国内对数据挖掘与知识发现 m d k d 的研究 稍晚 1 9 9 3 年 国家自然科学基余首次支持对该领域的研究项目 目前 清华大学 中科院计算技 术研究所 空军第三研究所 海军装备论证中心等竟相丌展数据挖掘的基础理论及 其应用研究 其中 北京系统工程研究所对模糊方法在知识发现中的应用进行了较 深入的研究 北京大学也在歼展对数据立方体代数的研究 华中理工大学 复旦大 学 浙江大学 中国科技大学 中科院数学研究所 吉林大学等单位开展了对关联 规则丌采算法的优化和改造 南京大学 四川联合大学和上海交通大学等单位探讨 研究了非结构化数据的知识发现以及w e b 数据挖掘 现在尽管与国际上的进展相差 并不远 一些研究成果例如 总参六十一所的李德毅教授在云模型方面的研究 复 旦大学的施伯乐教授在关系数据库中知识发现方面取得很大的成果 南京大学开发 的k n i g h t 系统等 但在实际应用方面却鲜有所闻 成功的例子很少 没有形成整 体力量 总的说来 国内在数据挖掘方面的丌发还停留在实验的阶段 没有能够真 f 的投入到实际生产应用中去 1 2 2 数据挖掘的工具 数据挖掘是一项应用性很强的技术 许多大型的数据库厂商 如微软 o r a c l e 等都生产出自己的数据挖掘工具 m o 还有不少企业将自己的发展方向就定位在数 济南人学硕i 学位论文 据挖掘的应用上 其中著名的有n e tp e r c e o t i o n a c c r u e 以及w e bt r e n d s 在这么 多企业中 i b m 更是以其独特的i n t e l l i g e n t m i n e r 走在了这项技术研发的前列 d b 2 i n t e l l i g e n t m i n e r 根据i d c 的统计 i n t e l i g e n t m i n e r 目前是数据发掘领域最先进的产品 通过其 世界领先的独有技术 例如典型数据集自动生成 关联发现 序列规律发现 概念 性分类和可视化呈现 它可以自动实现数据选择 数据转换 数据发掘和结果呈现 这一整套数据发掘操作 d b m i n e r d b m i n e r 是加拿大s i m o nf r a s e r 大学智能型数据库研究所开发的商品化数据 仓库与知识发现综合系统 该研究所的韩家伟是国际上最著名的几位k d d 专家之 一 d b m i n e r 目f i i 在数据挖掘和知识发现领域还处在一个领先的水准上 同时它提 供免费的教育版软件 d b m i n e r 具有以f 几点特色 l 通过o d b c 连接多种数据源 o r a c l e s y b a s e s q ls e r v e r s y b a s e 等 把 数据仓库 多维数据库和数据挖掘技术综合在一个紧凑的系统中 2 数据挖掘的功能较为完整 d b m i n e r 执行了切片 切块 旋转和下查等操 作 并且使用了高效的数据挖掘语言 d m q l 3 d b m i n e r 具有形象化地图形用户界面 可视化的数据浏览工具 联机交易 分析和联机分析挖掘 o l a m 能力 4 可处理干兆级的大型数据库 d b m i n e r 目前也具有一些不足 如 l 面向数据而非面向主题的 客户需要了解被挖掘的库的结构之才能建立数据 块 2 软件使用的基本概念和基础知识比较新 难以为一般用户了解 对非专业 的人士不是很友好 1 2 3 数据挖掘与教育信息系统的结合 数据挖掘最先应用于金融和商业领域 在教育层面上还只能算是新生事物 处 于发展的初级阶段 国内高校目前在校园信息网中开展数据挖掘的研究f 2 1 1 并不广 基丁数据挖掘的课程相关性方法研究与实现 泛 浙江大学使用关联规则发现技术对高校的人事信息库进行挖掘 试图找到影响 学科发展的因素 发现如何评价一个学科 以及影响学科发展的各个要素之间的关 系 另外 曲阜师范大学体育系与上海阂行体委就体育人才的选拔探讨了数据挖掘 的可行性 在每年对中小学生的体质调查中 积累了大量的数据 利用数据挖掘技 术 他们试图从数据中深入寻找各种因素的相互联系 发现一些随诸因素动态变化 而产生的新的指导学校体育科研和教学训练的规律 进而发现运动人才 数据挖掘是一种技术 和其他技术一样 数据挖掘也需要时间和精力来研究 开发 和逐步成熟 最终被人们接受 目前已经有很多通用的数据挖掘系统 但是 还不能达到期望的智能系统那样 在近来的数据挖掘研究和开发中 一些挑战也己 受到一定程度的关注 并考虑到了各种需求 而另一些处于研究阶段 然而 这些 问题将继续刺激进一步的研究和改进 我们相信 随着数据挖掘任务和方法的发展 一定能带给我们更多的利益 可以节约我们的时间和金钱 并发现新的知识 1 3 论文的研究工作成果 本文研究的目的是利用数据挖掘的关联规则分析方法 分析学生成绩 得出课 程的相关性信息 为学生选课提供指导 适应学分制改革的需要 同时也为高层的 教务管理决策提供支持 本文主要的工作成果如下 l 研究分丰斥了目前学分制下学生选课中存在的问题 提出了进行数据挖掘的必 要性 2 对数据挖掘技术进行研究 并对当前研究热点进行总结 3 深入研究了经典的关联规则挖掘算法 总结了现有算法的优缺点 4 深入探讨了基于聚类的关联规则改进算法 5 深入探讨了基于权重的关联规则挖掘算法 6 将理论研究应用到实践 详细描述了基于数据挖掘的课程相关性分析的实现 过程 7 对本系统的迸一步研究进行展望 6 济南大学硕十学仲论文 1 4 论文的组织结构 全文共分六章 第一章重点介绍论文提出的背景 意义及当前国内外的发展现 状 第二章研究了数据挖掘技术 对其产生的背景 常用的分析方法等问题进行研 究 并指出了当前研究的热点 第三章深入研究了关联规则挖掘技术 特别是单维 单层 卸尔关联规则 重点研究了经典的a p r i o r i 算法及其优化方法 第四章对现 有的关联规则挖掘算法进行总结 分析现有算法的优缺点 针对于算法的效率和合 理性方面存在的问题 探讨了基于聚类的关联规则改进算法和基于权重的关联规则 算法 第吐章将理论研究的成果应用到教学管理系统 详细介绍开发过程 第六章 总结全文 并对下一步的工作进行展望 7 蘑 卜数据挖掘的谍 相 性疗法研究与实现 第二章数据挖掘技术综述 数据挖掘作为一个只有十几年研究历史的较新的研究领域 许多概念和技术是 逐步发展起来的 本章将系统介绍其相关的内容 2 1 数据挖掘技术的产生背景 2 11 数据挖掘产生的商业需求背景分析 数据挖掘 2 2 j 之所以吸引专家学者的研究兴趣和引起商业厂家的广泛关注 主要 在于大型数据库系统的广泛使用和把数据转换成有用知识的迫切需要 目前 由于 各种新型技术与数据库技术的有机结合 使数据库领域中的新内容 新应用 新技 术层出不穷 形成了庞大的数据库家族 但是 这些数据库的应用都是以实时查询 处理技术为基础的 从本质上说 查询是对数据库的被动使用 由于简单查询只是 数据库内容的选择性输出 因此它和人们期望的分析预测决策 支持等高级应用仍 有很大距离 新的需求推动新的技术的诞生 随着一个企业或行业业务数据的不断积累 特 别是由于数据库的普及 人工去整理和理解如此大的数据源已经存在效率 准确性 等问题 因此探讨自动化的数据分析技术 为企业提供能带来商业利润的决策信息 雨成为必然 在强大的商业需求的驱动下 商家们开始注意到有效地解决大容量数 据的利用问题具有巨大的商机 学者们开始思考如何从大容量数据集中获取有用信 息和知识的方法 因此 在二十世纪八十年代后期 产生了数据仓库和数据挖掘等 信息处理思想 2 1 2 数据挖掘产生的技术背景分析 任何技术的产生总是有它的技术背景的 数据挖掘技术的提出和普遍接受是由 于计算机及其相关技术的发展为其提供了研究和应用的技术基础 归纳数据挖掘产生的技术背景仁2 下面一些相关技术的发展起到了决定性的 作用 济南大学硕士 忙论艾 l 数据库 数据仓库和i n t e m e t 等信息技术的发展 2 计算机性能的提高和先进的体系结构的发展 3 统计学和人工智能等方法在数据分析中的研究和应用 2 2 数据挖掘技术 2 2 1 数据挖掘的概念 数据挖掘 d m f 2 4 英文是d a t a m i n i n g 目前对数据挖掘技术一种比较公认的 定义是w j f r a w l e y 0 p i a t e t s k y s h a p i r o 等人提出的 数据挖掘 就是从大型数据 库的数据中提取人们感兴趣的知识 这些知识是隐含的 事先未知的 潜在有用的 信息 提耿的知识表示为概念 c o n c e p t s 规则 r u l e s 规律 r e g u l a r i t i e s 等 形式 这种定义把数据挖掘的对象定义为数据库 而更广义的说法是 数据挖掘意 味着在一些事实或观察数据的集合中寻找模式的决策支持过程 数据挖掘的对象不 仅是数据库 也可以是文件系统 或其它任何组织在一起的数据集合 从数据挖掘的定义可以看出 作为一个学术领域 数据挖掘和数据库中的知识 发现k d d k n o w l e d g ed i s c o v e r yi nd a t a b a s e s 具有很大的重合度 数据挖掘从理 论和技术上继承了知识发现领域的成果 同时又有着独特的内涵 数据挖掘更着眼 于设计高效的算法以达到从巨量数据中发现知识的目的 数据挖掘充分利用了机器 学习 人工智能 模糊逻辑 人工神经网络 分形几何的理论和方法 与数据挖掘关系密切的研究领域i 1 包括归纳学习 i n d u c t i v el e a r n i n g 机器学 习 m a c h i n el e a r n i n g 和统计 s t a t i s t i c s 分析 特别是机器学习被认为和数据挖 掘的关系最密切 二者的主要区别在于 数据挖掘的任务是发现可以理解的知识 而机器学习关心的是提高系统的性能 数据挖掘的主要对象是大型的数据集合 如 数据仓库 但一般来 兑机器学习处理的数据集要小得多 因此效率问题对数据挖掘 是至关重要的 2 2 2 数据挖掘的分析方法 d m 系统利用的技术越多 得出的结果精确性就越高 原因很简单 对于某一 种技术不适用的问题 其他方法却可能奏效 这主要取决于问题的类型以及数据的 9 麟r 数据挖掘的谍群柏天性方法讲究 实现 类型和规模 无论采用哪几种技术束完成任务 从功能上可以将d m 的分析方法划 分为以下四种 根据i b m 的划分方法 关联分析 a s s o c i a t i o nr u l e s 序列模式分 析 s e q u e n t i a lp a t t e r n s 分类分析 c l a s s i f i e r s 聚类分析 c l u s t e r i n g l 关联分析 a s s o c i a t i o n s 顾名思义 关联分析 的目的就是为了挖掘出隐藏在数据间的相互关系 关联 分析就是给定一组i t e m 和一个已录集合 通过分析记录集合 推导出i t e m 问的相 关性 例如 7 2 包含i t e m a b 和c 的记录同时 也包含i t e m d 和e 其中百 分比7 2 称为规则 包含i t e m a b 和c 的记录同时也包含i t e md 和e 的可信度 而a b c 则被称为d e 的对立面 本文在31 节对关联规则的挖掘问题进行了 详细的讨论 2 序列模式分析 s e q u e n t i a lp a t t e r n s 序列模式分析 1 0 2 4 1 和关联分析法相似 其目的也是为了挖掘出数据之间的联系 但序列模式分析的侧重点在于分析数据问的前后 因果 关系 运用序列模式分析 销售记录 零售商可以发现客户潜在的购物模式 例如客户在购买微波炉前常购买 何种商品 如果将序列模式分析法用于股市分析 则可能发现如下的规律 在5 天 的交易目中 如果x 股最多只上涨1 0 y 股的涨幅在1 0 到2 0 之间 那么z 股在下星期上涨的概率为6 8 在医疗保险行业 该方法也同样具有非常好的效果 保险公司利用序列模式分析可以预测用户投保后最常采取的医疗措施 从而识别可 能的欺诈行为 3 分类分析 c l a s s i f i e r s 假定已录集合和一组标记 t a g 所谓标记是指一组具有不同特征的类别 分 类分析 1 0 1 1 1 时首先为每一个记录赋予一个标记 即按标记分类记录 然后检查这些 标定的记录 描述出这些记录的特征 这种描述可能是显式的 如一组规则定义 或者是隐式的 如一个数学模型或公式 利用它可以分类新记录 实际上它就是一 种模式 目前 已有很多种分类分析模型得到应用 其中的几种典型模型是线性回 归模型 决策树模型 基于规则模型和神经网络模型 举一个简单的例子 学生成绩数据库中保存着各学生的成绩记录 并根据综合 成绩 将学生分作三类 良好 普通 较差 这一过程实际就是将学生记录标定为 三类 分类分析法检查这些记录 然后给出一个对学生等级的显式描述 l o 济南大学硕士学位论文 良好的学生是指那些数学成绩优秀 物理成绩高于8 0 分的学生 4 聚类分析 c l u s t e r i n g 与分类分析法不同 聚类分析法1 2 2 5 2 7 的输入集是一组末标定的记录 也就是 说此时输入的记录还没有进行任何分类 聚类就是将数据对象分组成为多个类或簇 c l u s t e r 在同一个簇中的对象之间具有较高的相似度 而不同簇中的对象差别较 大 其目的是根据一定的规则 合理地划分记录集合 并用显式或隐式的方法描述 不同的类别 而所依据的这些规则是由聚类分析工具定义的 由于聚类分析可以采 用不同的算法 所以对于相同的记录集合可能有不同的划分 目前在文献中存大量的聚类算法 算法的选择取决于数据的类型 聚类的目的 和应用 大体上 主要的聚类算法可以分为划分的方法 如k m e a n s 算法 k m e d o i d s 算法 c l a r a n s 算法 层次的方法 如b i r c h 算法 c u r e 算法 c h a m e l e o n 算法等 基于密度的方法 如d b s c a n 算法 o p t i c s 算法 d e n c l u e 算法等 基于网格的方法 如s t i n g 算法 c l i q u e 算法 w a v e c l u s t e r 算法等 基于模型的方法 2 3 数据挖掘系统的体系框架及运行过程 2 3 1 数据挖掘的体系框架 数据挖掘的体系框梨 7 图2 1 大体由三部分组成 数据准备体系 建模与挖 掘体系 结果解释与评价体系 然而在实际应用中 这三个体系并没有明显的界限 因为数据挖掘的过程是一个反复循环的过程 从数据预处理 模型建立 数据挖掘 直到结果评价 可以从一个步骤返回前面的环节 为了达到更好的效果 往往进行 多次反复的过程 直到对结果满意为止 基丁数据挖掘的课群相天陆疗法 宄 j 实现 2 32 数据挖掘的步骤 固2 1d h t 系垃的三级结掏 d m 的数据分析过程可以分成四个步骤f 24 甜 1 数据准备 一般来说 计算机系统同常产生的数据并不适合直接作为数据挖掘算法的输 入 主要有以f 儿个原闪 数据可能来自多个数据库的记录集 需要合并为一个记录集 如果不是对所有属性都感兴趣 需要去掉一些属性 由于操作不当 网络传输错误 机器软硬件错误等原因造成的数据值错误 属性缺失 记录重复 违反数据完整性约束等现象 必须进行数据清洗 济南火警颂 孑 情论叟 数据挖掘算法一般只能处理符号型数据 对数值型属性应该先用离散化等方 法转化为符号量 对某些属性 如只需考虑取值落在哪个区域 如成绩的优 良 及格 不及格 而不关心具体的取值 也需要先分组后编码 某些数据挖掘算法对数据有特殊要求 本阶段f 2 j 又可以进一步细分为两步 数据集成 数据选择和预分析 1 集成 i n t e g r a t i o n 在这一步中 将从操作型环境中提取并集成数据 解决语义二义性 问题 消除脏数据等 很明显 数据集成的目的是为了建立统一的数据视图 另外 为了保证结果的正确性 d m 需要大量的基础数据 数据仓库可以很好的满足这个 要求 2 数据选择和预分析 d a t as e l e c t i o na n dp r e a n a l y s i s 这一步将负责缩小 数据范围 提高数据挖掘的质量 验证型工具 o l a p 擅长于对数据的细致 深 入地观察和表述 在这一步中可以发挥相当的作用 2 数据挖掘 数据挖掘算法执行阶段首先根据对问题的定义明确挖掘的任务或目的 如分 类 聚类 关联规则发现或序列模式发现等 确定了挖掘任务后 就要决定使用什 么样的算法 选择实现算法有两个考虑因素 一是不同的数据有不同的特点 因此 需要用与之相关的算法来挖掘 二是用户或实际运行系统的要求 有的用户可能希 望获取描述型的 容易理解的知识 而有的用户只是希望获取预测准确度尽可能高 的预测型知识 并不在意获取的知识是否易于理解 3 结果表述 数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户 这时可以利 用可视化工具 由于用户要求的不同 d m 分析的数据的范围会有所不同 例如计 算机相关课程之间的关联规则 比较高级层次上的关联规则等 这样的d m 系统会 得出不同的结论 这些基于不同数据集合的分析结果除了通过可视化工具提供给用 户外还可以存储在知识库中 供日后进一步分析和比较 4 结果解释与评价 数据挖掘阶段发现出来的模式 经过评估 可能存在冗余或无关的模式 这时 需要将其剔除 也有可能模式不满足用户要求 这时则需要整个发现过程回退到前 一阶段 如重新选取数据 采用新的数据变换方法 设定新的参数值 甚至换一种 算法等 壁 r 数据挖掘的醒群利天性疗洼 j f 究与实现 2 4 数据挖掘与其他数据库工具的区别和联系 2 4 1 操作型工具 传统的数据库工具 28 包括查询工具 报表生成器等 都属于操作型工具 它 们建立在操作型数据之上 主要是为了满足同常信息提取之需 例如 用户可能提 出这样的查询 去年新英格兰用户购买了多少卡车 查询的结果可以有多种表 述方法 从古老的结果行方式到直方图 饼型图等可视化方式 但从本质上束说这 样的查询是直接的 用户虽然不必了解查询的具体途径 非过程化的 但必须清 楚地了解问题的目的 查询的结果是单一 确定的 2 4 2 分析型工具 分析型工具大体可以分成两种模式 即验证型 v e r i f i c a t i o n 工具和发掘型 d i s c o v e r y 工具 l 验证型工具 用户首先提出自己的假设 然后利用各种工具通过反复的 递归的检索查询以 验证或否定自己的假设 从用户的观点看 他们是在从数据库中发现事实 这方面的工具主要是多维分 析工具 多维分析工具通过对信息的多种可能的观察角度进行快速 一致和交互性 的存取 从而使管理人员能够对数据进行深入地分析和观察 这些技术需要用广f 指 导 数掘分析的全过程 2 发掘型工具 发掘型的应用主要负责从大量数据中发现数据模式 预测趋势和行为 与验证 型工具一个很大的不同在于 用户在整个信息的挖掘过程中无需或只需很少的指 导 发掘型工具主要指的是数据挖掘 d a t a r n i n i n g 与验证型工具不同 数据挖掘 是一种展望和预测的工具 它能挖掘数据间潜在的模式 发现经营者可能忽略的信 息 并为企业做出前瞻性的 基于知识的决策 操作型工具 验证型工具 发掘型工具各自的侧重点不同 因此适用范围和针 济南大学硕十学忙论文 对的用户也各不相同 从工具对数据分析的深度来看 验证型工具处于较浅的层次 而挖掘型工具则是处于较深层次的工具 但是在实际工作中 操作型工具 验证型工具和发掘型工具是相互补充的 只 有很好的结合起来 才能达到最好的效果 整个数据库系统或数据仓库系统的工具 大致可以分成三类 以m i s 为代表的查询报表类工具 以o l a p 为代表的验证型 工具 以及以数据挖掘为代表的发掘型工具 用户可以分别利用m i s 进行日常事物 性操作 例如增 删 改 报表生成等 利用o l a p 工具深入了解事物做出结论性 总结性分析 也可以利用数据挖掘做出预测性分析 但同时它们有是相辅相成的 o l a p d m 的数据来源于m i s 是m i s 的汇总和提炼 o l a p 除了通过对当前数 据进行深入分析验证 作人员提出的假设和问题外 也可以验证d m 得出的预测性 结论 防止偏差 因此 我们可以在一个决策分析系统中采用这样一种分析过程 即利用报表查询类工具

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论