(计算机应用技术专业论文)基于数据挖掘的击剑运动训练决策支持系统.pdf_第1页
(计算机应用技术专业论文)基于数据挖掘的击剑运动训练决策支持系统.pdf_第2页
(计算机应用技术专业论文)基于数据挖掘的击剑运动训练决策支持系统.pdf_第3页
(计算机应用技术专业论文)基于数据挖掘的击剑运动训练决策支持系统.pdf_第4页
(计算机应用技术专业论文)基于数据挖掘的击剑运动训练决策支持系统.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于数据挖掘的击剑运动训练决策支持系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据挖掘的击剑运动训练决策支持系统 捅要 知识时代的来i 临促使当今社会的信息量以前所未有的速度增加,对决策者而 言,他们面临的环境更加变幻莫测因而更迫切需要高效的决策支持工具。由于 现代体育系统的高度玎放性,这一信息社会决策方式的变化也深刻地影响着体育 领域的决策过程。在企业管理界高呼“只靠决策人员自身决策的时代已经过去” 并努力寻求决簸支持的今天,体育界也面临着同样的问题。怎样找到适宜的决策 支持工具以便在浩瀚的体育信息中抓住问题的本质,做出台理、正确的决策, 是从宏观决策者到各级教练员都在密切关注的问题。 9 0 年代中期出现的数据挖掘技术,它是研究如何从大量的数据中智能地、 自动地提取出有价值的知识和信息,是当前相当活跃的研究领域。因此,本文提 出将数扼挖掘技术运用到击剑运动训练决策支持系统,此课题的设计具有重要的 理论意义和深远的实用价值。 本课题的设计实现参考了国内外决策支持系统的最新发展和研究成果,根据 击剑运动训练决策的要求,进行了有益的探索与尝试。最后结合s o ls e r v e r2 0 0 0 中的数掘转换服务( d t s ) ,阐述了s o ls e r v e r 数据仓库的建立,在此基础上进行 数据挖掘,并与在线分析处理( o l a p ) 技术相结合,给出了“击剑运动训练决策 支持系统”项目的总体设计方案、功能介绍以及实现方法。 本文在软件的设计实现中,力求以面向对象技术为方法,以软件工程的思想 为指导,对所研究的内容进行深入细致的设计、分析和实现。 关键词:决策支持系统:数据挖掘:数据转换服务:数据仓库:在线分析处理 f e n cin gt r ainin gd e cisio ns u p p o r ts y s t e m b a s e do nd a t aminin g a b s t r a c t t h ea m o u n to f i n f o r m a t i o ni nt o d a y ss o c i e t yh a sa nu n p r e c e d e n t e di n c r e a s e b e c a u s eo f t h ea r r i v a lo f t h ei n f o r m a t i o ns o c i e t y d e c i s i o n m a k e r sf a c eam o r e u n c e r t a i ne n v i r o n m e n t b e c a u s eo f t h eo p e nn a i l r eo f m o d e r ns p o r t s t h ec h a n g ei n t h ew a 3 7o fi n f o r m a t i o ns o c i a ld e c i s i o nh a sa p r o f o u n di m p a c to nt h ed e c i s i o n m a k i n g p r o c e s si nt h ef i e l do fs p o r t s t o d a y ,t h ee n t e r p r i s em a n a g e m e n tm a k e r ss h o u t r e l y i n go nt h e i ro w nd e c i s i o n sh a v eg o n e ”a n ds e e kd e c i s i o ns u p p o r t ,a n dt h es p o r t s s e c t o ri sa l s of a c i n gt h es a m ep r o b l e mo f h o wt of i n da na p p r o p r i a t ed e c i s i o ns u p p o r t t o o l s e i t h e rm a c r o e c o n o m i cp o l i c ym a k e r so rc o a c h e sa r ep a y i n gc l o s ea t t e n t i o nt o t h ep r o b l e mi no r d e rt os e i z et h en a t u r ea n dm a k er a t i o n a la n dc o r r e c td e c i s i o n so f t h e p r o b l e mi nt h ev a s ts p o r t si n f o r m a t i o m d a t am i n i n gt e c h n i q u e st h a te m e r g e di nt h em i d - 19 9 0 s i ti sr e s e a r c hh o wt o i n t e l l i g e n t l ya n da u t o m a t i c a l l yf i n dt h ev a l u a b l ek n o w l e d g ea n di n f o r m a t i o n t h i si s c u r r e n t l yv e r ya c t i v ea r e a so f r e s e a r c h t h e r e f o r e t h i sp a p e rw i l lu s ed a mm i n i n g t e c h n i q u e st of e n c i n gt r a i n i n gd e c i s i o ns u p p o r ts y s t e m t h i ss u b j e c th a sa ni m p o r t a n t t h e o r e t i c a ls i g n i f i c a n c ea n d f a r r e a c h i n gv a l u e t h e d e s i g na n di m p l e m e n to f m ys u b j e c tr e f e r e n c et ot h ed e c i s i o ns u p p o r t s y s t e mo f t h el a t e s td e v e l o p m e n t sb o t hi nt h ed o m e s t i ca n d t h ef o r e i g n a c c o r d i n gt o t h ed e c i s i o no ff e n c i n gt r a i n i n g ,w et r yt oc o n d u c tau s e f u le x p l o r a t i o n f i n a l l yw e c o m b i n es q ls e r v e r2 0 0 0d a t at r a n s f o r m a t i o ns e r v i c e s ( d t s ) w i t ho u rs u b j e c t ,a n d d e s c r i b e dt h ee s t a b l i s h m e n to f as q ls e r v e rd a t aw a r e h o u s ew h i c hd a t am i n i n gw a s e s t a b l i s h e do n ,a n da tl a s t ,w eu s eo n l i n ea n a l y t i c a lp r o c e s s i n g ( o l a p ) t e c h n o l o g y i n aw o r d ,w eh a v ed e s c r i b e dt h eo v e r a l ld e s i g n ,f u n c t i o na n dm e t h o di n t r o d u c e do f t h e f e n c i n gt r a i n i n gd e c i s i o ns u p p o r ts y s t e m b a s e do nt h ed e s i g na n di m p l e m e n t a t i o no fs o f t w a r e ,o b j e c t - o r i e n t e dt e c h n o l o g y t os e e kw a y st os o f t w a r ee n g i n e e r i n ga sag u i d e ,c a r r yo u ti n d e p t hs t u d i e so nt h e c o n t e n t so f t h ed e s i g n ,a n a l y s i sa n d i m p l e m e n t a t i o n 1 1 k e yw o r d s :d e c is i o rs u p p o r ts y s t e m :d a t am i n i n g :d t s :d a t aw a r e h o u s e :o l a p i i l 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 掘我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含未获得! 逵! 塑盘查基丝孟要挂型童型 丝:垄笙亘窒! 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研 究所做的任何贡献均己在论文中作了明确的说明并表示谢意。 一兰三竺兰:旱堕一兰兰翌三! 卫一 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权学校可以将学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 篙髯替嗍:叼穆月闩 导师签字: 云川 铆期:叼年j 胡日 电话: 邮编: 莘于数据挖掘的击剑运动训练决锭支持系统 1 绪论 本章主要介绍了选题依掘,概述了国内外数扼挖掘研究的现状以及决策支持 系统的研究背景和基础理论,介绍了本文的主要研究工作,并给出了全文的内容 安排。 1 1 课题背景与研究意义 体育事业关系到厂大人民群众的身体健康,是我国社会主义精神文明和物质 文明建设的重要组成部分。近年来,在“科技是第一生产力”思想指引下,我国 各级体育部门科技兴体意识不断增强体育决策和管理科学化有了很大程度的提 高。科学的决策是事业成功的关键,体育领域的高层决策是指那些带有全局性质 的决策,如国家体育未来发展方向、2 1 世纪我国竞技体育、学校体育、全民健 身体育发展战略、奥运会争光计划、制胜优势项目布局、体育竞赛管理体制、竞 赛制度、组织结构的改革、体育法制的立法和完善、体育科学新学科的设立、重 大体育科技项目的确立和投入等等。这些涉及国家宏观的体育发展战略决策以及 地区、部门的带有全局性的发展战略决策,是十分重要的。而这类决策事关重大 又涉及到许多因素,各因素之间的关系错综复杂,其中多数难以定量描述。 在当前和今后相当时期内,科学技术所能完成和胜任的是建立一个以计算机 和信息处理技术为主要工具的决策支持环境( 或系统) ,使得决策者能在这个支持 环境( 或系统) 的辅助下,较好地完成科学决策的过程。决策支持系统是支持决策, 而不是代替决策,人一机的交互式干预必不可少。建立这样一个支持决策环境( 或 系统) 如果是在体育领域的专家协同参与下建立起来,又采用了现代高科技成果, 如人工智能控制( a i ) 、信息处理技术( i p t ) 、多媒体技术( m u l t m e d i a ) 、网络技术、 数据库和超文本技术、面向用户的可视化编程技术等,就可以设计建立一个给决 策者提供有力的咨询辅助决策支持环境或系统。由于现代体育系统的高度开放 性,这一信息社会决策方式的变化也深刻地影响着体育领域的决策过程。怎样找 到适宜的决策支持工具,以便在浩瀚的体育信息中抓住问题的本质,做出合理、 正确的决策,是从宏观决策者到各级教练员都在密切关注的问题。广大体育科研 人员为此做出了不懈的努力,在引入综合评判,矩阵决策等各种方法的同时,更加 注意了对计算机的运用,希望能够以计算机科学为理论基础,结台体育自身的特 苹十教据挖掘的m 剑运动训练执策上打系统 点,丌发出现代化的体育应用决策支持系统以提供辅助决策。 国家体育总局明确指出,“决策科学化是体育工作的关键”。实现竞技体育“奥 运争光计划”的战略目标,提高我国竞技运动训练决策科学化水平,是竞技体育发 展的当务之急。击剑项目作为奥运会的重头戏之一,其运动水平对奥运战略有重 大影响,是各国竞相发展的重点项目。我国击剑运动近年柬有了长足发展,在一系 列国际、国内大褰中创造了优异成绩,但训练中传统经验决策仍占掘主要地位, 多定性、少定量的决策方法已限制了我国击剑运动的发展,结台现代先进计算机 技术,使击剑运动的训练工作智能化、科学化、定量化,是世界击剑运动的发展 趋势,也是我国击剑训练工作者的奋斗目标。因此,建立一个击剑运动训练决策 支持系统则显得十分必要。这个决策支持系统应能满足同常简单的查询和维护, 同时向击剑队教练员及领导提供有关运动员竞技能力状况、训练方向以及历史数 掘的深层次信息,以利于决策。因而,如何建立数据仓库,更好的利用现有数据, 并在此基础上进行更高层次的处理数掘挖掘( d m ,d a t am i n i n g ) 显得尤为 重要。 1 2 国内外数据挖掘现状 近十几年来,人 e j n 用信息技术生产和搜集数据的能力大幅度提高,成千上 万的数掘库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍 持上升趋势。于是,一个新的挑战被提了出来:在这被称之为“信息爆炸”的时 代,信息过量几乎成为人人需要面对的问题。如何有效地利用和处理大量的数掘 成为当今世界共同关心的问题。随着数掘痒技术、人工智能、数理统计和并行计 算等技术的发展与融合,数掘挖掘技术应运而生。数据挖掘简单的说,就是从大 量不完全的实际应用数据中,提取隐含在其中的、人们事先不知道的但叉可能有 用的信息和知识的过程。数掘挖掘是在对数掘集全面而深刻认识的基础上,对数 据内在和本质的高度抽象与概括,也是对数掘从感性认识到理性认识的升华。还 有很多和这一术语相近似的术语,如从数掘库中发现知识( k d d ) 、数据分析、数掘 融台( d a t af u s i o r l ) 以及决策支持等。 特别要指出的是,数扼挖掘技术从一- 丌始就是面向应用的。它不仅是面向特 定数掘库的简单检索查询调用,而且要对这些数掘进行微观、中观乃至宏观的统 苹于教型挖掘的击剑蓬动训练决簧上打系统 计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联, 甚至利用己有的数据对未来的活动进行预测。例如,加拿大b c 省电话公司要求 加拿大s i m o nf r s s e r 大学k d d 研究组,根掘其拥有十多年的客户数据,总结、分 析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政 策;美国著名国家篮球队n b a 的教练,利用i b m 公司提供的数据挖掘技术,临场决 定营搀队员,一度在数据库界被传为佳话。这样一来,就把人们对数掘的应用从 低层次的末端查询操作,提高到为各级经营决策者提供有利的决策支持。这种需 求驰动力,比数掘痒查询更为强大。同时需要指出的是,所有发现的知识都是相 对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解, 最好能用自然语言表达发现结果。因此,数掘挖掘与知识发现( d m k d ) 的研究成果 很讲求实效。1 9 9 7 年第3 届k d d 国际学术大会上进行的数掘挖掘工具的竞赛评 奖活动就是一个生动的证明。最近,还有不少d m k d 产品用来筛选i n t e r n e t 上的 新闻,保护用户不受无聊电子邮件的干扰和商业推销,受到极大的欢迎。 在我国,数据挖掘的应用据调查显示目静2 0 己应用,2 0 在建设,2 5 诈在 关注,中国地质调查局、重庆港务局、湖南统计局、南宁地税等4 家单位已经在 应用数据挖掘为分析、决策作辅助支持。 对于击剑运动,其本身是一项技巧性很强的体育比赛项目,训练方法、训练 比赛的量化分析是十分复杂的。而在日常的击盒, j i j i l 练中又积累了大量原始数掘如 运动员的基本信息、成绩信息、训练计划信息、比赛信息等。如何更好的利用这 些数据资源,发现隐台在其中的潜在关联和规则,为各部门领导及教练员的决策, 提供切实可行的提高我国击剑运动的训练水平的依据,是目前我国击剑队迫切需 要解决的问题。数据挖掘技术在击剑训练决策支持系统的成功应用,必将为这一 问题的解决提供圆满的答案。 1 ,3 决策支持系统的发展 在2 0 世 5 7 0 年代初期,美国教授m s s c o t tm o r t o n 首先提出了决策支持系 统( d e c i s i o ns u p p o r ts y s t e m ,简称d s s ) 的重要概念,他将决策支持系统定义为: “一种交互式的基于计算机的系统,该系统能帮助决策人使用数掘和模型解决非 结构化的问题。”自7 0 年代提出决策支持系统以来,d s s 已经得到了很大发展。 基于数据挖掘的击剑运动训练决镱芝抟系统 它是在管理信息系统( m a n a g e m e n ti n f o r m a t i o ns y s t e m s ,简称m i s ) 的基础上发展 起柬的。m i s 是利用数掘库技术实现各级管理者的管理业务,在计算机上进行各 种事务处理工作,d s s 则是要为各级管理者提供辅助决策的能力。 1 9 8 0 年s p r a g u e 提出了决策支持系统三部件结构,即对话部件、数据部件( 数 掘库d b 和数掘库管理系统d b m s ) 、模型部件( 模型库船和模型库管理系统m b m s ) 。 该结构明确了d s s 的组成也阃接地反映了d s s 的关键技术,即模型嗥管理系统、 部件接口、系统综台集成。它为d s s f l g 发展起到了很大的推动作用 1 9 8 1 年b o n c z a k 等提出了d s s 三系统结构即语言系统( l s ) 、问题处理系统 ( p p s ) 、知识系统( k s ) 。该结构在”问题处理系统“和“知识系统”上具有特色,并 在一定范围内有其影响,但它与人工智能的专家系统( e x p e r ts y s t e m ,简称e s ) 容易混淆。 8 0 年代末9 0 年代初,b o n c z e k 等人提出将决策支持系统与专家系统结合起来, 分别发挥d s s 数值分析与e s 符号处理的特点,将定性分析和定量分析有机结合,使 其能够进行知识处理,以方便、准确地模拟客观世界,全面地反映决策过程,从 而有效地解决半结构化和非结构化问题,形成最初的智能决策支持系统 ( i n t e l l i g e n c ed e c i s i o ns u p p o r ts y s t e m ,简称1 d s s ) “1 。智能决策支持系统是 决策支持系统发展的一个新阶段。 随着i d s s 的发展,人们不断将i d s s 的智能部件进行扩展,使i d s s 的智能并不 仅仅限于对知识库的使用上,对模型库实现模型自动选择和生成;对于人机界面 部分,使其更容易使用和理锯决策者的思维,具有学习功能;对于数据库部分, 数据仓库、联机分析处理和数掘挖掘技术的应用,可以对数据进行复杂的分析处 理,同时可从数据( 仓库) 库中挖掘出隐含的知识,增强原来的知识库,以达到增 强系统智能决策的目的。 决策支持系统的特点和功能: 1 d s s j 豆过将决策人的判断和计算机中的信息集成在一起,主要辅助决策人 分析半结构化和非结构化决策问题。这类问题不能或不便于用其它计算机系统或 标准的定量方法或工具求解。 2 可以为不同管理决策层提供支持,包括从高层管理着到生产线管理者。 3 可以为个体和群体提供支持,半结构化和非结构化问题的决策分析常需要 4 莘于数据挖掘的击剑奄动们练冼策持系统 来自不同部门和组织层次的人员参与。 4 d s s 可以为几个相关和序贯的决策提供支持。 5 d s s 支持决策过程的所有阶段,这些阶段是信息、设计、选择和实现。 6 d s s 支持各种决策过程和形式。 7 d s s 在时间上是自适应的,面对迅速变化的条件,决策人应能及时反应, 并且d s s 应适应这种变化。d s s 是灵活的,因此用户可增加、删除、组合、改变或 重新安排系统的基本部分。 8 用户应能很方便地使用d s s 。用户友好性、较强的图形功能和类似自然语 言的人机交互接口可以极大地增强d s s 的有效性。 9 d s s 努力提高决策的有效性( 准确性、及时性、质量) ,而不是决策的效 率( 费用) 。 1 0 在问题求解中,决策人能完全控制决策过程的所有步骤,d s s 自, o 目的是支 持而不是代替决策人。 儿终端用户应能自己构造和修改简单系统。大的系统可通过信息系统专家 的支持进行构造。 1 2 d s s 通常应用模型分析决策问题,建模功能使d s s 能够在不同的结构下, 对不同策略进行实验。 1 3 d s s 能访问和获取不同来源、格式和类型的数掘,包括地理信息系统和面 向对象数据。 这些特点使决策人能及时地做出更好、更一致的决策。 1 4 体育领域应用决策支持系统 近几年,国内外的体育软件公司或体育科研机构相继开发了一些球类比赛统 计分析软件,如著名的s i m ir e a l i t ym o t i o ns y s t e m s 公司的s i m i os c o u t 、c c c c a m p u s c o m p u t e r c e n t e r 公司的t o p s c o u r t 、d i g j t a ls c o u t 公司的系列掌上计 算机球类比赛统计分析软件以及d a r t f i s h 软件等。这些软件的开发已非常成熟、 功能齐全、界面友好,能用于多种球类比赛的临场统计与分析,并已经用于商业 化。 在我国,决策支持系统在体育领域的应用主要有以下几个方面: 皋于数据挖掘的击剑运动训统披镱之打系统 ( 1 ) 运动训练领域:我国学者针对运动训i 练中的心理训练,研制了运动心理 咨询与心理训练智能决策支持系统。该系统具有心理障碍类型诊断、心理障碍程 度诊断、竞技心理能力诊断和心理训练方法选择4 个功能,实现了运动心理咨询 在训练中定性与定量的有机结合,为运动员身心发展的全过程实施系统心理咨询 与训练提供了参考。 ( 2 ) 体育评价领域:我国学者对体育评价的方法与基本模式进行了系统分 析,针列不同类型的体育评价研制出体育评价决篆支持系统,该系统的集成结构 形式体现了以定性分析为基础的定量分析,体现丁系统解决体育评价问题的基本 思路。 ( 3 ) 体育管理领域:我国学者建立了体育领域高层次决策智能化支持环境, 为高层决策者进行国家宏观的体育发展战略决策以及地区部门中带有全局性的 发展战略决策提供了有力的辅助决策工具。 在传统管理信息系统基础上发展起柬的决策支持系统d s s 及其在实践中的 成功应用,在向人们显示着它在信息管理上的巨大优越性的同时,为体育领域实 际问题的解决提供了新的思路和有力工具。面向体育领域d s s 系统可以针对不同 的决策需求选取适当的应用程序处理数掘,这不仅使海量信息的处理成为可能, 而且大大节省了时问。如技术诊断决策支持系统,能够依靠模型库中的模型和知 识库中的知识对运动员训练过程中的测试数据进行快速分析,以使教练员准确把 握运动员的训练进程并预测其训练前景。如果手工计算分析,则需要几小时的时 间且有时因教练员对分析工具( 如微分方程) 不能掌握而导致得不到答案,利用决 策支持系统进行决策支持,短短的几秒钟就可以得到详尽的分析结果,这对于只 关心分析结果而对计算过程没有多大兴趣的广大体育工作者而言显然十分重要。 数据库系统的设计则使运动员身体素质指标测试结果、运动成绩、技术特点、 全国或某地区的教练员人数、能力指数、职称以及项目布局情况等各种数据资料 的长期贮存和迅速查询成为可能。 1 5 论文主要内容 本文主要研究了借助于现代先进的计算机技术,开发一套“基于数据挖掘的 击剑运动训练决策支持系统”。旨在综合利用现代先进的数掘库技术、数掘挖掘 单干数捌挖掘的 剑运动训练决镶支持系统 技术等,形成一套击剑运动训i 练决策支持系统。运用定性与定量相结合的方法, 建立击剑运动员训练监控、评价等系统模型,以发挥比赛能力各因素的最佳状态 为目标,建立训练过程优化设计、模拟和调控的决策支持系统,为运动训练的科 学化、最佳化提供计算机辅助决策。 本文各章节的主要内容如下: 第】章绪论。主要介绍了本文的选题依扼概述丁数据挖掘的现状以及决策支持 系统的发展和理论背景,并给出了本文的内容安排。 第2 章数据挖掘相关技术。主要介绍了数掘挖掘和数掘库知识发现定义、数掘挖 掘技术、数掘挖掘方法、数据挖掘任务。 第3 章击剑运动训练决策支持系统的概述。主要介绍了决策支持系统概述、目标 模型及方法、击剑运动训练决策支持系统的理论模型、击剑运动训练决策 支持系统的实现途径。 第4 章基于数掘挖掘的击剑运动训练决策支持系统的设计。主要介绍了系统设计 原则、击剑运动训练决策支持系统分析、系统总体设计。 第5 章系统开发及实现。主要介绍了系统开发工具、数据库的建立、数掘挖掘在 系统中的应用、运动训练决策支持系统的实现。 第6 章总结和展望。总结全文,提出下一步的工作。 皋于数捌挖掘的击剑重动训练抉糍打系统 2 数据挖掘相关技术 本章主要讲述了数据挖掘和数据库知识发现、数掘挖掘技术、数据挖掘方法 以及数掘挖掘任务。 2 1 数据挖掘和数据库知识发现定义 数掘挖掘最早于1 9 8 9 出现。由于是一门新兴的来自各种不同领域的交叉性 学科因此有很多不同的术语名称,除了数掘挖掘称呼外,主要还有“知识抽取” ( i n f o r m a t i o ne x t r a c t i o n ) ,“信息发现”( i n f o r m a t i o nd i s c o v e r y ) ,“知 识发现”( k n o w l e d g ed i s c o v e r y ) 、“智能数据分析”( i n t e l l i g e n td a t a a n a l y s is ) ,“信息收获”( i n f o r m a t i o nh a r v e s t i n g ) 等称法。从k d d 的名称 中可以看出,k d d 更强调与数掂库的联系。另外,在数掘库知识发现的过程中实 施知识发现这一步骤也称为数掘挖掘,因此有人认为数掘挖掘是k d d 的一个环 节。 k d d 至今有多种定义,其中得到公认的是? “: k n o w l e d g ed i s c o v e r yi nd a t a b a s e si st h en o n t r i x 7 i a lp r o c e s so fi d e n t i f y i n gv a l i d n o v e l ,p o t e n t i a l l yu s e f u l ,a n du l t i m a t e l yu n d e r s t a n d a b l ep a t t e r n si nd a t a 数掘库中的知识发现是从数掘中识别出有效的、新颖的、潜在有用的、以及 最终可理解的模式的高级过程。其中: 数据:是指一个有关事实f 的集合( 如国家击剑队数据库中有关击剑运动 员基本情况的各条记录) ,它是用柬描迓事物有关方面的信息,是我们进一步发 现知识的原材料。 新颖:经过数掘挖掘提取出的模式必须是新颖的,至少对系统柬说应该如 此。 潜在有用:提取出的模式应该是有意义的,如用于击剑运动决策支持系统 旱可提高运动员训练质量和教练员决策水平。 可被人理解:数据挖掘的一个目标就是将数掘库中隐含的模式以容易被人 理解的形式表现出来,从而帮助人们更好地了解数据痒中所包含的信息。 模式:对于集台f 中的数据,可以用语言上来描述其中数扼的特性。表 达式匪,f 所描述的数掘是集台尸的一个子集片。只有当表达式f 比列举所有 幕于数据挖掘的 剑运动训统决策之行系统 f 中元素的描述方法更为简单时。我们才可称之为模式。如“如果击剑训练比赛 成绩在8 卜9 0 之间,则成绩优良”可称为一个模式,而“如果成绩为8 1 、8 2 、 8 3 、8 4 、8 j 、8 6 、8 7 、8 8 、8 9 或9 0 ,则成绩优良”就不能称之为一个模式。 高级过程:数据挖掘是对数掘进行更深层处理的过程,该过程要有一定程 度的智能性和自动性,而不是仅仅对数据进行加减求和等简单运算或查询,因此 说它是一个高级的过程n 。 2 2 数据挖掘技术 数掘挖掘技术指的是从大型数据库和数据仓库中提取人们感兴趣的知识,这 些知识是隐台的、事先未知的潜在有用信息。它是数据库技术、人工智能、机器 学习、统计分析、模糊逻辑、人工神经网络等学科相结合的产物。数据挖掘的对 象不仅是结构化的数掘库,也可以是半结构化的超文本文件,甚至是非结构化的 多媒体数掘等形式,而数据仓库上的数掘挖掘将是数掘挖掘技术的主流。数掘挖 掘从技术上看,基本过程分为:数据准备、挖掘操作、结果表达和解释三个主要 阶段。在数据准备阶段应集成多个运作数掘源中的数掘,解决语义模糊性、处理 遗漏数据、清洗脏数据。挖掘阶段是一个假设产生、合成、修正和验证传播的过 程,也是上述三个阶段的核心。结果表达和解释阶段根据最终用户的决策目的把 提取的有用信息正确地表达出来。但从应用上看,基本过程为:信息知识一 一决策行动效益。数掘挖掘的过程如图2 - 1 所示:数据挖掘系统中主要 的输入是源于数据仓库的数据、分析指导员的指导以及存储数掘挖掘系统知识库 中的知识和经验。从数据仓库中选择的数据在知识发现引擎里处理,引擎中提供 了大量的抽取算法,以便生成辅助的模式和关系,有些发现还要加入知识库中以 便后续发现的抽取和进行评价。 丹析员 数据挖掘系统管霉器 颢域知识 幽2 - 1 数据挖掘过稃 茄子教据挖掘的 剑运动训练决镟殳打系统 由以上的过程分析可以看出,数据挖掘质量的好坏有两个影响要素:一是所 采用的数据挖掘技术的有效性,二是用于挖掘的数据的质量和数量( 数据量的大 小) 。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换, 则挖掘的结果是不会好的。 整个挖掘过程是一个不断反复的过程。比如,用户在挖掘途中发现选择的数 据不太好或使用的挖掘技术产生不了期望的结果;这时,用户需要重复先前的 过程,甚至从头重新丌始。 2 3 数据挖掘方法 在选定了数据挖掘过程模型后,另一个需要着重考虑的是挖掘算法的选择。 数掘挖掘是从人工智能领域的一个分支机器学习发展而束的,因此机器学 习、模式识别、人工智能领域的常规技术,如聚类( c l u s t e r i n g ) 、决策树( d e c i s i o n t r e e ) 、统计等方法经过改进,大都可以应用于数掘挖掘”。人工神经网络方法、 粗糙集理论方法、关联规则方法、遗传算法方法、决策树方法及统计分析方法是 数据挖掘的常用方法: 人工神经网络方法人工神经网络”3 是模拟人类的形象直觉思维、是在生 物神经网络研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳、 提炼总结出来的一类并行处理网络。利用其非线性映射的思想和并行处理的方 法,用神经网络本身结构可以表达输入与输出的关联知识。它完成输入空间与输 出空间的映射关系,是通过网络结构不断学习、调整,最后以网络的特定结构来 表达的,没有显式的函数表达。在数据挖掘的过程中,神经网络是数据聚类的有 力工具,在事务数掘库的分析和建模方面应用广泛。 神经网络可以分为前向型、反馈型、随机型和自组织型四种网络模型。其中 酊向型神经网络是数据挖掘中广为直用的一种网络,它以感知机、反向传播模型、 函数型网络为代表,可用于预测、模式识别等方面。在前向型神经网络模型中常 用的是( b a c kp r o p a g a t i o nb p ) 算法。 粗糙集方法粗糙集理论可以用于分类”,发现不准确或噪声数据内在的 结构联系。它用于离散值属性。因此,连续值属性必须在处理6 d 离散化。 粗糙集理论基于给定训练数掘内部的等价类的建立。形成等价类的所有数掘 幕于数据控掘的击剑运动训练拽镱_ 上打系统 样本是不加区分的,即对描述数据的属性,这些样本是等价的。给定现实世界数 掘,通常有些类不能被可用的属性区分。粗糙集可以用爿乏近似或“糯略地”定义 这种类。给定类c 的粗糙集定义用两个集合近似:c 的下近似和c 的上近似。c 的下近似由一些这样的数掘样本组成根据关于属性的知识,它们毫无疑问属于 c 。c 的上近似由所有这样的样本组成,根掘关于属性的知识,它们不可能被认 为不属于c 粗糙集也可以用于特征归约( 可以识别和删除无助于给定训练数据分类的属 性j 和相关分析( 根据分类任务评估每个属性的贡献或意义) 。找出可以描述给定 数掘集中所有概念的最小属性子集的问题是n p 一困难。然而,也己提出了一些 降低计算强度的算法。例如,有一种方法使用识别矩阵( d i s c e r m i b i l i t ym a t r i x ) 存 放每对数据样本属性之间的差别。不是在整个训练集上搜索,而是搜索矩阵,检 测冗余属性。 关联规则方法挖掘关联规则就是发现存在于数据集中的关联规则或相关 性,即先发现某些常在一起出现的属性( 谓词或项) 然后以规则的形式来符号化 它们之间的关系。用于关联规则发现的主要对象是事务型数掘库( t r a n s a c t i o n a l d a t a b a s e s ) ”3 。一个事务一般由事务处理时间和一组子项( i t e m s ,如顾客购买的物 品) 组成,关联规则的正式描述如下: 设二 ,。厶,l 是子项( i t e m ) 空间,事件,是任意子项的集合,即,毫 l 口是7 1 的集合。设j 是,的任一子集,如果- t cz 我们说事件t 包含x 。 对任一c ,c l hj 7 三中,一条关联规则表示为: _ jr _ 7 称为自u 件。j 称为后件,表示“如果j 成立,则,成立”。 如今,关联规则是商业销售、股票价格、银行交易、购物篮分析等许多领域 进行数据挖掘的常用手段。对关联规则的研究则由串行算法转向并行算法、由对 布尔型数据的挖掘转向数值型数据( q u a n t i t a t i v e ) 的挖掘。关联规则的经典算法是 a p r i o r i 。后来涌现出了大量的a p f i o r i 改进算法,如利用h a s h 表d h p 算法,基于 抽样的算法,并行关联规则算法,分布式关联规则算法,多层关联规则算法,数 值扩展的关联规则算法,利用关联规则进行分类,具有p t - 匍j 条件的关联规则等等。 因为典型关联规则的算法会产生大量无意义的规则,因此出现了基于兴趣度的规 萆于数据挖掘的市剑运动训练决最之打系统 则后处理算法。 遗传算法方法它是一种优化技术,利用生物进化的一系列概念进行问题 的搜索,最终达到优化的目的”。在遗传算法的实施中,首先要对求解的问题进 行编码( 染色体) ,产生初始群体:然后计算个体的适应度,再进行染色体的复制、 交换、突变等操作,产生新的个体。重复以上操作,直到求得最佳或较佳个体。 遗传算法易于并行。并已用于分类和其它优化问题。在数扼挖掘中,往往把 数据挖掘任务表达为一种搜索问题。使用遗传算法强大的搜索能力找到最终解。 决策树方法利用信息论中信息增益寻找数掘库中具有最大信息量的字 段,建立决策树的一个结点,再根掘字段的不同驳值建立树的分支:在每个分支 子集中重复建立下层结点和分支,这样便生成一棵决策树”“。接下来还要对决策 树进行剪枝处理,然后把决策树转化为规则,利用这些规则可以对新事例进行分 类。国际上最有影响和最早的决策村方法是q u i u l a n 研制的i d 3 方法,它对越大 的数掘库效果越好。在i d 3 方法的基础上,后人又发展了各种决策树方法,如 c 4 5 、c 5 、1 0 4 、i d 5 r 、i b 乙e 等算法。其中c 4 5 、c 5 是使用最为广泛的决策树 方法4 ”。典型的应用是分类规则的挖掘。 统计分析方法这种方法主要用于完成总结知识和关联知识采掘,不是从 其中发现模式和规则,所以它在数掘挖掘中主要作为其它方法的基础而存在。用 统计分析方法对关系表中各属性进行统计分析,找到它们之间存在的关系。在关 系表的属性之间一般存在两种关系:函数关系( 能用函数公式表示的确定性关 系) :相关关系( 不能用函数公式表示的关系,但仍是相关确定关系) 。统计分 析方法主要有:回归分析、相关分析、主成分分析“。1 。 2 4 数据挖掘任务 数据挖掘的任务就是发现隐藏在数据中的模式。其可以发现的模式一般分为 两大类:描述型( d e s c r i p t i v e ) 模式和预测型( p r e d i c t i v e ) 模式。描述型模式是 对当前数扼中存在的事实做规范描述,刻画当自# 数据的一般特性;预测型模式则 是以时间为关键参数,对于时间序列型数据,根掘其历史和当静值去预测其未来 的值。根扼模式特征,可将其大致细分如下: 筚十数据挖掘的击剑运功训练诀镀打系统 2 4 1 分类模式( cj a s s i f i c a t i o n ) 分类就是构造一个分类函数( 分类模型) 把具有某些特征的数据项映射到某 个给定的类别上。该过程由2 步构成:模型创建和模型使用。模型创建是指通过 对训练数掘集的学习来建立分类模型:模型使用是指使用分类模型对测试数据和 新的数掘进行分类。其中的训练数掘集是带有类标号的,也就是说在分类之前, 要划分的类别是已经确定的。通常分类模型是以分类规则、决策捌或数学表达式 的形式给出的。 2 ,4 2 聚类模式( c i u s t e ri n g ) 聚类就是将数据项分组成多个类或簇,类之间的数掘差别应尽可能大,类内 的数掘差别应尽可能小,即为“最小化类问的相似性,最大化类内的相似性”原 则。与分类模式不同的是,聚类中要划分的类别是未知的,它是一种不依赖于预 先定义的类和带类标号的训练数据集的非监督学习( u n s u p e r v i s e dl e a r n i n g ) ,无 需背景知识,其中类的数量由系统按照某种性能指标自动确定。 2 4 3 回归模式( r e g r e s s i o n ) 回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预测 值( 例如类标号) ,而回归模式采用连续的预测值。在这种观点下,分类和回归都 是预测问题。但在数掘挖掘业界,大家普遍认为:用预测法预测类标号为分类, 预测连续值( 例如使用回归方法) 为预测。许多问题可以用线性回归解决,对于许 多非线性问题可以通过对变量进行变换,从而转换为线性问题来解决。 2 4 4 关联模式( a s s o c j a t i o n ) 关联模式是数据项之间存在的关联规则,是在同一事件中出现的不同项之间 的相关性,比如顾客在同一次购买活动中所购买的不同商品之间的相关性。 记项集卢 五五,工】,其中l 称为项( i t e m ) ;交易集= 7 :,乃, zj ,其中乃称为交易( t r a n s a c t i o n ) ,也是项的集合,并且绝,。一条关联规则 茉十数据挖掘的击剑运动训练班铤之打系统 是形如jj 7 的蕴涵关系式,其中_ 7c j c 并且胴j 色痧。规则_ jj , 在交易集口中的支持度( s u p p o r t ) 是交易集口中包含z 和j 7 的交易数与所有交易 数之比,记为s u p p o r t ( 等y ) ,即 s u p p o r t ( j ;j ) = i ,= ju y _ c z 尼d ;i | d l 规则_ jj7 在交易集口中的可信度( c o n f i d e n c e ) 是指交易集口中包含j 和j 的交易数与包含_ 。的交易数之比,匠为c o n f i d e n c e ( 9 7 n ,即 c o n f i d e n c e ( jj j = l ,:7u j 三z 绝d 7 l 乃j z 尼d 对于给定的一个交易集及挖掘关联模式问题就是产生支持度和可信度分别 大于用户给定的最小支持度( m i n s u p p o n ) 和最小可信度( m i n c o n f i d e n c e ) 的关联 规则。 最著名的关联规则挖掘算法是由a g r a w a l 等人1 9 9 4 年提出的a p r i o r i 算法。 a p r i o r i 算法”的基本思想是:统计多种商品在一次性购买中共同出现的频数, 然后将出现频数多的搭配转换为关联规则。a p r i o r i 算法的核心是:用前一次扫 描数据库的结果产生本次扫描的候选项目集,从而提高搜索的效率。其后人们又 提出了诸多关联规则挖掘算法,主要工作集中在如何提高项集的生成效率和降低 计算代价上。 2 4 5 序列模式( s e q u e n t i a l ) 序列模式是描选基于时间或其他序列的经常发生的规律或趋势,并对其建 模。一个典型的例子就是:在购买p c 机的顾客当中,7 0 的人会在半年内购买内 存条。序列模式将关联模式和时间序列模式结合起来,重点考虑数掘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论