(计算机应用技术专业论文)排球比赛临场技战术统计分析系统设计与实现.pdf_第1页
(计算机应用技术专业论文)排球比赛临场技战术统计分析系统设计与实现.pdf_第2页
(计算机应用技术专业论文)排球比赛临场技战术统计分析系统设计与实现.pdf_第3页
(计算机应用技术专业论文)排球比赛临场技战术统计分析系统设计与实现.pdf_第4页
(计算机应用技术专业论文)排球比赛临场技战术统计分析系统设计与实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)排球比赛临场技战术统计分析系统设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北方工业大学硕士学位论文 摘要 体育计算是将数据挖掘等技术应用于体育领域尤其是对抗性竞技体育比赛中的过 程。近年来,体育计算成为计算机领域的一个热门研究方向随着排球运动的影响越来 越大,利用计算机技术等高科技手段提高运动员的训练和比赛水平已经成为共识。一 些体育运动水平较高的国家或地区,都投入了大量的资金开展该领域的研究。 然而,排球比赛领域的体育计算研究所存在的主要问题是:数据的采集不能很好的 满足实时性的要求,同时,对于海量数据的分析,选择合适的数据挖掘算法和建立适合 分析的模型也是研究的难点。 在数据采集方面,目前世界上比较流行的排球比赛统计分析软件n 删咖a u 【i 】在 对排球比赛临场技战术数据的采集方面有贡献,它创建了一种基于过程的脚本描述语 言。但是该软件采集数据方式单一( 支持键盘采集) ,脚本描述语言的设计不够高效。 本文提出了一种提高记录数据的速度的采集方案。在采集方式方面,将鼠标采集与键盘 采集结合起来,通过寻找频繁脚本提高记录的速度,在采集语言方面,提出了一种基于 模式的脚本橘述语言,采用助记符的方式,对排球比赛中一系列的动作模式进行编码, 然后通过脚本解析器进行脚本的推断,从而提高了记录效率。通过实验表明,该方法能 够有效地提高记录速度。 在数据分析方面,分析了数据挖掘算法在体育比赛技战术分析中应用的难点,提出 了三种挖掘排球比赛制胜关键因素的方案,分别应用相关的数据挖掘算法,通过计算系 统可靠性差分,解决了排球比赛中寻找关键动作转换过程的问题,通过脚本分类,寻找 频繁项集,解决了排球比赛中寻找关联组合的问题,通过模拟线形回归,利用最d - - 乘 法,解决了排球比赛中配合成功率预测的问题。并设计实验展示了上述方案的正确性和 可行性。 另外,本课题实现了一个排球比赛临场技战术统计分析系统,本文对这个系统的体 系结构、数据模型以及各个功能模块都做了比较详细的介绍,并给出了系统的测试结 果。该系统解决了目前主要采用的人工进行分析所带来的问题,使得教练员能够更加准 确的对比赛技战术数据进行分析,从而为教练员进行合理的指导和决策提供科学的依 据。 关键词:体育计算,数据挖掘,排球比赛分析 北方工业大学硕士学位论文 t h e d e s i g na n di m p l e i n e n t a t i o no f t e c h n i c a l - t a c t i c ss t a t i s t i c sa n da n a l y s e s y s t e mo f v o l l e y b a l lm a t c h s p o r t sc o m p u t i n gi sac o t l r t oa p p l yt od a t am i n i n gi nt h e 五l e do fs p o r t s 髑p c c i a l l yi n c o m 拼咖t 呻o r t s r e c e n t l y , p h y s i c a lc o m p u t eb e c o m eap o p u l a rr e s e a r c hm 缸i th a sb e e n a g r e e dt h a tt h ea p p l y i n go fh i g hs c i e n c ea n dt e c h n o l o g ys u c ha sc o m p u t 盯t e c h n o l o g yc m i n l p r o v et h el e v e lo f s k i l l si ns p o r t sc o n l p e 碰o n 船m o r oa n dm o r ee f f e c t so fv i ) u 咖a l lm a t c h t o t i m w o r l d s o m o o o t m t l i c s o r d i s t r i c t s w i t h h i g h s p o r t s l e v e l i n v e s t l o t s o f f u n d i n t h e a r e a t h e r e 肿s t i l ls o m ep r o b k 舶a ai nt h e 翻掣s i c a lc o m p 疵r e s e a r c h0 1 1t h ef i l e do f v o l l e y b a l l m a t c h t h ec o l l e c t i o no f d a t ac 觚n o ts a t i s f yt h er e q u e s to f r e a lt i m e s i m u l t a n e i t y , f a c et ot h e h u g ea m o u n to f d a t a , c h o o s i n gas u i t a b l ea r i t h m e t i co f d a t a m i n i n ga n db u l i d i n ga s u i t a b l em o d a l 撇a l s od i 伍c u l t o nt h ea s p e c to f d a t ac o l l e c t i o n , d a t a v o l l e y b a l li st h eav e r yf a m o u ss o f t w a r e0 1 1a n a l 煳 t h e d a t a o f v o l l e y b a l l m a t c h i t p r e s e n t a s c r i p t b a s e d o n p r o o c s s b u t o n l y k e y b o a r d c a n b c u s c d t oc o l l e c td 瓶a n dt h ed e s i g no f s c r i p tc a nn o ts a t i s f yt h er e q u e s to f r e a lt i m ec o m p l e t e l y t h i s p a p e rp r e s e n tas o l u t i o n 幻i m p r o v et h es p e e do fd a t ac o l l e c t i n g o nt h ea s p e c to fc o n e c t i n g m e t h o d , i ti n t e g r a t ct h em e t h o d so fu s i n gk e y b o a r da n du s i n gm o u s o , i n i p r o v ot h e 印e e do f c o l l e c t i n gb yf i n dt h eb i 曲f r e q u e n ts c r i p t s o nt h ea s p e c to f c o l l e c t i n gs c r i p t , i tp m m 妇as c r i p t b a s e do nm o d eu s i i l gc o & s ,c o d i n gas c i e so fa c t i o nm o d e so nt h ev o l l e y b a l lm a t d l s a n d c o n c l u d i n gt h es c r i p t sb yd e c o d i n gs y s t e m , a n di m p a , v i n gt h ee f f i c i e n c yo fc o l l e c t i n g t h e e x p e r i m e n t p r o v e d t h e e o l l e e m e s s a n d f e a s l l a i l i t y o f t h es o l u t i o n o n t h ea s p e c t o f d a t a a a a l y s i n a t h i s p a p 酉a n a l y s e t h e d i f f i c u l t y o f a p p l y i n g t h e d a t a m i n i n g a r i t h m e t i ct ot h et e c h n i c a l - t a c t i c a l 觚a 1 煳o f s p o r t s i tg i v e s3s o l u t i o n so f m i n i n gt h ek e y f a c t o ro fs c o r i n gi nv o l l e y b a l lm a t c h e s b yc a l c u l a t i n gs y s t e mr d i a b i l i t yd i f f e r e n c e , s o l v et h e p r o b l e mo ff i n d i n gf o c a lp r o c e s so fa c t i o nt r a n s i t i o n s b ys 0 柑n ga n d 丘n d i n gt h eh i g hf r e q u e n t s c r i p t s , s o l v et h ep r o b l e mo ff i n d i n gr e l a t i o n a lc 0 脚p 吼m d i n g s b ys i m u l a t i n gl i n e a rr e g r e s s i o n , s o l v et h ep r o b l e mo f f o r e c a s t i n gt h e 羽l c o e s sr a t eo f c o m p o t m d i n g sb yt h el e a s t - s q u a r em e t h o g l t h ee x p e r i m e n tp r o v e dt h eo o f f e c ( n c s sa n df e a m b i l i t yo f t h es o l u t i o n i na d d i t i o n , as y s t e mo f t e c h n i c a l - t a c t i c ss t a t i s t i c sa n da n a l y z es y s t e mo f t a b l et e n n i s m a t c hi sd e s i g n e da a dc o m p l e t e d t h i sp a p e ri n t l o d u 溺t h es y s t e ms t r u c t u r e , d a t am o d e la n d f u n c t i o n sp a r t i c u l a r l y , a n dg i v e st h er e s u l to ft e s t i n gt h i ss y s t e ms o l v e st h ep r o b l e mo f 3 北方工业大学硕士学位论文 锄a b 晒n gb ym a n u a lw o r l ct h ec o a c hc a na n a l y z et h ed a t ao fm a t c hb yt h i ss y s t e m t t l i s s y s t e m c a n p r o v i d e s o m ea c i v i c e f o r t h e c o a c h t o m a k e d e c i s i o n k e yw o r d s :s p o r t sc o m p u f i n g od a t am i n i n g da n a l y s i so f v o l l e y b a l lm a t c h 4 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得j 友王些太堂或其他 教育机构的学位或证书而使用过的材科。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名承檄字日期:谛蝴,o 日 i 学位论文版权使用授权书 本学位论文作者完全了解j e 友王些太堂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅 和借阅。本人授权韭友王些太堂可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:弘岛澎 签字日期:廊j ,月? 口日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师躲彩呵 矿i 签字日期:肼岁月沙日 电话: 邮编: 北方工业大学硕士学位论文 1引言 作为本文的开篇部分,本章主要介绍了课题“排球比赛l i 商场技战术统计分析系统的 设计与实现”的研究背景和主要研究内容,然后介绍了本文的组织结构。 1 1 课题研究背景与现状 体育计算时将数据挖掘作为理论基础,利用计算机作为采集和分析平台,寻找在体 育比赛技战术分析中的有用信息的过程。排球运动在我国有着光荣的历史传统,中国女 排先后在国际大赛中取得过优异的成绩。比赛成绩是衡量运动水平的重要指标,而根据 临场技战术数据统计结果进行战术部署是提高比赛成绩的关键之一。如何实现排球临场 技战术数据的实时统计与分析昵? 目前在排球比赛中,技战术数据的统计工作基本由手 工进行,这显然不能满足对比赛进行科学指导的要求,教练员只能根据经验和少的可怜 的数据来指挥比赛。 随着计算机技术的发展,人们想到利用计算机统计分析排球比赛的l 每场技战术数 据,可以大大提高记录的速度和分析的效率,但也存在着一些问题。 首先,排球比赛作为团体的运动,需要场上同时1 2 个队员的参与,队员之间互有 配合,因此节奏非常快。作为数据采集人员,需要在场上形势瞬息万变的情况下记录包 括队员号码、动作、技术细节、开始区域和结束区域在内的一系列信息,对效率的要求 非常高,给采集带来了一定程度的困难。在目前世界上流行的排球比赛数据统计分析软 件d a t a v o l l c y b a u 中,采用了一种基于过程的脚本描述语言来描述比赛的细节数据,对于 采集方案的设计有贡献,但是该软件采集数据方式单一( 支持键盘采集) ,脚本描述语 言的设计不够高效。 。 其次,高水平排球比赛中及战术变化复杂,教练员无法深入、细致地把握比赛中的 技战术全过程。然而,技战术分析的结果在高水平的比赛中又直接决定比赛的结果,所 以在全面采集比赛技战术数据的基础上,利用计算机进行深入地分析,是指挥比赛当务 之急。在分析的过程中,由于扫 球比赛临场技战术数据信息量大,类型繁多,采用合适 的数据分析方案和方法显得尤为重要。数据挖掘是从大量信息中提取知识的过程。在国 内,数据挖掘技术在体育比赛中的运用正在逐步占有越来越重要的位置。2 0 0 0 年悉尼 奥运会, 羊城晚报记者在开赛前根据几大体育强国在近几年所取得的金牌数对中国 奥运军团的实力做出大胆预测【2 】。从2 0 0 2 年开始,许多专业体育类报纸,开始使用数 北方工业大学硕士学位论文 据挖掘技术对体育赛事进行预测。目前在国内数据挖掘技术较多地应用于体育报道,目 的是为了预测赛事的结果,其面向的用户主要是体育报道的读者,而不是为教练员提供 分析和决策的依据。将数据挖掘运用于对临场技战术数据的分析,为教练员进行战略决 策提供实时的科学依据,对提高我国体育运动的水平具有一定的作用。 1 2 本文研究切入点 本课题所研究的切入点在于解决用计算机来采集、分析数据中所遇到的难点问题。 针对数据的采集,本课题提出一种基于模式的脚本描述语言,用户需要输入的只是 少量的数据,其余的工作交给脚本解析器来完成。脚本解析器具备脚本分类、合法性判 断、分段解析、内容补充与扩展等功能。系统通过脚本解析器进行模式的匹配,选择合 适的模式,对用户输入的数据进行解析,从而达到用户付出尽可能少的工作量,却能够 得到尽可能多的信息的目的。这将解决在排球比赛中数据采集的速度跟不上比赛节奏的 问题,并能在很大程度上提高用户采集数据的信息覆盖率。 针对数据的分析,本课题应用多种适合用于体育比赛数据分析的数据挖掘算法和技 术,帮助教练员寻找那些隐含在数据中的、不能仅通过经验和对原始数据的观测所识别 的、同时也是对比赛的战略决策具有重要参考价值的信息,从而达到通过科学的依据指 挥比赛的目的。在排球比赛中,动作之间的转换背后隐藏着一些不容易直观观测的信 息,比如,哪两个技术动作之间的转换对于达到成功状态的影响最大? 而这恰恰是教练 员关心的内容,这就需要用数据挖掘的方法来进行解决。在排球比赛中,技术动作变化 丰富,而且这些数据往往是多维、多层次的,如果让教练员单凭肉眼观测数据,看出某 两个或者某几个动作之间有什么关联,是不现实的。而研究几个动作之间的关系,显然 对于教练员的战略部署具有重要的参考价值。在排球比赛中,如果能对对方的动作和战 术做出合理的预测,就能达到一种“知己知彼”的状态,占据比赛中的有利形势。因 此,在比赛中分析对方的战术,从而制定相应的反击战术是非常有必要的。仅凭教练员 的经验和感觉不能直观的判断对方的反应。在这种情况下,数据挖掘中的分类和预测技 术能够发挥重要的作用,在已经拥有关于对方球队和队员大量以往比赛信息的基础上, 建立分类和预测模型,来推理他们下一步的行为,可以为教练员提供制定战略决策的科 学依据和技术支持。 2 北方工业大学硕士学位论文 1 3 本文结构 本文在对体育计算和数据挖掘相关理论进行阐述的基础之上,详细地叙述了排球比 赛临场技战术统计分析系统的设计与实现的过程。本文主要从以下几个方面进行论述: 摘要部分,对本文的主要内容和研究工作进行了概括性叙述。引言部分,简要介绍 了本文的研究背景、主要研究内容以及本文结构。第二章,作为本文的理论基础,主要 介绍了体育计算和数据挖掘理论的概念、发展过程、研究现状、主要研究内容、常用方 法、实际应用和发展趋势等。第三章和第四章,详细阐述了在研究背景中所提到的两个 难点的解决方案以及实现的具体步骤,第三章主要论述了脚本描述语言的结构和脚本解 析器的算法流程,第四章从数据挖掘技术入手,分别介绍了数据挖掘中关联规则分析算 法、分类预测算法和基于马尔科夫过程的数据挖掘方法的实现过程及其在排球比赛技战 术分析中的应用。第五章,对本文实现的“排球比赛临场技战术统计分析系统”进行了 介绍,比较详细的介绍了该系统的分析、设计、实现方法和测试结果。第六章,结论部 分,首先对本文所作的主要工作进行了总结,然后对本文的后续工作进行了概括叙述。 一3 北方工业大学硕士学位论文 2 相关理论介绍 本章将介绍本课题所设计到的相关理论知识,包括:数据挖掘的基本理论介绍, d a t a v o l l e y b a l l 脚本的简单介绍和视频定位工作过程的简介。 2 1 数据挖掘基本理论介绍 本节将介绍数据挖掘的发展过程与研究现状,研究内容和方法,以及对未来研究方 向的分析。 2 1 1 数据挖掘的研究背景 数据挖掘技术的产生和发展是需要条件的,首先是数据库技术的成熟和普及,数据 库技术使人类积累的数据量增长速度加快;其次是技术的出现和发展,网络技术是地理 位置上的差异不再成为信息交换的阻碍,将整个世界连接成一个地球村,人们可以穿越 时空般地在网上交换信息和协同工作。信息爆炸的时代带来了浩瀚无垠的信息海洋,面 对各行各业的海量数据,人们对于将数据转换为知识的技术需求越来越强烈,数据挖掘 就是在这个背景下产生和发展的 3 - 4 1 。本节将对数据挖掘的发展过程和研究现状进行介 绍。 2 1 2 数据挖掘的主要研究内容及常用方法 发现隐藏在数据中的模式是数据挖掘的主要任务之一。对于数据挖掘而言,其可以 发现的模式一般分为两大类:描述型( d e s c r i p t i v e ) 模式和预测型( p r e d i c t i v e ) 模式。 描述型模式的定义是:对当前数据中存在的事实做规范描述,刻画当前数据的一般 特性的模式。 预测型模式的定义是:以时间为关键参数,对于时间序列型数据,根据其历史和当 前的值去预测其未来的值。 根据模式特征,可将模式大致细分如下i 踊: 关联模式( a s s o c i a t i o n ) :用于描述数据项之间存在的关联规则,是在同一事件中 出现的不同项之间的相关性,比如顾客在同一次购买活动中所购买的不同商品之间的相 关性最著名的关联规则挖掘算法是由a g r a w a l 等人于1 9 9 4 年提出的a p r i o r i 算法。 分类模式( c l a s s i f i c a t i o n ) :构造一个分类函数( 分类模型) ,把具有某些特征 的数据项映射到某个给定的类别上。构造分类模型的过程是:模型创建和模型使用。模 型创建是指通过对训练数据集的学习来建立分类模型;模型使用是指使用分类模型对测 4 北方工业大学硕士学位论文 试数据和新的数据进行分类。其中的训练数据集是带有类标号的,也就是说在分类之 前,要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的 形式给出的。 序列模式( s e q u e n t i a l ) :描述基于时间或其他序列的经常发生的规律或趋势,并 对其建模。一个典型的例子就是:在购买p c 机的顾客当中,7 0 9 6 的人会在半年内购买内 存条。序列模式将关联模式和时间序列模式结合起来,重点考虑数据之间在时间维上的 关联性。有3 个参数的选择对序列模式挖掘的结果影响很大:序列的持续时间t ,也 就是某个时问序列的有效时间或者是用户选择的一个时间段;时间折叠窗口( w t ) ,在某段时间内发生的事件可以被看作是同时发生的;所发现模式的时间间隔。 聚类模式( c l u s t e r i n g ) :将数据项分组成多个类或簇,类之间的数据差别应尽可 能大,类内的数据差别应尽可能小,即为“最小化类间的相似性,最大化类内的相似 性”原则。与分类模式不同的是,聚类中要划分的类别是未知的,它是一种不依赖于预 先定义的类和带类标号的训练数据集的非监督学习( u n s u p e r v i s e dl e a r n i n g ) ,无需 背景知识,其中类的数量由系统按照某种性能指标自动确定。 偏差模式( d e v i a t i o n ) :对差异和极端特例的描述,如聚类外的离群值。大部分 数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能 比正常的数据更有用。比如信用卡的欺骗检测( f r a u dd e t e c t i o n ) ,通过检测一个给 定帐号与其历史上正常的付费相比,可以以付款数额特别大这一异常数据为依据来发现 信用卡被欺骗性使用 回归模式( r e g r e s s i o n ) :回归模式的函数定义与分类模式相似,主要差别在于分 类模式采用离散预测值( 例如类标号) ,而回归模式采用连续的预测值。在这种观点 下,分类和回归都是预测问题。但在数据挖掘业界,大家普遍认为:用预测法预测类标 号为分类,预测连续值( 例如使用回归方法) 为预测 9 。许多问题可以用线性回归解 决,对于许多非线性问题可以通过对变量进行变换,从而转换为线性问题来解决。 下面将主要介绍几个与本课题相关的数据挖掘算法的理论概念: 关联规则挖掘发现大量数据中项集之问的有趣的关联或者相互的联系【7 】。关联规则 的一个典型的例子是购物篮分析。该构成通过发现顾客放入其购物篮中不同商品之间的 联系,分析顾客的购买习惯。通过了解哪些商品频繁的被顾客同时购买,这种关联的发 现可以帮助零售商制定营销的策略。 5 北方工业大学硕士学位论文 如果我们想象全域是商店中可以利用的商品的集合,则每种商品有一个布尔变量, 表示该种商品的有无。每个篮子则可以用一个布尔变量表示。分析布尔变量,得到反映 商品频繁关联或者同时购买的购买模式。这些模式可以用关联规则的形式表示。 规则的支持度和置信度是两个规则兴趣度量,分别反映发现规则的有用性和确定 性。 a p r i o r i 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法【8 】。算法的名字 基于这样的事实:算法使用频繁项集性质的先验知识,正如我们将看到的。a p r i o r i 使 用一种称作逐层搜索的迭代算法,k _ 项集用于支持搜索( k + 1 ) 一项集。首先,找出频繁 卜项集的集合,该集合用于寻找频繁2 一项集的集合,如此下去,直到不能找到频繁k - 项集。每找一次就是对数据库的一次扫描。 为了提高频繁项集逐层产生的效率,一种称作a p r i o r i 性质的重要性质用于压缩搜 索的空间。a p r i o r i 性质指的是:频繁项集的所有非空子集也必须是频繁的。该性质属 于一种特殊的分类,称作反单调( a n t i - m o n o t o n e ) ,意指如果一个集合不能通过测试, 则它的所有超集也都不能通过相同的测试,成它为反单调,是因为在通不过测试的意义 下,该性质是单调的。 为了提高a p r i o r i 的有效性,已经提出了许多a p r i o r i 算法的变形,旨在提高原算 法的效率。比如,事务压缩( 压缩进一步迭代扫描的事务数) 【9 】:不包含任何卜项集的事 务不可能包含任何( k + 1 ) 一项集。这样,这种事务在其后的考虑时,可以加上标记或者删 除,因为为产生j 一项集( j k ) ,扫描数据库时不再需要它们。划分( 为找候选项集划分 数据) 【1 川:可以使用划分技术,它只需要两次数据库的扫描,以挖掘频繁项集。选样 ( 在给定数据的一个子集挖掘) t “】:选样方法的基本思想是:选取给定数据库d 的随机 样本s ,然后,在s 而不是d 中搜索频繁项集。用这种方法,我们牺牲了一些精度换取 了有效性。动态项集计数( 在扫描的不同点添加候选项集) 【1 2 】:动态项集计数技术将数 据库划分为标记开始点的块。不像a p r i o r i 仅在每次完整的数据库扫描之前确定新的候 选,在这种变形中,可以在任何开始点添加新的候选项集。 数据挖掘技术允许由事务数据库挖掘多层关联规则【l 习。多层关联规则是这样的一些 规则,它们设计多个抽象层中的项。对于许多应用,由于多维数据空间数据的稀疏性, 在底层或者原始层的数据向之间很难找出强关联规则。在较高的概念曾发现的强关联规 则可能提供普遍意义的知识。然而,对于一个用户代表普遍意义的知识,对于另外一个 用户可能是新颖的。因此,数据挖掘系统应该提供一种能力,在多个抽象层挖掘关联规 则,并容易在不同的抽象空间转换。 6 北方工业大学硕士学位论文 由关系数据库和数据仓库可以挖掘多维关联规则【1 4 1 。多维关联规则是设计到多个属 性和谓词的规则。这些方法可以根据它们对量化属性的处理组织。挖掘多维关联规则的 技术可以根据量化属性的处理分为三种基本的方法。第一种防法使用预定义的概念分层 对量化属性离散化。这种离散化在挖掘之前进行。第二种方法,根据数据的分布,将量 化属性离散化到“箱”。第三种方法,量化属性离散化。 分类和预测是数据分析的两种形式,可以用于提取描述重要数据类的模型或者预测 未来的数据趋判睁“。分类预测分类标号( 类) ,而预测建立连续值函数模型。 分类和预测准备阶段的预处理可能涉及数据清理、相关性分析和数据变换。 数据的分类( d a t ac l a s s f i c a t i o n ) 是一个两步过程,第一步,建立一个模型,描述 预定的数据类集或者概念集。通过分析由属性描述的数据库元组来构造模型。假定每个 元组属于一个预定义的类,有一个称作类标号属性( c l a s sl a b e la t t r i b u t e ) 的属性确 定。对于分类,数据元组也称作样本、实例或者对象。为建立模型而被分析的数据元组 组成训练数据集。训练数据集中的单个样本称作训练样本,并且随机的由样本群选取。 由于提供了每个训练样本的类标号,该步也称作有指导的学习。它不同于无指导的学习 ( 或者聚类) ,那里每个训练样本的类标号是未知的,要学习的类集合或数量也可能事先 不知道。 第二步,使用模型来进行分类。首先评估模型( 分类法) 的预测准确率,保持 ( h o l d o u t ) 方法是一种使用类标号样本测试集的简单方法。这些样本随机选取,并独立 于训练样本。模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。对 于每个测试样本,将已知的类标号与该样本的学习模型类预测比较。 预测( p r e d i c t i o n ) 是构造和使用模型评估无标号样本类,或者评估给定样本可能具 有的属性值或值区间。在这种观点下,分类和回归是两类主要的预测问题,其中分类是 预测离散或者标称值。而回归用于预测连续或者有序值。 预测的准确率、计算速度、鲁棒性、可伸缩性和可解释性是评价分类和预测方法的 五条标准。 判定树归纳的贪心算法使用一种信息论度量1 嘲,为树中每一个非树叶节点选择测 试属性,剪枝算法试图通过剪去反映数据中噪声的分枝,提高准确率。通常,早期的判 定树算法假定数据是驻留内存的这对于大型数据库上的数据挖掘是一种限制。其 后,提出了一些可伸缩算法来解决这一问题,如s l i q ,s p r i n 和雨林算法。判定树容易 转换成i f _ t 正n 分类规则。 7 j t 方工业大学硕士学位论文 在判定树创建的时候,由于数据中的噪声和孤立点,许多分枝反映的是训练数据中 的异常。剪枝方法处理这种过分适应数据问题。通常,这种方法使用统计度量,剪去最 不可靠的分枝,这将导致较快的分类,提高树枝独立于测试数据正确分类的能力。 对树的剪枝通常有两种常见的方法【2 7 捌:在先剪枝( p r e p r u n i n g ) 的方法中,通过提 前停止树的构造而对树进行剪枝。一旦停止,节点成为树叶,该树叶可能持有子集样本 中最频繁的类,或这些样本的概率分布。 第二种方法是后剪枝( p o s t p r u n i n g ) 方法。它由“完全生长”的树剪去分枝。通过 删除节点的分枝,剪掉树节点。代价复杂性剪枝算法是后剪枝方法的一个实例。最下面 的未被剪枝的节点成为树叶,并用它先前分枝中最频繁的类标记。对于树中每个非树叶 节点,算法计算该节点上的子树被剪枝可能出现的期望错误率,然后,使用每个分枝的 错误率,结合沿每个分枝观察的权重评估,计算不对该节点剪枝的期望错误率。如果剪 去该节点导致较高的期望错误率,则保留该子树,否则剪去该子树。产生一组逐渐被剪 枝的树之后,使用一个独立的测评集评估每棵树的准确率,就能得到具有最小期望错误 率的判定树。 朴素贝叶斯分类和贝叶斯信念网络基于后验概率的贝叶斯定理,不像贝叶斯分类 ( 假定类条件独立) ,贝叶斯信念网络允许在变量子集之间定义类条件独立性。 后向传播是一种用于分类的神经网络算法【蚓,使用梯度下降方法。它搜索一组 权,这组权可以对数据建模,使得数据样本的网络类预测和实际类标号问的均方距离最 小。可以由训练的神经网络提取规则,帮助改进学习网络的可理解性。 k _ 最临近分类基于类比学习【瑚5 1 。训练样本用n 维数值属性描述,每个样本代表n 维空间的一个点。这样,所有的训练样本都存放在t 1 维模式空间中。给定一个未知样 本,搜索模式空间,找出最接近未知样本的k 个训练样本。这k 个训练样本是未知样本 的k 个近邻。临近性用欧几里德距离定义。 基于案例的推理( c a s e - b a s e dr e a s o n i n g ,c b r ) 分类法是基于要求的州。不像最临近 分类法将训练样本作为欧氏空间的点存放,c b r 存放的样本或者案例是复杂的符号描 述。c b r 的商务应用包括诸如顾客服务台问题求解,其中案例描述商品有关的诊断问 题。c b r 还被用在诸如工程和法律领域,其中案例分别是技术设计和法律条款。 遗传算法试图结合自然进化的思想【3 “。一般地,遗传学习的开始是创建一个由随机 产生的规则组成的初始群体。每个规则可以用一个二进位串表示。根据适者生存的原 则,形成由当前群体中最适合的规则组成的新的群体,以及这些规则的后代。典型情况 下,规则的适合度( f i t n e s s ) 用它对训练样本集的分类准确率评估。后代通过使用诸如 8 i l 力- i 业大学硕士学位论文 交叉和交异等遗传操作来进行创建。遗传算法易于并行,并且业已用于分类和其他优化 问题。在数据挖掘中,它们可以用于评估其他算法的适合度。 粗糙集理论可以用于分类【3 s 】。发现不准确数据或者噪声数据内在的结构联系。它用 于离散数值属性。因此,连续值属性必须在处理前离散化。粗糙集理论基于给定训练数 据内部的等价类的建立。形成等价类的所有数据样本是不加区分的。即对于描述数据的 树形,这些样本是等价的。粗糙集也可以用于特征规约和相关分析。找出可以描述给定 数据集中所有概念的最小属性集( 归约) 问题是n p - 困难的。然而,业已提出了一些降低 计算强度的算法,例如,有一种方法使用识别矩阵( d i s c e r n i b i l i t ym a t r i x ) 存放每对 数据样本属性值之间的差别。不是在整个训练集上搜索,而是搜索矩阵,检测冗余属 性 2 2d a t a v o l l e y b a l l 脚本描述语言简介 d a t a v o l l e y b a l l 的脚本描述语言遵循严格的代码规则,其语法结构如下所示: n n s t e s z r z n u m b e ro f t h ep l a y e r s 妊l l t y p eo f t h es k i l l e f f i c a c yo f t h es k i l l s t a r t i n gz o n eo f t h es k i l l r e c e i v i n gz o n eo f t h es k i l l n n 表示队员的号码,s 代表技术,t 代表技术的类型,e 代表效果,s z 代表开始区 域,r z 代表结束区域。 下表是技能列表: 表2 1l l a t a v o l l e y b a l l 技能列表 o 魄i8 1 键髓麓 发球 s 接发球传球 r 扣球( 双人拦网)a 扣球( 单人拦网) u 双人拦网 b 单人拦网 n 救球 d 二传 e 9 北方工业大学硕士学位论文 下表是代码输入的几种格式: 表2 2d a t a v o l l e y b a l l 代码输入格式 r 记录范围举例。;代碡黼 j 。 单个队本方发球,对方进攻,被防守。本方扣球成功。 5 s + 1 2 a # 单个队带有区域本方发球,对方接起进攻穿过防守,本方救球出界。 5 s q - 1 61 2 n l = 2 3 记录对方本方发球,被对方成功接起,对方进攻得分。5 s 9 # a 7 群 双方详细本方发球对方接球扣球成功,本方单人拦网失误。 6 1 a 1 2 # a 7 1 钋i - 3 2 2 3 视频定位播放工作原理 通过视频进行技战术的分析,可以更加直观清晰的进行观察,当前一般情况下教练 员都是通过对视频进行手动拖动,通过这种方式显然其实时性和准确性相对较差,而利 用当前先进的计算机技术进行统计分析,则可以对视频进行非常实时准确的检索定位, 提高效率,鲁棒性也非常好。 视频的定位播放工作过程是将存储设备中存储的视频数据利用过滤器进行转换,教 练员可以用“排球比赛临场技战术统计分析系统”对数据库中的技战术视频时间戳数据 进行查询,利用查询到的时间戳进行视频定位播放,输出到显卡通过显示器进行回放, 对队员比赛技战术进行可视化统计分析。 视频的模拟现场追加采集工作过程是将存储设备中存储的视频数据利用过滤器进行 转换播放,同时进行乒乓球比赛技战术数据的采集,保存到数据库。 一1 0 北方工业大学硕士学位论文 3 数据采集解决方案研究 本章将介绍本课题的难点之一:脚本描述语言与脚本解析器的设计。下面分别介绍 脚本描述语言的设计与脚本解析器的工作原理。 3 1 脚本描述语言的设计 本课题所设计的脚本描述语言是基于模式的脚本描述语言,下面将分别介绍脚本描 述语言的设计思想,结构设计和代码设计。 3 1 1 脚本描述语言的设计思想 脚本描述语言的基本思想是:利用排球比赛中比赛双方使用的技术和战术大多具有 一定模式的特点,将这些模式用非二义性的代码表示出来,同时定制一系列的描述方法 和推断规则,使得用户在记录比赛的过程中,需要输入的代码量尽可能的少,利用通过 计算机实现的逻辑推理补充剩余代码,推断隐藏信息,使得用户最终能够获得的信息量 尽可能的多。 根据脚本描述语言的基本设计思想,归纳出脚本描述语言的基本设计原则如下: 智能化推理通过对排球运动技战术的分析,总结出尽可能多的模式与规律,用 户通过利用脚本描述语言描述比赛数据的时候,输入尽可能少的数据,得到尽可能多的 信息,有效地缩短大量代码的长度。 简单化记忆一为了让不同职业背景、不同年龄层次和不同文化水平的用户都能尽 快熟练脚本描述语言的使用,采用拼音的缩写来记录比赛,拼音作为中国语文知识的基 础之一,更适合中国人的记忆习惯,更能满足不同层面的用户的需求。 关键性记录在脚本描述语言的记录过程中,由于排球比赛节奏很快,比赛情况 瞬息万变,要求用户在短时间内实时且准确的记录所有数据是不现实的,必须有选择性 的进行记录,本课题所设计的脚本描述语言支持用户优先记录那些用户最感兴趣、最终 要的数据,选择最有参考价值和分析价值的关键过程来进行记录。 3 1 2 脚本描述语言的结构设计 脚本描述语言的设计分为单独码和模式码两大类。下面分别阐述单独码和模式码的 结构设计。 北方工业大学硕士学位论文 每一条单独码用于描述一个队员在场上的一个动作,描述的内容包括队员所属球 队、队员号码、队员动作、动作技术细节、动作效果、开始区域和结束区域等信息。采 用的结构是:( 队员号码占两位,其余每个占一位。) 队员号码开始区域结束区域动作技术细节动作效果。 如果表示主队队员,队员号码前面不需要加其他的字符,如果是客队队员,队员号 码的前面加上字符“0 ”,代表“o p p o n e n t ”对手。 本课题所设计的脚本描述语言结构与d a t a v o l l e y b a l l 所设计的脚本描述语言结构 比较: d a t a v o l l e y b a l l 脚本描述语言结构:队员号码动作技术细节效果开始区域结 束区域。首先,该结构没有分隔符,这就造成了信息无法任意缺省。比如,如果省略了 动作,技术细节,效果三项,队员号码和开始区域、结束区域将连在一起,从而产生二 义性。 二义性实例: 1 2 5 这条代码可以表示1 号队员动作开始区域为2 ,结束区域为5 ,也可以表示1 2 号队 员开始区域为5 。 为了避免二义性,该结构的脚本描述语言不可避免的要为每个字段设置缺省值以保 留该信息的位置,、防止解析时出现错位,但是有的时候缺省信息并不能很准确的描述用 户的需求。 而本课题所设计的结构避免了这一情况的发生。在本课题所设计的结构中使用了分 隔符句号( 英文格式) ,通过它来分隔队员号码和开始区域、结束区域,这样做即使后 面的信息全部丢失,前面的数字信息也不会产生二义性。 其次,该结构将开始区域和结束区域放置于一条代码的最后,而把动作、技术细节 和效果放在区域的前面,根据人的观察习惯,这种结构会带来一定的不适应性。因为作 为记录员在记录比赛的时候,首先通过视觉反应给大脑的都是关于球场上面的直观信 息,首先是几号队员被选为记录目标,其次是他的动作是从几号区域开始到达几号区 域,当这些直观的信息都被记录完毕之后,间接的信息才被记录,就是记录员根据经验 所判断的:这名队员所完成的动作、所使用的技术以及动作的效果。如果按照这种结构 来记录,在信息量比较大、变化速率又比较快的情况下难免造成手忙脚乱的情况。 本课题所设计的脚本描述语言的结构避免了这一闯题的产生,本课题所采用的脚本 描述语言的结构符合人的观察习惯,将需要直观记录的信息都放置在一条代码的前面记 1 2 北方工业大学硕士学位论文 录,并通过分隔符号来避免二义性,而将需要通过经验来判断的信息放在后面,即最大 程度的保留了一条代码的完整性,又提高了记录的效率。 单独代码记录全部信息的格式语法举例: 1 2 1 6 f t g 主队1 2 号队员在1 号区域发高球到对方的6 号区域直接得分。 6 4 4 2 9 k 6 客队1 4 号队员在4 号区域扣球强攻到对方的2 号区域直接得分。 6 7 0 9 k s 主队6 号队员在7 号位置后排进攻扣球出界。 单独代码省略技术细节信息: 1 2 1 6 f 6 由于细节信息的代码和效果代码没有重复,因此不会出现二义性的现象。 能够被解析器准确解析。 单独代码省略区域信息: d a t av o l l e y b a l l 也是这样做的。在记录员的速度不够快的时候可以不用记录区域 信息。但是不同的是,在d a t av o l l e y b a l l 中如果区域信息不被记录,在数据库中相关 记录为空,但是在基于模式的脚本描述语言中,如果该信息不被记录,则使用推算信息 作为默认值。 推算原理见脚本解析器简介。 下面介绍技术模式代码: 标准格式:队员号码开始区域结束区域队员号码开始区域结束区域 技术模式技术效果。 其中,开始区域和结束区域只有最后一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论