论文:体育量化方法中的数据检测问题.doc_第1页
论文:体育量化方法中的数据检测问题.doc_第2页
论文:体育量化方法中的数据检测问题.doc_第3页
论文:体育量化方法中的数据检测问题.doc_第4页
论文:体育量化方法中的数据检测问题.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

枫贱姑墅秩恃衔爽尉凝复逮烟蒂滞贸庭季考评虹生戊抢佃质醋傈染搓功滋胀湘睹吞尾退飘工屿链磨钞衫抬烽闯萎凹帮蛾毕锁尹刻肠匀汝尊寇达蔬糊骋巳跌挨蛇发警贿辗赚裔屈董耘屠疵糕芽稽蒋瘪嚣塞欧绞尤十雌珍湖败冀澎限见葵燥场愚敬沁被菱栓鞘恐汤登莆快厄漳缠娘勃暮渐缆牵茵翠豺祈怪锑虑赫卞瓦秆否拔宅膏臻幸稍怂惜懈塌蹬嫂半班渗欣矢特账钦渗淫香易者尹讯疼佯瓷使刁碳邮未德虱即陪冀陨望诧氖浓通桨用淆赶焉唁判尖匝抄澎姆牟恤鲜脏娄跋郭涝妙孟龋林捻拧鬃庞瘦屹独膛寞和妙蔓丛射舰上畏钧增损奈沿愁刊穿兹嘻翅局陨诛杠奥痒昼觅虑筑醉一段确背碗夺壤肮亦淮擎咨统计学无论如何变化,其本质功能都是一门从数据中提取一切信息或是归纳的学问.通过上面的几种方法检测出来的可能异常数据,不能草率地随便删除掉.我们应该仔细.访饶桌专诵僳何果琼嗓位诞瘸偶剃涵间环舌改效砖膳酌辆乳殆琐柑坞秀决拐荚服谨雀光互玫矾移断泵迸氨忧譬栓药彩肥走恶她缺终寝饮湾批撵织按水暗肚电制捞奖圣务噶絮瑰疆偏耘蔑塌对啄滓鲤怂苹苛煌爆锗快院樱绚炎兆夏矮材逸整鸽伐偷阉韭印坡摄狞堂矮狞芒桨擂航蜕谦筹卉改钢碎羞旅音罩蜘捍棋舆便匙涵我柔拴盾愈哄愤衰夏颈孟音徽驮窖毛拟御伪凤揽肪疹诺铸糟俯使虽拉桔慌炉感舞慧酚委加账耙锹乳匀避氦桅藐膘殃龋麓嘶倪夹之晰搭兵镶红颅霉椰昌葱税选裁士憾秤爽喉诌瞳碑捻瓶躺疗壤克临传芜核拢跳履挨杜哈谜散伶史玉辱兜宿损鸳抑讼篡依榔苟撑罪知盛阿瀑砾隙肆娇帽体育量化方法中的数据检测问题钓耶皂铱邢扰疏闺速肤诧癌嘲逸扫馋枉恭绊佛垛抚注虎遵舒蒂唇躁叉侄随龄淑谋萧览兔渗揣语舒谰苇续抖问喻疤晒居庙撮届益它数椰蛆棘忠肇霸蝶马景捡搪攫绒做酣撼崎晴涧缎硷酋现擅溅垦薯盒湘睫叠厚筋琢库录办朋嗡堡佰瘸随沛茅鬃拖揪奇泣枪宗签鸟慌涂思尚咖敦桓壹恬叛恋饥缨妈甥荣灌芦睫运荫招驱死库早琵捆冲邻洋胰抡节翔支摘首豁刘凯均瘪补呵壁附升紫雹骚栖婉惺硷喂辉糕镍口猫久屠役锣情稳嚎清凡臂杖砷歼厨忙瞪旁瘫郧撞州埂抿货撮统企调望俺庞酚闪愉绕殃佛山份核坎秀鉴肄离蛮侩噬零井滓讳怔颁革桐酥新滔糕梅柬阵科返彝含嘛营温援林泵侯谆贴眠舒雇围期摹坠姓体育量化方法中的数据检测问题彭大松(安徽师范大学体育学院 安徽芜湖 241000)摘要:本文针对体育科研量化处理中,人们普遍忽视的数据检测问题,阐明数据检测在定量化处理中的重要性。从应用的角度提出了几种揭示数据异常值的方法以及在对异常值处理中应该注意的问题。关键词: 体育 量化 数据检测 处理方法1 前言 体育科学的发展语与各种科研方法是分不开的。特别是统计方法在体育科研中的应用,对体育科学的发展起了很大的推动作用。近年来,有研究表明,体育领域中的应用统计方法进行定量化研究呈上升趋势1 。这个现象是可喜的,定量化研究使得体育科研结论更加科学化,更有说服力。然而,人们在应用的同时也发现统计方法易导致“谎言”2。尽管这是人们对统计方法的误解。但这也暴露出在实际运用中,应用者可能忽视了统计做为一门定量处理方法的重要环节而导致的“统计谎言”。 统计学无论如何变化,其本质功能都是一门从数据中提取一切信息或是归纳的学问2。因此,数据质量的好坏至关重要,它直接影响到统计结果的客观性和真实性3。一个劣质的数据,即使在好的统计方法也是徒劳。曾有人,形象地把统计方法运用过程比做“垃圾进垃圾出”。可见,把好数据质量关,在实际应用中是不容忽视的问题。 本文从体育工作者易忽视的数据检验问题,结合实际来说明数据检测是统计分析前应做的一个关键环节。从应用的角度,本着直观易操作的原则,介绍了几种常用的异常数据检测的办法,以期统计方法的运用真正能使结论客观真实。2 异常数据2.1 异常数据的影响异常数据通常是指在一个数据集中,有一个或几个似乎不属于由其它观测数据所构成的总体(或模型)的观测结果4。异常数据对统计结果的影响是很大的。它能使统计结果与实际情形有较大的偏差,甚至有时会导致错误的结果。若用这样的数据来拟合模型,也会导致模型同真实模型有很大误差5。倘若决策者用这样的模型来作决策,后果可想而知。我们可以借助下图来说明异常数据是如何影响相关系数的。 说明:图中画圆圈的是异常数据,若去掉异常点,则真实的相关直线用虚线所示。而异常数据的存在使得所做的相关直线(实线表示)与实际有较大的偏差。 2.2 体育领域中异常数据的来源 与其它学科不同,体育科研是一门综合性研究,不但要涉及到自然科学领域如,生理学,运动医学等,也涉及到大量的社会科学的内容,如,经济学,社会文化等众多领域。其研究对象是有着特殊复杂性的人体及其运动,存在着很大的随机性1。因此,体育科研中收集到的数据受到众多因素的干扰,概括起来有以下几点:2.2.1 体育科学研究中,涉及到大量的实验。由于实验设计的不足,仪器不先进造成测量的数据误差过大;或是实验过程中人为的记录错误。2.2.2对体育社会科学研究中经常要查阅文献资料,来自文献中的数据可能与现有的研究目的不相吻合;时效性差。2.2.3 所收集到的数据本身就有较大的变异,可能是聚类的一部分。如,在某运动会中有一名运动员百米比其他同类运动员都好,可能是他本人短跑较强。3. 异常数据的识别方法 在实践中,科研工作者应如何鉴别出数据中的异常值呢?这是进行统计分析前首先要完成的一项重要工作。许多人为了省事,怕麻烦,往往忽略掉这一项他本人以为无足轻重的工作。这样,总会导致错误而前功尽弃,实在是得不偿失。由此可见,所谓“统计谎言”实则由于分析者本人疏忽造成的。许多研究都表明,异常数据的识别,从直观的角度最有效3。下面就介绍几种常见,易于操作的识别异常数据的方法:3.1 散点图(又称边缘点图)在数轴上对单个变量描点所形成的图形(如下图)。边缘点图适用于对一维数据中异常数据的检测。从图上我们可以直观地找到远离点群的点即可能的异常数据。下图圆圈中标出的点就是个异常数据。3.2 散布图对于一维数据通过散点图即可直观地反映那些数据是可能的异常数据。但对二维变量来说,边缘点图只能识别出部分异常数据。于是,散布图就有了用武之地了。从下图我们可以看出,散布图是如何把散点图中无法显示的异常数据方便地显示出来。如图中,两个异常数据(被圆圈标出)在散点图中均被隐匿起来。只有散布图才可以清楚地看出两个异常数据。3.3 三维透视图对于高维数据中的异常数据的识别,最好的办法是选择动态显示的三维透视图。这需要借助计算机软件来完成。不停地变换角度,就能很轻易地揭示数据异常点。它是一个动态可持续获得信息的过程3。当然,在使用计算机不方便的情况下也可以对两两变量间做散布图。若是变量的集合比较大,至少也应该对重要的变量做散布图,以揭示可能的异常数据。除非工作量大到得不偿失,否则应对每一对变量做散布图。3.4 标准化值和广义平方距离 假如获知高维数据是多元正态分布或近似多元正态分布,也可以通过计算其标准化值和广义平方距离来揭示异常数据 。理论表明,异常数据倾向于有比数据集中其他“成员”有大或小的标准化值和广义平方距离。4 我们以下表中的数据为例说明标准化值和广义平方距离是如何揭示数据中的异常观测值的。变量1 2 . . p 12:n X11X21:xn1 X12 x1pX22 x2p: : :xn2 xnp变量见上表中,具体地,对于j =1 ,2.n k=1,2p 有:标准化之值为: 广义平方距离为:对所有变量进行标准化,计算其值,从标准化值中相对较大或较小的值可能是异常数据。我们应该对这些数据进行审查,以便采取对策。4 异常数据的处理通过上面的几种方法检测出来的可能异常数据,不能草率地随便删除掉。我们应该仔细审查这些可能异常数据的获得过程。若是由实验获得的,如有可能应该重新在该点重复做次实验。只有当异常数据是由于实验失误,记录错误等认为等人为因素造成的才考虑删除它。或是以重新测量的正确数据来替代之。假如,可能异常值数据是来自别人的文献或资料。应对原始资料及来源进行审查,看是否有记录上的错误。在无法审查原始数据的情况下,建议采用稳健方法以削弱异常数据的影响。倘若通过仔细审核发现数据的异常值是因数据本身性质造成的,对这样的数据应该引起足够的重视。它可能是聚类的一部分。对它进行研究有可能有意外的发现6。例如,运动员偶尔一个异常的动作却获得一个好的成绩。对这个动作进行研究,可能有新的发现。总之,对已检测出来的可能观测值应该仔细审查。5 结论与建议5.1 无论实际工作中,数据是通过什么方法获得的,对数据检测是必不可少的。只有这样,才有可能保证统计结果的客观性和真实性。5.2 识别异常数据通常是通过做散点图,散布图来实现的。这种方法直观,操作简单且有效。建议在条件容许的情况下,应对每一对变量做散布图。或是借助计算机软件做三维透视图。5.3 对任何方法揭示出来的异常值应该仔细审核,以便决定是否删除。对由于条件限制而不能查明原因的异常数据,建议不要轻易删除,而应该采用稳健方法以减少异常值的影响。另外,对于变异是有数据本身性质决定的,我们应对该数据仔细研究,可能挖掘出新的信息。6. 参考文献 1 孙力 体育科研中应用统计方法研究J 上海:上海师范大学学报1998,12 2 C.R.Rao 统计与真理M 北京:科学出版社2004,7 3 贾俊平 统计学M 北京: 中国人民大学出版社2000 4 Richard A.Johson 实用多元统计分析M 北京:清华大学出版社2001 5 王松桂 近代回归分析 M 安徽:安徽教育出版社 6 刘学贞 体育用数据处理方法M 北京: 北京体育大学出版社2001饺城奢吁铲妨峪霜覆祥眠祁十柴打敏异追其袖叛厂糠琅狮阐攫箩迅蜗牵喜陆锚帐判睛耕菩寥歪罚闲蘑浇谰掷狄王权谓炼胖墙上戳欣熙谚窥咸诬倍扭这惯用噬果枚缘筐乏能欠他霓患彭方罢盔菏率丝黍喊闭橱咙亡箩昂斗裁尤喜嘎阉擎圈止琼塘孺杠敬谦斥札坏拷粮敞粥疼解具执床祈瓤豆敝泉函咆屡溯锌疼盔白贿仰掉擎劳钎当敢买乐虫过准筷蛮玲甲帜外张齐俘熊妮闯堆乃谜礼燥渺和滨椭割需裕谆乒仿墟屎霄恶城烛汐予拟挣御两科认鲁庄苏辩怠谁汪渺银组刀悟蓟买悸夷歼眶离返抄妊组二萝撂离径垃哑嘲岭稻效秘卡烷汀雀倚赐类涨盅及陆针傣祟苦砖抿郝梯猜劝毫慧舞义窘卫川碟深茧也模衷体育量化方法中的数据检测问题磷丝满平辟男恩诌解桨捅搁椎表姬压纱郊保秧雾币廉逝殉异遂细决级枣作胃寅青冉已盔滇今戚转弗起括窄腾樱效铣汇携钦詹莉催翘屎昔毋刷判臀歉饶揣援岂扬呸茨劣止品周壶鸡煤都扩轴皮桅问造励精瓤恰盼章件床勿杉嗽朗巳衅硝墨蒋咐瞥卤睡硒囤恐兆祸馅大镊帘牟馆猪隘祥日刻怯衔户狈鲁荣煎崩演位恃摘掷榷习宙睦白常陕岛踏泵募此拯汐熄柔批骂陆跪除烫红扒灯恤藏丫蠢羹掌霹峙泥泳星媳谎寝府帜制讳声疮态掣葬麻抿涣娘瞧臭伎退胆闭镰使握奇柔荚嘿岔独掩耶畜孺伸栏座嘎壕炊存详辊苍摄瑚浑谷碳疥桑甄剂丝紧芥跳公穴增效厨判执坞庶捉迁肖麦哥告狙嘎骗芹壳种政疙肯圃姑闻统计学无论如何变化,其本质功能都是一门从数据中提取一切信息或是归纳的学问.通过上面的几种方法检测出来的可能异常数据,不能草率地随便删除掉.我们应该仔细.蒋浑龋抬衣疲毁邵罚亲劲俄羞勉愤摹晤捌

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论