数据挖掘技术在婴幼儿营养状况评估中的应用研究-无锡班.doc_第1页
数据挖掘技术在婴幼儿营养状况评估中的应用研究-无锡班.doc_第2页
数据挖掘技术在婴幼儿营养状况评估中的应用研究-无锡班.doc_第3页
数据挖掘技术在婴幼儿营养状况评估中的应用研究-无锡班.doc_第4页
数据挖掘技术在婴幼儿营养状况评估中的应用研究-无锡班.doc_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术在婴幼儿营养状况评估中的应用研究声 明创新性声明 我们所呈交的论文是我们小组所有成员在代课老师指导下进行的研究成果。除了文中特别加以标注的内容以外,论文中不包含其他人已经发表或撰写过的研究成果。 签名: 日期 :摘 要本文将数据挖掘理论中的聚类分析方法应用到婴幼儿营养状况评估中,论述了聚类分析理论指导下的简化营养状况测量指标的方法。将常用的测量指标分组,进行层次分解,采用凝聚的方法,去除相关性较强的测量指标,从而达到简化测量指标的目的。最后通过采样实验,对挖掘结果进行了论证,并在采样实验的指导下修正了挖掘结果,从而得到实用可靠的简化测量指标。关键词:数据挖掘,微量元素,聚类分析AbstractIn this paper the method of clustering in data mining theory is applied to the evaluation of babys nutrition. It is discussed that predigest the method of evaluate babys nutrition. The process of predigest the evaluate method is cluster the index of measurements, decompose the layer, use the method of agglomerate, wide of tight correlation index. Finally we sample the experiment results and demonstrate the mining results, modify the result by use the sample experiments in succession. Now the practicality, credibility and simple measurements index is gained.Keywords: data mining, clustering, nutrition evaluation,cluster analysis34目 录数据挖掘技术在婴幼儿营养状况评估中的应用研究1声 明2摘 要2目 录3第一章 绪论41.1微量元素对人体的重要性41.2婴幼儿营养状况评估的研究意义51.3 国内外相关研究发展现状61.3.1传统的微量元素检测的方法71.3.2原子吸收光谱分析法的介绍71.3.3微量元素检测的质量控制101.3.4TH-AAS的技术特长111.4 本文的主要研究工作和目的11第二章 理论基础132.1 数据预处理132.1.1数据预处理重要性132.2关联挖掘142.2.1 Apriori算法152.2.2 关联规则152.3 聚类分析162.3 层次聚类方法16第三章 婴幼儿营养状况评估方案的数据挖掘实例模型183.1、工具介绍183.2、原始数据说明193.3、用到的数据挖掘理论知识193.4、具体实施步骤203.5、对挖掘结果的修正25第四章 总结33参考文献34第一章 绪论1.1微量元素对人体的重要性世间万物乃至人体内最复杂、最敏感的高级生命物质,都是由元素组成的。人体是由40多种元素构成的,根据元素在体内含量不同,可将体内元素分为两类:其一为常量元素,占体重的99.9%,包括碳、氢、氧、磷、硫、钙、钾、镁、钠、氯等10种,它们构成机体组织,并在体内起电解质作用;其二为微量元素,占体重的0.05%左右,包括铁、铜、锌、钴、锰、铬、硒、碘、镍、氟、钼、钒、锡、硅、锶、硼、铷、砷等18种。微量元素与人类健康有密切关系。它们的摄入过量、不足、或缺乏都会不同程度地引起人体生理的异常或发生疾病。微量元素最突出的作用是与生命活力密切相关,仅仅像火柴头那样大小或更少的量就能发挥巨大的生理作用。值得注意的是这些微量元素必须直接或间接由土壤供给。而每种微量元素都有其特殊的生理功能。尽管它们在人体内含量极小,但它们对维持人体中的一些决定性的新陈代谢却是十分必要的。一旦缺少了这些必需的微量元素,人体就会出现疾病,甚至危及生命。国外曾有报道:机体内含铁、铜、锌总量减少,均可减弱免疫机制(抵抗疾病力量),降低抗病能力,助长细菌感染,而且感染后的死亡率亦较高。微量元素在抗病、防癌、延年益寿等方面都还起着不可忽视的作用。几种微量元素在人体中的主要功能有:铁:铁是人体需要量最多的微量元素,27%的铁组成血红蛋白,3%的铁组成肌红蛋白,0.2%的铁构成多种含铁酶。血红蛋白能将氧气送至全身组织,肌红蛋白和氧的结合力很强,能储备部分氧气,在骨骼肌缺氧时可以释放这部分氧。每日铁需要量为1018毫克,如果供给不足,可以发生缺铁性贫血。 锌:锌是仅次于铁的需要量较大的微量元素,是200多种含锌酶的组成成分,也是酶的激活剂,在核酸代谢和蛋白质合成中发挥重要作用。婴儿每天需锌量为35毫克,110岁儿童每天需锌量为10毫克。婴幼儿锌供给不足,影响生长和智力发育,也影响味觉和免疫功能,缺锌是厌食症的主要原因。 碘:碘能调节体内热能代谢,是构成甲状腺素的重要成分。婴儿每天需碘量为0.0450.15毫克。若碘不足会影响小儿生长发育,引起克汀病或地方性甲状腺肿;如果摄入过多,也可发生碘中毒。钙: 钙离子约99%构成骨盐,分布在骨骼和牙齿中,约1%分布在体液中。对于心脏的正常搏动,血液的凝固、肌肉和神经正常兴奋性的传导、适宜感应性的维持、以及对细胞膜的渗透性、许多种酶的激活,均有重要作用。铜:铜在人体内含量很少,是组成体内多种金属酶的重要成分,主要功能是促进铁构成血红蛋白,也是许多氧化酶的辅助因素。人体缺铜时,可发生贫血、中性粒细胞减少、生长缓慢和情绪不稳。硒:硒参与体内谷胱甘肽过氧化酶的代谢过程,是人体的肌代谢不可缺少的微量元素。缺硒时容易发生克山病。镁:镁是构成人体内多种酶的重要来源。镁尽管在人体中的含量微乎其微,可缺乏镁元素人们就会精神疲惫、面黄肌瘦、皮肤粗糙,甚至情绪不稳定,面部、四肢肌肉颤抖。铅:铅是一种严重的环境毒和神经毒。据研究,随着环境污染的加剧,每人每天从空气、水和食物中吸收大约20至40微克的铅,铅在体内长期积累而不易排出,损伤神经系统和造血系统。随着社会工业化的发展及人们生活方式的改变,人体内微量元素的平衡也受到影响并导致许多疾病,如婴儿母乳喂养不足引起某些微量元素缺乏使婴儿生长发育异常并易患疾病;食物加工的过于精细会丢失某些微量元素从而导致饮食中微量元素的缺乏;饮食的过于单调使体内微量元素失衡引起疾病;而由于铝制品炊具的广泛应用使人体内铝元素的过多及其它微量元素的失衡可引起老年性痴呆等等。此外,在人体的新陈代谢过程中,每天都有一定数量的矿物质通过粪便、尿液、汗液、头发等途径排出体外,因此必须通过饮食予以补充。由此看来,虽然微量元素在人体中的含量很少,但作用却不可替代,它们参与体内各种酶或激素的合成,调节人体的各项生理功能。1.2婴幼儿营养状况评估的研究意义随着现代科技飞速发展,在医学微量元素学领域的研究受到世界各国的重视1。近几年,国内外大量的研究结果显示微量元素与人体的生长发育密切相关2。铁参与血红蛋白的合成,铁缺乏可引起大脑组织的改变,导致行为改变,注意力不集中,甚至神经系统障碍;钙是骨骼的主要成分,在细胞水平上促进神经介质释放,维持神经系统正常传导功能;锌促进机体生长发育,促进核酸及蛋白质的生物合成,影响生长激素的合成与释放,促使正常免疫功能;铜参与细胞呼吸,催化血红蛋白合成及胶原、弹性蛋白的合成,维护中枢神经系统发育;铅是神经毒性的重金属元素,对中枢神经系统和周围神经系统有明显的损害作用。然而,婴幼儿的发育除了受遗传因素和环境因素的影响之外,还有语言、抚养方式、教育及营养等因素的影响,而营养是大脑发育的物质基础。已经证实,微量元素在婴幼儿生长发育过程中同样具有重要的生理功能:(1) 参与机体内酶的构成与激活。(2) 构成体内重要的载体及电子传递系统。(3) 参与激活维生素的合成,影响内分泌系统的功能。(4) 清除体内过多的自由基。微量元素的缺乏或超标可导致婴幼儿生长发育迟滞、神经发育障碍和智能低下,并引起多器官功能障碍等。比如,缺铁会引起婴幼儿贫血和影响体格发育,甚至还可影响智力发育。缺锌将出现食欲减退、生长停滞、贫血、创伤愈合不良、皮炎、智力减退等症状。缺碘可引起甲状腺功能不足,使婴幼儿生长发育迟缓,智力低下。缺氟会使骨骼脱钙、骨质疏松、骨极痛、畸形,出现氟骨症;同时牙齿也受损,牙齿失去光泽或变色,发脆易于折断和磨损。总而言之,微量元素对婴幼儿的生长发育起到了举足轻重的作用。何况,近几年在国内频频出现假奶粉的新闻报道,造成了大片地区的婴幼儿营养不良,因此对婴幼儿营养状况的检测逐渐变成了每个家庭乃至国家所关心的头等大事。所以说,对婴幼儿营养状况评估的研究已是迫在眉睫的事情,具有极其重要的意义。1.3 国内外相关研究发展现状微量元素被认为是关系到人类健康和长寿的一个充满希望的新领域,已引起国内外营养界和医学界的普遍重视。而准确检测微量元素在人体中的含量是任何理论研究与临床应用的前提和基础,如果没有准确地检测,根本谈不上研究与应用。随着医疗水平的不断提高,微量元素与人体健康的关系得到了充分的认识,人们更加关心如何补充微量元素,如何排除有害元素。微量元素在人体内是一个平衡过程,微量元素的缺乏和过量都会对人体产生不良影响。下面就国内外微量元素检测的方法学做一介绍:1.3.1传统的微量元素检测的方法目前传统的可用于人体微量元素检测的方法有:同位素稀释质谱法、分子光谱法、原子发射光谱法、原子吸收光谱法、X射线荧光光谱分析法、中子活化分析法、生化法、电化学分析法等。但在临床医学上广泛应用的方法主要为生化法、电化学分析法、原子吸收光谱法这几种。下面简单介绍一下生化法、电化学分析法这两种检验方法的主要特点:1 生化法(锌原卟啉法、双硫腙法、其它比色法等):l 用血量较大l 需要前处理,操作复杂,澄清血清耗时长l 检测血清,而血清受近期饮食等因素影响极大,从而缺乏客观准确性l 试剂成本较高l 检测元素种类受限制l灵敏度达不到临床检测的要求l重复性差2 电化学分析法:l 仪器价格较低l 可以用于痕量的测量,但误差较大l 测定多种元素时,重复性差l 对环境和实验人员污染严重l 很难将保养到最佳条件l 前处理极其繁杂耗时l 整个实验很难控制,结果非常不稳定1.3.2原子吸收光谱分析法的介绍所谓原子吸收光谱法(Atomic Absorption Spectroscopy ) 又称为原子吸收分光光度法,通常简称原子吸收法(AAS),其基本原理为:从空心阴极灯或光源中发射出一束特定波长的入射光,在原子化器中待测元素的基态原子蒸汽对其产生吸收,未被吸收的部分透射过去。通过测定吸收特定波长的光量大小,来求出待测元素的含量。原子吸收光谱分析法的定量关系可用郎伯-比耳定律,A-abc来表示。a式中,A是吸收度,a是吸光系数,b是吸收池光路长度,c是被测样品浓度。该法具有灵敏度高、精确高;选择性好、干扰少;速度快,易于实现自动化;可测元素多、范围广;结构简单、成本低等特点,也正因为如此,该法的发展也相当迅速。1955年,原子吸收光谱法诞生后,因其强大的生命力,迅速应用于分析化学的各个领域,国内大规模的应用是在上世纪90年代开始,应用最广泛的是冶金、地质勘探、质检监督、环境检测、疾病控制等。原子吸收光谱分析法(AAS)在疾病控制中心更是作为“金标准”。随着临床医学的进步,最近开始应用于医疗卫生领域。原子吸收光谱分析在医学上的应用,才使得正确检测各种含量在ppm或ppb级的微量元素成为可能。目前,原子吸收光谱分析检测微量元素在临床中得到广泛的应用,各大医院均采用此方法,是彻底淘汰生化法(锌原卟啉法、双硫腙法、其它比色法等)、电化学法的首选方法。1 原子吸收光谱仪的发展进程原子吸收光谱分析法(AAS)所使用的仪器为原子吸收光谱仪或原子吸收分光光度计。目前国内所见到的原子吸收光谱仪按照技术发展的水平,大致可分为三代:第一代:单火焰原子吸收光谱仪(日立的Z500、 沈分厂的WYX-9004、华洋的AA2610、博晖的BH5100)第二代:火焰原子吸收光谱仪+外置石墨炉(日立的Z180-80、兴科天合公司的TH-AAS-、博晖的BH2100)第三代:一体化的火焰+内置石墨炉原子吸收光谱仪(此为当前的主流产品,国际上的所有的大公司和国内的少数公司掌握此技术。(代表:日立公司的Z5000,岛津公司的AA6800、PE公司的AA800、兴科天合公司的TH-AAS-、热电公司的solaar S等)原子吸收光谱仪按照原子化的方式不同可分为火焰原子吸收和石墨炉原子吸收,石墨炉原子吸收需要瞬间大电流,所以对系统的抗干扰等技术要求较高,为防止石墨炉对整个系统的影响,第二代原子吸收光谱仪采用了外置石墨炉。随着科技的发展,世界上各大厂家开始实现了完全整体化设计,将全部分光检测系统、火焰、石墨炉和加热电热的所有部件集成于同一仪器主体中,并实现火焰和石墨炉的自由转换,兴科天合公司和世界同步,具有自主知识产权的TH-AAS系列原子吸收光谱仪采用了最新的电路设计和制造,彻底实现了火焰、石墨炉一体化。2 关于火焰原子吸收多元素测定的技术,主要有两类:顺序多元素测定:如美国VARIAN 公司的Spectr AA220FS等同时多元素测定:从技术上看要实现火焰AAS多元素比较容易,但实现石墨炉AAS多元素测定比较困难,因此国外的厂商主要在此寻求突破,如日立的Z9000、PE的SIMAA6000。多元素同时测定技术的发展为AAS仪器技术的发展带来了改进,但是由于较大幅度的提高了仪器成本,在实际应用中需要寻求折中条件,由于AAS法各元素的测量动力学范围比较窄,一般只有两个数量级,而且多元素灯的发光强度一般都较单元素灯弱,当同一样品中要测定的各元素浓度范围差异较大时,为保证测试的灵敏度,则很难同时测量。因火焰原子吸收法检测元素速度较快,所以在临床检测时,应用火焰原子吸收法同时多元素测定并无实际意义。应用石墨炉原子吸收检测血铅时,为提高工作效率,可使用自动进样器。3 关于石墨管的技术在石墨炉原子吸收中,石墨管的技术的好坏直接影响了测试的灵敏度和重复性以及石墨管的使用寿命,各厂家在此做了许多的技术改进,如镀钯、镀铑、锥型、平台、锥型、衬钽、钨舟、浸酸等。需要注意的是所谓“钨舟”并不是什么新技术。目前使用最为广泛的是热解石墨管(PGT),它具有很好的耐氧化性能,升华温度高,可达3700C;它还具有良好的惰性,因而不易与高温元素(如V、Ti、Mo等)形成碳化物而影响原子化;它还具有较好的机械强度,使用寿命明显地优于其他石墨管,可使用2000次以上。1.3.3微量元素检测的质量控制因为血铅等微量元素检测属微量分析范畴,而且微量元素在自然界普遍存在,任何细微的内、外界因素都可能影响其结果的可靠性,所以质量控制在微量元素分析过程中非常重要。质量控制包括分析前的质量管理、分析时的质量管理及统计质量控制。而现在一些实验人员往往忽视了理论学习和分析前的质量管理,迷信厂家夸大其词的宣传,片面追求简便快速,直接采取末梢血来检测,而这又是分析过程中的质量控制手段所无法控制的,得到结果就偏差巨大。(例如:轰动全国的河南安阳妇幼保健院用北京公司提供的血铅检测仪检测当地儿童血铅事件,最后医院巨额赔偿,领导撤职)医院在开展微量元素检测工作时应该注意以下问题:l了解相关的法律、法规,采用国家标准的仪器和实验方法。随着医保制度改革的进行和新的医疗事故处理条例的颁布实施,医院在给患者提供医疗服务时,一定要注意标准化和规范化。关于血铅检测,国家卫生部在2000年就实行了标准化。(WS/T 174-1999)l实验人员要具备相应的理论。l不要检测头发。虽然头发微量元素测定具有标本收集、输送方便,适用与任何年龄的儿童等的优点。但是头发是人体末端,代谢活动低,只能反映某一时间段的变化情况,而不能反映近期变化。现代社会各种污染随处存在,头发裸露在外,受到人体所到过的各种环境污染,在目前,尚没有任何一种标本预处理的方法能区别头发中的微量元素是内源性的还是外源性的。此外,不同部位的头发中微量元素的含量也不一样,头发微量元素水平还与性别、皮肤颜色深浅、洗发的经常性、头发的处理(染、烫,等)等许多不易控制的因素有关。测试结果离散性大。因此,目前不认为头发中的微量元素对反应体内的微量元素含量有任何实用价值。l采样时要防污染。既往将耳垂和指尖取血称毛细管采血,实为小动脉、毛细管和小静脉血及组织液的混合,国外文献都改称“皮肤针刺血”(Skin Puncture Blood)。耳垂和指尖采血的差异已为临床所熟知,我国逐步摒弃耳垂采血。目前,各仪器厂家在技术上都可以实现微量血检测,可是卫生部的标准要求在采样时还是要采静脉血,这样做有如下优点:尽可能防止皮肤表面污染和组织液渗入测试结果异常可及时复查符合卫生部的标准,避免医疗纠纷。采血时要彻底清洁静脉穿刺部位的皮肤,使用无铅注射器、试管、抗凝剂等;采血后要充分混匀、完全抗凝等。1.3.4TH-AAS的技术特长l第三代原子吸收光谱仪,一体化的火焰+内置石墨炉,自由切换,和世界领先水平同步,一台设备即可检测血中铅、锌、铜、钙、镁、铁等元素l符合国家标准,保证结果的可比性l专用试剂,省去繁杂的样品的前处理过程,消除污染l快速、简便,只需将微量血加入试剂中,即可上机l取样少、准确性好,真正实现微量血测试铅、铜、锌、钙、镁、铁等元素l强大的扩展能力,无需任何改造即可检测50多种元素兴科天合公司不但提供了先进的仪器和试剂,还建立了一套完整的微量元素检测的方案。其中包括理论培训、仪器、试剂、校准品、操作程序、质量控制、保养计划和学术交流等各个方面,这样才能更好地为临床微量元素检测提供有力的支持。1.4 本文的主要研究工作和目的目前我国的各级医疗保健单位,尤其是妇幼保健单位、儿童医院、综合医院等,已经将人体元素(铅、锌、铜、钙、镁、铁等)检测作为常规项目。虽然从20世纪70年代就开始了微量元素研究,但它毕竟是一个新兴学科,检测微量元素的手段还比较陈旧和落后,无论从采样到测试前处理到测试直到结果分析都需专业人士来操作,步骤相当复杂,污染严重,且出结果时间长。这也正是医院在人体微量元素检测方面无法普及的重要原因之一。如何选择一种适合的仪器,是医院管理者在采购过程中面临的首要问题。出于对病人健康的高度责任感和可能出现医患纠纷的自我保护,选择一种能够准确而且规范的测量仪器最为重要;其次应考虑操作流程简便性、设备使用安全性和稳定性;还要考虑受检者经济承担能力和受影响程度,满足其希望能够又准又快又便宜地完成检测的要求;最后,也要考虑到仪器利用率高,保证投资收益。因此如何准确快速、方便地检测人体微量元素含量就成为医务工作者亟须解决的课题。因此,为了从另外一个角度来解决这一棘手的问题,本文的主要研究工作就是通过聚类分析法对2004年某地区10029名儿童血液中微量元素(ug/100ml)与血红蛋白(g/100ml)测定数据进行数据挖掘。希望通过聚类分析筛选出代表性指标,以便更经济、快捷的评价儿童的营养状态。第二章 理论基础2.1 数据预处理数据预处理是数据挖掘(知识发现)过程中的一个重要步骤,尤其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的。2.1.1数据预处理重要性数据预处理是数据挖掘(知识发现)过程中的一个重要步骤,尤其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的。由于数据库系统所获数据量的迅速膨胀(已达G或T数量级),从而导致了现实世界数据库中常常包含许多含有噪声、不完整、甚至是不一致的数据。显然对数据挖掘所涉及的数据对象必须进行预处理。数据预处理主要包括:数据清洗(data cleaning)、数据集成(data integration)、数据转换(data trandformation)和数据消减(data reduction)。数据清洗处理例程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解决不一致问题。对于遗漏数据的处理有以下方案:忽略该条记录,手工填补遗漏值,利用缺省值填补遗漏值,利用均值填补遗漏值,利用同类别均值填补遗漏值,利用最可能的值填补遗漏值,我们采取的方法是忽略该条记录,因为我们有充足的完整数据。数据集成就是将来自多个数据源(如:数据库、文件等)数据合并到一起。数据转换主要是对数据进行规格化操作。 数据消减的目的就是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果。这里需要强调的是以上所提及的各种数据预处理方法,并不是相互独立的,而是相互关联的。如:消除数据冗余既可以看成是一种形式的数据清洗,也可以认为是一种数据消减。由于现实世界数据常常是含有噪声、不完全的和不一致的,数据预处理能够帮助改善数据的质量,进而帮助提高数据挖掘进程的有效性和准确性。高质量的决策来自高质量的数据。因此数据预处理是整个数据挖掘与知识发现过程中一个重要步骤。2.2关联挖掘关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越有兴趣。挖掘关联规则主要包含以下二个步骤:步骤一:发现所有的频繁项集,根据定义,这些项集的频度至少应等于(预先设置的)最小支持频度;步骤二:根据所获得的频繁项集,产生相应的强关联规则。根据定义这些规则必须满足最小信任度阈值。此外还可利用有趣性度量标准来帮助挖掘有价值的关联规则知识。由于步骤二中的相应操作极为简单,因此挖掘关联规则的整个性能就是由步骤一中的操作处理所决定。有许多不同类型的关联规则知识挖掘,可以根据以下标准对这些关联规则挖掘方法进行分类:(1)根据关联规则所处理的具体值来进行分类划分若一个规则仅描述数据项是否在出现这种情况间的联系,那这种关联规则就是一个布尔关联规则。若一个规则描述的是定量数据项(或属性)之间的关系,那它就是一个定量关联规则。在这些规则中,数据项(或属性)的定量数值可以划分为区间范围。(2)根据规则中数据的维数来进行分类划分若一个关联规则中的项(或属性)仅涉及一个维,那它就是一个单维关联规则。(3)根据规则描述内容所涉及的抽象层次来进行分类划分(4)根据关联规则所涉及的关联特性来进行分类划分2.2.1 Apriori算法这一节介绍单维单层次布尔关联规则的挖掘方法:Apriori算法Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法;它也是一个很有影响的关联规则挖掘算法。Apriori算法就是根据有关频繁项集特性的先验知识而命名的。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生. (k+1)项集。具体做法就是:首先找出频繁1 -项集,记为L1;然后利用L1来挖掘L2,即频繁2 -项集;不断如此循环下去直到无法发现更多的频繁k-项集为止。每挖掘一层Lk就需要扫描整个数据库一遍。为提高按层次搜索并产生相应频繁项集的处理效率。Apriori算法利用了一个重要性质,又称为Apriori性质来帮助有效缩小频繁项集的搜索空间。2.2.2 关联规则在从数据库_中挖掘出所有的频繁项集后,就可以较为容易获得相应的关联规则。也就是要产生满足最小支持度和最小信任度的强关联规则,可以利用公式来计算所获关联规则的信任度。这里的条件概率是利用项集的支持频度来计算的。规则的操作说明如下:(1) 对于每个频繁项集l产生_的所有非空子集;(2) 对于每个_的非空子集s,若则 产生一个关联规则;其中min_conf为最小信任度阈值。由于规则是通过频繁项集直接产生的,因此关联规则所涉及的所有项集均满足最小支持度阈值。频繁项集及其支持频度可以存储在哈希表中以便它们能够被快速存取。2.3 聚类分析聚类(clustering)是一个将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。相似或不相似的描述是基于数据描述属性的取值来确定的。通常就是利用(各对象间)距离来进行表示的。在研究论文中有许多聚类算法,需要根据应用所涉及的数据类型、聚类的目的以及具体应用要求来选择合适的聚类算法。我们所采取的聚类分析算法是:划分方法。给定一个包含n个对象或数据行,划分方法将数据集划分为k个子集(划分)。其中每个子集均代表一个聚类(kn)。也就是说将数据分为k组,这些组满足以下要求:(a)每组至少应包含一个对象;且(b)每个对象必须只能属于某一组。给定需要划分的个数k,一个划分方法创建一个初始划分;然后利用循环再定位技术,即通过移动不同划分(组)中的对象来改变划分内容。一个好的划分衡量标准通常就是同一个组中的对象“相近”或彼此相关;而不同组中的对象“较远”或彼此不同。当然还有许多其它判断划分质量的衡量标准。为获得基于划分聚类分析的全局最优结果就需要穷举所有可能的对象划分。为此大多数应用采用一至二种常用启发方法:(a)k-means 算法,该算法中的每一个聚类均用相应聚类中对象的均值来表示;和(b)k-medoids算法,该算法中的每一个聚类均用相应聚类中离聚类中心最近的对象来表示。这些启发聚类方法在分析中小规模数据集以发现圆形或球状聚类时工作的很好。但为了使划分算法能够分析处理大规模数据集或复杂数据类型,就需要对其进行扩展。2.3 层次聚类方法有两种基本层次聚类方法:(1) 自下而上聚合层次聚类方法。这种自下而上策略就是最初将每个对象(自身)作为一个聚类;然后将这些原子聚类进行聚合以构造越来越大的聚类,直到所有对象均聚合为一个聚类,或满足一定终止条件为止。大多数层次聚类方法都属于这类方法,但它们在聚类内部对象间距离定义描述方面有所不同。(2) 自顶而下分解层次聚类方法。这种自顶而下策略的作法与自下而上策略做法相反。它首先将所有对象看成一个聚类的内容;将其不断分解以使其变成越来越小但个数越来越多的小聚类,直到所有对象均独自构成一个聚类,或满足一定终止条件为止。2.3.1 BIRCH方法BIRCH方法是一个集成的层次聚类方法。它包含两个重要概念:聚类特征(简称CF)和聚类特征树(CF tree)。这两个概念用于对聚类描述进行概要总结。相应的有关数据结构将帮助聚类方法获得较好的聚类速度和可对大数据库进行处理的可扩展性。此外BIRCH方法在进行增量和动态聚类时也是很有效的。 聚类特征(CF)是有关对象子集概要信息的一个三元组。设一个子聚类(subcluster)包含N个d维数据或对象Oi ,那么这个子聚类的CF就定义为:聚类特征基本上就是对给定子聚类统计信息的总结。它包含了聚类计算和空间存储利用所需要的关键信息。CF树是一个高度平衡树,它存有用于层次聚类的聚类特征。如图所示就是一个CF树示意描述。根据定义CF树中非叶结点存放其子女结点的CF值。一个CF树有两个主要参数:分支系数% 和阈值0。分支系数% 指定了每个非叶结点的最大子女数;而阈值0 则指定了存放在叶节点中子聚类的最大直径。这两个参数影响所获CF树的大小。BIRCH方法工作主要包括两个阶段:第一阶段:BIRCH方法扫描数据库以建立一个初始基于内存的CF树,该树可以看成是对数据的压缩且还保留着数据中所包含的有关聚类结构的内涵。第二阶段:BIRCH方法应用一个(所选择)的聚类算法对CF树的叶结点进行聚类。在构造完CF树后,(第二阶段)可利用任何聚类算法,主要是划分聚类方法,对所获得的CF树进行聚类分析第三章 婴幼儿营养状况评估方案的数据挖掘实例模型3.1、工具介绍我们使用工具是SPSS(Statistics Package for Social Science)。它是目前世界上最优秀的统计分析软件之一。SPSS已广泛应用于自然科学和社会科学中,涉及的领域包括工程技术、应用数学、经济学、商业、金融、生物学、医疗卫生、体育、心理学、农林等等甚至可以毫不夸张地说只要有需要对各种数据进行统计分析的地方就有SPSS的用武之地。SPSS提供的统计分析方法有如下几个方面:(1) 基础统计分析a) 描述性统计b) 列联表分析c) 各种简单的方差分析d) 回归分析e) 相关分析f) t检验g) 非参数检验(2)专业统计分析a) 因子分析b) 聚类分析c) 距离分析(2) 高级分析a) 多变量方差分析b) 重复测量方差分析c) 多协变量方差分析d) 非线性回归分析e) 曲线估计f) Logistic 回归分析g) 概率单位回归分析h) Cox 模型回归分析3.2、原始数据说明我们的原始数据是2004年某地区10029名儿童血液中血红蛋白(g/100ml)与微量元素(ug/100ml)测定数据。由于微量元素的测定成本高、耗时长,故希望通过聚类分析筛选出代表性指标,以便更经济、快捷的评价儿童的营养状态。3.3、用到的数据挖掘理论知识我们运用数据挖掘中聚类分析的知识,对原始数据进行挖掘。希望对原始数据中的几个测量指标进行分组,使得同一个组内指标之间具有较高的相似度,而不同组内指标差别较大。根据原始数据的类型以及应用目的,我们选择层次方法。对原始数据进行层次分解,采用凝聚的方法,开始时将每个对象作为单独的一个组,然后相继的合并相近的对象和组,直到所有的组合并为一个,或是达到一个中止条件。3.4、具体实施步骤建立数据文件,将原始数据输入工具中。在工具中选择层次聚类分析方法对原始数据进行分析。(AnalyzeClassifyHierarchical Cluster)弹出Hierarchical Cluster Analysis对话框(如图所示)。选择Method,弹出Hierarchical Cluster Analysis:Method对话框(如图所示)。在对话框中根据需要指定聚类方法、距离测度的方法、对数值进行转换方法,即标准化数值的方法何对测度的转换方法。系统提供了7种聚类方法供用户选择:a) Between-groups linkage:类间平均连锁法。合并两类的结果使所有的两两项对之间的平均距离最小。项对的两个成员分别属于不同的类。该方法中使用的是各对之间的距离,即非最大距离,也非最小距离。b) Within-groups linkage:类内平均连锁法。若当两类合并为一类后,合并后的类中的所有项之间的平均距离最小。两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方。c) Nearest neighbor:最近邻居法。该方法首先合并最近的或最相似的两项,用两类间最近点间的距离代表两类间的距离。d) Furthest neighbor:最远邻居法。用两类之间最远点的距离代表两类之间的距离。也称之为完全连接法。e) Centroid clustering:重心法,应与欧氏距离平方法一起使用,像计算所有各项均值之间的聚类那样计算两类之间的距离。该距离随聚类的进行不断减小。f) Median clustering:中间距离法,应与欧氏距离平方法一起使用。g) Wards method:离差平方和法,应与欧氏距离平方法一起使用。在Measure栏中指定距离的测度方法,用两点间的距离来决定是否合并两类。距离的具体计算方法还和变量的类型有关,工具提供3种变量类型:(1)等间隔测度的变量(一般为连续变量);(2)计数变量(一般为离散变量);(3)二值变量。我们这个系统中选择的是连续变量,针对这种类型的变量,工具提供了8种距离测量技术:a) Euclidean(欧几里得) distance:两观察单位间的距离为其值差的平方和的平方根,该技术用于Q型聚类。b) Squared Euclidean distance:两观察单位间的距离为其值差的平方和,该技术用于Q型聚类。c) Cosine:变量矢量的余弦,这是模型相似性的度量。d) Pearson correlation:相关系数距离,适用于R型聚类(对研究对象的观察指标进行分类)。e) Chebychev:两观察单位间得距离为其任意变量的最大绝对差值,该技术用于Q型聚类。f) Block:曼哈坦距离,即两观察单位间得距离为其值差的绝对值和,使用于Q型聚类。g) Minkowski(明考斯基):变量绝对值的第p次幂之和的平方根,p由用户指定。h) Customized:变量绝对值的第p次幂之和的第r次根,p和r由用户指定。通过SPSS工具对数据进行层次聚类分析的结果如下:计算出原始数据各个测定指标之间的欧氏相关系数平方矩阵,如下表所示:Case1钙2镁3铁4锰5铜6血红蛋白1钙0.0000.9990.9980.5430.9260.9762镁0.9990.0000.9980.5430.9260.9793铁0.9980.9980.0000.5390.9240.9824锰0.5430.5430.5390.0000.4570.5085铜0.9260.9260.9240.4570.0000.9036血红蛋白0.9760.9790.9820.5080.9030.000根据各变量之间的相关系数进行类间平均锁链法的合并。第一步、将钙和镁合并,它们之间的相关系数最大,为0.999;第二步、将铁和第一步合并项进行合并,它们之间的相关系数为(0.9980.998)/20.998;第三步、将血红蛋白和第二步合并项进行合并,它们之间的相关系数为(0.976+0.979+0.982)/30.979;第四步、将铜和第三步合并项进行合并,它们之间的相关系数为(0.926+0.926+0.924+0.903)/40.920;第五步、将锰和第四步合并项进行合并,它们之间相关系数最小,为(0.543+0.543+0.539+0.457+0.508)/50.518。整个凝聚过程如下图所示:Cluster CombinedCoefficientsStage Cluster First AppearsStageCluster 1Cluster 2Cluster 1Cluster 2Next Stage11钙2镁0.99900221钙3铁0.99810331钙6血红蛋白0.97920441钙5铜0.92030551钙4锰0.518400使用更为直观的聚类树状关系图表示:由图可见钙、镁、铁、血红蛋白和铜先聚合后再与锰聚合,钙、镁、铁、血红蛋白和铜之间的相关系数较大,这表明,在评价儿童营养状态时,可在微量元素钙、镁、铁、铜和血红蛋白5个指标中选择任意一个,再加上微量元素锰即可,其效果和六个指标都测定效果基本是等价的,但是更加经济快捷。3.5、对挖掘结果的修正我们已经通过工具对原始数据的初步分析,得出了一些有价值的结论,挖掘出一些非常有价值的信息。下一步我们将把我们得出的结论和使用实际的营养状况评价指标测量的结果相比较,验证使用我们得出的简化的测定指标的测量结果和实际的结果是否一致,如果发现有偏差,我们将分析原因,改进我们的方法,修正我们的结果,最终得出与实际相符,简单实用的测定指标。我们通过挖掘得出这样的结论,即在评价儿童营养状态时,可在微量元素钙、镁、铁、铜和血红蛋白5个指标中选择任意一个,再加上微量元素锰即可,其效果和六个指标都测定效果基本是等价的。为了验证我们得出结论的正确性,我们考虑通过采样实验来证明。具体的做法是:(1) 选取钙和锰作为测量指标;(2) 统计钙的测量值在前50位和后50位的被测儿童,查看对应的镁、铁、铜和血红蛋白测量值是否和钙测量值的变化趋势相似;(3) 再查看对应的锰测量值和钙测量值之间的变化趋势(4) 得出结论。通过对测量数据的统计,我们得到各个微量元素的测量结果的分布范围:钙镁铁锰铜血红蛋白最小值43.6725.43258.940.000.597.00最大值86.9052.90469.800.901.9014.25平均值65.28539.165364.370.451.24510.625最小阀值49.0728.86285.300.110.757.91最大阀值81.5049.47443.440.791.7413.34最大值最小值平均值最大阀值最小阀值011/21/41/83/85/83/47/8我们对微量元素钙的测量结果进行统计,分别找出排在前50位和排在后50位的被测试儿童编号,并列出其对应的其他指标的测量值。此表以钙测量值的前50位来排序,其他指标的测量值低于最大阀值的用红色表示,使用这种方法来查看是否钙的测量值高的时候,其他指标的测量值也高。前50位编号钙镁铁锰铜血红蛋白471486.9052.84469.62.641.7712.00542886.9052.84469.62.641.7712.00702286.9052.84469.63.641.7712.00971586.9052.84469.63.641.7712.00339886.7052.83469.51.641.7712.00393986.7052.83469.55.641.7712.00511486.7052.83469.55.641.7712.00580486.7052.83469.52.641.7712.00841686.7052.83469.54.641.7712.0075686.6052.83469.50.641.7712.00571686.6052.82469.50.641.7712.00861886.6052.82469.46.641.7712.00878286.5052.82469.43.641.7712.00901786.5052.82469.45.641.7712.0032386.4052.81469.37.641.7712.00112686.4052.81469.38.641.7712.00448886.4052.81469.36.641.7712.00737986.4052.81469.37.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论