




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)健康体检数据仓库的构建及相关数据挖掘.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 随着信息化的不断发展以及人们对健康的日益重视,健康体检数据库中积累了大量 宝贵的数据,但是还没有得到充分利用。如何充分利用已有的体检数据更好的辅助医生 及管理人员为客户提供更好的医疗检查就是本文的研究重点。 首先,由于历史数据逐年增多,慈铭健康体检集团规模不断扩大,原有的数据库系 统已经无法负荷急剧增长的数据量,也无法从整个企业的角度进行统计分析,构建数据 仓库是必经之路。因此,本文结合公司的实际情况,给出了一个分布式数据仓库的模型, 描述了其体系结构设计、逻辑模型设计及数据更新方法,并进行了相应的数据分析。 其次,针对如何合理制定体检项目组合的问题,本文研究了水平加权关联规则。其 中权值的设计借鉴了传统瓜领域的t f * i d f 的权值定义思想,给出了科室的权值定义公 式。通过结合权值归一化思想,使加权支持度不大于1 ,更易于理解。最后通过比较加 权关联规则算法与传统非加权关联规则算法在本文中的应用效果,证明了加权关联规则 在本文中的适用性,完成了制定体检项目组合的任务。 最后,为了辅助客服医生针对每个客户特点为其推荐合适的体检项目组合,本文研 究了基于粗糙集的关联规则挖掘方法,并着重研究了其中的求核算法。由于本文中预处 理后的决策表存在大量的不相容记录,并且这些不相容记录属于客观事实,无法进行简 单删除,原有的求核算法不再适用。针对这个问题,本文给出了纵向加权求核方法:根 据数据的不相容程度,对记录进行纵向加权,删除权值低于给定权值的记录,并再次根 据记录的权值计算核属性的权值,最后根据核属性权值决定保留的核属性。实验表明, 该方法具有很好的灵活性,通过医生的配合,实现了项目的需求。 本文结合北京慈铭健康体检集团的实际数据库,运用上述数据挖掘方法进行相应需 求的数据挖掘,并得到了挖掘结果,达到了辅助决策的目的。 关键词:数据仓库;加权关联规则;粗糙集;健康体检 大连理工大学硕士学位论文 h e a l t hc h e c k - u pd a t aw a r e h o u s ea n dr e l e v a n td a t am i n i n g a b s t r a c t w i 恤t h ec o n t i n u o u sd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ya n dm o r ea t t e n t i o np a i dt o h e a l t h y ,t h e r ei sag r e a td e a lo fv a l u a b l ed a t aa c c u m u l a t e di nt h eh e a l t h yd a t a b a s ew h i c hh a s n o ty e tb e e nf u l l yu t i l i z e d t h e r e f o r e ,h o wt om a k es u f f i c i e n tu s eo ft h ee x i s t i n gd a t at ob e t t e r s u p p o r td o c t o r sa n dm a n a g e r st op r o v i d e b e t t e rm e d i c a le x a m i n a t i o nt oc u s t o m e r si st h ef o c u s o ft h i sa r t i c l e f i r s t l y ,a st h eh i s t o r i c a ld a t ai si n c r e a s i n ga n dt h ec i m i n gc o m p a n ye x p a n d sy e a rb y y e a r t h eo d g i n a ld a t a b a s es y s t e mi sn o to n l yu n a b l et ol o a dt h es h a r pi n c r e a s ea m o u n to fd a t a , b u ta l s on o ts u i t a b l ef o rd a t aa n a l y s i sa n df o rt h em a n a g e rt om a k es t r a t e g i cd e c i s i o nf r o mt h e p e r s p e c t i v eo ft h ew h o l ee n t e r p r i s e ,b u i l d i n gd a t aw a r e h o u s ei st h eo n l yw a y t h e r e f o r e ,t h i s p a p e rb u i l d sam o d e lo fd i s t r i b u t e dd a t aw a r e h o u s ea n dd e s c r i b e st h ea r c h i t e c t u r ed e s i g n , l o g i cm o d e ld e s i g na n dt h em e t h o do f d a t aa n a l y s i s s e c o n d l y ,i no r d e rt os o l v et h ei s s u et h a th o w t om a k ear e a s o n a b l ee x a m i n a t i o no ft h e i t e m ss e t t h i sp a p e rf o c u s e so nt h er e s e a r c ho ft h el e v e lw e i g h t e da s s o c i a t i o nr u l e s t h e w e i g h td e s i g nl e a r n sf r o mt h et f i d fm e t h o di nt h ef i e l do ft r a d i t i o n a ll r , a n dg i v e st h e f o r m u l ao fw e i g h td e f i n i t i o nf o re a c hd e p a r t m e n t c o m b i n i n gw i t ht h ew e i g h tn o r m a l i z e d m e t h o d ,s ot h a tt h ew e i g h t e ds u p p o r ti sn om o r et h a n1 ,w h i c hi se a s i e rt ou n d e r s t a n d f i n a l l y , b yc o m p a r i n gt h ew e i g h t e da s s o c i a t i o nr u l e sa l g o r i t h ma n dt h et r a d i t i o n a ln o n w e i g h t e d a s s o c i a t i o nr u l e sa l g o r i t h mi nt h ea p p l i c a t i o no ft h i sa r t i c l e ,p r o v e st h a tt h ew e i g h t e d a s s o c i a t i o nr u l e sa l g o r i t h mi sm o r es u i t a b l ea n dc o m p l e t e st h em i s s i o no fm a k i n gi t e m ss e t f i n a l l y i no r d e rt oa s s i s t ed o c t o rt or e c o m m e n da p p r o p r i a t ei t e m ss e tf o re a c hu s e r ,t h i s p a p e rh a v ear e s e a r c ho na s s o c i a t i o nr u l e sm i n i n gb a s e do nr o u g hs e ta n de s p e c i a l l yp a y m o r e a t t e n t i o nt ot h ec o r ec a l c u l a t i n gm e t h o d d u et ot h ep r e d e c i s i o nt a b l ei ss e r i o u si n c o m p a t i b l e , a n dt h ei n c o m p a t i b l ei t e m sa r ea l lf a c t , s ot h eo r i g i n a lm e t h o di sn ol o n g e rs u i ti nt h i sp a p e r f o rt h i sr e a s o n , t h i sp a p e rp r o p o s e sf lv e r t i c a l - w e i g h t e dc a l c u l a t i n gc o r em e t h o d :a c c o r d i n gt o i n c o m p a t i b i l i t yd e g r e eo ft h ed a t a , w e i g h t sf o rt h er e c o r dv e r t i c a l l y ,d e l e t et h er e c o r d sw h o s e r i g h ta r el o w e rt h a nt h eg i v e nv a l u e ,a n dt h e nc a l c n l a t e st h er i g h to fc o r ep r o p e r t ya c c o r d i n g t ot h er i g h to ft h er e c o r d s ,f i n a l l y ,d e c i d e st h ec o r ep r o p e r t ya c c o r d i n gt oe a c hr i g h tv a l u ea n d t h eg i v e nv a l u e 1 1 1 ee x p e r i m e n t ss h o wt h a t ,t h em e t h o dh a sg o o df l e x i b i l i t ya n d 谢廿1t h eh e l p o fd o c t o r s ,i tr e a l i z e st h ep r o j e c tv e r yg o o d b a s e do nt h ed a t a b a s eo fc i m i n g ,t h i sp a p e ru s e st h ea b o v em e h o d st oc a r r yo u tr e s u l t o f t h ed a t am i n i n ga n da c h i e v et h eo b j e c t i v eo fd e c i s i o n - m a k i n g i i i 健康体检数据仓库的构建及相关数据挖掘 k e yw o r d s :d a t aw a r e h o u s e :w e i g h t e da s s o c i a t i o nm i n i n g ;r o u g hs e t ;h e a l t hc h e c k u p i v 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文 作者签名 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题 作者签名: 导师签名: 大连理工大学硕士学位论文 1绪论 1 1课题的来源及研究背景 本文选题来自于北京慈铭健康体检集团的实际项目。北京慈铭健康体检集团是经过 中国医师协会权威认证的,中国最大的体检连锁机构。目前的业务系统是一套专业的体 检软件,其功能包括市场开发管理、客户关系管理、销售管理、体检流程管理、体检结 果管理、服务跟踪管理等。 北京慈铭健康体检集团在北京就有8 家分院,由于业务的扩展,原有的体检系统已 经不能很好的适应业务的发展,主要表现为:总公司和各分院间的信息交换困难、基于 c s 模式的业务系统在公司业务扩展后其可扩展性不够、系统的维护成本较高、系统与 财务系统接口困难、大量的医学数据没有充分利用等。 由于当初设计开发h i s 时的主要目的仅在于满足日常的业务处理,并没有考虑到对 数据的分析与挖掘。h i s 运行几年以后,积累了大量的数据,数据项繁杂,收集的海量 数据被沉淀,变成了难以利用的数据档案,而这些宝贵的医学信息资源对体检机构的管 理、决策和医疗诊断都具有极高的价值。 因此,建立合适的数据仓库并改进其对应的业务管理系统及数据分析系统是增强企 业竞争力的必经之路。 1 2 国内外研究现状 目前,数据仓库技术在国外各个领域的应用已经十分广泛,许多大企业应用数据仓 ,库都取得了良好的效果,国外卫生领域中也已开始应用,并获得了很大的效益。国内数 据仓库的应用主要在证券、金融、税务、保险等行业中,在体检行业近几年才刚刚起步。 由于医疗体检具有很强的实践性、实验性、统计性,体检机构管理也是一门复杂的管理 学科,浩瀚的医学资源要用现代技术去组织、去分析、去利用,探索数据仓库与数据挖 掘技术在医学信息方面的应用就具有更重要的实用价值和广阔的发展前景。因此,构建 体检数据仓库,可以在不影响体检信息系统联机事务处理速度的情况下,迅速、广泛的 为管理者提供管理信息及决策依据,为集团实现科学化管理提供支持。所以构建体检数 据仓库成为体检机构的现实需求。 关于加权关联规则挖掘,也一直在不断发展。1 9 9 3 年,r a g r a w a l ,t i m i e l i n s k i 和 a s w a m i 首先提出了关联规则的概念【l 】。1 9 9 4 年,r a g r a w a l 和r s r i k a n t 提出了著名的 频繁项集挖掘算法a p r i o r i 算法。为了提高关联规则的挖掘效率,继而产生了许多新的 技术和改进算法。例如f e l d m a n 和h i r s h 的文本数据库中的关联规则挖掘 2 1 等。另外, 健康体检数据仓库的构建及相关数据挖掘 s k i k a n t 和a g r a w a l 研究了多层关联规则挖掘,s k i k a n t 和a g r a w a l 提出了量化关联规则 的非基于栅格的使用部分完全性度量的挖掘技术,c h e n 、h a r t 和y u ,b r i n 、m o t w a n i 和s i l v e r s t e i n ,以及a g r a w a l 和y u 研究了关联规则的兴趣度问题,b r i n 、m o t w a n i 和 s i l v e r s t e i n l 给出了推广关联到相关的有效方法。 以上大部分改进算法都假定数据库中每个项目都具有相同的重要性,然而实际情况 并非如此。比如库存商品有“铂金钻戒”和“乒乓球 ,显然对商家来讲,顾客购买一 个“铂金钻戒 给他带来的利润要远远高于购买一个“乒乓球”带来的利润。另外,“乒 乓球 的利润率虽然比较低,但是如果它的销售量非常高,也会为商家带来比较大的利 润。为了解决这个问题,产生商家感兴趣的更具有实际意义和价值的关联规则,c h c a i 、 a d aw c f u 、c h c h e n g 和w w k w o n g 研究了加权关联规则挖掘【3 】。 与国外相比,国内对数据挖掘的研究稍微晚一些。1 9 9 3 年国家自然科学基金首次支 持该领域的研究项目。国内从事数据挖掘研究的人员有的在大学院校,有的在研究所或 公司。所涉及的研究领域很多,一般集中于算法的研究、数据挖掘的实际应用以及有关 数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如8 6 3 计 划、国家自然科学基金等。可以看出,数据挖掘的研究和应用得到了学术界、产业界和 政府部门的大量重视。 1 3 本文的工作 本文完成了以下工作: ( 1 ) 给出了一个分布式健康体检数据仓库的模型,描述了其体系结构设计、逻辑模 型设计及数据更新方法,并进行了相应的多维分析。 ( 2 ) 针对单维关联规则挖掘,研究了水平加权关联规则,设计了一种权值定义方法, 并结合权值归一化方法应用于项目中,解决了合理制定体检项目组合及体检套餐的问 题,通过比较加权关联规则算法与a p r i o d 算法在本文中的适用性可知,加权关联规则 在应用中取得了更好的效果。 ( 3 ) 针对多维关联规则挖掘,研究了基于粗糙集的关联规则,在原有的求核算法的 基础上给出了一种适合于本文的纵向加权求核方法,并将该方法应用于辅助客服医生针 对每个用户特点为其推荐最合适的体检项目组合的问题中,取得了良好的效果。 1 4 论文组织结构 本文首先讨论了分布式数据仓库设计并重点研究了关联规则挖掘的应用,重点讨论 了水平加权关联规则和基于粗糙集的关联规则挖掘,并将其应用于北京慈铭健康体检集 团的实际项目。 大连理工大学硕士学位论文 第一章为概述部分。介绍了本文的研究背景、研究目的、国内外研究现状及全文主 要内容介绍。 第二章是数据仓库与数据挖掘概述。介绍了数据仓库和数据挖掘的相关内容,包括 其定义及概念。其中着重介绍了关联规则挖掘的相关知识,包括其相关概念、性质、挖 掘步骤及扩展。 第三章是体检分布式数据仓库的构建,介绍了问题的需求,给出了一个构建分布式 数据仓库的模型,描述了其体系结构设计、逻辑模型设计及数据更新方法,并进行了简 单的多维分析。 第四章是加权关联挖掘研究及应用。描述了实际项目中的需求,介绍了水平加权关 联规则的基本原理及相关算法,给出了一种适合本文的权值定义方法,并结合权值归一 化思想应用于项目中。 第五章是粗糙集理论研究及其在应用。介绍了基于粗糙集的关联挖掘方法在多维关 联规则挖掘中的应用,给出了一种带阈值的纵向加权求核方法,并给出了在项目中的应 用。 健康体检数据仓库的构建及相关数据挖掘 2 数据仓库与数据挖掘概述 2 1数据仓库 如今很多人已经意识到数据中包含潜在的有用信息,并踏踏实实地进行着从数据中 沙里淘金的工作。尤其在这个信息化时代,上至政府,下到企业,从银行到电信,再到 网站、超市,人们都希望用数据分析这根魔杖赢得先机。数据分析的基础是大量异构的 数据,而数据仓库正为这些数据提供了一个集成的平台。 1 9 9 2 年,公认的数据仓库之父w i l l i a m h i n m o n 博士提出了数据仓库的定义:数据 仓库是一个面向主题的、集成的、稳定的和随时间变化的数据的集合。它是支持当前企 业在经营管理和决策活动中分析决策的有效方案。定义中指出了数据仓库的四个特点。 ( 1 ) 面向主题的 这个特性是从数据组织方面而言的,它不同于事务型信息系统。事务型信息系统中 数据的组织是面向应用( 事务处理) 的,以各自的应用领域划分。每个应用系统是整个企 业管理系统的一部分,各个业务系统之间各自分离。而数据仓库中的数据组织是面向主 题( 分析) 的,按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关 心的重点方面,逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是 针对某一决策问题而设置的。一个主题通常与多个事务型信息系统的数据相关。 ( 2 ) 集成的 数据仓库的集成性有两层含义:一是指数据仓库是一个集中的中央数据库,它把整 个企业的事务型信息系统的数据库,外部数据源,有关文件中的数据合并在一起,形成 一个集中的数据信息源。另一层含义是指数据仓库中的数据是从原来分散的各个子系统 中提取出来,并不是原有数据的简单拷贝,而是在对原有分散的数据库数据抽取、清理 的基础上经过系统加工、汇总和整理得到的,因为数据仓库每个主题所对应的源数据有 许多重复或不一致之处。数据在加载到数据仓库中时,要按数据仓库中定义的统一格式 进行数据的标准化,以保证数据的质量,从而保证数据仓库内的信息是关于整个企业的 一致的全局信息。 ( 3 ) 稳定的 从数据使用方式上看,事务型数据库中的数据通常记录的是业务运作的情况,需要 实时更新。而数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是查询, 一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库的数据对 最终用户而言是只读的,通常只需要定期的加载、刷新。在事务型系统中存储的数据通 大连理工大学硕士学位论文 常不超过一年( 根据具体的应用问题时间可长可短,一般以满足业务处理要求为准) 。而 数据仓库中通常需要存放5 1 0 年甚至更长时间的数据。可见,数据仓库中存储的数据 量很大。从数据内容上看,数据仓库存储的是企业当前和历史的数据,一定时间后,当 前数据需要按一定方法转换成历史数据。年代久远且查询效率低的数据需要从数据仓库 脱离到廉价的慢速设备上,所以说数据仓库在一定时间间隔内是稳定的。 ( 4 ) 随时间变化的 数据仓库存储的是当前和历史的数据,记录了企业从过去某一时间点( 如开始应用 数据仓库的时间点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程 和未来趋势做出定量分析和预测。但是,数据仓库中数据本身并不随时间变化。 2 2 数据挖掘 数据挖掘是近年来信息技术领域兴起的一个重要研究领域。随着计算机硬件和软件 技术的发展,包含大量数据的信息系统已经无处不在。大量原始数据的价值在于其中可 能隐藏着一些未知的知识,可以给人们的决策提供更多的帮助。随着数据采集技术的发 展,数据量越来越大,属性也越来越多,如何从这些数据中获得有效的知识正是数据挖 掘所要解决的问题。 在1 9 8 9 年8 月于美国底特律市召开的第一届k d d 国际学术会议上正式提出知识发 现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) 一词。从开始到现在,人们给k d d 下过很 多定义。随着k d d 研究的不断深入,人们对k d d 的理解越来越全面,对k d d 的定义 也不断修改,下面是对k d d 的比较公认的一个定义。 k d d 是从大量数据中揭示出有效的、新颖的、潜在有用的,以及最终可理解的知 识和模式的非平凡过程【4 j 。 数据:是指一个有关事实f 的集合,它足以描述事物有关方面的信息,一般来说这 些数据都是准确无误的。数据是数据挖掘的对象,不仅只是数据库,也可以是文件系统, 或其它以任何方式组织在一起的数据集合,例如w v c w 信息资源等。 新颖:经过k d d 提取出的模式必须是新颖的。模式是否新颖可以通过两个途径来 衡量:其一是通过对比当前得到的数据和以前的数据或期望得到的数据之间的比较来判 断该模式的新颖程度;其二是通过对比发现的模式与己有的模式的关系来判断。 潜在有用:即提出的模式应该是有实际意义的。 可理解:k d d 的一个目标就是将数据库中隐含的模式以容易被人理解的形式表现 出来,从而帮助人们更好地了解数据库中所包含的信息。k d d 不同于以往知识获取技 术,它的特点之一是发现的知识是人们易于理解的。 健康体检数据仓库的构建及相关数据挖掘 模式:对于集合f 中的数据,我们可以用e 来描述其中的数据的特征。e 所描述的 数据是集合f 的一个子集f e ,只有当表达式e 比列举所有f e 中元素的描述方法更为 简单时,才可以称之为模式。 , 非平凡过程:指具有一定程度的智能性和自动性,而不是仅仅对数据进行加减求和 等简单运算或查询,因此说它是一个非平凡过程。 k d d 是一个多步骤的处理过程,在处理过程中可能会有很多次的反复,主要包括 以下一些处理步骤,参见图2 1 。 圄 目标数据 兰兰参届 二二冷i 霜 图2 1k d d 的处理过程 f i g 2 1 p r o c e s so fk d d o 臼璺 从图2 1 可以看出,数据挖掘只是k d d 中的一个步骤,它主要利用某些特定的知 识发现算法,在一定的运算效率的限制内,从数据中发现有关的知识,数据挖掘是k d d 中最重要的一步。因此,人们往往不加区别地使用k d d 和数据挖掘。 2 3 关联规则挖掘 关联规则挖掘【5 】用于寻找给定数据集中数据项之间的有趣的关联或相关关系。关联 规则揭示了数据项间的未知的依赖关系,根据所挖掘的关联关系,可以从一个数据对象 的信息来推断另一个数据对象的信息。关联规则的一个典型例子是购物篮分析,系统通 过对顾客放入其购物篮中的不同商品的分析,了解顾客的购买习惯及行为特征。例如, 在一次购物消费中,如果顾客购买牛奶的同时,也购买面包的可能性有多大。关联规则 挖掘通过规则的支持度和置信度进行度量,这两种度量反映了所发现规则的有用性和确 定性。一个规则为强关联规则,意味着它同时满足支持度阈值和置信度阈值。阈值由领 域专家和用户设定。一旦发现了强规则,可以帮助零售商有选择地推销,从而引导消费。 一6 一 大连理工大学硕:k - 学6 - y _ 论文 2 3 1关联规则相关概念 定义2 1 数据项与数据项集 设i = 毛,如,乙) 是m 个不同项目的一个集合,每个i k ( k = 1 ,2 ,m ) 称为数据项,数 据项的集合,称为数据项集,简称为项集,其元素个数称为数据项集的长度,长度为k 的数据项集称为k 维数据项集,简称为肛项集。 定义2 2 事务( 也称为交易) 事务丁是数据项集,上的一个子集,即丁,每个事务均有一个唯一的标识符 li d 与之相联,不同事务的全体构成了全体事务集d ( 即事务数据库) 。 如果顾客在商场里一次购买多种商品,这些购物信息在数据库中有一个唯一的标 识,用以表示这些商品是同一顾客同一次购买的。我们称该用户的本次购物活动对应一 个数据库事务。 定义2 3 数据项集的支持度 设xci 数据项集,艿为事务集d 中包含x 的事务的数量,么为事务集d 中包含的 所有事务的数量,则数据项集x 的支持度( s u p p o r t ) 定义如公式( 2 1 ) 所示。 s u p p o r t ( x ) = j b ( 2 1 ) 项集彳的支持度s u p p o r t ( x ) 描述了项集z 的重要性。 定义2 4 最小支持度( 支持度阈值) 与频繁项集 最小支持度( m i n i m u ms u p p o r t ) 表示发现关联规则要求数据项必须满足最小支持阈 值,记为m i n s u p ,它表示数据项集在统计意义下的最低重要性。只有满足最小支持度的 数据项集才有可能在关联规则中出现,支持度大于最小支持度的数据项集称为频繁项 集,简称频集,或称为大项集;反之,称为非频繁项集。 定义2 5 关联规则 关联规贝j j ( a s s o c i a t i o nr u l e ) 可以表示为:r :x jy ,其中:x c i ,y c i 并且 工ny = ,它表示如果项集x 在某一事务中出现,则必然会导致项目集】,也会在同一 事务中出现。x 称为规则的先决条件,】,为规则的结果。 关联规则反映了x 中的项目出现时,y 中的项目也跟着出现的规律。 定义2 6 关联规则的支持度( s u p p o r t ) 、关联规则的支持度是事务集中同时包含x 和】,的事务数与所有事务数之比,记为 s u p p o r t ( xjn ,即 s u p p o r t ( xjy ) = s u p p o r t ( x u n ( 2 2 ) 支持度反映了x 和】,中所含的项在事务集中同时出现的频率。 健康体检数据仓库的构建及相关数据挖掘 定义2 7 关联规则的置信度( c o n f i d e n c e ) 对于关联规则r :xjy ,其中:xc1 ,yci ,并且x ny = 。规则r 的置信 度定义为如公式( 2 3 ) 所示。 c o n f i d e 咒卯( 尺) :s u p p o r t ( xu d ( 2 3 ) 1 s u p p o n ( x ) 置信度反映了包含x 的事务中出现】,的条件概率。 关联规则的支持度和置信度分别反映了所发现规则在整个数据库中的统计重要性 和可靠程度。一般来说,只有支持度和置信度均较高的关联规则才是用户感兴趣的、有 用的关联规则。 定义2 8 最小置信度( 置信度阈值) 最小置信度( m i n i m u mc o n f i d e n c e ) 表示关联规则所必须满足的最小可信度,记为 m i n c o n f i 它表示关联规则的最低可靠性。 定义2 9 强关联规则 s u p p o r t ( x y ) i i l i ns u pc o n f i d e n c e ( xj 】,) m i n c o n f ,则称关联规则xj y 为 强关联规则,否则称关联规则x jy 为弱关联规则。 2 3 2 关联规则的性质 性质2 1 设u = 嘶,u 2 ,) 为项集,且u 量1 ,q ,qs u 。对于给定的数据 库事务集d 和最小支持度m i n s u p ,如果项集u 为频繁集,则q 也是频繁集。该性质也 称为a p f i o f i 属性。 证明:项集u 为频繁集,且满足s u p p o r t ( u ) m i n s u p 设数据库中包含项集u 的事务集为d o 又q u 则数据库中包含项集u 的事务集d o 一定包含项集q s u p p o r t ( f 2 ) s u p p o r t ( u ) m i n s u p 必为频繁集 性质2 2 设u = 地,u 2 , 为项集,且u h 量1 ,u ,对于给定的数据库事 务集d 和最小支持度m i n s u p ,如果项集u 为非频繁集,则日也一定是非频繁集。 证明:反证法,假设日是频繁集 。u 日,u 由性质2 1 ,项集u 为频繁集,与假设矛盾。 。日为非频繁集 大连理工大学硕士学位论文 性质2 3 设u 是数据库钇中的频繁k 项集,则u 的所有知1 项目子集也一定是频 繁肛1 项集。 2 3 3 关联规则挖掘的步骤 关联规则挖掘的步骤大体可以分解为两个过程来描述。 ( 1 ) 找出所有的频繁项集。即找出所有支持度大于事先给定的支持度阈值的项集。 ( 2 ) 利用找出的频繁项集产生强关联规则。即产生那些支持度和置信度分别大于或 等于事先给定的支持度阈值和置信度阈值的关联规则。 在上述两个步骤中,第二个步骤要相对容易一些,因为它只需要在己经找出的频繁 项集的基础上列出所有可能的关联规则,然后用支持度阈值和置信度阈值来衡量这些关 联规则。事实上,由于所有的关联规则都是在频繁项集的基础上产生的,因此它们就己 经自动满足了支持度阈值的要求,从而只需要考虑置信度阈值即可。第一个步骤是关联 规则挖掘的关键步骤,挖掘关联规则的总体性能由第一个步骤决定,因此所有关联规则 挖掘算法都是着重于研究第一个步骤。 2 3 4 关联规则挖掘的扩展 ( 1 ) 多层关联规则 对于很多应用来说,由于数据分布的分散性,很难在数据最细节的层次上发现一些 强关联规则。当引入概念层次后,就可以在较高的层次上进行挖掘。虽然较高层次上得 出的规则可能是普通的信息,但对于一个用户来说是普通的信息,对于另一个用户却未 必如此。所以数据挖掘应该提供一种在多个层次上进行挖掘的功能。 挖掘多层次关联规则一般有两种途径【6 】:一种是把单层次关联规则挖掘直接应用于 多层次;另一种是在不同的层次应用不同的支持度阈值和置信度阈值。第一种方法可能 会出现两种结果:若希望在较低的层次得到强关联规则必须降低项目集的支持度阈值, 这势必会在较高层次上产生许多无意义的规则;若在较高层次上挖掘强规则,会容易得 到常识性的规则或无意义的规则。, 现有的多层关联规则挖掘算法主要是y o n g j i a nf u 提出的m l t 2 l 1 算法。m l _ t 2 l 1 算法利用自上而下策略,从最高层次向低层次方向进行挖掘时,对频繁项集出现次数进 行累计,以便发现每个层次的频繁项集,直到无法获得新频繁项集为止。也就是在获得 所有概念层次1 的频繁项集后,再挖掘层次2 的频繁项集;如此反复进行。其中对于每 个概念层次均用类a p r i o r i 算法处理。 ( 2 ) 多维关联规则 包含两个或更多的谓词的关联规则称为多维关联规则。对于多维数据库而言,挖掘 健康体检数据仓库的构建及相关数据挖掘 的是多维关联规则。根据是否允许同一个维重复出现,可以又细分为维内的关联规则( 不 允许维重复出现) 和混合维关联规则( 允许维在规则的左右同时出现) 。 数据库中的属性可以是符号量或数值量。符号量属性仅取有限个无序的值,而数值 量属性取有大小的数值。根据处理数值量的基本方法的不同可以对多维关联规则采取不 同的挖掘算法:利用静态离散挖掘;挖掘定量关联规则;挖掘基于距离的关 联规则。 ( 3 ) 基于约束的关联规则 在实际应用中,用户通常对关联规则的子集感兴趣,即用户只想看到某些项目间的 关联关系。为此提出了基于约束的关联规则。这种基于约束的挖掘允许用户根据他们关 注的目标,说明要挖掘的规则。因此使得数据挖掘过程更有功效。此外,可以使用复杂 的挖掘查询优化程序以便利用用户指定的约束,使得挖掘过程更有效率。基于约束的挖 掘促进交互式探查挖掘与分析。 ( 4 ) 周期关联规则 在数据的序列模式中,关联规则有时会显示出一些周期特性。有些规则在一个小的 时间区段内有较高的支持度,但在整个数据库中却没有。从很多超市利用过道来摆放季 节性产品的事实中,可以看出周期性关联规则的存在。o z d e n 等提出了c y c l i c 关联规则, c y c l i c 关联规则是在有规律时间区段内有特定的支持度和置信度的规则,例如“每个星 期日顾客买报纸的同时也会买牛奶 ,该算法是基于整个周期的,而在每一个时间点是 无效的。 ( 5 ) 加权关联规则 前面介绍的关联规则挖掘算法均存在两大前提:一是数据库中各项目有相同的性质 和作用;二是数据库中各项目的分布是均匀的。然而往往并非如此,当数据库中项目分 布不均匀而出现频率相差较大时,会导致最低支持度设高设低都存在问题:设高了,会 漏掉很多有趣的规则;设低了,会挖掘出大量没有意义乃至虚假的关联规则,甚至还会 导致组合爆炸。 为了反映各个项目的不同重要性,c h c a i 等给每个项目分配了一个反映其重要程 度的权值,并给出了项目集和规则的加权支持度,从而扩展了现有的关联规则问题模型, 提出了加权关联规则。 加权关联规则算法计算支持度时,既要考虑规则中所有项目在数据库中同时出现的 频率,也要考虑所有项目的加权值。对此问题一个简单的办法是忽略权值较小的项目, 但有的规则在与高权值项目相关的同时,很可能也与低权值项目相关。例如,在促销商 品彳时,可能发现商品彳销售受到商品b 的影响,即有规则bja ,而商品曰最初由 大连理工大学硕士学位论文 于我们不感兴趣而被赋予较低的权值。如果我们因权值较低而忽略了商品召,那么规则 bja 就不可能被发现,因此,该方法在这种情况下是不可取的。另一种方法是直接采 纳现有的关联规则发现算法,如a p r i o r i 算法,这些算法基于向下封闭特性,即频繁项 目集的任一子集必是频繁的。然而在加权关联规则模型中,该性质不再成立,因此采用 以前的算法只改变支持度的计算是不行的。 为此提出了项目的肛支持期望概念,并以此为基础提出了加权关联规则的发现算 法。在加权关联规则模型中,应设法在权值和支持度之间取得恰当的平衡。实际上用项 目权值、项目集支持度和置信度这3 个参数来对加权关联规则进行评价。引入的项目集 的加权支持概念,将加权支持定义为项目集中每个项目的权值之和与该项目集支持度的 乘积。如果将支持度和权值分开考虑,那么将会发现具有足够支持度和权值的项目集。 然而这样也许会遗漏令人感兴趣的模式。权值是项目或项目集重要性的度量。如果某项 目集非常重要,比如说正处于促销过程中或利润很高,即使没有很多顾客购买,对用户 来说他们仍然是令人感兴趣的。另一方面,如果某项目集从权值上考虑不是非常重要, 但它却十分流行,有大量顾客购买,那么它也是令人感兴趣的项目集。另一种似乎可选 的方法是发现具有足够支持度或足够权值的项目集。不过这样一来,就不能有效的处理 权值为0 的项目了。对此,c h c a i 等给出了新的算法,不过文中的思想也存在一个问 题,就是如果项目集中项目的个数较多,即使每个项目的权值较低,各权值之和也有可 能是高的。而且算法只是针对单层次概念,没有引入多层次概念。另外将项目加权的思 想应用到定量关联规则的发现中也是一个值得研究的问题。在加权关联规则中权值的选 择也是一个问题。 健康体检数据仓库的构建及相关数据挖掘 3 体检分布式数据仓库的构建 3 1问题描述 随着人们预防保健的意识不断提高,对健康的需求也不断增加,健康体检作为防患 于未然的主动预防措施在人们的思想中有很深的认识。目前,成立了一些大型的体检机 构。主要采取连锁经营的模式,即一个总公司,下面有分布于不同城市的多个分公司, 每个分公司下面又有多个分院负责具体的体检任务。总公司主要负责整个企业的总体监 控,是企业的决策和信息中心。因此,为了提高企业内部各个级别的监控能力和决策水 平,对于大型健康体检连锁机构建立分布式数据仓库是非常适合的。 本课题来源于北京慈铭健康体检集团的实际项目。慈铭健康体检集团在北京就有8 个分院,各个分院有自己的数据库,但是各分院与各公司的信息交换能力很差,无法全 局控制。由于历史数据逐年增多,公司规模不断扩大,原有的数据库系统已经无法负荷 急剧增长的数据量,也无法为统计分析提供便利。 建立分布式数据仓库后,各分院的局部数据仓库可以为子公司的数据仓库提供分析 数据,便于分公司根据自身情况进行分析、综合以及决策。而总公司的全局数据仓库从 各分公司数据仓库中提取信息,为总公司的决策支持系统提供分析数据,从整个企业的 角度做出战略决策。 3 2 体检分布式数据仓库的构建 数据仓库是从数据库系统发展而来的。数据库系统经过数十年的发展,各个企业的 数据库中已经积累了大量的日常业务数据。然而,各个企业原来的以业务处理为主的联 机事务处理( o l t p ) 系统,不能很好的胜任“把数据抽象为信息,将信息转化为知识”这 一任务。为了提高经营分析和决策的有效性,分析型的数据和处理必须与操作型的数据 和处理相分离,并把分析型数据按决策支持处理的要求重组,建立起单独的分析处理存 储环境。数据仓库正是针对这种新的分析处理环境而发展起来的一种数据组织技术。在 上世纪9 0 年代初,数据仓库的创始人提出了“数据仓库( d 聊”的概念:数据仓库是面 向主题的、集成的、具有时间特性的、稳定的数据集合,用以支持经营管理中的决策制 定过程。 数据仓库环境有单一中央集成和分布式两种类型【7 1 。大部分企业建立和支持单一的 中央数据仓库环境【羽,但是在某些特定场合,建立分布式数据仓库环境可能更能满足需 要,取得更高的经济效益。随着企业规模的扩大,业务不断向多个地区扩展,企业兼并 或小企业联合组成大集团等,许多企业的运作模式自然形成一种分布式管理结构。另外, 大连理工大学硕士学位论文 由于历史、地理、经济等诸多原因,当前企业内部存在许多不兼容。典型分布式数据仓 库的体系结构的相互独立的事务处理应用系统,需要对分散在这些系统中的相关数据进 行集成,以向分析人员提供统一的数据视图。所有这些都说明研究分布式数据仓库技术 是一项很有意义的工作,而这些企业采用分布式数据仓库方案也确实是一种较好的选 择。数据仓库通常是指企业范围的,涉及多个主题( 体检,销售等) ,通常把部门范围的, 关注某一类主题的数据仓库称为数据集市。本节只针对体检结果和销售数据,故可以说 我们建立的是数据集市。为了方便叙述,文中不予区分,统称为数据仓库。 3 2 1 体系结构设计 分布式数据仓库的形式有许多种,一种典型结构包括局部数据仓库和全局数据仓 库。我们主要采用以下结构,如图3 1 所示。一 扃部系统数帮厢部系统数据侗部系统数据侗部系统数据 诞丛塑塑堡遽窆 壑塾堡遗处壑塑堡选之 整塑堡 图3 1分布式数据仓库体系结构 f i g 3 1 d i s t r i b u t e dd a t aw a r e h o u s ea r c h i t e c t u r e ( 1 ) 分院数据仓库 分院数据仓库包含各分院局部站点上历史的和集成的数据,主要来源于各自的h i s 系统,也包括少量的外部数据。除了数据范围是局部的外,提供典型数据仓库的所有服 务。 ( 2 ) 分公司数据仓库 分公司数据仓库中的数据来源于所管辖的分院数据仓库中的数据及外部数据。对于 体检数据模块,由于分公司无体检部门,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 4504:2025 EN Plastics - Polyethylene (PE) - Determination of co-monomer content by solution state 13C-NMR spectrometry
- 【正版授权】 ISO 5461:2025 EN Space systems - Failure reporting,analysis and corrective action (FRACA) process requirements
- 【正版授权】 ISO 17987-3:2025 EN Road vehicles - Local Interconnect Network (LIN) - Part 3: Protocol specification
- GB 46030-2025建筑用安全玻璃安全技术要求
- 校本培训经验课件
- 校外培训机构安全知识培训课件
- 导数考试题型及答案
- 盐业局的考试试题及答案
- 北京音乐知识培训课件
- 医药耗材面试题及答案
- 吉安市新庐陵投资发展有限公司及下属子公司2025年第二批面向社会公开招聘笔试备考题库及答案解析
- 2025至2030年中国生长激素行业市场深度研究及投资战略规划报告
- 大疆:2025大疆机场3操作指导书
- 2025年卫生健康行业经济管理领军人才试题
- hiv职业暴露培训课件
- 2025年重庆市高考物理试卷(含答案解析)
- 小番茄栽培技术课件
- (高清版)DB22∕T 5159-2024 预应力混凝土桩基础技术标准
- 2024年中级统计师《统计工作实务》真题及答案解析
- 小学2024-2025学年度第二学期道德与法治课程计划
- 河北省唐山市路北区2025届八年级数学第二学期期末达标检测模拟试题含解析
评论
0/150
提交评论