(计算机应用技术专业论文)数据挖掘技术在病人情况预报中的应用研究与实现.pdf_第1页
(计算机应用技术专业论文)数据挖掘技术在病人情况预报中的应用研究与实现.pdf_第2页
(计算机应用技术专业论文)数据挖掘技术在病人情况预报中的应用研究与实现.pdf_第3页
(计算机应用技术专业论文)数据挖掘技术在病人情况预报中的应用研究与实现.pdf_第4页
(计算机应用技术专业论文)数据挖掘技术在病人情况预报中的应用研究与实现.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘技术在病人情况预报中的应用研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a b 别口 d硕 士 论 文 a b s t r a c t t h e t h e s i s i s a c h i e v e d 咐i n l y d u r i n g t h e c o u r s e o f s t u d y i n g t h e p r o j e c t尸t h ea p p 1 i c a t i o ns t u d ya n dr e a l i z a t i o no fd a t a口 i n i n gt e c h n o l o g y o nr e l a t i o nrul eandart i f i c i a ln e u r a ln e t , o r ko np r e d i c t i o no fk i n d so f 胆t i e n t sq u a n t i t i e si nj i an姊ut u mou rh o s p i t a l l n s t i t u t e序 , h i c h i s s u p por t e db y t h ec o l l e g el e v e lo f价o b l e mo fn a nto n gv o c a t i o nalc o l l e g e . c o m p r ehe n dk n 衅l e d g ea n de x p e r i e n c eo fd o . a i ne x p e r t s , s e l e c tr e l a t i o n r u 1 et o a na1 y z e t h ei n f l u e n c e fac t o r s q u a 1 i t a t i v e l y , a n d t h e n q u ant i t a t i v e l y盯e d i c t st h e q u a n t i t i e s o fk i n d so fp a t i e n t ss t a t u sb y art i f i c i a ln e u r a ln e t 份 orkt e c h n o l o g y ,and f i n a l l y bui l du pa p l a t f o rm o f 盯e d i c t i n g , “ h o s p i t a l l n s t i t u t ed a t am i n i n g( h i d m ) ”, f o r t h e q u ant i t i e so fk i n d so f娜t i e n t ss t a t u s .t h e附i nc o n t enti sa sf o l l 衅i n g : i ts e p ara t e l yp r e s e n t sa p p 1 i c a t i o n i nh i d mb yr e 1 a t i o nr u l ea n a l y s i s and t h et e c h n o 1 o gy j i a n g s ut umo u r h o s p i t a 1i n s t i t u t e art i f i c i a 1 n e ura 1 n e t , o r k a t a s p e c t o f s t u d y o f r e 1 a t i o n r u 1 ea n a 1 y s i s , i t m i n e s t h e r e l a t i o nb e t 贾 e e n t h ei n f l u e n c e f a c t o r sb y知r i oria l g o r i t hln and o u t put a f t erw a s h i n g and c h o o s i 飞t h e p r o d u c t i v e d a t a ; a t a s p e c t o f t h e t e c h n o l o g y o f art i f i c l a l n eur a l n e t , o r k , dat a 讲e p a r a t i o n a n d n e u r a l n e t 份 ork sp a r a m e t e ri nd a t a口 i n i n g i s d i s c u s s e d哑i n l y .t ot h ee x i s t e d pro b l em o fs t and ard b p ari t h m e t i c i n e f f i c i e n ta n d e a s i l y g e t t i n g i n t o l o c a l川 i n i 口 u m ,an i m p r 0 v e dbp ari t hine t i c i sp u tf o r w a r di nt h i s p a p e r . a n dt h ea d j u s t e d fre q u e n c y ands t u d y e f f i c i e n c y o f t h i sari t 腼e t i c i s a d v anc e di ns t r e s s .p a p er hasr e a s o n e di tn o to n 1 yi nt h e o r i e s ,b u ta l s o i ne x p e r i men t su s i n gt h e. o t hl o g i cp r obl em,户 x o r 尸pro b l e nl e x p e r i m e n t s r e s u l t ss h o t h a tt h ei m p r o v e db pari t hme t i ch a ss h o r t e dt h es t u d yt i 功 e , 1 帅r o v e dt h es t u 由 e f f i c i e n c ya n da v e r t e dfro mg e t t i n gi n t o1 o c a lm i n i mum i ns o m ed e 盯e e t h e n ,o n t h eb a s eo fa b o v es t u d yo ft h e o r ya n dm e t h o d s ,t h i sp 即e r r e s e a r c h e s t h e a c h i e v 阴e n t a n d t h e fun c t i o n s o f k i n d s o f in o d u 1 e s o f p l a t f o r m ( h i d m )。 t hroug h u s i n g t h e i m p r o v e d b p ari t hiue t i c i n h i d m , b e s i d e st h eq u a n t i t i e so fk i n d so fp a t i e n t ss t a t u sarep r e d i c t e db yh i d m , t h e n t h er e s u l t i sa n a l y z e d . on t h e份 h o l e, t h e r e s u l t o ft e s t i n g t h e s o f t 可 a r e i n d i c a t e s t h a t t h i s p l a t f o 抽i s c a p abl e o f a c h i e v i n g t h e p r e d i c t i o nf u n c t l o n i nd a t am i n i n g . k e 扭ord s : dat am i n i n g ,r e l a t i o n r u l e t h et e c h n o l o g yo fart i f i c i a 1n e u r a ln e t w o r k , bp a r i t l l m e t i c a n a l y s l s ,却r i o r ia l g o r i t hm, b pa r i t h m e t i c ,t h ei m p r o v e d n 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本 学位论文中,除了加以标注和致谢的部分外,不包含其他人己经发表或 公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使 用过的材料。 与我一同工作的同事对本学位论文做出的贡献均已 在论文 中作了明确的说明。 研 究 生 签 名 :遥叻斗动, 石 年“ 月加 日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以 借阅或 上网公布本学位论文的全部或部分内容,可以向有关部门或机构送交并 授权其保存、借阅或上网公布本学位论文的全部或部分内 容。 对于保密 论 文, 按保密的有关规定和程序处理。 研 究 生 签 名 : 遗 业 l 一枷; 圳月 ; 。 日 南京理工大学硕士学位论文数据挖掘技术在病人情况预报中的应用研究与实现 绪论 1 . 1 论 文背景 信息爆炸是当 今数字化社会面临的一个巨大挑战, 人们所积累的数据越来越 多,并且由于人类的参与使数据在信息系统中的不确定性更加 显著。海量杂乱的数 据背 后隐藏着许多重要的信息, 人们希望能 够对其 进行更高 层次的 分析,以 便更好 地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功 能, 但无法发现数据中存在的 关系和规则, 无法根 据现有的 数据预测未来的发展趋 势11。缺乏挖掘数据背后隐藏的 知识的 手段,导致了“ 数 据爆炸但知识贫乏”的现 象图 。 传统上,很大一部分的数据分析与处理的工作是由 具有专业知识的专家利用简 单的数据表示工具 ( 例如:电子表格、电子图表等)和分析方法 ( 例如:统计)来 完成。这种做法费时费力,效率较低,且只能获得这些数据的表层信息,而不能获 得数据属性的内在关系和隐含信息,即不能有效地获取人们比较感兴趣的知识。所 以,一种能自动分析数据,并提出新的为人所理解的知识的计算机系统是非常有用 的, 这一 过程即是数据挖掘 (data m i ning, dm)3 4j ,它的出 现为自 动和智能 地把 海量的数据转化为 有用的 信息知 识提供了有力的手段同 . 人们把原 始数据看作是形 成知识的 源泉,就象从矿石中 采矿一样。原始数据 可以是结构 化的,如关系数据库 中的数据;也可以是半结构化的,如文本、图形、图象数据:甚至是非结构化的异 构数据,如分布在网络上的 切 w 份数据。发现知识的方法可以是数学的,也可以是非 数学的;可以是演绎的,也可以是归纳的。发现了的知识可以用于信息管理 、查询 优化、决策支持、过程控制等,还可以用于数据 自身的维护。因此,数据挖掘是一 门广义的交叉学科,它汇聚了 不同 领域的研究者, 尤其是 数据库技术、 人工智能、 神经网络、 数理统 计、模式识别、 数据可视化、高 性能计算等方面的学者 和工程技 术人员f. . 数 据挖掘技术是信息 技术自 然演化的结果,它从一开始就是面向 应用的。 它不 仅是面向 特定数据库的简单检索和查 询调用,而且要对这些数 据进行微观、中 观乃 至宏观的统计、分析、综合和推理,以 指导实际问 题的 求解, 发现事件间的相互关 联,甚至利用己 有的数 据对未来的活动进行预测。 如数据挖掘在零售业中的应用, 能够识别顾客的购买行为,发现顾客的 购买模式和趋势,改 进服务质量, 取得更好 的顾客保持力 和满意 程度,提高货品 销量,减少商 业成本。 数据挖掘在电 信业中的 应用有助于理解商业行为,确定电 信模式,捕捉盗用行为,更 好地利用资 源和提高 服务质量。此外,数据挖掘在金融系统和生物医学等方面的研究与应用也己获得极 第一 章 绪 论硕 士 论 文 大成功,并促进了 这些行业的发 展.需要指出 的是,数据 挖掘所发现的知识都是相 对的,具有 特定前提和约束条件,面向特定领域,同时还要易于理解, 最好能用自 然语言表达发现结果。数 据挖掘和知识发现的 研究成果是很讲 求实际的。 江苏肿瘤研究所是一家大型专业型医院,在过去的几年中, 重视对各种数据的 收集,从而 积累了大量的数据资 料。 如何有效地从这些浩瀚的 数据中寻找各种因素 的相互关系,发 现一些能指导他们更有效开展工作的规律和知识, 产生巨大的 经济 效益与社会效益是十分必要的 。 1 . 2 数 据预报研究现状 预报的基础就是状况与环境 条件之间的 关系及其规律,以及各种实时的调查所 获得的 数据量、 资源状况、 环境等 各种情况资料闭 阁 。预报的主要 任务 就是 预测量。 预报的应用手段和方法很多,可以分为定性分析、定量分析、专家智能方法和以信 息系统为基础的综合分析方 法等t, . 从力群、何浩然等人提出 “ 冶金企业 mes技术架构与产品开发”的思想,采用 数据挖掘与预报技术结合,依据动态成本模型预测生产成本:利用动态跟踪控制技 术,优化原材料的配比、能源介质供应、生产线定修制度、生产调度管理,动态核 算成本,以降 低生产成本l.1。 北京交通 大学王艳辉、贾利民 等人在分析铁路客运量数据的时空复杂性特征的 基础上,以 铁路假日 运输管 理系统中春运期间的客运量数据为 依据, 采用 b p神经 网 络的 数据挖掘方法进行铁 路客运量数据挖掘预测研究。 通过 bp 神经网络的建模 方法把客运量的空间属性、 数据属性和时间属性有机 地结合起来,将数据的建模含 于网 络的数值当中。网络在学习 过程中系统误差始终保持持续稳定的下降趋势,没 有产生局部振荡和陷入极小现象,整 个学习过程中系 统稳定 性较好。各样本之间的 期望输出和实际输出之间吻合较好,从而证明 所采取的 数据处理方法的有效性和网 络学习 参数的 合理性。根 据 价 神经网 络得到的预测模型在仿真试验中的期望 输出 和实际 输出 之间吻合较好, 预测的 客运量 和实际 客运量数值非常接近叫。 姚里等人在 “ 数据挖掘在电 子商务推荐系统中的 应用设计”论文中提出,对来 自电子商务交易中不同数据源,包括客户购买信息,个人信息及浏览信息( 应用服务 器层日志) ,对数据进入数据仓库前必须进行清洗、集成和转换后,通过贝叶斯网络 技术利用训练集创建相应的模型,模型用决策 树表示,节点和边表示客户信息:通 过关联规则来分析商品间的 参考模式,向 客户 推荐商品,提高交叉销售能力;通过 聚类分析聚类技术将具有相似爱 好、购物兴趣的 客户分配到相同 的族中, 聚类产生 之后,根据该族中其他客户对某商品的评价就可以得到系统对该商品的评价从而构 南京理工大学硕士学位论文数据挖掘技术在病人情况预报中的 应用研究与实现 建推荐系统。这种将商业网站积累的 大量数据蕴涵丰富的客户及市场信息,利用数 据挖掘技术来发现规律,来预测顾客的行为,提供个性化服务, 提高商业网 站的竞争 力, 有很大实 用 意义ln。 为了能够准确地预报,在本文中提出了应用基于关联规则和人工神经网络的数 据挖掘技术,这样可以 使预报方法更加定量化,从而 使得预报方法更加准确,更好 地指导业务的开展,更好地减少因为对各类病人数量的定量认识不够而造成的资源 成本的浪费。 在后面的 章节中 将对数据挖掘技术在试验平台h osp i t al l nsti 七 ute n a t am i n i n g( h l 哪) 中应用进行一一地探讨。 1 . 3 研究目的和意义 医院这个行业是一个重要的行业之一,为了 更好地对人力资源、设备资源的利 用与开发、强化高新技术对此行业中资源利用和管理技术的支撑作用,在江苏肿瘤 研究所领导的支持下,开展基于人工神经网络的数据挖掘技术在各类病人数情况预 报中的应用研究工作。综合该领域专家的知识和经验,选取关联规则对影响各病类 人数因子进行定性分析,再运用人工神经网络技术对各类病人数情况进行定量预 报,构造一个该院各类病人数情况预报试验平台。 本文的研究工作源于上述背景。课题研究目的是根据研究所数据挖掘的需要, 对数据挖掘技术进行深入的研究,探讨改进的数据挖掘算法实现。 在本文中提出了 应用数据挖掘技术,可以 使预报方法更加定量化,从而使得预 报更为准确,从而更好地指导人力资源、设备资源的利用、开发,更好地减少因为 对数量的认识不够而造成资源成本的浪费。 1 . 4 主要工作 本论文的主要工作如下: 查阅国内外大量相关技术文献,在了解各种数据挖掘技术的基础上,针对医院 研究所这一特定领域的数据,初步确定了数据挖掘实验平台的设计方案. 在分析比较数据挖掘的各种方法技术上,提出并具体研究关联规则分析和人工 神经网络技术进行数据挖掘的方法。 在掌握bp算法的基础上,针对b p 算法的缺点,提出了一种改进的bp算法,并 对这种改进的bp算法进行了大量的实验与分析研究。 利用关联规则中apriori 算法和改进的bp算法,设计并开发了该院数据挖掘实 验平台hidm。 第一奄 绪论硕士论文 1 . 5 本文组织与安排 第1 章 介绍了本课题研究背景、目 的和意义、 研究内容以及论文章节安排。 第2 章 介绍了数据挖掘的产生与发展、定义: 挖掘的 过程、 挖掘的内容以 及挖 掘的 应用进行了 全面的论述, 形成了一个数据挖掘的全面综述。 对挖掘技术分析比 较之后着重介绍关联规则分析和人工神经网络技术。 第3 章 提出了 在hl绷 中 应用关联规则分析,探讨了a p riori 算法在h 工 dm中的 具体实现,初步挖掘出医院研究所各类病影响因子与各类病数量之间的关联规则。 第 4章 探讨了基于人工神经网络数据挖掘技术的研究,提出了一种改进的 b p 算法, 并针对这种算法进行了分析侧试。 第 5章 讨论了 挖掘实验平台的开发与实现,运用 hl服 对各类病人数情况数据 进行应用,并对结果进行了分析. 第6 章 总结全文并对论文存在的问题进一步发展作了些说明. 南京理工大学硕士学位论文数据挖掘技术在病人情况预报中的应用研究与实现 2数据挖掘发展综述 数据挖掘( (data m众 五 n g) 是目 前数据库和信息决 策领 域的前 沿研究方向 之一, 也 常称为 数据库中的知识发 现( k d d: k 滋 o w l edgediscov o yind a t a b 搜 犯 ) ,目 的是从大量 的数 据中提取隐含的、事先未知的、 并且 潜在有用的 知识。它是多 个研究领域的交 汇点,其中包括数据库技术, 统计分 析, 机器学习 和可视化技术等。它又是一项面 向 应用的 研究,在商业领域内 有很多潜在应用。因 此数据挖掘技术得到了学术界和 各业界的 广泛关注。 数据挖掘概念提出到现在,数据挖掘技术得到了 快速发展,涉 及的 应用领域日 益广泛 lal 。 本章对数据挖掘产生与发展、分 类、 现有的数 据挖掘技术及其应用进行概括性 的介绍,并着重介绍其中的关联规则 分析和人 工神 经网络技术,根据挖掘技术适用 性的特点,本研究在挖掘过程中将采用这两种技术. 2 . 1 数据挖掘产生与发展 数据挖掘发展的萌芽是机器学习 ( 施chi ne learning) 。机器学习是用计算机模 拟人类学习的一门 科学, 始于60 年代 末, 真正的 发展是在70 年代 末。1 980 年,第 一届国际机器学习研讨会在美国召开。1 9 84 年, 机器学习杂志正式出版 。其中 不同时期的 研究途径与目的也不 全相同,一般而言大致可分为三个阶段:神经模型 和决策理论、 概念符号获取及知 识加强、领域专用学习。上个世纪九十年代,随 着 数据库系统的广泛应用和网 络技 术的高 速发展,数据库技术发展到了 一个全新的阶 段,从过去仅管理一些简单数据发展到了必须 管理由各种设备、装置、计算所产生 的图形、图像、 音视频、电 子档案、 w eb 网 页等等多 种类型的复杂数据,并且数据 量也越来越多。 世界各地数以 十亿计的 计算机上存储的海量数据里包含着许多重要 信息,数据在日 常决策中的重要性 越来越显著,对数据处理 技术的要求也越来越 高,人们需要能够对数据进行深层次的分析处理,发现并提取隐藏在其中的信息, 以得到关于数据的总体特征以及对相应发展趋势的预测,从而更好地利用这些数 据。数 据库系统虽然可以 高效地实现数据的 录入、查 询、统计等功能,但无法发现 数据中 存在的关系和规则,无法根据现有的 数据预测未来的 发展 趋势。这一变化给 数据库技术带来了 很多的 挑战, 需要我 们研究许多 新的问题阴阅。 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,它使数据库技 术进入了一个更高级的阶段。数据挖掘不仅能 对存储在数据库中的 过去的数据进行 查询和遍历,并且能够找出过去数据之间的潜在联系, 找出 新的 信息。而这些功能 对传统的数据库管理系统来说是无法做到的,事实上,数据量的爆炸性增长也使得 第二章 数据挖掘综述硕 士 论 文 传统的处理方法变得不切合实际. 因此, 需要采用自 动化程度更高、 效率更好的数 据处理方法帮 助人们更高效地 进行数据分析。正是由于实际工作的需要以 及相关技 术的发展, 将机器学习应用于大型数据库使得数据库的知识发现 ( k n o1 edge d i s c o v e 斗 i ndat a b a s e es es k 即) 技术逐渐发展 起来“ 刀 “ al 。 因 此,数据 挖掘是从大型数据库或数据仓库中发现并提取隐 藏在其中的信息的 一种新技术,目 的是帮 助决策者寻找数据间 潜在的关联,发现被忽略的要素。数据 挖掘技术从大量数据中 提取出可信、新颖、 并被人理解的模式,分析数据,挖掘大 量数据背后的知识。数据挖掘技术促成了数据库中的知识发现( k d d :k no叭edge d i s c o v e r yi nd a t aba s e s ) 的 产生.1 9 8 9年美国底特律召开的 第 1 1 届国际人工智 能联合会议的专题讨论会上首次出现了 kdd这个术语,1 9 95 年在加拿大蒙特利尔 召开了首届 kdd国际 学术年会。随 着来自 各个领域的 研究人员 和应用开发者不断增 多,数据挖掘技术演变为工程领域的数据挖掘与科研领域的 k dd,它泛指所有从源 数据中 发掘模式或联系的 方法。目 前大家公认的k d严格定 义是在 1 9 9 6 年知识发 现国 际会议上由f a ”a d , pi at e st s ky, s h a p 如和sm yth 提出: k 力 o w l edge di sc overy in 山 自 b 次 犯 s i s the n o n t ri v iaipr oc e sso f i d e n l i尔ng y 目 i d , 加v e l , 加t e n t i al l yu s e fo l , 胡d ul 石 n 1 at e l y und erst an dab l e pa u e m s ind at a .数据库中的 知识发现是从数据 集中提取出 有效的、 新颖的、有潜在作用的、可信的,并能最终可被理解的模式的非平凡过程 侧。 现在对 k d d的研究围 绕理论、 技术和应用三个方面展开。理论方面的研究包 括:数据和知识的表示;结构化、文本和多媒体数据的模型构造;不确定性管理; 知识的实用性评测: 数据挖掘的 算法复 杂性和效率分析; 海量数 据集的统计学等。 技术方面的研究主要包 括数据挖掘方法、数 据挖掘算法和知识发 现过 程。数据挖掘 方法 包括分类、 聚类、预 测和评估、 相关性分 析、搜索和优化等。数 据挖掘算法包 括空间数据、文本数据和多媒体数据的 数据挖掘算法、并行和分布式 数据挖掘技术 等。知识发现过程包括数据预处理技术,如数据去噪、有效样本选取、数据缩减 等, 此外,还有知识的 评估、 统一和解释、 数据和知识的可视化。 应用研究包括开 发各种 kdd系统和工具及 其在各 个行业中 的应用, 另外还包括一些有关数 据保密的 问题研究。到 目前为止,由美国人工智能协会主办的 k d d 国际研讨会己经召开了 多 次,国 际 kdd 学术 会议 起初每两年召开 一次,1 9 93 年后每年召开一次,规模由原 来的 专题讨论会发展到国际学术大会。在近几次国际 kdd学术会议上讨论的问题 有: 定性知识和定量知识的发现; 数据汇总; 知识发现方法: 数据依赖关 系的 发现和分析; 发现过程中 知识的 应用: 集成的交互式的知识发现系统; 知识发现的应用。研究重点也逐渐从发现方法转向系 统应用, 注重多 种发现策略和 技术的集成,以 及多种学科 之间的 相互渗透叫。1 9 99 年,亚太地区在北 京召开的第 三届 pak dd 会议收到 1 5 8篇论文,空前热烈 。i e e e的 k n o , l e d 只 eandd a t a 南京理工大学硕士学位论文数据挖掘技术在病人情况预报中的应用研究与实现 e ngi neeri ng会刊率先在 19 93 年出版了k dd 技 术专刊。并行 计算、 计算机网 络和信 息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨 论. 此外,在 i nter net上还有不少 kdd电 子出 版物,其中以半月刊 kn湃l edge d i s c o v e r yn u gge t s最为权威。在网上还有 许多自由 论坛,如 朋 肠a i lc l u b等。 至于 服 书籍, 更是琳琅满目。目 前,世界上比 较有影响的典型 数据 挖掘系统有: sas公司的 助t e l p r i s em i n e r 、1 毗 公司的 , 叮eho u s es t u d i o 、r u l e que s t r e s e arc h公司的 s e e s 、还有 c o v e r s t o 汀、e x p l ora 、kn叮l e d g en i s c o v e r y 叨 。 r kbl e n c h 、d bmi n er、que s t 等。 与国外 相比,国内对数据挖掘和知识发现 ( d m ki) 的研究稍微晚 一些,1 9 9 3年 国家自 然科学基金首次对该领域的研究项目 提供支持。目 前, 国内的 许多科研单位 和高等院 校竞相开展知识发现的基础理论及其应用研究。这些单位包括清华大学、 中科院计算技术研究所、空军 第三研究所、 海军装备论证中心等。 其中,北京系统 工程研究所对模糊方法在知识发 现中的应用进行了比较深入的研究, 北京大学也在 开展 对数据立方体代数的研究, 华中理工大学、复 旦大学、 浙江大学、中国科技大 学、中科院数学研究所、吉林大学等单位开展了 对关联规则开采算法的优化和改 造;南京大学、四川联合大学和上海交通大学 等单位探讨、 研究了非结 构化数据的 知识发现以及 , eb 数据挖掘。就目前来看, 洲 热点主要集中在网站的数据挖掘、生 物信息或基因的数据挖掘及其文本的数据挖掘。 现在许多单位已经开始进行数据挖掘技术的 研究。 许多论 文期刊 也相继发表了 形形色色的 关于数据挖掘技术应用的 文章, 这些文章也从很多方面谈了 将实际情况 与 d m 技术结合的运用,但几乎都只是处于探索阶段。在 目 前,还没有看到数据挖 掘在我国成功应用的案例,然而它作为一项新技术,一直被学术界和工商业界公认 为是数据库和人工智能领域最前沿、最活跃的研究方向之一。 2 . 2 数据 挖掘的定义 对数据挖掘有许多不同的 定义, 但他们几乎都 使用日 益增强的计算技术和高级 统计分析技术来揭示大型数据库中的可用关系。 数据挖掘与传统的 数据分析( 如查 询、 报表、联机分析) 的本质区别是数据挖掘是在没有明确假设的 前提下去挖掘信 息、 发现知识。 数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。先 前未知的 信息是指该信息是预先未曾 预料到的,即数 据挖掘是要发现那些不能 靠直 觉发现的信息或知识,甚至是违背直觉的信息 或知识, 挖掘出的 信息越是出 乎意 料,就可能 越有价值。 随 着来自 各个 领域的研究人员和应用开发者不断增多,数据挖掘技术演变为工 第二章 数据挖掘综述硕士论文 程领域的数据挖掘与科研领域的 k d d ,下面是对知识发现和数据挖掘比较被认可的 定 义: 知识发现( k n 皿l e d g e d i s c o v e r yi n d a t a b a s e s ) , 从数 据 库管 理系统中 存储 的大量数据中提取出可信的, 新颖的,有效的并被人理解的 模式的处理过程,以分 析数据,挖掘大量数据背后的知识,称为数据库中的知识发现。数据挖掘( d ata m ining ) 就是从数据集合中自 动抽取隐藏在数据中正确的、新颖的、 潜在有用的、最 终可以理解的非平凡的过程。 这些信息表现为规则、概念规律及模式等。可帮助决 策者分析历史数据及当前数据, 从中发现隐藏的关系和模式,进而预测未来可能发 生的行为。可见,知识发现和数据挖掘这两个术语在内涵上大致相同,对这两个术 语更严格的区分是在 “ 知识发 现%国际会议” 上;pi a t e ts k y一 sh a p l r o, f 目 ”a d 和 s m yth指出 阳11 : 知 识发 现 是 从 数 据库中 发 现知 识的 全 部 过 程, 而 数 据 挖掘则 是 这 些全部过程的一个特定的、关键的步骤。在本文中,我们采用数据挖掘的广义观 点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣 知识的过程阅。 数据挖掘处理的数据是指有关事实、记录和事物有关的原始信息。包括文本及 一些多媒体信息都可以通过转换而成为数据挖掘的目标。数据挖掘要挖掘的模式是 一个用语言来表示的一个表达式,可用来描述数据集的某个子集.它可以看作我们 平常所说的知识,给出了 数据的特性和数据之间的关系,是对数据包涵的信息更抽 象的描述。多个模式组合在一起可构成一个模型,一个数据挖掘模型可以用函数或 其它形式表示所有变量的概率分布,也可以用条件判断从一些变量的可能性分布得 出另外一些变量的概率分布。 2 . 3 数据挖掘的分类 数据挖掘分类涉及的学科领域和方法很多,从不同的角度有多种分类方法。根 据开采对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本 数据库、多媒体数据库、异质数据库、遗产数据库及万维网 , eb。根据开采方法 分,可粗略地分为:机器学习方法、统计方法、神经网络方法和数据库方法。在机 器学习中可细分为:归纳学习 方法 ( 决策树、规则归纳等) 、基于范例学习、遗传算 法等。 2 . 4 数据挖掘工作流程 数据挖掘的基本过程和主要步骤如下图2 . 4 , 1 : 南京理工大学硕士学位论文 教据挖掘技术在病人情况预报中的应用研究与实现 知识与信息 刻酬刹侧 挖掘后的数据 |州剧引 门日日日日日日日日 变换后的数据 |川引引 选择后的数据 |习副引 集成后的数据 厂!| 原始数据 图2.41数据挖掘基本过程 (l)数据预处理 数据预处理对于数据挖掘的成功应用至关重要,i bm 等咨询公司己经证实了数 据预处理需要消耗整个数据挖掘过程中 5 既一 8 0%的资源11,如果没有数据预处理阶 段,单纯地进行数据挖掘,则将很可能成为一个盲目 搜索的过程,可能会得出毫无 意义或错误的结果。数据预处理大致分为3 步:数据集成、数据选择和数据变换。 数据集成: 从多个异质操作性数据库、文件提取并集成数据, 解决语义二义 性,统一不同格式的数据,消除冗余重复存放数据的现象,同时还清洗数据,包括 对噪声数据、缺乏数据及异常数据等的处理。 数据选择:在相关领域和专家知识的指导下,辨别出需要进行分析的数据集 合,缩小挖掘范围,避免盲目 搜索,提高数据挖掘的效率和质量。 数据变换:将数据变换成一个分析模型,这个分析模型是针对挖掘算法建 立,一个真正适合挖掘算法的分析模型的建立是数据挖掘成功的关键。 另外,在数据预处理阶段中,引入领域专家可以帮助定义具体问题和用户需 求,使模型更直观,限制搜索空间,以便高效率地发现更精确的知识,对发现的结 果进行后处理,从中过滤出有意义、有价值的知识和信息。 (2 ) 挖掘知识和信息 在数据经过预处理之后,确定系统要实现的功能及任务是属于数据挖掘中哪种 类型,然后选择合适的挖掘技术,接着根据选定的挖掘技术选择具体的算法。选择 数据挖掘算法要确定搜索数据中隐藏模式的方法,如确定适当的模型和参数集合, 还应将这一具体的技术与数据挖掘的全局目 标匹配,用选定的算法或算法组合在模 式空间中进行反复迭代的搜索,从数据集合中抽取出隐藏的、新颖的模式。这一步 是整个数据挖掘过程的核心所在,有关具体的挖掘算法参考2 . 5 节。 (3 ) 挖掘结果的解释与评价 第二章 数据挖掘综述硕士论文 这个过程就是对挖掘出的结果进行分析和处理,从中过滤出有用的知识。具体 包括消除无关的、多余的模式,过滤出要呈现给用户的信息,利用可视化技术将有 意义的模式以图形或逻辑可视化的形式表示,转化为用户可理解的语言。一个成功 的数据挖掘的应用能将原始数据转换为更简洁、更易理解、可明确定义关系的形 式。此外还包括解决发现的结果与以前知识的潜在冲突,及利用统计方法对模式进 行评价,决定是否要重复以 前的操作,以 得到最优、最适合的模式侧。数据挖掘抽 取的信息经过事后处理可用于解释当前或历史现象,预测未来可能发生的情况,使 决策者参照过去发生的事实中抽取的信息进行决策指定。 值得注意的是,上述过程并非是一个线性的过程。其中的每一步都可能需要验 证和反复,在执行中可能会包含若干个子循环,因此每一步也都应该有一个量化性 能评价指标。 2 , 5 数据挖掘技术的主要方法 2 5 ) 数据挖掘的知识与模式 数据挖掘要发现知识,数据挖掘算法表达这些知识的方式是发现数据中包含的 模式。模式是数据集的某种抽象描述。知识可以分为广义知识,关联知识,分类知 识,预测型知识, 偏差型知识叫。 广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、 带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是 对数据的概括、精炼和抽象。广义知识的发现方法和实现技术有很多,如数据立方 体 “ 0 以p , 、面向属性的归 约等。数据立方体的基本思想是实现某些常用的代价较高 的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在 多维数据库中。既然很多聚集函数需经常重复计算,那么在多维数据立方体中存放 预先计算好的结果将能保证快速响应,并可灵活地提供不同角度和不同抽象层次上 的数据视图。由加拿大 simon f r aser 大学提出的面向属性的归约方法以类 s q l语 言表示数据挖掘查询,收集数据库中的相关数据集,然后在相关数据集上应用一系 列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阐值控制、计数 及其他聚集函数传播等。 关联知识反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属 性之间存在关联, 那么其中一项的属性值就可以依据其他属性值进行预测。最为著 名的关联规则发现方法是 r . a gr朋al 提出的 apriori算法。关联规则的发现可分 为两步。第一步是迭代识别所有的频繁项目 集,要求频繁项目 集的支持率不低于用 户设定的最低值;第二步是从频繁项目 集中构造可信度不低于用户设定的最低值的 规则。识别或发现所有频繁项目 集是关联规则发现算法的核心,也是计算量最大的 l 0 南京理工大学硕士学位论文数据挖掘技术在病人情况预 报中的应用研究与实现 部分。 分类知识反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知 识。 最为典型的分类方法是基于决策树的分类方法。 它是从实例集中 构造决策树, 是一种有指导的学习方法。该方法先根据训练子集 ( 又称为窗口) 形成决策树。如 果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该 过程一直到形成正确的决策集。 最终结果是一棵树,其叶结点是类名,中间结点是 带有分枝的属性,该分枝对应该属性的某一可能值。 预测型知识根据时间序列型数据,由 历史的和当前的数据去推测未来的数据, 也可以认为是以时间为关键属性的关联知识。目 前,时间序列预测方法有经典的统 计方法、神经网络和机器学习等。1 9 68 年 box和 j enk i n s提出了 一套比较完善的 时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,如自回归 模型、自回归滑动平均模型、求和自回归滑动平均模型和季节调整模型等,进行时 间序列的预测。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间 的推移而发生变化。因此,仅仅通过对某段历史数据的训练,建立单一的神经网络 预测模型,还无法完成准确的预测任务。为此,人们提出了基于统计学和基于精确 性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练, 获得新的权重参数,建立新的模型。也有许多系统借助并行算法的计算优势进行时 间序列预测。 偏差型知识可以发现其他类型的知识,它是对差异和极端特例的描述,揭示事 物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。所有这些知 识都可以 在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到 宏观,以满足不同用户不同层次决策的需要。 数据挖掘算法从数据中发现模式,从而得到知识。模式有很多种,按功能可分 有两大类:预测型( pre d i c t i ve) 模式和描述型( d e s c rip t i ve) 模式。预测型模式是可 以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是 可以明确知道结果的。描述型模式是对数据中存在的规则做一种描述,或者根据数 据的相似性把数据分组。描述型模式不能直接用于预测。在实际应用中,根据模式 的实际作用分为 6种: 1 . 分类模式是一个分类函数( 分类器) ,能够把数据集中的 数 据 项映 射 到 某个 给定的 类上。 分 类 模式 往往 表 现为一 棵 分 类树, 根 据 数 据的 值 从 树根开始搜索, 沿着数据满足的分支往上走, 走到 树叶就能 确定类别。2 , 回归 模式 的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散的,回归模 式的预测值是连续的。 3 . 时间序列模式根据数据随时间变化的趋势预测将来的 值。 这里要考虑到时间的特殊性质,像一些周期性的时间定义如星期、月、季节、年 第二章 数据挖掘综述硕士论文 等,不同的日 子如节假日 可能造成的影响,日 期本身的计算方法,还有一些需要特 殊考虑的地方如时间前后的相关性( 过去的事情对将来有多大的影响力) 等。只有充 分考虑时间因素,利用现有数据随时间变化的一系列的值, 才能更好地预测将来的 值。4 . 聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽 可能小。与分类模式不同,进行聚类前并不知道将要划分成几个组和什么样的组, 也不知道根据哪一( 几) 个数据项来定义组。一般来说,业务知识丰富的人应该可以 理解这些组的含义,如果产生的模式无法理解或不可用, 则该模式可能是无意义 的,需要回到上阶段重新组织数据。 5 . 关联模式是数据项之间的关联规则。 6 , 序 列模式与关联模式相仿,而把数据之间的关联性与时间联系起来。为了发现序列模 式,不仅需要知道事件是否发生,而且需要确定事件发生的时间。在解决实际问题 时,经常要同时使用多种模式。分类模式和回归模式是使用最普遍的模式。分类模 式、回归模式、时间序列模式也被认为是受监督知识,因为在建立模式前数据的结 果是己知的,可以直接用来检测模式的准确性,模式的产生是在受监督的情况下进 行的。一般在建立这些模式时,使用一部分数据作为样本,用另一部分数据来检 验、校正模式。聚类模式、关联模式、序列模式则是非监督知识,因为在模式建立 前结果是未知的,模式的产生不受任何监督。 1 5. 2 数据挖掘技术和算法 数据挖掘技术和算法研究发现这些知识和模式的方法,从不同的角度看,数据 挖掘技术有多种分类方法,如根据发现的知识种类分类,根据挖掘的数据库类型分 类,根据挖掘方法分类,根据挖掘的途径分类,根据所采用的 技术分类丝 川 等等。 目前常用的数据挖掘技术内容包括如下: (l)决策树方法。利用信息论中的互信息 ( 信息增益)寻找数据库中具有最大信 息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支,在每 个分支子集中重复建立树的下层结点和分支的过程,即可建立决策树。国际上最有 影响和最早的决策树算法是qui ulan 研制的i d3 方法洲, 数据库越大其效果越好。 决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量 做决策树。一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数 ( 最小节点的大小,最大树的 深度等等) ,来限 制决策树的 overf itting。 决策树是 一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试, 该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。 首先,通过训练集生成决策树,再通过测试集对决策树进行修剪。决策树的功能是 预言一个新的记录属于哪一类。决策树中最上面的节点称为根节点,是整个决策树 南京理工大学硕士学位论文致据挖掘技术在病人情况预报中的 应用研究与实现 的开始。决策树的每个节点子节点的 个数与决策树在用的算法有关。 如 以rt 算法 得到的决策树每个节点有两个分支,这种树称为二叉树。允许节点含有多于两个子 节点的树称为多叉树。每个分支要么是一个新的决策节点,要么是树的结尾,称为 叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每 个节点上问 题的不同回答导致不同的分支, 最后会到达一个叶子节点。这个过程就 是利用决策树进行分类的过程,利用几个变量 ( 每个变量对应一个问 题)来判断所 属的类别 (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论