(计算机软件与理论专业论文)基于聚类分析的医疗保险系统.pdf_第1页
(计算机软件与理论专业论文)基于聚类分析的医疗保险系统.pdf_第2页
(计算机软件与理论专业论文)基于聚类分析的医疗保险系统.pdf_第3页
(计算机软件与理论专业论文)基于聚类分析的医疗保险系统.pdf_第4页
(计算机软件与理论专业论文)基于聚类分析的医疗保险系统.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着计算机技术的不断进步,医疗保险自身管理运作的信息化成为 必然。本论文所提到的医疗保险系统就是针对医疗保险业务管理运作而 开发的,并将聚类分析技术应用于该系统中。聚类分析是数据挖掘中的 核心技术,是一种数据划分或分组处理的重要手段和方法。本系统的开 发是聚类分析技术在医疗保险领域进行的一次尝试。 本文介绍了数据挖掘和聚类分析的相关概念和技术,在此基础上详 细研究了现存的各种主要有代表性的聚类算法,完成了对这些算法缺点 与优势以及各自所适应的具体情形的分析。重点讨论了聚类分析在医疗 保险系统开发中的实际应用,介绍了医疗保险系统的总体设计方案以及 医疗管理科的部分详细设计。 关键词:数据挖掘聚类分析层次聚类方法k 1 1 1 e a n s 算法医疗保险 a b s t r a c t w i mt h ed e v e l o p m e n to fc o m p u t e ft e c h n o l o g y ,i tb e c o m e sn e c e s s a r yt 0 c h a l l g ct l l em a l l a g e m e ma i l d0 p e r a t j o no fm e d i c a l e a t n l e n ti n s u r 柚c ei t s c l f t om o r ci 0 珊a t i o n t h em e d i c a lt r c a t m e ti n s u r a n c es y s t e mi nt h i sp a p e r i sd e v e l o p e df o ft h em a n a g e m e n t 粕do p e r a t i o no ft h em e d i c a lt i e a 乜l l e n t i i l s u 埘】c e ,a i l d 印p l i e s 也et e c l l i i o l o g y0 fc l u s t e ra l l a l y s i st ot h i ss y s t e m a u s t e r 锄a l y s i si st h cc o r ct e c 量l n i q u eo fd a t am i n i ga i l di sa i li m p o r t a n t m e t h o do fd a t ap a n i t i o no rg m u p i n g i ti sa na t t e m p to fa p p l yt e c l l i l o l o g yo f c l u s t e ra n a l y s i si nt h em e d i c a lt r e a 曲e n ti n s u r 盐c ef i e l d t h i sp a p e ri n 仃o d u c e st l l e n c e p t sa n dt e c h n i q u e sa b o u td a t am i n i n g a l l dd u s t c r 姐a l y s i s h ls u c c e s s i o nb a s e d0 nt h eb r i e fe x p l a l l a t i o no fc l u s t e r a n a l y s i s ,a n a l y z i n gt h er e p r e s e n t a t i v ea n dl e a d i n ga l g o r “h 1 1 l so fd u s t e r i gi n e x i s t e n c ea n dd o g g c do u tt h e i ra d v a l l t a g e sa n dd i s a d v a l l t a g e sa sw e na s t t l e i r sc o n d i t i o ni np o i n t d i s c u s st h ep r a c t i c a la p p l i c a t i o no fd u s t e ra n a l y s i s i n d e v e l o p m e n to fm e d i c a lt r e a t m e n ti n s u r a n c es y s t e m w i t h e m p h a s i s , i n t r o d u c et h ed e s i g no fm e d i c a lt r e a t m e n ti n s u r a n c es y s t e ma i l dd e p a n m e n t o fm e d i c a lm a i l a g c m e n ti nt h i ss y s t e m k e yw o r d s :d a t am i n i n g c l u s t e j ra n a l y s i sh i e m r c h i c a im e t h o d k - m 蚰n sa i g o t h m sm e d i 1 i h a t m e n ti n s u 埔n c e 第一章绪论 1 1 课题研究的目的和意义 随着中国经济体制改革的进一步深化,为不断完善社会保障体系, 国家医疗保险制度改革政策相继出台。医疗保险制度的改革直接关系到 国计民生,在计划经济体制向市场经济体制转化的过程中具有举足轻重 的作用,是社会主义市场经济的一项基础建设。 通过总结各地改革探索的经验,社会医疗保险制度采取了社会统筹 与个人账户相结合的方式。城镇职工医疗保险制度是一种适应市场经济 体制,根据财政、企业和个人的承受能力,保障职工的基本医疗需求的 社会医疗保险制度。通过合理配置和充分利用医疗资源,保障广大职工 的基本医疗保险,充分体现了“低水平、广覆盖”的思想。 目前,我国社会保险制度改革已在全国范围逐步展开,为了落实此 项涉及国计民生的重大国策,迫切需要一种能与之相适应的技术手段和 工具来完成,特别是在制定各种医疗保险政策及整个医疗保险的信息管 理等方面,需要有先进的技术和应用成果支持。本论文所提到的医疗保 险系统就是为适应这一要求而开发的。 早期的医疗保险管理系统大多采用的是c s 结构( c l i e n t s e r v e r 一客户端服务器) ,并且基本上没有采用聚类分析技术,本论文中提到 的医疗保险系统采用的是基于w 阻的b s 结构( b r o w s e r s e r v e r - 一浏览 器服务器) ,并将聚类分析技术应用于医疗保险系统开发中。 本系统基于聚类分析技术使城镇职工医疗保险系统信息化,数据传 输更加及时准确,使各级医疗保险经管单位和各类医疗机构的协作更密 切快捷,保证了医疗保险各项资金及时准确的在整个系统内流动,实现 无纸化办公。 对于各级医疗保险经管单位,系统将工作人员从繁杂琐碎的各类业 务中解放出来,提高了工作效率,保证了各项数据的精确性,方便了对 于各项资金的管理。 对于参加医疗保险的单位和个人,当参保人在定点医疗单位享受医 疗待遇时不必再经过繁琐的申报结算过程,减少了大量现金流动,方便 了参保人,同时也减轻了定点医疗单位的日常业务负担。 使用目前领先的非接触式i c 卡技术,让参保人看病、治病、报销 等步骤更简便,参保人可以自由查询各项信息以及整个医保中心协同工 作情况、资金使用情况,加大了医疗保险行业的透明度。 完善的医疗保险制度是现代社会发展程度的一个重要标志,成功的 医疗保险系统是医保制度中不可或缺的重要组成部分。本系统作为计算 机应用技术在医疗保险系统中的一次尝试,取得一定成功将在医保领域 继续发挥作用。也将使聚类分析技术能够更广泛的应用于其他领域。 1 2 国内外研究现状 1 国外研究现状 世界上研究数据挖掘的组织、机构或大学很多。比较著名的如卡内 基梅隆大学( 有机器制造d m 、多媒体数据库d m 、互连网d m 三个研 究中心) 、斯坦福大学、麻省理工学院。著名研究机构如:a c m ( a c m s p c c i a lh l t e r e s tg r o u po nk n o w l e d g ed i s v e r yi nd a t aa l l dd a t am i n i n g ) 、 ) n e t ( t h ee u f o p e a l lk n o w l e d g ed i s c o v e r yn e 俩o r ko fe x c e l l e n c e ) 、 n c d m ( 1 1 i e t i o n a lc e n t c rf o rd a t am i i i i n g c d m ) a tt h eu n i v e r s i t yo f n i n o i sa tc h i c a g o ( u c i ) ) 。 i e e e 的k n o w l e 衄:e 粕d d a t a e n g i n e e r i n g 会刊率先在1 9 9 3 年出版了 k d d 技术专干i 。并行计算、计算机网络和信息工程等其他领域的国际 学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍 炙人口的程度。此外,在h n e m e t 上还有不少k d d 电子出版物,其中 以半月刊k n o w l e d g ed i s c o v e r yn u g g e t s最为权威 ( h 址p :,舾w w k 血u 骼c t s c o i i l s u b s c r i b e h t m l ) 。i e e e 的l ( 芏l o w k d g e 弛d d a t ae n 西n e c 咖g 会刊在1 9 9 3 年出版的k d d 技术专刊,所发表的5 篇 论文代表了当时k d d 研究的最新成果和动态,较全面地论述了k d d 系统方法论、发现结果的评价、k d d 系统设计的逻辑方法,集中讨论了 鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,k d d 系 统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系 统的联系和区别,以及相应的基本对策。6 篇论文摘要展示了k d d 在 从建立分子模型到设计制造业的具体应用。在网上还有许多自由论坛, 如d me m a i lc l u b 等。此外,数据库、人工智能、信息处理、知识工程 等领域的国际学术刊物也纷纷开辟了k d d 专题或专刊。 不仅如此,在i n t e m e t 上还可以下载各种各样的数据挖掘工具软件 和典型的样本数据仓库,供人们测试和评价。在线周刊d s + ( d s 代表决 策支持) ,1 9 9 7 年1 0 月7 日开始出版,可向d s t 血1 t g c c o m 提出免费 订阅申请。在网上,还有一个自由论坛d me m a i lc l u b ,人们通过电子 邮件相互讨论d m k d 的热点问题。其它相关数据挖掘的站点有数百个 之多,下面列出的是几个较为著名的站点。 h p ;2 z 巡螋丝:女自自l ! 业9 2 b t 监;以w w 型:亘j d c s c m u e d “ 2 b ! 姬;z z 型巡巡:q p ! ! 喳! q 匝z b q 幽z b 丛巳;z z 巡塑巡:盟l s b :叠:q 四z b 毡臣;z z 烈巡巡: 2 壁甚q 盟z g 自鹭田i d i d g z b 选巳;z z 丛螋巡:担d d 坌q 刭芏b :q g z b 建q ;z z ! 睦:巡巡塑! 煦k 自臣:q1 2 b 丛巳;z 2 自g 口:塑班巡:0 e d l i ! 田l 生! 垡h z g q u q s z 自9 2 d 5 至于d m k d 的专业书籍,目前已达2 5 0 本之多,可以在任何大型 书店找到十本以上的专业书。 2 国内研究现状 与国外相比,国内对d m k d 的研究稍晚,没有形成整体力量。1 9 9 3 年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的 许多科研单位和高等院校竟相开展知识发现的基础理论及其应用研究, 这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海 军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现 中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的 研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数 学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造; 南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化 数据的知识发现以及w 曲数据挖掘。 1 3 课题研究的主要内容 医保管理中心由许多部门组成,各个部门之间又有复杂的协作关 系。因此,聚类分析技术应用于医疗保险系统,主要在于医疗保险系统 的协作优化方面。所以,本项目主要是针对聚类算法的分析和实际应用 的研究。 本人在基于聚类分析的医疗保险系统的设计与实现过程中,主要负 责参与整个医疗保险系统的总体设计,以及医疗管理科的详细设计和开 发。 本文研究的主要内容涉及以下几方面: ( 1 ) 介绍关于数据挖掘技术和聚类分析技术的基础概念、相关知识。 ( 2 ) 对现存的各种常用的聚类算法多方面性能进行比较分析。 ( 3 ) 在实际医疗僳险系统中应用的聚类分析技术的研究,主要包括 。距离与相似技术、层次聚类算法、划分聚类方法中k m e a n s 算 法的研究。 ( 4 ) 整个医疗保险系统的总体设计,在设计过程中使用层次聚类算 法对医疗保险信息系统进行功能模块划分,以及医疗管理科的 详细设计与实现。 第二章数据挖掘和聚类分析 本章主要介绍数据挖掘和聚类分析的相关知识,包括数据挖掘的概 念、系统组成、过程、方法和技术,在此基础上讨论数据挖掘的研究现 状、熟点和未来发展方向。同时给出聚类和聚类分析的概念,讨论聚类 分析中相似度度量的方法、两种常用的数据结构,以及聚类分析的一些 典型要求,本章是整个论文研究的基础部分。 2 1 数据挖掘概述 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提 高,无数个数据库被用于商业管理、政府办公、科学研究和工程开发等, 这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被 称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何 才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息 利用率呢? 要想使数据真正成为一个公司的资源,只有充分利用它为公 司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包 袱,甚至成为垃圾。传统的数据分析方法( 如统计等方法) 只能获得数 据的表层信息,而不能获得数据属性的内在关系和隐含的信息,即不能 获得重要的知识。这样,快速的数据产生和拙劣的数据分析方法之间形 成了鲜明的对照,这需要新的技术来“智能地”和“自动地”分析这些 原始数据,以使消耗大量财力与物力、收集与整理的宝贵数据得以利用。 因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据 挖掘和知识发现( d m k d ) 技术应运而生,并得以蓬勃发展,越来越显示 出其强大的生命力。 2 1 1 数据挖掘的概念 数据挖掘,英文是d a t am i n i n g 。数据挖掘的历史虽然较短,但从 2 0 世纪9 0 年代以来,它的发展速度很快,人们提出了多种数据挖掘的 定义,例如: s a s 研究所( 1 9 9 7 ) : “在大量相关数据基础之上进行数据探索和 建立相关模型的先进方法”。 b h a v a n i ( 1 9 9 9 ) :“使用模式识别技术、统计和数学技术,在大量 的数据中发现有意义的新关系、模式和趋势的过程”。 h a n d e t a l ( 2 0 0 0 ) :“数据挖掘就是在大型数据库中寻找有意义、有 价值信息的过程”。 目前对数据挖掘技术一种比较公认的定义是w j f r a w l e v , g p i a t e t s k y s h a p i r o 等人提出的:数据挖掘i l j ,就是从大型数据库的数据 中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信 息,提取的知识表示为概念( c 0 n c e p t s ) 、规则( r u l e s ) 、规律 ( r e g i l l a r i t j e s ) 、模式( p a t t e m s ) 等形式。 从数据挖掘的定义可以看出,作为一个学术领域,数据挖掘和数据 库中知识发现k d d ( 虹o w l e d e g ed i s c o v e r yi nd a t a b 鹤e s ) 具有很大的重合 度,大部分学者认为数据挖掘和知识发现是等价的概念,人工智能( 筋) 领域习惯称k d d ,而数据库领域习惯称数据挖掘。数据挖掘从理论和 技术上继承了知识发现领域的成果,同时又有着独特的内涵。数据挖掘 更着眼于设计高效的算法以达到从大量数据中发现知识的目的 2 l 口数据 挖掘充分利用了机器学习、人工智能、模糊逻辑、人工神经网络、分形 几何的理论和方法l j j 。 人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。 原始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构 化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。 发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也 可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支 持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门 广义的交叉学科,它涉及到机器学习、模式识别、统计学、数据库、知 识获取、数据可视化、高性能计算、专家系统等多个领域。数据挖掘的 成果可以用在信息管理、过程控制、科学研究、决策支持等许多方面。 特别要指出的是”j ,数据挖掘技术从一开始就是面向应用的。它不 仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微 观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解, 企图发现事件问的相互关联,甚至利用已有的数据对未来的活动进行预 测。例如加拿大b c 省电话公司要求加拿大s i m o nf r a s e r 大学k d d 研 究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费 和管理办法,制定既有利于公司又有利于客户的优惠政策。美国著名国 家篮球队n b a 的教练,利用某公司提供的数据挖掘技术,i 临场决定替 换队员,一度在数据库界被传为佳话。这样一来,就把人们对数据的应 用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。 这种需求驱动力,比数据库查询更为强大。 同时需要指出的是,这里所说的知识发现,不是要求发现放之四海 而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更 不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和 约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用 自然语言表达发现结果。因此d m k d 的研究成果很讲求实际。1 9 9 7 年 第3 届k d d 国际学术大会上进行的实实在在的数据挖掘工具的竞赛评 奖活动,就是一个玺动熬琶骥。最近,还毒不少d m l 国产品耀来簿逸 m t e f n e t 上的新闻,保护用户不受无聊电予邮件和商业推销的干扰,受 到极大的欢迎。 2 1 2 数据挖掘系统的组成 采用k d 移瓣广义疑点:翔d 是从存放在数爨露、数据仓辫或其煞 信息库中的大激数据中挖掘有趣有意义的知识的过程。基于此观点典型 的k d d 系统主要由以下几个部分组成。 数攥露、鼗撂念瘴或菇毽蓿爨瘁 它们怒进行数据挖掘的数据源,是一个或一组数据库、数据仓 露、电子表格或其他类型的信息库。可以谨他们的数据上进圣亍数搬 清瑾帮集成。 数据滕或数据仓库服务器 根据鼹户熬数据挖掇簧求,数据库或数据仓露鼹务嚣受赛提取 相关的数据。 知识库 这是特定豹镁域知谈,霜予指导攘豢或评嵇结采模式静兴趣 度。这种知识可能包括概念分层,用于将属性或属性值组织成不同 的抽象层。其中用户确信方面的知谈也可以包含衣内。可以使用这 种知识,嘏据菲期凝住评储模式的兴趣度。领域知识的其它例子有 兴趣度限制或阚值和元数据( 例如,描述来自多个异种数据源的数 据) 。 数据挖掘引擎 这是数据挖掘的最重要的基本部分。由一组功能模块组成,粥 予李誊往纯、关联、分类、聚类分轿竣及演变稻编熬分耩。 模式评估模块 通常贱成分使月兴趣嶷度量,并与数据挖掘模块交互,l 蔓便姆 援索聚集在有趣的模式上。它可麓使用兴趣度阖德过滤麓现的模 式。模式评估模块也可以与挖掘模块集成强一起,这依赖于所用的 数攥挖掘方法熬实溪。雳予鸯效辫数握挖掇逮程之中,鞋缓垮搜索 限制在有兴趣的模式上。 图形用户界厩 燕辏块在焉声稻数据挖掘系绞之溺邋信,允诲霸户与系统交 互,指定数据挖掘髓询的任务,提供信息、帮助搜索聚焦,根据数 据挖掘的中闽结果避行探索式数撼挖掘。此外,北成分还兔诲用户 溺筵数据瘁和数据仓库模式或数掭结构,评估挖掘韵模式,以不同 5 的形式对模式可视化。 懿糕麴数撵挖掇系绫结梅麴罂2 ,l 爨幂,潮中表示疆了数瓣藏摄系 统中番个功能模块之间的相互作用和依赖荚祭。 数据清 图2 1 典型的数据挖掘系统缩构图 2 3 数莛攘掘的遵粳 数据筵撵逶程一般凑3 夺主要懿狳骏缀袋:数撵壤备、挖穗攥终、 缝袋液遮窝簿释。 1 + 数据准备阶段 这个阶段又可进一疹分成3 个孑步骥,数据集成、数据选择、数撰 鞭簸毽。数攥集成褥多文件或多数据撵运行环境中鹩数据进行合并簸 理,解状语义模糊性、处理数搬中的遗漏和潢洗脏数掇等。数攒选择的 霹酌蹙辫爨毒嚣要分褥靛数爨巢台,缩小熟壤菠整,提高数撵笼缀的鬟 藿。琰娃理是为了竞溅瓣麓数鬻整摇王其麴弱耀往。 2 数据挖捅阶段 这个跨段避行实黻靛挖箍攥律。趣禚豹癸点有: 1 ) 要先决定如何产生假设,是让数据挖掘系统为用户产生假设, 还是用户自己对数据瘁中可能包食的知识提出假设。辩一种称 为笈璇墅 d i s 鸺r v 。胁i v e n ) 静数爨挖掘:盾一季孛称为验证鼙 了 ( v c f i f i c a t i o n d t i v e n ) 的数据挖掘; 2 ) 选择合适的工具: 3 ) 挖掘知识的操作; 4 ) 证实发现的知识。 3 结果表述和解释阶段 根据最终用户的决策目的对提取的信息进行分析,把最有价值的信 息区分出来,并且通过决策支持工具提交给决策者。因此,这一步骤的 任务不仅是把结果表达出来( 例如采用信息可视化方法) ,还要对信息 进行过滤处理。如果不能令决策者满意,需要重复以上数据挖掘的过程。 图2 2 给出了数据挖掘的过程。 数据准备 数据挖掘结果表达和解释 数据源 i 一一i j i 一1 图2 2 数据挖掘过程图 2 1 4 数据挖掘的方法和技术 数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统 的统计分析方法、模糊数学方法以及科学计算可视化技术,以数据库为 研究对象,形成了数据挖掘方法和技术吼 表2 1 是摘自l 涮n u g g c t s c o m 的关予常用数据挖掘技术使用状况的 份最瓶调查: 液2 一l 数据挖掘技拳使瓣状涎表 上表说明:当黼髓界流行的数据挖撅方法或技术可以宵以下几太 类。 1 信息论方法( 决策树方法) 信息论方法是利用信息论的原理建立决策树。在知识工程领域,决 策褥是一穗篱单的知谈表示方法,它褥攀倒逐步分类成代表不同静类 攒。鑫予势类麓粥憝豫较蹇溪夔,嚣嚣魄坡易予理解。该类方法豹实溺 效果好,影响较大。由予该方法最后获褥的知识表示形式蹩决策树,故 一般文献中称它为决策树方法。这种方法一般限于分类任务。在系统中 采用这种方法的有美湖的i d i s ,法国的s i p i n a 。英国的c l e m e n t i n c 和 澳大利亚的c 5 o 。信息论方法中较有特色的方法有: l b i 量方法i b l e 方法,是利用信息论中信道容量,寻找数据 9 库中信息量从大到小的多个字段的取值建立决策规则树的一个结点,根 据该结点中指定字段取值的权值之和与两个阈值比较,建立左、中、右 三个分枝,在各分枝子集中重复建树结点和分枝的过程,这就建立了决 策规则树。m l e 方法比l d 3 方法在识别率上提高了十个百分点。 i d 3 等方法一q u i u l 粕研制的i d 3 方法是利用信息论中互信息 ( 信息增益) 寻找数据库中具有最大信息量的字段,建立决策树的一个 结点,再根据字段的不同取值建立树的分枝,再由每个分枝的数据子集 重复建树的下层结点和分枝的过程,这样就建立了决策树。这种方法对 数据库愈大效果愈好。i d 3 方法在国际上影响很大。i d 3 方法以后陆续 开发了i d 4 、i d 5 、c 4 5 等。 2 聚类方法 聚类分析:直接比较样本中各样本之间的距离,将距离较近的归为 一类。而将距离较远的分在不同类中。它把一个给定的数据对象集合分 成不同的簇;是一种无监督分类法。 其中较有特色的方法有:k _ m e 孤s 算法、c l a r a 算法、b m c h 算法、 c h 锄e l e o n ( 变色龙) 算法、c u q u e 算法。 此外还有的一些其它的聚类算法如:r o c k 算法、c u r e 算法、层 次聚集等几十种。 3 统计分析方法 利用统计学原理对数据库中的数据进行分析。属于这类商品有美国 的s a s ,s p s s 和s t 盯掣a p h i s 等。 1 ) 常用统计:求大量数据中的最大值、最小值、总和、平均值等。 2 ) 相关分析:求相关系数来度量变量间的相关程度。 3 ) 回归分析:求回归方程( 线性或非线性) 来表示变量间的数量关 系。 4 ) 差异分析:从样本统计量的值得出差异,来确定总体参数之间是 否存在差异( 假设检验) 。 5 ) 判别分析:建立一个或多个判别函数,并确定一个判别标准。对 未知对象利用判别函数将它划归某一个类别。 6 ) b a y c s 网络:利用联合概率和b a y e s 公式所描述的各网络变量( 节 点) 间的因果关系来进行数据分析。 4 仿生物技术 仿生物技术典型的方法是神经网络方法和遗传算法。这两类方法已 经形成了独立的研究体系。它们在数据挖掘中也发挥了巨大的作用,我 们将它们归并为仿生物技术类。 1 ) 神经网络方法一它是模拟了人脑神经元结构,以m p 模型和 h e b b 学习规则为基础的,建立了三大类多种神经网络模型。 前馈式网络:它以感知机、b p 反向传播模型、函数型网络为代 表。此类网络可用于预测、模式识别等方面。 反馈式网络:它以h o p f i e l d 的离散模型和连续模型为代表,分别 用于联想记忆和优化计算。 自组织网络:它以舢玎模型、k o h o n e n 模型为代表。它们用于 聚类。 神经网络的知识体现在网络连结的权值上。是一个分布式矩阵结 构。神经网络的学习体现在神经网络权值的逐步计算上( 包括反复迭代 或者是累加计算) 。当需要复杂或不精确数据中导出概念和确定走向比 较困难时,利用神经网络技术特别有效。经过训练后的n n 可以想像具 有某种专门知识的“专家”,因此可以像人一样从经验中学习。它已广 泛地应用于各种d m ( k d d ) 工具和软件中。有些是以n n 为主导技术, 例如俄罗斯的p o l y a n a l y s t ,美国的b r a i n m a k e r ,n e u m s e l l 和o w l 等, n n 技术也已广泛地做为一种方法嵌入各种d m 成套软件中。 2 ) 遗传算法一这是模拟生物进化过程的算法。它由三个基本算子 组成: 繁殖( 选择) :从一个旧种群( 父代) 选择出生命力强的个体产 生新种群( 后代) 的过程。 交叉( 重组) :选择两个不同个体( 染色体) 的部分( 基因) 进 行交换,形成新个体。 变异( 突变) :对某些个体的某些基因进行变异( 1 变o ,0 变1 ) 。 这种遗传算法起到产生优良后代的作用。这些后代需要满足适应 值,经过若干代的遗传,将得到满足要求的后代( 问题的解) 。遗传算 法已在优化计算和分类机器学习方面发挥了显著的效果。这种方法的商 用产品有美国的g e n e h u n t e r 、俄罗斯的p o l y a n a l y s t 。据报导,它用于 金融及医疗方面的各种应用,能获得很好的效果。 5 可视化技术 可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析 更清楚。例如把数据库中多维的数据变成多种图形,这对于揭示数据中 的状况,内在本质以及规律性起到很强的作用。 可视化数据挖掘的目的是使用户能够交互地浏览数据,挖掘过程 等,当所要识别的不规则事物是一系列图形而不是数字表格时,人的识 别的速度是最快的。可分为: 1 ) 源数据可视化:源数据可视化能够表现出源数据是如何分布的, 能用多种可视化方式进行描述,比如三维立方体或曲线等。 2 ) 规则可视化:用规则多边形表现规则。 3 ) 数据挖掘结果可视化:将数据挖掘后得到的知识和结果用可视化 形式表示出来。比如柱状图等。 4 ) 数据挖掘过程可视化:用可视化形式描述各种挖掘过程,从中用 户可以看出数据从哪个数据仓库或数据库中抽取出来,怎样抽取以及怎 样预处理,怎样挖掘等。 6 模糊数学方法 利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式 识别和模糊聚类分析。 由于模糊性是客观的存在,而且系统的复杂性愈高,使精确化能力 便愈低,这就意味着模糊性愈强。这是z a d e h 总结出的互克性原理。以 上提到的模糊方法都取得了较好的效果。 7 其它的方法 还有许多其它的方法如上表中所列的逻辑回归方法、关联规则方 法、最近邻方法、文本采掘、w e b 采掘、序列分析、s v m 、h y b r i d 等,也常被一些特定领域广泛采用。 2 1 5 数据挖掘研究热点和未来发展方向 自k d d 一词首次出现在1 9 8 9 年8 月举行的第1 l 届国际联合智能 学术会议以来。迄今为止,由美国人工智能协会主办的k d d 国际研讨 会规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超 过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系 统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术 的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据 挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。 1 数据挖掘研究热点 就目前来看,相关的几个热点包括网站的数据挖掘( w 曲s i t ed a t a m i n i n g ) 、生物信息或基因( b i o i n f 0 册a t i c s g e n o m i c s ) 的数据挖掘及其文 本的数据挖掘( t e x t u a lm i n i n g ) 、分布式数据挖掘、可视化的数据挖掘等。 下面就这几个方面加以简单介绍。 夺网站的数据挖掘 w e b 上有海量的数据信息,怎样对这些数据进行复杂的应用成了现 今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规 律性的内容,解决数据的应用质量问题。充分利用有用的数据,废弃虚 伪无用的数据,是数据挖掘技术的最重要的应用。相对于w 曲的数据 而言,传统的数据库中的数据结构性很强,即其中的数据为完全结构化 的数据,而w c b 上的数据最大特点就是半结构化。所谓半结构化是相 对于完全结构化的传统数据库的数据而言。显然,面向w e b 的数据挖掘 比面向单个数据仓库的数据挖掘要复杂得多。在对网站进行数据挖掘 时,所需要的数据主辫米自于两个方面:方面是客户的背精信息,此 郝分信息主要来自于辫户的登记表:而另外一部分数据主要来自浏览者 的点击流( c l i c k s t r e a n l ) ,此部分数据主鼹用于考察客户的行为表现。就 分褫帮建立模型的技术和算法两言,网嬷的数据挖掘和原来的数据挖掘 戆翔著不是将羯太,缀多方法霹分援悉戆移霉 美运建。翳蚕麓戆莛网蘩 静数据格式有狠丈部分来自予赢击流,和传统懿数据霹椿藏有区剐。 阂而对电子商务网站激行数据挖掘所做的主要工作是数据猴备。目前, 肖很多厂商正在致力予开发专门用于网站挖掘的软件。 夺生物信息或然因的数据挖掘 生物信息或基因数据挖掘则完全属于另外一个领域,农商地上很难 谬蠢多大瓣价值,毽黠予入类却受益嚣浅。铡如,基因静缓会予变万纯, 缮巢静痍懿天懿鏊嚣秘委鬻久戆基嚣戮疯差襄多大? 藐否拽疆其孛不 网的地方,进丽对其不同之处加戳改变,使之成为正常基因? 遮都蒿要 数据挖掘技术的支持。对于生物信息或熬阂的数据挖掘和通常的数据挖 搠相比,无论在数据的复杂程度、数据擞还有分析和建立模溅的算法而 富,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现 农很多厂商正在致力予这方面的研究。假就技术和软件丽吉,还远没有 达到残熬夔遮步。 夺文本鞠数撂挖掘 人们很关心的弱辩一个话题是文本数擐挖掘。举个例子,在客户服 务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进 而h 解客户对服务的满意程度和客户的浠求以及客户之间的相互关系 等信息。从这个例子w 以看出,无论是在数据结构还是在分析处理方法 方诞,文本数据挖掇和前面谈到的数据挖摁桶差很大。文本数据挖掘并 不楚一接枣荔懿事壤,茏其是在分辑方法方嚣,还毒壤多嚣瑟礤究夔专 麓。强蘸市场上有一黧豢钕静软 孛,但大辩分方法只是把文本移来移去, 或简单地计算一下菜贱词汇的出现频率,并没有真正的分丰斤功能。随着 计解机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、 越来越复杂,数据挖掘将发挥出越来越大的作用。 夺基于x m l 的w e b 数据挖掘 鼓x m l 秀基碱的耨一代w w w 嚣壤是壹搂面对溉b 数蕹蕊,不 莰霹鞭穰葑逮兼容鼹蠢瓣w 曲应嚣,瑟纛爵菇藿驽蘧实袋v 沌b 中豹售 想共享与交换。x m k 可著作一种半结构纯的数据模型,可以很容易地 将x m l 的文档描述与关系数据库中的属性一一对应起来,实施精确地 煮询与模型抽取。面向w 曲的数据挖掘是一项复杂的技术,由于w e b 数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向w e b 的数据挖 掇成了一个难以解决的问题。两x m l 的出现为鳃决w e b 数掇挖掘的难 题带来了机会。由于x m l 能够使不同来源的结构化的数据很容易地结 合在一起,因而使搜索多样的不兼容的数据库能够成为可能,从而为解 决w 曲数据挖掘难题带来了希望。x m l 的扩展性和灵活性允许x m l 描述不同种类应用软件中的数据,从而能描述搜集的w 曲页中的数据 记录。同时,由于基于x m l 的数据是自我描述的,数据不需要有内部 描述就能被交换和处理。作为表示结构化数据的一个工业标准,x m l 为组织、软件开发者、w 曲站点和终端使用者提供了许多有利条件。相 信在以后,随着x m l 作为在w 曲上交换数据的一种标准方式的出现, 面向w 曲的数据挖掘将会变得非常轻松。 2 数据挖掘未来研究方向 当前,d m k d 研究方兴未艾,其研究与开发的总体水平相当于数 据库技术在9 0 年代所处的地位,迫切需要类似于关系模式、d b m s 系 统和s q l 查询语言等理论和方法的指导,才能使d m k d 的应用得以普 遍推广。预计在本世纪,d m k d 的研究还会形成更大的高潮,研究焦 点可能会集中到以下几个方面: 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘 语言,也许会像s q l 语言一样走向形式化和标准化; 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被 用户理解,也便于在知识发现的过程中进行人机交互; 研究在网络环境下的数据挖掘技术( w 曲m i n i n g ) ,特别是在因 特网上建立d m k d 服务器,并且与数据库服务器配合,实现 分布式数据采掘; 加强对各种非结构化数据的开采( d a t am i n i n gf o ra u d i o d e o ) ,如对文本数据、图形数据、视频图像数据、声音数据 乃至综合多媒体数据的开采; 处理的数据将会涉及到更多的数据类型,这些数据类型或者比 较复杂,或者是结构比较独特。为了处理这些复杂的数据,就 需要一些新的和更好的分析和建立模型的方法,同时还会涉及 到为处理这些复杂或独特数据所做的费时和复杂数据准备的 一些工具和软件。 交互式发现,知识的维护更新。 2 2 聚类分析概述 聚类分析是一种重要的人类行为。很小的时候人就可以通过不断的 改进下意识的聚类模式来学会如何区分不同的动物或动物和植物。聚类 分析作为数据挖掘中的一个功能,它既可以作为一个单独的工具以发现 数据库中数据分布的一些深入的信息,并且概括出每类的特点,或者 1 4 把注意力放在某一个特定的类上以作进一步的分辑;聚类分梃也可以作 为数据挖掘算法中其他分析算法的一个预处理步骤f l 】。 2 2 1 聚类分析的概念 聚类( a u s t c r i n 妙是数据挖撼领域中一个非嚣活跃的职究课默。艨谓 聚类1 6 j ,就是把给定对象集合分组成为由类似对象组成的多个类的过 程。也就是鞭据对象闽的相似程度而归于一个类剐,两对象建否归于同 一类,看它镪的攘髅度热隽,当它销之瓣翡榴 越发大于菜一值时,刚癌 于同一类,磷则,两对象分展不同的类。 聚类分析,也称群分析或者点群分析,它是研究多要素攀物分类问 题的数量方法。其基本原理怒,根据样本自身的属性,用数学的方法按 照某些攘 娃牲或差异性指标,定爨蟪确定样本之漓静亲疏关系,并按这 种亲疏关系瑕度对样本进霉亍聚类。 聚类前首先要对数据进行缩减,以便挖掘出最能反映个体特征的数 精,然后用适当的方法加以摘述,计算稻似度大小的方法有多种,而相 似度的诗雾方式楚移对象翔秘描遽寄定懿联系,对于一类数篷数攒的 挖掘方法,旦前较常用的是基于几何距离的计算方法,如欧氏距离,盟 考斯基踞离等。聚类的目的鼹根据一定的规则,合理地划分记录集含, 谈得在同一个簇中的对象之间其有较高的相似度,而不同簇中的对象差 别较大,辫用显式或隐式靛方法对其进行接述。掰旅据的窥捌由采焉的 聚类方法定义,辩子相同的记录集合不同的算法阿鼹喜不露豹划分。聚 类是无指导学习的一个例子,属观察式学习,而不是事例式举习。 缀然聚类也可以起到分类的作用,但是它和大多数分类方法不同 f j ;大多数分类方法郝是演绎静,即入销事先确定菜稀事物分类豹准则 或各类别的标准,分类的过稳就是e b 较分类的要素与各类别撅准,然后 将各鼹素划归于备类别中。确定事物的分类准则或各桊别的标准戏多或 少带有主观的色彩。而聚类分析怒归纳的,不需要事先确定分类的准则, 不短邀它靛静分类,甚至连分成屁类也不知邀。它通过些计算来把液 测进行合理的分类,使锓同一类的双测比较接近,不同类蛇戏测媚蓑较 多。 聚类分析已经广泛地应用在许多领域中,包括模式识别、数掇分析、 爨缘处理烊l 鞋及市场研究等。遥避聚类,久稍能够识嗣密集和稀疏鹊区 域,从而发现全局的分布模式,及数握属性之闻嬗褥注意的握互关系。 在商业上,聚类可以帮助市场分析人员从他们的消费者数据库中区 分出不同的漓费群体采,并且概括出每一类消费者的消费模式或者说习 撰。 在生物学中,它可以波用柬辅助研究动、檀物的分类,可以翅来分 类具有相似功能的基因,还可以用来发现人群中的一些潜在的结构等 等。 在地理学中,聚类可以用来从地理数据库中识别出具有相似土地用 途的区域。 在保险业,可以从保险公司的数据库中发现汽车保险中具有较高索 赔概率的群体。 在房地产业中,用来进行房地产市场的市场细分和进行目标市场的 选择,这样应用后,就可以选择要开发物业的细分市场,找准目标顾客 针对不同的目标顾客来满足他们的需求【9 】。 还可以用来从万维网上分类不同类型的文档等;以及对w 曲上的 文档进行分类。 另一方面,聚类还可以用于大型复杂信息系统设计中【“。聚类技术 被应用于软件工程中,用于系统设计和规划的主要有企业规划法中的 u c 矩阵聚类法和启发式聚类方法。在进行系统的功能模块设计时,应 用聚类算法对数据项进行聚类,从而确定系统的功能模块类。 在统计学中,聚类分析已经被广泛地研究了许多年,主要实现方法 集中在基于距离的分析。在机器学习领域,又提出一些新方法。目前常 用的聚类算法主要分为以下几种:划分方法,层次方法,基于密度的方 法,基于网格的方法,基于模型的方法,以及模糊聚类的方法。 目前在数据挖掘领域,研究工作已经集中在为大型数据库进行有效 的和有实际意义的聚类分析寻找合适的方法。现在的研究热点主要集中 在:算法的可伸缩性、算法对于复杂形状的聚类模型和不同类型数据的 通用性、高维聚类分析技术以及针对大型数据库中混合数据的聚类方 法。 2 2 2 聚类分析中的相似度度量方法 聚类分析主要针对的数据类型包括区间标度变量、二元变量、标称 变量、序数型变量、比例标度型变量,以及由这些变量类型构成的复合 类型。那么对不同的变量应该如何估量相异度呢? 不同的变量估量方法 是不一样的。 1 区间标度变量 是一个粗略线性标度的连续变量。典型的例子包括重量和高度,经 度和纬度以及大气温度。 选用的度量单位将直接影响聚类分析的结果。一般而言,选用的单 位越小,变量可能的值域就越大,这样对聚类结果的影响就越大。因此 为了避免聚类结果对单位选择的依赖,数据应当首先进行标准化。标准 化度量值试图给所有的变量相等的权重。当没有关于数据的先验知识 1 6 时,这样做很有用。但是在一些应用中用户可能想给某些变量较大的权 重。标准化处理后,对象间的相异度是基于距离来计算的。最常用的距 离度量方法是欧氏距离,它的定义为: d ( f ) 一再再习可i i 再习而 ( 2 1 ) 这里的f 一“,t :,) 和j = 0 1 ,z 2 ,石加) 是两个p 维的数据对 象。在使用欧氏距离时要特别注意样本诸测量值的选取,应是有效地反 映类别属性的特征。 另外两个著名的度量方法是曼哈顿距离: d (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论