




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)pmml在居住建设健康影响规律模型中的应用与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学位论文原创性声明 本人郑重声明:所呈交的学位论文是本人在导师指导下进行的研究工作所取得 的研究成果。除了文中已经注明引用的内容外,论文中不包含其他个人或集体已经 发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中 以明确方式标明。本声明的法律后果完全由本人承担。 作者签名:鱼蝗迪一日期:2 p 叩年岁月1 j 日 学位论文授权使用声明 本人完全了解北京工商大学有关保留和使用学位论文的规定,即:研究生在校 攻读学位期间论文工作的知识产权单位属北京工商大学。学校有权保留并向国家有 关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅:学校可以 公布学位论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存、汇编 学位论文。( 保密的学位论文在解密后遵守此规定) , 学位论文电子版同意提交后,可于囱当年口一年0 - - - 年后在学校图书馆 网站上发布,供校内师生浏览。 作者签名:盘蔓蒸迪导师签名: 摘要 居住健康的研究理念是在满足住宅基本建设要素的基础上,提升健康要素,满足 居住者生理、心理、道德和社会适应等多层次的健康需求,以促进可持续发展,营造 出安全、便利、舒适、健康的居住环境。随着信息技术的日益普及,数据挖掘技术被 广泛应用于各行各业的数据分析和知识发现领域,但对于居住建设健康影响规律发现 及评估领域,数据挖掘技术却鲜有作为,同时数据挖掘技术也面临着较大的挑战,不 同厂商对数据挖掘模型有着不同的定义,妨碍了挖掘模型在不同数据挖掘系统之间的 共享。 为此,本文提出了基于p m m l 的数据挖掘系统架构,并以居住建设健康影响与评 估领域为应用背景,研究并开发了基于p m m l 的居住建设健康影响规律发现及评估软 件,具体的研究内容如下: 首先,在探讨数据挖掘一般理论的基础上,研究了数据挖掘模型标记语言p m m l 的基本原理;在对决策树算法模型简介的基础上,重点分析了微软自带的信息熵、k 2 和b d e u 算法的基本原理; 第二,根据居住建设健康影响与评估领域的需求分析,设计了居住建设健康影响 规律发现及评估软件的框架与模块划分,提出了模型信息的p 删l 存储,题库数据的 自动组卷机制及数据挖掘过程中w e b 服务的引用。 第三,在s o l 2 0 0 5 的环境下,使用c # 语言和v is u ms t u d i o2 0 0 5 开发工具实现 了居住建设健康影响与评估领域的在线b s 数据挖掘系统,并以数据挖掘的整个步骤 流程为线,展示了相关技术在软件中的实例应用,并给出了技术实现的关键代码和运 行效果。 第四,在开发完成之际,对居住建设健康影响规律发现及评估软件进行了总结和 分析,对不足之处提出了改进的构思。 本文的研究成果已经申请了软件注册“居住建设健康影响规律发现及评估 软件”,并在中国建筑设计研究院得到了实际应用,取得了良好效果。 关键词:p m m l ,数据挖掘,决策树,居住健康 ab s t r a c t t h er e s e a r c hi d e a so fh e a l t h yh o u s i n ga r ep r o m o t i n gh e a l t hf a t o r sa n d m e e t i n gm u l t i l e v e lh e a l t hn e e d so fr e s i d e n t si np h y s i c a l ,m e n t a l ,m o r a la n d s o c i a lo nt h eb a s i so ft h en e e d so fb a s i cb u i l d i n gf a c t o r sf u l f i l l e d t h e p o p u r s e so fh e a l t h yh o u s i n ga r ea c c e l e r a t i n gs u s t a i n a b l ed e v e l o p m e n ta n d c r e a t i n gas a f e ,c o n v e n i e n tc o m f o r t a b l ea n dh e a l t h1i v i n ge n v i r o n m e n t w i t h t h ei n c r e a s i n gp o p u l a r i t yo fi n f o r m a t i o nt e c h n o l o g y ,d a t am i n i n gt e c h n o l o g y i sw i d e l yu s e di nd a t aa n a l y s i sa n dk n o w l e d g ed i s c o v e r yi nm a n yf i e l d s b u t f o rh e a l t h yh o u s i n ge v a l u a t i o na n dr u l e sd i s c o v e r ye r e a ,d a t am i n i n g t e c h n o l o g yi sr a r e l yu s e d d a t am i n i n gt e c h n o l o g yi sa l s of a c e dw i t ht h el a r g e c h a l l e n g e s o i f f e r e n tv e n d o r sh a v ed i f f e r e n td e f i n i t i o n so fd a t am i n i n g m o d e l s ,h a m p e r i n gt h es h a r eo fm i n i n gm o d e lb e t w e e nd i f f e r e n td a t am i n i n g s y s t e m s i nt h i sp a p e r ,d a t am i n i n gs y s t e ma r c h i t e c t u r eb a s e do np m m lw h i c hh a s t h eb a c k g r o u n do fh e a l t h yh o u s i n ge v a l u a t i o na n dr u l e sd i s c o v e r ye r e ai s p r o m o t e d t h eh e a l t h y h o u s i n ge v a l u a t i o na n dr u l e sd i s c o v e r yd e c i s i o n g s u p p o r ts y s t e mb a s eo np m m li sr e a l i z e da n ds p e c i f i cr e s e a r c hc o n t e n ti sa s f o l l o w s : f i r s to fa 1 1 ,t h i sp a p e rr e s e a r c h e st h ed a t am i n i n gm o d e lm a k e u pl a n g u a g e p 删li nt h eb a s i so fs t u d y i n gg e n e r a lt h e o r i e so fd a t am i n i n g i tf o r c u s e so n a n a l y s i n ge n t r o p y ,k 2a n db d e uo w n e db ym i c r o s o f tc o r p e r a t i o no nt h eb a s i s o fb r i e f l yi n t r o d u c t i o nt ot h ed e c i s i o nt r e e s e c o n d l y ,a c c o r d i n gt ot h en e e d so fh e a l t h y h o u s i n ge v a l u a t i o na n dr u l e s d i s c o v e r ye r e a ,t h ep a p e rd e s i g n so u tt h ef r a m e w o r ko ft h eh e a l t h yh o u s i n g e v a l u a t i o na n dr u l e sd i s c o v e r yd e c i s i o n gs u p p o r ts y s t e ma n dd v i d e si ti n t o m o d u l e s i tp r o m o t e st h ei n t r o d u c t i o no fm o d e li n f o r m a t i o ns t o r a g e di np m m l f o r m a t ,a u t o m a t i ct e s tp a p e rm e c h a n i s mo ft e s tb a n ka n dw e bs e r v i c e si nd a t a m i n i n gp r o c e s s t h i r d l y ,t h ep a p e rr e a l i z e st h eb ss t r u c t u r ed a t am i n i n gs y s t e mu s i n g c # l a n g u a g ea n dv s 2 0 0 5d e v e l o p m e n tt o o l i nt h ee r e ao fh e a l t h yh o u s i n g e v a l u a t i o na n dr u l e sd i s c o v e r yu n d e rt h ee n v i r o n m e n to fs o l 2 0 0 5 f o l l o w i n g t h e1 i n eo ft h ew h 0 1 ep r o c e s ss t e p so fd a t am i n i n g i ts h o w so u tt h ep r a c t i c a l a p p l i c a t i o no t r e l a t e dt e c h n o l o g i e si n t h es o f e w a r ea n dg i y e so u tt h ee f f e c t c o d e sa n dr u n n i n gr e s u1t f i n a l l y ,w h e nt h es o f t w a r ei sf i n i s h e d ,i tg i v e ss u m m a r ya n da n a l y s i st o t h eh e a lt h yh o u s i n ge v a l u a ti o na n dr u l e sd is c o v e r yd e c i s i o n gs u p p o r ts y s t e m a n dr a i s e si m p r o v e m e n ts u g g e s ti o n gt ot h ed e f e c t s t h er e s u l t so ft h i sp a p e r sr e s e a r c hh a v ea p p li e df o rs o f t w a r e r e g i s t e r i n g n a m e dt h ei l e a l t h yh o u s i n ge v a l u a t i o na n dr u l e sd i s c o v e r y d e c i s i o n gs u p p o r ts y s t e m ,a n dh a v eb e e na p p li c a t e di nc h i n aa r c h i t e c t u r a l d e s i g n r e s e a r c hg r o u p 。a c h i e v i n gg o o dr e s u l t s i i k e y w o r d s :p m m l ,d a t am i n i n g ,d e c i s i o nt r e e ,h e a l t h yh o u s i n g i i i 目录 第1 章绪论1 1 1 项目的研究背景1 1 2 项目的目的和意义l 1 3 项目研究领域发展现状2 1 3 1 应用领域的发展现状2 1 3 2 学术领域的发展情况5 1 4 论文的主要工作6 1 4 1 工作内容6 1 4 2 创新点7 1 5 论文结构7 第2 章数据挖掘的基本原理与算法模型8 2 1 数据挖掘的基本原理8 2 1 1 数据挖掘的概念8 2 1 2 数据挖掘的方法和技术8 2 1 3 数据挖掘系统的发展8 2 1 4 数据挖掘的过程9 2 1 5 数据挖掘的功能1 0 2 1 6 数据挖掘的预测模型标记语言1 l 2 2 数据挖掘的算法模型1 3 2 2 1 信息熵算法1 4 2 2 2k 2 与b d e u 算法 1 6 第3 章居住健康规律发现与评估系统的分析与设计1 8 3 1 系统功能需求1 8 3 2 系统架构1 8 3 3 系统基本模块2 l 3 4 关键技术一2 2 3 4 1 自动组卷系统的设计 2 2 3 4 2 基于p m m l 的挖掘模型设计 2 3 3 4 3w e b 服务的引用2 4 第4 章居住健康规律发现弓评估系统系统的实现2 6 4 1 开发环境亏架构2 6 4 2 数据管理的实现2 8 4 2 1 自动组卷题库管理系统的设计2 8 t v 4 2 2 自动组卷题库管理系统的设计要点 2 9 4 2 3 题库的实现 3 0 4 2 4 试卷的显示3 l 4 2 5 数据的转换 3 3 4 3 数据挖掘的实现3 5 4 3 1 数据挖掘的内容3 5 4 3 2 数据挖掘结构的建立 3 8 4 3 3 数据挖掘算法的选择3 9 4 3 4 在线数据挖掘的实现 4 0 4 3 5 基于p m m l 的数据挖掘结果与可视化 4 2 4 4w 曲服务的应用4 5 第5 章总结与展望4 8 5 1 总结_ 4 8 5 2 展望4 8 参考文献4 9 在学期间发表的论文5 l 致访j 5 2 v 姚启迪:p m m l 在居住建设健康影响规律模型中的应用与实现 第1 章绪论 1 1 项目的研究背景 本项目是来自国家自然科学基金的“居住建设健康影响规律及评估研究 研究 课题,是由中国建筑设计研究院申请的,申请代码为5 0 5 7 8 1 5 2 e 0 8 0 1 。 我国住宅建设正处于高速发展的时期,社区中居住人群类别广泛,各种年龄阶层、 收入阶层、文化阶层以及居住区位、住宅类型的不同对居住环境的需求都会存在很大 差异。目前住区关系急需要解决的问题,就是如何处理居住环境的健康需求与社会环 境的健康需求的发展不平衡。本课题研究的总体目标是从行为心理需求的角度,通过 分析不同年龄、收入、学历和住宅类型等特定居住人群的特征习性,研究居住建设对 个体生理健康和心理健康的影响规律,对居住环境提出一些参考性的心理评价标准, 总结居住建设针对不同类别人群需要关注的问题,最终实现不同居住人群个性需求的 满足。 映射到计算机领域,本项目的子目标是基于居住建设健康影响规律模型的系统软 件的实现,利用网络及数据库技术、图像图形技术、人工智能技术等多学科技术,通 过对健康住宅试点工程的实态调研、专家的调查、网上调查人工或自动的数据采集、 存储、分析、评定、显示,建立一套完整科学的b s 结构数据挖掘平台,实现利用统 计与数据挖掘模型获得对居住者健康影响的内在机制及相关规律,并能根据获得的潜 在规律,辅助决策。 1 2 项目的目的和意义 本项的目的是研究现有健康住宅物理设施设计、社区环境设计的基础上,经过多 元统计和数据挖掘的方法对健康小区的实态调查数据、专家分析数据及社区普查数据 进行分析,最终达到如下的居住建设健康影响规律发现及评估的研究目的: 根据居住建设健康影响规律领域模型建立数据,进行数据挖掘以挖掘内在 机制及相关规律,重点研究已经严重影响居住者生理健康的典型影响因素以及在人们 物质生活水平迅速提高的发展阶段,影响居住者精神生活特别是在今后创建和谐社 会、和谐住区方而的币夏冈素。 根据领域模型搭建软件模型,通过软件的实施来实现数据挖掘过程。 因此居住建设健康影响规律发现及评估的研究,有助于提高我罔城市建设规划特 别是目前迅速发展中的中小城巾建设规划的科学性和技术性,有助于提出改善我国居 住环境质量的对策,有助于住区建设科学、居住者合理居住、健康生活,创建和谐社 会、和谐社区,促进可持续发展,将数据挖掘技术引入居住建设健康影响规律发现及 评估研究领域,在国内外研究中也尚属空白。 自从数据挖掘诞生以来,它已经在很多行业得到了应用,如金融、保险和医疗, l 姚启迪:p m m l 在居住建设健康影响规律模型中的应用与实现 并获得了可观的成效,因此又促进了数据挖掘的进一步发展。然而不同厂商的数据挖 掘系统基于各自的平台,使用自己的专有技术,对数据挖掘系统的输出模式有着不同 的定义,导致挖掘模型不能在不同的数据挖掘系统之间共享,对数据挖掘的发展极为 不利。居住建设健康影响规律发现及评估软件将p m m l 引入了数据挖掘,标准化了模 型的存储,实现了模型信息的跨平台共享,为商业智能跨i n t e r n e t 实施部署提供了 基础,使数据挖掘模型独立于平台、应用和操作系统。 针对传统基于h t m l 和单一数据库存储数据的调查表系统的诸多缺点,居住建设 健康影响规律发现及评估软件创新使用x m l + x s l 的方法开发实现了基于b s 结构的调 查表白动组卷系统机制。通过x m l 形式存储题库数据,实现了便利快捷的题库数据的 交换与共享;并利用x s l 技术控制x m l 数据形成显示页面,实现了数据与数据表现的 分离,并加以扩展,用p m m l + x s l 的方式实现了数据挖掘结果的可视化。 此外,居住建设健康影响规律发现及评估软件在数据挖掘过程中功能函数实现上 引用了w e b 服务的方式,创建出了跨异构平台的,通用的,与平台、语言无关的数据 挖掘功能函数,方便了数据挖掘功能函数的共享与调用。 1 3 项目研究领域发展现状 1 3 1 应用领域的发展现状 大部分发达国家的住宅建设,在近2 0 年的发展,大体经历了三个阶段,即:节 能环保,生态绿化、舒适健康。各国从最先面临的省能省资源出发,逐渐了解地球环 境与人类生存息息相关,转而为保护生态环境,最后回归到人类生活基本条件,即舒 适与健康。 2 0 世纪9 0 年代以来,已经广泛开展了居住与健康的研究工作。存国际上建筑与 可持续发展课题中健康是最为核心性的研究内容之一。世界卫生组织提出的“健康住 宅健康城市”的研究实践已成为国际社会的基本共识。尤其是9 0 年代以后,世 界各国关于“居住与健康”方面的课题开展了更广泛的研究并取得了一定成果。 美国:为了解决居住健康问题,美国于1 9 9 2 年设立了国家健康住宅中心,研究 住宅建设与环境和公共卫生等问题的关系,以保护人们免受居住环境恶劣所害。美国 政府的住房与城l j 发展部还下设相关的机构,开展“健康的家”这一建设计划米指导 住宅建设。 臼本:九十年代就推行了健康住宅,日本建设省出版了健康住宅宣言和环 境共生住宅来指导住宅的建设与技术开发。原因是医学界报告发现,室内装修材料 如甲醛以及一些致癌物将直接导致人们产生疾病;空气质量受污染引发感冒、呼吸道 感染等疾病,都笑系到人们的健康。日本政府的一个调查小组经过检测后宣布,日本 大约有3 0 的住宅因为使用有害的化学物质而易引发“新居综合症”。根据调查结果 2 姚启迪:p m m l 在居住建设健康影响规律模型中的应用与实现 和研究,日本制定了相应对策并修改了相应的规定,同时相继成立了专门研究机构, 包括健康住宅委员会、健康住宅技术研究所、健康住宅对策推进协议会等组织,研究 工作组织了公众卫生、设备技术、文教等部门进行有关的研究,其研究目标是探索人 类健康与居住环境的种种对应关系,研究把健康分成了“生理健康”和“心理健康” 两大类,以它的研究结果为基础,把居住环境分为了“物理环境”和“社会环境 两 类,根据种种居住环境与人体健康的消极关系产生的原因和状况,研究了改善的方式 方法,为住宅建设与人们的居住,提供了各方面的健康指导。 加拿大:住宅建设大力推广健康的居住理念,并开发相应的技术与设备,通过规 范式的生产来建设健康住宅。目前在加拿大新建的独立式住宅中,健康住宅约占1 0 以上。健康住宅基于五个基本原则,即居住者健康、能源效益、资源效益、对环境生 态负责和负担能力。该国的住宅建筑技术发展,也以健康住宅理念为原则,发展相应 的体系与技术,形成了以木结构、轻钢结构、混凝土板式结构、轻钢与混凝土复合结 构为主要建筑体系和与其相配套的工业化生产的墙板、布线、门窗等建筑部品及技术 体系,实现了标准化设计、工厂化生产、机械化施工、一体化管理的住房现代化生产 体系。通过这些规范式的操作来保证居住者的健康。 目前在我国住宅建设中,有关居住健康问题也受到了广泛关注。长期以来,我国 科学研究重视开发性研究,对设计公共利益的环境、卫生、健康等公共领域的科学研 究投入不足,支持力度薄弱。大多数相关研究还处于环境污染与人体健康调查层次, 隔壁进行的环境污染与人体健康定量关系的研究也疾病局限于传统或已知的工业污 染。无论从影响居住者健康的作用机理、危害程度、影响规律规律还是在建立住区健 康影响因素框架及评估体系、推行新建住区的健康预评估、旧有住宅的健康评价与健 康构造存我国未有实质性进展。 当前我国经济飞速发展,居住者对居住健康问题愈加关注,而住区健康因素具有 复杂性、不确定性、不稳定性和动态性等显著特征。自1 9 9 9 年底,住宅工程中心联 合建筑学、生理学、社会学、心理学等方面专家就居住与健康课题开展研究,相继完 成了“建筑物有害因素分布调查”( 2 0 0 0 年) ,“住宅对人体健康影响调查”( 2 0 0 1 年) 、“健康住宅建设技术要点( 2 0 0 1 年版) 和“居住建筑及公共场所防范非典应 急措施影 究”,并已存全旧7 t :展j ,健康住宅建设试点工程3 5 例。住宅实验室针对大 量的住宅卡h 关产品、住宅室内空气质量、声、光、热环境的测试和技术评估工作,积 累了r 卡富的经验。随着研究的深入,更为广泛的实态调查已经开展,主要分析影响居 住者“生理健康”和“心理健康”的相关因素,为改善我国居住环境质量的对策提供 有力支撑。2 0 0 5 年1 月1 2 日国务院常务会议原则通过的北京城市总体规划2 0 0 4 - - 2 0 2 0 年,将北京城市发展目标确定为“国家首都、世界城市、文化名城和宜居城 市”,其中,“宜居城市”概念的提出使有关居住健康问题受到了广泛关注,目前, 3 姚启迪:p m m l 在居住建设健康影响规律模型中的应用与实现 学术界关于居住健康的研究主要集中在以下几个方面:一是关于居住客观环境指标体 系的构建,以及单指标评价和综合评价的探讨与分析,如对安全性、健康性、便利 性、舒适性等每项内容包括的指标的分析、选取,以及评价和判断的方法等:二是 关于客观环境评价指标的定量化和相关分析,如交通通达性、交通噪音和绿地空间等 对居住环境的影响;口1 三是城市内部不同空间居住环境的舒适度、安全性等差异研究; 四是以接近性为指标,对居住环境的生活关联设施进行空间评价和分析;五是对生活 关联设施的满意度与距离、设施数量等的关联分析,特别是关注在居住环境评价过程 中居民价值意识的空间差异;六是不同居民属性,如居民的性别、年龄、职业等对居 住环境评价的影响和认同等。口1 本项目在国家住宅与居住环境工程技术研究中心编制的由中国工程建设标准化 协会批准的健康住宅建设技术规程晦1 制定的居住建设健康影响框架的基础上。重 点针对中国已建成的9 个健康住宅试点工程的实态调研、专家的调查、网上调查,分 别从生理健康保障和心理健康保障两方面展开,探索了中国居住建设的健康影响规 律,为健康住宅的评估研究和制定改善我国居住环境质量的对策提供了有力支撑,具 体领域模型图如图1 1 所示。 其中居住建设健康影响因素框架分为三个层次:第一个层次分为生理健康保障和 心理健康保障两部分;第二层次针对第一层次划分的生理因素和心理因素,分别设置 影响生理因素的9 个子因素及影响心理因素的6 个子因素。生理因素的9 个子因素为: 住区污染源、空气质量、热舒适度、声环境、光环境、水环境、住宅空间、安防措施 和环境卫生;心理因素的6 个子因素为:私密性保护、社区氛围、居住安全、视觉环 境、保健体系和物业服务。所谓的健康小区,也就是根据该领域模型框架第二层次的 1 5 个因素对小区进行综合衡量评价,超过预先研究制定的指标便称之为健康小区。 考虑到需要从采集到的数据中得到潜在的规则辅助决策,本项目应用数据挖掘技术来 实现这一目标。 4 姚启迪:p m m l 在居住建设健康影响规律模型中的应用与实现 图1 1 领域模型图 1 3 2 学术领域的发展情况 随着信息技术的迅猛发展,近年来数据挖掘引起了信息产业界的极大关注,其主 要原因是随着数据库技术的成熟和数据应用的普及,各个领域所积累的数据量正在以 指数速度增长。人f j 、j i f i 临肴“数据十富i 仃知i 贫乏”的刚题,所以8 0 年代未兴起的 数据挖掘( d a t am i n i n g ) 技术或数据库中的知识发现( k n o w l e d g ed i s c o v e ri 1 3 d a t a b a s e ,k d d ) 技术就迅速发展起来,它们呵以从大型数据库中的大鼍原始数据 中提取人们感兴趣的,隐含的,尚未被发现的,有用的信息和知识,提取的知识表示 为概念、规则、规律、模式等形式。数据挖掘是数据库技术与人工智能、机器学习、 神经网络、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算和数 据可视化等学科相互结合的最前沿和极富应用前景的最新研究领域。 5 姚启迪:p m m l 在居住建设健康影响规律模型中的应用与实现 在十多年的时间里,数据挖掘技术的研究与应用已取得了很大的成果,但是,数 据挖掘也面临着许多的问题: 目前的数据挖掘系统和挖掘方法都基于不同的模型和技术,彼此互相孤立。 缺少简明精确的问题描述方法。 数据挖掘系统仅提供孤立的知识发现功能,很难嵌入大型应用。 数据挖掘引擎与数据库系统是松散耦合的,它没有提供独立于应用的操作原语。 迄今为止,数据挖掘行业还是高度分散的,公司和研究机构独立开发各自的数据 挖掘系统和平台,还没有形成开放性的标准,而且数据挖掘本身是一门多学科综合跨 度非常大的技术。正是因为这两个原因才导致上述问题的发生。近年来对数据挖掘语 言的研究为解决上述问题提出一些新的研究方向和研究成果: i s o 的s q l m u l t i m e d i a :包括框架、全文、空间数据、图像和数据挖掘,数据挖 掘部分是由i b m 提议的,中心思想是在数据库中定义一组用于数据挖掘的用户自定义 的类型和方法,然后这些类型和方法可以用于数据库查询。 j a v a 数据挖掘a p i ( j s r - 7 3a p i ) :是用于数据挖掘的j a v a 包,由o r a c l e 主持 开发,目标是使j a v a 应用程序能够与数据挖掘引擎通信,以便构建、测试和应用挖 掘模型。 跨行业数据挖掘标准流程( c r is p _ d m ) :由s p s s 、n c r 和d a i m l e r c h r y s l e r 三公 司1 9 9 6 年提出,用来描述数据挖掘项目生命周期的流程( 不是一种描述特定数据挖 掘的技术) 。 预测模型标记语言( p 删l ) 口1 由数据挖掘协会定义,目标是定义一个标准的x m l 【6 3 ( e x t e n s i b l em a r k u pl a n g u a g e ) 格式,用于存储挖掘模型的内容,标准化了常见数 据挖掘算法的模型内容,使模型的部署变得容易,并日准许在各种软件包之间交换模 型信息。 数据挖掘中,可重用性主要体现在数据挖掘模型的可重用。数据挖掘模型( d 删) 是数据挖掘算法加载训练数据后形成的规则( 知识) 描述。本系统中,无论是哪一类 算法生成的模型,都以p m m l 格式描述,解决了数据挖掘过程中存在的上述问题。 1 4 论文的主要工作 1 4 1 工作内容 本项目从数据挖掘技术出发,针对居住建设健康影响规律模燃,采刚模块化编程, 搭建居住建没健康影响规律模型软件系统,存此过程中,使用s o l2 0 0 5 和v s n e t 2 0 0 5 为甲台,以c # 为主编程语言,完成: 数据挖掘算法的研究,尤其对多种决策树分类算法进行分析比较。 研究与实现模型信息的p m m l 表达,p m m i 。的可视化。 6 姚启迪:p m m l 在居住建设健康影响规律模型中的应用与实现 u m l 建模,实现从领域模型到软件的需求分析和软件的设计。 b s 结构的软件的实现与实施。 1 4 2 创新点 本文的创新点如下: 利用x m l 和p m m l 存储试题数据与数据挖掘模型,实现了试题数据与数据挖掘模 型的共享与可视化。 结合健康住宅领域框架,构建了b s 结构网上软件平台,实现了居住建设健康领 域的决策支持系统。 1 5 论文结构 全文的主体部分共分为六章,内容如下: 第一章:绪论。介绍了课题的研究背景、目的及意义,健康住宅领域和数据挖掘 的研究现状与发展趋势,是对整个课题研究的整体介绍。 第二章:数据挖掘的基本原理与算法模型。综合论述了数据挖掘的概况,研究了 数据挖掘的预测模型标记语言的基本原理;并在介绍决策树数据挖掘模型的基础上, 重点介绍了微软自带的信息熵、k 2 和b d e u 决策树算法。 第三章:居住健康规律发现与评估系统的分析和设计。通过对软件需求的分析, 完成了系统的层次划分和框架搭建,在完成了体系架构设计的基础上,按照软件功能 进行了模块化划分,并对实施过程中的关键技术加以分析设计。 第四章:居住健康规律发现与评估系统的实现。首先说明了已完成的软件的整体 效果和人机交互界面,然后以数据挖掘过程的流程为线,分别介绍了数据管理的实现, 数据挖掘结构的建立,数据挖掘算法的选择,数据挖掘的实现及数据挖掘结果的p m m l 化和可视化,展示了数据挖掘应用的全过程。 第五章:总结与展望。总结论文的成果,对不足之处提出了改进的构想。 7 姚启迪:p m m l 在居住建设健康影响规律模型中的应用与实现 第2 章数据挖掘的基本原理与算法模型 2 1 数据挖掘的基本原理 2 1 1 数据挖掘的概念 数据挖掘技术是为了解决网络上的数据爆炸而知识贫乏这种矛盾现象而产生的, 它的研究核心是如何从海量数据中进行知识的发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ) ,简称k d d 。 数据挖掘的权威定义为从大量的、不完全的、有噪声的、模糊的、随机的实际应 用数据集合中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知 识的过程。它结合了数据库技术、人工智能、概率论与数理统计等多个学科的知识为 一体,能够为管理者制订战略规划提供正确的决策依据。 2 1 2 数据挖掘的方法和技术 数据挖掘采用的方法和技术主要有: 统计分析方法:利用统计学原理对数据库中的信息进行分析。 聚类分析和模式识别:根据事物的特征对其进行聚类或分类,以期从中发现规律 和典型模式。 仿生物技术:典型代表是神经网络方法和遗传算法。 决策树方法:根据信息论原理对数据库中存在的大量数据进行信息量分析,在计 算数据特征信息的基础上提取出反映类别的重要特性。 粗集方法:主要用于不精确、不确定、不完全信息的分类和知识获取。 规则归纳:数据挖掘的特有技术,主要是在大型数据库或数据仓库中搜索和挖掘 以往不知道的规则和规律。 模糊逻辑:主要进行模糊综合判别、模糊聚类分析等。 可视化技术:主要是将信息模式、数据的关联或趋势等以直观的图形方式表示, 供决策者交互分析数据关系。 2 1 3 数据挖掘系统的发展 从技术层面可以将数据挖掘系统划分为四代: 第一代数据挖掘系统:支持一个或少数几个数据挖掘算法,这些算法设计用来挖 掘向量数据( v e c t o r - v a l u e dd a t a ) ,在挖掘时,数据一般一次性调进内存进ij :处理。 不能管理大量的,频繁变化的数据库或者数据仓库。 第二代数据挖掘系统:最主要的特点是与数据库管理系统( d b m s ) 集成,支持数据 库和数据仓库,并具有高性能的接口和高的可扩展性,能够挖掘大数据集、更复杂的 数据集以及高维数据。这些系统通过支持数据挖掘模式( d a t am i n i n gs c h e m a ) 和数据 8 姚启迪:p m m l 在居住建设健康影响规律模型中的应用与实现 挖掘查询语言增加系统的灵活性。不幸的是,目前的数据仓库设计是方便o l a p 操作 的,而不是方便数据挖掘应用的。这意味着真正的第二代数据挖掘系统必须使用自己 专门的数据管理系统,弥补目前数据库及数据仓库管理系的缺陷,直到数据库和数据 仓库厂商对合适的数据挖掘原语提供的支持。 第三代数据挖掘系统:这一代数据挖掘系统关键的技术之一是对建立在异构系统 上的多个预言模型以及管理这些预言模型的元数据提供第一级别的支持。第三代系统 另外还提供数据挖掘系统和预言模型系统之间的有效接口。在实施策略方面,如果使 用多个预言模型,或者预言模型需要经常修改,那么应该选择正在出现的第三代数据 挖掘系统。第三代数据挖掘系统的一个重要的优点是由数据挖掘系统产生的预言模型 能够自动地被操作型系统吸收,从而与操作型系统中的预言模块相结合提供决策支持 的功能。另一个特点是能够挖掘网络环境下的分布式和高度异质的数据,并且能够有 效地和操作型系统集成。 第四代数据挖掘系统:目前移动计算越发显得重要,将数据挖掘和移动计算相结 合是当前的一个研究领域。第四代系统能够挖掘嵌入式系统、移动系统和普遍存在的 计算设备产生的各种类型的数据。 目前,第一代数据挖掘系统仍未发展完全,第二代、第三代数据挖掘系统已经出 现但还很不完善,第四代数据挖掘系统还没有出现。要使数据挖掘系统能够像数据库 系统一样被企业应用还需要很长的路要走。 2 1 4 数据挖掘的过程 在实际应用中,数据挖掘过程分为五个阶段,具体过程见下: 确定数据挖掘的目标 面对海量的数据,只有首先明确了数据挖掘的目标,才能有针对性的进行以后的 工作,避免走弯路。 数据的准备阶段 1 ) 数据的选取( d a t as e l e c t i o n ) 根据前期提出的目标,从相关数据库中选择有价值的数据集合,缩小数据的研究 范用。 2 ) 数据预处理( d a t ap r e p r o c e s s i n g ) 在此阶段,主要完成两方面的任务:a 对数据的完整忭和实用性进行检查:消除 噪声数据,推导缺失数据,删除冗余记录。b 数据类型的转换,将数据转换成为有效 的统一格式。 3 ) 数据的变换( d a t at r a n s f o r m a t i o f f ) 通过对数据库进行投影等操作来降低数据的维数,减少所需挖掘的数据基数,提 高数据挖掘算法的效率。 9 姚启迪:p m m l 在居住建设健康影响规律模型中的应用与实现 数据挖掘阶段 此阶段的关键是根据实际情况和数据的特点,选择合适的数据挖掘算法。它包括: 做出合理的假设条件;设定挖掘的参数;选取合适的数学模型。当人工完成上述操作 以后,就可以交由系统自动进行数据的处理。 结果的表示和评估 首先,要保证数据挖掘的结果能让用户看懂,所以要在输出时对其进行解释或可 视化处理。而后,由用户对其分析评估,如果不能满足需求,可返回以上第二或第三 阶段进行迭代处理,直至满意即可。 结果投入使用 将结果运用到具体的工作流程中,或做为决策的依据。 2 1 5 数据挖掘的功能 数据挖掘的功能主要有两类,一个是描述型数据挖掘,一个是预测型数据挖掘。 描述型数据挖掘用于了解系统实际数据存在的特性,其目的是为预测做准备。预测型 数据挖掘是在描述型数据挖掘得出结论的基础上对系统的发展进行估计,通过预测型 数据挖掘能得到最终需要的结果,能够为决策者提供直接的依据。 一般来说,数据挖掘有以下的主要功能:数据总结、分类和回归、聚类分析、估 计与预测,以及关联和序列分析。 数据总结( s u m m a r y ) 或称之为描述。目的是对数据进行浓缩,给出它的总体的综 合描述,实现对原始数据的总体把握。常用的数据描述的方法是统计学的传统方法, 如计算数据项的总和、均值、方差等基本描述统计量;或绘制直方图、折线图等统计 图形。 分类( c 1 a s s i f i c a t i o n ) 和回归( r e g r e s s i o n ) 。就是研究己分类资料的特征, 分析对象属性,据此建立一个分类函数或分类模型,然后运用该模型计算总结出的数 据特征,将其它未经分类或新的数据分派到不同的组中。计算结果通常简化为几个离 散值,常用来对资料作筛选工作。 聚类( c l u s t e r i n g ) 。当要分析的数据缺乏描述信息,或是无法组成任何分类模 式时就采用聚类的方法,将异质母体区隔为较具同构性的群,即将组之间的差异识别 出来,并对个别组内的相似样本进行挑选,实现同组数据柏近,不同组数据相异。分 类功能和聚类功能是1 i 同的,分类是根据预先定好的一些特征值对对象分组,组或类 是预先确定好的,而聚类足事先不知道的条件下根据刘象的一些相似特征分组。 估汁与预测( e s t i m a ti o na n dp r e d i c t i o n ) 。估计是根据已有的资料,对某一参 数或数值进行估计,来抉取数据其他未知属性之值。预测是根据对象属性、过去的观 察值和有关资料对该属性的未来值进行预测,估计预测使用的技巧主要足回归分析、 时问数列分析及人工神经网络方法。 10 姚启迪:p m m l 在居住建设健康影响规律模型中的应用与实现 关联和序列发现( c o r r e l a t i o na n ds q u e n c ed i s c o v e r y ) 。数据库中的数据一般 都存在关联关系,即变量之间存在某种规律,关联就是要找出某一件事或某一资料中 同时出现的东西。序列分析的相关关系是在关联中增加了时间属性。因此关联分析就 有了简单关联和时序关联之分。由于我们并不知道数据库中数据的关联是否存在精确 的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有置信度,置信度 级别度量了关联规则的强度。 2 1 6 数据挖掘的预测模型标记语言 数据挖掘建模语言是对数据挖掘模型进行描述和定义的语言。如果我们设计一种 标准的数据挖掘建模语言,使得数据挖掘系统在模型定义和描述方面都有标准可以遵 循,那么各系统之间可以共享模型,既可以解决目前各数据挖掘系统之间封闭性的问 题,又可以在其它应用系统种间嵌入数据挖掘模型,解决孤立的知识发现问题。“预 测模型标记语言( p r e d i c t i v em o d e lm a r k u pl a n g u a g e ,p m b t l ) 正是这样一种数据 挖掘建模语言。 d m g 于1 9 9 9 年7 月制定了基于x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 的预测模型 标志语言一p m m lv 1 0 ,其思想就是依托x m l 本身特有的合理数据分层思想和自描 述性,实现数据挖掘模型的描述、管理标准化和可移植性。p m m l 可以帮助用户简便、 快捷地定义模型并且在不同厂商的相容应用之间共享这些模型;p m m l 为应用提供了 一个独立于厂商的方法来定义预测模型,使用p 删l ,相容应用之间可以实现无缝的 模型交换。 预测模型标记语言( p 瑚l ) 目标是定义一个标准的x m l 格式,用于存储挖掘模型 的内容,整个p m m l 的结构是通过x b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO/IEC 23090-12:2025 EN Information technology - Coded representation of immersive media - Part 12: MPEG immersive video
- 课件注册税务
- 不贪吃冷饮课件
- 公路安全生产培训
- 天使的身影课件
- 老师外出培训总结
- 计量综合知识培训
- 村庄写生创意课件
- 老年科医生核心能力培训大纲
- 幼儿手指操培训
- 同等学力英语申硕考试词汇(第六版大纲)电子版
- 公厕保洁服务投标方案
- TCRHA 063.2-2024 消毒供应质量管理及评价 第2部分:区域化消毒供应业务
- 2024年新人教版化学九年级上册全册课件(新版教材)
- 人教版部编道德与法治一年级上册《全册完整》课件
- 地质灾害危险性评估收费标准
- 生物制品基础知识
- DL∕T 781-2021电力用高频开关整流模块-PDF解密
- 《急性亚硝酸盐中毒》课件
- 2024年度企业员工信息安全培训内容
- 我国的宗教政策课件
评论
0/150
提交评论