




已阅读5页,还剩46页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京科技大学本科生毕业设计(论文)目录目录1摘 要3矚慫润厲钐瘗睞枥庑赖。Abstract4聞創沟燴鐺險爱氇谴净。第一章 绪论7残骛楼諍锩瀨濟溆塹籟。1.1 课题提出的背景及研究意义7酽锕极額閉镇桧猪訣锥。1.2 相关研究的现状8彈贸摄尔霁毙攬砖卤庑。1.2.1 高血压领域的研究现状8謀荞抟箧飆鐸怼类蒋薔。1.2.2 关联规则的研究现状9厦礴恳蹒骈時盡继價骚。1.3 本课题的主要研究目标10茕桢广鳓鯡选块网羈泪。第二章 数据挖掘技术研究11鹅娅尽損鹌惨歷茏鴛賴。2.1 数据挖掘技术及其在中医药研究中的应用11籟丛妈羥为贍偾蛏练淨。2.1.1 数据挖掘简介11預頌圣鉉儐歲龈讶骅籴。2.1.2 数据挖掘的功能概述14渗釤呛俨匀谔鱉调硯錦。2.1.3 数据挖掘技术在中医药研究中的应用16铙誅卧泻噦圣骋贶頂廡。2.1.4 数据挖掘和传统数据分析工具和学习机器的区别18擁締凤袜备訊顎轮烂蔷。2.2 关联规则19贓熱俣阃歲匱阊邺镓騷。2.2.1 关联规则介绍19坛摶乡囂忏蒌鍥铃氈淚。2.2.2 关联规则的有关定义20蜡變黲癟報伥铉锚鈰赘。2.2.3 关联规则的分类23買鲷鴯譖昙膚遙闫撷凄。23 挖掘关联规则的经典算法介绍24綾镝鯛駕櫬鹕踪韦辚糴。2.3.1 AIS算法25驅踬髏彦浃绥譎饴憂锦。2.3.2 APRIORI算法25猫虿驢绘燈鮒诛髅貺庑。2.3.3 不产生候选挖掘频繁项集算法28锹籁饗迳琐筆襖鸥娅薔。第三章 中医医案分析系统的实施及结果分析32構氽頑黉碩饨荠龈话骛。3.1 系统体系结构32輒峄陽檉簖疖網儂號泶。3.2 功能模块33尧侧閆繭絳闕绚勵蜆贅。3.2.1 原始数据录入33识饒鎂錕缢灩筧嚌俨淒。3.2.2 中医医案模型创建模块35凍鈹鋨劳臘锴痫婦胫籴。3.2.3 模型浏览模块35恥諤銪灭萦欢煬鞏鹜錦。3.3 数据存储结构的设计36鯊腎鑰诎褳鉀沩懼統庫。3.4 算法设计的基本思想及实现过程39硕癘鄴颃诌攆檸攜驤蔹。3.4.1 算法设计的基本思想39阌擻輳嬪諫迁择楨秘騖。3.4.2 Apriori算法的实现过程39氬嚕躑竄贸恳彈瀘颔澩。3.5 算法运行结果40釷鹆資贏車贖孙滅獅赘。3.6 结果评价及性能分析41怂阐譜鯪迳導嘯畫長凉。3.6.2 对高血压医案模型进行分析41谚辞調担鈧谄动禪泻類。3.6.3 对Apriori算法进行性能分析42嘰觐詿缧铴嗫偽純铪锩。第四章 总结与展望45熒绐譏钲鏌觶鷹緇機库。4.1 总结45鶼渍螻偉阅劍鲰腎邏蘞。4.2 展望45纣忧蔣氳頑莶驅藥悯骛。参考文献46颖刍莖蛺饽亿顿裊赔泷。在学取得成果48濫驂膽閉驟羥闈詔寢賻。致谢49銚銻縵哜鳗鸿锓謎諏涼。10摘 要名老中医宝贵的临床经验是中医学术与临证思维相结合的产物。中医临证辨治是以中医视点采集信息、以中医思维处理信息,并据此施以中医治法的过程。中医知识的代代相传多为言传身教,无形中为中医的知识的传播与造福大众制造了阻碍。利用数据挖掘正好能够解决中医药特色研究中所遇到的关键问题和技术难题。中医学经过长期的发展积累了大量的关于临证经验及治法、方剂、药物和相关知识等信息的历史文献。采用数据挖掘的方法来研究继承名老中医临床经验,挖掘整理其学术思想,创新研究方法,结合应用数据挖掘技术、机器学习技术等智能化技术,力求获得名老中医真实的经验,便于传承者学习。挤貼綬电麥结鈺贖哓类。本文的主要研究工作如下:1、深入分析和探讨了典型的关联规则挖掘算法Apriori算法,在此算法的基础上完成数据库挖掘的基本构思。赔荊紳谘侖驟辽輩袜錈。2、在Windows XP平台上Visual BAS工C6. 0的环境下,采用Apriori算法,开发了基于数据挖掘的中医高血压医案分析系统。塤礙籟馐决穩賽釙冊庫。3、基于原始数据的可靠性、准确性和完整性方面的考虑,本研究以自2001年1月一2005年10月中国中医研究院基础所胸痹急症研究室主任、国家中医药管理局医政司胸痹急症协作组组长沈绍功先生医案65份为医案来源,以高血压病为例,采用Apriori算法进行频繁项集的搜索,所得医案模型几乎完全符合沈教授在治疗高血压病时常用的处方。裊樣祕廬廂颤谚鍘羋蔺。本文提出的高血压诊疗系统,只在辅助高血压的诊断和治疗,是依靠人工技能及计算机技术对高血压诊断和治疗工作的一次尝试与探索。突破了以往单纯应用整理、归纳方法总结名老中医经验的传统思路,开创了应用计算机辅助分析名老中医经验的新思路和新方法。希望能对后续的从事相关研究的人员提供有益的借鉴。仓嫗盤紲嘱珑詁鍬齊驁。关键词:关联规则;Apriori算法;数据挖掘;用药规律;名老中医经验AbstractFamous TCM valuable clinical experience is Chinese medicine academic and clinical medicine card product of the combination of thinking. TCM Clinical Treatment is the process of gathering information by the viewpoint of TCM, Chinese medicine thought to process information, and accordingly imposes the healing method. Chinese medicine knowledge from generation to generation, mostly words and deeds, virtually for the dissemination of knowledge and the benefit of the public medicine made obstacles. Just using data mining addresses key issues and technical challenges in the study of Chinese medicine characteristics . After a long-term development of Chinese medicine has accumulated a great deal of clinical experience, treatment, prescription drugs, and other information relevant knowledge about the history of literature. using data mining methods to study inherit old TCM clinical experience, digging finishing their academic thinking, innovation and research methods, combined with the application of data mining technology, machine learning technology and other intelligent technology, and striving to get the real experience of old TCM, easily inheritors learning.绽萬璉轆娛閬蛏鬮绾瀧。The main work is as follows:1 in-depth analysis and discussion of the typical association rule mining algorithms Apriori algorithm, complete the basic idea of the database mining on the basis of this algorithm.骁顾燁鶚巯瀆蕪領鲡赙。2 Visual BAS work on Windows XP platform C6. 0 environment, using Apriori algorithm, developed analysis of medical records system ,based on data mining for TCM hypertension. 瑣钋濺暧惲锟缟馭篩凉。3 based on considering the reliability, accuracy and integrity of the original data this study, the foundation of the China Academy of TCM Thoracic Obstruction emergency. From January 2001 to October 2005, research Director State Administration of Traditional Medical Administration chest stuffiness and emergency coordination team leader Mr. 65 copies of medical records Medical Records are used for the Source of hypertension, for example, using Apriori algorithm to search frequent item sets, The resulting medical case model is almost exactly in line with commonly prescribed when professor Shen is in the treatment of hypertension.鎦诗涇艳损楼紲鯗餳類。 In this paper, hypertension treatment system, only in the diagnosis and treatment of secondary hypertension, is the first attempt and exploration to rely on manual skills and computer technology to the diagnosis and treatment hypertension .Break the previous simple application of finishing, inductive method summarizing the experience of old TCM traditional thinking , created new ideas and new methods using a computer-aided analysis of old TCM experience Hope to provide a useful reference for subsequent personnel engaged in related research.栉缏歐锄棗鈕种鵑瑶锬。Keywords: association rules; Apriori algorithm; data mining; drug laws; famous TCM experience辔烨棟剛殓攬瑤丽阄应。峴扬斕滾澗辐滠兴渙藺。詩叁撻訥烬忧毀厉鋨骜。第一章 绪论1.1 课题提出的背景及研究意义心脑血管疾M(Cardiovascular Disease, CVD)是全球威胁人类健康的重大疾病,已成为我国居民的首位死因。心脑血管病的发病和死亡一半以上与高血压有关,同时居民脑卒中和冠心病发病最重要的危险因素也是高血压,所以控制高血压是防治心脑血管病、脑卒中和冠心病的关键。我国居民高血压患病率持续增长,1991年全国患病人数约为9000万。中国居民2002年营养与健康状况调查显示,18岁以上居民高血压患病率为18.8%,全国患病人数大约1.6亿多。中国高血压防治指南(2009年基层版)中估计我国现高血压患者2亿人,10个成年人当中就有2个患有高血压,在高血压患病率持续增长的同时,高血压病人的知晓率和治疗率也处于一个很低的水平。则鯤愜韋瘓賈晖园栋泷。高血压是一种慢性疾病,病人都需要接受长期治疗。治疗高血压最有效的方式是药物治疗,药物治疗就需要医生开具处方,从而产生了大量的纸质处方的存储和查询问题。随看计算机网络技术的成熟,我国医疗卫生信息化建设不断深入,全国的医疗机构也都开始建设自己的医疗信息化系统,其中电子处方作为推行医疗信息化建设的必然产物和医疗信息化建设的重要组成部分将得到广泛的运用。胀鏝彈奥秘孫戶孪钇賻。中医药是中华民族的瑰宝,进行中医药的数据挖掘是中医药现代化研究的重要组成部分,是对中医药几千年沉淀的宝贵历史数据进行去伪存真、去粗取精的过程,也是为更好地推进中医药的发展,保持其优势与特色的重要方法。中医药在漫长的发展过程中形成了自己独特的理论和诊疗经验,中医医案中的方、药、证之间的关系错综复杂,在一定程度上保持了中医药系统的特色,但也成为中医药走向世界的障碍。大量的医案散见于文献刊物中,散见于名老中医的案头,他们的学术经验是中医药事业的一笔巨大财富。总结其经验,继承其学术,既是今天振兴中医药事业的需要,也是历史赋予我们的重任。目前,对名老中医的学术思想和临证经验尚停留于口授、身教、整理、归纳阶段,带有一定的主观成份,缺乏全面系统的整理与统计,学者搜寻不易,难以为广大医务工作者借鉴应用。本课题对数据挖掘技术在中医药方面的应用进行了有益的探索,设计并实现了基于数据挖掘的中医医案分析系统,通过收集治疗典型病例的众多医案,从大量有噪声、不完整甚至是不一致的数据中,挖掘出典型病例的中医用药规律,突破了以往单纯应用整理、归纳方法总结名老中医经验的传统思路,为中医临床治疗、中医药教学及中成药的研制提供参考,开创了应用计算机辅助分析名、老中医经验的新方法。鳃躋峽祷紉诵帮废掃減。1.2 相关研究的现状1.2.1 高血压领域的研究现状高血压作为全球人类最常见的慢性病,中华人民共和国卫生部疾病预防控制局、卫生部心血管病防治研究中心出台了中国高血压防治指南(2009年基层版),指南中估计我国现有高血压患者2亿人,严重了我国居民的身心健康。为了有效防治高血压,领域学者对高血压做了多方面研究,主要集中在几个方面:(1)对高血压患病率的统计。文献中指出我国成年人高血压患病率为18.8%。15岁以上患病率为17.6%。高血压的患病率跟年龄和经济发展水平有关。(2)对成年人高血压知晓率和治疗控制状况的统计。高血压的患病率持续增长,同时高血压的知晓率和治疗率也处于一个很低的水平。文献中指出我国高血压患者的知晓率和患病率只30.2%.、24.7%,这对高血压的治疗带来了很大的困难。(3)借助数据仓库、数据挖掘和人工智能等计算机技术对高血压的病因、发病机制和高血压的防治的研究.例如对同时患有糖尿病和高血压的患者选择强化降压还是强化降糖的研究、尿酸与高血压前期关系的研究、血脂与高血压关系的研究等。国外的Thusitha等人认为高血压病人要想达到降血压的目的,必须坚持接受药物治疗。并对病人的不坚持服药的心理和原因进行了分析,然后找到了一种鉴定病人不坚持服药的方法。同时,为了增强全科医生的查询能力,更好地提醒病人按时服药,Thusitha等人还开发了一个基于本体的查询方法。稟虛嬪赈维哜妝扩踴粜。1.2.2 关联规则的研究现状随着信息化时代的到来,多种行业积累的数据正在以指数式增长,数据的存储随着计算机硬件和数据库技术的不断成熟己经得到了有效解决,但是面对海量的数据,人们对数据的理解程度在降低,对数据进行准确理解、分析和发现有用的新知识成为各个行业决策者的强烈需求。随若数据量的不断增长,传统的统计、查询方法都是对数据进行简单的处理,无法直接提取出这些潜在的有价值的信息。信息的需求带动了对信息挖掘分析工具的需求,数据挖掘(Data Mining, DM)技术应运而生。陽簍埡鲑罷規呜旧岿錟。关联规则挖掘是数据挖掘的一个重要研究课题,它反映了一个数据集中数据项之间的依赖或相互关联,是数据挖掘领域的一个重要分支,它是由R.Agrawal等人于1993年首次提出。关联规则最初应用于购物篮分析,用于发现商品交易数据中的被顾客频繁购买的商品、顾客的购买习惯和不同商品之何的联系。由于关联规则技术易于理解并且实际应用效果非常理想,所以在关联规则提出后的几年中学者和研究人员对它做了大量的研究工作,现在对关联规则的研究主要集中在以下两个方面:(1)优化原来的算法或提出更高性能的算法.这其中包括Agrawal本人对Apriod算法提出的改进算法AprioriAl和ApriodTid,其他研究人利用并行挖掘技术、散列技术、分区技术对Apriod算法提出的优化算法.(2)把关联规则的概念应用到其他的领域。现在关联规则技术被广泛应用于金融、保险、电信、医学研究等领域。沩氣嘮戇苌鑿鑿槠谔應。在医学领域中,关联规则主要用来寻找症状和疾病之间的关联、疾病和治疗标准之间的关联、药物和不良反应之问的关联,从而辅助疾病的诊断和治疗。刘宏强利用Apriori算法发现了冠心病和影响它发病的可能因素之间的关联,用于辅助冠心病的预防和诊断。赵连朋利用关联规则技术发现病人的处方和药品之间的关联,以监督医师合理用药。马丽伟把关联规则算法应用到中医药数据挖掘中,发现了具有临床参考价值的症状间、处方间的关联和症状-处方药物间的关联。高血压病人的电子处方记录中也隐藏了很多关联,因此把关联规则技术应用到电子处方中也应该会得到抗高血压药物间、药物-血压间的一些关联,这些关联可用于辅助高血压的诊断和治疗。钡嵐縣緱虜荣产涛團蔺。1.3 本课题的主要研究目标本文的研究目标是设计一个高血压的辅助诊断和治疗系统,目的是帮助用户诊断是否患有高血压,为确诊的病人提供一个合适的治疗方案,从而提高病人的知晓率和治疗率,最终提高全社会对高血压的防治水平。该系统利用了数据挖掘中的关联规则技术、本体的构建方法和本体理论的知识表达与推理技术。懨俠劑鈍触乐鹇烬觶騮。本文的研究内容包括:1、深入分析和探讨了典型的关联规则挖掘算法Apriori算法,在此算法的基础上完成数据库挖掘的基本构思。謾饱兗争詣繚鮐癞别瀘。2、在Windows XP平台上Visual BAS工C6. 0的环境下,采用Apriori算法,开发了基于数据挖掘的中医高血压医案分析系统。呙铉們欤谦鸪饺竞荡赚。3、基于原始数据的可靠性、准确性和完整性方面的考虑,本研究以自2001年1月一2005年10月中国中医研究院基础所胸痹急症研究室主任、国家中医药管理局医政司胸痹急症协作组组长沈绍功先生医案65份为医案来源,以高血压病为例,采用Apriori算法进行频繁项集的搜索,所得医案模型几乎完全符合沈教授在治疗高血压病时常用的处方。莹谐龌蕲賞组靄绉嚴减。北京科技大学本科生毕业设计(论文)第二章 数据挖掘技术研究2.1 数据挖掘技术及其在中医药研究中的应用2.1.1 数据挖掘简介随着Internet的不断发展,信息化时代的到来,像超市、保险公司、医疗机构等多个行业积累的数据正在以指数式增长。数据的存储随着计算机硬件和数据库技术的不断麸肃鹏镟轿騍镣缚縟糶。成熟已经得到了有效解决。但是面对海量的数据,人们对数据的理解程度在降低,对数据进行准确理解、分析和发现有用的新知识成为各个行业决策者的强烈需求。比如超市的经营者希望获得哪些商品经常被顾客同时购买,保险公司希望得到购买保险的客户的特征,医疗机构研究人员希望找到影响某种疾病思病率的因素.随着数据量的不断增长,传统的统计、查询方法都是对数据进行简单的处理,无法直接提取出这些潜在的有价值的信息。信息的需求带动了对信息挖掘分析工具的需求,数据挖掘(Data Mining, DM)技术应运而生。納畴鳗吶鄖禎銣腻鰲锬。数据挖掘又称数据库中的知识发现(Knowledge Discovery in Database, KDD)是通風撵鲔貓铁频钙蓟纠庙。过仔细分析大量数据提取有意义的新的关系、趋势和模式等新知识的过程。从商业角度来看,数据挖掘是对既定的业务目标,从大量的企业数据中发现未知的规律或者验证己知的规律,并进一步模型化,从而获得辅助商业决策、解决商业向题的关键数据的方法.ISL, NCR, DaimlerChrysler三家公司在1996年制定了数据挖掘的交叉产业标准过程(CRISP-DM) ,它强调数据挖掘在商业中的应用,是数据挖掘应用商业的通用流行标准之一。数据库系统的参考模型的如下图2-1所示:灭嗳骇諗鋅猎輛觏馊藹。用户界面模式评估数据挖掘引擎数据库或数据仓库服务器数据清理、集成和选择数据库数据仓库万维网其他信息储存库知识库铹鸝饷飾镡閌赀诨癱骝。图2-1 典型数据挖掘系统的结构其主要成分有数据库、数据仓库或其它信息库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评估模块、图形用户界面。攙閿频嵘陣澇諗谴隴泸。1、数据库、数据仓库和其它信息库数据库、数据仓库和其它信息库是进行数据挖掘的数据源,可以在它们的数据上进行数据清理和集成。2、数据库或数据仓库服务器根据用户的数据挖掘要求,数据库或数据仓库服务器负责提取相关的数据。3、知识库知识库是特定的领域知识,用于指定搜索或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。趕輾雏纨颗锊讨跃满賺。3、数据挖掘引擎数据挖掘引擎是数据挖掘的最重要的基本部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。夹覡闾辁駁档驀迁锬減。4、模式评估模块通常模式评估模块使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚集在有趣的模式上。它可能使用兴趣度闽值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。视絀镘鸸鲚鐘脑钧欖粝。5、图形用户界面图形用户界面在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚集,根据数据挖掘的中间结果进行探索式数据挖掘。此外,此成分还允许用户浏览数据库和数据仓库模式或数据结构、评估挖掘模式。偽澀锟攢鴛擋緬铹鈞錠。从技术角度来讲,数据挖掘是从大量的、真实的、有噪声的、校糊的、不确定的相同或不同的数据集中,提取隐藏的,事前不为人知的但又有用的潜在知识的过程。从数据挖掘技术上的定义可以看出,数据挖掘的原始数据必须是大量的真实数据,挖掘出的知识是用户感兴趣的并对用户有价值的数据,用户可以理解、接受并应用这些知识。数据挖掘是利用区别于传统的统计方法从大量数据集中获取深层次的知识的过程。緦徑铫膾龋轿级镗挢廟。挖掘出的知识,可以是概念、规则、规律和约束,这些知识可以用来指导决策者做出正确的决策和预测事物发展的趋势。騅憑钶銘侥张礫阵轸蔼。从数据中挖掘出有用的知识是一个往复循环的过程,首先要确定合适的挖掘目标,然后抽取所需要的数据,选取相应的挖掘算法进行数据挖掘,最后对生成的知识进行评估,如果对挖掘出的只是不满足用户的要求,则整个挖掘过程需要退回,重新选取数据,甚至改变挖掘算法,直到满足要求为止。数据挖掘的步骤如图2-2所示:疠骐錾农剎貯狱颢幗騮。问题定义数据抽取数据预处理模式评估数据挖掘选择模式图2-2 数据挖掘的步骤2.1.2 数据挖掘的功能概述数据挖掘的最终目标是描述和预测,描述是规范当前存在的事实,找到数据可理解的一般特征,预测是利用数据库中的历史和当前的已知变量与字段预测未来感兴趣的其他变量或字段的未来的值。数据挖掘功能可发现多种不同的知识模式,根据发现知识的不同可以从以下6个方面描述数据挖掘的功能。镞锊过润启婭澗骆讕瀘。1、概念描述:区分和特征化数据的概念描述(Concept Description)包括数据区分(Data Discrimination)和数据的特征化(Data Characterization)。数据区分是发现或提取目标数据的某些特征或属性与其他数据的特征或属性相比较,用于描述不同数据之间的区别。例如,分别提取两张不同疾病的症状,利用这些症状就可以区分这两种疾病。数据特征化是对口标数据的总体情况的描述,提取数掘的一般特征或特性的汇总。榿贰轲誊壟该槛鲻垲赛。2、关联分析关联分析(Association Analysis)就是从目标数据中发现数据项之间存在的依赖关系,关联分析又称为关联规则.关联规则通过找出频繁地在目标数据集中一起出现的数据项来发现隐藏在不同数据项之间的某种因果关系。关联规则被广泛地应用到商业领域,通过分析交易数据来指导销售和制定市场决策.比如人们熟知的“啤酒和尿布”的故事就是从超市的交易数据中分析得出的频繁项集。邁茑赚陉宾呗擷鹪讼凑。3、分类和预测分类(Classification)是指构建一个分类模型或函数,这模型或函数能够把各个数据项映射到预定义的类别。分类包括模型的创建和模型的使用两个过程。通过对预先定义的各个类的训练数据的进行分析,从每个类的训练数据中发现共性得出这个类的描述从而建立分类模型,然后使用分类模型对新的数据进行分类。分类方法有决策树、分类规则、神经网络、粗糙集等。例如,根据病人的症状和己建立的疾病分类规则可到定病人患病的种类。嵝硖贪塒廩袞悯倉華糲。预测(Prediction)是利用训练数据建立模型,该模型可以获得新输入数据的未来变化的趋势或评估数据的属性值的分布范围。该栎谖碼戆沖巋鳧薩锭。4、聚类分析聚类分析(Clustering Analysis)是将抽象对象或物理对象的数据集中类似的对象聚合为一类的过程。每个数据集包括若干个类,各类之间数据对象相似程度极低,每个类内部的对象相似程度很高。聚类分析的方法不同于分类预测,分类预侧是在预定义类别的前提下训练数据找出类的总体特征或属性,然后再根据每个类的特征或属性和分类锐型对新加入的数据进行分类,属于有教师监督学习方法:聚类分析方法直接从数据集中抽象出相似程度高的对象聚合为一类,属于无教师监督的学习方法。劇妆诨貰攖苹埘呂仑庙。6、孤立点分析孤立点(Outlier)是指与数据的一般行为或模型不一致的数据对象。大部分的数据挖掘算法都将孤立点视为噪声,在数据预处理阶段就被过滤掉了。但是罕见或意想不到的事件有时候比正常的事件更有价值。比如发现病人对治疗方式的不良反应校式,在欺骗检测中孤立点可能预示着欺骗行为模式。臠龍讹驄桠业變墊罗蘄。6、演变分析演变分析(Evolution Analysis)是描述事件或对象的行为基于时间或共他序列变化的规律或趋势,并对其建模.演变分析主要包括序列或周期校式匹配、机遇类似性的数据分析和时间序列数掘分析。比如,可以利用演变分析方法获得整个股票市场的变化规律,发现的规律可指导股民投资。鰻順褛悦漚縫冁屜鸭骞。2.1.3 数据挖掘技术在中医药研究中的应用数据挖掘技术只有十多年的发展时间,但其应用十分广泛。在商业、金融业、工业中都有成功的应用例子,取得了一定的经济和社会效益。数据挖掘技术在中医药研究领域中的应用刚刚起步,但己经表现出了很好的势头,目前数据挖掘技术在此领域中的应用主要表现在以下几个方面。穑釓虚绺滟鳗絲懷紓泺。1、在中医药信息化研究中的应用对中医药信息进行文本数据挖掘是促进中医药信息结构化的途径之一。从中医诊断、辨证到组方的各个环节,用文字语言描述的过程占很大比例,使得定性内容相对多一些。当中医药在实现以计算机技术为主要工具的信息化研究时,这种定性信息的量化常常会遇到相当的困难,即使是原先有量化信息的用药剂量,也因不同中药有效成分含量的差异而失去了原先的意义。因此,对以古语言和纯文本为主的中医药理论和实践进行结构化解析是中医药信息化研究的重要内容,其中的某些内容可以通过对文本的数据挖掘技术来实现。可以采用特征抽取的方法,或者采用聚类的方法描述某些相似病症的内容,找出其中隐含的相似关系。隶誆荧鉴獫纲鴣攣駘賽。2、在中医药专家系统研究中的应用计算机和人工智能技术在中医药研究中最普遍的应用是各种专家系统,如关幼波肝病专家系统等。专家系统是一种面向特定对象的决策支持系统(Decision Support System, DSS),它根据专家对某种疾病的认识及多年积累的治疗经验,在建立相应知识库的基础上,采用各种推理方法模拟专家进行疾病的诊断和治疗。对于一个专家系统来说,实际诊断成功与否的关键取决于它的知识库中知识的完备程度,而仅凭中医专家的口授心传和系统设计者的领悟,往往难以满足专家系统知识库的要求,而且相对简单的推理往往也难以体现出人最活跃的主观能动的部分,知识的获取途径和表示方法因此成为限制专家系统发展的瓶颈。而数据挖掘可以在大量经验中发现隐含的、客观有用的新型知识,这对于丰富专家系统的知识库将起到积极的作用。浹繢腻叢着駕骠構砀湊。3、在中医药基础理论研究中的应用数据挖掘不仅在中医药临床实践中有广泛的应用,也可应用于中医药基础理论的现代化研究中。如中药药性理论的现代化研究,中药药性理论是中药配伍应用的核心内容之一,其内容完善的程度将直接影响到组方的准确性和治疗的有效性。中医对于中药药性的认识是一个逐渐积累和完善的过程,至今还存在某些药物的药性不完整的情况,如华山参的药性特征为只有性味而无归经;对于中药的功效归类也因专家对药物认识程度的不同,而导致同一药物分属于不同类别,甚至功效分类名称也不统一的情况。数据挖掘技术可以在分析大量历史数据的基础上,协助中药药性的完善研究。如数据挖掘中的分类方法可以依据药性特征的辨识结果,将一些还未归类的中药进行分类预测;也可用聚类方法将药味聚类后,根据同类药物的药性相近,归类也应相近的特点进行分类预测;用决策树和关联规则分析可以自动对药物进行功效分类与其药性特征之间的关联模式或规则研究;粗糙集理论可以实现对药物分类的简化药性特征研究等。进行中药药性特征的数据挖掘研究,对中药复方配伍的科学规律研究有着重要意义。鈀燭罚櫝箋礱颼畢韫粝。4、在中药化学研究中的应用中药发挥作用的物质是其所含的化学成分,在中药中提取有效成分直接用于新药开发或作为先导化合物,经过结构修饰或改造后进行合理药物设计,然后开发为新药的途径,己成为现代新药开发的热点。中药化学成分一般较人工合成的成分复杂,具有相同药效的成分往往具有相似的活性基团和比较稳定的活性构象。因此通过对大量中药化学成分的二维和三维构象分析,以及结构与活性之间关系的分析,进行药效基团的建模研究,并实现对中药化学成分数据库的柔性搜索,为更充分利用中药化学成分提供技术支持。如利用分子对接技术(DOCK)在进行受体与配体结合分析的基础上,建立对应结构类型不同配体的构效方程和它们的结合模式;比较分子力场分析(COMFA)和定量构效关系(QSAR)的结合可以在提取大量分子共同活性结构模式的基础上,揭示出化合物之间的联系和潜在特征以及与生物活性之间的关系,并可实现对成分数据库和活性数据库中有价值信息的挖掘。惬執缉蘿绅颀阳灣熗鍵。5、在中医医案方面的应用中医医案在中医药科学中扮演着非常重要的角色,大量的医案散见于文献刊物中,散见于名老中医的案头,他们的学术经验是中医药事业的一笔巨大财富。但“百花齐放、百家争鸣”的局面使得医案经常出现药味和药量千差万别的情况,无法形成中医在整体上对疾病规律统一的认识。应用数据挖掘方法对众多中医专家的宝贵经验进行全面整理和挖掘,将会比较全面地获得对中医药基础理论和临床实践规律的统一的认识。其中决策树、关联规则和面向属性的归纳方法可以在不同配伍层次(单味药、药物功效分类等)上分析药味配伍的模式或规则。贞廈给鏌綞牵鎮獵鎦龐。6、在中医药其他方面的应用数据挖掘技术不但可以应用到中医药研究中的上述方面,而且在研究中医病证与复方组方的关系、中医症候与现代医学临床表现之间关联的关系以及中医药信息数据仓库的开发研究等方面都可以得到广泛应用。嚌鲭级厨胀鑲铟礦毁蕲。2.1.4 数据挖掘和传统数据分析工具和学习机器的区别对于在线分析OLAP (On Line Analytical Processing),用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。比如一个分析师想找到是什么导致拖欠贷款,他可能先做一个初始假设,认为低收入的人信用也低,然后他可以用OLAP来验证他的假设,如果这个假设没有被证实,他可能去查看那些高负债的账户,如果还不行,他可能要把收入和负债一起来考虑,继续进行下去直到找到他想要的结果或放弃。也可以这么说,OLAP分析师是建立一系列的假设,然后通过OLAP验证或推翻这些假设来最终得到自己的结论。OLAP过程本质上是一个演绎推理的过程。数据挖掘与OLAP相比其不同之处在于数据挖掘不是用来验证某个假设的模式(模型)的正确性,而是在数据库中自己寻找模型。它在本质上是一个归纳的过程。举个例子,一个用数据挖掘工具的分析,想找到引起贷款拖欠的因素,数据挖掘可以帮他找到高负债和低收入是引起这个问题的因素,甚至还能发现一些分析师从没想过或试过的其它因素。薊镔竖牍熒浹醬籬铃騫。概括说来,数据挖掘与传统的数据分析(如查询、报表、联机分析处理)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有原先未知、有效和实用三个特征。先前未知的信息是指该信息是预先未能预料的。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。齡践砚语蜗铸转絹攤濼。数据挖掘是从现实世界中存在的一些具体的数据中提取知识,这些数据在数据挖掘出现之前早己存在;而机器学习所使用的数据是专门为机器学习而特别准备的数据,这些数据在现实世界中也许毫无意义。由于数据挖掘使用的数据来自于实际的数据库,所要处理的数据量可能很大,因此数据挖掘算法的效率和可扩充性就显得尤为重要;此外,数据挖掘所处理的数据由于来自于现实世界,数据的完整性、一致性和正确性都很难保证,如何将这些数据加工成算法可以接收的数据也需要进行深入的研究;再者,数据挖掘可以利用目前数据库技术所取得的研究成果来加快挖掘过程,提高挖掘的效率。最后,由于数据挖掘处理的数据来自于实际的数据库,而与这些数据库数据有关的还有其他一些背景知识,这些背景知识的合理运用也会提高算法的效率。绅薮疮颧訝标販繯轅赛。2.2 关联规则2.2.1 关联规则介绍数据挖掘所发现出的知识种类中关联规则的应用是目前数据挖掘领域中研究最为广泛的课题之一。关联规则是描述数据库中数据项之间潜在关系的规则。关联规则挖掘的一般对象是事务数据库,起初主要应用于零售业,比如超级市场的销售管理。条形码技术的发展使得数据的收集变得更容易更完整,从而存储了大量交易资料,关联规则是通过辨别这些交易资料,来分析顾客的购买模式。根据关联规则提供的信息可以用做商品销售目录设计、商品布置、针对性的营销等。饪箩狞屬诺釙诬苧径凛。1993年Agrawal R.等人首先提出了挖掘顾客交易数据库中项集的关联问题,并于1994年提出了挖掘关联规则的经典Apriori算法。后来有不少学者对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有Aprior算法进行优化,如引入随机采样、并行的思想、使用哈希方法等,以提高算法挖掘规则的效率,有的为了避免频繁集产生方法的一些缺陷,提出了独立于Apriori算法的挖掘关联规则的新方法,如Jianwei Han等人提出的不产生候选挖掘频繁项集的FP-Growth方法、基于关联图的挖掘关联规则的方法等。烴毙潜籬賢擔視蠶贲粵。2.2.2 关联规则的有关定义设是n个不同项(Item)的集合,表示集合中的第j项。相同的事务的集合构成事务集D。一组项的集合构成一个事务T,使得每一个事物都与唯一的标识符TID相联。设A是一个项集当且仅当时就称事务T包含A。一条关联规则就是一个形如的蕴涵式,其中,。鋝岂涛軌跃轮莳講嫗键。关联规则的实用性由支持度衡量。描述了A和B两个项集同时出现的概率.定义为:support(AB)=P(AB)。关联规则的准确性由置信度衡量,描述了出现A的前提下也出现B的概率,定义为,。撷伪氢鱧轍幂聹諛詼庞。最小支持度表示项集的最低实用性,最小置信度表示关联规则的最低可靠性。满足最小支持度min-sup的项集成为频繁项集,同时满足最小支持度min-sup和最小可信度min-conf的规则成为强关联规则。踪飯梦掺钓貞绫賁发蘄。SupportConfidence 关联规则数据挖掘的过程大体为两步,如下图所示,第一步是利用频繁项集搜索算法从事物数据中找出所有大于或等于。up的频繁项集的集合:第二步是根据设定的min-conf从频繁项集产生关联规则。第一步要从大量的事物数据中找出频繁项集,每次执行部要扫描一次数据库,需要耗费大量的时间和空间,所以对关联规则算法的研究工作主要是对第一步算法的优化或改进。婭鑠机职銦夾簣軒蚀骞。描述关联规则属性常用的参数有:1、支持度(Support)支持度S是D中包含的事务百分比,它是概率,即,它描述了A和B这两个物品集的并集在所有的事务中出现的概率。例如,一事务数据库中共有1000条记录,其中同时包含A和B的100条,则关联规则AFB的支持度为100/ 1000100% =10%。支持度表示了规则的频度。满足最小支持度的项集称之为频繁项集。譽諶掺铒锭试监鄺儕泻。2、置信度(Confidence)置信度C为D中包含A的事务中同时也包含B的百分比,它是概率,即。在上例中,如果有200条记录包含A,则关联规则的置信度为100/200100% =50%。置信度表示了规则的强度。俦聹执償閏号燴鈿膽賾。同时满足最小支持度阈值和最小置信度阈值的规则称作强规则。 3、期望置信度(Expected Confidence) 期望置信度e为D中包含B的事务百分比,即P (B )。期望置信度描述在没有任何条件影响时,物品集B在所有事物中出现的概率有多大。在上例中如果有150条记录包含B,则关联规则AFB的期望置信度为150/ 1000 100% =15%。缜電怅淺靓蠐浅錒鵬凜。4、作用度(Lift)作用度是置信度与期望置信度的比值,即。作用度描述了项集A的出现对项集B的出现有多大的影响,作用度越大,说明物品集B受物品集A的影响越大。因为项集B在所有事务中出现的概率是期望置信度;而项集B在所有项集A出现的概率是置信度,通过置信度与期望置信度的比值反映了在加入“项集A出现”这个条件后,项集B的出现概率发生了多大的变化。在上例中,关联规则的作用度为50%/15% 3. 3。一般情况,有用的关联规则的作用度都应该大于1,只有关联规则的可信度大于期望可信度,才说明A的出现对B的出现有促进作用,也说明了它们之间某种程序的相关性,如果作用度不大于1,则此关联规则也就没有意义了。骥擯帜褸饜兗椏長绛粤。5、兴趣度(Interest measure)在数据挖掘中,并不是所有的强关联规则都是足够的有趣而值得向用户提供。例如一个学校的5000名学生进行早晨参与活动与早餐的情况调查。数据显示:60%的学生(3000)晨练,75%的学生(3750)吃早餐,40%的学生(2000)即晨练又吃早餐。假设最小支持度为40%,最小置信度为60%,则。是一强关联规则,因为其支持度为40%,置信度为2000/3000100% =66%,满足最小支持数和最小置信度的要求,然而以上规则是误导,因为总的吃早餐的学生占75%,比66%还要大,为了修剪一些无趣的规则,即避免生成错觉的关联规则,下面定义了兴趣度这个度量值。癱噴导閽骋艳捣靨骢鍵。基于差异思想的兴趣度定义,分母上的只是一个标准化因子,使得。根据这个式子,一条规则的兴趣度越大(IR0)说明对这条规则越感兴趣(即其实际利用价值越大);一条规则的兴趣度越小(IR0) 说明对这条规则的反面规则越感兴趣(即其反面规则的实际利用价值越大)。鑣鸽夺圆鯢齙慫餞離龐。基于概率论的兴趣度定义:。这样整个关联规则的评价体系就可以统一在概率论的范畴内。即从概率论的角度说,兴趣度I反映了关联规则中A和B之间的关系究竟如何密切。通过定义可以说明,当A和B相互独立时,他们同时发生就纯属偶然,他们同时发生的意义就不会被人们关注。即,当时,其所对应的关联规则是没有意义的。相应的,当一条关联规则的兴趣度大于1说明对这条规则越感兴趣;一规则的兴趣度越小于1说明对这条规则的反面规则越感兴趣;显然,此种定义的兴趣度不小于0。榄阈团皱鹏緦寿驏頦蕴。关联规则描述了A的出现影响到B的出现。现实中,这样的例子很多。例如超级市场利用收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存贮了事务处理时间,顾客购买的物品,物品的数量及金额等。这些数据中常常隐含形式如下的关联规则:在购买牛奶的顾客当中,有70%的人同时购买了面包。这些关联规则很有价值,商场管理人员可以根据这些关联规则更好的规划商场,如将面包和牛奶这样的商品摆放在一起,能够促进销售。一些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合,但稍微转换一下思考角度,仍然可以像售货数据一样处理。比如人寿保险,一份保单就是一个事务。保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。这些投保人的个人住处就可以看作事务中的样品。通过分析这些数据,可以得到类似以下这样的关联规则:年龄在40岁以上,区的投保人当中岁以上是物品甲,有45%的曾经向保险公司索赔过。在这条规则中。工作在年龄在,工作在A区是物品乙。向保险公司索赔过则是物品丙。可以看得出来,A区可能污染比较严重
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年环保工程设施升级改造及安全维护服务合同
- 2025年度专业车队驾驶员岗位劳动合同编制规范
- 2025智能医疗设备销售与售后服务保障协议
- 2025城市公交枢纽区巡游出租车智能车载平台运营合作协议
- 2025年桌游关卡创新设计及全面优化合作协议
- 2025养老机构专业康复护理服务合作协议
- 主题公园沉浸式体验项目开发中的游客满意度提升策略报告
- 2025年花卉博览会园艺肥料团购定制与展会零售合作框架协议
- 2025年土地市场交易土地资产评估经纪服务合同范本
- 2025年度环保设备安装维护劳务外包服务合同
- 蔬菜大棚种植技术课件
- 口腔医生岗前培训课件
- 驾考题库及答案大全
- 医疗废物与污水处理培训
- 保安证的考试试题及答案
- 2020-2025年中国胡椒行业市场调研分析及投资战略咨询报告
- 育儿嫂岗前培训
- 产后及哺乳期心理护理讲课件
- 2025年新疆中考英语试卷真题(含标准答案)
- 私募基金档案管理制度
- 伊利集团晋升管理制度
评论
0/150
提交评论