




已阅读5页,还剩62页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘(基于认知的复杂数据对象的知识发现技术),CognitionBasedKnowledgeDiscoveryinDatabase(DM(KDD)ofComplexDataObject),1,2知识发现的基本概念,2.1数据、信息、知识2.2DM(KDD)定义2.3DM(KDD)对象2.4DM(KDD)功能2.5DM(KDD)技术方法,2,数据、信息、知识,事实(facts):人类思想和社会活动的客观映射。数据(data):事实的数字化、编码化和序列化。信息(information):数据在信息媒介上的映射。知识(knowledge):对信息的加工、吸收、提取、评价的结果。,Weoftenseedataasastringofbits,ornumbersandsymbols,or“objects”whichwecollectdaily.,Informationisdatareducedtotheminimumnecessarytocharacterizethedata.,Knowledgeisintegratedinformation,includingfactsandtheirrelations,whichhavebeenperceived,discovered,orlearnedasour“mentalpictures”.,3,数据、信息、知识的关系,MIS,DSS,MIS:ManagementInformationSystemDSS:DecisionSupportSystems,Value,4,.10,M,0,10,10,0,0,0,SUBACUTE,37,2,1,0,15,-,-,6000,2,0,abnormal,abnormal,-,2852,2148,712,97,49,F,-,multiple,2137,negative,n,n,ABSCESS,VIRUS12,M,0,5,5,0,0,0,ACUTE,38.5,2,1,0,15,-,-,10700,4,0,normal,abnormal,+,1080,680,400,71,59,F,-,ABPC+CZX,70,negative,n,n,n,BACTERIA,BACTERIA15,M,0,3,2,3,0,0,ACUTE,39.3,3,1,0,15,-,-,6000,0,0,normal,abnormal,+,1124,622,502,47,63,F,-,FMOX+AMK,48,negative,n,n,n,BACTE(E),BACTERIA16,M,0,32,32,0,0,0,SUBACUTE,38,2,0,0,15,-,+,12600,4,0,abnormal,abnormal,+,41,39,2,44,57,F,-,ABPC+CZX,?,?,negative,?,n,n,ABSCESS,VIRUS.,MedicalDatabyDr.Tsumoto,TokyoMed.&Dent.Univ.,38attributes,Numericalattributecategoricalattributemissingvaluesclasslabels,IFcell_poly=220ANDRisk=nTHENPrediction=VIRUS87,5%,confidence,predictiveaccuracy,数据与知识(规则),5,中医临床数据结构化数据采集,6,中医临床数据非结构化数据采集,7,中医临床数据,8,中医临床数据全文数据库,9,中医临床数据结构化数据库,10,数据及数据分类,1)按照数据所属行业类别分类科学数据,科学研究过程中产生的数据天、地、生等自然科学政治、经济等社会科学生产数据,加工制造生产过程产生的数据生产制造过程仓储物流过程生产管理过程,11,实例科学数据库,中科院十几个研究所历时十余年建成的大型科学数据库信息系统,学科跨度大包括信息、计算机、网络、化学、生物、天文、材料、腐蚀、光学机械、自然资源、能源、生态环境、湖泊、沼泽、冰川、大气、古气候、动物、水生生物、遥感等多种学科,专业数据库115个,总数据量达4300亿字节(430GB)其中某些科学数据的建库不仅为我国累积了珍贵的科学资料而且也为世界科学数据填补了空白。,12,Internet已经成为最大的信息源,但缺乏集中统一的管理机制,信息发布具有自由性和任意性,难于控制和管理分散、无序、无政府、变动、数量、包罗万象真伪并存,资源信息和非资源信息难于驾御非规范、非结构检索查全和查准提出新的挑战多媒体、多语种、多类型信息的整合提出新的挑战跨国界数据传递和流动,带来政治、文化新问题集成多种(正式和非正式等)交流方式,实例科学数据库,13,数据及数据分类,2)按照数据来源分类互联网数据,人类交互过程的数据社会政治经济各专业行业业务物联网数据,设备管理控制的数据仪器设备状态流程过程控制,14,数据及数据分类,3)按照数据类型分类结构化数据数据元素之间的语义关系清晰简单语义关系可形式化表达结构化数据,即行数据,存储在关系型数据库中,可以用二维表结构来逻辑表达实现的数据,例如Oracle,DB2,SQLServer等数据库中的数据,15,数据及数据分类,3)按照数据类型分类半结构化数据宏观结构清晰微观结构语义复杂半结构化,字段可根据需要扩充,即字段数目不定,可称为半结构化数据,例如Log,XML,具有一定格式的文本,16,数据及数据分类,3)按照数据类型分类非结构化数据音频,文本图片视频非结构化:无法用数字或统一的结构表示,例如Web页面,文本,视频,音频,图像等。,17,数据分类,视频:文本:“从这清秀的笔迹,干净的信纸上我说出第六个可能性是,此人工作一定是好的,由此推论他是个遵守时间、兢兢业业的模范职员。”声音:图像:,18,大数据特点,BigData:大数据,海量数据Volume,Tb级数据Velocity,流数据Variety,时间空间变化Value,巨大商业与社会价值Complexity,复杂系统,复杂语义关系,19,大数据特点,Volume:原始大数据通常是来自于各地的各个行业,并且数据量持续增长。按照行业的分析内容,大数据通常需要分析若干年的数据。我们可以想象这是多么巨大的数据量。Velocity:大量在线或实时数据分析处理的需求。例如:战场决策支持中的指挥和突发事件处理建议、专用分析报表生成、恐怖袭击预警等。Variety:大数据通常会包含各种结构化数据表、非(半)结构化文本文档(xml、log、Web等)、视频、音频等多种多样的数据存储形式。Value:大数据的价值不必多说,它不仅与战场成败息息相关,更可用于国家政策乃至全球的商业竞争、新技术的研发、社会安定。Complexity:大数据本身的多样性和复杂性使其处理和分析的难度非常大;,20,大数据特点,BigData:大数据,海量数据Volume,Tb级数据Velocity,流数据Variety,时间空间变化Value,巨大商业与社会价值Complexity,复杂系统,复杂语义关系相对于简单数据(小数据)采集存储管理,增删改查数据分析、数据挖掘:数据量变化导致技术变化,21,数据特点,复杂数据数据结构复杂,图像复杂语义关系,文本特点是:数据处理技术复杂小样本数据高维模糊语义复杂数据挖掘:数据量变化导致技术变化,22,数据特点,BigData,大数据的共性数据结构复杂复杂语义关系复杂系统信息、知识含量丰富巨大价值,社会价值,商业价值:专业数据分析技术要求能够进行深层分析算法有针对性,解决特定实际问题算法降低算法时空复杂度智能性高,自适应能力强,23,知识定义,知识是一个内涵十分丰实,外延相当广泛的概念。古往今来许多思想家、哲学家、科学家都从不同的角度在知识的界说方面进行过探讨。知识是基于认知,对客观世界的描述,24,培根的知识定义,培根从经验论和认识论的角度给出知识定义:“知识的主要形式不是别的只是真理的表象存在的真实同知识的真实是一致的”,因此,“知识是存在底影像”。他从知识的起源探索知识,认为知识是人脑深入到自然界里面,在事物本身上来研究事物的性质“而获得的东西。”11蔡亮,知识决定论,北京日报出版社,1988年P1213,25,思维科学将知识定义,思维科学将知识定义为:“人类认知的成果来自于实践活动。处理人际社交关系活动和科学试验等实践活动。从实践中得到的感性认识经过去粗取精,去伪存真由此及彼,由表及里的加工制作上升为抽象的理论认知,成为以概念为元素的系统的科学理论,这是知识的比较完备的形态。”11田运,思维辞典,浙江教育出版社,1996年P338。,26,认知科学将知识定义,认知科学知识定义:“静态性的内容结构”1,“形象化心理表征,表征方式包括如规则、概念、表象和类比等”2。1陈英禾,认知发展心理学,浙江人民出版社,1996,P2。2加P萨加德,认知科学导论,中国科技大学出版社,1999,P2。,27,知识工程的知识定义,人工智能从知识处理的角度将知识看作“是为某种服务目的而抽象化和一般化的信息,是一组事实或概念的条理化阐述及形式化的定义。知识可划分为:事实、规律、方法、理论和知识空间、通用知识和领域专门知识等。以上各类知识由上下文的解释来界定”1。1何新贵等,知识处理与专家系统,国防工业出版社,1990,P24“27。,28,知识定义具有以下共同的特点:,知识是客观实在头脑中反映,是客观事物和客观规律的抽象和概括,是人类对于客观实在的认识。知识具有不同的抽象层次,即宏观层次和微观层次。在宏观上,知识具有塔形、网状等结构,不同的结构类型都从不同侧面反映知识的纵横交错相互渗透的关系及其在维度和时间上的发展变化。微观层次的知识是针对具体的问题。知识的界定有确切的定义和适用范围,因而具有较强的针对性。知识以一定的表征方式来表达,通过各种表征方式在不同认知阶段上的组合和运用,可表示人类知识结构的非线性特征,客观世界的非线性和多变性。,29,人工智能知识表示形式,产生式规则AB框架知识脚本知识模型知识模式知识,30,人工智能知识表示形式,产生式规则AB框架知识脚本知识模型知识模式知识,31,人工智能知识表示形式,模式知识表示认知结构语义关系特征集合,32,知识表示模式,模式作为术语已经广泛应用于思维科学、认知心理学、心理学、人工智能以及模式识别等学科领域。模式一词的定义和解释都有其自身的学科特征,并表达着各不相同的概念;描述模式的词汇也各不相同如模式(Pattern)、模板(Template)、模型(Model)、特征集(Features)等;模式的运用也各不相同。认为:知识发现用模式来表征知识更好。,其它知识表示方式,在知识发现中也常用,不同表示形式指可以相互转换。,33,数据挖掘解决的问题,描述:Classification,检测:Deviationandchangedetection,描述:Summarization,描述:Clustering,关联:DependencyModeling,描述:Regression,findingthedescriptionofseveralpredefinedclassesandclassifyadataitemintooneofthem.,mapsadataitemtoareal-valuedpredictionvariable.,identifyingafinitesetofcategoriesorclusterstodescribethedata.,findingacompactdescriptionforasubsetofdata,findingamodelwhichdescribessignificantdependenciesbetweenvariables.,discoveringthemostsignificantchangesinthedata,34,数据挖掘统计与关联分析技术,35,数据挖掘统计与关联分析技术,36,数据挖掘贝叶斯网技术,37,数据挖掘技术的发展变化,(1)结构化数据挖掘技术的研究结构化数据挖掘技术的研究较为成熟,目前的工作主要集中在算法的适应性、扩展性和鲁棒性的研究上。关联规则知识发现算法,即Apriori(R.Agrawal,1994)算法,目前几乎所有频繁项集发现算法的核心,主要适应于布尔型关联规则的挖掘该算法是为数众多的应用研究的基础,目前主要工作集中在算法的改造以及可扩展性和普适性的研究上。,38,数据挖掘技术的演化,(2)非结构化数据对象知识发现技术的研究非结构化数据对象的知识发现是目前国内外知识发现领域的研究热点。非结构化数据的数据挖掘和知识发现包括:复杂数据对象高维分析空间数据挖掘多媒体数据库的数据挖掘文本数据库以及Web挖掘,39,数据挖掘技术的演化,(3)复杂系统知识发现技术的研究针对复杂非线性系统数据的知识发现技术流数据挖掘实时数据挖掘时间序列挖掘复杂关系,2,3,1,4,40,数据挖掘技术的演化,由于半结构化和非结构化的数据缺乏机器可理解的语义,而传统的数据挖掘的对象仅局限于数据库中的结构化数据,因此,为适应这些新的数据情况,数据挖掘方法也日趋复杂。,结构化数据和非结构数据的发展趋势(注图中将半结构化和非结构化归为非结构化数据),41,2知识发现的基本概念,2.1数据、信息、知识2.2DM(KDD)定义2.3DM(KDD)对象2.4DM(KDD)功能2.5DM(KDD)技术方法,42,知识发现定义,在1995年第一届DM(KDD)大会上给出了DM(KDD)的定义:“非平凡地抽取数据中隐含的、先前未知的、潜在有用的知识”123。1G.Piatetsky-ShapiroandW.J.Frawley.KnowledgeDiscoveryinDatabases.AAAI/MITPress,19912U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy.AdvancesinKnowledgeDiscoveryandDataMining.AAAI/MITPress,1996.3G.Piatetsky-Shapiro,U.Fayyad,andP.Smith.Fromdataminingtoknowledgediscovery:Anoverview.InU.M.Fayyad,etal.(eds.),AdvancesinKnowledgeDiscoveryandDataMining,1-35.AAAI/MITPress,1996,43,知识发现定义,Thenon-trivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstandablepatternsindata-Fayyad,Platetsky-Shapiro,Smyth(1996),44,知识发现定义解释,过程-通常指多阶段的一个过程,涉及数据准备、模式搜索、知识评价,以及反复的修改求精;该过程要求是非平凡的,即要有一定程度的智能性、自动性。有效性指发现的模式对于新的数据仍保持有一定的可信度。新颖性要求发现的模式应该是新的。潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益。最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起可称之为兴趣性,其侧读指标为感兴趣度。,45,知识发现定义,数据挖掘(DataMining)知识抽取(KnowledgeExtraction)数据模式处理(DataPatternProcessing)数据考古(DataArchaeology)信息收获(InformationHarvesting)筛选(Siftware)数据疏浚(DataDredging)等456。4G.Piatetsky-Shapiro,Guesteditorsintroduction:Knowledgediscoveryindatabases-fromResearchtoapplication,JournalofIntelligentInformationSystems,4,56,19955AlexBerson,StephenJ.Smith,DataWarehousing,DataMining,&OLAP,McGrawHillInc,19996HarjingderS.Gill&PrakshC.Rao,Theofficalclient/servercomputingtodatawarehousing,QueCorporation,1996,46,知识发现定义,无论如何称呼,其思想和采用技术基本一致。DM(KDD)在学术界应用较多,工程应用领域多称之为数据挖掘,通常可不加区分地加以应用。数据挖掘是知识发现的一个处理阶段,是知识发现处理过程中的一个关键步骤。,47,知识发现模型,聚,焦,的,数,据,子,集,经,过,预,处,理,的,数,据,格,式,化,数,据,假,设,规,则,现,实,数,据,库,选,择,预,处,理,数,据,挖,掘,变,换,知,识,评,价,检,验,问题分析,应用,应用系统,48,知识发现过程中的阶段,熟悉应用背景Relevantpriorknowledgeandgoalsofapplication生成目标数据集:dataselection数据清洗和预处理(maytake60%ofeffort!)数据缩减和变换Findusefulfeatures,dimensionality/variablereduction,invariantrepresentation.选择数据挖掘功能summarization,classification,regression,association,clustering.选择挖掘算法数据挖掘searchforpatternsofinterest模式评估和知识呈现visualization,transformation,removingredundantpatterns发掘知识的应用,49,知识发现过程模型,50,知识发现模型,DM(KDD)isinteractiveanditerative,astepintheDM(KDD)processconsistingofmethodsthatproduceusefulpatternsormodelsfromthedata,undersomeacceptablecomputationalefficiencylimitations,1,2,3,4,5,UnderstandthedomainandDefineproblems,51,DM(KDD)过程详细描,Dataorganizedbyfunction,Create/selecttargetdatabase,Selectsamplingtechniqueandsampledata,Supplymissingvalues,Normalizevalues,SelectDMtask(s),Transformtodifferentrepresentation,Eliminatenoisydata,Transformvalues,SelectDMmethod(s),Createderivedattributes,Extractknowledge,Findimportantattributes&valueranges,Testknowledge,Refineknowledge,Query&reportgenerationAggregation&sequencesAdvancedmethods,Datawarehousing,1,2,3,4,5,52,数据挖掘软件系统结构,DataWarehouse,Datacleaning&dataintegration,Filtering,Databases,Databaseordatawarehouseserver,Dataminingengine,Patternevaluation,Graphicaluserinterface,Knowledge-base,53,DM(KDD),BusinessIntelligence,Increasingpotentialtosupportbusinessdecisions,EndUser,BusinessAnalyst,DataAnalyst,DBA,MakingDecisions,DataPresentation,VisualizationTechniques,DataMining,InformationDiscovery,DataExploration,OLAP,MDA,StatisticalAnalysis,QueryingandReporting,DataWarehouses/DataMarts,DataSources,Paper,Files,InformationProviders,DatabaseSystems,OLTP,商业应用系统结构模型,54,复杂数据对象的数据挖掘系统结构,55,2知识发现的基本概念,2.1数据、信息、知识2.2DM(KDD)定义2.3DM(KDD)对象2.4DM(KDD)功能2.5DM(KDD)技术方法,56,数据挖掘对象,数据挖掘和知识发现的应用对象从结构化数据发展到半结构化及非结构化的复杂类型数据:包括关系数据库、面向对象数据库、空间数据库1、推理数据库、多媒体数据库、时态数据库、文本数据、Web页面、图形图像数据及音频和视频数据等2。1石云,孙玉方,空间数据采掘的研究与发展,计算机研究与发展,vol36,No.11,Nov.19992O.R.Zaiane,J.Han,andH.Zhu.MiningRecurrentItemsinMultimediawithProgressiveResolutionRefinement.ICDE00,461-470,SanDiego,CA,Feb.2000,57,涉及到的知识类型,据应用特点可分为预测型1、描述型、发现型2、验证型等类型知识,据知识的性质特点可分为关联规则34、分类规则、聚类规则5、时序模式6、相似模式、混沌模式、回归模式、趋势分析、偏差分析等7。1F.Korn,A.Labrinidis,Y.Kotidis,andC.Faloutsos.Ratiorules:Anewparadigmforfast,quantifiabledatamining.VLDB98,582-593,NewYork,NY2J.Han,Y.Cai,andN.Cercone.Data-drivendiscoveryofquantitativerulesinrelationaldatabases.IEEETrans.KnowledgeandDataEngineering,5:29-40,19933R.Agarwal,C.Aggarwal,andV.V.V.Prasad.Atreeprojectionalgorithmforgenerationoffrequentitemsets.InJournalofParallelandDistributedComputing(SpecialIssueonHighPerformanceDataMining),20004R.Agrawal,T.Imielinski,andA.Swami.Miningassociationrulesbetweensetsofitemsinlargedatabases.SIGMOD93,207-216,Washington,D.C5B.Lent,A.Swami,andJ.Widom.Clusteringassociationrules.ICDE97,220-231,Birmingham,England6J.Han,J.Pei,andY.Yin.Miningfrequentpatternswithoutcandidategeneration.SIGMOD00,1-12,Dallas,TX,May20007A.SilberschatzandA.Tuzhilin.Whatmakespatternsinterestinginknowledgediscoverysystems.IEEETrans.onKnowledgeandDataEngineering,8:970-974,Dec.1996DM(KDD)&DM与相关分支的关系,58,2知识发现的基本概念,2.1数据、信息、知识2.2DM(KDD)定义2.3DM(KDD)对象2.4DM(KDD)功能2.5DM(KDD)技术方法,59,知识发现的功能,概念描述Generalize,summarize,andcontrastdatacharacteristics关联关系(correlationandcausality)Multi-dimensionalvs.single-dimensionalassociationage(X,“20.29”)income(X,“20.29K”)buys(X,“PC”)support=2%,confidence=60%contains(T,“computer”)contains(x,“software”)1%,75%,60,知识发现的功能,分类和预测Findingmodels(functions)thatdescribeanddistinguishclassesorconceptsforfuturepredictionPresentation:decision-tree,classificationrule,neuralnetworkPrediction:Predictsomeunknownormissingnumericalvalues聚类分析Classlabelisunknown:Groupdatatoformnewclasses,e.g.,clusterhousestofinddistributionpatternsClusteringbasedontheprinciple:maximizingtheintra-classsimilarity,61,知识发现的功能,特例或异常分析Outlier:adataobjectthatdoesnotcomplywiththegeneralbehaviorofthedataItcanbeconsideredasnoiseorexceptionbutisquiteusefulinfrauddetection,rareeventsanalysis趋势与评估分析Trendanddeviation:regressionanalysisSequentialpatternmining,periodicityanalysisSimilarity-basedanalysis,62,2知识发现的基本概念,2.1数据、信息、知识2.2DM(KDD)定义2.3DM(KDD)对象2.4DM(KDD)功能2.5DM(KDD)技术方法,63,数据挖掘算法,数据挖掘算法对应与知识的种类:关联规则(Association)分类规则(Classification)特征规则(Characterization)聚类规则(Clustering)汇总规则(Summarization)趋势(Trend)分析偏差(Deviation)分析模式(Pattern)分析,64,数据挖掘算法,根据数据挖掘技术分类主要有:1)决策树法;2)概念树法;3)神经网络法123;4)粗集(RoughSet)方法;5)遗传算法;6)统计分析方法(Bayes分析、主成分分析法)45;7)可视化技术;8)机器学习法;9)证据理论;10)Agent方法;11)集成方法6等。1Fu,L.M(1998b).Aneural-networkmodelforlearningdomainrulesbasedonitsactivationfunctioncharacteristics.IE
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 玻璃制品装饰工前沿技术考核试卷及答案
- 2025年河北省职业病诊断医师资格考试职业性放射性疾病复习题及答案
- 2025年乐理统考改革真题及答案
- 电池配料工异常处理考核试卷及答案
- 中小电机笼型绕组制造工质量管控考核试卷及答案
- 矿车修理工班前会考核试卷及答案
- 重庆市2025年尘肺医师鉴定考试(职业性尘肺病及其他呼吸系统疾病)题库及答案
- 高分子防水卷材生产工综合考核试卷及答案
- 酒驾醉驾考试试题及答案
- 香料合成工标准化作业考核试卷及答案
- 卫星通信技术的前沿发展及其在物联网中的应用-洞察阐释
- 《医学中心肺癌诊疗》(讲课课件)
- 《肺炎克雷伯菌感染》课件
- 小学生科普课视错觉课件
- 电力安全微课堂
- 质量部长述职报告
- 无人机技术在农业领域的可行性分析报告
- 规模灵活资源广域接入的新型配电系统分层分群架构与规划技术研究
- 音乐心理学理论-洞察分析
- 法院报名登记表
- 上海市闵行区区管国企招聘笔试冲刺题2025
评论
0/150
提交评论