版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、分类号: TP392 密级: 公开 学号: 0630301012 江苏科技大学硕 士 学 位 论 文(工程硕士)基于决策树学习方法的科技管理信息分类挖掘研究研究生姓名 杨文兴 指 导 教 师朱志宇 学 位 类 别工程硕士专 业 领 域 计算机技术 研 究 方 向数据挖掘 A Thesis Submitted in Fulfillment of the Requirements for the Degree of Master of EngineeringThe research of Classification Mining based on Decision Tree learning m
2、ethods for science and technology management information Submitted byYang WenXingSupervised byProfessor Zhu ZhiYu Jiangsu University of Science and TechnologyJune, 2009论 文 独 创 性 声 明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得江苏科技大学或其它教育机构的学位或证书而使用过的材料。
3、与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 日 期:学 位 论 文 使 用 授 权 声 明 江苏科技大学有权保存本人所送交的学位论文的复印件和电子文稿,可以将学位论文的全部或部分上网公布,有权向国家有关部门或机构送交并授权其保存、上网公布本学位论文的复印件或电子文稿。本人电子文稿的内容和纸质论文的内容一致。除在保密期内的保密论文外,允许论文被查阅和借阅。 研究生签名: 导师签名:日 期: 日 期:摘 要摘 要数据仓库和数据挖掘是数据库研究、开发和应用最活跃的分支之一,也是决策支持系统的关键因素,数据仓库是一个支持管理决策过程的、面向主题的
4、、随时间而变的数据集合,它是集成的,也是稳定的。数据挖掘是采用人工智能的方法对数据库和数据仓库中的数据进行分析、获取知识的过程。它们的结合能更好地为行业或有关部门不同范围的决策分析提供有力的依据。纵观以往的科研管理系统,多半是OLTP系统,缺乏综合分析、辅助决策的能力;并且对其历史积累的大量信息中隐含知识的利用无能为力。对科研管理进行分析是科研发展规划、评估的重要手段,采用数据挖掘技术对科研数据进行多层次、多角度的分析与挖掘,利用挖掘结果辅助科研决策是保证科研投入质量、加快科研创新能力建设的必然要求。本文主要探讨了基于SQL SERVER系统分析服务的数据挖掘技术的基本理论和实施方法,探索了数
5、据挖掘分类方法和实施预测。结合科技管理系统,从操作型数据库中抽取、清洗、汇总相关输入项,并对课题组活动主要类型进行预定义,结合微软分析服务系统,探索模型节点最佳拆分分数度量方法,分别建立决策树及神经网络挖掘模型,并用于测试集分析挖掘准确率,最终成功应用于我校科研管理数据分析。通过在科研管理系统中的具体挖掘实践,得到了许多有价值的信息,这些知识在帮助学校更好地进行科研政策制定、科研资金投入以及设备资源的安排等方面无疑具有重要的指导意义。关键词: 数据挖掘;分类预测;决策树;科研管理 IABSTRACTABSTRACTData warehouse and data mining is the da
6、tabase of the research, development and application of one of the most active branches, but also decision support system the key element is a data warehouse to support management decision-making process, subject-oriented, with the time change data set, It is integrated, is also stable. Data mining i
7、s a method of using artificial intelligence database and data warehouse for analysis of the data, the process of acquiring knowledge. The combination of them better for the industry or the departments concerned of the decision-making in different areas to provide a strong basis for analysis.Looking
8、at the past, research management systems, most OLTP systems, the lack of comprehensive analysis to support decision-making capacity; and its historical accumulation of a large amount of information implied in the use of knowledge could do nothing about it. Analysis of the management of scientific re
9、search is research and development planning, an important means of assessment, using data mining technology on the scientific data to multi-level, multi-angle analysis and mining, scientific research supporting the use of excavation results of research into decision-making is to ensure the quality a
10、nd speeding up research and innovation capacity-building inevitable requirement.This article discusses the system analysis based on the SQL SERVER service data mining technology to implement the basic theory and methods, and explore the data mining classification methods and the implementation of th
11、e forecast. Combination of science and technology management system, from the operational database extraction, cleansing, aggregation of the relevant input, and the main types of group activities for pre-defined in light of Microsoft analysis services, and explore the best model of the node split Sc
12、ore metric methods, respectively, information entropy, BK2, BDEU Resolution Measurement Methods for mining model, and analysis of excavation for test set accuracy, the ultimate success of the school I applied to the management of scientific research data analysis.Research management system in the sp
13、ecific practice of mining has been a lot of valuable information, the knowledge to assist schools to better research and policy development, research funding and equipment resources, such as the arrangement is undoubtedly of great guiding significance.n KEY WORDS:Data Mining;Classification and Predi
14、ction;Decision-tree;R&D Management目 录目 录摘 要1ABSTRACTII第一章 绪 论11.1 数据挖掘的历史、发展11.2 国内外研究现状31.3数据挖掘技术在高校科研管理中应用的研究现状及意义51.4本文的研究内容及论文结构7第二章 数据挖掘技术82.1数据挖掘与知识发现82.2数据挖掘过程92.3数据挖掘的类型112.4数据挖掘的任务112.5数据挖掘的对象132.6数据挖掘的方法和技术132.6.1归纳学习法142.6.2聚类方法142.6.3统计分析方法142.6.4仿生物技术152.6.5可视化技术152.6.6模糊数学方法162.6.7其它的方
15、法162.7数据挖掘工具162.8本章小结16第三章 数据挖掘中的分类技术183.1分类的基本概念183.1.1分类的目的183.1.2分类的过程193.2基于决策树的分类203.2.1决策树的生成203.2.2常用决策树算法简介213.2.3有关决策树的评价263.3贝叶斯分类283.4神经网络293.5几种分类算法的比较313.6 本章小结32第四章 数据挖掘分类技术在高校科研管理中的应用334.1 问题提出334.2 解决问题的方法344.3数据预处理354.4 数据变换384.5 数据随机抽样方法进行训练集与测试集的准备424.6基于决策树分类方法的模型训练444.6.1信息熵作为拆分
16、分数的决策树模型474.6.2 Bayesian K2作为拆分分数所得决策树模型484.6.3 BDEU作为拆分分数所得决策树模型。494.7 基于神经网络方法的分类模型训练504.7 神经网络及决策树模型准确率测试及提升图比对524.8 决策树挖掘模型解释/知识表示54结论与展望55结论55展望55参考文献56致谢58I第一章 绪论第一章 绪 论1.1 数据挖掘的历史、发展数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅
17、是查询吗?理论根基最深的关系数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是很多单位的领导在热心数据库建设后发出的感叹。 由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。 专家系统曾经是人工智能研究工作者的骄傲。专家系统实质
18、上是一个问题求解系统,目前的主要理论工具是基于谓词演算的机器定理证明技术二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界,通过人脑的思维活动积累了大量有用信息。 在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此,知识获取成为专家系统研究中公认的瓶颈问题。 其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难,勉强抽象出来的规则有很强的工艺色彩,差异性极大,知识表示又成为一大难题
19、。此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇的贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家Feigenbaum估计,一般人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据“在某地发现一只刚死的波斯猫”的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。 以上这3大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学
20、习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,也走上了数据挖掘的道路。 数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了,迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DMKD这个结合点上,立即呈现出忽如一夜春风来,千树万
21、树梨花开的繁荣景象。在这种情况下,数据挖掘这一新型的数据分析技术于1995年诞生了10。十多年来,数据挖掘的研究工作取得了很大的进展,各种数据挖掘软件的应用大大地推动了人们掌握、处理信息的能力,并为人们带来了很大的经济效益。1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出了“在数据库中发现知识”(KDD:Knowledge Discovery in Database)技术。1991、1993、1994年又相继举行了KDD专题研讨会,汇集了来自各个领域的研究人员和应用开发者,集中讨论了数据统计、海量数据分析算法、知识发现、知识运用等问题。1995年,在美国计算机年会上提出了
22、数据挖据(DM)的概念,即从数据库抽取隐含的、未知的、具有潜在使用价值信息的过程。随着参加会议的人数不断增多,从1995年开始,每年都要举办一次KDD国际会议。另外,1997年KDD拥有了自己的专门杂志Knowledge Discovery and Data Mining。目前为止,由美国人工智能协会主办的KDD国际研讨会的规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。当前,数据挖掘和知识发现成为计算机科学界的一大热点。数据挖掘(DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提
23、取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程3。挖掘的结果是发现知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的、如文本、图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的、也可以是非数学的;可以是演绎的、也可以是归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的引用从低层次的简单查询提升到从数据中挖掘知识、提供决策支持。1.2 国内外研究现状Gartner Group的一次高级技术
24、调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据最近Gartner的HPC研究表明1:“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点”。美国麻省理工学院2001年1月份的科技评论(Technology Review)杂志提出将在未来5年对人类产生重大影响的10大新兴技术,其中第三项就是“数据挖掘”。到目前为止,由美国人工智能协会主办的KDD国际研讨会己经召开了多次,规模由原来的专题讨
25、论会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。IEEE(Institute for Eleetrieal and Electronie Engineers)、ACM(Association for Computing Machinery)等其它学会、学刊也纷纷把数据挖掘与知识发现(Data Mining and Knowledge Discovery,DMKD)列为会议议题或出版专刊,成为当前国际上的一个研究热点。对关系数据库和事务数据库进行数据挖掘和知识发现的研究已经取得了一定的进展,最有影响的发现算法有:加拿大Sim
26、on Fraser大学J.Han教授的概念树提升算法、IBM的R.Agarwal的关联算法、澳大利亚的J.R. Quinlan教授的分类算法、密西根州立大学 ERIK.D.GOODMAN的遗传算法等。IBM、GTE、SAS、Microsoft、SilieonGraphies、Integral Solutions、Thinking Machines、Data Mind、Urban Science、A-B Tech、Unica Technologies等公司,相继开发出一些实用的KDD商业系统和原型系统,如市场分析用的BehaviorScan,Explorer,MDT(Management Dis
27、covery Tool),金融投资领域的Stock Selector,AI(Automated Investor),欺诈预警用的Falcon、FAIS、Clonedetector等。不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威,如要免费订阅,只需向/subscribe.html 发送一份电子邮件即可,还可以下载各种各样的数据挖掘工具软件和典型的样本数据仓库,供人们测试和评价。另一份在线周刊为DS,1997年10月7日开始出版,可向提出免
28、费订阅申请。在网上,还有一个自由论坛DM Email Club,人们通过电子邮件相互讨论DMKD的热点问题。而领导整个潮流的DMKD开发和研究中心,当数设在美国EMDEN的IBM公司开发部。美国钢铁公司和神户钢铁公司利用基于数据挖掘技术的ISPA系统,研究分析产品性能规律和进行质量控制,取得了显著效果。通用电器公司(GE)与法国飞机发动机制造公司(SNECMA),利用数据挖掘技术研制了CASSIOP.EE质量控制系统,被三家欧洲航空公司用于诊断和预测波音737的故障,带来了可观的经济效益。该系统于1996年获欧洲一等创造性应用奖。享有盛誉的市场研究公司,如美国的A.C.Nielson和Info
29、rmation Resources,欧洲的GFK和lnfratest Burk等纷纷开始使用数据挖掘工具来应付迅速增长的销售和市场信息数据。商家的激烈竞争导致了市场快速饱和,产品的迅速更新,使得经营者对市场信息的需求格外强烈。利用数据挖掘技术所形成的市场预测能力和服务,使这些市场研究公司取得了巨大收益。英国广播公司(BBC)也应用数据挖掘技术来预测电视收视率,以便合理安排电视节目时刻表。信用卡公司Alllelicall KxT,ress自采用数据挖掘技术后,信用卡使用率增加了10-15。AT&T公司凭借数据挖掘技术侦探国际电话欺诈行为,可以尽快发现国际电话使用中的不正常现象。随着DMKD研究逐
30、步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。与国外相比,国内数据挖掘的研究工作起步较晚,没有形成整体力量。目前,国内的许多科研单位和高等院校竞相开展数据挖掘的基础理论及其应用研究,如清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中科技大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则挖掘算法的优化和改造;南京大学、四川大学和上海交通大学等单位探讨、研究了非结构化数据的
31、知识发现以及Web数据挖掘。中国的公安部门也在研究利用KDD技术总结各类案件的共性和发生规律,从而在宏观上制定最有效的社会治安综合治理的方案和措施;在微观上指出犯罪人的特点,划定罪犯的范围,为侦破工作提供方向。数据挖掘虽然只有十几年的历史,但它已广泛应用于许多领域,并取得了较好的效果。这些应用领域有:l 银行/信用评估:金融服务产品的交叉销售,贷款偿还预测,个人或企业的信用评级,欺诈甄别等。l 电子商务:Web行为模式分析、个性化设计、网上交易和商品推荐。l 客户关系管理:客户利润率分析、客户细分、客户流失分析、客户响应率的分析等。l 生物技术业:基因图谱比对、基因序列分析、演化分析等。l 电
32、信业:系统最优化、客户区分、客户反馈率提升、费率制定、客户定制化行销等。l 证券业:分析并预测股票价格的走势及相关性、分析股民的购买方式等。l 保险:用索赔数据来分离可能出现的保险欺诈。l 零售:基于数据挖掘的数据仓库的设计与构造;销售、顾客、产品、时间和地区的多维分析;促销活动的有效性分析;分析保持顾客的方法;购买推荐和商品推荐;识别最有可能对新产品或服务做出反应的一组客户。识别交叉销售的新机会等。l 医疗卫生:医疗效果分析、成本分析、预防医学分析、传染病预警、院内感染分析、临床病徵分析等。l 科学研究:实验数据分析、实验数据可视化等。目前,许多数据挖掘的研究原型都已转化为数据挖掘产品。数据
33、挖掘的工具层出不穷,日新月益。数据挖掘技术与信息系统的集成已成为当今的潮流。数据挖掘作为数据库、数据仓库、Web系统的一个组件为智能数据挖掘的发展开辟了新路。许多大型商业数据库先后推出了自己的数据挖掘系统组件:l MS/SQL Server 2000的Analysis servicel IBM DB2的Intelligent Minerl Oracle的Oracle9i Data Miningl SAS Enterprise Miner: data warehousing + miningl SPSS的Clementine数据挖掘技术与数据库、数据仓库的集成有利于充分利用数据库强大的查询、多维
34、分析和相似搜索等功能,并可将普通的数据挖掘升级为智能型的数据挖掘,即具有灵活查询数据库中知识的功能。数据挖掘技术与数据库系统的高度集成还有助于推进数据挖掘标准化的进行。1.3数据挖掘技术在高校科研管理中应用的研究现状及意义数据挖掘技术在商业、金融业以及企业的生产、市场营销等方面都得到了广泛的应用,而在科研管理领域应用相对较少,高校中对教师科技活动的相关信息,如论文、项目、成果、专利等数据的处理还一般停留在简单的数据的备份和查询阶段。随着信息化程度的进一步提高,国际和国内的大型文献数据库以及专利数据库已经日臻完善,国内各级科研单位所建立的科研管理数据库也初具规模。因此,数据挖掘技术在科研管理中有
35、着广阔的应用前景5。科研项目管理主要包括科研项目申报、立项与跟踪、可用经费、结题、成果登记、论文、奖励等。随着计算机与网络技术的普及,各级科研机构已经基本建成了科研管理信息系统,包含有课题基本信息、科研人员信息、科研条件信息等,其中隐含有大量有意义的规则,需要利用数据挖掘技术进行分析,以获得对科研项目管理有益的信息。目前,科研管理信息系统主要通过对科研项目信息的增删、修改、查询、统计等传统功能,实现对课题进展、经费使用、课题结题等管理功能,这类功能属于联机事务处理(Online Treatment Processing,OLTP),仅仅是面向数据库操作人员,主要用于处理常规事务。对于课题管理者
36、和决策者而言,需要对大量历史数据进行综合分析和提炼,得到支持管理及决策的数据,这种功能的实现需要对数据仓库进行联机分析处理(OLAP),帮助管理决策人员迅速、一致地从各个方面观察数据,从而达到深入了解数据并获得信息的目的。通过联机分析处理,可以发现课题承担人、承担单位、经费分配、科研仪器使用等多种相关信息之间的内在关系,从而提高科研管理者及时发现问题,解决问题的能力。因此,通过数据挖掘技术可以对科研管理数据进行分析处理,发现存在于科研项目管理中的矛盾,将有限的精力集中于科研项目管理的关键之处。科研课题的立项评价管理是科研管理的重要内容之一,国内科研项目立项主要采取科研开发机构人员申请、科技主管
37、部门筛选、专家评审论证、择优选择承担单位和负责人的管理模式。科研立项涉及到课题申请单位、申请人、课题研究方向和研究领域、课题的科学性、可行性、经费安排是否合理、主管单位以及评审专家等各个方面的多种因素。目前:国内科研立项工作中存在大量低水平重复研究,缺乏宏观调控,研究效果不显著等问题。虽然各级科研管理部门的数据库管理系统基本涵盖了项目申请和评审过程中的大部分日常操作,如项目申报上传、分发给评审专家、自动统计评审结果等一系列项目申报中的常规性事务性工作,但这些功能只是在传统管理模式上的一个信息化过程,如何对已有的数据进行有效的数据挖掘,发现有价值的信息,用以指导科研项目立项,促进科技资源优化配置
38、,提高科技经费的使用效益,促进公平竞争,是有待于深入研究的一个重要科学问题。通过数据挖掘技术,对课题申请者自身科研属性诸多因素进行数据挖掘,发现潜在、合理的科学活动规则,有助于建立科学的评价、评审指标,有效、准确、合理地选择资助,确实提高立项投入效能,乃至其它决策需求。何炜等应用改进的Apriori算法,对杭州市医药卫生科研基金项目的2002年和2003年数据进行挖掘,发现了一组较有意义的关联规则,并通过分析规则对医学科研立项管理工作中的合理性进行了初步评价67。我校自85年来,采用信息管理方式,已建有以SQL SERVER 2000为后台的C/S模式的科技管理系统,积累了大量的一手数据,涵盖
39、纵向、横向、项目、经费、成果、获奖、专利、论文、申报等各个方面的科技活动,通过数据挖掘,可以从不同的角度从数据库提取有用的知识、规律或管理信息。发现的知识可以用于决策、控制、信息管理、查询处理,等等。1.4本文的研究内容及论文结构高等学校多年来的科研和管理工作积累了大量的数据,目前这些数据还未能得到有效利用,只是一个待开发的“宝藏”。鉴于社会对高等学校科技创新职能的需求和目前高校数据管理现状,利用这些数据理性地分析科研管理工作的成效以及科研人员研究发展规律得失变得十分重要。本文主要研究在高校科研水平不断提升,政府、企业与学者合作研究不断加强的情况下,利用丰富的信息资源,采用数据挖掘分类技术,对
40、我校科研人员进行分类,获得辅助决策知识,指导科研立项管理,从而进一步提高学校科研经费投入效率。在管理工作的过程中,本部门收集了大量的数据信息,如何将这些信息转换成知识,从而指导科研管理的研究,是本文探讨的主要内容。论文的结构:第一章绪论。主要介绍了本论文的研究背景和研究意义,综述了数据挖掘的理论渊源、发展现状,以及国内外数据挖掘的发展情况。第二章数据挖掘技术。主要介绍数据挖掘的基本知识,包括数据挖掘的过程、数据挖掘的任务、数据挖掘的分类以及数据挖掘的常用技术和方法。第三章数据挖掘中的分类技术。主要介绍数据挖掘中分类技术的基本知识、常用分类方法,及各种分类方法的比较。第四章探索数据挖掘分类技术在
41、高校科研管理中的应用。主要探索在高校科研管理中数据挖掘分类技术的应用,提出了数据挖掘技术在高校科研管理中的实施方法,在分类技术的应用过程中采用SQL SERVER 2005分析工具实施决策树及神经网络分类器。结束语主要总结了笔者在论文研究阶段的工作,论文的创新点。并对数据挖掘技术在高校科研管理中的进一步研究进行了分析和展望。57第二章 数据挖掘技术第二章 数据挖掘技术本章主要介绍数据挖掘的相关知识,包括数据挖掘与知识发现的概念、数据挖掘的过程、数据挖掘的任务、数据挖掘的分类、数据挖掘的对象,最后介绍了数据挖掘的常用技术和方法。2.1数据挖掘与知识发现数据挖掘(DataMninig,简称DM)就
42、是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又有潜在的有用信息和知识的过程,是数据库中的知识发现(Knowledge Discovery in Databases,简称KDD)的核心。知识发现(KDD)被认为是从数据中发现有用知识的整个过程。数据挖掘只是数据库中知识发现的一个步骤,但又是最重要的一步,它用专门算法从数据中抽取模式。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非
43、数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员8。因为数据挖掘算法的好坏将直接影响到KDD所发现知识的准确性,而且目前KDD研究大部分集中在数据挖掘算法和应用的技术上,因此人们往往不严格区分数据挖掘和数据库中的知识发现,两者互为使用。一般在科研领域中称为KDD,而在工程领域则称为数据挖掘。图2-1所示为典型的数据挖掘系统结构图2- 1典型的数据挖掘系统结构Figure 2 -
44、1 a typical structure of the data mining system2.2数据挖掘过程图2- 2 KDD过程图Figure 2-1 KDD ProcessKDD过程如图2-2所示。KDD过程可以概括为三部分:数据预处理(Data Preprocessing)、数据挖掘(Data Mining)及结果的解释和评估(Interpretation & Evaluation )。1.数据预处理数据预处理是数据挖掘(知识发现)过程中的一个重要步骤,尤其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处理,目的以提高数据挖掘对象的质量,提高数据挖掘所获
45、模式知识质量的数据预处理又可分为四个步骤:数据清洗(Data Cleaning)、数据集成(Data Integration)、和数据变换(Data Transformation)、数据消减(Data Reduction)1213。数据清洗处理例程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值(Outher),以及解决不一致问题。数据集成就是将来自多个数据源(如:数据库、文件等)数据合并到一起。由于描述同一个概念的属性在不同数据库取不同的名字,在进行数据集成时就常常会引起数据的不一致或冗余。大量的数据冗余不仅会降低挖掘速度,而且也会误导挖掘进程。因此在数据集成中还需要注意消除数据
46、的冗余。数据转换主要是对数据进行规格化(Normalizatoin)操作。如把连续值数据转换为离散型数据,以便于符号归纳,或是把离散型数据转换为连续值型数据,以便于神经网络计算。数据消减的目的就是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果。现有的数据消减包括:(1)数据聚合(Data Aggergation);(2)消减维数(Dimension Reduction),即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数;(3)数据压缩(Data Compression);(4)数据块消减(Numerosity Reduction)。12.数据挖掘数据挖掘
47、阶段首先要确定挖掘的任务或目的,如数据分类、聚类、关联规则发现或序列模式发现等。确定了挖掘任务后,就要决定使用什么样的挖掘算法。选择实现的算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是要根据用户或实际运行系统的要求,有的用户可能希望获取描述型的(Descriptive)、容易理解的知识,而有的用户只是希望获取准确度尽可能高的预测型(Perdictive)知识。选择了挖掘算法后,就可以实施数据挖掘操作,获取有用的模式。3.结果的解释和评估数据挖掘阶段发现出来的模式,经过评估可能存在冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户要求,这时则需要回退
48、到发现过程的前面阶段,如重新选取数据,采用新的数据变换方法,设定新的参数值,甚至换一种挖掘算法等。另外,KDD由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“IFTHEN”规则9。数据挖掘仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性,二是用于挖掘的数据的质量和数量(数据量的大小)。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则挖掘的结果是不会好的。整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数据不太好。或是使用的挖掘技术产生不了期望的
49、结果。这时,用户需要重复先前的过程,甚至从头重新开始。2.3数据挖掘的类型数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术等几个方面进行分类14。1 按数据库类型分类数据挖掘主要是在关系数据库中挖掘知识。随着数据库类型的不断增加,逐步出现了不同数据库的数据挖掘。现在,除关系数据库挖掘外,还有模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。2. 按数据挖掘对象分类数据挖掘除了对数据库这个主要对象进行挖掘外,还有文本数据挖掘、多媒体数据挖掘、Web数据挖掘等。由于对象不同,挖掘方法的差异很大。3. 按数据挖掘任务分类数据挖掘的任务有:关联分析、时序模式、聚类、分类
50、、偏差监测、预测等。按任务分类可将数据挖掘分为:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差分析挖掘和预测挖掘等类型。4. 按数据挖掘的方法和技术分类数据挖掘的技术和方法较多。包括归纳学习类、聚类方法类、统计分析类、仿生物技术类、模糊数学类、可视化技术类等。2.4数据挖掘的任务数据挖掘的任务主要有关联分析、聚类分析、分类、预测、时序模式和偏差分析等15。1.关联分析(Assoeiation Analysis)两个或两个以上数据项的取值之间存在某种规律性,就称为关联,可以建立起这些数据项的关联规则。数据关联是数据库中存在的一类重要的、可被发现的知识,它反映一个事件和其他事件之间依
51、赖或关联。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。例如,买面包的顾客中90%还买牛奶,这就是一条关联规则。在商场中将这两样物品摆放在一起销售,将会提高销售量。在大型数据库中,这样的关联规则可以产生很多,这就需要进行筛选。一般用“支持度”和“可信度”两个阀值来淘汰那些无用的关联规则。2.聚类分析(Clusteing)聚类是把数据按照它们的相似性归纳成若干类别,同一类别中的数据距离较小、彼此相似,不同类别中的数据距离偏大、彼此相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系16。聚类方法包括统计分析方法、机器学习方法和
52、神经网络方法等。在统计分析方法中,聚类分析是基于距离的聚类。这种聚类分析方法是一种基于全局比较的聚类,它需要考察所有的个体才能决定类的划分。在机器学习方法中,聚类是无导师的学习。此时距离是跟据概念的描述来确定的,又称为概念聚类,当聚类对象动态增加时,概念聚类则称为概念形成。在神经网络中,自组织神经网络方法用于聚类。如ART模型、Kohonen模型等,这是一种无监督学习方法。当给定距离阀值后,各样本按阀值进行聚类。3.分类(Classifieation)分类是数据挖掘中应用得最多的任务。分类就是找出一个类别的概念描述,并用这种描述来构造模型(一般用规则或决策树模式表示)。类别的概念描述代表着这类
53、数据的整体信息,也就是该类的内涵描述17。分类的内涵描述分为:特征描述和辨别性描述。特征描述是对类中对象的共同特征的描述。辨别性描述是对两个或多个类之间的区别的描述。分类的过程是:分析输入数据,通过在训练集中的数据所表现出来的特性,经过有关算法,为每一个类找到一种准确的描述或者模型,并使用这种类的描述对未来的测试数据进行分类。4.预测(Predication)预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。典型的预测方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时间的状态。近年
54、来,发展起来的神经网络方法(如BP模型),实现了非线性样本的学习,能进行非线性函数的判别18。分类也能进行预测,但分类一般用于离散数值;回归预测用于连续数值;神经网络方法预测既可以用于连续数值,也可以用于离散数值。5.时序模式(Time-Series Pattern)时序模式是指通过时间序列搜索出的重复发生概率较高的模式19。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。在时序模式中,需要找出在某个最小时间内出现比率一直高于某一最小百分比(最小支持度阈值)的规则。这些规则会随着形势的变化作适当的调整。时序模式中,一个有重要影响的方法是“相似时序”。用“相似时
55、序”的方法,要按时间顺序查看时间事件数据库,从中找出另一个或多个相似的时序事件。6.偏差分析(Dev1at1on)数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等20。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。2.5数据挖掘的对象数据挖掘的对象主要是关系数据库。随着数据挖掘技术的发展,逐步进入到空间数据库、时态数据库、文本数据库、多媒体数据库、环球网WEB等。文字、音频、图像、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据
56、量很大,要从千万计的多媒体数据中找出需要的数据和信息是很困难的。目前,对多媒体数据的处理只能在存取、编辑、集成、快进快退等基本操作上,对多媒体信息的检索仅靠文件标识、关键字等进行检索,局限性很大21。目前兴起的基于内容的多媒体检索,通过实例的查询方式,检索相似图像、音频、视频信息,己成为研究的热点。基于内容的音频、视频信息的聚类、分类、相似查询等数据挖掘技术正在兴起。2.6数据挖掘的方法和技术数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法及可视化技术,以数据库为研究对象,形成了数据挖掘的方法和技术。数据挖掘的方法和技术可分为以下六大类:2.6.1归纳学习
57、法归纳学习法是目前重点研究的方向。从采用的技术上看,分为信息论方法和集合论方法。1. 信息论方法(决策树方法)信息论方法是利用信息论的原理建立决策树。在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的,因而比较易于理解。该类方法的实用效果好,影响较大。由于该方法最后获得的知识表示形式是决策树,故一般称它为决策树方法。这种方法一般用于分类任务中。信息论方法中较有特色的方法有:ID3、BILE方法22。2. 集合论方法集合论方法是开展较早的方法。近年来,由于粗集理论的发展使集合论方法得到了迅速的发展。这类方法中包括:覆盖正例排斥反例方法(典型的方法有AQ系列方法)、概念树方法和粗糙集方法23。2.6.2聚类方法聚类分析是直接比较样本中各样本之间的距离,将距离较近的归为一类,而将距离较远的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 软件工程开发手册与软件开发过程管理指南
- 就业指导课程口号集锦
- 2021年幼儿教师教育教学总结10篇
- 2026年健康管理师(健康管理服务区域化)自测试题及答案
- 年度工作总结撰写指导书
- 旅游娱乐产业发展趋势分析与预测报告
- 客服建议与改进建议函5篇
- 城市公共空间活力提升策略效果研究综述
- AI辅助交通管理专业培训考核大纲
- 硬件并行排序算法研究
- 2026年新疆昌吉州共同体初三5月摸底联考化学试题含解析
- 校园绿化种植与灌溉系统方案
- 2026四川九洲芯辰微波科技有限公司招聘总账会计岗等岗位98人笔试参考题库及答案解析
- 钻机介绍教学课件
- 精细化成本管理在介入科成本控制中的应用
- 深度解析(2026)《NBT 10617-2021制氢转化炉炉管寿命评估及更换导则》
- 《增材制造工艺制订与实施》课件-增材制造技术应用领域(航空航天)
- 2026年驾驶证换证三力测试备考题及思路梳理含答案
- 2026年2月1日执行的《行政执法监督条例》解读课件
- 柔韧素质及其训练
- 护理课件:伤口护理技巧
评论
0/150
提交评论