




已阅读5页,还剩70页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要摘 要近几年来,随着物流业的迅猛发展,第三方物流企业越来越多,企业之间的竞争也越来越激烈。各个企业要想在激烈的竞争中处于优势地位,就必须把握好自己的客户资源,而维系客户资源的前提就是要充分了解客户的需求和客户的行为。针对企业数据库中存储的大量客户信息,将数据挖掘技术应用到企业的客户分析中,从中找出有价值的数据,从而维持老客户,吸引新客户,提高客户的满意度,进而增加客户的忠诚度以提高客户的价值和利润就成了一件竞争的利器,对加强物流企业的竞争力会起到十分重要的作用。本文主要做了两方面的工作:一是对数据挖掘决策树分类算法进行了研究,并针对ID3算法的缺陷,提出了改进的RID3-1算法。二是将决策树分类算法应用到了物流企业的客户理赔分析中,建立了数据仓库,并进行了挖掘。通过对结果的分析,给企业提出了一些改善客户关系的建议。下面对这两方面进行一下详细说明。(1)决策树分类算法中最为经典的是Quinlan在1986年提出的ID3算法。该算法有三大主要缺点:1)算法偏向于选择取值较多的属性,而取值较多的属性往往并不是最优属性;2)它只能处理离散值属性,对于连续值属性,需要预先进行离散化;3)该算法在预测时必须知道从叶子节点到根节点的路径上所有内节点对应属性的属性值。针对缺点1),本文用粗糙集理论中的属性依赖度对ID3算法进行改进,提出了RID3算法,RID3算法是依据决策属性对条件属性的依赖度k的大小,作为建立决策树的属性选择标准。针对缺点3),本文提出在用ID3算法构造决策树的同时,记录下从每个分类节点到根节点的路径上的分类数目,也就是说记录下每个分类节点处所包含的记录数。这样,即使测试集中的记录中存在缺失属性,我们也可以根据决策树来预测该事件发生的概率,从而提高了决策树的预测能力。在以上两点思想的基础上,本文提出了RID3-1算法,并用具体实例证明了该算法的有效性,以及相对于ID3算法的优越性。(2)本文通过对某综合型物流企业的客户数据和业务情况进行了分析,确立了分析的主题,在Oracle11g数据库中建立了用于数据挖掘的数据仓库,对数据进行了预处理。在此基础上,用SPSS Clementine11.1数据挖掘工具对企业2008年的客户理赔数据进行了数据挖掘,对结果进行了分析,为企业改善客户关系提出了一些建议,具有一些实用性。本文从理论上和实验上证明了本文所改进算法的有效性,并将决策树分类技术应用到了物流企业的客户分析中,拓宽了数据挖掘的应用领域。关键词:物流企业,客户分析,ID3算法,粗糙集,属性依赖度VIABSTRACTABSTRACTIn recent years,accompanied with the development of logistics Industry, more and more third-party logistics enterprises arise and the competition among them become increasingly fierce. Enterprise who wants to have a dominant position in this competition must hold its customers, the premise of which is to fully apprehend the customers needs and behaviors. We should apply the data mining technology to analyze the customers information which stores in the companys database. We may find valuable information from these data so as to maintain existing customers and attract new customers, to improve customers satisfaction, thus increasing their loyalty and enhance their value and profit. This will become a competitive weapon and play a very important role in strengthening the third logistics enterprises competitiveness.In this paper, we mainly do two works. First, the data mining decision tree classification algorithms are studied, and for the defects of ID3 algorithm we propose RID3-1 algorithm. Second, a decision tree classification algorithm is used in the customer claim data of a logistics enterprise; we establish a data warehouse and mine the data, through an analysis of the results we give some suggestions to help the enterprise to improve their customer relationship. The following is a detailed description of these two aspects.(1) ID3 algorithm that advanced by Quinlan in 1986 is the most classical algorithm of decision tree classification algorithm. However it has three major shortcomings: 1) this algorithm tends to choose the attributes with more values, while these attributes are often not the best attributes; 2) ID3 algorithm can only deal with discrete attribute values, for continuous attributes need to be discreted before mining; 3) When we use ID3 algorithm to predict, we should know all the values of attribute from the leaf node to the root node.For the shortcoming 1), we introduce the definition of property dependency of Rough Set theory to revise ID3 algorithm and propose RID3 algorithm. RID3 algorithm is based on the k value which means how the decision attribute depends on the condition attribute, and we construct decision tree according to k. For the shortcoming 3), we propose that when we construct a decision tree, wed better record the attribute number from every splitting node to the root node. In this way, we can predict the probability of the incident even if there are missing attributes and this can also improve the prediction of decision tree. According to the above two aspects, we propose RID3-1 algorithm and use concrete examples to prove its effectiveness and superiority.(2) Based on the analysis of customers data and business case of an integrated logistics enterprise, we establish the mining theme, construct a data warehouse in Oracle 11g database and pre-process the data. Furthermore, we use the SPSS Clementine 11.1 software to mining the customers claims data of 2008, and then analyze the results, put forward some suggestions to improve customer relationship. These are all useful for the company.This paper has proved the validity of the improved algorithm both theoretically and experimentally, and applied the decision tree method to the customer analysis of logistic enterprise, which broadened the application field of data mining. Yao Lu (Computer Application Technology) Directed by Vice Prof. Xiaoxia HuangKEYWORDS: Logistics enterprise, Customer analysis, ID3 algorithm, Rough set, Attribute dependency目 录目 录第一章 绪论11.1 选题背景11.2 研究现状11.3 本文的主要工作31.4 本文的组织结构4第二章 物流企业的客户及客户分析52.1 物流的概念52.2 物流企业的客户52.3 物流企业的客户分析62.4 本章小结7第三章 分类数据挖掘83.1 数据挖掘基本原理83.1.1 数据挖掘的概念83.1.2 数据挖掘的流程83.2 数据挖掘技术123.2.1 分类分析方法123.2.2 聚类分析法123.2.3 关联规则挖掘123.2.4 序列模式分析133.2.5 孤立点分析133.3 分类数据挖掘133.3.1 分类问题的概念和原理133.3.2 分类常用的方法143.3.3 分类模型的评价标准173.4 本章小结17第四章 基于粗糙集的决策树分类184.1决策树分类184.1.1 决策树分类的基本思想184.1.2 决策树分类的经典算法194.1.3 决策树的优化274.2 基于粗糙集的决策树294.2.1 粗糙集的产生294.2.2 粗糙集的特点294.2.3 粗糙集的基本理论304.2.4 基于粗糙集的决策树324.2.5 提高决策树的预测水平354.3 改进的RID3-1算法与ID3算法的比较374.3.1 ID3算法构造的决策树374.3.2 改进的RID3-1算法构造的决策树414.4 本章小结45第五章 物流企业的客户数据分析465.1 业务分析465.2 数据仓库的设计485.2.1 概念模型的设计495.2.2 逻辑模型和物理模型的设计495.3 数据的选择和预处理525.3.1 数据的选择525.3.2 数据预处理535.4 建立挖掘模型555.5 数据挖掘565.6 结果分析615.7 本章小结62第六章 总结636.1 完成的主要工作636.2 进一步研究的工作63致 谢65参考文献66攻读硕士期间参与的项目及发表的论文69第一章 绪论第一章 绪论1.1 选题背景“第三方物流”一词于20世纪90年代中后期开始传到我国,它是运输、仓储等基础服务行业的一个重要发展。近几年来,随着第三方物流企业的增多,市场竞争越来越激烈,各个企业要想在激烈的竞争中处于优势地位,就必须维持好自己的客户。物流企业的客户与其他行业的客户不同,它的客户不是商品的最终消费者,而是生产企业或者商业企业。因此,物流企业与客户的关系不是一次性的交易,而是长期的合作伙伴关系。在这种情况下,各个企业只有提高自身的客户分析能力,对现有的客户信息进行分析,从而帮助企业更深入地了解客户,以此来提高企业的竞争力。数据挖掘(Data Mining,DM)1 就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程,就是利用各种包括数据仓库在内的分析工具在海量数据中发现模型或规律等知识并做出预测的复杂过程。从商业角度来说,数据挖掘是面向应用的深层次的数据分析方法和技术,其主要是对现有的大型商业数据库中的业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。将数据挖掘技术应用到第三方物流企业,并对物流企业数据库中存储的大量客户信息进行分析,从中找出有价值的数据,从而维持老客户,创造新客户,提高客户的满意度,进而增加客户的忠诚度以提高客户的价值和利润就成了一件竞争的利器,对加强物流企业的竞争力会起到十分重要的作用。1.2 研究现状数据挖掘出现于20世纪80年代后期,目前主要是针对银行、电信、保险、交通、零售等商业领域的客户进行分析,在物流领域中的应用还比较少。数据挖掘所能解决的典型商业问题包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分、欺诈发现等等。目前对客户数据的分析主要集中在以下几个方面:(1)客户价值分析。随着“以客户为中心”的经营理念的提出,越来越多的企业经营者开始关注自己的客户,分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。通过分析客户为企业带来的价值度的大小,用分类或聚类的方法来划分客户群,以便对客户实施有差别的服务。(2)重点客户发现。也就是找出对企业具有重要意义的客户,包括发现有价值的潜在客户、发现有更多消费需求的客户、发现更多使用的同一种产品或服务。根据经典的80/20(即20%的客户贡献80%的销售额)原则2以及开发新客户的费用是保留老客户费用的5倍等营销原则,重点客户发现在客户关系管理中具有举足轻重的作用。(3)客户满意度分析。通过对客户的反馈信息进行分析,可以了解客户对企业产品和服务的满意度,从而帮助企业改进营销策略,增加客户的忠诚度。(4)客户流失分析。通过分析流失客户群体的特征,建立客户流失预测模型,从而帮助企业对有流失风险的顾客提前采取相应的措施,最大程度地保持住老客户。数据挖掘技术中的决策树技术能够较好地应用在这一方面。(5)交叉营销。所谓交叉营销,就是向已购买商品的客户推荐其它产品和服务。这种策略成功的关键是要确保推销的产品是用户所感兴趣的。关联规则分析能够发现客户倾向于购买哪些产品。聚类分析能够发现对特定产品感兴趣的用户群,神经网络、回归等方法能够预测顾客购买该新产品的可能性。(6)性能评估。以客户所提供的市场反馈为基础,通过数据仓库的数据清理与集中过程,将客户的反馈信息自动地输入到数据仓库中,从而进行客户行为跟踪。性能分析与客户行为分析和重点客户发现是相互交迭的过程,这样才能保证企业的客户关系管理能够达到既定的目标,建立良好的客户关系。(7)客户信用分析。对不同信用级别的客户,采取不同的营销方案等。数据挖掘,可从大量历史数据中分析出具体客户的信用等级。可按时间进行客户欠款分析,客户应收款和实际交款时间差的对比统计分析。我国物流企业起步较晚,现阶段还处于向现代物流的转型时期。在客户关系方面,部分企业对客户已经开始关注,但是也存在许多不足,如:缺乏先进的技术手段对客户信息进行有效的分析和管理;很多企业虽然意识到了先进的科学管理方法对客户维持的重要性,但是鉴于客户分析涉及到一些商业机密,他们不愿意借助外界的资源来分析客户信息;企业的客户数据缺乏共享,导致客户有时面对的不是整个企业,而是面向不同的部门;虽然很多企业使用了专门的客户关系管理系统(Customer Relationship Management,简称CRM),但在CRM中积累下来的海量数据并没有得到企业决策层足够的认识,尚未挖掘这些数据中蕴藏的有用信息。因此,对物流企业的数据库中存储的大量客户信息进行分析,挖掘出潜在的规律,以帮助企业改善客户关系就显得尤为必要。1.3 本文的主要工作本文选题来源于上海市经委的课题综合型物流企业信息系统中现代数据处理技术的应用示范工程,主要是对中国某百强物流企业的客户数据进行分析。本文的工作主要有两个方面。一个方面是研究了数据挖掘的基本过程,研究了数据挖掘中分类技术的理论和算法,并着重研究了经典的分类算法ID3算法。针对ID3算法中属性的选择方法是基于属性的信息熵,该方法倾向于选择属性较多的属性来构造决策树,有可能导致取值较少但很重要的属性被忽略。因此,本文引入粗糙集理论中的属性依赖度,通过计算决策属性对条件属性的依赖度来选择划分属性,提出了改进的RID3算法。ID3算法在进行预测时,必须知道从叶子节点到树根的路径上所有内节点对应属性的属性值,这在测试集中存在缺失属性时是不适用的,本文针对ID3算法的这个局限,提出了在用ID3算法构造决策树的同时,记录下从每个分类节点到根节点的路径的分类条件,从而可以提高测试集存在缺失属性时决策树的预测情况。将两个改进点结合,提出了RID3-1算法。在此基础上,本文通过一个具体的实例对两个算法的建树效果进行了对比。本文的另一个工作是分析了目前第三方物流企业的现状和物流企业客户的特点,将数据挖掘分类技术应用到某综合物流企业的客户分析中。首先对该企业的业务流程进行了具体分析,根据该企业的实际情况和企业的需求确定了分析的主题,在Oracle11g数据库上建立了用于数据分析的数据仓库,对待分析的数据进行了数据预处理,并导入所建立的数据仓库中。然后选取了企业2008年1月至6月的客户理赔数据,用SPSS Clementine11.1软件进行了数据建模,并用C5.0算法进行了数据挖掘。最后对挖掘的结果进行了分析,提出了一些改善建议,以减少企业的赔付率,更好的维系客户关系。1.4 本文的组织结构第一章:为本文的绪论部分,分析了本课题的研究背景,讨论了数据挖掘的研究现状,介绍了国内外的研究现状,阐述了本文研究的主要内容,最后介绍了本文的组织结构。第二章:介绍了物流的概念,物流企业客户的特点以及对物流企业客户进行分析的必要性。第三章:简单介绍了数据挖掘的概念,数据挖掘的基本流程,数据挖掘的常用技术,最后着重介绍了分类数据挖掘方法,包括分类的概念、原理、常用方法,以及评价标准。第四章:为决策树算法研究,分析了决策树的基本原理、决策树分类的基本思想,介绍了几种决策树分类的经典算法,并给出了几种常用的决策树算法的优劣评价。针对ID3算法的缺陷,引入了粗糙集理论中的属性依赖度的概念,提出了改进的决策树算法RID3算法。在此基础上,为了提高当训练集中存在缺失属性时决策树的预测准确性,对RID3算法又进行了改进,提出了RID3-1算法。然后针对一个具体的实例分别用ID3算法和RID3-1算法构造了决策树,并进行了比较。第五章:对某综合物流企业的业务流程和客户现状进行了分析,确定了挖掘的主题,并在Oracle11g数据库中建立了数据仓库,然后选取了2008年上半年的客户理赔数据,用SPSS Clementine11.1软件建立了挖掘模型,进行决策树分类,最后分析了挖掘的结果,并对企业提出了一些建议。第六章:总结与展望,主要总结了论文的研究工作,提出了进一步的研究方向。69第二章 物流企业的客户及客户分析第二章 物流企业的客户及客户分析2.1 物流的概念物流3的基本含义可以理解为“按用户要求,将物的实体从供给地需要地转移的过程。这个过程涉及运输、保管、搬运、装卸、货物处理、货物拣选、包装、流通加工、信息处理等许多相关活动”。随着信息技术的发展以及现代信息网络的建设,现代物流展现出了专业化、规模化、集团化和国际化的趋势。第三方物流(Third Party Logistics,简称TPL或3PL)4的概念源于企业业务的外包,也就是企业将一些业务承包给第三方企业去完成。关于第三方物流的概念,国内外尚没有一个统一的定义,我国在2001年公布的国标物流术语5中,将第三方物流定义为“供方与需方以外的物流企业提供物流服务的业务模式”,其所提供的物流服务是建立在现代电子信息技术基础上,并在特定时间,按特定价格向使用者提供个性化、系列化的服务。2.2 物流企业的客户客户是指与企业建立长期稳定的关系,并愿意为企业提供的产品和服务承担合适价格的购买者。物流企业的客户与一般企业的客户不同,他们并不是商品的最终消费者,而是生产企业或商业企业。物流企业的客户一般为原材料供应商、制造企业、零售企业,这些客户往往都是大客户,对服务的质量要求较高,需要物流企业能够提供客户关怀和个性化服务。由于客户性质不同,物流企业与客户之间的关系也不同,这是由物流行业的特征决定的。这种性质要求物流企业能够根据客户的情况,为客户提供灵活性的服务。另外,物流企业与客户之间的关系不是一次性的交易关系,而是长期的战略伙伴关系,要求物流企业与客户之间默契合作,实现双赢。总的说来,物流企业的客户具有如下三个特征6:第一、物流企业的客户数量多,种类广。物流企业面对的不仅有制造企业的第三方物流业务,同时也有零售百货公司的仓储配送,以及大量的中小型公司的货代、小件包裹快递、航空快递、进出口通关报关等业务。与企业有业务往来的客户不仅数量多,而且种类广泛。第二、客户群体相对稳定。物流企业和它的客户一般通过签订合同或契约的方式,建立长期稳定的合同关系。第三、物流企业的客户中存在一定数量的大客户。因此,我们必须在分析物流行业特性的基础上,对物流企业客户进行深入分析,从而找到提高客户盈利能力的途径。我国现代物流业刚刚起步,对现代物流的认识、企业运营观念以及现代物流技术的应用都受到认识能力和资源情况的制约。根据客户的基本运输状态将企业的客户划分为了若干具有不同特征的群体是现代市场营销中对客户进行科学管理的基本方法。由于不同群体之间在运输方式选择上的差异,特别是对于运输方式的认知、态度方面的差异导致了针对特定群体的营销策略的不同。不同需要的群体对于企业的运输服务以及配套服务有着不同要求,从而导致了其对企业的经济效益的贡献的差异,所以物流运输企业的客户进行数据分析意义重大。2.3 物流企业的客户分析物流企业面对的是物流运输市场,客户群体十分复杂。一方面客户所在行业的不同,会导致他们的运量、运输时间存在差异;一方面客户由于所处区域不同,会导致各自对运输理解上的差异,从而导致沟通方法上的差异;另一方面由于运输物品本身的特性,会导致对运输过程的要求不同,比如放射性物品、腐蚀性物品等;最后,国家、各级部门也有相应的对特殊商品运输的要求,从客观上限制了物流企业的服务对象。上述几方面导致了物流企业的客户之间存在着很大的差异,这给企业进行客户管理和客户关系维护增加了难度,对客户群体的价值进行正确的评估,对企业的客户群体进行有效的划分,能够帮助企业更好地把握客户。从国际物流运输来看,大型综合企业面向或追求的市场主要是大客户、长期型客户,主要面向高端服务市场,提供的是综合型物流服务;而中小物流企业主要是针对小客户、短期客户、松散型客户,主要面向低端服务市场,他们更多提供的是单一物流服务。在这种情况下,如果企业没有很好地研究和划分客户群体,没有顾及大客户和小客户的区别,盲目开发,打乱了物流市场,将会不利于自身的发展。在这种情况下,物流企业要准确地定位自己的客户,分析客户群体的特征。目前对物流企业客户分类主要有以下两种方法: 单一变量法单一变量分类法根据客户需求的某一个重要因素进行市场细分,比如物流企业中的运输服务需求,可按时间、距离或载重量进行市场细分。 多个变量因素组合法主要是根据影响需求者的两种或两种以上的因素进行市场细分。如根据物流企业客户的企业规模大小、客户企业地理位置、产品的最终用途及潜在市场规模来细分市场。对物流企业客户还可以进行等级的划分,主要有以下几个方面:客户的收入标准、客户重复消费的频率、客户采用本公司物流服务的次数占其对物流需求的比例、客户对本企业品牌的关心程度、客户对服务质量事故的容忍度、客户所在的行业以及客户对价格的敏感度。总之,对不同物流企业的客户进行分析,要根据企业的实际情况,具体问题具体分析。2.4 本章小结本章主要讲述了第三方物流的基本概念,物流企业客户的特点,以及对物流企业客户进行数据分析的必要性。第三章 分类数据挖掘第三章 分类数据挖掘3.1 数据挖掘基本原理3.1.1 数据挖掘的概念从技术角度来讲,数据挖掘(Data Mining)是应用一系列技术从存放在数据库、数据仓库或其它信息库中的大量数据中提取人们感兴趣的信息和知识,通常这些知识或信息是隐含的、事先未知而且潜在有用的,提取出的知识以概念、规则、规律、模式等形式表示。它是一种深层次的数据分析。从商业角度来讲7,数据挖掘是一种新的商业信息处理技术,它的主要功能是对商业数据库中的大量业务数据进行抽取、转换、分析和模型化处理,从中提取可以辅助商业决策的关键性数据。数据挖掘可以描述为:按企业既定业务目标,对大量的数据进行探索和分析,解释隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效地方法。数据挖掘技术与传统的数据分析技术(包括查询、报表、联机应用分析等技术)是有区别的,主要体现在数据挖掘技术是在没有明确假设的前提下挖掘信息、发现知识。数据挖掘得到的信息应具有先前未知性、有效性和实用性三个特征。先前未知性指得到的信息是事先不曾预料到的,也就是说通过挖掘要发现那些不能靠直觉发现的信息,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了啤酒和尿布之间有着惊人的联系。3.1.2 数据挖掘的流程数据挖掘的过程8通常包括以下四个步骤:确定业务对象,数据准备,数据挖掘,结果分析和知识的同化,如图3-1所示。图3-1 数据挖掘的一般过程数据挖掘各个步骤通常是按一定顺序完成的,但在具体的挖掘过程中可能存在步骤间的反馈。挖掘的整个过程并不是自动完成的,绝大多数工作需要人工参与。图3-2表示出了数据挖掘各步骤在整个挖掘过程中的工作量之比。2.数据准备60%4.结果分析和知识同化10%3.数据处理10%1.确定业务对象20%图3-2 数据挖掘过程工作量比例从上图我们可以看出,挖掘过程有60%的时间用在了数据准备上,挖掘工作仅占了总工作量的10%。这说明数据挖掘对数据要求十分严格,数据质量的好坏对挖掘的结果有非常大的影响。1. 确定业务对象在开始数据挖掘之前,首先要弄清数据挖掘的应用领域,理解数据和具体的业务问题,包括相关的各种知识和要实现的目标。本文主要是了解第三方物流的相关情况,熟悉企业的背景知识和业务情况,弄清待挖掘企业的用户需求。了解用户的数据和业务问题,精确定义所要解决的问题是数据挖掘成功的关键要素之一。2. 数据准备数据准备是数据挖掘的第一个阶段,也是保证数据挖掘得以成功的先决条件。数据准备主要包括以下几个方面:(1)数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据,建立数据挖掘库。(2)数据的预处理:由于将要挖掘的数据可能是不完全且有噪声的,因此要对数据进行初步的整理,清洗不完全的数据,为进一步的分析做准备,并确定将要进行的挖掘操作的类型。主要包括数据清理、数据集成和变换、数据规约、数据离散化和数据概念分层等。1)数据清理数据清理是主要是填写缺失值、平滑噪声数据、删除孤立点,并解决不一致的数据。缺失值主要有五种处理方法: 忽略元组。就是将存在遗漏属性的记录删除。当类标号缺少时通常这么做。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性值的缺少值百分比变化很大时,该方法的性能变得非常差。 使用一个全局变量填充缺失值。 使用属性的平均值填充缺失值。 使用与给定元组同一类的所有样本的平均值填充缺失值。 使用最可能的值填充缺失值。噪声数据主要有三种处理方法: 分箱。通过考察相邻数据的值来平滑存储数据的值。存储的值被分布到一些箱中。 聚类。将类似的值进行聚类。落在聚类集合之外的值视为孤立点。 回归。通过让数据适合一个函数来平滑数据。对于不一致的值还可以手工加以改正。2)数据集成和变换数据集成是将多个数据源(如数据库、数据立方体、数据文件)中的数据集合起来存放到一个一致的数据存储器中,主要是解决数据集成、冗余以及数据值冲突的检测和处理等问题。数据变换是将数据转换成一个适合分析的模型。这个分析模型是针对挖掘算法建立的。数据变换可能涉及以下内容: 聚集。对数据进行汇总和聚集。 数据概化。将数据概化分层,用高层概念替换低层次的原始数据。 规范化。将属性数据按比例缩放,使之落入一个小的特定区间。 属性构造。构造新的属性并添加到属性集中,以辅助挖掘过程。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。3)数据归约数据归约包括以下几种方法: 数据立方体聚集。 维归约。可以检测并删除不相关、弱相关或冗余的属性或维。 数据压缩。使用编码机制压缩数据集。 数值压缩。用替代的、较小的数据表示替换或估计数据。4)离散化和概念分层属性的原始值用区间或较高层次的概念替换。尤其是在用粗糙集处理决策表时,要求决策表中的值用离散数据(如整型、字符串型、枚举型)表达。如果某些条件属性或决策属性的值域为连续值(如浮点型数),则必须进行离散化处理。而且,即使已经是离散的数据,有时候也需要通过将离散值进行合并以得到更高抽象层次的离散值。3. 数据挖掘对所得到的经过转换的数据实施挖掘。首先明确挖掘的任务或目的,如分类、聚类、关联规则发现或序列模式发现等。确定了挖掘任务后,选择合适的挖掘算法,然后建立数据挖掘模型,进行数据挖掘。除了算法选择外,其余的工作都能自动地完成。4. 结果分析对挖掘的结果进行解释和评估,还可以用可视化技术将结果直观地表示出来,包括一些图形和表格等。5. 知识的同化将分析所得到的知识集成到企业的业务信息系统中去,从而帮助企业了解客户,改善客户服务现状,并把握更多的客户资源。3.2 数据挖掘技术数据挖掘中的关键技术是进行模式识别和关系识别的算法。许多算法来源于人工智能和机器学习等研究领域。3.2.1 分类分析方法分类分析是将一个事件或对象进行归类,它既可以用来分析已有的数据,也可以用来预测未知的数据。通过分析已经进行明确分类的数据,为每个类别做出准确的描述或建立一个分析预测模型,挖掘出分类规则,然后用这些分类规则对其它数据库中的记录进行分类。用于建立模型的数据称为训练集。目前已有多种分类分析模型得到应用,其中几种典型的模型包括线性回归模型、决策树模型、基本规则模型和神经网络模型。3.2.2 聚类分析法聚类分析是把整个数据库根据数据之间的相似性聚集成不同的群组。聚类的目的是使同一个群之间的数据尽量相似,而群与群之间差别很明显。聚类分析算法能够从无法组织成任何分类模式的数据中自动地找到类。主要的聚类算法包括划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。采用不同的聚类方法,相同的数据集合可能得到不同的划分结果。3.2.3 关联规则挖掘关联规则挖掘9是从大量的数据中挖掘出描述数据项之间的联系的知识。随着数据库中存储的数据规模越来越大,通过挖掘出数据间的关联知识,可以为企业的商业决策提供相应的支持。比如,企业利用关联分析法可以从顾客消费的历史记录中挖掘影响客户购买行为的因素,建立预测模型对顾客将来的购买行为进行预测,进而实施有效的交叉销售,提高客户的价值。3.2.4 序列模式分析序列模式分析10也是为了挖掘数据之间的联系,它和关联分析相似,但序列模式分析侧重于分析数据间的前后序列关系。它能发现数据库中形如“在某段时间内,顾客先购买商品A,接着购买商品B,然后购买商品C,即序列ABC出现的频度较高”之类的知识。序列模式分析描述的问题是:在给定交易序列的数据库中,每个序列是按照交易时间排列的一组交易集,通过对数据库中的交易进行序列模式分析,返回该数据库中出现的高频序列。3.2.5 孤立点分析数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致,这些数据对象就是孤立点。大部分数据挖掘方法将孤立点视为噪声或异常而丢弃。然而,在一些应用比如欺骗检测中,罕见的事件可能比正常出现的事件更令人感兴趣。假定一个数据分布或概率模型,使用统计检验检测孤立点11,或者使用距离度量12-13,将远离任何簇的对象视为孤立点;基于偏差的方法14通过考察一群对象主要特征上的差别来识别孤立点。3.3 分类数据挖掘 3.3.1 分类问题的概念和原理分类分析是在已知训练数据的特征和分类结果的基础上,为每一种类型找到一个合理的描述或模型,然后再用这些分类的描述或模型对未知的新数据进行分类。如图3-3所示,数据分类的过程主要包含两个步骤:训练集分类算法分类规则分类模型评估模型测试集未知类别数据分类,预测分类,预测结果图3-3 数据分类的过程第一步,建立一个已知数据集类别或特征的分类模型。每一数据行都可认为是属于一个确定的数据类别,其类别值是由一个属性描述(被称为类别标记属性)。分类学习方法所使用的数据集称为训练样本集合,因此分类学习又被称为监督学习。它是在已知训练样本类别的情况下,通过学习建立相应模型;而无教师监督学习则是训练样本的类别与类别个数均未知的情况下进行的。第二步,利用所获得的模型进行分类操作,首先对模型分类准确率进行估计。如果一个学习所获模型的准确率经测试被认为是可以接受的,那么就可以使用这一模型对未来的数据行或对象(其类别未知)进行分类。3.3.2 分类常用的方法分类规则的挖掘目前主要采用的方法有:决策树方法、贝叶斯方法、人工神经网络方法、粗糙集方法和遗传算法等。(1)决策树决策树又称为判定树,是用于分类和预测的主要方法之一。决策树是一种将一个训练文件划分成一组规则的技术。树的最顶层是根节点。每个非叶子节点代表一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点代表一个类的标号。构造决策树的主要思想是以信息论为工具,从每个非叶节点中选择重要的属性或属性组,自上而下地分割训练实例集,直到满足某种终止条件,即节点中的实例属于同一类。最终结果是一组包括所有可能的规则。由于它是以树的形式来表示模型的,是一种直观的知识表示方法,因此容易理解,同时也是高效的分类器,可以非常容易地产生关联规则,已成为常用的工具。算法通常有CART、ID3、C4.5、SLIQ、SPRINT等。理想的决策树分为3类:1)叶节点数最少;2)叶子节点深度最小;3)叶节点数最少且叶子节点深度最小。(2)贝叶斯分类贝叶斯分类是一种统计学分类方法。它能从不完全、不精确和不确定的知识中做出推理,可以处理不完整和带有噪音的数据集,解决了数据间不一致和相互独立的问题。它可以预测类成员关系的可能性,比如给定元组属于一个特定类的概率。贝叶斯分类方法是基于贝叶斯定理的。朴素贝叶斯分类法假定一个属性值对给定类的影响独立于其它属性值,预测未知样本的类别为后验概率最大的那个类别。当假定成立时,与其他所有分类算法相比,朴素贝叶斯分类是最精确的15。但在实践中,变量之间可能相互具有依赖性,因而其分类准确性就会下降。为此出现了许多降低独立性假设的贝叶斯分类算法,如贝叶斯信念网络,它说明联合条件概率分布,允许在变量的子集间定义类条件独立性。它提供一种因果关系图形,可以在其上进行学习。(3)人工神经网络分类神经网络最早是由心理学家和神经生物学家提出的。神经网络是由大量的简单神经元按照一定规则连接构成的网络系统,能够模拟人脑的结构和功能。神经网络中有两种重要的结构:节点,对应于人脑的神经元;连接,对应于人脑神经元之间的联系。在结构上,可以把一个神经网络划分为输入层、输出层和隐含层(见图3-4)。输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量,可以有多个。在输入层和输出层之间是隐含层(使用者不可见)。隐含层的层数和每层的节点个数决定了神经网络的复杂度。每一神经元求得输入值,再计算总输入值,由过滤机制(如阈值)比较总输入,然后确定它自己的输出值。图3-4 神经网络结构图基本的神经网络模型有前向神经网络、径向基函数神经网络、反馈神经网络和随机神经网络等。最流行的分类神经网络算法,是20世纪80年代提出的后向传播算法,使用梯度下降方法。它搜索一组权,这组权可以对数据建模,使得数据样本的网络类预测与实际类标号间的均方距离最小。(4)粗糙集粗糙集16理论是一种刻画不完整性和不确定性的数学工具,能有效地分析不精确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理。粗糙集将分类理解为在特定空间上的等价关系,而等价关系构成了对该空间的划分,每一个被划分的集合称为概念。其主要思想是利用已知的知识库,将不精确或不确定的知识用已知知识库中的知识来刻画。首先用近似的方法把信息系统中的属性值离散化,然后对每一个属性划分等价类,再利用集合的等价关系进行信息系统的属性约简,最后得到一个最小的决策关系,以便于获得规则。与其他处理不确定和不精确问题理论的最显著的区别是它无需提供任何先验知识,仅依据数据本身所提供的信息就可对数据进行化简并求得知识的最小表达式,所以对问题的不确定性的描述或处理可以说是比较客观的。该理论与概率论、模糊数学和证据理论等其他理论具有很强的互补性。(5)遗传算法遗传算法最早是由Holland在20世纪70年代提出的,它是一种通用的搜索算法,借助生物演化的思想和原理来解决实际问题。遗传算法使用了三种遗传算子:复制算子、交叉算子和变异算子。首先,创建一个随机产生的规则组成的初始群体,每条规则用一个二进制位串表示;其次,根据适者生存的原则,从当前群体中选取最适合的规则以及它们的后代来组成一个新的群体,通常用规则的适合度来对训练样本集的分类准确率进行评估;然后,通过使用交叉和变异操作来产生下一代种群。在交叉操作中,通过来自规则对的字串交换,形成新的规则。在变异操作中,反转规则串中随机选择的位;最后,将由先前的规则群体产生新的规则群体的过程反复执行,直到每个规则满足事先指定的适合度阈值。遗传算法的关键问题就是遗传算子的定义。3.3.3 分类模型的评价标准不同的分类模型有不同的特点。总的说来,有五种分类模型评价标准:(1)预测准确度:描述分类模型准确预测新的或先前未见过的数据的能力。建立分类模型是为了在海量数据中,按用户的要求对数据进行分类,从中寻找有用的信息,从数据中得到的信息的准确度对决策人员的决策产生很大的影响。(2)计算复杂度:包括时间复杂度和空间复杂度。时间复杂度指产生和使用模型的计算速度。空间复杂度指在给定海量数据的条件下,有效构造模型的能力。(3)可伸缩性:这涉及给定大量数据,有效地构造分类或预测模型的能力。(4)可解释性:也就是模型描述的简洁性。因为分类器是通过特定算法建立的模型,这些模型最终是面向用户的,而用户中的大多数都不是领域专家,因此模型描述的越简洁越受欢迎,越方便用户进行决策。(5)鲁棒性:这涉及给定噪声数据或具有空缺值的数据,模型正确预测的能力。另外要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的存在空缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的分类模型,因此要根据实际情况具体选择。3.4 本章小结 本章主要介绍了数据挖掘的基本理论,包括数据挖掘的概念、流程,着重介绍了分类数据挖掘的原理和常用的方法,以及分类的评价标准。第四章 基于粗糙集的决策树分类第四章 基于粗糙集的决策树分类4.1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年航空企业航空机务员安全生产知识考试试题及答案
- 高校代理合作合同模板(3篇)
- 高空作业施工合同模板(3篇)
- 高空施工合同注意事项(3篇)
- 2025后浪公务员面试题及答案
- 时尚街区店面股份转让及经营管理合同
- 演艺公司导演艺人培养合同
- 互联网广告代理服务协议
- 信科专业面试题及答案
- 水下电磁探测技术-洞察及研究
- 2025-2030中国资产托管行业市场发展分析及前景趋势与投资研究报告
- 边坡劳务合同协议
- 广西壮族自治区自然保护地 整合优化方案
- 针灸科门诊质量考核标准
- 湖北省十一校2025届高三第二次数学联考及答案
- GB/T 20424-2025重有色金属精矿产品中有害元素的限量规范
- 严重精神障碍培训课件
- 2025美国急性冠脉综合征(ACS)患者管理指南解读课件
- 吊装施工安全协议书范本
- 2025年公务员住房公积金贷款合同范例
- (2025)辅警考试题《公安基础知识》综合能力试题库(附参考答案)
评论
0/150
提交评论