




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1. 商业智能和数据挖掘概述2. 对SQL Server 2005 Data Mining 的应用分析 详细说明3. 对原数据挖掘程序的分析,包括优点和不足以及需要改进的地方4. 我的整体设计思路,包括对原设计思路的借鉴和创新 5. 现阶段已完成的工作,和原程序相比所做的改进 详细说明1. 商业智能和数据挖掘概述1.1 商业智能和数据挖掘的定义商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。从技术层面上讲,商业智能是数据仓库、OLAP和数据挖掘等技术的综合运用。从技术上定义,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从商业角度的定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。1.2数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知、有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。1.3 数据挖掘的过程数据挖掘过程中各步骤的大体内容如下:1. 确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。2. 数据准备1) 数据的选择搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。2) 数据的预处理研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。3) 数据的转换将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。3. 数据挖掘对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。4. 结果分析解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。5. 知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去。1.4 数据挖掘的应用和实例数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘(data mining)都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。举一个简单的例子,当银行通过对业务数据进行挖掘后,发现一个银行帐户持有者突然要求申请双人联合帐户时,并且确认该消费者是第一次申请联合帐户,银行会推断该用户可能要结婚了,它就会向该用户定向推销用于购买房屋、支付子女学费等长期投资业务,银行甚至可能将该信息卖给专营婚庆商品和服务的公司。数据挖掘构筑了竞争优势。美国运通公司(American Express)有一个用于记录信用卡业务的数据库,数据量达到54亿字符,并仍在随着业务进展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,这样既可以增加商店的销售量,也可以增加运通卡在该商店的使用率。美国的超市有这样的系统,当你采购了一车商品结账时,售货员小姐扫描完了你的产品后,计算机上会显示出一些信息,然后售货员会友好地问你:我们有一种一次性纸杯正在促销,位于F6货架上,您要购买吗?这句话决不是一般的促销。因为计算机系统早就算好了,如果你的购物车中有餐巾纸、大瓶可乐和沙拉,则86%的可能性你要买一次性纸杯。结果是,你说,啊,谢谢你,我刚才一直没找到纸杯。这不是什么神奇的科学算命,而是利用数据挖掘中的关联规则算法实现的系统。每天,新的销售数据会进入挖掘模型,与过去N天的历史数据一起,被挖掘模型处理,得到当前最有价值的关联规则。同样的算法,分析网上书店的销售业绩,计算机可以发现产品之间的关联以及关联的强弱。数据报表、数据分析、数据挖掘是BI的三个层面。我们相信未来几年的趋势是:越来越多的企业在数据报表的基础上,会进入数据分析与数据挖掘的领域。商业智能所带来的决策支持功能,会给我们带来越来越明显的效益。1.5 实施数据挖掘要考虑的问题谈到数据挖掘应从以下三方面加以考虑:一用数据挖掘解决什么样的商业问题。二为进行数据挖掘所做的数据准备:数据挖掘最后成功与失败,是否有经济效益,数据准备起到了至关重要的作用。数据准备包含很多方面:一是从多种数据源去综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术;另一方面就是如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。三数据挖掘的各种分析算法:对于数据挖掘,没有一种算法是万能的。不同的商业问题,需要用不同的方法去解决。即使对于同一个商业问题,可能有多种算法,这个时候,也需要评估对于这一特定问题和特定数据哪一种算法表现好。还需要强调的一点是,要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面,同时还需要对企业业务的深入了解和数据分析经验。不管是需求分析还是挖掘模型的评估及应用,和业务人员和决策者们的充分沟通交流是完全必要的。2. 对SQL Server 2005 Data Mining的应用分析数据挖掘的任务:(1)聚类(无监督学习)聚类模型 (2)分类(有监督学习)决策树模型、贝叶斯模型和神经网络模型简单地说:聚类-是“无监督学习”,事先不知道将要分成哪些类。分类-是“监督学习”,事先知道有哪些类别可以分。(3)关联关联模型,找出频繁的项集和关联规则(4)时序预测时间序列模型(5)序列分析序列分析和聚类分析模型(6)回归线性回归模型(利用决策数算法)和逻辑回归模型(利用神经网络算法)在创建模挖掘模型时数据集取比较简单的College Plans数据库和Sql Server2005的自带的事例数据库AdventureWorks。2.1聚类模型1. 聚类简介聚类分析模型标识数据集中可能无法通过随意观察在逻辑上得出的关系。例如,在逻辑上可以得知,骑自行车上下班的人的居住地点通常离其工作地点不远。但该算法可以找出有关骑自行车上下班人员的其他并不明显的特征。在下面的关系图中,分类 A 表示有关通常开车上班人员的数据,而分类 B 表示通常骑自行车上班人员的数据。 2. 聚类算法的参数Cluster_Count:指定此算法将生成分类的近似数目。默认值为 10。3. 使用聚类模型聚类模型是很重要的模型,该模型可以用来指出您的数据属于哪一个分组。当设置某一列的用法类型为Input或者Predict的时候,聚类算法将会区别对待这两种类型的列,对于可预测的列,在对模型进行预测的时候是可选择的,但对于输入列,则不可以。当设置某一列为Predict Only的时候,将会区别对待该列。在聚类算法中,Predict Only类型的列在模型训练的聚类阶段不会被使用。在大型的分析项目中,也可以把聚类作为其中的一个步骤,通过对相似的数据进行分组,可以创建更好的补充模型来回答更深入的问题。例如您打算创建一个决策树模型,利用该模型来预测一个客户是否会在一个月内再给您带来业务。可以针对所有的客户创建一个模型,但该模型是整个数据集的通用的模型;也可以先对数据进行聚类,然后通过决策树对各个聚类进行训练,可以挖掘出更多的信息。4手动创建模型1)挖掘结构2)挖掘模型3)挖掘模型查看器 包括分类关系图、分类剖面图、分类特征和分类对比4)挖掘准确性图表 包括提升图、利润图和分类矩阵5)挖掘模型的预测5利用代码创建模型 1)创建数据库 2)创建数据源 3)创建挖掘模型 4)查询相关信息SELECT * FROM Clustering_CollegePlans.Content返回指定数据挖掘模型的挖掘模型架构行集SELECT * FROM Clustering_CollegePlans.Cases WHERE IsInNode(001)支持钻取功能,并返回用于为模型定型的事例。2.2 决策数模型1. 决策树介绍假如您是某家银行负责贷款的经理。当一对年轻的夫妇来银行申请贷款,这时您心理会想:年青人一个申请贷款不利的条件。在他们交谈时,您发现他们已经结婚,这是申请贷款的有利条件,而他们做同一份工作超过3年,工作稳定是他们申请贷款的又一个有利条件。但是再一看他们的信用记录,发现在过去的12个月当中他们有3次没有按时还贷款,这是申请贷款的一个很不利的条件。按照您的经验,在您的脑子中会有一棵决策树,这棵决策数可以帮助您决定是否该放贷某款项。2. 模型的参数Split_Method:1采用二叉树进行拆分2采用完全拆分方式3自动选择这两种方式中较好的一种方法进行拆分(默认)3. 解释模型2.3 贝叶斯模型1. 贝叶斯算法介绍贝叶斯算法支持快速得创建有预测功能的挖掘模型,并且提供一种浏览数据和理解数据的新方法,它主要靠贝叶斯公式来完成。例如,如果您打算基于美国国会议员投票的历史,确定国会议员是共和党还是民主党,则您必须将各个党的国会议员就每一个一体的投票数作为您的证据。这个算法将会基于您感兴趣的美国国会议员的投票历史,使用这些投票计数来进行预测。D(共和党) R(民主党)表2-1 通过党籍统计投票数据Death TaxHomeland securityHelp VoteChild Abduction党派DRDRDRDRDR赞成4121487211184172178210211223反对166411461136231赞成20%98%43%97%94%83%89%99.5%49%51%反对80%2%57%3%6%17%11%0.5%表2-2 目标代表Death TaxHomeland securityHelp VoteChild Abduction党派赞成反对赞成赞成?2. 浏览贝叶斯模型1)依赖关系网络视图2)属性配置文件视图3)属性特征视图3)属性对比视图注:贝叶斯模型不允许钻取。2.4 关联模型1 关联模型介绍在超市里,客户的每次购物都会产生一些模式,这些模式关于如何一起购买产品。您可以使用这些模式来学习更多有关客户购物的行为,从而可以帮助您优化产品的布局,以及想合适的客户交叉促销合适的产品。如前面提到的美国超市系统的例子。2 解释模型1) 项集2) 规则3) 依赖关系网络通过对以上4种模型的对比,详细地解释提升图和利润图。2.5 神经网络模型1. 神经网络简介假设您在针对房地产销售部门的数据进行数据挖掘。您希望从客户的人口统计信息数据中理解影响购房的因素。您已经基于年龄、收入、性别和婚姻状况构建了挖掘模型,从而来预测购房。您已经尝试使用了决策树和贝叶斯算法,但是,来自提升图的结果可能并不说明预测很正确,那么是否有其他的方法可以获得更好的结果?这是您可以使用神经网络来进行建模。Microsoft 神经网络算法对分析复杂输入数据(如来自制造或商业流程的数据)很有用;对于那些提供了大量定型数据,但使用其他算法很难为其派生规则的业务问题,这种算法也很有用。在以下情况下,建议使用 Microsoft 神经网络算法:1)营销和促销分析,如评估直接邮件促销或一个电台广告活动的成功情况。2)根据历史数据预测股票升降、汇率浮动或其他频繁变动的金融信息。3)分析制造和工业流程。神经网络主要解决数据挖掘的分类和回归任务。如同决策树,神经网络可以找到输入属性和可预测属性之间的非线性关系。然而,神经网络可以找出平滑而连续的非线性关系。同时,神经网络也一些缺点,一是学习神经网络所需的时间通常要被学习决策树和贝叶斯所需的时间多,二是解释结果比较困难。2. 解释模型 3. 注意的问题神经网络算法是一个非线性的算法,它可以发现复杂的模式,而决策数和贝叶斯可能发现不了这些模式。在进行数据挖掘时,我们推荐首先使用决策树算法,因为解释决策树算法生成的模式比解释神经网络算法的输出要简单;只有当其他算法的正确性不能令人满意时,才尝试使用神经网络算法。2.6 时间序列模型1. 时间序列简介假如您是零售商店的经理。您想知道接下来的几个星期每一个产品类别、子类别和每一个具体型号产品的销售情况。这些信息可以帮助您合理计划商店中产品的库存量。这样,当某一种产品很受客户欢迎的时候,不会出现缺货的情况,同时也不会出现库存过量的情况。当某个节日或者假期来的时候,某一种产品可能出现销售高峰。对于这些产品中的每一中产品,在什么时候应该订购多少数量就成了您很关心的问题。收集时间序列数据的主要目的是用来预测将来的值。比如,在制造业中,一个工厂需要预测接下来的几个月客户的需求,以便制定生产计划。对于一个Web站点来说,需要知道访问该站点用户增加的情况,以便选择合适的硬件。零售店经理需要预测产品下一阶段的销售额,以便合理计划商店的库存量。预测是和常见的数据挖掘任务。就DMX而言,一个时间序列就是一个事例。一年有52个周,在一年中百事可乐每周的销售额形成的时间序列是一个事例。一个挖掘模型可能包含多个时间序列。例如,一个模型可能包含所有饮料产品销售的时间序列,这些饮料产品中包含可乐、啤酒、果汁和牛奶等。并且这些序列可能不是相互独立的。可乐和果汁的销售额可能有较强的关联关系。当这种关系较强时,Microsoft时序算法可以识别出这些许类是交叉序列。这是该算法模型与普通的时序算法相比独特的特征之一。2. 解释模型3. DMX进行预测2.7 序列聚类模型1. 序列聚类模型 假设您是网上商店的销售经理。在虚拟的商店中,您看不见您的客户,然而,您希望能了解关于客户的更多的信息,从而可以向他们提供更好的服务。您希望查明您的客户是如何使用的您的站点的,以及他们感兴趣的产品。您也希望基于这些客户的导航模式来确定他们的自然分组。例如,一组客户从的Web站点上购买所有类别的产品,而其他客户只访问特地功能类别的书籍和杂志。该信息不仅想您提供了客户在网上虚拟商店中的行为的清晰视图,而且您还可以基于客户的个人信息来向他提供个性化的购物向导。序列聚类算法是时间序列和聚类技术结合的产物。设计它的目的是用于分析包含序列数据的大量事例,然后给予这些序列的相似性来将这些事例分类到或多或少存在相似的分组中。序列是一系列离散的事件(状态)。序列数据是普遍存在的,例如,DNA序列,一个学生在大学所修的课程列表形成一个序列,Web用户的一系列URL点击也是一个序列。表2-3天气序列1雨多云晴小雨阴天2阴天雨小雨多云晴2. 解释模型2.8 线性回归和逻辑回归线性回归模型是基于决策数算法的。可以使用线性回归确定两个连续列之间的关系。该关系采用的表示形式是最能代表数据序列的线的公式。例如,以下关系图中的线是数据最可能的线性表示形式。图2-2 线性回归表示该关系图中的线的公式采用了 y = ax + b 这个一般形式,该公式称为回归公式。变量 Y 表示输出变量,X 表示输入变量,a 和 b 是可调整系数。关系图中的每个数据点都有一个与该数据点与回归线之间距离关联的错误。回归方程式中的系数 a 和 b 可以调整回归线的角度和位置。可以调整 a 和 b,直到与点关联的错误总数达到最低数目,以此获得回归方程式。逻辑回归模型是基于神经网络算法。回归的效果要比线性回归好的多。图2-3 线性回归和逻辑回归的比较 3 对原数据挖掘程序的分析原程序的设计思路:(1)对于创建数据挖掘模型:人工手动地创建挖掘项目,包括创建数据源和数据源视图、创建挖掘结构和挖掘模型、发布挖掘模型。(2)对配置库中配置一定的信息,操作不太方便。4 我的整体设计思路(1)利用程序代码操纵xmla语句在SQL Server 2005中创建分析项目的数据库和数据源(2)利用程序代码操纵dmx语句选用数据挖掘算法创建和训练模型(3)利用程序代码操纵dmx语句在训练模型的数据集增加或变动的情况,对模型进行更新(4)利用程序代码操纵dmx语句将模型的结果查询出来并以直观的方式显示在前台页面上,并利用模型进行预测和决策等。5现阶段已完成的工作和原程序演示(1) 实现了完全利用程序代码创建分析数据库、创建数据源、创建挖掘结构和挖掘模型、多挖掘模进行训练以及更新挖掘模型功能的程序。并将程序嵌入了MIP平台的框架下,已正常运行。对其中公用的函数进行了整合,方便以后直接调用。模型的信息在创建挖掘模型成功时可自动写入配置表中,在以后对挖掘模型的操作所需要的信息可以直接从模型和配置表中读出,而不需要再人工进行配置,操作更加简便。(2) 对原来的数据挖掘程序代码进行了修改和改进。不再区分组合模型和基础模型,实现了在在程序中需要的各类信息均可以通过传入的挖掘模型ID从相关的配置信息表中读出,而不需要对原配置表的配置和信息。程序已调试通过,与原程序代码相比,改进的程序代码更易操作和执行。(3) 对聚类、决策树和关联模型的整表进行预测的功能的设计。附:提升图、利润图和分类矩阵一提升图在数据挖掘设计器的“挖掘准确性图表”选项卡上,您可以计算每个模型的预测精度,还可以将每个模型的结果直接与其他模型的结果进行比较。这种比较方法称为“提升图”。“挖掘准确性图表”选项卡使用输入数据(这些数据与原始的数据集分离)将预测与已知结果进行比较。然后将比较的结果进行排序并绘制成图。同时还要在该图上绘制一个理想的模型,即始终都能准确预测结果的理论模型。可以将实际模型的结果与理想模型的结果进行比较,以查看这些模型的预测准确性。提升图可以区分同一结构中几乎相同的两个模型,从而帮助您确定哪个模型能够提供最佳的预测,因此提升图非常重要。同样,提升图还能显示哪种类型的算法可在特殊情况下执行最佳预测。“提升图”选项卡显示挖掘模型所引起的“提升”变化的图形表示形式。例如,请考虑下面的事例,即 Adventure Works Cycles 的市场部要搞一个发送邮件的活动。从以往的活动中,他们推算应有 10% 的答复率。在数据库的一个表中,存储了一个包含 10,000 名潜在客户的列表。按照正常答复率计算,预计将有 1,000 名客户答复。此外,还考虑到该计划的预算低于向数据库中所有 10,000 名客户发送邮件所需的费用。根据预算,他们只能承担向 5,000 名客户发送邮件广告的费用。市场部有下列两种选择: 1)随机选择 5,000 名目标客户2)使用挖掘模型确定最有可能答复的 5,000 名目标客户如果该公司随机选择 5,000 名客户,则在估计给予积极答复的 1,000 名客户中,只能有 500 名客户做出答复,因为正常情况下只有 10% 的客户答复。这正是提升图中的随机线所表示的情况。但如果市场部使用挖掘模型来确定发送邮件的目标,则预计可以获得更高的答复率,因为他们锁定了最有可能答复的客户。如果该模型精确无误,则意味着它可以形成完全准确的预测,即该公司通过向该模型推荐的 1,000 名潜在客户发送电子邮件广告,预计可以得到全部 1,000 个答复。这正是提升图中的理想线所表示的情况。事实是挖掘模型最可能位于这两种极限情况之间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 租赁公司年终总结汇报报告
- 福建省晋江市潘径中学2026届英语九年级第一学期期末教学质量检测模拟试题含解析
- 云南省镇康县第一中学2024-2025学年高二上学期11月月考历史试卷
- 2025年轨道车司机(高级技师)职业技能鉴定考试题库(含答案)
- 江苏省江阴市长寿中学2026届九上化学期中预测试题含解析
- 2026届山西省晋中市九年级化学第一学期期中质量跟踪监视试题含解析
- 柳州市重点中学2026届九年级化学第一学期期中检测试题含解析
- 租赁场地开办幼儿园合同范本(包含装修条款)
- 高层建筑空调系统销售、安装及安全运行合同
- 汽车行业售后担保合同质量保障与消费者权益保护
- 质量分析工具-5W1H分析法课件
- 《运动与位置》(31张)-完整版课件
- 五年级上册数学课件-2.1 轴对称 ︳青岛版 (共17张PPT)
- GJB9001C-2017质量管理体系检查内容的内部审核检查表【含检查内容】
- 半导体数字集成电路测试技术概要
- 心包积液以及心包填塞
- 商业银行内部审计技术与方法
- 河道清淤整治工程施工组织设计方案
- 论信息技术对公共行政的影响分析研究行政管理专业
- 技术部薪资等级晋升制度76799
- 生物化学:第2章 核酸的结构与功能
评论
0/150
提交评论