数据挖掘:简介和答疑.doc_第1页
数据挖掘:简介和答疑.doc_第2页
数据挖掘:简介和答疑.doc_第3页
数据挖掘:简介和答疑.doc_第4页
数据挖掘:简介和答疑.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘P3 什么是数据挖掘(概念)? 答:数据挖掘是指从大量数据中提取或“挖掘”知识;广义上讲数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据中发现有趣知识的过程。什么是知识发现(KDD)?知识发现的步骤。答:知识发现是所谓数据挖掘的一种更广义的说法,知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。其步骤如下:1)数据清理 2)数据集成 3)数据选择 4)数据变换 5)数据挖掘 6)数据评估 7)知识表现P8 数据仓库,数据集市的概念及其区别。答:数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单个站点,数据仓库是通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。数据集市(Data Mart) ,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。数据仓库收集了跨部门的整个组织的主题信息,因此它是企业范围的;另一方面,数据集市是数据仓库的一个部门子集,它聚焦在选定的主题上,是部门范围的。P22 数据挖掘系统与数据库系统或数据仓库系统的集成方式(四种)及其优缺点。数据挖掘(DM)系统设计的一个关键问题是如何将DM系统与数据库(DB)系统和/或数据仓库(DW)系统集成或耦合。. 不耦合(no coupling):不耦合意味着DM系统不利用DB或DW系统的任何功能。它可能由特定的数据源(如文件系统)提取数据,使用某些数据挖掘算法处理数据,然后再将挖掘结果存放到另一个文件中。尽管这种系统简单,但有不少缺点。首先,DB系统在存储、组织、访问和处理数据方面提供了很大的灵活性和有效性。不使用DB/DW系统,DM系统可 能要花大量的时间查找、收集、清理和变换数据。在DB和/或DW系统中,数据多半被很好地组织、索引、清理、集成或统一,使得找出任务相关的、高质量的数 据成为一项容易的任务。其次,有许多经过测试的、可伸缩的算法和数据结构在DB或DW系统中得到实现。使用这种系统开发有效的、可伸缩的实现是可行的。此外,大部分数据已经或将要存放在DB/DW系统中。要是没有任何这样的系统耦合,DM系统就需要使用其他工具提取数据,使得很难将这种系统集成到信息处理环境中。因此,不耦合是一种很糟糕的设计。. 松散耦合(loose coupling):松散耦合意味着DM系统将使用DB或DW系统的某些设施,从这些系统管理的数据库中提取数据,进行数据挖掘,然后将挖掘的结果存放到文件中,或者存放到数据库或数据仓库的指定位置。松散耦合比不耦合好,因为它可以使用查询处理、索引和其他系统设施提取存放在数据库或数据仓库中数据的任意部分。这带来了这些系统提供的灵活性、有效性等优点。然而,许多松散耦合的挖掘系统是基于内存的。由于挖掘本身不利用DB或DW提供的数据结构和查询优化方法,因此,对于大型数据集,松散耦合系统很难获得高度可伸缩性和良好的性能。. 半紧密耦合(semitight coupling):半紧密耦合意味除了将DM系统连接到一个DB/DW 系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)的有效实现可以在DB/DW系统中提供。这些原语可能包括排序、索引、聚集、直方 图分析、多路连接和一些基本的统计度量(如求和、计数、最大值、最小值、标准差等)的预计算。此外,一些频繁使用的中间挖掘结果也可以预计算,并存放在DB/DW系统中。由于这些中间挖掘结果或者是预计算,或者可以有效地计算,这种设计将提高DM系统的性能。. 紧密耦合(tight coupling):紧密耦合意味DM系统平滑地集成到DB/DW系统中。数据挖掘 子系统视为信息系统的一个功能组件。数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。随着技术进步,DM、 DB和DW系统将进化和集成在一起,成为一个具有多种功能的信息系统。这将提供一个一致的信息处理环境。这种方法是高度期望的,因为它有利于数据挖掘功能、高系统性能和集成的信息处理环境的有效实现。有了这些分析,可以看出数据挖掘系统应当与一个DB/DW系统耦合。松散耦合尽管不太有效,也比不耦合好,因为它可以使用DB/DW的数据和系统设施。紧密耦合是高度期望的,但其实现并非易事,在此领域还需要更多的研究。半紧密耦合是松散和紧密耦合之间的折衷。P30,31为什么要进行数据预处理?数据预处理的三种方式。答:概言之,现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的数据挖掘过程的精度和性能。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测数据异常、尽早的调整数据并规约待分析的数据将在决策过程得到高回报。P39数据清理的方法及其步骤。P45数据变换的方法。(计算)1)最小-最大规范化; 2)Z-score规范化 3)小数定标规范化P47数据规约的策略。答:(1)数据立方体聚集:聚集操作用于数据立方体结构中的数据。(2)属性子集选择:可以检测并删除不相关、弱相关或冗余的属性或维。(3)维度归约:使用编码机制减小数据集的规模。(4)数值归约:用替代的、较小的数据表示替换或估计数据,如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、抽样和使用直方图。(5) 离散化和概念分层产生:属性的原始数据值用区间值或较高层的概念替换。数据离散化是一种数据归约形式,对于概念分层的自动产生是有用的。离散化和概念分层 产生是数据挖掘强有力的工具,允许挖掘多个抽象层的数据。P55数据分层的方法。P67数据仓库的特点。答:概念:数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程。其特点如下:1)面向主题的 2)集成的 3)时变的 4)非易失的P68对数据仓库的操作OLTP(联机事务处理),OLAP(联机分析处理);多维数据模型。答:OLTP(联机事务处理),OLAP(联机分析处理)的区别:1) 用户和系统的面向性: OLTP是面向顾客的,用于事务和查询处理 ;OLAP是面向市场的,用于数据分析 2) 数据内容: OLTP系统管理当前数据;OLAP系统管理大量历史数据,提供汇总和聚集机制. 3) 数据库设计: OLTP采用实体-联系ER模型和面向应用的数据库设计;OLAP采用星型或雪花模型和面向主题的数据库设计. 4) 视图: OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的数据;OLAP则相反. 5) 访问模式: OLTP系统的访问主要由短的原子事务组成.这种系统需要并行和恢复机制;OLAP系统的访问大部分是只读操作OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易;OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。P73星型模型、雪花式模型、事实星座模型(画图)。P77概念分层。P79多维数据模型中OLAP(联机分析处理)操作。P86元数据、OLAP服务器类型。答:元数据是关于数据的数据。在数据仓库中,元数据是定义仓库对象的数据。1) OLAP服务器类型:关系OLAP(ROLAP)服务器2) 多维OLAP(MOLAP)服务器3) 混合OLAP(HOLAP)服务器4) 特殊的SQL服务器P89数据立方体的物化1)不物化 2)完全物化 3)部分物化P94三种数据仓库的使用信息处理2_分析处理3_数据挖掘P147支持度、置信度的概念答:表达某一特定关联出现的频率在关联规则中称为支持度.当情况一出现时,发生情况二的概率在关联规则中称为支持度;所谓置信度,是指特定个体对待特定命题真实性相信的程度.也就是概率是对个人信念合理性的量度.概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据P151Apriori算法基本步骤(计算)思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度 不低于用户设定的阀值的项即集, 第二是利用第一步中检索出的烦琐项集构造出满足用户最 小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作 量的大部分。 在商务、金融、保险等领域皆有应用。P154关联规则(例5-4),步骤P168相关规则P184分类、预测的概念及其区别;有监督学习与无监督学习。有无监督的学习主要区别是“有无标记的数据”。无监督学习是不利用类标签而进行学习的过程。聚类就是典型的无监督学习。半监督学习的主要就是利用无标记的数据从而达到最终监督学习的目标,或者会自动标记。监督学习也称有导师的学习,指在训练期间有一个外部老师告诉网络每个输入向量的正确的输出向量学习的目的就是减少网络产生的实际输出向量和预期输出向量之间的差异3这一目标是通过逐步调整网络内的权值实现的,反向传播算法能够决定权值要改变多少对于这种学习,网络在能执行工作前必须训练当网络对于给定的输入能产生所需要的输出时,就认为网络的学习和训练已经完成由此可以看到,监督学习的成分主要有:实际输出向量;预期输出向量;实际输出向量和预期输出向量之间存在的差异等这样,就可以具体分析某一学习活动,根据其所包含的成分,从而推断其是否是监督学习无监督学习又称无导师学习它是指网络只面向外界,在没有任何进一步指导的情形下,构建其内部表征3即网络在缺乏外界所提供的任何形式的反馈条件下所进行的学习在这种学习程序中,网络的权重的调节没有受到任何外来教师的影响,但在网络内部则对其性能进行自适应调节尽管在这种学习中没有受到外来影响,但网络仍需要一些信息以进行自组织它强调的是加工单元之间的协调,如果外界输入激活了加工单元群中的某一节点,则整个加工单元群的活性随之增加,相反引起整个加工单元群的抑制效应无监督学习具有很诱人的性质,因为从某种意义上说网络是自己知道自己P186过分拟合P196剪枝P226急切学习法、惰性学习法的概念及其优缺点。P251聚类分析的方法划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法、高纬数据的方法、基于约束的聚类P252数据挖掘对聚类的典型要求1)可伸缩性2) 处理不同类型属性的能力 3) 发现任意形状的聚类4)对于决定输入参数的领域知识需求最小 5)处理带噪声数据的能力6)增量聚类和对输入记录的次序不敏感 7) 高维性 8) 基于约束的聚类9)可解释性和可用性P253区间标度变量计算相异度(计算)P261各方法的优缺点;K-均值法(计算 .例7-8)P295什么是离群点、离群点挖掘、离群点分析方法答:经常存在一些数据对象,与数据的一般行为或模型不一致,这样的数据对象称为离群点;离群点的检测和分析称为离群点挖掘;P424对数据挖掘的应用1)金融数据分析2)零售业3)电信业4)生物医学和DNA数据分析可伸缩性(三种)给定大量数据,有效地改造分类器或预测器的能力。数据挖掘发展、应用趋势电子商务正处在蓬勃发展的大好时期,它所产生的丰富的信息资源,为数据挖掘的应用开辟了广阔的应用舞台。本文通过优化企业资源、管理客户数据、评估商业信用、确定异常事件四个方面来阐述数据挖掘在电子商务中的应用,揭示了数据挖掘在电子商务中的广阔的应用前景。 随着网络技术和数据库技术的成熟,全球传统商务正经历一次重大变革,向电子商务全速挺进。电子商务是商业领域的一种新兴商务模式,它是以网络为平台,以现代信息技术为手段,以经济效益为中心的现代化商业运转模式,其最终目标是实现商务活动的网络化、自动化与智能化。电子商务的产生改变了企业的经营理念、管理方式和支付手段,给社会的各个领域带来了巨大的变革。随着网络技术的迅猛发展和社会信息化水平的提高,电子商务显示出巨大的市场价值和发展潜力。当电子商务在企业中得到应用时, 企业信息系统将产生大量数据,并且迫切需要将这些数据转换成有用的信息和知识,为企业创造更多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来的。数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。利用功能强大的数据挖掘技术,可以使企业把数据转化为有用的信息帮助决策,从而在市场竞争中获得优势地位。 二、数据挖掘在电子商务中的应用 1.优化企业资源 节约成本是企业盈利的关键。基于数据挖掘技术,实时、全面、准确地掌握企业资源信息,通过分析历史的财务数据、库存数据和交易数据, 可以发现企业资源消耗的关键点和主要活动的投入产出比例, 从而为企业资源优化配置提供决策依据, 例如降低库存、提高库存周转率、提高资金使用率等。通过对Web数据挖掘,快速提取商业信息,使企业准确地把握市场动态,极大地提高企业对市场变化的响应能力和创新能力,使企业最大限度地利用人力资源、物质资源和信息资源,合理协调企业内外部资源的关系,产生最佳的经济效益。促进企业发展的科学化、信息化和智能化。 例如:美国运通公司(American Express)有一个用于记录信用卡业务的数据库,数据量达到54亿字符,并仍在随着业务进展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣,这样既可以增加商店的销售量,也可以增加运通卡在该商店的使用率。 2.管理客户数据 随着“以客户为中心”的经营理念的不断深入人心, 分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。基于数据挖掘技术,企业将最大限度地利用客户资源,开展客户行为的分析与预测,对客户进行分类。有助于客户盈利能力分析,寻找潜在的有价值的客户,开展个性化服务,提高客户的满意度和忠诚度。通过Web资源的挖掘,了解客户的购买习惯和兴趣,从而改善网站结构设计,推出满足不同客户的个性化网页。 利用数据挖掘可以有效地获得客户。比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性,学历、收入如何, 有什么爱好,是什么职业等等。甚至可以发现不同的人在购买该种商品的相关商品后多长时间有可能购买该种商品, 以及什么样的人会购买什么型号的该种商品等等。在采用了数据挖掘后, 针对目标客户发送的广告的有效性和回应率将得到大幅度的提高, 推销的成本将大大降低。同时,在客户数据挖掘的基础上,企业可以发现重点客户和评价市场性能,制定个性化营销策略,拓宽销售渠道和范围,为企业制定生产策略和发展规划提供科学的依据。通过呼叫中心优化与客户沟通的渠道,提高对客户的响应效率和服务质量,促进客户关系管理的自动化和智能化。 成功案例:美国的读者文摘(Readers Digest)出版公司运行着一个积累了4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论