数据挖掘期末考试重点.docx

上传人：清*** IP属地：河南上传时间：2020-01-04 格式：DOCX 页数：6 大小：30.58KB 积分：12 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1元数据：是关于数据仓库中数据的数据。 2数据仓库中的元数据可以分为四类1) 关于数据源的元数据：对不同平台上的数据源的物理结构和含义的描述；2) 关于数据模型的元数据：描述了数据仓库中有什么数据以及数据之间的关系，它们是用户使用管理数据仓库的基础；3) 关于数据仓库映射的元数据：反映数据仓库中的数据项是从哪个特定的数据源填充的，经过哪些转换，变换和加载过程；4) 关于数据仓库使用的元数据：数据仓库中信息的使用情况描述，这类元数据能帮助用户到数据仓库查询所需要的信息，用于解决企业问题。 3数据仓库和数据集市的区别数据仓库收集了关于整个组织的主题（如顾客、商品、销售、资产和人员）信息，因此是企业范围的。对于数据仓库，通常使用星座模式，因为它能对多个相关的主题建模。数据集市是数据仓库的一个部门子集，它针对选定的主题，因此是部门范围的。对于数据集市，流行星型或雪花模式，因为它们都适合对单个主题建模。4数据集市主要有两种结构：从属数据集市 (数据直接来自于中央数据仓库)独立数据集市 (数据直接来源于各生产系统)5数据库与数据仓库的联系与区别?联系：数据仓库的出现，并不是要取代数据库。可以说，数据库、数据仓库相辅相成、各有千秋。区别：出发点不同（面向事物/面向主题）、存储的数据不同（实时数据/历史数据）、设计规则不同（范式/反范式）、提供的功能不同（捕获数据/分析数据）、基本元素不同（事实表/维表）、容量不同（GB/TB）、服务对象不同（业务处理人员/高层决策人员）。6粒度的作用：粒度越小，数据的综合程度越低，存储的数据越详细，需要的索引项越多，存储的数据量越大；回答查询的种类越多。粒度越高，数据综合程度越高，需要的索引项越少，存储的数据量越小,查询的效率也越高 7数据集市（data marts）通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。为了特定的应用目的或应用范围，而从数据仓库中独立出来的一部分数据，也可称为部门数据或主题数据（subject data）。8数据集市的两种架构：（1）、从属数据集市：它的数据直接来自于中央数据仓库。一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市，这样可以很好地提高查询的反应速度。（2）独立数据集市：它的数据直接来源于各生产系统。许多企业在计划实施数据仓库时，往往出于投资方面的考虑，最后建成独立数据集市，用来解决个别部门比较迫切的决策问题。 9星型模型与雪花模型的比较：本质相同，都由事实表、维表构成大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”（大表）以及多个“维表”（小表）所组成。“事实表”中存放大量关于企业的事实数据（数量数据）。雪花模型对星型模型的维表进一步层次化，原来的各维表可能被扩展为小的事实表，形成一些局部的“层次”区域。雪花模型将维表按层次进行了规范化，可以节省空间，使结构清晰，但在查询时涉及更多的连接操作。10星型模型的优点：星型模型存取数据速度快，主要是由于它针对各个维做了大量的预处理，如按照维进行预先的统计、分类、排序等；另外，星型模型比较直观，便于用户理解。11星型模型的缺点：当业务问题发生变化，原来的维不能满足要求时，需要增加新的维。由于事实表的主键由所有的维表的主键组成，这种维的变化带来数据变化将是非常复杂、非常耗时的。并且，星型模型的数据冗余量很大。12雪花模型的优点：在一定程度上减少了数据存储量，规范化的结构更容易更新和维护。13雪花模型的缺点：它比较复杂，用户不易理解；浏览内容相对困难；额外的连接降低了查询的性能。在数据仓库中，通常不推荐使用雪花模型，因为数据仓库对查询性能的要求更高。14ETL：*定义：Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程能够按照统一的规则集成并提高数据的价值，是负责完成数据从数据源向目标数据仓库转化的过程。*ETL工具：Informatica 公司的Power Center 、IBM 公司的Data Stage 、Oracle 公司的Warehouse Builder 以及Microsoft 公司的SQL Server IS 等。 *主要功能：数据抽取（从数据库中导入与决策相关的数据）；数据转换（对数据粒度以及不一致的数据进行转换）；数据清洗（校验数据源的数据质量，尽量减少差错）；数据装载（把数据装载到数据仓库中.）15数据挖掘*定义：在数据库中，利用各种分析方法与技术，将过去所累积的大量繁杂的历史数据中，进行分析、归纳与整合等工作，以萃取出有用的信息，找出有意义且用户有兴趣的模式，提供企业管理阶层在进行决策时的参考依据。*功能：（1）分类：按照分析对象的属性分门别类加以定义建立类组class；（2）估计：根据既有连续性数值的相关属性数据，以获知某一属性未知值；（3）预测：根据对象属性的过去观察值来估计该属性未来值；（4）关联分组：从所有对象决定那些相关对象应该放在一起；（5）聚类：将异质总体中区分为特征相近的同质组类clusters*步骤：（1）理解数据与数据所代表的含义；（2）获取相关知识与技术；（3）整合与检查数据；（4）去除错误或不一致的数据；（5）建模与假设；（6）数据挖掘运行（7）测试与验证所挖掘的数据（8）解释与使用数据16OLAP联机分析处理（on line analytical processing）从数据仓库中的综合数据出发，提供面向分析的多维模型，并使用多维分析的方法从多个角度、多个层次对多维数据进行分析，使决策者能够以更加自然的方式来分析数据。17数据挖掘与OLAP的差异：（1）、OLAP是决策支持领域的一部分。OLAP分析师是建立一系列的假设，然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。（2）、数据挖掘不是用于验证某个假定的模式（模型）的正确性，而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。（3）、数据挖掘和OLAP具有一定的互补性。18数据仓库与数据挖掘联系：数据仓库是指从各种数据源通过ETL(抽取、转换、加载)得到规整的数据，往往是纬度表和事实表的方式；数据挖掘是指在数据仓库的既有数据上通过聚类，回归，神经网络等技术发现知识，得出结论支持决策。193种Web挖掘：（1）Web内容挖掘；（2）Web结构挖掘；（3）Web应用挖掘特性：（1）数据收集容易且不引人注意；（2）以交互式个人定制服务为终极目标；（3）可整合外部数据让Web数据挖掘的分析功能发挥地更深广20基于文本挖掘的匹配假定分词词典中的最长词条所含汉字个数为n，则用被处理文档的当前字串中的前n个字作为匹配字段，查找字典。若字典中存在这样的一个字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理”。如此进行下去，直到匹配成功，切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配，然后取下一个n字字串进行匹配处理，直到文档被全部扫描完为止。21方定义（事实表）define cube :维定义（维表）define dimension as()特殊情况（共享维表)首先进行“立方体定义”define dimension as in cube22商业智能定义：企业利用信息科技以企业内部及外部既有的数据库数据为基础，根据所需解决的问题进行数据的汇总，整合成数据仓库后，利用适当的工具进行数据处理，利用联机分析（OLAP）及数据挖掘等技术分析数据，将所发现的潜在的特性或是建立的预测模型传递给决策者，以提供协助其进行决策，并达到企业目标。23数据仓库：决策支持系统（dss）和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。24数据仓库特点：面向主题；整合性（集成的）；长期性（时变的）；稳定性（非易失的）；汇总的；大容量25OLTP和OLAP的区别*用户和系统的面向性:OLTP面向顾客，而OLAP面向市场。*数据内容：OLTP系统管理当前数据，而OLAP管理历史的数据。*数据库设计：OLTP系统采用实体-联系（ER)模型和面向应用的数据库设计，而OLAP系统通常采用星形和雪花模型。*视图：OLTP系统主要关注一个企业或部门内部的当前数据，而OLAP 系统主要关注汇总的统一的数据。*访问模式：OLTP访问主要有短的原子事务组成，而OLAP系统的访问大部分是只读操作，尽管许多可能是复杂的查询。26（CRISP-DM）实施数据挖掘建模的六个阶段及四个层次*六阶段：（1）定义商业问题：针对企业问题和企业需求进行了解和确认，针对不同的需求做深入的了解，将其转化为数据挖掘的问题，并拟定逐步构想。（2）数据理解：建立数据库和分析数据库（3）数据预处理：同第二步为数据处理的核心（4）建立模型：分析已经筛选和净化的数据，采用各种定性和定量技术方法，对既有数据构建模式和模型，替企业解决问题。（5）评价和解释：对建立模型的结果进行解释，并对这一模型所带来的商业效果加以评价。（6）实施：两种使用方法，第一，提供给分析人员作参考，由他通过察看和分析这个模型之后提出行动方案建议，第二，把此模型应用到不同的数据集上，并不断地检测效果。*四层次：阶段、泛化任务、具体任务、操作实例每个阶段由若干泛化任务组成，每个泛化实施若干具体任务，每个具体任务由若干过程实例来完成。上二层独立于具体数据挖掘方法。27关联型数据库 p37（1）报表服务器（2）表分区（3）使用表分区快速加载数据（4）使用表分区快速删除数据28alalysis services由两个主要的互补功能组成：OLAP和数据挖掘29构建分析数据库的途径有两个：p41（1）完全自定义（2）可自定义的模版30创建商业智能应用程序实际是利用数据挖掘的各种优势，将其应用到整个数据输入、集成、分析和报表过程中。31SQL Server 2005数据挖掘功能的优势：p45（1）易用性（2）简单而丰富的API（应用程序接口）（3）可伸缩性（4）数据挖掘算法集成阶段包括从异构数据源收集数据、传输数据并加载到一个或多个数据源中。32开发数据挖掘模型的过程包括以下内容：输入数据集输入字段数据挖掘算法算法在计算过程中所用到的参数33数据挖掘过程包括三个步骤，分别：创建数据挖掘模型训练模型根据模型预测行为34Analysis Services 2005 新增了一些重要的新维度结构：角色扮演事实引用数据挖掘多对多 35MDX脚本语句包含以下命令，用分号隔开：限制语句作用域的作用域语句公式和值分布计算成员定义命名集定义36MDX脚本具有以下几个主要功能：脚本遵循过程模型可包含计算作用域可以嵌套可缓存计算用户可以多“MDX脚本”进行调试存储过程允许一次性开发公共代码，将代码存储在某一个位置，并在其他存储过程、计算和用户查询中再次使用所存储的公共代码，从而简化了数据库的开发和实施。37精确定义KPI的过程可为四个步骤：有待测量的值值目标状态趋势38报表服务（Reporting Services）是一个基于服务器的完整平台，可创建、管理和交付传统报表和交互式报表39Reporting Services可满足范围广泛的报表需求企业报表：企业可在内部报表和商业智能应用程序中使用reporting services。嵌入式报表：独立软件供货商可以使用reporting services将报表预先定义为打包应用程序的一部分。为合作伙伴或客户设计的web报表：组织可以讲传统报表或交互式WEB报表部署为通过外部网络与客户或合作伙伴交互。40决策树：是数据挖掘的一项主要分析工具。决策树能从一个或多个预测变量中，针对类别因变量的选项，预测出个例的趋势变化关系等。也可以由结果来反推原因。41社会活动中产生的数据以时间区分，可分为截面数据及时间序列数据两种。*截面数据是指发生于同一时期的数据。*时间序列数据是指同一变量在不同时点或不同时期的观测值，包括日数据、周数据、月数据、季数据和年数据等。*时间序列是一组发生在连续点或是连续时期上的观测值序列。42时间序列分析方法的主要目的有：对时间序列未来趋势作预测将时间序列分解成主要趋势成分，季节变化成分检验理论模型是否能正确反应现象（如

人人文库> 全部分类> 应用文书 > 规章制度

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘期末考试重点.docx

文档简介

温馨提示

最新文档

评论

数据挖掘期末考试重点.docx

文档简介

温馨提示

最新文档

评论

相关文档