




已阅读5页,还剩71页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 第一章 绪 论 究动机与目的 在知识发掘与管理的领域中,资料采掘与资料仓储系统的结合,已成为一重要的趋势 6,其中资料采掘 (研究在于针对大量的资讯,粹取出具有意义的模式或规则 1,而资料仓储 (建置,则为异质性的资料来源,与分散各处的资料库系统,提供了整合、统一的解决方法 4。 在 1996 年, J. 首度提出 构 17,建构出类似 析的线上资料采掘平台,其藉由资料仓储与资料采掘领域的整合,让系统能利用析所建构的资料方体 (进行各种资料采掘分析,如:分群(分类 (关联 (,成为资料采掘与资料仓储整合的典范,但其虽然能提供分析者,在多维度资料环境下进行资料采掘,但因受限于 料方体的特性,无法快速地产生出多维度的关联规则,换言之,其效率仍无法达到线上分析的要求。 有鉴于此,我们在过去的研究中,提出线上关联规则采掘方体 (辅助方体的 概念,和已知的 料方体相结合,形成一套线上多维度关联规则采掘系统 (简称为 12627,此系统能提供使用者在线上的环境下,任意地变换分析维度与参数,并快速地产生符合需求的关联规则,其主要关键在于 统根据 26,事先储存资料仓储纲要中各种维度属性组合下的频繁项目集,称之为 体 26,再辅以另外储存的部分非频繁项目集,称 为辅助方体 26,可避免为产生符合使用者查询需求的频繁项目集,所需花费大量的计算处理时间。然而由于 体的资料范围涵盖了资料仓储纲要中所有可能的维度属性组合,而使 体,如此一来如何由为数众多的 体中依使用者的查询快速地找出符合的 体,将是影响统效率的关键因素,因此本研究主要目的在于如何根据使用者的查询,有效、快速地找出符合的 体,并从中筛选出符合的频繁项目集, 2 使 统能在线上的环境中,对于使用者的查询达到 即时回复的目的,而我们将此问题称为 统中 体索引结构设计。 针对此一问题,我们提出一三层式的阶层索引架构,在架构中我们首先采取前序树与 种不同的索引结构,以解决属性组合的搜寻问题,再藉由杂凑表的方式,根据交易属性与采掘属性的组合找出特定的 后利用项目集的支持度建置二元树,以找出 体中的资料切割点,将非频繁项目集的资料删除,藉此克服在关联规则采掘过程中的问题,使统能在线上的环境下,对于使用者的查询,达到即时回复的目的。 究贡 献 本论文的主要贡献如下: 1. 透过维度属性编码的方式,利用前序树的资料结构与改良 生的 展出应用于维度属性组合搜寻的多维度索引方法。 2. 说明如何藉由杂凑表的方式,判断属性组合中的交易属性与采掘属性,以依据 使用者的查询产生相对应的资料方体。 3. 说明如何藉由二元树的资料结构,找出资料方体中的资料切割点,将资料方体中小于支持度的项目集删除。 3 节安排 本论文其余章节安排如下:在第二章中,我们将说明本篇论文的背景知识与回顾相关研究,以知识发掘的角度说明资料 仓储与资料采掘,在知识发掘的过程中所扮演的不可分割的角色,以重申资料仓储与资料采掘的整合是知识发掘的未来趋势,并进一步说明资料方体与关联规则等相关重要的观念。在第三章中,说明 统的架构,及过去的相关研究贡献。在第四章中,我们将说明 行关联规则采掘时所衍生的问题,其中如何搜寻使用者所定义的维度属性组合是本论文所欲探讨的主要问题,也是影响 统效能的关键因素。在第五章中,以三层式的阶层索引架构说明,如何 解决 体在进行关联规则采掘时的三大问题,其架构涵盖了本研究中所提出的前序树索引与 及用于判断交易属性与采掘属性的杂凑表,与如何搜寻 在第六章中我们将根据阶层索引结构中,第一层所提出的前序树索引与 行实验,阐明实验的设计与实验结果的分析。最后在第七章中,我们将根据实验结果与本研究所发现的结论,及本研究贡献与后续研究等提出参考与建议。 4 第二章 背景知识与相关研究 在本章中,我们将藉由知识发掘 的过程,说明资料采掘与资料仓储的整合,并介绍资料方体与多维度关联规则的观念,并对相关文献作逐一探讨。 识发掘 (in 一般而言,知识发掘的过程必须从大型的资料库中,找出隐含在大量资料中的有用资讯,因此知识发掘又可称为资料库采掘 ( 根据 13在 1996 年的描绘,完整的知识发掘过程如图 示,相关描述如下: 在进行知识发掘前,必须事先了解相关领域的专业知识或是相关知识,以及知识发 掘的目标或是欲发掘的知识是什么,再挑选出与知识发掘目标相关的资料,组成目标资料集,储存于资料库或是资料仓储中,而在资料的前置处理与清除中,则是将杂讯 (资料由目标资料集中移除,同时决定如何处理具有缺失或是不完整的资料,以产生干净资料,进行资料的转换与简化,产生出符合资料采掘时所需的格式资料,并依知识发掘的目的,挑选适当的资料采掘方法,进行知识发掘,找出具有意义的关联规则,或是特征、型样,再藉由视觉化的方式,呈现给使用者,最后则透过专家或学者进行评估,产生有用的知识。 图 识发 掘的流程。 资料来源: 99613。 资 料 选 择 目标资料集 前置处理 前 置资料 转 换 转换资料 资料挖掘 型 样 知 识 评 估 . 5 而有关知识发掘的定义,则以 所提出的定义最常被采用, 出知识发掘的过程应包含下列七个步骤,如图 示: 1. 资料清理 (负责去除杂讯和不一致的资料。 2. 资料整合 (将不同来源的资料进行整合。 3. 资料选择 (由资料库中粹取出与分析主题相关的资料。 4. 资料转换 (将资料晶由整合 (是汇总的动作,转换为统一格式的资料。 5. 资料采掘 (藉由资料采掘的技术粹取出资料的特征。 6. 特征评估 (藉由衡量指标,找出具有价值的特征。 7. 知识呈现 (透过视觉化的方式,呈现挖掘出的知识,提供给决策者。 图 料采掘在知识发掘流程中的步骤。 资料来源: 20013。 透过知识发掘的过程,让我们了解到资料仓储与资料采掘,乃是知识发掘的一 连串过程中的重要程序之一,藉由资料仓储处理、整合分散的资料库,再透过资料采掘找出具有意义的规则或特征,产生具有价值的知识,进而达到知识发掘的最终的目的,为企业取得决策时所需的资讯,进而增加企业的竞争力。 评估与 呈现 资料采掘 资料挑选与转换 资料整合与清除 资料仓储 资 料 库 特 征 知 识 目标资料 案 . . 6 料仓储 企业长期所累积的大量资料,往往是企业在进行决策分析时的主要资料来源,而要将庞大的资料转换为有用的资讯,必须先有效地收集资料才能由大量的资料中发掘出具有价值的资讯,而在科技发展的不断进步下,功能完善的资料库系统便成为资料收集的最佳工具,根据 1996 年 2 月提出的一份报告 指出, 95%的企业为了解决提供决策用途所需的资讯将建立资料仓储,而资料仓储最早是由 ,于 1996 年针对企业资料分散的问题所提出的概念。 察到由于企业长久累计了大量的资料,而这些资料对企业而言是极为重要的资产,除了藉由资料的纪录进行追踪稽核之外,在企业进行决策分析时,更将是最主要的资料来源,但由于缺乏完善的资料储存规划与制订一致的资料格式,企业内的资料在缺乏统一的资料来源下,造成资料分散于企业内部的情况,而导致决策者不知从何处取得,与决策分析相关的资料,或是由于引用不同的资料来源,而产生不同的分析结果。 另外当决策者进行分析时,将面临资料可能分散于不同的资讯系统,因此必须进行资料重整的问题,但繁杂的格式转换与筛选工作,将导致资料的分析处理时间过长,而无法处理具有时效性的资料,因此, 提出的资料仓储概念,将资料仓储定义为资料仓储是一个具有整合性 (主题导向(随时间变动性 (非挥发性 (资料库,用以储存决策支援系统所需的资料,供决策支援或资料分析时使用, 以协助决 策者进行决策,有关资料仓储的特性说明如下: 资料仓储是将分散在不同地方或是不同系统环境中的资料库资料,透过撷取、清理、转换、合并的处理后,在统一的格式下,储存于资料仓储中,提供给后续的分析处理使用。 7 2. 主题导向 (资料仓储是依照分析的目的所建造,因此将资料转移至资料仓储的过程中,必须将与分析目的无关的资料去除,使资料仓储中,只储存与分析目的有关的资料。 资料仓储中存放着历史性的资料,因此当资 料定期的加入资料仓储后,原先存放在资料藏储中,具有相依关系的资料,也必须跟着更新以维持资料的一致性。 资料仓储主要是用以中存放历史性的资料,因此资料仓储须定期的加入新的资料,而当资料仓储建立完成时,资料是不需要进行修改的。 有关资料仓储的架构,以 3的三层式架构来表示,如图 第一层为资料仓储伺服端:负责储存资料仓储的来源资料,关联式资料库系统内的资料或是其他外部来源的资料,透过粹取、清除、转换、载入与更新步骤, 将资料载入资料库中,并经由监督与管理,使资料仓储内的资料不被更改,并依使用者的需求,可将资料分享至资料超市 (,以利企业中的其他单位使用。 第二层为 服端:负责将多维度的资料,转换成 式,或是直接执行 操作。 第三层为前端工具:即使用者层,负责回答使用者的查询,或是藉由报表、分析工具进行资料采掘。 8 图 层式资料仓储架构。 . 资料来源: 20013。 简而言之,建置资料仓储的目 的,在于解决资料库的分散问题,以整合异质性的资料来源,提供企业一个决策分析用的环境,让决策人员能制定更好的决策,或找出企业的潜在问题,以改善企业体质并提高竞争力。 上分析处理与资料方体 线上分析处理 (称 4515,通常为资料仓储的前端使用者介面,提供使用者可以轻易地取得与分析多维度的资料,让使用者能在线上的交谈环境下,以不同的主题或是角度观察资料汇总的情形,一般而言 操作可分为:上折 (下 拉 (切片 (切资料仓储 外部资料来源 操作端资料库 粹取 清除 转换 载入 更新 监 督 管 理 资料超市 媒介资料的回应 资 料 第一层: 资料仓储伺服端。 第二层: 服端 服端 输 出 第三层: 前端工具 查询 / 回应 分 析 资 料 采 掘 9 丁 (转轴 (其中使用上折可以提升资料涵盖的范围,例如:由乡镇提升至市或县,而使用下拉则提供较详细、完整的资料,例如:由县市放大到乡镇,而切片与切丁,则是利用维度的减少,产生更小的资料方体,转轴,则是藉由不同象限的转换,提供不同的观察,例如横轴与纵轴的交换,我们以消费者(供应商 (产品 (度为例,产生如图 示的多维度资料方体,以说明多维度资料方体与 操作。 为了加速展示 作时的资料汇总结果,通常资料仓储系统会将储存于资料仓储中的资料透过筛选、分类、汇总的方式,产生所谓的多维度资料方体45151618并加以储存,因此当使用者对不同维度,下达汇总查询时,便可藉由已存在的方体,回答使用者的查询,因此我们可以将资料方体视为一种实体化的视域 121628。 此外,不同的资料方体间具有某种程度的相依性 (其意义为资料方体中,方格内的值可以藉由其他方格的计算而获得,我们藉由图 明资料方体的相依性,图 假设使用者欲查 询供应商 顾客 间的产品总销售量,因此我们由图中 (a)中的资料方体,计算出所有的供应商,与所有的顾客之间的产品销售量,产生图中 (b)的结果,再由 (b)的部分找出,符合供应商 1 之间的值,如图中 (c)所示,来回答使用者的查询,因此我们可以藉由 (b)的实体化,回答使用者的查询,而不再需要从资料表中,重新计算供应商 顾客 间的总销售量,因此能有效地降低,查询时的回应时间。 10 图 多维度资料方体与 作。 图 料 方体的相依性。 料采掘 随着企业每日不断累计的大量资料,促使企业内部分散各地的资料量快速的成长,而在大量资料的背后,往往隐含着许多有用的知识,而这些知识多半具有某种关系或特征,无法透过传统的资料库查询或是统计方法发现,于是在大量的资料分析上,产生了瓶颈,因此,如何让企业内部许多无形的资讯能够被发掘出来,便成为值得探讨的问题,为了克服此问题,藉由资讯技术的辅助,从大量的C S 2 4 3 1 S 1 3 C P 1 ( a ) ( b ) ( c ) 1 3 4 2 1 2 12 4 2 1 3 1 4 2 4 2 11 资料中不断的探索,以发掘出隐含在大量资料中的特征或规则,其发掘的过程,我们称为资料采掘或资料探勘 13。 由于不同的资料采掘方 法和技术,将产生不同的分析结果,因此 3依据挖掘出的资料特征,将资料采掘的方法区分为 五种形式:分类(趋势分析 (称预测 (分群 (关联 (循序型样 (相关说明如下: 一、分类:分类是分群中的特殊情况,必须要事先知道分类的组数,再由已存在的历史资料中,挑选已分类的历史性资料进行取样,找出取样资料的分类特征或规则,并根 据特征或规则建立模式,将未经分类或是新的资料进行分类,并将分类的结果进行排列,而呈现出树状的结构,称为决策树,而在决策树中的每一个分支,皆代表一种规则,而决策树的末端,则代表所属的组别,因此当分类的资料,符合决策树的分支特征时,我们便可藉此来预测资料所属的组别为何,如图 示,可解释为年龄大于 30 岁以上,且婚姻状态为未婚的消费者,有较大的机会申请信用卡。 图 策树示意图。 二、趋势分析:运用现有的资料来预测未来的资料,所分析的资料大多与时间有关,例如:根据公司去年的营收与成长 率预测今年的营收与成长率。 三、分群:藉由建立相似的群集,将资料进行分群,使同一群集中的资料差异最小、相似度最高,而不同群集间的差异最大、相似度最低,藉此降低资料的复杂度,找出同一群集中所具有的共同特征,如图 示,拥有较高学历工作状况 婚姻状态 年龄 30 年龄 50 图 多维度空间为例,表达 、 的查询。 在 由座标轴的范围,表示树状结构中父节点与子节点间的关系与所涵盖的资料范围, 对此我们以 例,建构传统 以三笔资料构成叶节点,而非叶节点的部份,则是由两个叶节点或非叶节点的资料范围组成,如图 示,图 表实际资料的部分,其中 (1,0,0,102),(2,0,0,84),(3,0,0,67)所组成的叶节点 ,其 1,0,0、 2,0,0、 3,0,0 是以座标轴的方式,表示资料在三维空间中的范围,而 102、 84、 67 则分别表示三笔资料在实体化视域中实际的资料,而非叶节点,则是指叶节点以上的节点,在非叶节点的产生上,可分为 二种情况: (一 ) 由叶节点产生非叶节点: 以图 1,0,0,3,0,0,*),(4,0,0,6,0,0,*)为例,由于第一个叶节点 X (Y (Z ( 23 的资料范围,介于 1,0,0,至 3,0,0,之间,因此得到非叶节点,所代表的第一个叶节点的范围为 (1,0,0,3,0,0,*),同理得到第二个叶节点的范围为 (4,0,0,6,0,0,*),而由于一个非叶节点代表二个叶节点的范围,因此产生非叶节点 (1,0,3,0,*),(4,0,5,0,*),而非叶节点中的星号 (*),则表示连结至子节点的指标 。 (二 ) 由非叶节点产生非叶节 点: 以图 1,0,5,0,*),(1,1,3,3,*)为例,由于第一个非叶节点的资料范围为 (1,0,3,0,*),(4,0,5,0,*),因此以 1,0,5,0代表第一个非叶节点的资料范围,而第二个非叶节点的资料范围为 (1,1,3,1,*),(1,3,3,3,*),因此以 4,0,5,0则代表第二个非叶节点的资料范围,因此产生一个非叶节点代表二个非叶节点的范围,以(1,0,5,0,*),(1,1,3,3,*)表示 。 图 例 ,建构 R 树。 最后,由于 此不论在新增或是删除上, 资料分布不均衡的情况下, 此搜寻时,面对不同长度的资料, 不会因资料长度的改变,而大幅增加搜寻所需的时间,但 ,0,0,102),(2,0,0,84),(3,0,0,67) (4,0,0,15),(5,0,0,24),(6,0,0,42) (1,1,0,24),(1,3,0,11),(2,2,0,6) (4,2,0,2),(5,3,0,17) (2,2,1,67),(3,1,2,20),(5,4,3,18) (1,0,0,6,0,0,*),(1,1,0,5,3,0,*) (1,0,0,3,0,0,*),(4,0,0,6,0,0,*) (1,1,0,2,2,0,*),(4,2,0,5,3,0,*) V1 2 节点 非叶节点 (1,0,0,5,3,0,*),(2,2,1,5,4,3,*) V3 24 点在于, 代表的资料范围与其它的节点间,会发生完全重复或是部分重复的现象,使得搜寻时会有重复比对的情况发生,如图 (b)所示为部分资料范围重复的情况,而 (a)所代表的,为未分隔前的原始资料, 依照传统的 生 (b)得分割结果,可发现 (b)中 点所代表的资料范围,有部分重复的情况发生,而 R*树 9便是针对节点资料范围的完全重复或部分重复问题,透过重新分割的方式,找出最佳的分割区域,所延伸出来的新方法,产生如图 c)的重新分割结果,使 点的资料范围不发生重复的现象。 图 R*树的范例。 序树 前序树是一个由 m 个分支所组成的树状结构,而在分支中的每个节点都含有符合的文字或属性,因此在前序树的资料结构中,我们可由前序树 的根节点至叶节点的路径,来代表一连串的项目集,而藉由树状结构的分支组成阶层式(架构,表示资料间部分或是全部重复的关系时,可将前序树中资料节点间的关系定义如下 12: (1) 设点 p 为前序树中的节点,若项目集 x 可出现在点 p 中,我们称 x 为点 p 的延伸,以 px表示,例如:设点 p 为 目集 x 为 a,则 a 出现在点p 中,因此我们称 a 为 延伸,以 a表示。 (2) 设 q 为 p 的子节点,以 q= px表示,当项目集 x 出现在 p 的子节点 q 中时,我们称 x 为 q 的候选延伸 ( (a) (b) 2 2 (c) 25 而前序树的主要问题在于其树状结构缺乏弹性,由于前序树的树状结构中,其分支是用来表示符合的文字或属性,因此当大部分的文字或属性都只出现一次的情况时,在建制前序树上将造成一个分支庞大的树状结构,而使前序树在进行搜寻时,无法有效降低搜寻所需的时间与资料比对的次数,由此可发现,在前序树的建置过程中,资料的长度将决定前序树在搜寻时的效能表现。 26 第三章 统架构 在本章中,我们将介绍, 系统架构,及过去相关的研究贡献,并说明 本篇论文所探讨的多维度索引,如何应用于 统中,最后以资料表为例,说明 体与辅助资料方体。 统架构 我们在过去的研究中,提出关联规则采掘资料方体 ( 辅助资料方体 (概念,藉由和已知的 料方体相结合,形成一套线上多维度关联规则采掘系统 (简称为12627,其系统架构如图 示。 图 上多维度关联规则采掘系统( 构图。 有关 统中,各部份的描述如下: 联规则采掘资料方体与辅助资料方体 在 统中,苏家辉等 26,藉由系统预设的最小支持度与 算法产生切割层 (方式,提出了 体与辅助方体的新概念,用以提升 统的效率表现,其中透过系统预设的最小支持度 (将系统中的资料,区分为频繁项目集 (某一特定长度的非频繁项目集 (并将所有频繁项目集的部分储存于 体中,资料方体管理型样 掘引擎 资料仓储 体 体 介型样 辅助方体 27 而辅助资料方体则是储存某一特定长度所在的非频繁项目集部分,有关 要负责储存符合系统预设的最小支持度下,所有的频繁项目集。以图 设系统中的项目集长度介于 1至 5之间,因此长度 1至 5之间所有符合系统预设的最小支持度下,所产生的频繁项目集,均会被储存 于 当使用者下达查询时,若使用者所订定的最小支持度 (于或等于系统预设的最小支持度时,便可藉由已存在于 合不同的信赖度产生出符合的关联规则,如此便可减少 图 目集金字塔与切割层 ( =3)。 由于 体,所储存的频繁项目集,涵盖了 所有维度属性组合,因此在多维度关联规则的采掘上,依查询时所对应的不同维度属性组合, 体可衍生成: - 维度内的关联规则方体 ( - 维度间的关联规则方体 ( - 混合式的关联规则方体 ( 由于资料方体是以多维度的方式进行储存,因此在资料方体内藉由不同维度属性的组合,可以涵盖许多不同的关联规则,而 体或是冰山方体,由于方体中的资料范围只涵盖了部分的维度属性,因此 体或是冰山方体,在进行关联规则的采掘时,将只可 采掘出维度内或是维度间的关联规则,而由于体的资料范围,则涵盖了资料库纲要中的所有维度属性,因此在挖掘关联规则时,便可挖掘出维度内、维度间与混合式的关联规则,对此我们以 表 =3) 28 资料表为例,说明 维度内、维度间与混合式的关联规则与 体及辅助方体间的关系,其说明如下: 度内的关联规则资料方体 以 为交易属性, 为采掘属性则表 对应的交易资料表如表 示,设系统预设的最小 支持度为 50% ( 0%),在切割层为长度 2 的情况下, 依 维度内关联规则所产生的 体如 图 示: 表 星状纲要所产生的三维关联资料表。 A:B:C:D:E: . 2001/01/12 B 21 1 2001/01/12 C 21 1 2001/01/12 D 21 1 2001/01/12 E 21 1 2001/01/23 A 21 1 2001/01/23 B 21 1 2001/01/23 C 21 2 2001/02/01 B 31 2 2001/02/01 C 31 2 2001/02/01 D 31 4 2001/03/16 A 0 4 2001/03/16 D 0 3 2001/03/16 A 41 3 2001/03/16 B 41 3 2001/03/16 D 41 2 2001/08/09 C 31 2 2001/08/09 D 31 2 2001/08/09 E 31 4 2001/08/09 B 0 4 2001/08/09 D 0 4 2001/08/09 E 0 3 2001/09/25 B 41 3 2001/09/25 C 41 3 2001/09/25 E 41 1 2001/09/26 B 21 1 2001/09/26 D 21 1 2001/09/26 E 21 2 2001/10/12 B 31 2 2001/10/12 C 31 2 2001/10/12 D 31 2 2001/10/12 E 31 料来源:本实验资料。 29 由图 ,可以发现,在长度 1 的项目集中,由于 A的支持度只有 3 次,并未达到系统预设的 50%,因此将项目集 A删除,由剩余的频繁项目集BCDE , 产 生 长 度 2 的 项 目 集 合 得 到 ,B,CB,DB,EC,DC,ED,E,而在长度 2 的频繁项目集中,由于 C,D与C,E并未符 合系统预设的最小支持度 (0%),且在切割层为长度 2 的情况下,因此将 C,D与 C,E储存于辅助方体中,并由 B,CB,DB,ED,E,产生长度 3 的频繁项目集,由于长度 3 的频繁项目集中,并未有大于系统最小支持度 (0%)的频繁项目集,因此将长度 2 的频繁项目集,储存于 体中。此范例的维度内 体与辅助方体整理如表 图 度内的 体与辅助方体。 与 B,C B,D B,E C,D C,E 5 6 5 4 4 5 A B C D E 3 8 6 8 6 维度内的 体 维度内的辅助方体 3 3 4 C D E C E 6 8 6 6 5 5 5 表 维度内的 体 (B”) (E”) 资料来源:本实验资料。 30 由表 储存的频繁项目集 在配合最小信赖度的情况下,可产生出(B”) (E”)的关联规则,其意义为顾客在购买产品 B 的同时,也倾向于购买产品 E。 度间的关联规则资料方体 以 作为采掘属性,在系统预设的最小支持度为30%( 0%)的情况下, 依维度间的 关联规则所产生的 体如 表 由表 31,在配合最小信赖度的情况下,可产生 (31(D”)的关联规则, 其意义为年龄在 31向于购买产品 D。 D 4 - A B C D E B C D 3 3 7 6 8 5 3 3 3 11 - - - - 211131(D”) 表 维度内的辅助方体 表 维度间的 体 资料来源:本实验资料。 资料来源:本实验资料。 31 合式的关联规则资料方体 以 为 交易属性, 为采掘属性,对应的交易资料表在系统预设的最小支持度为 30% ( 0%)的情况下, 以 混合式的关联规则为主,所产生 的 体如 表 表 合式的 体 (,(31(C”) (D”) 资料来源:本实验资料。 由表 的频繁项目集中,在配合最小信赖度的情况下,可衍生出(,(31,(C”) (D”)的关联规则,并可解释成,居住在 区,年龄在 31的顾客,在购买产品 C 的情况下,倾向于购买产品 D。 A 3 B 7 C 6 D 8 E 5 - 3 - 3 - 3 B 3 C 3 D 3 B 3 C 3 D 3 - 3 - 3 B 3 C 3 D 3 C,D 3 - - - - - - - - - - 21 - 31 - - 1 - 31 - 31 - - 1 1 1 1 1 1 32 虽然 体,对频繁项目集的预存方式可缩短系统在进行关联规则采掘时所需的回应时间,但当 , 体便无法发挥预处理的效果,缩短系统在关联规则采掘上所需的时间,对此, 统在 情况时,会将 算法中切割层所在的非频繁项目集,储存于辅助资料方体内。 以图 例,切割层位于长度为 3( =3)的项目集合上,因此辅助资料方体,将负责储存所有长度为 3 的非频繁项目集,当使用者查询时的情况为 , 辅助资料方体 中所储存的非频繁项目集,便可与 体相配合,解决 情况下,无法涵盖所有频繁项 目集的问题。 料方体管理型样 (、 介模组 ( 掘引擎 (料方体管理型样 当资料随时间而改变时,负责维护 辅助和 料方体内,资料的正确性与一致性,有关资料方体管理型样的工作,可分为三个部分: 一、 资料方体的挑选 (如何在有限空间与维护成本最小的限制下挑选出最适当的资料方体进行实体化。 二、 资料方体的计算 (在资料方体挑选后 ,进行资料方体的实体化,产生实体化的资料方体。 三、 资料方体的维护 (当资料仓储中的资料更新时,如何维护已实体化的资料方体。 介模组与 掘引擎 当使用者下达查询时, 掘引擎便会对使用者所下达的查询,进行分析,将使用者所定义的最小支持度、最小信心门槛值,以及希望采掘的维度属性等相关资讯,传送给 介模组,由 介模组,找出最适合回答的资料方体,传回给 掘引擎,以便呼叫适当的演算法进行关联规则的采掘。 当 介模组收到 使用者下达查询时,首先藉由系统预设的最小门槛 33 值进行判断,当查询得门槛值大于系统预设的最小门槛值时,则对 料方体进行分析,找出适合采掘的资料方体回传给 掘引擎;另一方面当查询的门槛值小于系统预设的最小门槛值时,便由辅助资料方体进行采掘;最后,当系统所涵盖的 助或 料方体,均无法提供所需的资料时,便会重新对资料仓储进行资料采掘的处理。 关研究贡献 由本实验室所提出的 统,在历经几年的不断努力与研究下,相关研究贡献整理如下: 民国 90 年,苏家辉 26,首度提出 辅助方体的资料结构概念,并与 体相结合,形成线上多维度关联规则采掘系统 (系统架构,同时提出 由 算法,负责在线上的环境下,进行频繁项目集的产生,而 算法则是负责 辅助方体的建置。而民国 91 年,张耀升 11,针对线上环境中,利用 料方体进行关联规则的采掘时,所面临到的空间有限问题,提出一查询成本的估算方式,期望在有限的储存空间限制下,挑选出最佳的 料方体进行实体化,进而达到关联规则 的采掘。民国 92 年,王敏峰 27,则针对线上关联规则采掘的资料方体,在结合 正向与后向的贪婪挑选法下, 提出一查询成本的估算方式,期望在有限的储存空间限制下,挑选出最佳的 体进行实体化,以缩短查询所需的时间。民国 92 年,王瀚威 , 针对 体的全部挑选或部份挑选,发展出一套产生 体的演算法,以便达到有效且快速地计算并产生 体。 34 第四章 问 题 描 述 在本章中,我们将针对 体在进行关联规则采掘时,所须克服的三大问题进行描述,并以晶格结构为工具表现不同维度属性组合下, 体与资料仓储纲要中维度属性组合的相依性。 题描述 在关联规则的采掘过程中最小支持度的计算,需要对资料库进行反复扫描的资料比对,而产生庞大的资料比对与时间成本,对此在 统的设计上,我们透过预设最小支持度的方式,将关联规则采掘过程中需要大量运算的资料库扫描以预处理的方式预先完成,并将所有维度属性组合下的频繁项目集预储于体中,因此在使用者查询时便可透过已预处理的 体,回答使用者的查询,而不须等待使用者查询时再进行资料库的扫描,而使 统能达到线上即时回复的目 的,但由于 体的资料范围,涵盖了资料仓储纲要中所有维度属性的配对组合,因此,在不同的属性组合下将衍生出数目庞大的 体,而使 统在包含大量的 体情况下,处理使用者所下达的查询时,面临如何有效、快速地由大量属性组合中,依据使用者的查询找出相对应的属性组合问题,而在找出使用者所定义的属性组合后,便可依属性组合所对应的相关资料产生资料方体,而避免了处理大量属性及所属的资料时所花费的资料比对与时间成本,因此属性组合的搜寻将成为影响 统效能的关键因
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东省深圳实验学校高中部2025届高二化学第二学期期末联考试题含解析
- 忻州一中2025届高一化学第二学期期末检测模拟试题含解析
- 2025届重庆市普通高中化学高一下期末教学质量检测模拟试题含解析
- 2025届安徽省安庆市达标名校高一化学第二学期期末联考试题含解析
- 广西蒙山县一中2025届高一下化学期末达标检测试题含解析
- 冶金设备安全管理办法
- 供电企业信条管理办法
- 桃江人才引进管理办法
- 凤庆文庙保护管理办法
- 公寓管理办法思路方法
- 餐车经营食品安全应急预案
- DB43T 876.11-2017 高标准农田建设 第11部分:耕地地力评定技术规范
- 全国中医药职业教育技能大赛针灸推拿技能大赛方案
- 2024新版(外研版三起孙有中)三年级英语上册单词带音标
- 2024至2030年中国汉白玉石雕数据监测研究报告
- 三年级下册混合计算题100道及答案
- DB12T 998-2020 殡葬服务机构消毒卫生规范
- 广东省广州市五校2023-2024学年高一下学期期末联考化学试卷
- 2024年天津高考数学真题试题(原卷版+含解析)
- 《大数据分析技术》课程标准
- 最简单封阳台安全免责协议书
评论
0/150
提交评论