




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章现代数据挖掘技术与发展 本章学习目标 1 通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构 2 通过现代挖掘技术及应用的学习掌握规则型 神经网络型 遗传算法型 粗糙集型和决策树型现代挖掘技术 3 通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构 运用中的问题和知识挖掘的价值 4 经过数据挖掘技术的发展的学习了解文本挖掘 Web挖掘 可视化数据挖掘 空间数据挖掘和分布式数据挖掘 1 现代数据挖掘技术与发展 6 1知识挖掘系统的体系结构6 2现代挖掘技术及应用6 3知识发现工具与应用6 4数据挖掘技术的发展练习 2 6 1知识挖掘系统的体系结构 6 1 1知识发现的定义 知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术 所抽取的信息是隐含的 未知的 并且具有潜在应用价值 知识发现可看成是一种有价值信息的搜寻过程 它不必预先假设或提出问题 仍然能够找到那些非预期的令人关注的信息 这些信息表示了不同研究对象之间的关系和模式 它还能通过全面的信息发现与分析 找到有价值的商业规则 知识发现意味着在数据仓库或数据集市的几千兆 几万兆字节数据中寻找预先未知的商业模式与事实 6 1 2知识发现系统的结构知识发现系统的结构由知识发现系统管理器 知识库 商业分析员 数据仓库的数据库接口 数据选择 知识发现引擎 知识发现评价和知识发现描述等部分组成 图6 1 3 4 1 知识发现系统管理器控制并管理整个知识发现过程2 知识库和商业分析员知识库包含了源于各方面的知识 商业分析员要按一种有效的方式指导关注信息的发现 3 数据仓库的数据库接口知识发现系统的数据库接口可以直接与数据仓库通信 4 数据选择确定从数据仓库中需要抽取的数据及数据结构5 知识发现引擎将知识库中的抽取算法提供给数据选择构件抽取的数据6 发现评价有助于商业分析员筛选模式 选出那些关注性的信息7 发现描述发现 评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用 并保持知识发现与管理人员的通信 5 6 2现代挖掘技术及应用 6 2 1规则型现代挖掘技术及应用1 关联规则的基本概念 buys x computer buys x finacial management software age 30 40 income 42000 50000 buys x high resolution TV 布尔关联规则量化关联规则单维规则多维关联多层关联规则单层关联规则age 30 40 buys x IBMcomputer 6 3 age 30 40 buys x computer 6 4 6 2 关联规则的应用目标置信度或正确率可以定义为 6 5 覆盖率可以定义为 兴趣度 为目标的关联规则 7 3 关联规则的算法Apriori算法1 找出所有支持度大于最小支持度的项集 这些项集称为频集 包含k个项的频集称为k 项集 2 使用第1步找到的频集产生所期望的规则 Apriori算法的第1步采用了递归方法 算法表示为L1 large1 itemsets 产生频繁1项集L1for k 2 Lk 1 k do 循环产生频繁2项集L2直到某个r使Lr为空beginCk apriori gen Lk 1 产生k 项集的候选集foralltransactionst DdobeginCt subset Ck t 事务t中包含的候选集forallcandidatesc Ctdoc count endLk c Ck c count minsup endAnswer UkLk 8 第2步算法较为简单 如果只考虑规则的右边只有一项的情况 给定一个频集Y I1 I2 I3 Ik k 2 Ij I 那么只有包含集合 I1 I2 I3 Ik 中的项的规则最多有k条 这种规则形如I1 I2 I3 Ii 1 Ii 1 Ik Ii 这些规则置信度必须大于用户给定的最小置信度 9 由L2产生C3L3 10 4 关联规则的应用 前件和后件规则中的正确率和覆盖率规划覆盖率和正确率的平衡 11 6 2 2神经网络型现代挖掘技术 1 神经网络及其学习方法神经网络的工作过程主要分两个阶段 学习阶段和工作阶段 学习方式则有三种 有教师 监督 学习 无教师 监督 学习和强化学习 12 6 2 2神经网络型现代挖掘技术 2 基于神经网络的数据挖掘 1 基于自组织神经网络的数据挖掘技术一种无教师学习过程 可以提取一组数据中的重要特征或某种内在知识 2 模糊神经网络类型数据挖掘技术模糊BP网络 模糊Kohonen聚类网络 模糊推理网络 模糊ART模型等模糊BP网络中 样本的希望输出值改为样本相对各类的希望隶属度输出表达方面实现了模糊化 而且将样本的隶属度引入了权系数的修正规则中 使权系数的修正规则也实现了模糊化 13 6 2 2神经网络型现代挖掘技术 3 后向传播模型 BP BackPropagation 及其算法具体过程如下 选定p个样本 权值初始化 随机生成 依次输入样本 依次计算各层的输出 求各层的反传误差 按权值调整公式修正各权值和阀值 按新权值计算各层的输出 直到误差小于事先设定阀值 变换函数可以采用这样几种 阶跃函数 S型函数 比例函数 符号函数 饱和函数 双曲函数 14 6 2 2神经网络型现代挖掘技术 4 神经网络的应用 15 6 2 3遗传算法型现代挖掘技术 1 遗传算法的基本原理达尔文的 适者生存 理论 继承的信息由基因携带 多个基因组成了染色体 基因座 等位基因 基因型和表现型染色体对应的是一系列符号序列 通常用0 1的位串表示进行生物的遗传进化 在这一过程中包括三种演化操作 在父代基因群中的双亲选择操作 两个父代双亲产生子代基因的交叉操作和在子代基因群体中的变异操作 两种数据转换 从表现型到基因型的转换 另一种是从基因型到表现型的转换遗传算法实质上是一种繁衍 检测和评价的迭代算法最大优点是问题的最优解与初始条件无关 而且搜索最优解的能力极强 16 6 2 3遗传算法型现代挖掘技术 2 遗传算法的处理过程 1 编码并生成祖先群体要用遗传算法解决问题 首先要定义有待解决的问题 F f a b c F R a b c F f a b c 是属于实数域R的一个实数 也是每一组解 ai bi ci 的适应度的度量 算法的目标是找一个 ao bo co 使F f ao bo co 取最大值 2 计算当前基因群体中所有个体的环境适合度 3 用适应函数评价每一个体对环境的适应度 4 选择适应度好的生物个体进行复制 5 选择适应度好的生物个体进行复制交叉配对繁殖 6 新生代的变异操作 17 6 2 3遗传算法型现代挖掘技术 18 6 2 3遗传算法型现代挖掘技术 3 遗传算法的应用用四个染色体来定义客户类型 基因1 客户的年龄下限基因2 客户的年龄上限基因3 客户的收入水平基因4 客户的人口状况 人口状况可以分成 少 1至2人 一般 3至4人 和多 5人以上 三种状况 19 6 2 3遗传算法型现代挖掘技术 所有的生物个体按顺序排放在一张二维表格上 使每个生物体的上 下 左 右都与其它生物体相邻接 1 竞争复制 2 杂交繁殖 3 异变处理 20 6 2 4粗糙集型现代挖掘技术 1 粗糙集技术2 粗糙集的应用表中的970230 980304 990211客户的 赞扬竞争对手的产品 属性是相似的 980304 990327客户的 挑选产品时间很长 和 客户流失 属性是相似的 970230 990211客户的 赞扬竞争对手的产品 挑选产品时间很长 和 距最后一次销售时间 属性是相似的 这样 围绕 赞扬竞争对手的产品 属性就可以产生两个初等集合 970230 980304 990211 和 970102 980625 990327 而 赞扬竞争对手的产品 和 挑选产品时间很长 属性可以生成三个初等集合 970102 980625 990327 970230 990211 和 980304 21 6 2 4粗糙集型现代挖掘技术 因为客户970230已经流失 而客户990211没有流失 由于属性 赞扬竞争对手的产品 挑选产品时间很长 和 距最后一次销售时间 是相似的 因此 客户流失不能以属性 赞扬竞争对手的产品 挑选产品时间很长 和 距最后一次销售时间 作为特征进行描述 而970230 990211就是边界实例 即它们不能根据有效知识进行适当的分类 余下的客户970102 980304和990327所显示的特征 可以将他们确定为已经流失的客户 当然 也不能排除970230和990211已经流失 而980625毫无疑问没有流失 所以客户集合中 流失 的下近似集合是 970102 980304 990327 上近似集合是 970102 970230 980304 990211 990327 同样 980625没有流失 但是不能排除970230和990211流失 因此 客户 没有流失 概念的下近似是 980625 上近似是 970230 980625 990211 22 6 2 5决策树型现代挖掘技术 1 决策树技术ID3 该算法建立在推理系统和概念学习系统的基础之上 基本步骤是 1 创建一个节点 如果样本都在同一类 则算法停止 把该节点改成树叶节点 并用该类标记 2 否则 选择一个能够最好的将训练集分类的属性 该属性作为该节点的测试属性 3 对测试属性中的每一个值 创建相应的一个分支 并据此划分样本 4 使用同样的过程自顶向下的递归 直到满足下面的三个条件中的一个时 就停止递归 a 给定节点的所有样本都属于同一类 b 没有剩余的属性可以用来进一步划分 c 继续划分得到的改进不明显 23 6 2 5决策树型现代挖掘技术 1 决策树技术信息增益被定义为原始分割的熵与划分以后各分割的熵累加得到的总熵之间的差 信息增益是指划分前后进行正确预测所需的信息量之差 选择具有最高信息增益的属性作为当前节点的测试属性 一个给定的样本分类所需要的期望信息为由A划分成子集的熵或期望信息是 24 6 2 5决策树型现代挖掘技术 1 决策树技术为第j个子集的权 等于子集 A值为aj 中的样本数除以S中的样本数 对于给定的子集Sj I s1j s2j smj 可用下式计算是Sj中的样本属于类Ci的概率由A划分的信息增益是Gain A I s1 s2 sm E A 25 6 2 5决策树型现代挖掘技术 2 决策树的应用 26 6 2 5决策树型现代挖掘技术 27 6 2 5决策树型现代挖掘技术 年龄 在各个属性中具有最大的信息增益 所以选择 年龄 属性作为第一个测试属性 创建一个节点 用 年龄 标记 计算剩余各个属性的相应的信息增益 选择信息增益最大的属性作为测试属性 这时信息增益最大的是 学生 属性 创建一个节点 用 学生 标记 28 6 3知识发现工具与应用 6 3 1知识挖掘工具的系统结构1 无耦合 nocoupling DM系统不利用DB或DW系统的任何功能2 松散耦合 loosecoupling DM系统将使用DB DW的某些工具3 半紧密耦合 semitightcoupling DM系统连接到一个DB DW系统 一些基本数据挖掘原语可以在DB DW系统中实现 4 紧密耦合 tightcoupling DM系统被平滑地集成到DB DW系统中 29 6 3知识发现工具与应用 6 3 2知识挖掘工具运用中的问题1 数据挖掘技术应用中的共性问题 1 数据质量 2 数据可视化 3 极大数据库 vLDB 的问题 4 性能和成本 5 商业分折员的技能 6 处理噪声和不完全数据 7 模式评估 兴趣度问题 30 6 3知识发现工具与应用 6 3 2知识挖掘工具运用中的问题2 数据挖掘技术应用中的个性问题 1 规则归纳应用中的问题主要用于显式描述数据抽取的规则 找到所有的规则 工作量是巨大的 2 神经网络应用中的问题受训练过度的影响 神经网络的训练速度问题 3 遗传算法应用中的问题 31 6 3知识发现工具与应用 6 3 3知识挖掘的价值1 了解商业活动2 发现商业异常3 预测模型6 3 4现代数据挖掘工具简介1 DBMiner的体系结构2 DBMiner的数据挖掘类型 32 6 4数据挖掘技术的发展 6 4 1文本挖掘1 文本分析和语义网络 文本分析 语义网络2 文本挖掘 文本总结 基于关键字的关联分析 文档分类分析 文档聚类分析 文本挖掘的应用 33 6 4数据挖掘技术的发展 6 4 2Web挖掘技术1 Web的特点2 Web内容挖掘 基于文本信息的挖掘 基于多媒体信息的挖掘3 Web结构挖掘4 Web使用记录的挖掘 数据预处理阶段 模式识别阶段 模式分析阶段5 Web数据挖掘的应用 34 6 4数据挖掘技术的发展 6 4 3可视化数据挖掘技术1 数据的可视化2 可视化数据挖掘技术 数据可视化 数据挖掘结果可视化 数据挖掘过程可视化 交互式可视化数据挖掘 35 6 4数据挖掘技术的发展 6 4 4空间数据挖掘1 地理信息系统 地理信息系统概念 地理信息系统的特点2 数据挖掘技术和地理信息系统相结合3 地理信息系统的数据挖掘特点 图形化数据挖掘 图形化统计查询 图形化报表输出 专业的地理分析功能4 空间数据挖掘5 空间数据挖掘用途 36 6 4数据挖掘技术的发展 6 4 5分布式数据挖掘1 分布式数据挖掘2 适合水平式数据划分的分布式挖掘方法 37 6 4数据挖掘技术的发展 6 4 5分布式数据挖掘3 适合垂直式数据划分的分布式数据挖掘方法 38 练习 1 知识挖掘系统的结构包括哪几个部分 它们是如何相互配合完成知识发现的 2 现有某企业的员工数据库 数据已经概括处理 其中的合计数为对应所给定的部门 职务 年龄和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 东航空姐岗前培训考试及答案解析
- 化学药品分类体系
- 视障的体育教学课件
- 教学课件的使用说明
- 新疆三类安全员b证考试题库及答案解析
- 烧伤科护理查房
- 青柠直播运营工作总结
- 看教学课件的软件
- 全球战略方向护理和助产
- 运输企业安全培训计划表课件
- 第2课《中国人首次进入自己的空间站》课件-2025-2026学年统编版语文八年级上册
- 罗茨风机检修方案课件
- 2025年青协社团笔试题目及答案
- 光伏电站智能监控系统建设方案
- 儿童户外安全培训课件
- 供水工程成本预算与动态控制方案
- 护栏供应及安装合同范本
- 2025年反假货币试题题库及答案
- 现房与期房培训课件
- 2024年仙桃市高新技术产业投资有限公司招聘笔试真题
- 汽车知识培训讲师简介课件
评论
0/150
提交评论