免费预览已结束,剩余12页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 目录 第 1 章 数据挖掘基本理论 1 1 1 数据挖掘的产生 1 1 2 数据挖掘的概念 2 1 3 数据挖掘的步骤 3 第 2 章 系统分析 3 2 1 系统用户分析 3 2 2 系统功能分析 4 2 3 系统算法分析 4 第 3 章 数据管理 5 3 1 数据管理的方法 5 第 4 章 数据采集 6 4 1 数据采集的方法 6 第 5 章 数据预处理 6 5 1 数据预处理的方法 6 第 6 章 数据挖掘 6 6 1 算法描述与流程图 6 6 1 1 算法描述 6 6 1 2 算法流程图 8 第 7 章 结果显示与解释评估 8 7 1 结果显示界面的具体实现 8 7 1 1 系统主界面的具体实现 9 7 1 2 超市销售记录界面的具体实现 9 7 1 3 数据采集界面的具体实现 10 7 1 4 挖掘条件界面的具体实现 11 7 1 5 数据挖掘界面的具体实现 12 7 1 6 帮助界面的具体实现 13 7 1 7 系统主界面运行后显示的结果 13 学习体会 14 参考文献 15 2 第 1 章 数据挖掘基本理论 1 1 数据挖掘的产生 随着计算机硬件和软件的飞速发展 尤其是数据库技术与应用的日益普及 人们面临着快速扩张的数据海洋 如何有效利用这一丰富数据海洋的宝藏为人 类服务业已成为广大信息技术工作者的所重点关注的焦点之一 与日趋成熟的 数据管理术与软件工具相比 人们所依赖的数据分析工具功能 却无法有效地 为决策者提其决策支持所需要的相关知识 从而形成了一种独特的现象 丰富 的数据 贫乏知识 为有效解决这一问题 自二十世纪年代开始 数据挖掘技 术逐步发展来 数据挖掘技术的迅速发展 得益于目前全世界所拥有的巨大数 据资源以及对这些数据资源转换为信息和知识资源的巨大需求 对信息和知识 的需求来自各行业 从商业管理 生产控制 市场分析到工程设计 科学探索 等 数据挖掘可以为是数据管理与分析技术的自然进化产物 如图 1 1 所示 自八十年到中期开始 关系数据库技术被普遍采用 新一轮研究与开发新 型强大的数据库喜用悄然兴起 并提出了许多先进的数据模型 扩展关系模型 面向对象模型 演绎模型等 以及应用数据库系统 空间数据库 时序数据库 多媒体数据库等 日前异构数据库系统和基于互联网的全球信息系统也已开始 出现并在信息工业中开始扮演重要角色 数数据据收收集集与与数数据据库库创创建建 60年代或更早 基础文件处理 新新一一代代信信息息系系统统 2000年之后 数数据据库库管管理理系系统统 70年代 网络和关系数据库系统 数据建模工具 索引和数据组织技术 查询语言和查询处理 用户界面和优化方法 在线事务处理 先先进进数数据据库库系系统统 80年代中期至今 先进数据模型 扩展关系 面向对象 对象关系 面向应用 空间 时间 多媒 体 知识库 数数据据仓仓库库和和数数据据挖挖掘掘 80年代后期至今 先进数据模型 扩展关系 面向对象 对象关系 面向应用 空间 时间 多媒 体 知识库 图 1 1 数据挖掘进化过程示意描述 3 1 2 数据挖掘的概念 数据挖掘 Data Mining 简称 DM 简单地讲就是从大量数据中挖掘或抽 取出知识 数据挖掘概念的定义描述有若干版本 一下给出一个被普遍采用的 定义描述 数据挖掘 又称为数据库中知识发现 Knowledge Discovery from Database 简称 KDD 它是一个从大量数据中抽取挖掘出未知的 有价值的模 式或规律等知识的复杂过程 1 3 数据挖掘的步骤 整个知识挖掘 KDD 过程是有若干挖掘步骤组成的 而数据挖掘近视其中 的一个主要步骤 整个知识挖掘的主要步骤有 数据清洗 data clearning 其作用就是清除数据噪声和与挖掘主题明显 无关的数据 数据集成 data integration 其作用就是将来自多数据源中的相关数据 组合到一起 数据转换 data transformation 其作用就是将数据转换为易于进行数 据挖掘的数据存储形式 数据挖掘 data mining 它是知识挖掘的一个基本步骤 其作用就是利 用智能方法挖掘数据模式或规律知识 模式评估 pattern evaluation 其作用就是根据一定评估标准 interesting measures 从挖掘结果筛选出有意义的模式知识 知识表示 knowledge presentation 其作用就是利用可视化和知识表达 技术 向用户展示所挖掘出的相关知识 尽管数据挖掘仅仅是整个知识挖掘过程中的一个重要步骤 但由于目前工 业 界 媒体 数据库研究领域中 数据挖掘 一词已被广泛使用并被普遍接受 因此本书也广义地使用 数据挖掘 一词来表示整个知识挖掘过程 即数据挖 掘就是一个从数据库 数据仓库或其它信息资源库的大量数据中发掘出有趣的 知识 4 第 2 章 系统分析 2 1 系统用户分析 利用数据挖掘技术可以帮助获得决策所需的多种知识 在许多情况下 用 户并不知道数据存在哪些有价值的信息知识 因此对于一个数据挖掘系统而言 它应该能够同时搜索发现多种模式的知识 以满足用户的期望和实际需要 此 外数据挖掘系统还应能够挖掘出多种层次 抽象水平 的模式知识 数据挖掘 系统还应容许用户指导挖掘搜索有价值的模式知识 比如 作为一个商场主管 肯定想要知道商场顾客的购物习惯 尤其是希望了解在 一次 购物过程中 那些商品会在一起被 顾客所 购买 为帮助回答这一问题 就需要进行市场 购物分析 即对顾客在商场购物交易记录数据进行分析 所分析的结果将帮助 商场主管制定有针对性的市场营销和广告宣传计划 以及编撰合适的商品目录 比如 市场购物分析结果将帮助商家对商场内商品应如何合理摆放进行规划设 计 其中一种策略就是将常常一起购买的商品摆放在相邻近的位置 以方便顾 客同时购买这两件商品 如 如果顾客购买电脑的同时常也会购买一些金融管 理类软件 那么将电脑软件摆放在电脑硬件附近显然将有助于促进这两种商品 的销售 而另一种策略则是将电脑软件与电脑硬件分别摆放在商场的两端 这 就会促使顾客在购买两种商品时 走更多的路从而达到诱导他们购买更多商品 的目的 比如 顾客在决定购买一台昂贵电脑之后 在去购买相应金融管理软 件的路上可能会看到安全系统软件 这时他就有可能购买这一类软件 市场购 物分析可以帮助商场主管确定那些物品可以进行捆绑减价销售 如一个购买电 脑的顾客很有可能购买一个捆绑减价销售的打印机 2 2 系统功能分析 我们组所开发的超市销售记录数据挖掘系统是采用关联规则挖掘的方法来 挖掘出商家希望得到的销售信息 关联规则挖掘就是从大量的数据中挖掘出有 价值描述数据项之间相互联系的有关知识 我们开发的超市销售记录数据挖掘 系统主要应用就是市场购物分析 根据被放到一个购物袋的 购物 内容记录 数据而发现的不同 被购买 商品之间所存在的关联知识无疑将会帮助商家分 析顾客的购买习惯 如图 所示 发现常在一起被购买的商品 关联知识 将 帮助商家制定有针对性的市场营销策略 比如 顾客在购买牛奶时 是否也可 能同时购买面包或会购买哪个牌子的面包 显然能够回答这些问题的有关信息 肯定会有效地帮助商家进行有针对性的促销 以及进行合适的货架商品摆放 如可以将牛奶和面包放在相近的地方或许会促进这两个商品的销售 将商场所有销售商品设为一个集合 每个商品 item 均为一个取布尔值 真 假 的变量以描述相应商品是否被 一个 顾客购买 因此每个顾客购物 袋 就可以用一个布尔向量来表示 分析相应布尔向量就可获得那些商品是 在一起被购买 关联 的购物模式 如顾客购买电脑的同时也会购买金融管理 软件的购物模式就可以用以下的关联规则来描述 computer financial management software support 2 confidence 60 关联规则的支持度 support 和信任度 confidence 是两个度量有关规 则趣味性的方法 它们分别描述了一个被挖掘出的关联规则的有用性和确定性 5 规则的支持度为 2 就表示所分析的交易记录数据中有交易记录同时包含电脑 和金融管理软件 即在一起被购买 规则的 60 信任度则表示有 60 的顾客在 购买电脑的同时还会购买金融管理软件 通常如果一个关联规则满足最小支持 度阈值 minimum support threshold 和最小信任度阈值 minimum confidence threshole 那么就认为该关联规则是有意义的 而用户或专家可 以设置最小支持度阈值和最小信任度阈值 2 3 系统算法分析 设 I i1 i2 im 为数据项集合 设为与任务相关的数据集合 也就是 一个交易数据库 其中的每个交易 T 是一个数据项子集 即 T 包含于 I 每个 交易均包含一个识别编号 TID 设 A 为一个数据项集合 当且仅当 A 包含于 T 时就称交易 T 包含 A 一个关联规则就是具有 A B 形式的蕴含式 其中有 A 包含于 I B 包含于 I 且 A B UNLL 规则 A B 在交易数据集 D 中成立 且 具有 s 支持度和 c 信任度 这也就意味着交易数据集 D 中有 s 比例的交易 T 包 含 A B 数据项 且交易数据集 D 中有 c 比例的交易 T 满足 若包含 A 就包含 B 条件 具体描述就是 support A B P A B confidence A B P B A 满足最小支持度阈值和最小信任度阈值的关联规则就称为强规则 strong 通常为方便起见 都将最小支持度阈值简写为 min sup 最小信任度阈值简写 为 min conf 这两个阈值均在 0 到 100 之间 而不是 0 到 1 之间 一个数据项的集合就称为项集 itemset 一个包含 k 个数据项的项集就 称为 k 项集 因此集合 computer financial management software 就是一 个 2 项集 一个项集的出现频度就是整个交易数据集 D 中包含该项集的交易记 录数 这也称为是该项集的支持度 support count 而若一个项集的出现频 度大于最小支持度阈值乘以交易记录集 D 中记录数 那么就称该项集满足最小 支持度阈值 而满足最小支持度阈值所对应的交易记录数就称为最小支持频度 minmum support count 满足最小支持阈值的项集就称为频繁项集 frequent itemset 所有频繁 k 项集的集合就记为 Lk 挖掘关联规则主要包含以下二个步骤 步骤一 发现所有的频繁项集 根据定义 这些项集的频度至少应等于 预先设置的 最小支持频度 步骤二 根据所获得的频繁项集 产生相应的强关联规则 根据定义这些 规则必须满足最小信任度阈值 此外还可利用有趣性度量标准来帮助挖掘有价值的关联规则知识 由于步 骤二中的相应操作极为简单 因此挖掘关联规则的整个性能就是由步骤一中的 操作处理所决定 6 第 3 章 数据管理 3 1 数据管理的方法 软件的开发是离不开数据库的 本次超市销售记录数据挖掘系统共使用到 了 14 张数据表来存储数据帮助软件完成相关的功能 如 销售记录 数据采集 数据预处理 挖掘条件 一元频繁项集 二元频繁项集等等 对数据的管理主 要有对数据表的增 删 改和对各个数据表数据结构的设计以及对内容的增 删 改操作 当然具体到每一个数据表时管理办法略有区别 第 4 章 数据采集 4 1 数据采集的方法 本软件在开发中 数据采集主要是借用程序和人工来实现的 通过人工的 录入来输入超市的销售记录数据 然后再借用所编写的程序来筛选出所要挖掘 的销售物品的信息 以备后期数据预处理和数据挖掘所使用 第 5 章 数据预处理 5 1 数据预处理的方法 本软件在开发中 数据预处理主要是借用程序和人工来实现的 通过人工 的录入来检查超市的销售记录数据 去除或者修改错误数据 物品名 实现数 据的完整性 一致性 正确性 然后再借用所编写的程序来转换成满足软件挖 掘的数据形式或类型 以备后期数据挖掘所使用 7 第 6 章 数据挖掘 6 1 算法描述与流程图 6 1 1 算法描述 Apriori 算法是挖掘产生布尔关联规则所需频繁项集的基本算法 它也是 一个很有影响的关联规则挖掘算法 Apriori 算法就是根据有关频繁项集特性 的先验知识 prior knowledge 而命名的 该算法利用了一个层次顺序搜索的 循环方法来完成频繁项集的挖掘工作 这一循环方法就是利用 k 项集来产生 k 1 项集 具体做法就是 首先找出频繁 1 项集 记为 L1 然后利用 L1 来 挖掘 L2 即频繁 2 项集 不断如此循环下去直到无法发现更多的频繁 k 项集 为止 每挖掘一层 Lk 就需要扫描整个数据库一遍 为提高按层次搜索并产生相 应频繁项集的处理效率 Apriori 算法利用了一个重要性质 又称为 Apriori 性质来帮助有效缩小频繁项集的搜索空间 Apriori 性质 一个频繁项集中任一子集也应是频繁项集 Apriori 性质是根据以下观察而得出结论 根据定义 若一个项集 I 不满 足最小支持度阈值 s 那么该项集 I 就不是频繁项集 即 P I s 若增加一个 项 A 到项集 I 中 那么所获得的新项集 I A 在整个交易数据库所出现的次数也 不可能多原项集 I 出现的次数 因此 I A 也不可能是频繁的 即 P I A s 这样就可以根据逆反公理 即若一个集合不能通过测试 该集合所有超集也不 能通过同样的测试 因此很容易确定 Apriori 性质成立 为了解释清楚 Apriori 性质是如何应用到频繁项集的挖掘中的 这里就以 用 Lk 1 来产生 Lk 为例来说明具体应用方法 利用 Lk 1 来获得 Lk 主要包含两 个处理步骤 即连接和删除操作步骤 1 连接步骤 为发现 Lk 可以将 Lk 1 中两个项集相连接以获得一个 Lk 的候选集合 Ck 设 l1 和 l2 为 Lk 1 中的两个项集 元素 记号表示 li j 中的第 j 个项 如 li k 2 就表示 li 中的倒数第二项 为方便起见 假设交易 数据库中各交易记录中各项均已按字典排序 若 Lk 1 的连接操作记为 Lk 1 Lk 1 它表示若 l1 和 l2 中的前 k 2 项是相同的 也就是说若有 l1 1 l2 1 l1 k 2 l2 k 2 l1 k 1 l2 k 1 则 Lk 1 中 l1 和 l2 的内容就可以连接到一起 而条件 l1 k 1 B P B A support count A B support count A 来计 算所获关联规则的信任度 其中 support count A B 为包含项集 A B 的交易 记录数目 support count A 为包含项集 A 的交易记录数目 基于上述公式 具体产生关联规则的操作说明如下 1 对于每个频繁项集 l 产生 l 的所有非空子集 2 对于每个 l 的非空子集 s 若 support count l support count s min conf 则产生一个关联规则 s l s 其中 min conf 为最 小信任度阈值 由于规则是通过频繁项集直接产生的 因此关联规则所涉及的所有项集均 满足最小支持度阈值 6 1 2 算法流程图 数据采集 开始 count值 数据预处理 读取挖掘条件 count 1 1 统计数据 预处理中 各个一元 项的支持 度 取一元频 繁项集 存储一元 频繁项集 显示一元 频繁项集 信息 一元频繁 项连接生 成二元项 集 统计所有 二元项的 支持度 置信度 满足挖 掘条件 存储二元 频繁项集 显示二元 频繁项集 信息 取二元频 繁项集 二元频繁 项连接生 成三元项 集 统计所有 三元项的 支持度 置信度 存储三元 频繁项集 显示三元 频繁项集 信息 取三元频 繁项集 三元频繁 项连接生 成四元项 集 统计所有 四元项的 支持度 置信度 存储四元 频繁项集 显示四元 频繁项集 信息 取四元频 繁项集 四元频繁 项连接生 成五元项 集 统计所有 五元项的 支持度 置信度 存储五元 频繁项集 显示五元 频繁项集 信息 取五元频 繁项集 五元频繁 项连接生 成六元项 集 统计所有 六元项的 支持度 置信度 存储六元 频繁项集 显示六元 频繁项集 信息 取 元 频繁项集 六元频繁 项连接生 成 元 项集 统计所 有 元项 支持度 置信度 存储 元频繁项 显示 元频繁项 集信息 取k 3元频 繁项集 k 3元频繁 项连接生 成k 2元项 集 统计所有 k 2元项的 支持度 置信度 存储k 2元 频繁项集 显示k 2元 频繁项集 信息 取k 2元频 繁项集 k 2元频繁 项连接生 成k 1元项 集 统计所有 k 1元项的 支持度 置信度 存储k 1元 频繁项集 显示k 1元 频繁项集 信息 取k 1元频 繁项集 k 1元频繁 项连接生 成k元项集 统计所有k 元项的支 持度 置 信度 存储k元频 繁项集 显示k元频 繁项集信 息 结束 23456 k 2k 1k N YYYYY Y YYYY 满足挖 掘条件 满足挖 掘条件 满足挖 掘条件 满足挖 掘条件 满足挖 掘条件 满足挖 掘条件 满足挖 掘条件 满足挖 掘条件 满足挖 掘条件 Y count count 1 继续 9 图 6 1 算法流程 第 7 章 结果显示与解释评估 7 1 结果显示界面的具体实现 7 1 1 系统主界面的具体实现 图 7 1 系统主界面具体实现图 系统主界面主要使用的组件有 Mainmenu XPManifest Button 各个组件的功能 Mainmenu 的功能是创建超市商品销售数据挖掘系统的各个菜单 XPManifest 的功能是在软件运行后美化界面 Button 退出 的功能是执行退出挖掘系统的命令 10 7 1 2 超市销售记录界面的具体实现 图 7 2 超市销售记录界面具体实现图 超市销售记录界面主要使用的组件有 ADOConnection ADOQuery DataSource DBGrid Button 各个组件的功能 ADOConnection 的功能是建立与数据库的连接 ADOQuery 的功能是用于检索和操作由合法的 SQL 语句产生的数据集 也可 以执行一条 SQL 命令 DataSource 的功能是作为数据控制组件 DBGrid DBEdit 的数据传送通道 DBGrid 的功能是为前端应用程序提供浏览数据库数据的表格 这些表格操 作者编辑数据 Button 显示销售记录 的功能是执行输出销售记录表 XSJL 中数据的命令 Button 关闭 的功能是执行关闭当前窗口的命令 11 7 1 3 数据采集界面的具体实现 图 7 3 数据采集界面具体实现图 数据采集界面主要使用的组件有 ADOConnection ADOQuery DataSource DBGrid Button 各个组件的功能 ADOConnection 的功能是建立与数据库的连接 ADOQuery 的功能是用于检索和操作由合法的 SQL 语句产生的数据集 也可 以执行一条 SQL 命令 DataSource 的功能是作为数据控制组件 DBGrid DBEdit 的数据传送通道 DBGrid 的功能是为前端应用程序提供浏览数据库数据的表格 这些表格操 作者编辑数据 Button 数据采集 的功能是执行输出销售记录表 SJCJ 中的数据的命令 Button 关闭 的功能是执行关闭当前窗口的命令 12 7 1 4 挖掘条件界面的具体实现 图 7 4 挖掘条件界面具体实现图 挖掘条件界面主要使用的组件有 ADOConnection ADOQuery DataSource Label edit GroupBox ListBox Button 各个组件的功能 ADOConnection 的功能是建立与数据库的连接 ADOQuery 的功能是用于检索和操作由合法的 SQL 语句产生的数据集 也可 以执行一条 SQL 命令 DataSource 的功能是作为数据控制组件 DBGrid DBEdit 的数据传送通道 Label 支持度阈值 置信度阈值 的功能是显示文字符号作为标签使 用 Edit 的功能是显示 修改数据库表中当前记录的字段数据 GroupBox 的功能是组合框 把一些相关组件组合一起 ListBox 显示数据库表中一个指定字段的数据 Button 确定 的功能是执行输入数据支持度阈值和置信度阈值到 WJTJ 表 中 Button 关闭 的功能是执行关闭当前界面命令 13 7 1 5 数据挖掘界面的具体实现 图 7 5 数据挖掘界面具体实现图 数据挖掘界面主要使用的组件有 ADOConnection ADOQuery DataSource Label GroupBox Button 各个组件的功能 ADOConnection 的功能是建立与数据库的连接 ADOQuery 的功能是用于检索和操作由合法的 SQL 语句产生的数据集 也可 以执行一条 SQL 命令 DataSource 的功能是作为数据控制
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC/TS 81001-2-2:2025 EN Health software and health IT systems safety,effectiveness and security - Part 2-2: Guidance for the implementation,disclosure and communication o
- 2025-2026学年北京版(新教材)二年级上册数学第七单元(数学百花园)提高试卷(附参考答案)
- 北京市朝阳区2024届高三年级上册期中质量检测化学试题(解析版)
- XX省传染病监测预警与应急指挥信息平台项目监测预警信息平台采购需求
- 湖北省华大新高考联盟2026届高三上学期11月教学质量测评生物试题
- 医学生作业考试题及答案
- 2025年纹样设计面试真题及答案
- 神户大学全部试题及答案
- 口腔科护理考试题及答案
- 招聘必杀技考试题及答案
- 2025广东东莞市樟木头镇招聘编外聘用人员14人笔试考试参考题库及答案解析
- 2025年及未来5年中国猴头菇深加工行业市场调研分析及投资前景预测报告
- 2025年某气调库建设项目可行性研究报告
- 辽宁省鞍山市海城市2025-2026学年七年级上学期道德与法治11月期中
- 施工管理人员年度培训考核试卷及答案
- 2025宁夏交通建设投资集团有限公司校园招聘和社会招聘230人(1号)考试笔试备考题库及答案解析
- 消防学员心理测试题及答案
- GB/T 9116.1-2000平面、突面带颈平焊钢制管法兰
- GB/T 4622.2-2008缠绕式垫片管法兰用垫片尺寸
- GB/T 13577-2006开放式炼胶机炼塑机
- 工艺安全检查表
评论
0/150
提交评论