数据挖掘--自行车_第1页
数据挖掘--自行车_第2页
数据挖掘--自行车_第3页
数据挖掘--自行车_第4页
数据挖掘--自行车_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自行车购买预测自行车购买预测 随着社会的发展 越来越多的人趋于购买私家车 但又由于油价越来越贵 交通越来越拥 挤 更多的人倾向于购买既省钱又环保的自行车 本报告针对给出的案例 运用 EXCEL 中 的数据挖掘工具分析影响人们购买自行车的各个因素 如有没有私家车 有没有家庭 收 入 所受的教育等 一 一 预测的目的预测的目的 同过对自行车购买的预测 可以有效的解决自行车生产商对于其市场的定位 适合的 人群 以及客户的购买能力有一个很好地把握 可以帮助其更好的出售产品 如同 啤酒 与尿布 一样 可以提高企业的收益率 其次 通过预测 可以改善企业的产业结构 使 其更加符合市场的需求 提高企业的竞争力 对于从企业 顾客这整条价值链的提升有 很大的帮助 二 问题的分解二 问题的分解 1 对于案例中的数据中影响人们购买自行车的各个因素单个进行分析 找出最大的影响因 素 2 对于各个因素建立一个数据模型 预测实例购买自行车的可能性 3 对所建立的模型进行测试 4 用所建立的模型进行预测 三 关键技术及工具三 关键技术及工具 聚类分析 决策树模型 EXCEL 的数据挖掘工具 神经网络模型 准确性图表 分类矩阵 Microsoft SQL 2008 Microsoft EXCEL2007 SQL2005 数据挖掘外接程序 四 数据挖掘与预测四 数据挖掘与预测 随着信息技术的高速发展 人们积累的数据量急剧增长 如何从海量的数据中提取有 用的知识成为当务之急 数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术 其主要任务是关联分析 分类 预测时序模式和偏差分析等 数据初步处理数据初步处理 将数据分为两个部分一为分析数据 定型数据与测试数据 分析数据 定型数据与测试数据 二为预测数据预测数据 1 神经网络模型神经网络模型 由于所要分析的各个因素存在大量的非线性的关系 对于案例中最后的预测数据我们可能 从中找到合适的线性关系来得出结构 而运用神经网络模型可以解决这类非线性的关系 它的构筑理念是受到生物 人或其他动物 神经网络功能的运作启发而产生的 人工神经 网络通常是通过一个基于数学统计学类型的学习方法 Learning Method 得以优化 所以 人工神经网络也是数学统计学方法的一种实际应用 神经网络可以有 MP 模型和 ANN 模型 其中 ANN 模型又分为前馈型网络和反馈型网络 首先我们利用数据挖掘工具中的建模工具 分类 将已经统计好的数据运用随机抽 样的方法分为定型数据和测试数据 定性数据用来建立数据模型 测试数据用来测试模型 的准确性 定型数据 492 条 测试数据 212 条 1 定型数据 定型数据 定型数据是指用来建立模型的数据 这些数据是从原始数据中随机抽选出来的 我们运用建模工具 神经网络 利用定型数据以 Purchased Bike 为预测值 其他为输入 值得到我们所需要的模型 可以看出决策变量 Purchased Bike 有两个属性值 其给预测带来了很大的方便 上图 我们可以看出其的概率分布是从高到低的 这种效果有助于我们找出其中的关键因素 摒 弃其中对预测结果影响小的因素 其次神经网络模型也具体给出了在定型数据中具体的买 或不买自行车的具体数字方面我们统计 2 测试数据 测试数据 测试数据是指用来测试模型可行度与可信度的数据 这些数据是从原始数据中随机抽选 出来的 我们利用已经得到的定型数据的模型 用测试数据运用两种工具进行准确性校验 1 准确性图表准确性图表 如下图 可以看出红色的线代表定型数据 蓝色的线代表随机的推测 该图表的 X 轴表示用于比较 预测的测试数据集的百分比 给图表的 Y 轴表示预测为指定状态的值的百分比 有此图可以看出此数据模型提升 115 69 2 分类矩阵分类矩阵 如下如图 可以看出原定型数据的模型准确率 63 81 错误率 36 19 可以看出所建立的模型的 准确度超过 50 同时上图也具体给出了买车 与不买车的正确的概率 由于以上的定型数据和测试数据都是从统计的数据中随机抽取的 所以其所建立的模型的 客观性及准确性无法有较大的保证 因此我又对以上的步骤重复几次 3 对未知数据的预测 对未知数据的预测 根据以上得出的比较准确的定型数据的模型 我们可以利用关联分析模型或决策树 模型中得到的主要因素作为输入值 通过添加多个因素对未知数据进行预测 这样预测的 结果比较准确 可信度高 4 单个因素对于是否够买自行车的影响 单个因素对于是否够买自行车的影响 运用神经网络得出的模型通过改变因素如 Cars 可以看出随着拥有的私家车的数量的 提高 人们越来越不趋于购买自行车 其次 看以看出一个家庭拥有的孩子数越多越不会 购买自行车 收入越高也越趋于不买自行车如下图 左边为 Cars 为 1 右边为 Cars 为 4 对于 Income 来说 与我们平常的认识不同 收入越高人们越趋向于购买自行车 对于 Children 来说 一个家庭拥有的孩子越多 越不趋于购买自行车 而在现实生活中往往不是单个因素起决定性作用的 往往是多个因素的组合 这就加 大了预测的难度 运用神经网络的模型也可以实现多个因素的预测 总结 对于神经网络模型来说 适用于决策变量的取值只有两个或三个的对象 对于更多 的取值利用神经网络模型不可得到 其次 神经网络适用于数据量大的模型的应用 对于 小数据量来说 其的准确性会大大降低 2 决策树模型决策树模型 决策树是一种常用于预测模型的算法 它通过将大量数据有目的分类 从中找到一些 有价值的 潜在的信息 它的主要优点是描述简单 分类速度快 特别适合大规模的数据 处理 最有影响和最早的决策树方法是由 quinlan 提出的著名的基于信息熵的 id3 算法 从数据中生成分类器的一个特别有效的方法是生成一个决策树 Decision Tree 决策 树表示方法是应用最广泛的逻辑方法之一 它从一组无次序 无规则的事例中推理出决策 树表示形式的分类规则 决策树分类方法采用自顶向下的递归方式 在决策树的内部结点 进行属性值的比较并根据不同的属性值判断从该结点向下的分支 在决策树的叶结点得到 结论 决策树法的决策过程就是利用了概率论的原理 并且利用一种树形图作为分析工具 其基 本原理是用决策点代表决策问题 用方案分枝代表可供选择的方案 用概率分枝代表方案 可能出现的各种结果 经过对各种方案在各种结果条件下损益值的计算比较 为决策者提 供决策依据 管理用的决策树与数据挖掘用的决策树有很大的不同 数据挖掘用的决策树基于从杂 乱无章的数据中提取分类在建立联系从而得出结果 而管理用的决策树是一个具体的案例 进行方案的选择 首先选择高级选项中的决策树模型 以 Purchased Bike 为预测值以其他为输入值得到模型 通过对案例中的数据进行决策树分析 看以看出如下所示 购不购买自行车与 Age 和有没有 Children 存在着依赖关系 其中 Age 表现出的是强依赖 Children 弱依赖 而对于决策树来说 年龄在 32 39 岁之间的人群各个倾向与购买自行车 年龄小于 32 岁或大于 39 岁的人群来说 孩子小于 5 个的更倾向于购买自行车 对于决策树而言 我进行了从原始数据与分类分析进行了比较 其所给出的依赖关系与决 策树得出的结论有所不同 依赖关系中少了 Children 而多了地区 我又通过提取其他模型的关键因素发现地区不是关键的因素 因此决策树所得到的模型结 果是比较准确地 结论 通过对决策树的分析的得出我们通常认为的收入的高低影响着人们的购买自行车的 欲望这个结论是没有依据的 对于销售自行车的公司来说 应该着重针对 32 39 岁的这些 客户群体发展 3 聚类分析聚类分析 聚类分析 cluster analysis 是一组将研究对象分为相对同质的群组 clusters 的统计分析技 术 聚类分析也叫分类分析 classification analysis 或数值分类 numerical taxonomy 聚类 分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程 它是一 种重要的人类行为 聚类分析的目标就是在相似的基础上收集数据来分类 聚类源于很多 领域 包括数学 计算机科学 统计学 生物学和经济学 在不同的应用领域 很多聚类 技术都得到了发展 这些技术方法被用作描述数据 衡量不同数据源间的相似性 以及把 数据源分类到不同的簇中 聚类分析能够从样本数据出发 自动进行分类 聚类分析所使用方法的不同 常常会 得到不同的结论 如图下为 Purchased Bike 其中的一类 25 Age 37 Children 0 Occupation Manual Home Owner No 10000 Income 啤酒 这就是使用关联分析方法所得到的结果 而关联分析所得到的 结果 我们可以用关联规则 或者 频繁项集的形式表示 关联分析是指如果两个或多个事物之间存在一定的关联 那么其中一个事物就能通过其 他事物进行预测 它的目的是为了挖掘隐藏在数据间的相互关系 在数据挖掘的基本任务中 关联 association 和顺序序贯模型 sequencing 关联分析是指搜索事务数据库 transactional databases 中的所有细节或事务 从中寻找重复出现概率很高的模式或规则 其属于灰色理 论中的一种分析方法 通过使用 EXCEL 数据挖掘工具中的关联分析工具 通过调整阈值和支持度来提高算法的准 确性 再以 purchased bike 为预测值 以其他为输入值得到关联分析模型 如下图为 purchased bike 为 NO 的关联 由于模型所提供的关联太多 我们只提取依赖度高的 得到 car 2 children 3 age 65 age 57 65 之间的人群更趋向于不买自行车 结果如下图 同理对于 purchased bike yes 的关联分析如下图 Region cars 1 income 34585 73842 cars 0 的人群更趋于购买自行车 我们可以看出关联模型建立比较简单 可以很快的提取出关键的因素 可以提供很快 的市场定位与预测 以便企业占领市场 其次我们可以通过提高关联分析算法效率来提高准确度 而提高关联分析算法效率最 简单的办法则是提高支持度和置信度的阈值 支持度和置信度的意义在于 支持度是一个 重要的度量 如果支持度很低 代表这个规则其实只是偶然出现 基本没有意义 因此 支持度通常用来删除那些无意义的规则 而置信度则是通过规则进行推理具有可靠性 我 们可以通过改变在建立关联模型时第一个步骤中的改变阈值 来提高算法效率 规则分析 我们可以将其转换为规则分析可以直观的看出其具体概率可信度 如图所示为购买自行车的规则示意图我们可以看出其概率分布是从高到低分布的有助于我 们找出其中的关键 二而在重要性中给出了其依赖强度的概率 也可以作为一个参考模型 对于其提取的规则而言我们可以以其为参考对未知数据进行预测从而得到具体的结果 5 贝叶斯分析 线性回归分析贝叶斯分析 线性回归分析 由于案例是多种非线性关系的结合 无法使用贝叶斯分析模型 线性回归模型进行分 析 运行结果为错误的 五五 总结总结 通过以上五个模型的分析 我们可以得出如下结论 1 对于整体的预测而言 神经网络由于添加的变量多而预测的结果较其他的准确 但其 使用于存在大量的数据的情况下 对于较少的数据而言其结果不准确 然而 对于决 策变量的属性为连续的且无穷个时 运用神经网络的模型就不能分析 因此决策变量 的属性只能为离散的且数量确定 2 个或 3 个 如 案例我们所分析的 YES 或 NO 只 有两个取值 另一方面 神经网络方法的缺点是 黑箱 性 人们难以理解网络的学习和 决策过程 2 数据挖掘完整的步骤如下 理解数据和数据的来源 获取相关知识与技术 整合与检查数据 去除错误或不一致的数据 建立模型和假设 实际数据挖掘工作 测试和验证挖掘结果 解释和应用 由上述步骤可看出 数据挖掘牵涉了大量的准备工作与规划工作 事实上许多专家都 认为整套数据挖掘的过程中 有 80 的时间和精力是花费在数据预处理阶段 其中包 括数据的净化 数据格式转换 变量整合 以及数据表的链接 3 对于决策树分析模型和关联分析模型而言 其都用到了分类的思想 找出其影响 Purchased Bike 的因素并确定其关联度 依赖度 通过调整其关联 依赖的强度找出影 响 Purchased Bike 的关键因素 这两种方法适用于从多个杂乱无章的影响因素中提取 关键性的因素 其次 运用关联分析得到的模型比运用决策树得到的模型更为精确 就如购不购买自行车为例 决策树模型提取出的因素只有两个 而关联分析中的得到 的模型分为两个部分 一为不买自行车 提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论