SPSS神经网络PPT课件.pptx_第1页
SPSS神经网络PPT课件.pptx_第2页
SPSS神经网络PPT课件.pptx_第3页
SPSS神经网络PPT课件.pptx_第4页
SPSS神经网络PPT课件.pptx_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS 神经网络 2020 3 20 1 神经网络 神经网络是一个非线性的数据建模工具集合 它包括输入层和输出层 一个或者多个隐藏层 神经元之间的连接赋予相关的权重 训练算法在迭代过程中不断调整这些权重 从而使得预测误差最小化并给出预测精度 您可以设置网络的训练条件 从而控制训练的停止条件以及网络结构 或者让算法自动选择最优的网络结构 2020 3 20 2 发展历史 人工神经网络ANN 简称为神经网络ArtificialNeuralNetworks是以计算机网络系统模拟生物神经网络的智能计算系统 是对人脑或自然神经网络的若干基本特性的抽象和模拟 网络上的每个结点相当于一个神经元 可以记忆 处理一定的信息 并与其他结点并行工作 起源于20世纪40年代心理学家和数学家共同提出90年代以来与模糊技术 遗传算法 进化计算等智能方法结合方向发展 2020 3 20 3 神经网络 在许多领域 都可以将神经网络和其他统计分析结合起来 获得更深入 清晰的洞察力 例如在市场研究领域 可以建立客户档案发现客户的偏好 在数据库营销领域 可以进行客户细分 优化市场活动的响应 在金融分析方面 可用神经网络分析申请人的信用状况 探测可能的欺诈 在运营分析方面 也可以管理现金流 优化供应链 此外 在科学和医疗方面的应用包括预测医疗费用 医疗结果分析 预测住院时间等 2020 3 20 4 神经网络 SPSS神经网络 包括多层感知器 MLP 或者径向基函数 RBF 两种方法 都是有监督的学习技术 即都根据输入的数据映射出关系 都采用前馈结构 即数据从一个方向进入 通过输入节点 隐藏层最后进入输出节点 对过程的选择受输入数据的类型和网络的复杂程度影响 此外 MLP可以发现更复杂的关系 径向基函数RBF的速度更快 2020 3 20 5 区别 感知器特别适合简单的模式分类问题 通过对权值的训练 可以使感知器神经元的输出能代表对输入模式进行分类 感知器的学习规则主要通过调整网络层的权值和阙值以便对输入向量进行正确归类 训练规则则通过仿真和训练得到最优的权值和阙值 基于局部逼近网络的径向基函数只需对少量权值进行调整 所以该法在逼近能力 分类能力和学习速度上优于全局逼近网络 2020 3 20 6 神经网络 使用这两种方法的任何一种 可以将数据拆分成训练集 测试集 验证集 训练集用来估计网络参数 测试集用来防止过度训练 验证样本用来单独评估最终的网络 它将应用于整个数据集和新数据 2020 3 20 7 案例1 数据集bankloan sav利用此数据集中有效的700个样本数据来创建一个多层感知器的神经网络模型并利用创建的模型来分析余下的缺失数据150个调查用户的信用记录用来观察这些用户的信用好坏 2020 3 20 8 数据库 2020 3 20 9 2020 3 20 10 多层感知器实例分析 缺失值150 即为潜在客户群首先产生随机数来选择样本数据集转换 Transform 随机数生成器 RandomNumberGenerators 设置起点 SetStartingPoint 选中 固定值 FixedValue 填入9191972确定 OK 2020 3 20 11 多层感知器实例分析 2020 3 20 12 多层感知器实例分析 将创建分区变量 用于精确的重新创建哪些用于分析的样本 转换 计算变量 在目标变量中填入变量名partition 然后在数学表达式填入计算表达式2 RV BERNOULLI 0 7 1 用于产生bernoulli分布数据 数据集名称为partition正值大约占70 为训练样本 负值大约占30 为保持样本 0分配给检验样本 本次没有 2020 3 20 13 多层感知器实例分析 2020 3 20 14 多层感知器实例分析 分析 神经网络NeuralNetwork 多层感知器MultilayerPerceptron选择变量PreviouslyDefault到因变量 选择变量Leveleducation到因子 选择变量age employ address income debtinc creddebt othdebt到协变量 2020 3 20 15 2020 3 20 16 2020 3 20 17 2020 3 20 18 多层感知器实例分析 单击 输出 Output 标签 选择 ROC曲线 累积增益曲线 增益图 观察预测值 去掉 图表 最后选择 自变量重要性分析 选项栏 单击 确定 OK 进行分析 2020 3 20 19 多层感知器实例分析 2020 3 20 20 个案处理摘要显示499个分配给训练样本 201个分配给保持样本 150个为潜在客户群 2020 3 20 21 多层感知器实例分析 结果单位数包括协变量和因子的类别数 2020 3 20 22 多层感知器实例分析 因为达到了最大时程数 所以估计算法停止 理想情况下应该是因为错误才收敛 这提出了进一步检查的意见 2020 3 20 23 多层感知器实例分析 总体来说你的模型有七五成的正确率 2020 3 20 24 矫正超额训练 观察到支持样本在预测实际拖欠贷款的客户时表现相对较差支持样本45 8 正确 训练样本59 7 正确怀疑网络可能超额训练 其根据随机变化搜寻显示在培训数据中虚假模式解决方案 指定一个检验样本来保持网络正常运行我们可以通过计算变量来分配训练样本中的一部分为检验样本 2020 3 20 25 第二次分析 2020 3 20 26 分析 设置大于0的进行重新分区使得约20 取值为0 80 的取值为1整体上 大约以前获得过贷款的客户0 7 0 8 0 56作为训练样本0 7 0 2 0 14作为检验样本原来的保持样本还都在 2020 3 20 27 2020 3 20 28 2020 3 20 29 2020 3 20 30 因为达到了错误未减少 所以估计算法停止 表明超额训练通过添加一个测试样本得到了解决 2020 3 20 31 2020 3 20 32 2020 3 20 33 分类表使用0 5作为界限 过于单一 还需要查看ROC曲线 曲线范围是ROC曲线的数字摘要 对于每个类别 表中的值代表了对于该类别中预测拟概率例如 对于随机选择的拖欠贷款者与随机选择的未拖欠贷款者 就缺省模型而言 前者高于后者的概率为0 854 2020 3 20 34 2020 3 20 35 2020 3 20 36 观察 讲预测分类为YES的界限从0 5下降到0 3大致是第二个箱图的顶端和第四个箱图的低端可以在不损失大量潜在优质客户的前提下增加准确找到潜在欠贷者的几率 即第二个箱图从0 5移动到0 3 则细线处相对较少的未欠贷客户重新预测为欠贷者而第四个箱图 则大量欠贷客户会被重新正确的分类为预测欠贷者 2020 3 20 37 2020 3 20 38 2020 3 20 39 2020 3 20 40 案例2 电信数据telco sav电信供应商按照顾客使用习惯将顾客群分为4大类若得到新客户的数据 可以针对每个用户提供个性化服务 当前1000名客户资料 建立相应的神经网络 以判断客户所属的客户群 2020 3 20 41 2020 3 20 42 2020 3 20 43 首先 产生随机数种子 2020 3 20 44 其次 采用径向基进行分析 2020 3 20 45 2020 3 20 46 分区设置 2020 3 20 47 2020 3 20 48 2020 3 20 49 2020 3 20 50 2020 3 20 51 2020 3 20 52 2020 3 20 53 2020 3 20 54 零模型会把所有客户归到附加服务组 准确率是0 281 RBF网络获得了0 374的准确率 提高了将近10 实际上对于附加服务和总体服务客户 网络预测较好 其他客户效果较差 需要找到另外的预测变量来进行分离客户 2020 3 20 55 2020 3 20 56 2020 3 20 57 2020 3 20 58 2020 3 20 59 2020 3 20 60 案例3 使用多层感知器估计保健成本与住院时间医院跟踪心肌梗塞治疗的病人的成本与住院时间 获取这些测量有助于管理部门在病人接受治疗时候正确管理现有床位 2020 3 20 61 准备数据 2020 3 20 62 更改度量方式 2020 3 20 63 2020 3 20 64 2020 3 20 65 2020 3 20 66 2020 3 20 67 2020 3 20 68 2020 3 20 69 输出分析报告 2020 3 20 70 分析 警告doa和der在训练样本中为常数 到达时已死亡或在急救室死亡的患者我们分析生存时间 所以只包括急救之后存活患者 个案处理摘要显示分析中排除的2002个案为前往医院途中或在急救室死亡的患者 2020 3 20 71 2020 3 20 72 2020 3 20 73 2020 3 20 74 分析 理想的情况下 值应大致位于由原点出发的45度线上意味着五天内观察的住院时间预测值往往高估了住院时间 而六天以上的观察住院时间往往低估了住院时间 在图的左下方有一组患者很可能还未做手术 左上方有一组患者 观察住院时间为一至三天 因此预测值过大 很可能是这些个案为在医院手术后死亡的患者 2020 3 20 75 2020 3 20 76 分析 网络预测的治疗费用效果似乎很好 有三组主要患者左下方主要为未做手术的患者 成本相对较低 下一组患者治疗成本大约为 30 000 做过PTCA手术的患者 最后一组治疗成本超过 40 000 手术费较高 为CABG手术患者 康复时间较长 增加了成本还有许多成本超过 50 000的个案 预测不佳 应该是手术并发症的患者 会增加手术成本和住院时间 20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论