SAS软件应用之因子分析.ppt_第1页
SAS软件应用之因子分析.ppt_第2页
SAS软件应用之因子分析.ppt_第3页
SAS软件应用之因子分析.ppt_第4页
SAS软件应用之因子分析.ppt_第5页
免费预览已结束,剩余70页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第17章因子分析 中国疾病预防控制中心 学习目标 熟悉因子分析的基本思想 熟悉因子分析的基本原理 了解因子分析的数学模型 掌握因子模型的性质以及一些基本概念 公共度和方差贡献 熟悉估计因子载荷的分析步骤 因子旋转和因子得分等 掌握因子分析的步骤以及FACTOR过程实例 因子分析基本思想 前面章节讨论了多元线性回归分析 主成分分析等 它们的共同特点是讨论内容为可测量变量之间的相互关系 即所分析的这些变量是可以直接观察或测量得到的 但是 在医学研究中 很多情况下我们所要研究的变量是不能直接测量的 例如 研究家庭环境 社会环境和学校环境对儿童智商的影响 这四个变量都是不能或不易直接观测得到的 我们称这种不能或不易直接观测得到的变量为潜在变量或潜在因子 虽然这些潜在变量不能直接测量 但是它们是一种抽象的客观存在 因此一定与某些可测量变量有着某种程度的关联 例如 脑部疾病患者的意识清醒状态是一个不可测变量 但可以通过患者的语言能力 辨识能力 记忆能力 理解能力等一系列可观测的指标来反映 因子分析基本思想 对于多指标数据中呈现出的相关性 是否存在对这种相关性起支配作用的潜在变量 如果存在 如何找出这些潜在因素 这些潜在因素是怎样对原始指标起支配作用的 这些问题都可以通过因子分析来解决 因子分析是一种旨在寻找隐藏在多变量数据中 无法直接观察到却影响或支配可测变量的潜在因子 并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法 因子分析基本思想 其基本思想是从分析多变量数据的相关关系人手 找到支配这种相关关系的少数几个相关独立的潜在因子 并通过建立起这些潜在因子与原变量之间的数量关系来预测潜在因子的状态 帮助发现隐藏在原变量之间的某种客观规律性 因子分析和主成分分析都能够起到清理多个原始变量内在结构关系的作用 但主成分分析重在综合原始变量的信息 而因子分析重在解释原始变量间的关系 是比主成分分析更深入的一种多元统计方法 因子分析基本思想 因子分析最初用于心理 智力测验的统计分析 随着计算技术的不断发展 如今已广泛应用于医学 气象 经济学等其他研究领域 在中医辨证论治研究中也有了初步成果 如李文林等利用因子分析法建立隐结构在慢性胃炎辨证中应用的初步分析 确定了28个原始变量中隐含的12个因子 并利用因子载荷最终分析出这12个因子 隐节点 所对应的症状信息 陈启光等在中医证候规范研究中以468例高脂血症的40个四诊信息指标进行因子分析 结果表明 提取的5个公因子能包含四诊信息指标中83 92 的信息 并提供所有测量指标在不同公因子载荷的大小 为医师评价该指标在不同证候中的主次关系提供了定量的分析手段 因子分析基本思想 因子分析法就是寻找这些潜在因子的模型分析方法 它是在主成分的基础上构筑若干意义较为明确的潜在因子 以它们为框架分解原变量 以此考察原变量间的联系与区别 例如 随着年龄的增长 儿童的身高 体重会随着变化 具有一定的相关性 身高和体重之间为何会有相关性呢 因为存在着一个同时支配或影响着身高与体重的生长因子 那么 我们能否通过对多个变量的相关系数矩阵的研究 找出同时影响或支配所有变量的共性因子呢 因子分析就是从大量的数据中 由表及里 去粗取精 寻找影响或支配变量的多变量统计方法 因子分析基本思想 可以说 因子分析是主成分分析的推广 也是一种把多个变量化为少数几个综合变量的多变量分析方法 其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系 因子分析主要用于 1 减少分析变量个数 2 通过对变量间相关关系探测 将原始变量进行分类 即将相关性高的变量分为一组 用共同的潜在因子代替该组变量 因子分析基本思想 可以说 因子分析是主成分分析的推广 也是一种把多个变量化为少数几个综合变量的多变量分析方法 其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系 因子分析主要用于 1 减少分析变量个数 2 通过对变量间相关关系探测 将原始变量进行分类 即将相关性高的变量分为一组 用共同的潜在因子代替该组变量 因子分析基本思想 因子分析法是从研究变量内部相关的依赖关系出发 把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法 它的基本思想是将观测变量进行分类 将相关性较高 即联系比较紧密的分在同一类中 而不同类变量之间的相关性则较低 那么每一类变量实际上就代表了一个基本结构 即公共因子 对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量 因子分析的基本原理 下表给出了三个指标之间的相关系数 其中 x1是孩子的数学成绩 x2是孩子的语文成绩 x3是孩子的英语成绩 求影响支配这三个成绩指标变量的潜在因子 三个指标之间的相关系数 因子分析的基本原理 令是影响这三个指标变量的潜在因子 显然 每个成绩指标变量除了受这个潜在因子的影响外 可能还受其它因子的影响 把以外的影响因子记为 从数学角度看 它们之间的关系可以表示为 因子分析的基本原理 如果假设是方差为1 相互独立 并且假设指标变量被标准化为方差为1的变量 那么 因子分析的基本原理 同理可以得到 也就得到了a1 a2和a3的一个方程组 因子分析的基本原理 解上述方程组 得到一组解为 a1 0 897 a2 0 959 a3 0 803从而得到三个标准指标Xi与潜在因子以及误差项之间的关系表达式 即 从这个关系表达式可以看出这个潜在因子对孩子的三门课的成绩都有影响 而且 影响程度比较均衡 因子分析的基本原理 再看下面这组表达式 其中X1 X5是五个指标变量 它们分别表示收缩压 舒张压 心跳间隔 呼吸间隔和舌下温度 从医学知识可知 这5个指标是受自主神经的交感神经和副交感神经支配的 而交感神经和副交感神经状态又不能直接测定 用F1 F2分别表示交感神经和副交感神经这2个因子 则可测指标Xi是不可测因子Fj的线性函数 因子分析的基本原理 由于F1 F2与每一个Xi都有关 因此 研究这5个指标变量之间的关系可以转化为研究这两个潜在因子之间的关系 因子分析的基本原理就是依据可测指标变量之间的相关关系 从中寻找出合理的有实际意义的潜在因子 并估计出潜在因子对可测指标变量的影响程度 因子分析的基本原理 Fj对各Xi的影响是线性的 再加上其它影响因子ei 则各Xi与F1 F2的关系可表示为 因子分析的步骤 因子分析的核心问题有两个 一是如何构造因子变量 二是如何对因子变量进行命名解释 因此 因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的 因子分析的步骤 因子分析常常有以下四个基本步骤 确认待分析的原变量是否适合作因子分析 构造因子变量 利用旋转方法使因子变量更具有可解释性 计算因子变量得分 因子分析的步骤 因子分析的计算过程 将原始数据标准化 以消除变量间在数量级和量纲上的不同 求标准化数据的相关矩阵 求相关矩阵的特征值和特征向量 计算方差贡献率与累积方差贡献率 确定因子 设F1 F2 Fp为p个因子 其中前m个因子包含的数据信息总量 即其累积贡献率 不低于80 时 可取前m个因子来反映原指标 因子分析的步骤 因子旋转若所得的m个因子无法确定或其实际意义不是很明显 这时需将因子进行旋转以获得较为明显的实际含义 用原指标的线性组合来求各因子得分采用回归估计法 Bartlett估计法或Thomson估计法计算因子得分 综合得分以各因子的方差贡献率为权 由各因子的线性组合得到综合评价指标函数 F w1F1 w2F2 wmFm w1 w2 wm 此处wi为旋转前或旋转后因子的方差贡献率 因子分析的应用 在采用多元统计分析技术进行数据处理 建立宏观或微观系统模型时 需要研究以下几个方面的问题 简化系统结构 探讨系统内核 可采用主成分分析 因子分析 对应分析等方法 在众多因素中找出各个变量最佳的子集合 从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响 从树木看森林 抓住主要矛盾 把握主要矛盾的主要方面 舍弃次要因素 以简化系统的结构 认识系统的内核 因子分析的应用 构造预测模型 进行预报控制 在自然和社会科学领域的科研与生产中 探索多变量系统运动的客观规律及其与外部环境的关系 进行预测预报 以实现对系统的最优控制 是应用多元统计分析技术的主要目的 在多元分析中 用于预报控制的模型有两大类 一类是预测预报模型 通常采用多元线性回归或逐步回归分析 判别分析 双重筛选逐步回归分析等建模技术 另一类是描述性模型 通常采用聚类分析的建模技术 因子分析的应用 进行数值分类 构造分类模式 在多变量系统的分析中 往往需要将系统性质相似的事物或现象归为一类 以便找出它们之间的联系和内在规律性 过去许多研究多是按单因素进行定性处理 以致处理结果反映不出系统的总的特征 进行数值分类 构造分类模式一般采用聚类分析和判别分析技术 因子分析的应用 如何选择适当的方法来解决实际问题 需要对问题进行综合考虑 对一个问题可以综合运用多种统计方法进行分析 例如一个预报模型的建立 可先根据有关生物学 生态学原理 确定理论模型和试验设计 根据试验结果 收集试验资料 对资料进行初步提炼 然后应用统计分析方法 如相关分析 逐步回归分析 主成分分析等 研究各个变量之间的相关性 选择最佳的变量子集合 在此基础上构造预报模型 最后对模型进行诊断和优化处理 并应用于生产实际 因子分析SAS程序 SAS系统中利用FACTOR过程对数据进行主成分分析 FACTOR过程的语法格式如下 PROCFACTORDATA N OUT OUTSTAT METHOD ROTATE MAXITER RECORDERHEY 选项 VAR变量 选项 PARTIAL变量 RUN 因子分析SAS程序 DATA语句指定要分析的数据集名及一些选项 它可以是原SAS数据集 也可以是corr cov ucorr ucov等矩阵 N用来确定潜在因子个数 该选择项缺省时 系统自动根据 特征值大于1 的原则确定潜在因子个数 OUT选择项用来保存原变量和因子得分变量 变量名为factor1 factor2 只有使用了N选择项 OUT选择项才能起作用 因子分析SAS程序 OUTSTAT指定输出结果的SAS数据集名 该数据集保存的是每一个指标的均值 标准差 样本数 相关系数矩阵或方差协方差矩阵 特征值和特征向量 事前共性方差 事后共性方差 未旋转因子载荷 旋转线性变换 旋转后的因子载荷以及因子得分系数 METHOD选择项用来确定因子分析的方法 可选用的有主成分分析法prin 最大似然分析法ml 主因子分析法prinit等 缺省是prin 因子分析SAS程序 ROTATE选择项用来指定因子旋转的方法 可选用的有最大方差旋转法varimax 正交最大方差旋转法orthomax 相等最大方差旋转法equamax 比例最大方差旋转法promax等 缺省是none 不旋转 MAXITER给出最大迭代次数 缺省是30 RECORDER指令系统将指标变量按每一个潜在因子载荷的绝对值由大到小重新排序 HEY表示将大于1的共性方差的值设定为1 因子分析SAS程序 VAR语句用于列出要分析的原始变量 如果该语句缺省 系统分析其它语句中未涉及到的所有指标变量 PARTIAL语句用于列出混杂变量 指定系统使用偏相关系数或偏方差 协方差来计算主成分 例如 PARTIALX 它表示偏相关系数或偏方差 协方差是以变量X为混杂变量的 即所有的相关系数都表示的是在X不变的情况下 两个变量之间的关联程度 但是 该语句列出的变量不能出现在VAR语句中 另外 freq语句 weight语句 by语句等也实用 本章小节 因子分析是主成分分析的推广 也是一种把多个变量化为少数几个综合变量的多变量分析方法 其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系 因子分析主要用于 1 减少分析变量个数 2 通过对变量间相关关系探测 将原始变量进行分类 即将相关性高的变量分为一组 用共同的潜在因子代替该组变量 本章小节 因子分析法是从研究变量内部相关的依赖关系出发 把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法 它的基本思想是将观测变量进行分类 将相关性较高 即联系比较紧密的分在同一类中 而不同类变量之间的相关性则较低 那么每一类变量实际上就代表了一个基本结构 即公共因子 对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量 本章小节 本章介绍了因子分析的基本思想 基本原理 数学模型 因子模型的性质以及一些基本概念 公共度和方差贡献 详细说明了潜在因子个数的确定以及因子载荷估计的分析步骤 因子旋转以及因子得分计算方法等 确定潜在因子的个数是因子分析的一个重要内容 第18章聚类分析 中国疾病预防控制中心 学习目标 了解聚类分析的基本思想 了解聚类分析的一些常见统计量 掌握聚类分析的基本方法 通过实例练习掌握聚类分析的SAS过程步 概述 聚类分析是将随机现象归类的统计学方法 已广泛应用于医学科学研究之中 聚类分析也称群分析 点群分析 他是研究分类的一种多元统计方法 例如 我们可以根据学校的师资 设备 学生的情况 将大学分成一流大学 二流大学等 国家之间根据其发展水平可以划分为发达国家 发展中国家 概述 这些问题的本质就是希望能找到一种合理的方法将一批研究对象按其所属特性分门别类 统计学上用于解决这种分类问题的主要方法是聚类分析法和判别分析法 这一章主要讨论聚类分析 聚类分析的基本思想 聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法 我们所研究的样品或指标 变量 之间存在程度不同的相似性 亲疏关系 于是根据一批样品的多个观测指标 具体找出一些能够度量样品或指标之间相似程度的统计量 以这些统计量为划分类型的依据 聚类分析的基本思想 把一些相似程度较大的样品 或指标 聚合为一类 把另外一些彼此之间相似程度较大的样品 或指标 又聚合为另一类 关系密切的聚合到一个小的分类单位 关系疏远的聚合到一个大的分类单位 直到把所有的样品 或指标 聚合完毕 这就是分类的基本思想 由此得知 聚类分析的任务有两个 第一就是寻找合理的度量事物相似性的统计量 第二是寻找合理的分类方法 聚类分析的基本思想 在聚类分析中 通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类 Q型聚类分析是对样本进行分类处理 又称为样本聚类分析 R型聚类分析是对指标进行分类处理 称为指标聚类分析 对样品进行聚类的目的是将分类不明确的样品按性质相似程度分为若干组 从而发现同类样品的共性和不同样品间的差异 对指标进行聚类的目的是将分类不明确的指标按性质相似程度分成若干组 从而在尽量不损失信息的条件下 用一组少量的指标来代替原来的多个指标 聚类分析的基本思想 R型聚类分析的主要作用是 不但可以了解个别变量之间的关系的亲疏程度 而且可以了解各个指标组合之间的亲疏程度 根据变量的分类结果以及它们之间的关系 可以选择主要变量进行回归分析或Q型聚类分析 Q型聚类分析的作用是 可以综合利用多个变量的信息对样本进行分类 分类结果是直观的 聚类谱系图非常清楚地表现其数值分类结果 聚类分析所得到的结果比传统分类方法更细致 全面 合理 聚类分析的基本思想 例如在医生医疗质量研究中 有N个医生参加医疗质量评比 每一个医生有K个医疗质量指标被记录 利用聚类分析可以将N个医生按其医疗质量的优劣分成几类 或者把K个医疗质量指标所反映的问题侧重点不同分成几类 前者是聚类分析中的样品聚类 后者是指标聚类 聚类分析的统计量 无论是R型聚类或是Q型聚类的关键是如何定义相似性 即如何把相似性数量化 聚类的第一步需要给出两个指标或两个样品间相似性度量的统计量 聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的 前者用的统计量是距离系数 后者用的统计量是相似系数 距离系数的定义有很多 如欧式距离 极端距离 绝对距离等 相似系数的定义也很多 如相关系数 列联系数等 下面给出它们的计算公式 距离 明氏距离马氏距离兰氏距离类间距离 类间距离 最短距离法最长距离法重心距离法平均距离法中间距离法Ward离均差平方和法 相关系数 相关系数是最容易理解的一种统计量 它就是统计中经常用的两变量之间的简单相关系数 在聚类分析中 相关系数用来描述两个指标之间的相似程度 是第s个指标变量 是第t个指标变量 相关系数 两个指标变量和之间的相关系数是 这是一个无量纲统计量 在指标聚类分析中 两个指标变量之间的相关系数越大 说明这两个指标变量的性质越相似 类间相似系数 夹角余弦相关系数 聚类分析的方法 聚类分析的方法很多 本章仅介绍常用的系统聚类法和逐步聚类法 系统聚类法适用于小样本的样本聚类或指标聚类 逐步聚类法适用于大样本的样本聚类 对于小样本的样本聚类 如果采用逐步聚类法 聚类结果将与样本的顺序有关 聚类指标 一般用系统聚类法来聚类指标 它的基本思想是先把k个指标看成一类 然后用主成分分析法将它分解成若干类 分类的原则是使得每一类的类内指标总变异尽可能多地被该类的类成分所解释 如果每一类的类内指标总变异被类成分所解释的比例满足事先给出的要求 则聚类停止 否则 对比例小的类再继续进行分解 直到所有类的类内指标总变异被类成分所解释的比例都满足事先给出的要求为止 聚类指标 系统聚类法对k个指标进行聚类的具体步骤如下 确定每一类的类内指标总变异被类成分所解释的最低比例P 把所有指标看成一类 计算类内指标总变异被类成分所解释的比例 如果所解释的比例大于或等于P 则聚类停止 否则进行 聚类指标 将这个类分解成两个类 分类原则是使得每一类内的指标总变异尽可能地被该类的类成分所解释且类间相关系数达到最小 计算每一类的类内指标总变异被类成分所解释的比例 如果所解释的比例大于或等于P 则聚类停止 否则进行 最解释比例最小的一类在继续进行分解 重复以上步骤 直到所有类的类内指标总变异被类成分所解释的比例都大于或等于P为止 系统聚类法聚类样本 用系统聚类法聚类样本用系统聚类法聚类样本的基本思想是先把n个聚类样本看成n类 然后按类间距离将相似程度最大的两个类合并为一类 再将所有的类 包括合并形成的新类 中相似程度最大的两个类合并为一类 重复此过程 直到所有的类间距离达到一定的要求为止 或直至所有的样本被合并为一类为止 然后根据类间距离的要求以及实际意义选择一个适当的分类 系统聚类法聚类样本 用系统聚类法对样本进行聚类的具体方法步骤如下 把n个样本看成n类 类的个数g n 计算两两类间距离 并将类间距离最小的两个合并为一类 则g n 1 继续计算两两类间距离 并将类间距离最小的两个合并为一类 则g n 2 重复上述步骤 直到类间距离达到一定的要求为止 或所有的样本被合并为一类为止 根据类间距离的要求以及实际意义选择一个适当的分类 逐步聚类法聚类样本 用逐步聚类法聚类样本的基本思想是先选择若干个初始凝聚点 这些凝聚点可以是所有样本中的任意几个样本 也可以是随意确定的几个新样本观察值 然后把每一个样本按距离大小归入到与该样本最近的凝聚点所代表的初始类中 再以这些初始类的 重心 类内各样本观察值的平均值 作为新的凝聚点重新将样本归类 重复以上步骤 直到分成的类再没有什么变化为止 逐步聚类法聚类样本 用逐步聚类法对样本进行聚类的具体方法步骤如下 确定初始凝聚点 计算样本与每一个初始凝聚点的距离 并将每一个样本归入到与该样本最近的凝聚点所代表的初始类中 计算上述初始类的新凝聚点 等于类内各样本观察值的平均值 计算样本与上述新凝聚点的距离 并将每一个样本归入到与该样本最近的新凝聚点所代表的类中 重复上述步骤 直到新分成的类再没有什么变化为止 VARCLUS过程 SAS系统中利用VARCLUS过程步进行指标聚类 VARCLUS过程的语法格式如下 PROCVARCLUSDATA OUTTREE PROPORTION MAXEIGEN MAXC MINC 选项 VAR变量 选项 RUN PROCTREEDATA HORIZONTAL PAGE SPACE ID NAME RUN VARCLUS过程 DATA语句指定要分析的数据集名及一些选项 它可以是原SAS数据集 也可以是corr cov ucorr ucov等矩阵 OUTTREE选择项用来保存用于绘制树状图的聚类信息 PROPORTION选择项用来指定所有类中指标变量的总变异至少应被类成分解释的比例 等号后面可以给出介于0和1之间的小数 也可以给出介于1和100之间的正数 PROPORTION 75和PROPORTION 0 75是等价的 表示聚类的结果必须满足所有类中指标变量的变异至少75 被类成分所解释 如果一个类的比例小于此值 就要将它继续分解为两类 VARCLUS过程 MAXEIGEN选择项用来指定所有类中第二特征值的最大允许值 超过此值就要分割为两类 MAXC选择项用来指定允许的最大类别数 MINC选择项用来指定允许的最小类别数 VARCLUS过程 第二个过程步用第一个过程步得到的结果绘制树状图 其中 DATA语句使用的是VARCLUS过程步的输出数据集 即由OUTTREE输出的数据集 HORIZONTAL选择项表示指令树状图的枝干绘制成水平的 PAGE选择项指定树状图所需的页数 SPACE选择项指定指标变量之间的间距 行数或列数 ID语句给出的变量名用来作为树干刻度的标记 这个变量名是系统定义的 由指标变量名构成 CLUSTER过程 SAS系统中利用CLUSTER过程步进行小样本聚类 CLUSTER过程的语法格式如下 PROCCLUSTERDATA OUTTREE METHOD STANDARDNONORMRSQUARE 选项 VAR指标变量 选项 ID样本序号变量 RUN PROCTREEDATA HORIZONTAL PAGE SPACE ID样本序号变量 RUN CLUSTER过程 第一个过程步用于聚类样本中 其中DATA语句指定要分析的数据集名及一些选项 它可以是原SAS数据集 也可以是corr cov ucorr ucov等矩阵 OUTTREE选择项用来保存用于绘制树状图的聚类信息 METHOD选择项用于确定聚类的方法 选择的方法有single complete centroid average median ward 其中single表示最短距离法 complete表示最长距离法 centroid表示重心距离平均法 average表示平均距离平方法 median表示中间距离平均法 ward表示最小离均差平方和法 CLUSTER过程 STANDARD指令系统将原始数据标准化 NONORM表示类间距离不进行标准化 RSQUARE表述输出每一种聚类的复相关系数的平方和半偏复相关系数的平方 每一种聚类的复相关系数的平方等于总体变异被聚类成分所解释的比例 半偏复相关系数的平方等于由合并两个类引起的复相关系数平方的减少量 VAR语句给出用来聚类样本的指标变量 ID语句给出样本序号变量名 CLUSTER过程 第二个过程步用第一个过程步得到的结果绘制树状图 其中 DATA语句使用的是VARCLUS过程步的输出数据集 即由OUTTREE输出的数据集 HORIZONTAL选择项表示指令树状图的枝干绘制成水平的 PAGE选择项指定树状图所需的页数 SPACE选择项指定指标变量之间的间距 行数或列数 ID语句给出的变量名也是用来作为树干刻度的标记 但这个变量名由样本序号构成 FASTCLUS过程 用于大样本样品聚类的FASTCLUS过程步使用的是逐步聚类法 其聚类原则是使得类间距离最小 和CLUSTER过程步相比 FASTCLUS过程步的缺点是 没有将原始数据标准化的功能 不能自动确定类别数 需要确定初始凝聚点 不能输出作树状图的聚类信息 FASTCLUS过程 因此 在使用FASTCLUS过程步前 要用STANDARD过程步将原始数据标准化 即将原始数据化为均值为0 标准差为1的标准化数据 要根据经验确定类别数 要根据经验选取凝聚点 或者在确定类别数的基础上指令系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论