版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
pppp§
消费分布规律的分类为研究辽宁、浙江、河南、甘肃、青海5省份在某年城镇居民生活消费的分布律,需要用调查资料对这个省分类数见下表:指标省份
X
1
X
2
X
3
X
4
X
5
X
6
X
7
X
8辽宁浙江河南甘肃青海
39.7712.9411.052.0450.3719.252.7527.9316.179.429.7627.9815.999.1028.6416.1810.81其中,X:均粮食支出;X:均副食品支出;12X:均烟、酒、茶支出;X:均其它副食品支出;34X:均衣着商品支出;X:均日用品支出;56X:均燃料支出;X:均非商品支78在科学研究、生产实践、社会生活中,经常会遇到分类的问如,在考古学中,要将某些古生物化石进行科学的分类;在生物学中,要根据各生物体的综合特征进行分类;在经济学中要考虑哪些经济指标反映的是同一种经济特征;在产品质量管理中,要根据各产品的某些重要标而将其分为一等品,二等品等.这些问题可以用聚类分析方法来解.聚类分析的研究内容包括两个方面,一是对样品进行分类,称型类,用的统计量是样间距;二是变量进行分类,称为R型聚法使用的统计量是变间相系设共有n个样品,每个样品x有个量,它们的观测值可表示为ix
i
x,ii
,x),i
1,2,
,n一、样品间的距离下面介绍在聚类分析中常用的几种定义样品x与品x间距离.ij、Minkowski距
d(x,xxij
ki
kj
]
1k、绝对值距离
pd,x)ij
、欧氏距离
d(xxij
ki
kj
2
]
12k二、变量间的相似系数相似系数越接近,明变量间的关联程度越常用的变量间的相似系数有、夹余弦/
ijijrij
()ik
xxikjk)jk
、相系数rij
)()ik(i)jk(j)()2)ik(i)jk(j)
值得注意的是,当指标的测量值相差较大时,直接使用以上各式计算距离或相似系数常使数值较小的变量失去作用为需先对数据进行标准化然再用标准化的数据来计.标准化的具体方法是:*ki
kis
i
,,k
p其中
1nnx,(nnii
k
1,2,
,p三、类与类之间的距离用
G
p
和
q
分别代表两个类,它们所包含的样品个数分别记为
n
p
和
n
q
,类
G
p
和
q
之间的距离记为
D(G)pq
下给出三种最常用的定方.、最短距离
()min(pq
ij
xG)ipj类与类之间的最短距离有如下的递推公式,设
r
为由
G
p
和
q
合并所得,则
r
与其它类G(p)k
的最短距离为D(){D(),GG)}rpkqk、最长距离
()(dpq
ij
xxG)ijq类与类之间的最长距离有如下的递推公式,设为和G合并所得,则与它类rpqrG(p)k
的最长距离为D(G)max{D(,GD(G)}rkpkqk、类平均距离
D(q
xx
ij/
D012.803.510类与类之间的类平均距离有如下的递推公式,
r
为由
G
p
和
q
合并所得,则
r
与其它类G(p)k
的类平均距离D()r
r
D()k
r
D()k
,其中
nr
q
以上类与类之间的距离,不但适用于型聚类,同样也适合于型聚类,这只要将
d
ij
用变量间的相似系数r代就行了.简单起见以下均记成dijij系统聚类法是目前最流行的方.有了样品间的距离(或变量间的相似系数)以及类与类之间的距离后,便可进行系统聚类,基本步骤如下:、n个品(或个量)一开始看作类p类算两之间的距离(或相似系数成一个对称矩阵D,时显然有(,G);0ijpq、选择中角元素以外的下三角部分中的最小元素(相似系数矩阵则选择对角线元素以外0的最大者为
D(G)pq
则
G
p
和
q
合并为一个新类
r
在
0
中划去
G
p
和
q
所对应的两行与两列,并加入由新类
G
r
与剩下的未聚合的各类之间的距离所组成的一行和一列,得到一个新的矩阵
D
,它是降低了一阶的对称矩阵;、由D出,重复骤2得到对称矩阵,此类推,直n个品(或个量)聚为一2个大类为止;、在合并过程中记下两类合并时样品(或变量)的编号以及合并两类时的距离(或似系数)的大小,并绘成聚类图,然后可根据实际问题的背景和要求选定相应的临界水平以确定类的个.上面是一个Q型类题,现在用系统聚类法来解.将每个省份看成一个样品,并以,2,,5分表示辽宁、浙江、河南、甘肃、青海5省计算样品间的欧氏距离,得到如下的距离矩阵0{1}{2}{3}{4}{5}02.20下面给出采用最短距离法的聚类过程:首先将个省各看成一类,即令
Gi},(ii
从D可以看出其中最小的元素是0
({4},{3})d
43
2.20
故将G和合成一类G然346/
11.6711.67011.670后利用递推公式计算
G
6
与
,
,
G5
之间的最短距离.在
0
min{,d}min{13.80,13.12)3141min{d}min{24.63,24.06)24.0632({3,4},{5})min{d,}min{3.51,2.21)35中划去{3},{4}对应的行和,并加上新类{到其它类距离作为新的一行一,得到{3,4}{1}{2}{5}重复上面的步骤,依次可得到相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 现代城市交通系统管理与运营手册
- 2026初中开学焦虑缓解指导课件
- 数据公开性与可信度保证承诺书(7篇)
- 百姓满意程度提高承诺书8篇
- 债务结算能力担保承诺书(4篇)
- 节能环保责任保证承诺书(8篇)
- 办公成本控制方法实施手册
- 工程造价管理与成本控制指南
- 企业社会责任履行目标达成承诺书(5篇)
- 项目目标完成与效果评估承诺书4篇
- 解读《特种设备使用管理规则》TSG 08-2026与2017版对比
- 2026年法律硕士(法学)考研复试高频面试题包含详细解答
- 湖北省武汉市2026届高中毕业生三月调研考试数学试题含答案
- 自动控制原理试题库(含答案)
- 深圳一模讲评课件
- 【答案】《数字电子技术基础》(华北电力大学)章节作业慕课答案
- 2026年私域流量运营美妆私域种草调研
- 体育赛事组织与管理流程及注意事项
- 大学毛概课件南方谈话
- 2025年电力安规考试题库及答案
- 2025年山东省青岛市中考英语试卷真题(含答案详解)
评论
0/150
提交评论