




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
专题讨论专题讨论 实习报告实习报告 题 目 山东省外向型经济发展数据的聚类分析 院 系 直属数理系 专业年级 信息与计算科学 2007 级 学生姓名 杨强 学号 20072507 2011 年 3 月 18 日 专题讨论实习报告 1 山东省外向型经济发展数据的聚类分析山东省外向型经济发展数据的聚类分析 摘要 摘要 山东省外向型经济近几年发展迅速 但省内各地发展很不平衡 本文通过衡量外向 型经济发展水平的指标体系 运用聚类分析法对山东省的外向型经济发展区域差异进行实 证分析 关键词 关键词 外向型经济 区域差异 实证分析 聚类分析 引言 近年来 山东省外向型经济发展迅速 年 山东省海关进出口贸2004 易总额为亿美元 同比增长 其中外商投资企业进出口商品总 8 608 1 36 值为亿美元 同比增长 外商直接投资项目数为个 合同 3 322 3 325890 FDI 为亿美元 实际 FDI 为亿美元 居全国第三位 仅次于广东省3 124 6 86 和江苏省 境外投资项目数个 协议投资总额万美元 其中中方12729576 协议投资万美元 接待外国旅游人数万人次 国际旅游创汇额为26831 2 96 亿美元 对外承包工程和劳务合作合同数个 合同金额亿美元 7 51879 7 14 营业额亿美元 年末在外人数万人 2 153 6 本文通过衡量外向型经济发展水平的指标体系 运用聚类分析法对山东省 的外向型经济发展区域差异进行实证分析 达到对山东省整体的外向型经济的 整体把握 再通过人工干预的方式 一 聚类分析模型 1 相关参数的建立 聚类分析是直接比较各事物之间的性质 将性质相近的归为一类 将性质 差别较大的归入不同的类 聚类分析事先并不知道对象类别的面貌 甚至连共 有几个类别也不确定 它正是从这样的情形下总结出分类方法 用于对新对象 的分类 在聚类之前 要首先分析样品间的相似性 型聚类分析 常用距离来测Q 量样品之间的相似程度 每个样品有个指标 变量 从不同方面描述其性质 p 形成一个维的向量 如果把个样品看成维空间中的个点 则两个样品pnpn 间相似程度就可用维空间中的两点距离公式来度量 两点距离公式可以从不p 同角度进行定义 令表示样品与的距离 存在以下的距离公式 1 ij d i X j X 1 闵可夫斯基距离 q q p k jkikij XXqd 1 1 按的取值不同又可分成 q 专题讨论实习报告 2 绝对距离 1 q p k jkikij XXd 1 1 欧几里得距离 2 q 2 1 1 2 2 p k jkikij XXd 切比雪夫距离 q jkik pk ij XXd 1 max 2 马氏距离 设是来自均值向量为 协方差为的总体 G 中的维样品 j XXi与 0 p 则两个样品间的马氏距离为 12 jijiij XXXXMd 马氏距离又称为广义欧几里得距离 显然 马氏距离与上述各种距离的主要不 同就是考虑了观察变量之间的相关性 如果各变量之间相互独立 即观测变量 的协方差矩阵是对角矩阵 则马氏距离就退化为用各个观测指标的标准差的倒 数作为权数的加权欧几里得距离 3 兰式距离 p k jkik jkik ij XX XX p Ld 1 1 它仅适用于一切的情况 这个距离也可以克服各个指标之量纲的影0 ij X 响 这事一个自身标准化的量 由于它对大的奇异值不敏感 它特别适合于高 度偏倚的数据 虽然这个距离有助于克服闵式距离的第一个缺点 但它也没有 考虑指标之间的相关性 2 2 模型的建立模型的建立 有了上述距离的定义我们就可以进行系统聚类了 在进行系统聚类之前 我们首先要定义类与类之间的距离 由肋间距离定义的不同产生了不同的系统 聚类法 常用的肋间距离定义有 种之多 与之相应的系统聚类法也有 种 分88 别为最短距离法 最长距离法 中间距离法 重心法 类平均法 可变类平均 法 可变法和离差平方和法 他们的归类步骤基本上是一致的 主要差异是类 间距离的计算方法不同 以下用表示样品与之间距离 用表示类 ij d i X j X ij D 与之间的距离 我们简单的介绍些常用的聚类方法 i G j G 1 最短距离法 专题讨论实习报告 3 定义类与之间的距离为两类最近样品的距离 即为 i G j G ij GXGX ij dD jjii max 设类与合并成一个新类记为 则任一类与的距离为 p G q G r G k G r G ij GXGX kr dD jjii min ij GXGX ij GXGX dd qjkiPjki min minmin kqkp DD min 最短距离法进行聚类分析的步骤如下 定义样品之间距离 计算样品的两两距离 得一距离阵记为 开 0 D 始每个样品自成一类 显然这时 ijij dD 找出距离最小元素 设为 则将和合并成为一个新类 记为 pq D p G q G 即 r G qpr GGG 按上面的式子计算新类与其他类的距离 重复 2 3 两步 直到所有元素并成一类为止 如果某一部距离 最小的元素不止一个 则对应这些最小元素的类可以同时合并 设有六个样品 每个只测量一个指标 分别为试用最短距离法 10 9 7 5 2 1 将他们分类 样品间采用绝对距离法得矩阵 见下表 0 D 1 G 2 G 3 G 4 G 5 G 6 G 1 G0 2 G 10 3 G 430 4 G65 20 5 G87 420 6 G9853 10 表 1 矩阵 0 D 中最小元素是 于是将和合并成 和合并 0 D1 5612 DD 1 G 2 G 7 G 5 G 6 G 成并利用公式计算新的距离得下表 8 G 专题讨论实习报告 4 7 G 3 G 4 G 8 G 7 G0 3 G30 4 G5 20 8 G7 420 表 2 矩阵 1 D 在上式中于是将合并成一个新类 得下表 2 4834 DD 843 GGG 9 G 7 G 9 G 7 G0 9 G30 表 3 矩阵 2 D 最后将和合并为 这时所有的六个样品聚为一类 过程终止 9 G 7 G 10 G 最长距离法和最短距离法大体上相似 只是在算类间距时 按照 ij GXGX kr dD jjii max ij GXGX ij GXGX dd qjkiPjki max maxmax kqkp DD max 通过上式以及最短距离法的步骤就可以进行最长距离法的聚类 对于中间距离法 重心法 类平均法 可变类平均法 可变法 离差平 方和法 只是我们定义的距离之间的参数有所不同 以及合并两类时所需的准 则有所不同外 基本原理都是一样的 2 均值聚类分析K 调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析 所 谓逐步聚类分析就是先把被聚对象进行初始分类 然后逐步调整 得到最终分 类 2 均值法是麦奎因提出的 这种算法的基本思想是将每一个样品分配给K 最近中心 均值 的类中 具体的算法至少包括以下三个步骤 将所有的样品分成个初始类 K 通过欧几里得距离将某个样品划入离中心最近的类中 并对获得样品与 失去样品的类 重新计算中心坐标 重复步骤 直到所有的样品都不能再分配为止 专题讨论实习报告 5 均值法和系统聚类法一样 都是以距离远近亲疏为标准进行聚类的 K 但是两者的不同之处也是明显的 系统聚类对不同的类数产生一系列的聚类结 果 而均值法只能产生指定类数的聚类结果 具体类型的确定 离不开实践K 经验的积累 有时也可以借助系统聚类法以一部分样品为对象进行聚类 其结 果作为均值法确定类数的参考 K 3 有序样品聚类 以上系统聚类和均值聚类中 样品的地位是彼此独立的 没有考虑到样K 品的次序 但在实际应用中 有时样品的次序是不能变动的 年龄的顺序是不 能改变的 否则就没有实际意义了 又例如 在地质勘探中 需要通过岩心了 解地层结构 此时按深度顺序取样 样品的次序也不能打乱 3 此时我们对其进行聚类分析就不能打乱次序的进行聚类 对于本文所要阐 述的山东省外向型经济发展数据的聚类分析 不需要进行有序样品聚类 本文 捎带在此不做多的说明 二二 结结论论 根据系统聚类的结果我们可以得到山东省外向型经济发展水平的区域性差 别 以及近几年内的经济发展走向 这样我们可一通过人工干预的手段进行宏 观调控 使得经济能协调发展 以下是结论 由聚类分析结果可以看出 如果分为两类 青岛市是一类 其余十六市是 另一类 如果分为三类 青岛市是第一类 济宁市是第二类 其余十五市是第 三类 如果分为四类 青岛市是第一类 烟台市和威海市是第二类 济宁市是 第三类 其余十三市是第四类 总之 山东省外向型经济发展水平区域差距较 大 东部地区外向型经济发展水平高 中西部地区外向型经济发
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南海区区模初三数学试卷
- 2025年建筑工程类注册安全工程师安全生产专业实务(道路运输安全)-安全生产专业实务(金属冶炼安全)参考题库含答案解析
- 2025年建筑工程类注册安全工程师-安全生产专业实务(其他安全)参考题库含答案解析
- 布娃娃速写课件
- 布乐器课件教学课件
- 女生做高中数学试卷
- 2025年学历类自考公共课思想道德修养与法律基础-高等数学基础参考题库含答案解析
- 巴纳姆效应课件
- 体育用品销售合同风险防范考核试卷
- 2025年学历类自考专业(法律)劳动法-合同法参考题库含答案解析
- 2025-2030中国阿胶行业市场深度分析及发展趋势与投资前景研究报告
- 2025年采购管理专业考试题及答案
- 2025年音乐流媒体平台版权运营与音乐版权交易模式创新报告
- 2025年矿山开采项目社会稳定风险评估及应对策略报告
- 2025至2030年中国硅烷交联剂行业投资前景及策略咨询报告
- 蔬菜购买包地合同协议
- 公益岗考试试题及答案
- 叉车基本技能培训课件
- 2024初级注册安全工程师笔试真题解析
- 工贸企业重大事故隐患判定标准解读
- 2025年语文考试大纲
评论
0/150
提交评论