




已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了 文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 东北师范大学或其他教育机构的学位或证书面使用过的材料与我一同工作的同志对本研究所做的任何贡 献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名至羔孥 日期: 丛2 望:芝:多口 学位论文作者签名o 耋牟 日期: 丛l 望:芝:多口 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东北师范大学有权保留 并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权东北师范大学 可以将学位论文的全都或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、 汇编学位论文 f 保密的学位论文在解密盾适用本授权书) 学位论文作者签名;蝉 指导教师签名: 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 些气 舫心飞 、_ 八i 期:瑚虹互弓。日期:j 叫且岛。 电话: 邮编: 舢0舢9m 7m 5 0舢8 册1 肌y 4 j ; t 摘要 实际生活中,越来越多领域中样本的观测数据具有函数型的特征,需要从函数视角进行分 析在此基础上,与传统分析方法相比较,函数型数据分析较少依赖假设条件,并且它的一个 重要特征是可以求出导函数曲线,从中可以挖掘出更多的信息 本文基于函数型数据的理论,总结了这类数据的基本特征和分析步骤,总结了函数型数据 的聚类方法,分析了各自的优缺点,并对基于轨迹模式的聚类方法进行了部分改进最后将这 些方法应用于广东省2 1 个地级市的从业人口数据的聚类分析中,分析的结果对国家经济决策 的制定具有一定的指导意义 关键词:函数型数据;导函数;区间;聚类分析 a b s t r a c t a c t u a l l y , t h es a m p l eo b s e r v a t i o nd a t ah a st h ef u n c t i o n a lc h a r a c t e r i s t i ci nm o r ea n dm o r e d o m a i n s i tn e e d st oc a r r yo i lt h ea n a l y s i sf r o mt h ef u n c t i o n a la n g l eo fv i e w a n db a s e do n t h i s ,c o m p a r e sw i t ht h et r a d i t i o ne m a l y s i sm e t h o d ,f u n c t i o n a ld a t aa n a l y s i sf e wd e p e n d e n c e s u p p o s i t i o nc o n d i t i o n ,a n di t sm y c h a r a c t e ri sm a ye 赋r a c tt h ed e r i v a t i v ec u r v e ,f r o mw h i c hw e c a nu n e a r t hm o r ei n f o r m a t i c ) n s 7 t h i sa r t i c l cb a s e do nt h et h e o r yo ff l m c t i o n a ld a t a ,s u m m a r i z e dt h i sk i n do fd a t a se s s e n t i a l f e a t u r e sa n dt h eg e n e r a la n a l y s i ss t e p s ,p r o p o s e dt h ec l u s t e rm e t h o d s ,s u m m a r i z e dd i f f e r e n t sa n d t h e s em e t h o d sh a v eb e e nc a r r i e do nt h ee m p i r i c a la n a l y s i st o2 1p r e f e c t u r c q e v c lc i t i e sw o r k i n g p o p u l a t i o nd a t ao fg u a n g d o n gp r o v i n c e ,t h er e s u l t so ft h ea n a l y s i sh a v eac e r t a i ns i g n i f i c a n t t on a t i o n a le c o n o m i cd e c i s i o nm a k i n g k e yw o r d s :f u n c t i o n a ld a t a ;d e r i v a t i v e ;i n t e r v a l ;c l u s t e r i n ga n a l y s i ss t a t i s t i c s i i t , 2 3 函数型数据的校准8 3 函数型数据的聚类分析 1 0 3 i 基于区间的方法 1 0 3 2 基于曲线整体数值模式的方法1 0 3 3 基于曲线整体形状模式的方法1 1 4 实证分析1 3 5 总结2 2 参考文献2 3 附录2 5 致谢2 7 i i l i v , 东北师范大学硕士学位论文 引言 数理统计学是数学一个重要的分支它研究如何有效地收集、整理和分析带有随机性的数 据,以对所考察的问题作出分析或预测,直至为采取一定的决策和行动并提供依据和建议数 理统计学在工农业生产、工程技术、自然科学、经济学、社会学等领域都有着很广泛的应用, 大量的实际问题都属于数理统计学的研究范围:1 1 在传统的统计数据分析中,数据一般要么是时间序列数据,要么是横截面板数据然而随 着信息技术的高速发展,人们获取样本数据的能力大幅度提高,数据出现了各种形式各异的复 杂类型越来越多的具有函数特征的数据,需要人们用较好的方法进行处理 许多领域( 如生物,工业等) 收集到的观测数据都是具有函数特征的这样的例子包括人 体成年前的身高变化,空气质量的变化过程,工业生产中的食物p h 值的变化过程,多个地区 的年度外贸交易额数据,股票综合指数,银行的各分支机构多年的露交易量,交易额等交易数 据等等 函数型数据分析( f u n c t i o n a ld a t aa n a l y s i s ) 的概念,最早来自于论文”函数型数据分析的 一些工具”,这是由加拿大统计学家r a m s a y 和d a l z c l l 共同发表的近二十年来,面向函数型数 据的挖掘已经引起了国内外学者的关注,并取得了许多有价值的结果,如w e n c e s l a og o n z a l e z m a n t e i g a 等学者详细分析了函数型数据的统计方法问题,包括点估计、因子分析、函数型数据 拟合曲线的分类问题;r a m s a y 和s i l v e r m a n 于1 9 9 7 年出版了f u n c t i o a ld a t aa n a l y s i s ,书中 全面阐述了函数数据的基本特征及其统计分析的方法、思想,极大地推动了函数型数据分析这 一领域的发展后来这二位学者于2 0 0 2 年出版了a p p l i e df u n c t i o n ad a t aa n a l y s i s :m e t h o d s a n dc a s es t u d i e s ,书中对函数型数据进行了实证方面的应用,开创了函数型数据在实际生活 中的应用但是,关于函数型数据分析的研究在国内仍处于起步阶段,许多问题还有待于做进 一步研究澎【3 】 统计学中的分类问题具体包括聚类分析,也叫无监督分析,和判别分析,与聚类分析区 别,也叫有监督分析和群组比较等多种问题,其中聚类的方法问题为学者研究的热点 函数型数据聚类分析是通过建立一种分类方法,使得将具有函数性质的对象按照某种相 似程度进行分类这类问题国外许多学者都进行了研究,;j u a na n t o n i oc u c s t a - a l b c r t o s 等 提出了基于均匀修正函数的k m e a n s 聚类方法,并在实际应用中取得了良好的结果; s o p h i e d a b o n i a n g 等研究出了一种基于函数模型的比较结果的层次聚类方法,这种方法较好的应用 于雷达声波数据的聚类分析中;j a m e s 和s u g a r 探索了稀疏样本的函数型数据的聚类问题, 1 东北师范大学硕士学位论文 方法为将函数型数据用b 样条基函数拟合,对系数向量建立随机效应模型,然后利用b a y c s 等方法对系数向量进行聚类,进而对醢线进行聚类;e s c a b i m s 等提出了一种基于部分最小平 方的逻辑斯蒂回归模型,并将它应用到了多元函数数据的分类问题当中 在传统的多元统计分析理论中,聚类分析的基本思想是基于比较样本点在数据空间中的 。疏密程度进行的聚类方法的核心都是通过计算出样品之间的距离来进行聚类的对于一个一 维的函数数据样本点i 和j ,它们之间的欧式距离可以定义为: d i ,j = l ( y d t ) 一y a t ) i 其中,样本i 的数据取值为y i ( t ) ,样本j 的数据取值为y j ( t ) 从上面的距离表达式子,可 以发现,由于聚类的数据是函数型数据,使得两个样品间的距离是一个关于t 的函数,它是动 态的,大小随着t 的变化而变化这样就使得我们无法判断样品间距的大小,无法直接进行聚 类因此针对函数型数据的性质,有必要改变传统聚类方法,提出新的适合函数型数据的聚类 分析方法 本文主要研究函数型数据研究诸多问题中的分类闻题,总结了函数型数据聚类的常用的 方法,并提出了一种根据数值形状模式的聚类方法,该方法克服了基于数值模式的相似性聚类 的不考虑轨迹形状的缺点,函数型数据聚类分析有很好的现实意义 2 东北师范大学硕士学位论文 1函数型数据的基本特征和分析步骤 1 1基本特征 在现实生活中,我们对n 个个体进行观测,得到数据y ( t j ) ( i = 1 ,2 ,;j = 1 ,2 ,正) ;。 传统分析称它们为“面板数据”【2 习惯上我们常把t 看做时间,作为记录观测值的一个连 续统,当然,实际应用中也会涉及其它连续统,如空间、位置、重量等我们认为存在一个 潜在的连续光滑函数产生了这些观测值玑( f ) ,所以称之为函数型数据这个光滑函数记为 s ( t ) ,i = 1 ,。,其中,n 表示观测曲线的个数由于& ( f ) 的信息是在有限个点正上收集 到的,因此函数型数据分析的基本统计模型可以写成: y i j = s i ( t j ) + e t ( f j ) i = 1 ,2 ,;j = 1 ,2 ,正 1 2分析步骤 由于观测和记录到的函数型数据的形式是离散的和有限的,这类问题解决的一个自然想 法是将每条曲线的观测数据看作向量来处理,然后应用直接的聚类算法( h a r t i g a n ,1 9 5 7 ;d i d a y e ta l ,1 9 8 3 ) 然而这种方法存在许多缺点如果n 条曲线的指示集合并不完全一样,这种方法 就失效了;如果得到大量的观测值,这种方法会给计算机模拟产生困难;再者,由于存在观测 误差,直接的方法并没有用的函数型结构因此有必要在保持函数数据结构的条件下对观测到 的数据进行分类为了保持指标集( 通常表示时间) 的结构,首先想到用线性或非线性参数模 型来拟合曲线 4 i 第1 步,将离散的观察数据转化成为函数,方法为对其进行插值或拟合 利用某次观测i 的离散数据估计出一个潜在的函数& ( nf 正:根据它可以获得区间【0 ,正 上的所有值如果获得的离散数据没有误差,那么称这一过程为插值;如果获得的离散数据存 在观测误差,并且要求把这些误差消除掉,那么将这些离散的数据进行函数型转换时,就需要 对数据进行光滑处理,这一过程成为平滑常用的平滑技术有基函数法、粗糙惩罚法和局部 加权平滑法疆 基函数平滑法是选定一组基函数( t ) ( 仇= 1 2 ,m ) 的线性组合来信计函数s ( z ) , 即 m 雪( z ) = fa m ( ) 3 东北师范大学硕士学位论文 基函数的选择要考虑三个基本的问题: 一是对函数的拟合程度是否精确;二是一阶或者多阶导数的估计的要求,因为d 。s ( t ) = 袅1o 。d 2 风( ) ,其中d 岛( ) 表示函数的k 阶导数;三是运算量的大小傅里叶基和b 一样条 基是迄今为止最为重要的两个基函数,大多数实际问题可以用它们进行处理二者的不同屉: 前者适用于周期性函数数据,后者适应于非周期性的函数数据 粗糙惩罚法通过在曲线估计的过程中引入粗糙惩罚项,在待估计的曲线对数据的拟合程 度与曲线的局部变化程度,即粗糙程度之间进行取舍,实现对二者的控制,进而找到最佳的平 衡点粗糙惩罚的方法主要包括样条光滑和正则化基法 局部加权平滑法是通过加权函数的定义使得靠近欲估计的点的观测值对函数产生主要的 影响,从而使得局部依赖更加的清晰常用的方法为k e r n e l 光滑法和局部多项式光滑法 第2 步,对曲线进行曲线校准或特征对齐 为了使得曲线的纵向变化和水平变化更容易识别,在对函数型数据进行深入分析之前,需 要对数据进行数据校准或特征对齐 第3 步,对数据特征进行描述 为了进一步掌握函数型数据的特征和规律,便于深入分析,需要找到能够反映数据特征的 代表值函数型数据的统计量包括均值函数、方差函数、协方差函数、相关函数以及交协方差 函数和交叉相关函数等等。这些是进行函数型数据特征分析的基础用z - ( f ) :z 2 ( f ) ,x n ( t ) 表示n 个个体的函数型数据,相关统计量公式如下: 均值函数: 牙( ) = n 一1f 扎( t ) , i = 1 方差函数: t ,a t 。( ) = ( 一1 ) _ 瞰t ) 一雷( f ) 1 2 = l 协方差函数: c o l j 。( t l ,t 2 ) = ( 一1 ) 一1 ( 1 ) 一2 ( t 1 ) ) ( 一牙( t 2 ) 相关系数: m ( t 。jt 2 ) = c o y ,( t 。,t :) “面鬲而元两 函数z ( ) 和( f ) 的交叉协方差函数: ( 妣舶t 2 ) = ( 一1 ) 一1 i x t ( t ) 一孟( 1 ) 【玑( z 2 ) 一淝) f = l 4 东北师范大学硕士学位论文 函数z ( t ) 和y ( t ) 的交叉相关函数: p x , u ( l :t 2 ) = c o u 铷( t l ,2 ) 5 - _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ _ - - _ 一 、z ,n 如( 1 ) v a r u ( t 2 ) 东北师范大学硕士学位论文 2函数型数据的初步处理 函数型数据的分析是把这些离散的点看成一个整体,数据的函数型指的是函数的内部结 构是函数型的,并不是数据的外在显示我们观测和记录得到的都是离散的数据,所以首先要 估计出数据背后隐藏的相应的函数,也就是对观测数据进行光滑化,这样才可以利用函数的单 调性等性质去分析其特征【6 【t 2 1待估函数模型 对于观测或记录第i 个样本在时刻j 得到的数据,一般建立线性模型: 秒巧= & ( 岛) + t ( 如) , i = l ,:;j = 1 ,:正, 其中, ( z f ) 为随机误差,代表观测数据时的扰动因素、误差或者其他外在的因素一般假定 ;池) 服从均值为零,方差有限或者等方差的独立正态分布 2 2基函数平滑法 基函数法是用m 个已定义的基函数( t ) ( ,n = 1 :m ) 的线性组合来拟合出函数s ( z ) 的估计s ( z ) ,即: 雪( z ) = a m 如( t ) , m = 1 在这种方法中,要解决的是基函数的选取和系数向量万= ( a 1 一,n m ) 这两个问题i s ( 一) 、基函数的选取 基函数的选择对于模型的好坏起着重要的作用,如果取得较适合的基函数适,不但可以对 原始数据进行极好的近似,极大的减少运算量,并且对于函数本身的处理,如求导等都提供方 便常用的基函数有多项式基、b 样条基、傅里叶基等 ( 1 ) 多项式基:多项式基是由变量t 与固定常数口的0 次到p 次的多项式组成的,即为: , f i ( t ) = ( f 一伊) o ,( t 一口) 1 ,一,( f p ) p ) , 这里基函数的个数等于p + 1 所以得到的估计函数形式为: 雪( z ) = 伽+ n 1 ( 一目) + n 2 ( t 一目) 2 十+ a p ( t 目) p 6 l 东北师范大学硕士学位论文 采用这种基的一个缺陷是会产生一个趋近奇异的交叉乘积矩阵,且参数1 5 i 的选择也是个不 好解决的问题在p 不够大的情况下,多项式基无法把数据的真实局部特征展现出来,并且 当欲对得到的函数求导数时,虽然多项式基计算很简答,但是通常并不应用,因为高阶多项式 拟合通常伴随着高频率的局部震荡 ( 2 ) 傅里叶基:傅里叶变换广泛应用于数学、物理学、统计学、密码学、声学等领域某 些满足一定条件的函数能通过傅里叶变换表示成三角函数( 正弦函数或者余弦函数) 在函数 型数据分析中,依据傅里叶基得到的拟合函数形式为; s ( x ) = a o + n 】s i n w t + a 2c o s w t + a 3 s i n2 w t + a 4c o s2 w t + j 其中,z o ( ) = 1 ,岛,一1 ( t ) = s i n r 。l ,岛,( ) = c o s r w t 傅里叶基具有周期性,其周期为2 7 r 傅里叶基具有的优点为:傅里叶变换是线性算子,具有线性算子的所有优良性质;系数可 用通过傅里叶变换算法( f f t ) 迅速的求出,这一特征使得傅里叶基方法成为较经典的方法; 通过傅里叶基拟合的函数的导数估计比较简单由于d s i m 。= c 0 8 7 ,d c o s ,。= 一s i n r ,所以拟合 函数的一阶导数的傅里叶基系数b = ( 0 ,一a 2 u ,n l u ,一2 ( l 4 u ,2 a 3 0 ,) ,二阶导数的傅里叶基系 数为f = ( 0 ,一a l 。2 ,一a 2 。2 :- - 4 a s 叫2 一4 0 4 。2 ,) 但是当函数为局部特征不明显的极其稳定的函数时,或者某些不连续的或低阶导数不连 续的函数时,傅里叶基不适用 ( 3 ) 多项式样条基,多项式样条基是由多项式组成的基底,这些基底要满足零次样条函数 在结点不连续,一次样条函数是分段的线性函数,二次样条函数满足一阶导数连续的分段函 数为了曲线看起来比较光滑,一般选择三次样条函数,因为它的一阶导数和二阶导数均连续 f 1 1 实际运用中,一般采用b 一样条基【1 2 ,因为b 一样条基具有很好的控制局部特征的能力, 满足紧支撑性由线性空间的理论,空间中的任一样条函数s ( z ) 均可用表示为: 为截幂函数 7 q 汜 + 巧 一 扛 0 0 勺 八| 州芦 z z + z o 矿r _ 、,- l = 。脚 “ = z , s 中其 东北师范大学硕士学位论文 样条函数空间s ( m :) 有一种计算简便,应用广泛的基底,它就是b 样条基底设魏,i = l ,是节点序列,称 = ( x j + m x j ) 善篆苦 为第j 个m 阶b 样条函数其中屿m ( z 膏) = r i 彗;:名七( 钆一) 多项式样条基克服了多项式基 和傅里叶基的局部特征不明显的缺点 ( 二) 、系数向量的估计 对观测数据用基函数法进行曲线拟合时,曲线的光滑程度由基函数的个数决定在基函数 已经选取的条件下,每个函数完全由系数向量万= ( n 1 7 一:a m ) 7 确定 估计系数a 的方法一般采用最i j 、- 乘法,即使残差平方和: s m s s e ( y a ) = ( y o 木p ) 7 ( 可一n 幸p ) = l i 可一0 丰l f , 其解为: n = ( 多7 声) 一1 7 y 所以,拟合的曲线可以表示为: s ( t ) = z ( 9 7 声) _ 多7 y 2 3函数型数据的校准 不同个体在时间点t 的值s ( ) 不同,可以由两种情况解释:第一,由于个体差异,s 1 ( t ) 和8 2 ( z ) 从本质上就不同,将这种情提称为垂直变化;第二,由于函数s z ( t ) 和函数s 2 ( t ) 在自 变量t 上存在着错位,不应该在变量t 的相同点进行比较,将这种情况称为水平变化 所以,在对多样本的函数性数据进行分析之前,要先确定曲线是否需要进行校准通过曲 线校准,能够使得不同曲线的特征在变量值差不多相同的点处表现出来曲线校准可以分为两 种类型,即移位校准和里程碑校准标记要校准的区间为【丁1 ,乃3 = t 移位校准是曲线校准中最简单的校准方式,是将变量t 平移一个常数砂,使得观测瞳线 对于要研究的数据相对校准用公式表示移位校准为; s ;= s l ( f + 如) 8 i0k m 仃 吖删 一 协 。硝 | | ,= = 、加 ess砒s 觏式形的阵矩成示表= = 最 l 东北师范大学硕士学位论文 其中,蛾表示移位参数对于不同的曲线,需要根据具体情况选择合适的移位参数估计晚 可以通过一些方法实现首先,估计总的平均函数( t ) ,t e t ;其次,找使得下面的r e g s s e 最 小的晚: t , n p 船s 肚善肚h 晚卜印脚2 善小。 脚 里程碑校准又称特征校准,是指根据曲线的某种特征进行校准,如极值或零点等里程碑 校准过程常常会涉及到变量t 的非线性变换h ,里程碑校准的公式表示为: s ;= s t ( 7 k ( z ) ) 估计h 。的方法如下: ( 1 ) 对每个函数求出它的里程碑点和各点对应的函数值; ( 2 ) 对每个函数,估计出它的第歹,j = l ,j 个里程碑鲁变量对应的样本平均函数的第j 个 里程碑此时的函数值,记为t j 计算h ;时,要求 ( 五) = 乃,h i ( t 2 ) = t 2 :h i ( j ) = t o j = 1 ,; ( 3 ) 利用插值法计算函数h i 可以看出,经过变换,各个函数在里程碑处大体对齐 9 东北师范大学硕士学位论文 函数型数据的聚类分析 在对函数型数据进行完上述的初步处理之后,下面就可以根据不同的聚类方法对数据进 行聚类分析【8 在本文中,主要研究基于区间的聚类方法、基于曲线整体数值模式的聚类方法 和基于曲线整体形状模式的聚类方法这三种方法 3 1基于区间的方法 这种方法通过分析数据的函数型特征,对拟合生成的光滑函数进行求导,从而确定出函数 的里程碑( 这里是极值点和拐点) 通过这些里程碑点将函数数据进行区间的划分,在每个小 区间上研究曲线的趋势,从而对数据进行区间聚类1 3 : 首先,这种方法可以对单样本进行区间聚类方法为:首先求函数的一阶导函数,求出极 值点这样可以将单个样品的具有上升和下降的不同趋势的分开,即可以将不断增加的区间聚 成一类,将不断减少的区间聚成一类如果根据极值点得到的距离个数太少,对区间划分过于 粗糙,那么可以在聚好类的单调区间中,求出每个函数的二阶导数,即数值变化的加速度,并 且可以得到拐点,根据拐点对区间进行更细一步的划分,对已经聚在一起的单调区间内的数据 进行聚类 其次,这种方法可以对多个样品进行区间的聚类方法为:首先,对拟合函数求导函数, 得到每个样品的极值点,然后将这些极值点按照从小到大的顺序排列起来,利用这些极值点对 函数的定义域进行分划,这样保证在每一个区间上,曲线都是单调的,这样就可以应用曲线的 变化速度在每个区间上对样品进行聚类了如果要聚类的样品比较多,那么根据极值点得到的 区间聚类结果,比较多的样品聚在一个类中,结果较粗糙进一步的,对于上述得到的每个区 间,可以求出每个函数的二阶导数,根据嗑线的加速度对样品进行更加细致的聚类 3 2基于蓝线整体数值模式的方法 这种方法分成基于模型的方法和基于距离l 。的聚类方法 基于模型的方法是假定数据来自于某种潜在的生成过程,首先要先根据观测到的数据对这 种生成模型进行估计,然后测量模型系数之间的相似性,并对它们聚类 1 3 m :f 圳常用的模型 形式有多项式混合模型,马尔科夫链模型,a r m a 模型和a r ,i m a 模型实际中,要借助模型 识别技术来选择合适的模型来应用,这一方法有很多文献,如b a g n a l 等,g a f f n e y 和s m y t h 是基于多项式混合模型的;m a h a r a j ,t o n g 和d a b a s 是基于a r m a 模型进行聚类的;p i c c o l o 是基于a r i m a 模型进行聚类的j a m e s 和s u g a r 研究了稀疏样本的函数性数据的聚类问 1 0 东北师范大学硕士学位论文 题,方法是通过基函数对每条瞳线展开,进而将无限维曲线的研究转化的研究有限维数的系数 向量,然后对这些系数向量建立随机效应模型,根据模型进行聚类 基于距离l p 的方法的研究文献有h a l l 和h c c k m a n :a b r a h a m 等提出的基于距离的距离 方法只有在所要进行聚类的函数s 1 ( z ) ,s n ( z ) ,之间形状近似的时候才能用,这是因为判 别归类的准则依赖于距离k 的值假设时间t 在【0 , 1 】闻变动,曲线间的距离表示为: p 1 k = ( f ) 一两( 妒d ( t ) ) 1 p i j = 1 , t ,0 p = 2 时较常用,即: p 1 l 2 = 童( ) 一s ( ) 2 d ( e ) ) 1 2 z ,j = 1 , 0 基于曲线数值模式的聚类有很多缺点:第一,当样本间的观测时间不同时,单单考虑眭线 数值模式就不可行了;第二,这种聚类方法只限于观测样本数据整体的相似性,样本在某个时 间段处细致的相似性未进行合理的分析 3 3基于曲线整体形状模式的方法 “ 基于曲线整体形状模式的方法主要研究文献有c h i o d o ,z a m a r ,s a l v a t o r ci n g r a s s i a 等学者 提出基于轨迹形状的非参数聚类法,可用于当观测样本间在不同时闯取值的情形;h c c k m a n 和z a m a r 提出的基于秩的聚类方法,该方法通过单调性的转换来对曲线进行聚类分析;c e r i o l i 等提出了基于里程碑的方法,对数据进行聚类,并将该方法应用于高频的金融时闫穿列的聚类 分析其中里程碑是表述曲线形状的重要工具【1 6 】【1 7 】! 璀 基于以往给的相似性测量方法过于粗糙的缺点,这里提出一种基于里程碑的函数性数据 相似性测量的方法 假设函数s ( z ) 具有一阶导函数,假设其极值点个数为k ,令丁( s ( z ) ) 为函数s ( x ) 的极值 点对的集合,即丁( s ( z ) ) = ( t l ,s ( ,) ) ,( t 2 ,s ( f z ) ) ,( t k ! s ( t k ) ) ) 定义:一阶导函数存在的两个函数s f ,岛,如果丁( s i ( z ) ) = 丁( s j ( 叫) ,则称这两个函数为t 等价的 可知,当8 i = 勺时,必有丁( 6 i ( 丁) ) = t ( s j ( x ) ) ;反之,当丁( 岛( ,) ) = t ( s j ( x ) ) 时,虽 然两个函数不一定相等,但是二者仍具有某种相似性,本方法就应用这种相似性对数据进行聚 类 总结算法的步骤如下: 第1 步,估计出未知的函数s ( z ) 东北师范大学硕士学位论文 第2 步,求每条曲线的极值点,得到极值点的坐标为( tz ,s ( f ( z ) ) ) 并且判断出此极值点为 极大值还是极小值 第3 步,计算两条曲线间的距离距离公式的定义如下: 反,:三兰! 笪丝二型:坠尘坐鲨銎! 笪生! 燮堕尘尘丝 。 g i 十i z i 说明: 对于函数s t ( z ) ,它的极大值点的集合为 似i :叫;j ,w g i ,极小值点的集合为 口i :v ;:。) , g ;h ;分别为极大值点和极小值点的个数对任意的f ( f = 1 ,g i ) ,耐7 为勺( z ) 的所有极大值 点中的离w ;最近的点,相应的对任意的f ( f = 1 ,k ) , ;7 为勺( z ) 的所有极小值点中的离t ,; 最近的点用公式表示为: 耐7 = t 7 :m i n l w ;一1 冬= 1 ,毋) - 1 ,g i ; 曰7 = 口:m i 竹i v ;一u ;| ,忍= 1 ,心) l = l ,一jh 。 同样,可以定义曲线s j ( x ) 对曲线s i ( x ) 的距离白i 两条曲线的极值点并非一一对应,所 以d i j 与d ,i 并不一定相等为了保证测量的一致性和唯一性,需将二者取平均,所以一阶导 数间的相似性可以用距离 d i j - 学 来衡量 据此距离公式,当8 l 与s j 形状完全一样时,d = o ,形状差的越多,d 越大,进而可以 衡量益线间的相似性,从而达到将蓝线进行聚类的目的下面证明上面定义的距离的合理性 ( 1 ) 正定性显然d i ,0 恒成立,若d t j = 0 ,则可知每一个平方项都必须为零,所以 每条曲线的极值点都相等,且极值点处的取值也都相等,即s i ( x ) 与s j ( x ) 是t 等价的 ( 2 ) 对称性对于任意的两条曲线,有d 巧= 1 ) j ( 3 ) 三角不等式对任意的f ,d u d i + d r 3 都成立,所以上述定义的距离是合理的, 故可以进行曲线间相似性的判断 。 第4 步,根据第3 步的结果,对瞳线进行聚类分析 1 2 东北师范大学硕士学位论文 4实证分析 本节主要是综合应用上面所介绍的三种方法,给出具体的聚类过程,并进行实证分析所 选例子为广东省2 1 个城市在2 0 0 0 年到2 0 0 8 年闻每年的就业人数数据,如表( 1 ) 其中2 0 0 1 年由于采用特殊的统计方法,得到的数据与其它年份不相匹配,没有包含在内 观测到的序歹i 记为妨= ( 1 ,z 识) ,i = 1 ,由于观测到的数据不需要进行变换,直 接采用基函数展开法估计出潜在的函数s i ( t ) ,i = 1 ,n ,这里采用b 一样条基。基于m a t l a b 编写的程序,绘出2 1 个城市的拟合曲线图( 1 ) 为光滑化的拟合曲线 表( 1 ) 序号城市 2 0 0 02 0 0 22 0 0 32 0 0 42 0 0 52 0 0 62 0 0 72 0 0 8 1 广州 5 0 3 6 9 5 1 4 0 85 2 1 0 7 5 4 0 7 1 5 7 4 4 66 0 9 0 46 6 4 0 97 1 4 5 4 2 深圳 3 0 8 5 03 5 9 3 04 2 2 2 94 5 6 0 85 7 6 2 66 4 7 5 26 5 5 5 86 7 0 4 2 3 珠海 7 8 9 08 8 3 08 8 7 99 1 4 09 4 o l9 8 4 39 9 4 71 c f l 5 0 4 汕头 2 0 7 1 32 0 6 5 81 6 3 4 9 1 7 4 4 91 7 9 8 11 8 2 1 11 8 6 8 72 3 8 7 6 5 佛山 1 9 3 5 02 0 5 7 42 8 6 3 92 9 3 5 13 4 8 6 93 5 0 7 7 3 5 8 8 8 3 6 1 5 9 6 韶关 1 4 2 2 01 4 3 4 01 4 4 6 01 5 2 9 11 3 8 4 41 3 8 7 81 3 9 9 51 4 0 1 4 7 河源 1 5 1 0 51 5 2 6 81 2 0 4 81 2 5 3 4 1 1 8 2 01 2 2 0 31 2 6 5 31 2 9 8 l 8 梅州 2 0 7 2 3 2 0 9 0 62 0 9 4 3 2 0 9 7 92 11 9 82 1 2 8 52 1 4 7 92 1 7 5 1 9 惠州 1 8 6 7 02 1 6 5 52 0 6 6 72 1 2 9 22 2 2 6 22 2 7 0 12 3 4 7 62 4 1 0 9 1 0 汕尾 1 3 6 0 11 4 1 3 01 1 1 8 31 1 6 3 51 1 7 7 81 2 6 3 31 3 1 4 5 1 1 9 9 2 1 l 东莞 9 7 8 81 0 4 i 0 1 8 3 9 73 0 3 7 83 8 8 1 34 2 7 2 54 3 3 2 9 4 3 9 1 8 1 2 中山1 2 2 4 51 3 1 6 41 4 4 7 21 8 2 9 81 8 8 8 51 9 3 4 72 0 2 5 52 0 3 7 5 1 3 江门 2 0 8 6 82 0 9 9 92 0 2 6 72 0 9 5 52 1 4 5 32 2 1 9 42 3 3 2 52 3 3 7 9 1 4 阳江 1 2 9 5 71 4 7 6 l1 4 2 2 91 4 6 5 21 4 6 6 31 4 8 1 11 5 1 4 01 5 6 2 l 1 5 湛江 3 1 4 8 7 3 1 5 7 02 9 5 4 1 2 9 9 8 53 0 5 0 03 1 2 2 63 1 2 4 93 1 2 6 0 1 6 茂名 2 7 9 3 12 8 8 0 32 8 0 4 22 8 3 9 12 8 7 3 63 0 3 3 43 1 4 9 23 3 2 9 4 1 7 肇庆 2 0 2 6 32 0 4 3 91 9 3 8 62 0 1 3 42 1 5 0 52 1 6 9 l2 2 0 4 02 3 8 3 9 1 8 清远1 7 8 7 6 1 8 6 2 41 8 3 3 41 8 5 9 71 9 5 9 52 0 8 9 8 2 1 5 1 51 7 2 9 7 1 9 潮州1 2 1 0 01 2 2 9 0 1 2 4 7 1 1 2 7 5 91 2 9 1 81 3 1 5 71 3 3 2 71 3 6 9 3 2 0 揭阳 2 5 3 7 92 6 9 3 22 6 2 6 62 5 3 9 72 5 3 7 02 5 4 3 02 5 5 2 32 5 5 5 1 2 1 云浮 1 3 1 2 01 3 0 6 01 0 6 8 51 1 0 5 81 1 4 3 01 1 5 0 6 1 1 6 4 6 1 3 4 4 0 说明:此数据表来源于中国广东省统计年鉴( 2 0 0 9 ) ,中国统计出版社;单位:万人【蚓 1 3 东北师范大学硕士学位论文 图( 1 ) 利用m a t l a b 可以求它们的一阶导函数,如图( 2 ) : 图( 2 ) 下面分别用第三节的函数型数据的三种方法进行聚类分析 ( 一) ,基于区间的方法 这里选取其中的十个城市进行分析这些城市为广州、深圳、珠海、佛山、中山、汕头、 韶关、惠州、江门、湛江 首先求出导函数的零点,将每个样品的年份进行区间划分,并研究其单调性,具体结果见 表( 2 ) ( 下页) 其中,+ 表示人数在此区间单调增加,一表示人数在此区间单调减少 1 4 东北师范大学硕士学位论文 表( 2 ) 城市分析的结果 广州、深圳、珠海, 佛山、中山 【2 0 0 0 :2 0 0 s + 汕头 【2 0 0 0 :2 0 0 1 ) + f 2 0 0 1 ,2 0 0 2 ) 一【2 0 0 2 2 0 0 s + 韶关 【2 0 0 07 2 0 0 2 ) + 2 0 0 2 :2 0 0 3 ) 一【2 0 0 3 ;2 0 0 4 ) + 2 0 0 4 :2 0 0 5 ) 一 2 0 0 5 ,2 0 0 s + 惠州 2 0 0 0 ,2 0 0 2 ) + 【2 0 0 2 2 0 0 3 ) 一 2 0 0 3 ,z o o s + 江门 【2 0 0 0 ,2 0 0 1 ) 一【2 0 0 1 ,2 0 0 2 ) + 2 0 0 2 :2 0 0 3 ) 一 2 0 0 3 j 2 0 0 8 + 湛江 【2 0 0 0 ,2 0 0 1 ) 一 2 0 0 17 2 0 0 2 ) + 【2 0 0 2 j 2 0 0 3 ) 一 2 0 0 3 :2 0 0 s + 根据上述的函数特征分析结果,就可以得到每一个函数的区间的划分临界点,将这些临界 点按从小到大的顺序依次排列起来,利用这些顺次排列的临界点得到这1 0 个函数的划分区间 为: 2 0 0 0 :2 0 0 1 ) 、 2 0 0 1 :2 0 0 2 ) 、 2 0 0 2 :2 0 0 3 ) 、【2 0 0 3 :2 0 0 4 ) 、 2 0 0 4 ,2 0 0 5 ) 、 2 0 0 5 2 0 0 s 这样,就可以在每个区间上根据函数的单调性对1 0 个城市进行聚类分析,得到结果如下 表( 3 ) 其中的”+ 、一”表示意义同表( 2 ) 为了表示简洁,这里取各个城市名字的第一个字来 表示相应的城市 聚类结果: 表( 3 ) 区间聚类结果 意义 2 0 0 0 ,2 0 0 1 ) 广、深、珠、惠、汕,佛、中、韶+ 江、湛 2 0 0 1 ,2 0 0 2 广、深、珠、惠、江、湛、中、韶、佛 + 汕头 【2 0 0 27 2 0 0 3 ) 广、深,珠、佛、中、汕+ 韶、惠、江、湛 【2 0 0 3 ,2 0 0 4 ) 全部+ 【2 0 0 4 2 0 0 5 ) 广、深珠、佛、汕、中、惠、湛、江+ 韶 2 0 0 5 ,2 0 0 8 】 全部+ 从以上结果可以看出第一种方法的一个缺点:当聚类的城市很多时,会得到很多的临界 点,进而得到很多的区间,结果较繁琐然而,从函数整体上考虑就可以解决这个缺点,下面 1 5 东北师范大学硕士学位论文 用第二种方法对此问题进行聚类分析 ( 二) 、基于曲线整体数值模式的方法 用m a t l a b 软件编出程序,运行得出谱系聚类图: 图( 3 ) 从图( 3 ) 中可以将上述2 1 个城市按照数值的相似性聚类,如果聚成四类,各类城市就业 人口数量轨迹如图( 4 ) ( 5 ) ( 6 ) ( 7 ) 图( 4 ) 图( 5 ) 1 6 东北师范大学硕士学位论文 图( 6 ) 图( 7 ) 聚类结果及分析: 第1 类包括广州、深圳广州和深圳属于一线城市,拥有众多的企业单位,工作机会最 多,集中着较多的人口且随着近几年大学生毕业人数的增多,许多人怀有去一线城市打拼的 梦想,向往一线城市的繁华,造成广州和深圳的城市规模越来越大,人口越聚越多在有着” 世界制造业基地”之称的珠三角地区分布着众多中小型外资企业和中小民营企业,提供大量 的劳动密集型工作,吸引着来自全国的打工者,比如据统计,深圳是全国农民工最多的城市, 所以这两个城市聚为一类; 第2 类包括东莞东莞毗邻港澳地区,在发展外向型经济的过程中有着无可比拟的优势 近几年来,东莞经济迅猛发展,国内生产总值年均增长百分之二十二,综合实力进入全国大中 城市3 0 强; 第3 类包括佛山东莞和佛山同为广东省经济发展最快的两个市,但是二者又有所不同, 体现在东莞的就业人口数目是平稳增长的,而佛山波动较大,所以二者各自聚为一类佛山从 2 0 0 2 年开始大幅度的引进外资,在大力支持民营经济的基础上,加上三资企业纷纷”扩股”, 这些为佛山经济发展带来了新的活力,为佛山创造了更多的工作岗位,导致就业人口数量急速 1 7 东北师范大学硕士学位论文 增加佛山与广州地理距离很近,从业人员逐渐从广州向佛山转移 第4 类包括珠海、汕头、韶关、河源、梅州、惠州、汕尾、中山、江门、阳江、湛江、茂 名,肇庆,清远、潮州、揭阳、云浮。这几个城市属于中小城市,无论从城市规模,还是从企 业数量上,都构不成对劳动者的强大吸引力,所以从业人口 数量虽然有所增加,但比较缓慢 所以将它们聚为一类酬 - 下面应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 16263.2-2025信息技术ASN.1编码规则第2部分:紧缩编码规则 (PER) 规范
- 2025年法学与中国文化研究考试试题及答案
- 影视剧联合制作及发行协议
- 快乐的游戏活动记事件作文14篇范文
- 如何学好语文议论文10篇
- 2025年铅压延加工材项目立项申请报告
- 2025年香港特别行政区事业单位招聘考试计算机类综合能力测试试卷详解
- 2025年新光源助航灯光设备项目申请报告
- 2025年雷达、无线电导航及无线电遥控设备项目立项申请报告
- 2025年辅导员招聘考试题库:学生心理健康测评方法与技巧案例分析试题
- 2023年中国收藏卡市场研究报告-2023
- 《银行业风险管理》课件
- 工程伦理 课件全套 李正风 第1-9章 工程与伦理、如何理解伦理- 全球化视野下的工程伦理
- 2024版网络安全攻防演练与实践分享培训课件
- 餐饮服务质量保证措施
- 美国FDA-21CFR820法规培训
- 报名统计表格
- 乒乓球循环赛积分表决赛
- 精神发育迟滞的护理查房
- 概率论与数理统计10大案例
- 设备找正找平-课件
评论
0/150
提交评论