




已阅读5页,还剩46页未读, 继续免费阅读
(计算机应用技术专业论文)商空间粒度计算理论在农作物产量预测中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 农作物产量预报是重要的农业气象业务服务内容。但目前在农业气象服务 和产量预测中所使用产量预测模式与方法,很难满足当前农业气象业务服务需 求,迫切需要更新、完善和新方法的补充。 本文以商空间的粒度计算理论和构造性机器学习方法为工具,以主要农作物 ( 冬小麦) 生长过程中气象条件对产量影响的历史数据为研究重点,确定主要农作 物生长发育关键时期的农业气象服务指标,建立、完善和优化淮河区域主要农作 物产量的农业气象预报模式,提高农作物产量预测水平。 根据气象时间序列的特点,在商空间粒度计算理论框架下,采用周、旬、月 及混合粒度等多种粒度,本文从不同的层次分析了光、温、水分及其它环境气 象数据信息对农作物产量的影响。通过分析,以灰色模型g m ( 1 ,1 ) 与构造性机器 学习方法( 交叉覆盖算法) 相结合建立主要农作物产量预测模型,并以此模型为 依据,实现对农作物产量的预报。在构建模型过程中,通过估算作物对天气条件 的反应,尤其是不同发育阶段对光、温、水分及其它环境气象要素的要求,进行 作物的气候生态和产量预测研究,获取不同粒度的气候生态和主要农作物产量预 测模型,提出气象要素和主要农作物产量的不同粒度的概念模型,将气象要素作 为一个关键因子运用到主要农作物产量的预测中;改进统计预测方法中存在的随 机性和偶然性,尤其是改善现有预测方法未考虑中长期天气变化的局限,提高模 式的模拟和预测能力。 关键字:商空间粒度计算;构造性机器学习方法;灰色模型;产量预测模型 安徽大学2 0 0 6 届硕士学位论文商空问粒度计算理论在农作物产量预涮中的应用 a b s t r a c t y i e l dp r e d i c t i o nm a i n t a i n sa l li m p o r t a n tp a r to fa g r i c u l t u r a lw e a t h e rs e r v i c e h o w e v e r ,t h ep r e s e n t - a d o p t e db a s i ci n d e x e s ,m o d e l sa n da p p r o a c h e sa p p l i e dt o w e a t h e rs e r v i c ea n dy i e l dp r e d i c t i o nw h i c hc a n n o tm e e tt h en e e d so ft h ep m s e n t a g r c u l t u r a iw e a t h e rs e r v i c ei nq u a n t i t y ,q u a l i t y ,p e r t i n e n c e ,a n di na c c u r a c y t h u s d e e p e rr e s e a r c hs h o u l db ec o n d u c e dt os u p p l e m e n t ,i n n o v a t e ,a n dp e r f e c tt h e m i nt h i sd i s s e r t a t i o n ,t h eg r a n u l a rc o m p u t a t i o no fq u o t i e n ts p a c et h e o r ya n d s t r u c t u r a lm a c h i n el e a r n i n gm e t h o d 础a d o p t e dt os t u d yt h ei n f l u e n c eo fw e a t h e r c o n d i t i o n su p o nt h em a i nc r o p ( i e w i n t e rw h e a t ) i nt h eh u a i h er i v e rv a l l e y t h ed a t a o f t h ei n f l u e n c ei nt h el o n gr i ma r ea n a l y z e d t h ea g r c l l l t u r a lw e a t h e rs e r v i c ei n d e x e s f o rt h eg r o w t ho ft h em a i nc r o p ( i e w i n t e rw h e a t ) i nt h ec r i t i c a lp e r i o da r ed e c i d e d t h u st h ea g r i c u l t u r a lw e a t h e rf o r e c a s tm o d e lf o rt h em a i nc r o p ( i e w i n t e rw h e a t ) i n t h eh u a i h er i v e rv a l l e yi so p t i m i z e dt oi m p r o v et h ey i e l dp r e d i c t i o nl e v e l i nt h e f o l l o w i n gp a r t , t h eq u o t i e n ts p a c et h e o r ya n ds t r a c t u r a lm a c h i n el e a r n i n gm e t h o d a r ea d d r e s s e d a c c o r d i n gt ot h ef e a t u r e so ft h et i m es e q u e n c eo fw e a t h e r , u n d e rt h ef l a m eo f q u o t i e n ts p a c em o d e lo fg r a n u l ec o m p u t i n g ,d i s c u s s e ss a m p l i n gd i f f e r e n tg r a n u l a r i t i e s d u r i n gp e d o d so faw e e k , t e nd a y s a n dam o n t ha n dm i x e dg r a n u l a r i t i e st oa n a l y z e t h ei m p a c to fl i g h t ,t e m p e r a t u r e ,w a t e ra n do t h e re n v i r o n m e n t a lo rw e a t h e rd a t a i n f o r m a t i o nu p o nt h eo u t p u to f c r o p si nt h i sp a p e r am o d e lt h a tc o m b i n e sg r a ym o d e l g m ( 1 ,1 ) a n dc o n s t r u c t i v em a c h i n el e a r n i n gm e t h o d ( a l t e r n a t i v ec o v e r i n ga l g o r i t h m ) i sp r o p o s e dt op r e d i c tt h eo u t p u to fc r o p s i nt h ew o r k i n gp r o c e s s ,b ye s t i m a t i n gt h e r e a c t i o n so fc r o p st ow e a t h e rc o n d i t i o n s ,e s p t h ec r o p s n e e d so fl i g h t , t e m p e r a t u r e , w a t e ra n do t h e re n v i r o n m e n t a lo rw e a t h e rc o n d i t i o n s ,t h er e s e a r c hi n t ot h e r e l a t i o n s h i p sb c t w nc r o p s w e a t h e rc o n d i t i o n sa n dy i e l dp r e d i c t i o ni sc o n d u c t e d t h e nt h ew e a t h e rc o n d i t i o n sf o rd i f f e r e n tg r a n u l a r i t i e sa n ds o m em a i nc r o p s y i e l d p r e d i c t i o nm o d e l s ,i e t h ec o n c e p t i o nm o d e l s ,a r es u g g e s t e d i nt h ew h o l ep r o c e s s , t h ew e a t h e rf a c t o ri st h ek e yv a r i a b l e t h i sa p p r o a c hc a nr e d u c et h er a n d o m i c i t ya n d c o n t i n g e n c yo ft h et r a d i t i o n a ls t a t i s t i c a lp r e d i c t i o nm e t h o d s ,i m p r o v et h ec u r r e n t p r e d i c t i o nm e t h o d sw h i c hh a v et h er e s t r i c t i o no fn o tt a k i n gt h em e d i u ma n dl o n gt e r m w e a t h e rc h a n g e si n t oa c c o u n t ,e n h a n c et h es i m u l a t i o na n dp r e d i c t i o nc a p a c i t yo ft h e m o d e l a n da i ma ti m p r o v i n gy i e l dp r e d i c t i o nl e v e li nt h eh u a i h er i v e r r e g i o n a b s t r a c t k e yw o r d s :q u o t i e n t - s p a c eg r a n u l 耐t yc o r n p u t a t i o l l ;c o n s t r u c t i v e m a c h i n e l e a r n i n gm e t h o d ;g r e ym o d e l ;y i e l dp 胛d i c d o nm o d e l 第一章引言 1 1 本文简介 第一章引言 气候变化及其对国民经济发展影响的问题已引起国内外广泛关注。对 农业而言,气候变化意味着气候资源状况和气象灾害的发生随之变化,导 致农业生产环境以及农业生产措旌也会发生相应的变化目前有关气候变 化方面的研究十分活跃,时空尺度不同,问题各有侧重。 随着社会经济的不断发展,特别是农业与农村社会经济的发展以及农 业生产市场化程度的不断加深,气象条件的波动和农业气象灾害的影响也 越来越大,各级政府和农业生产管理部门以及广大农业生产者,迫切要求 提供针对性强、及时准确和形式多样的农业气象信息服务。特别对主要农 作物生长发育关键时期具有指导意义的农业气象决策服务的要求越来越 强。因此,开展针对性强、服务领域宽、形式多种多样和高质量的农业气 象服务不仅是政府和社会的要求,也是提高气象服务效益以及气象事业持 续健康发展的需要。 农作物产量预报是重要的农业气象业务服务内容。八十年代以来,全 国各地气象部门积极开展了农业气象产量预报工作,为政府宏观决策与合 理安排农业生产提供科学依据,产量预测的应用已产生了巨大的经济和社 会效益。 安徽省淮河区域主要包括江淮分水岭以北的沿淮和淮北平原地区,总 面积6 7 万k m 2 ,占全省面积的4 8 。耕地面积2 9 5 万h m 2 ,约占全省耕地面 积的7 0 ,是安徽省的重要农业区。这里地处南北气候过渡地带,气候资 源丰富,光热水条件配合较好,十分有利于发展农业生产。但是由于该区 域所处的地理位置,气候上受冷暖空气活动频繁和典型的季风气候的影 响,降水的时空分布变异较大,造成农业生产极不稳定i l l 。本文主要针对 安徽省淮河区域的气候变化状况,根据未来气候变化趋势,建立一个主要 农作物生长过程气象监测与产量预测的模型,为制定区域农业可持续发展 战略提供参考。 安徽大学2 0 0 6 届硕士学位论文商空间粒度计算理论在农作物产量预测中的应用 1 2 目前研究现状 1 2 1 当前预测方法介绍 目前在农业气象服务和产量预测中所使用的基本指标以及产量预测 模式与方法,大部分是九十年代甚至是八十年代研究确定的,使用比较多 的方法有: ( 1 ) 以历史数据为依据的统计预测方法,如在农业气象灾害指标基 础上,应用时间序列分析、多元回归分析等数理统计方法,建立各种预报模 型。 ( 2 ) 以气象学原理为依据建立的各种气象预报模型,如将气候模式 与农业气象模式结合进行旱涝预报模型1 2 1 。 ( 3 ) 以专家知识为基础的专家咨询系统。 1 2 2 存在的问题 这些方法无论从数量上、质量上以及针对性、准确性均己很难满足当 前农业气象业务服务需求,特别是当前各地农业结构的大幅度调整、作物 品种和种植结构的变化、农业生产水平的快速发展以及气候环境的变异, 原有的农业气象服务指标以及产量预报模式已缺乏针对性、准确性,迫切 需要更新、完善和新方法的补充。具体表现在如下几个方面: ( 1 ) 统计预报方法基本都与具体的区域相关,尚缺乏对不同类型区 域具有较好普适性的预报方法。 ( 2 ) 当前的统计预报模型所形成的预报因子生物学意义不够且有相 当大的随机性。 ( 3 ) 以模型为基础的灾害预报方法依赖于长期天气预报,由于当前 的长期天气预报能力有限,故影响预报的准确性。 2 第一章引言 1 3 本文的主要工作 本文以商空间的粒度计算理论【3 1 【1 0 l 和构造性机器学习方法卜 2 3 1 为 工具,以主要农作物( 冬小麦等) 生长过程中气象条件对产量影响的历史数 据为研究重点,确定主要农作物生长发育关键时期的农业气象服务指标, 建立、完善和优化淮河区域主要农作物产量的农业气象预报模式,以提高 农作物产量预测水平为最终目标。通过估算作物对天气条件的反应,尤其 是不同发育阶段对光、温、水分及其它环境气象要素的要求,提出气象要 素和主要农作物产量的不同粒度的概念模型,掌握该影响过程的适用条 件、贡献程度和局限性,将其作为一个关键因子运用到主要农作物产量的 预测中,改进统计预测方法中存在的随机性和偶然性,尤其是改善现有预 测方法未考虑中长期天气变化的局限,提高模式的模拟和预测能力,最终 提高淮河区域农作物产量的预测水平。 1 4 本文的组织结构 本论文正文共分为5 章: 第1 章是引言部分,介绍目前在农业气象服务和产量预报中所使用的基 本模式与方法及存在的问题,阐述了构建一个基于商空间粒度计算理论的主 要农作物产量预测模型的意义,最后给出本文的组织结构。 第2 章介绍商空间框架下的机器学习算法。 第3 章介绍了预测的发展情况和灰色预测法及交叉覆盖在分类预测中的应 用情况。 第4 章是本论文的主要工作,介绍了在商空间粒度计算理论框架下,以灰色 模型g m ( 1 ,1 ) 与构造性机器学习方法( 交叉覆盖算法) 相结合建立主要农作物产 量预测模型,并以此模型为依据,实现对农作物产量的预报。 第5 章对本文做了总结,并对下一步需要展开的工作做了说明。 安徽大学2 0 0 6 届硕士学位论文 商空间粒度计算理论在农作物产量预测中的应用 第二章商空间框架下的机器学习算法介绍 2 1 前言 2 1 1 人类智能的主要特征 人们在思考问题时,具有从全局分析问题的能力,可先从总体进行观 察,然后再逐步深入地研究各个部分的情况,即从不同粒度、层次上分析 问题的能力( 称为演绎能力) :又具有从底层的事物( 数据) 中归纳规律 的能力( 称为归纳能力) ,先从各个方面对同一问题进行不同侧面的了解, 然后对它们进行综合;或是上面两种方法的组合,即时而从各侧面对事物 进行了解,然后进行综合观察,时而综合观察后,对不甚了解的部分再进 行观察总之,根据需要从不同侧面、不同角度反复对事物进行了解、 分析、综合、推理。最后得出事物本质的性质和结论。人工智能研究者 对人类这种能力进行了深入地研究,并建立了各种形式化的模型。人工 智能最主要的目的是,为人类的某些智能行为建立适当的形式化模型,以 便利用计算机能再显人的智能的部分功能。而粒度计算,就是对上述问题研 究的一个方面。 2 1 2 粒度及粒度计算 粒度就是求解问题时,取不同大小的对象进行研究。可将原来“粗粒 度”的大对象分割为若干“细粒度”的小对象,或者把若干小对象合并成 一个大的粗粒度对象,进行研究。“人类智能的公认特点,就是人们能从 极不相同的粒度( g r a n u l a r i t y ) l - 观察和分析同一问题。人们不仅能在不同粒 度的世界上进行问题求解,而且能够很快地从一个粒度世界跳到另一个粒 度的世界,往返自如,毫无困难。这种处理不同世界的能力,正是人类问 题求解的强有力的表现”【3 】。 z a d e h 讨论模糊信息粒度理论【2 6 】时,提出人类认知的三个主要概念, 即粒度( g r a n u l a t i o n ) 、组织( o r g a n i z a t i o n ) 、因果( c a u s a t i o n ) ( 粒度包括将全 4 第二章商空何框架下的机器学习算法介绍 体分解为部分,组织包括从部分集成为全体,因果包括因果的关联) ,并进 一步提出粒度计算。他认为,粒度计算是把大伞它覆盖了所有有关粒度 的理论、方法论、技术和工具的研究。粗略她说,粒度计算是模糊信息粒 度理论的超集,而粗糙集理论和区间计算是粒度数学的子集。 目前有关粒度计算的理论与方法,主要有三个。一是z a d e h 的“词计 算理论”( t h e o r yo f w o r d s c o m p u t i n g ) 1 2 7 1 【2 。1 ,一是p a w l a k 的“粗糙集理 论”( t h e o r yo f r o u g hs e t ) 2 9 1 , 另一个是张钹院士和张铃教授提出的“商 空间理论”( t h e o r yo fq u o t i e n ts p a c e ) t ”。 2 1 3 商空间框架下的机器学习方法 张钹院士和张铃教授根据人类在思考问题时的具有从全局分析问题 的能力主要特征,在研究问题求解时,独立地提出了商空间理论【3 l 粒 度分析( 计算) 的商空阃模型。 又根据人类认识事物具有从底层( 数据) 中归纳规律的能力( 称为归 纳能力) ,即从各个方面对同一问题进行不同侧面的了解,然后对它们进 行综合,提出了构造性机器学习模型构造性机器学习覆盖算法。 当人们对事物了解得越多,对事物的理解程度就越高,复杂性就随之 降低。而随者复杂性的降低,在系统识别中的人工神经网络,可通过对可 用数据的学习,采用有效的和可靠的降低不确定性的无模型方法,而成为 我们进一步描述事物的强有力的工具。本文对于复杂的对象,先利用不同 的粒度世界进行描述,即商空间法描述。然后对商空间法描述的对象利用 人工神经网络的构造性机器学习方法进行数据挖掘,再在商空间中进行合 成,由此引入了商空间框架下的机器学习方法。 2 2 商空间理论简介 2 2 1 商空间法 张钹院士和张铃教授在研究问题求解时,独立地提出了商空间理论3 1 。 商空间法可用一个三元组( z 厂 乃描述一个问题。并表示问题的论域; 安徽大学2 0 0 6 届硕士学位论文商空间粒度计算理论在农作物产量预测中的应用 ,( ) 表示论域的属性,可用函数f :x o y 表示;t 是论域的结构,指论 域x 中各元素的相互关系。分析或求解问题,丁) ,是指对论域x 及其 有关的结构、属性进行分析、研究。对论域x ,在其上给定一个等价关系 r ,对应于r 的商集【棚,然后将【吲当作新的论域,对它进行分析、研究。 故商集是将等价类看作新元素而构成的新空间,自然得到一个较粗粒度的 世界 硼。 比如制定学校工作计划时,学校的全体就是该问题的论域,记为x 。 图l 给出了学校的组成层次结构图。月) 表示论域的属性,如当对旨某个小组 时,贝岍) 可以对应于该小组的人数、平均年龄、学习成绩等。 围l 学校组织的层次关系 f i g u r e1t h eh i e r a c h i e a lr e l a t i o no f s c h o o lo r g a n i z a t i o n r 是论域的结构,指论域x 中各元素的相互关系,如各小组之间的相 互关系。设石代表论域中最细的粒度,比如说学习小组,若对x 进行简化, 产生一个较大粒度的论域冈。那么就把原问题吲;乃,变成新层次上的问 题( 嗍, ,】,【刀) 。 这个简化过程与数学中商集( q u o t i e n t s e t ) 的概念完全相同,于是得 到不同粒度世界的数学模型,简称分类的数学模型。 如上所述,我们将不同粒度的世界与数学上的商集概念统一起来,或 者说以商集作为不同粒度世界的论域的数学模型,这就是粒度世界的商空 阃模型。 6 争 第二章商空间框架下的机器学习算法介绍 设属性函数正卜y ,p :x 寸【x 】是自然投影, t i : “p 1 ) r ,甜磅 定义【,】:嗍一】,这样我们就得到一个新的问题( i x ,【,】,【7 1 ) ,称( i x ,【,】, 7 1 ) 是问题;乃对应于等价关系r 的商空间( 商问题) 。其中r 对应于一定 的粒度。 2 2 2 不同粒度世界的推理模型 在商空间模型下,可建立不同粒度世界对应的推理模型,并有如下的性 质【3 1 : 命题2 1 ( 保假原理) p :( x ,d 一 i x 】,口】) ,是自然投影,则p 是 连续的。 若a c x 是连通集,则p c a ) 是【朋中的连通集。 这表明,若个问题在原论域x 中有解( 是连通的) ,在适当的粗粒 度论域上瞵】也有解。反之,若一命题在粗粒度空间中是假的,则该命题 在比它细的商空间中一定也无解。因为粗粒度的空间规模小,故计算量也 少,这样我们就可以以很少的计算量得出所要的结果。 设( 置,z ,正) 和( x :,厶,正) 是( x ,r ) 的两个商空间,定义互,l 的合成e 为: 定义2 1 五,疋的合成是x 上所有拓扑构成的半序格中互与正的最小 上界正。 具体构成如下:令 b = 叫w = 虬n “,互,“,疋 然后以b 为拓扑基,构成的拓扑就是疋。 命题z 2 ( 保真原理) 设问题在半序商空间 爿。, ,正) , x 2 , ,疋) 均有 解,则在其合成的商空间( 蜀,六,五 也有解。 所谓“保真原理”是指若命题在两个较粗粒度的商空间中是真的,则 ( 在一定条件下) ,在其合成的商空间中对应的问题也是真的。 这两个原理在商空间模型的推理中起到很重要的作用,如若我们要对 一个问题进行求解,当问题十分复杂时,常先进行初步分析,即取一个较 粗粒度商空间,将问题化成在该空间上的对应的问题,然后进行求解,若 得出该问题在租粒度空间中是无解,则由“保假原理”,立即得原问题是 无解的。因为粗粒度的空间规模小,故计算量也少,这样我们就可以以很 少的计算量得出所要的结果,达到“事半功倍”的目的。 7 安徽大学2 0 0 6 届硕士学位论文 商空间粒度计算理论在农作物产量预测中的应用 同样利用“保真原理”也可达到降低求解的复杂性目的,设在两个较 粗空间蜀、砀上进行求解,得出对应的问题有解利用“保真原理”可得, 在其合成的空间为上问题也有解。设蜀、局的规模分别为j 1 、s 2 。因为一 般情况下,砀的规模最大可达到s l 即。于是将原来要求解规模为j l 幻空间 中的问题,化成求解规模分别为s 卜的的两个空间中的问题。即将复杂性 从“相乘”降为“相加”。 2 2 3 商空间粒度的构建 粒度计算的主要问题是两方面( 2 9 1 ,一是如何构建信息粒度,二是如何 利用粒度去计算。前者处理粒度的形成、粗细,表示和语义解释,而后者 处理怎样利用粒度去求解问题。利用商空间理论求解问题时,可从不同粒 度来考察问题,问题的不同粒度表示对应于不同的等价关系r 。也就是不 同的粒度,只不过是对论域进行不同的划分而已。因此,划分就是构成不 同粒度世界的方法。 商空间理论提出了四种主要的构建方法:1 、属性法,2 、投影法,3 、 结构法,4 、约束分层法【6 1 。 ( 1 ) 属性划分法。即将属性相同或相似的元素归为一类。 ( 2 ) 投影划分法。若元素x 的属性函数是多维的,如有”个属性函数分 量石,五,工,若暂不考虑其中j 个属性z ,五,z ,将丘。,。,工属性 相同的元素归为一类。 ( 3 ) 结构划分法。把结构上或功能上关系密切的元素分为一类。 ( 4 ) 约束划分法。设有疗个约束条件c i ,c 2 ,“,那么可按q 进行划分。 分类有相交的情况:当z 中的同一元素j 同时属于j 中不同的类别时, 即分类的交界处不十分分明时,可引入模糊逻辑的概念,对分类相交问题 进行讨论。 2 2 4 分层递阶 人们在解决复杂问题时,通常不是一次性的考虑问题的全部细节,而 是先把问题分解或剪接,忽略其中细节,然后从较抽象的层次开始,一层 层地深入到其中的细节,这种由粗到细,从全局到局部地解决问题的方法, 通称为分层递阶方法。 8 第二章商空间框架下的机器学习算法介绍 人们在处理复杂问题时也使用类似的策略。一般来讲有两种情况。其 一是有时只需要知道问题的某些较为概括性的性质,因此不必对整个问题 进行深入细致和全面的考察,丽是一定层次上对该问题进行分析,得出所 需要的一些概括性的性质即可,这时候用到了分层。其二是,问题本身非 常复杂,直接进行研究将十分困难,或工作量太大而无法进行。于是采取 从上到下分层的解决办法,先在较高的层次上对问题进行初步分析,从中 提供出一些有用的信息,然后在这些初步结论的指导下,再进入下一个更 低的层次作分析,又可得出一些有用信息,用这个信息再知道下一层次的 分层和分析,逐步地达到目的。 人们这样做的目的,似乎也在于提高效率。用计算机科学的术语来讲, 分层递阶的目的在于降低计算量的复杂性。 常用的分层方法有两种。第一种叫分枝法,把一个问题分为子问题, 子问题又分为更小的子问题;第二种称为嵌套法,即把一个问题按不同的 细节程度加以分层。实际上,分层递阶的分枝结构即对应于不同的分类, 对应于不同粒度的世界。而嵌套式的分层结构,也可以用不同粒度的世界 加以描述。在嵌套结构的上层,许多细节是未知的,可以把未知部分分为 一类。到低层时,若干未知变成已知,再重新对它分类,总之,也可用不 同粒度的世界来描述。 2 2 5 合成 许多科学对分层递阶都很感兴趣,人工智能也不例外。我们已经分 析过,采用分层递阶技术的主要目的是降低计算复杂性,使原来难以处理 的复杂问题化简。为了把握分层递阶的方法,关键在于解决由低层次空间 构造高层次空间的问题,即研究商空间与原空间的关系。 可是人类的认识活动正与上述相反。人们对事物的认识,则是从浅到 深,由表及里,从局部到全局。人们总是先在不同层次、不同角度上对事 物进行观察和了解,然后把这些零星、片面的了解综合汇总为较系统、全 面的了解。这个过程正好是上述的对事物简化、概括、抽象的反过程,即 对事物不断深入、全面及系统化的了解过程,这也是人类智能的重要组成 9 安徽大学2 0 0 6 届硕士学位论文商空间粒度计算理论在农作物产量预铡中的应用 部分。 这个过程即已知若干高层次的状态和性质,如何推算出原对象的低层 次的状态和性质来。这个过程统称为合成过程,也可称为综合过程。 这种从侧面、局部的观察以综合全体的过程,是人类思维活动的普遍 现象。在我们的模型中,均可把它们化为:己知若干商空间,如何综合出 其原来空间的问题,即合成问题。其重点在于确定原空间与商空间的关系。 2 2 6 模糊商空间 张钹教授、张铃教授在【4 中将商空间理论推广到模糊商空间。 定义2 2 设x 是论域,x 上的个模糊集4 是指v x x ,有一个指 定的数儿e 【o ,1 】,称为x 对a 的隶属程度,映射: 以:x 寸【o ,1 】 x 寸j o ) 称为一的隶属函数。 令t ( a 3 表示x 上一切模糊子集的集合,则玎柳实际上是由t :x 呻【0 ,1 】 这个函数组成的一个函数空间。 定义2 3 设r e t ( x x x ) ,若满足: ( 1 ) v x x ,r ( x ,x ) = 1 , ( 2 ) v x ,ye x , r ,y ) = r ( ) , ( 3 ) v x ,y ,z ,有r o ,力s u p y ( m i n ( r ( x ,r 9 ,z ) ) , 则称r 是:| f 上的一个模糊等价关系( 与定义相关的概念见文献 3 】) 在 4 中张铃教授证明了利用模糊等价关系可以将原来的商空间理论 推广成模糊商空间理论,并给出了几个基本的定理 第一,下面的叙述是等价的: ( 1 ) 在z 上给定一模糊等价关系矗; ( 2 ) x 的商空间 弼上给定一个归一化的等腰距离矾 ( 3 ) 绘定x 的一个分层递阶结构 x ( 0 ; ( 4 ) 给定一个x 的模糊知识基。 其中第三点是本质的,因为一个分层递阶结构,就给定翮q 一个具有“粒 度结构”的知识。 第二z 上所有模糊等价关系构成一个完备半序格这两个结论为粒度 计算提供了强有力的数学模型和工具。 l o 第二章商空间框架下的机器学习算法介绍 2 3 机器学习简介 机器学习是研究使用计算机来模拟人类学习活动的一门学科。更严格 地说,就是研究计算机获取新知识和新技能、不断改善性能、实现自我完 善的方法。它是人工智能中的一个重要的研究领域,一直受到人工智能和 认知心理学家们的普遍关注。机器学习涉及计算机科学、脑科学、生理学、 心理学等多个学科,涉及的面比较宽,许多理论和技术上的问题尚处于研 究阶段。近年来,随着数据库和因特网的发展与普及,出现了“数据爆炸 但知识贫乏”的现象,为了从浩瀚的“数据海洋”中发现有用的知识,产 生了知识发现与数据挖掘技术,以便通过对大量数据的分析发现其中蕴涵 的知识。知识发现与数据挖掘技术也属于机器学习的范畴【2 4 1 。 机器学习研究的目标有3 个:人类学习过程的认知模型;通用学习算 法;构造面向任务的专用学习系统的方法。 学习中使用的推理方法称为学习策略。机器学习的主要策略是:机械 学习、传授学习、演绎学习、类比学习、和归纳学习。本文采用的学习策 略主要就是类比学习。 以西蒙的关于学习的定义作为出发点,建立起如图2 所示的机器学习 系统的基本模型。通过对这一基本模型的讨论,总结出设计学习系统时的 一些原则。 图2 机器学习系统的基本模型 f i g u r e2t h eb a s i cm o d e lo fm a c h i n el e a r n i n g 在图2 的学习系统基本模型中,包含了4 个基本组成环节。“环境” 安徽大学2 0 0 6 届硕士学位论文 商空间粒度计算理论在农作物产量预测中的应用 和“知识库”是以某种知识表示形式表达的信息的集合,分别代表外界信 息来源和系统所具备的知识;“学习环节”和“执行环节”代表两个过程。 “环境”向系统的“学习环节”提供某些信息,而“学习环节”则利用这 些信息对系统的“知识库”进行改进,以增进系统“执行环节”完成任务 的效能,“执行环节”根据知识库中的知识来完成某种任务,同时把获得 的信息反馈给“学习环节”。 2 4 构造性机器学习方法 张钹教授、张铃教授1 9 9 8 年在给出m p 神经元的几何意义1 1 4 】的基础 上,首次提出了基于交叉覆盖的构造性机器学习算法。在1 9 9 9 年又给出 前向神经网络交叉覆盖算法【”】,并将其用于双螺旋线的识别,只用1 1 个 神经元就解决了这一神经网络学习中长期以来的难解问题。在这以后,又 相继提出了多侧面递进学习算法、模糊f p 神经网络覆盖算法、核覆盖算 法等。这些方法被应用于手写字识别、三维模型特征识别、股市预测、火 电厂燃料分析系统的设计、高精度模糊p i d 控制器等应用中,取得了很好 的效果。 2 4 1 f p 算法简介 f p 算法是针对b p 等算法中网络性能差的缺陷,构造吸引中心具有最 大吸引域的神经网络构造性算法,它在学习过程中同时对网络的结构进行 综合,当学习结束时就给出网络的最优结构。7 我们称它为前向传播 ( f o r w a r dp r o p a g a t i o n ) 算法【1 2 1 。它包括多层前馈网络的f p 算法 t 3 1 和多 层反馈网络的f p 算法【l l 】。 多层前馈f p 网络就实现网络的输入输出的对应关系而言,实际上只 要三层就够了,其构造的基本思路是:当给定p 个样本时,第一层使用p 1 个神经元将p 个样本输入变换为p 一1 维空间中的正交p 1 维单纯形的p 个 顶点( 设样本输入是n 维,输出是m 维) ;从第二层到第三层,取研含神 经元,通过这一层元件将p 1 维单纯形的p 个顶点变换成p 个j ,维的样本 1 2 第二章商空问框架下的机器学习算法介绍 i 审卓审 i 。 l 卓审审 f 回 图3 前馈f p 神经网络结构 f i g u r e3t h es t r u c t u r eo ff e e d f o r w a r df pn e u r a ln e t w o r k s 输出向量,从而得到对应于该样本集的分类器,如图3 所示。 设神经元元件4 有n 个输入,1 个输出,其输入x 与输出y 的对应关 系为:y = 6 ( w * x 一口) ,其中矽是元件4 的权系数矩阵,口是阈值向量,艿 0 ) 表示符号函数。 设给定训练样本集:k = ,o = ( 妒,y o ) ,r l = ( x 1 ,y 1 ) ,。1 = 0 9 一,y p 1 ) ) , 作如图3 所示的网络结构。令第l 元件层的对应关系为凡第2 元件层的 对应关系为g 。用w 和口分别表示第1 元件层第f 神经元彳f 的权向量和 阈值,用“和缶分别表示第2 层第i 个神经元历的权和阈值,各层元件按 如下的定义设置权值和阈值: w 。= ( x 1 ) 7f = 1 , 2 ,p l ; 只= 搿耋竺嚣黧川2 咿t : 矽= ( 砂) ,臼= ( q ) ; 其中z = m i n d ( x 。,x 。) ,= l ,2 ,p i ;,= 1 , 2 ,p - i 。d ( x ,y ) 表 示x ,y 的海明距离。 “j : 0 耄东2 时 i - - 1 ,2 ,肼;:l 2 ,p 一1 ; “j5 1 其他 1 ”“j 叫z ”“p - 1 。 售= 一( 炙+ “:+ + 帮:一,) u = 。) ,善= ( 最) 。 则图3 对应的网络将x 变换成,i = i ,2 ,炉,即每个样本输入向量都 安徽大学2 0 0 6 届硕士学位论文商空间粒度计算理论在农作物产量预测中的应用 是吸引中心。 反馈式f p 神经网络的结构如图4 所示。 g ( 瞰刁,珊 f ( w ( i 、) i i ) ) b 似劲3 图4 反馈f p 神经网络结构 f i g u r e4t h es t r u c t u r eo ff e e d b a c kf pn e u r a ln e t w o r k s 其中:第一元件层l 有p 个元件,其权矩阵和阈值向量分别为:职1 ) , 口( 1 ) ,对应关系为凡第二元件层飓有小个元件,其权矩阵和阈值向量 分别为:职2 ) ,口( 2 ) ,对应关系为g ;反馈元件层3 有撑个元件,其权 矩阵和阈值向量分别为:职3 ) ,疗( 3 ) ,对应关系为b 。设样本集为肛 一;( , y 0 ) ,r l = ( x 1 ,y i ) ,r p 。1 = p ,yp - 1 ) ) ,一是阼维单位向量( 般可设 的模相等) ,令: d = m a x ,i j ,f = 1 , 2 ,p 取o ( x ,力= ,户为内积或者说点积运算,v x ,y e k ,为相似性函数, 给定相似性阈值烈水1 ) ,各层的权矩阵按以下公式定义: w ( 1 ) = ( ) 7 ,i = 1 , 2 ,p ; 口,( 1 ) = d ,i = 1 , 2 ,p ; 卜1j i a 。( 2 ) = f 一1 ; ( 3 ) = ( x - x o , ) 2 : 口邝) = 一( x ? + 杉( 3 ) ) ; 1 4 第二章商空问框架下的机器学习算法介绍 可以证明,f p 算法构造的网络是性能良好的神经网络:其网络结构达 到最优,计算量小,易于扩充。箕存在的缺陷是可能存在多余的隐层元, 未能很好处理错误样本。 2 4 2 交叉覆盖算法 覆盖算法 由m p 神经元的几何意义可以知道,构造一个神经网络,使对给定的 样本集能进行符合要求的分类,等价于求出一组领域,对给定样本集k 中 的点,能按分类的要求用领域覆盖将它们分隔开来。这样,神经网络的最 优设计问题就被转化成某种求最优覆盖的问题。 当给定的输入向量的长度不相等时,可通过如下变换将它变换成长度 相等的情况( 如图5 所示) 。 y , 图5 从d 一砌变换的示意图 f i g u r e5t h es k e t c hc h a r to ft r a n s f o r m a t i o nf r o mdt o 岛 设输入的定义域为n 维空间中的有界集合d ,令是n + l 维空间中的 一维的超球面: r 。? 一 nd 呻,r ( x ) = 陋,( j 2 一i x l 2 ) 】,其中d m a ) ( x 肛d ) 这个变换可从几何上直观地理解为:将d 看成是位于n + l 维空间中过 原点的一个行维超平面上,而且d 位于的内部,则变换丁就是将d 上的 点垂直投射到的上半球面上。这种变换显然是一一对应的。如上面所述, 这时每一个神经元( 耽目) 就是在超球面上,以形为中心,以r ( o ) 为半径 的一个“球形领域”的特征函数( 其中r ( o ) = ( c o s d ( 口r 2 ) ) ) 。 设学习样本x 分为类,即:净 蜀,为,西) ,覆盖算法是用“球 形领域”作神经元,构造三层神经网络,将各类样本分开。其基本思路是: 安徽大学2 0 0 6 届硕士学位论文商空间粒度计算理论在农作物产量预测中的应用 依次轮流构造各类别的球形领域,直至所构造的领域系能够盖住所有的训 练样本点。学习过程中构造第k 类学习样本噩的“球形领域”的方法是: 任取忍中尚未被覆盖的点a ,按以下的公式: d i ( c o ) = m 譬 ) , j d 2 ( 奶2 赃 l d 1 ( 国) ) d ( 奶- - - 去( e 1 ( 回+ d 2 ( 功) 二 计算烈) ,作以a j 为中心、阈值0 = d ) 的覆盖c ( a 1 ) 。 交叉覆盖算法 交叉覆盖算法与一般覆盖算法的区别在于,交叉覆盖算法在构造覆盖 领域时,将已经被得到的球形领域覆盖的点删除,以扩大领域的范围,这 样可以使覆盖的个数最少。而一般覆盖算法在构造覆盖领域的过程中会考 虑所有的样本点,不删除已经被覆盖到的样本点。 给定一样本输入集k = 伽1 ,x 2 ,x ” ,k 依其样本所属的类别可分为, 个子集, k = k 1 , k 2 ,k 7 。用交叉覆盖算法可以构造出三层神经网络的 分类器,通过这个网络,使得属于k 。o = l ,2 ,) 的样本点的输出均为 y 。= ( 0 ,1 ,0 , o ) ,其中,y 。的笫f 个分量为l ,其余分量为0 。 用交叉覆盖算法构造分类器,等价于用一组“球形领域”c o = l 2 ) 来覆盏样本集足,使得c 只覆盖f 中的样本,而不覆盖彪,( ,d 中的样本。 如果我们从大量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新解读《GB-T 32498-2016金属基复合材料 拉伸试验 室温试验方法》
- 高砂窑炉安全知识培训课件
- 北京交通运输管理考试及答案
- PhIP-Standard-生命科学试剂-MCE
- BAT-1308-生命科学试剂-MCE
- 北华大学线上考试题目及答案
- 保育师考试题中级题库及答案
- 家政中级考试题及答案
- 中级软考试题及答案
- 电炉知识培训总结与反思课件
- 劳务外包协议书
- 2025义务教育劳动教育标准课程考试题库(含答案)
- 驾照科目四模拟考试题及答案大全
- 土地增值税清算培训课件
- 2025年稳定币在大宗商品跨境贸易中的应用研究报告
- 医院财务人员专业能力提升培训
- PDCA循环在医院应急管理中的应用
- 2026创新设计高考总复习生物(人教版)-限时强化练答案解析
- 2025年人资部长面试题及答案
- 2025年中学生法治素养竞赛题库及答案
- 《语文八下第三单元复习课》课件
评论
0/150
提交评论