




已阅读5页,还剩69页未读, 继续免费阅读
(土地资源管理专业论文)基于支持向量机的房地产估价方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 近年来,随着房地产一级市场和二级市场的快速发展,房地产交易活动日益频繁, 房地产估价越来越受到人们的重视。由于影响房地产价格的因素复杂多变,房地产价格 的评估必须综合考虑房地产市场的特性及可能存在的影响因素,因此,房地产估价除了 依据相应的理论与方法外,还必须依赖于估价人员对市场变化的把握程度与判断能力。 市场比较法、成本法、收益法是目前房地产估价的常用方法,它们各有侧重,分别 从不i 司的角度对房地产的价格做出估计,具有一定的主观性和局限性。机器学习可以通 过数据集的学习,寻找输入与输出之间的函数关系,利用函数关系对任意给定的输入做 出尽可能准确的输出预测。支持向量机是在统计学习理论基础上发展起来的一种新的机 器学习方法,由于采用了结构风险最小化理论,特别适用于解决非线性、有限样本空间 数据的拟合,具有推广能力强,结构稳定等特点,已在不同的领域得到了广泛的应用。 本文在总结分析三种基本的房地产估价方法的基础上,针对房地产估价的特点,提 出应用支持向量机进行房地产估价。论文简单阐述了支持向量机的相关概念、原则与方 法,分析了影响房地产价格的因素,并建立了相应的量化指标。结合西安市2 0 0 2 2 0 0 6 年实际交易的6 0 组采样数据,通过反复试算,最终确定了支持向量机的三个参数,从 而建立了房地产估价模型,并对其中的1 0 组数据进行预测,得到了较高的预测效果。 为了验证支持向量机的房地产估价模型的有效性,还与市场比较法及r b f 进行了对比 分析,得出了几点有意义的结论。 关键词:房地产估价、统计学习理论、支持向量机、结构风险最小化原则、核函数 a b s t r a c t i nr e c e n ty e a r s ,a l o n gw i t ht h er e a le s t a t e p r i m a r ym a r k e ta n ds e c o n d a r ym a r k e t s a c t i v e d e v e l o p m e n t ,a n dr e a le s t a t et r a n s a c t i o n sh a v eb e c o m ei n c r e a s i n g l yf r e q u e n t ,s oa sd e t e r m i n e d p r i c e s o fr e a le s t a t et r a n s a c t i o n si nt h er e a le s t a t et r a n s a c t i o nv a l u a t i o na r ea t t r a c t i n g i n c r e a s i n ga t t e n t i o n b e c a u s et h ei n f l u e n c ef a c t o r so ft h er e a le s t a t ep r i c ei sc o m p l e xa n d i n c o n s t a n t ,t h e ym u s tb ec o n s i d e r e db o t ht h ec h a r a c t e r i s t i co ft h er e a le s t a t em a r k e ta n dt h e i n f l u e n c ef a c t o r si nt h ea p p r a i s a lo ft h er e a le s t a t e s oa p a r tf r o mt h ec o r r e s p o n d i n gb a s i sf o r t h et h e o r ya n dm e t h o d s ,i tm u s ta l s or e l yo nt h ep e r s o n n e lc h a n g e si nt h em a r k e tv a l u a t i o no f t h ea b i l i t yt og r a s pt h ee x t e n ta n dj u d g m e n t m a r k e tc o m p a r i s o na p p r o a c h ,c o s ta p p r o a c ha n di n c o m ea p p r o a c ha r et h em o s t l ym e t h o d o ft h ea p p r a i s a lo ft h er e a le s t a t e ,w h i c hv a l u et h er e a le s t a t ef r o mt h ed i f f e r e n ta n g l e ,i th a s s u b je c t i v i t ya n dl i m i t a t i o n t h em a c h i n el e a r n i n gv i at h el e a r n i n go ft h ed a t a ,s e a r c ht h e f u n c t i o nr e l a t i o no ft h ei n p u ta n dt h eo u t p u t ,a n du s i n gt h ef u n c t i o nf o r e c a s t st h eo u t p u tf o r t h er a n d o mi n p u t t h es u p p o r tv e c t o rm a c h i n ei san e wm a c h i n el e a r n i n gm e t h o db a s e do n t h es t a t i s t i c a ll e a r n i n gt h e o r y i te m b o d i e st h ev e r yi m p o r t a n tp r i n c i p l ei nt h es t a t is t i c a l l e a r n i n gt h e o r y , w h i c hi s s t r u c t u r a lr i s km i n i m i z a t i o n ( s 砌v o i ts o l v e st h e f i t t i n go ft h e n o n l i n e a r i t y , l i m i td a t a ,a n dh a v et h eb e t t e rg e n e r a l i z ea n dt h es t e a d yf r a m e s os v mi s a p p l y i n gi nt h ed i f f e r e n ta r e a s t h ea r t i c l ep u tf o r w a r dt oa p p l y i n gs v mf o r t h ea p p r a i s a lo ft h er e a le s t a t eo nt h eb a s eo f a n a l y z i n gt h r e eb a s i cm e t h o do ft h ea p p r a i s a lo ft h er e a le s t a t e i ti n t r o d u c e st h ec o n c e p t , t h e o r ya n dm e t h o do fs v m ,a n ds e t t i n gt h ec r i t e r i o no ft h es c a l a r a n di tr e p e a t st r y i n gt o c a l c u l a t ef o rt h ex i a n2 0 0 1 2 0 0 6y e a ra c t u a lt r a n s a c t i o n s6 0g r o u p sd a t a ,f i n a l l ys e t t i n gt h e m o d e lo ft h ev a l u eo ft h er e a le s t a t e t h ea r t i c l ef o r e c a s t st h e10g r o u p s ,a n dg a i n st h er e s u l t w h i c hh a st h eb e t t e rp r e c i s i o n f o rt e s t i n gt h ea v a i l a b i l i t yo ft h em o d e l ,i ta n a l y s e st h e f o r e c a s tr e s u l to ft h em a r k e tc o m p a r i s o na p p r o a c ha n dr b f , f i n a l l ys u m su ps o m em e a n i n g c o n c l u s i o n k e yw o r d s :r e a le s t a t ea p p r a i s a l ;s t a t i s t i c a ll e a r n i n gt h e o r y ;s u p p o r tv e c t o rm a c h i n e ; s t r u c t u r a lr i s km i n i m i z a t i o n ;k e r n e lf u n c t i o n i i 图目录 图2 1v c 维示意图一8 图2 2 经验风险、置信区间与结构j x l 险1 0 图2 - 3 分类问题中从样本空| 白j 到特征空间的映射1 2 图2 4 回归问题中从样本空间到高维特征空间的映射1 2 图2 5s v m 线性回归示意图1 3 图2 6 有偏离点的最优回归超平面示意图1 7 图2 7 非线性回归映射为线性回归1 8 图2 8 两层嵌套循环原则示意图2 4 图2 9 误差函数2 5 图3 1 收益还原法示意图3 1 图4 1 房地产市场供求曲线图3 3 图4 2 西安市在岗职工2 0 0 0 2 0 0 6 年平均年工资3 7 图4 32 0 0 0 2 0 0 6 年西安市人口密度变化图3 8 图4 4 房地产评估指标体系4 2 图4 5 西安市普通住宅各面积销售比例图4 4 图4 6 西安市普通住宅各户型销售比例图4 4 图4 7 地价在各层之间的分摊率( 总楼层为8 ) 4 5 图4 8 地价在楼层之间的分摊率( 总楼层为1 6 ) 4 5 图4 9 西安市2 0 0 0 2 0 0 6 年房地产消费价格指数和居民消费价格指数4 5 图4 1 0s v m 方法房地产估价流程图4 7 图5 1m a p e 随万2 变化关系图一5 1 图5 2s t d 随艿2 变化关系图5 1 图5 3m a p e 随c 变化关系图5 2 图5 4s t d 随c 变化关系图5 2 图5 5m a p e 随s 变化关系图5 2 图5 6s t d 随占变化关系图5 3 图5 7 房地产价格预测值与实际值拟合图5 4 图5 8 房地产价格预测值与实际值的拟合误差图5 4 图5 9r b f 神经网络训i 练数据误差图5 8 v 表目录 表3 1 未来收益随还原利率变化表3 1 表4 12 0 0 0 2 0 0 6 年建筑安装工程价格指数3 7 表4 2 房地产价格影响因素量化标准表4 3 表4 3 误差衡量标准及其计算公式4 8 表5 1 不同参数的m a p e 和s t d 值对比表5 3 表5 2s v m 预测值、r b f 预测值、市场比较法预测值与实际值对比表5 6 表5 3 区域因素比较表5 7 表5 4 个别因素比较表5 7 v i 论文独创性声明 本人声明:本人所呈交的学位论文是在导师的指导下,独立进行 研究工作所取得的成果。除论文中已经注明引用的内容外,对论文的 研究做出重要贡献的个人和集体,均己在文中以明确方式标明。本论 文中不包含任何未加明确注明的其他个人或集体已经公开发表的成 果。 本声明的法律责任由本人承担。 论文作者签名: 硝,豹 论文知识产权权属声明 弦。缉j - 月形日 , 本人在导师指导下所完成的论文及相关的职务作品,知识产权归 属学校。学校享有以任何方式发表、复制、公开阅览、借阅以及申请 专利等权利。本人离校后发表或使用学位论文或与该论文直接相关的 学术论文或成果时,署名单位仍然为长安大学。 ( 保密的论文在解密后应遵守此规定) 论文作者签名: 硝,约 导师签名:转藕液 训孑年j - 月彳日 秽年叮月彩日 长安人学硕 :学位论文 第一章绪论 1 1 研究背景及研究意义 随着我国土地使用制度和住房制度的改革,我国的房地产产权制度不断明晰,房地 产市场得到了长足的发展与繁荣,房地产经营企业和中介机构日益增多,房地产的开发 规模与交易规模也日益扩大。在经历了十几年的发展之后,房地产经济在我国现时期社 会经济中处于一个支柱性产业的地位,较大的自身价值使房地产得到社会各方面的普遍 关注,并涉及到多方的经济利益。因此,房地产估价的主要目的,就是为房地产市场交 易及其色有关房地产经济活动提供公平合理的房地产价格或价值尺度,确保幽家和房地 产相关当事人各方的利益,并对稳定我国房地产市场的健康发展、促进房地产市场的繁 荣将起到一个积极的推动作用。具体表现在以下几个方面: 一、房地产管理的需要 目前,管理方式和管理对象的改变,使得房地产管理从过去的实物管理朝着实物管 理与价值管理并重的方向发展。因此,现在对房地产的管理不仅仅局限在数量、面积等 实物形态上,更应当包括可预见的未来房地产的价值、升值、贬值等价值收益上。房地 产管理工作对于房地产估价的需要,还重点体现在中华人民共和国城市房地产管理法 中的相关条例中,如第1 2 条中的最低价、第1 7 条中土地使用权出让金、第1 9 条中补 偿金额等有关金额的确赳1 ,2 1 ,都需要通过房地产估价来完成。 二、房地产交易的需要 随着我国房地产业的发展,使得房地产估价成为一种必要,并要求房地产估价工作 能跟得上房地产市场的发展。再者,参加房地产交易的个人或企业不是专业的从事房地 产业务的,因此他们对于房地产市场在一定时期的发展状况和价格走势很难做出一个符 合市场发展状况的判断,所以,在进行房地产交易时,需要聘请专业的房地产估价机构 和房地产估价人员对所要交易的房地产做出一个价格或价值的评估。 三、企业改革的需要 在企业合资、合作、分立、买卖、破产申请等企业制度改革的过程中,需要进行房 地产评估【l 】,以便维护国家税收、企业职工和相关各方债务人的合法权益。另外,许多 国有企业改制为股份制企业,也需要借助于房地产估价将国有房地产折算为股本,确定 出资或投资的数额,也可以将其作为收益分配的依据,在一定程度上起到防止国有资产 流失的作用。 第一章绪论 四、房地产拥有人融资的需要 房地产拥有人用房地产向银行、典当行等进行抵押、典当,以获取贷款,这已经成 为个人或企业进行融资的一种很好的方式。因为房地产的保值、增值特性,使得它成为 一种良好的担保物。银行为了规避贷款j x l 险,往往将贷款额控制在房地产的价值以下的 一定范围内,因此,从银行的角度出发,为了掌握担保物的价值,需要借助于专业的房 地产估价机构对担保物进行估价f l 】。而房地产典当是房地产拥有人将房地产典当给承典 人,承典人支付典价,而典价的确定就需要由房地产估价机构来确定以确保双方的利益。 五、税收的需要 税收自古以来就是政府财政收入的重要来源,房地产税收也不例外,在土地使用权 的出让和房地产丌发、转让、保有诸环节分别征收营业税及城市维护建设税和教育费附 加、企业所得税、外商投资企业和外国企业所得税、个人所得税、土地增值税、城镇土 地使用税、房产税、城市房地产税、印花税、耕地占用税、契税等税种。虽然各税种的 纳税人、计税依据等税制要素不尽相同,但所有这些税都是以房地产的价值为依据的从 价税【4 】。因此,为了保证国家的税收利益,确定一个合理的计税依据和计税基础显的尤 为重要,这就要借助于房地产估价来确定一个各方都公允的房地产价格或价值。 六、房地产权益纠纷的需要 在房地产权益纠纷处理的过程中,需要进行房地产估价的主要有以下两种情况:一 种情况是在房地产交易过程中,有关各方当事人对房地产买卖、租赁、交换、赔偿、征 用、抵押时,涉及的对房地产价格或价值不一致而产生的纠纷。处理这类纠纷关键在于 由作为中介的、不涉及各方当事人利害关系的房地产估价机构确定一个公正的、权威的、 有关当事人都认可的房地产价值。另一种情况足由于遗产继承、婚姻关系解除等案件的 处理过程中涉及的遗产分配与继承和离婚双方财产划分的纠纷【l 3 】。处理这类纠纷的关 键在于,将很难分割的房地产实物形态通过房地产估价转化为关于房地产价值形态划分 的问题上来。 虽然房地产估价在社会经济各方面起着如此重要的作用,而且房地产估价在理论研 究上也相当成熟,但是由于影响房地产价格的因素较为复杂,而且各项因素在不同的环 境中对房地产价格的影响程度也不同,因此,房地产估价在实际操作中仍存在一定的问 题。仅靠严格遵循相关的理论与方法,很难得到一个满意的结果。这样,房地产估价人 员的实践经验及其对房地产估价相关理论的掌握程度,对做出一个合理的房地产估价结 果尤为重要。因此,如何减少房地产估价中人为因素的影响,定量的描述房地产估价问 2 长安入学硕一i :学位论义 题,是房地产估价中亟需解决的问题。 1 2国内外研究现状 关于房地产估价方法的研究最早可追述到1 8 8 4 年,距今已经有一百多年的历史【l9 1 , 学者们从不同的角度提出了许多不同的方法,至今为止比较典型的有三种方法,即市场 比较法、成本法和收益还原法,这三种估价方法各有其适用的特定对象,针对不同的估 价目的可以选择不同的估价方法1 7 1 。由于这三种估价方法既定技术路线的可操作性和对 特定估价对象的适用性等优点,一直被广泛采用。但是各种方法在实际的应用中都存在 一些问题。王人己和姚玲珍指出市场比较法中对交易情况、交易日期、区域因素和个别 因素的修正是靠估价人员运用经验和判断能力来完成的,估价人员的主观态度、估价经 验、判断力以及职业水平在一定程度上影响着估价结果的公正性和客观性【8 】。何山通过 对未来各年纯收益、还原利率和收益年限的分析中得出,在运用收益法评估时,这三者 较难确定【9 1 。且对未来各年纯收益和还原利率固定不变的假设,不符合市场动态变化发 展的事实。 随着计算机科学和其他相关学科的发展,研究学者们针对市场比较法、成本法和收 益还原法存在的这些客观i 、口j 题,借助计算机和其他学科研究问题、解决问题的方法进行 多方面的探索与研究,取得了较好的成绩,并将房地产估价逐步推向定量化研究。申玲、 唐安淮于1 9 9 8 首次将神经网络应用到房地产市场比较法价格估价研究中,通过对实例 的学习得到:b p 神经网络在房地产估价中有助于降低人为因素的影响,较好地保证了 评估结果的真实性和客观性【l o 】。1 9 9 8 年,吴开徽应用二元对比排序法建立房地产评估 的模糊数学评判模型【1 l 】,并将统计预测中的自适应过滤法改进后引入房地产价格评估, 建立基于巾场比较法的房地产模糊预测估价模型。1 9 9 9 年,j o h nh d e t w e i l e r 和r o n a l d e r a d i g a n 建立了基于多元线性回归的计算机辅助房地产估价系统( c a r e a s ) 1 1 2 1 ,它 可以根据提供的数据快速、准确的建立估价模型。同年,r o b e r tj s h i l l e r ,a l l a nn 针对 复杂的房地产抵押业务提出了一种基于计算机可视化操作的房地产质量评估和利润模 拟方法( d e p s ) 1 1 3 】。d e p s 可以由房地产抵押人自己进行操作得到所抵押房地产的价值, 减少抵押房地产估价中所带来的损失。2 0 0 1 年,张协奎等根据交易实例选择和因素差 异量化的模糊性,提出基于模糊数学待估房地产主要特征因素及其隶属函数值的确定 1 1 4 1 ,这从模糊数学的角度提出了一种解决交易实例修j 下的方法。同年,吴红华和吴建华 基于模糊数学和灰色系统理论提出了一种新的房地产价格评估方法1 1 5 】,探索了一种房地 产价格评估的新途径。2 0 0 3 年,杜葵提出了用层次分析法进行区域因素和个别因素的 3 第一章绪论 定量比较和修正【1 6 】,从而进一步完善了市场比较法的应用。2 0 0 4 年杨黎荫和刘开第提 出运用欧氏距离对b p 神经网络的识别系统进行改进的方法【1 7 】,这在神经网络房地产估 价方法上做了更深入的研究工作。2 0 0 5 年,鲍晓娟等人提出基于聚类分析方法和模糊 集合选择排序方法的区域因素和个别因素量化方法【1 8 1 ,首次对影响因素的量化方法进行 了深入的研究。 从以上的分析中可以看出,随着计算机技术和智能科学的不断发展,越来越多的学 者关注房地产估价u j 题的定量化、系统化和智能化研究,如模糊数学、神经网络、层次 分析法等在房地产估价中的应用。 1 3 本文的主要研究内容 市场比较法尽管被广泛的应用于房地产估价具体实务中,但是它本身存在的主观 性,却在一定程度上影响着评估结果的客观和公正。借助计算机虽然可以克服市场比较 法中人为因素的影响,较客观地评估房地产的价格,但是b p 学习中需要大量的样本数 据,这在现实中这难实现。支持向量机由于其解决小样本、非线性问题的优良特性,近 年来被广泛地应用于模式识别、回归拟合、数据挖掘等领域的研究,为此本文采用基于 支持向量机的房地产估价方法解决小样本、非线性的房地产估价问题。 从以上的分析中可以看到,市场比较法相关数据的收集比较容易;成本法中相关的 数据属于企业内部资料,较难获得:收益法中,未来各年还原利率和未来各年纯收益受 经济、市场、政策等多因素影响,较难确定。因此,对于住宅类房地产而言,市场比较 法是一种最成熟、最常用的且具有说服力强和适用范围广等优点的估价方法。文章中将 重点以市场比较法为研究对象来说明问题。 应用市场比较法的关键是可比实例的选择和修f 。可比实例的选择是估价人员根据 自己的经验来选择的,对交易情况、交易日期、区域因素和个别因素的修正,都是估价 人员根据自己的经验和判断力来恰当把握各因素的修正幅度。显然,估价人员的经验越 丰富,对资料的分析和处理能力就会越强,评估结果就会越客观。这些都对估价人员的 从业经验、处理和分析问题的能力提出了较高的要求。而支持向量机以其良好的自组织、 自学习、自适应特性保证了这一部分修正工作的完成。 一定时期内、一定交易环境下,现实中待估房地产的可比实例的数量往往是有限的。 而以有限样本为研究对象的统计学习理论是支持向量机的理论基础,这保证了支持向量 机处理有限样本问题的优良特性。因此,基于支持向量机的房地产估价方法在理论上具 有可行性。 4 长安人学硕l j 学化论文 房地产价格与其影响凶素之间表现为非常复杂的非线性关系。各种影响因素在不同 情况下对房地产价格的影响不尽相同。例如沿街情况,对于住宅而言,离街越远,居住 环境越安静,灰尘越少,房价越高。而对于商用房则正好相反,离街越近,人流量大, 越繁华,房价也会越高。各种影响因素对房地产价格的影响程度也不尽相同,例如对于 普通住宅而言,公共交通的便利程度比绿化率对房地产价格的影响大。再者,随着经济 的发展、人们对生活环境的重新定位,一些在过去对房价影响不大的因素,变成影响房 价的主要因素。例如,随着私家车的增加,交通是否便利对人们来说已经不是首要考虑 的因素,取而代之的是生活环境的舒适程度。因此,在多因素综合影响下,难以用一个 准确的数学模型来描述房地产价格与其影响因素之间的关系。而支持向量机具有非线性 映射能力,特别适用于处理这种多因素影响下的非线性问题。 利用支持向量机进行房地产估价,首先通过对房地产市场交易实例进行调查,收集 交易实例资料,并对房地产价格影响因素进行量化,建立影响因素与房地产价格之间的 对应关系,并形成房地产价格分析样本数据。然后将影响因素作为支持向量机房地产估 价模型的网络输入数据,对应的房地产价格作为期望的网络输出数据,通过对网络的学 习,建立起样本输入与样本输出之间的非线性关系,最后利用得到的非线性关系预测房 地产价格。 综上所述,由于房地产估价影响因素的复杂性、房地产价格与其影响因素之间的非 线性关系,及其支持向量机处理有限样本、非线性问题的特性,将支持向量机应用于房 地产估价问题中,在理论上是可行的。本文尝试将支持向量机方法引入房地产估价研究 中,并基于支持向量机针对小样本数据理论基础和处理非线性问题的强大能力的研究特 点,建立支持向量机房地产估价模型,并建立一套完善的房地产价格影响凶素指标体系 和量化标准,从而提供一种快速和稳定的房地产估价方法,并达到解决房地产估价中实 际问题的目的。本文的主要研究内容: 1 、综合分析常用的几种房地产估价方法,及其在实际应用中存在的一些问题。确 立本文的研究意义和实用价值。 2 、选择数据较为容易获得的市场比较法为研究对象,建立相应的房地产价格影响 指标体系和量化标准,使得对影响因素定性的描述转化为定量的数据。 3 、运用支持向量机的理论与方法建立房地产估价模型,并运用所建立的模型对收 集的实际交易数据进行实证分析。 4 、运用r b f 神经网络和传统的市场比较法分别建立房地产估价模型,对实际交易 5 第一章绪论 数据进行预测分析。 5 、用统一的误差评估标准,对r b f 神经网络和市场比较法与支持向量机的分析结 果进行对比,进一步验证支持向量机方法较其它两种方法在房地产估价应用研究中的优 越性。 6 、进一步分析各模型产生误差的原因,得出结论和对未来研究的展望。 通过以上的分析研究工作,旨在建立起一种对原有估价方法的一种有效的、定量的、 可行的房地产估价补充研究方法。 6 长安人学硕i :学位论文 第二章理论基础 支持向量机( s u p p o r tv e c t o rm a c h i n e s ,s v m ) 是建立在统计学习理论基础之上的一 种机器学习方法,因此在讨论支持向量机的理论之自i ,有必要先了解一些相关的概念及 准则。 2 1引言 机器学习通过对样本数据集的学习,寻找输入与输出之间的函数关系,利用函数关 系对任意给定的输入做出尽可能准确的输出预测。在实际应用研究中,机器学习所涉及 的范围很广,它包括模式识别、回归分析、人工神经网络等这些在本质上属于机器学习 的问题。 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,简称a 卜酣) ,是模拟人脑神经系统的功能 和机理的一种新型数据处理模式,是基于生物学、数学、物理学和计算机学等多门学科 的交叉学科。1 9 5 7 年,r o s e n b l a t t 提出了人工神经网络研究中一个重要的概念:感知机 ( p e r c e p t r o n ) ,首次把人工神经网络理论付诸于工程实现。1 9 6 0 年,w i d r o w 和h o f f 引入了易实现且效率较高的自适应滤波的最小均方差( l e a s tm e a ns q u a r e ,l m s ) 算法, 这是第一个对实际问题起作用的神经网络。1 9 8 6 年,r u m e l h a r t ,h i n t o n 和w i l l i a m s 提出 了一种人工神经网络误差反向传播训练算法( b a c k p r o p a g a t i o n ,简称b p ) ,解决了多层 神经网络学习问题,是一种有导师的学习算法,可用于b p 网络中权值和阀值的学习【2 2 1 。 其实质是在权值空间中用梯度下降法搜索一个对期望输出和网络输出之间的最小化误 差目标函数。它可以分为两个部分:工作信号的正向传播和误差信号的反向传播。 1 9 8 8 年,b r o o m h e a d 和l o w e 根据生物神经元具有局部响应的特点,将径向基函数 引入到人工神经网络的架构没计中,从而产生了径向基( r a d i a lb a s i sf u n c t i o n ,r b f ) 函数神经网络【2 3 1 。它属于多层前馈神经网络,是以到固定点的距离为自变量的函数,由 输入层、隐含层和输出层三层组成【2 4 1 ,每一层由无数个结点组成。同层神经元之间没有 连接,相邻两层的神经元之间完全连接。径向基函数神经网络以其特殊的结构克服了 b p 网络易陷入局部极小、学习速度慢等缺陷。 2 0 世纪9 0 年代初期,v a p n i k 等人提出了一种解决有限样本的模式识别、回归分析 和密度估测等问题的支持向量机神经网络,它为处理复杂的非线性问题提供了一种新的 途径。统计学习理论是支持向量机的理论基础,它保证了支持向量机处理小样本问题的 优良特性。 7 第二荦理论暴础 2 2统计学习理论基础 统计学是机器学习的重要理论基础之一。它基于大数定理,研究的假设条件是样本 数目趋于无穷大【2 5 1 。但在实际问题中,所研究的样本数据往往是有限的,因此一些在理 论研究中非常理想的方法,在实际中却可能无法取得理想的效果。针对统计学在研究有 限样本时,存在的局限性,2 0 世纪6 0 年代,前苏联v a p n i k 博士等人研究发展了统计学 习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,简称s l t ) ,它是分析学习机性能的重要理论 基础,为研究有限样本情况下的模式识别问题和更广泛的机器学习问题建立了一个较好 理论平台。但足,由于v a p n i k 博士的研究是纯理论的研究,没有与实际工程应用相结 合,所以在当时并没有引起人们的关注。直到2 0 世纪9 0 年代,v a p i n k 博士又在统计学 习理论的基础上发展了一种具有很强推广能力的新的机器学习,即支持向量机。至此, 统计学习理论才引起人们的注意。统计学习理论最具有指导性的理论成果是推广性的 界,与此相关的一个核心概念是v c ( v a p n i k c h e r v o n e n k i sd i m e n s i o n ) 维。 2 2 1v c 维 v c 维是由v a p n i k 博士提出的统计学习理论中一个重要概念,它描述的是一个函数 集的复杂程度及其学习能力,它代表了函数集实现从输入到输出映射的能力。对于一个 函数集s 而占,如果存在h 个样本能够被s 中的假设按所有可能的2 “种形式分开,则称 函数集s 能够把h 个样本打散,或者称h 个样本可以被函数集打散,则函数集s 的v c 维 就是它所能打散的最大样本数h 2 6 , 2 7 】。如在图2 1 中的a 、b 、c 三点表示三种不同的类 别,要把这三点分开即打散需要三条直线。若对任意数目的样本都有函数能将它们打散, 则函数的v c 维就是无穷大的。而对于有界实函数的v c 维通常可以用一个阈值将它转化 为指数函数米定义。 y , 、b 、, a ,? 。一一、 。、 c ,7 、 o x 图2 1v c 维示意图 v c 维越人则学习机器越复杂,学习能力越强。那么如何求得给定函数集s 的v c 维 呢? 到目的为止,还没有一套完整、严谨的关于计算任意函数集v c 维的方法。只是通 8 长安人学硕l j 学位论文 过分析,得到一些特殊函数集的v c 维。如2 维平面中线性函数集合的v c 维为3 。但是 要确定一些比较复杂的机器学习的v c 维,如神经网络、模式识别的v c 维,还是十分困 难的。 统计学习理论从理论上较系统的研究了有限样本下经验风险与实际风险之间的关 系问题,它通过v c 维控制机器学习的容量,并结合经验风险和训练样本的数目,得出 期望风险在不同情况下的分析上界,从而引出机器学习推广能力的界的概念。所谓推广 性,是指学习机器对未来的输出进行正确预测的能力。 2 2 2经验风险最小化原则( e r m ) 已知变量y 与输入x 之间存在未知的联合概率f ( x ,y ) ,机器学习的目的就是根据n 个独立同分布观测样本( _ ,m ) ( x 2 ,y :) ,( _ ,y 。) ,在一组给定备选函数集 厂( x ,口) l 口q ) 中求出一个最优函数f ( x ,o f 。) ,使期望风险 r ( a ) = i l ( y ,f ( x ,c o ) d f ( x ,y ) ( 2 1 ) 最小。其中口为参数,期望风险r ( a ) 也称为实际风险,l ( y ,f ( x ,口) ) 为损失函数,表 示函数八x ,口) 对y 进行预测而造成的损失,可表示为: l ( y ,f ( x ,口) ) = ( y - f ( x ,口) ) 2 ( 2 2 ) 在实际问题中,一般无法得知输入x 与输出y 之间的联合概率函数f ( x ,y ) 的显性表达 式,因此无法得到式( 2 2 ) 的预测期望风险。但根据概率论中大数定理的基本思想, 用算数平均代替式( 2 2 ) 中的期望风险,得到式( 2 3 ) : 也叩( 口) = 三( m 厂( ) ) ( 2 3 ) 。 n : 从式( 2 3 ) 可以看到,通过参数口,使得求期望风险r ( a ) 最小化问题转化为求经验风险 如。 ) 最小化问题,即用经验风险来逼近期望风险,这一思想被称为经验风险最小化 ( e m p i r i c a lr i s km i n i z a t i o n ,简称e r m ) 原则m 2 9 1 。在解决具体的工程问题时,e r m 原 则有具体的表现形式,例如回归估计问题中的最小二乘法,概率密度估计中的最大似然 法,它们都是以e r m 原则为理论基础的。但应用e r m 原则是有前提条件的,即要求存在 大量的样本进行训练学习,并且可以找到一个拟合这些训练样本的函数,那么利用e r m 原则就可以对预测样本做出较准确的预测。但是e r m 原则在实际应用中存在以下两个理 论方面的问题: 1 、e r m 原则是基于对大量的数据进行训练的基础之上的,而实际样本数往往是有 9 第二章理论皋础 限的。那么,基于大量样本的训练结果是否同时对有限样本的预测有效? 2 、基于大数定理的原理,可以用算术平均代替式( 2 2 ) 中的期望风险,那么求期 望风险尺( 口) 最小化的问题是否就可以完全的转化为求经验风险心) 最小化,二者之 间存在着怎样的关系? 尽管e r m 原则缺少理论基础方面的有力支持,但是在一种新的可以替代其位置的最 小化原则出现之前,e r m 原则在机器学习的研究中仍起重要的作用。 2 2 3结构风险最小化原则( s r m ) 统计学习理论系统研究有限样本下对于各种类型的函数集,经验风险和实际风险 尺( 口) 之间的关系,即推广性的界,它是分析学习机性能的重要理论基础。所谓推广性, 是指学习机器对未来的输出进行正确预测的能力。 v a p n i k 博士在1 9 7 1 年就提出,对指示函数集中的所有函数,经验风险如。( 口) 和实 际风险之间至少以l 一巧的概率满足以下等式【3 0 】: r ( a ) ( 口) + j h ( 1 n ( 2 n h ) + i ) - i n ( q 4 ) :如,( 口) - i - 。( 疗) ( 2 4 ) - , 其中乃是函数集的v c 维,行是样本数,式( 2 4 ) 说明机器学习的实际风险由两部分组 成,左边的项r ( a ) 是训练样本的实际风险,也称为期望风险,右边的第一项k 。( 口) 为 经验风险,它的大小取决于选取函数集中的某一个特定函数。右边的第二项为置信区间, 它的大小取决于整个函数集的v c 维,随着v c 维的增加而增加,用o ( 办胛) 就可以准确 图2 2 经验风险、置信区间与结构风险 1 0 长安人学硕f :学位论义 的表示出函数集的v c 维与训练样本数之间的这种关系。上式右边两式给出了函数集的 经验风险与实际j x l 险之间差距的上边界,反映出了根据经验风险最小化原则得到的机器 学习的推广性能,也称之为推广性的界。因此,在有限训练样本数据中,要取得较小的 实际风险,不仅要使经验风险最小,同时还要使v c 维尽可能的小,这样置信范围才可 能小,这就是结构风险最小化原则( s t r u c t u r a lr i s km i n i m i z a t i o n ,简称s r m ) 的基本思 想【2 6 2 9 1 。其原理见图2 2 所示。其中,横坐标h 表示学习机器的v c 维,越向右v c 维越 大,置信范围随之增加。纵坐标表示实际的风险,它随着v c 维的增加而递减。即经验 风险与v c 维成反比。 s r m 原理可以表示为:将函数集s 分解为一个函数子集序列,按照各个函数子集v c 维的大小进行排列,见式( 2 5 ) s lc & c c 瓯c ,其中抚h 2 h k , ( 2 5 ) 这样同一个子集中的置信范闸就相同,然后在相同的置信范围前提下,在每个子集中寻 找最小经验风险。在子集间综合考虑经验风险k ( 口) 和置信区间中( 形刀) ,以取得实际 风险的最小值【3 0 1 。在实际问题中,如果只强调较小的经验风险,就会使得v c 维非常的 大,学习机器会变得较为复杂,从而加大了学习成本。此时的训练误差虽然非常小,但 不能保证学习机器有较好的推广性能,这就是图2 2 中所表示的过学习( o v e r f i t t i n g ) 情 况。同样如果只追求学习机器较小的置信范围,而忽略经验风险的大小,此时的学习机 器训练f 3 ) 时,( 缈x ,) + 6 = o 称为回归超平面,( - 9 为其法向量。支持向量机回归学习的目 的就是求得回归超平面,的表达式,使所有的样本点距离回归超平面的总偏差最小。因 为样本点分布于回归超平面的两侧,求总偏差的最小也就相当于求训练样本到回归超平 面的i n j 隔最大。所谓l 、r j 隔,是指训练样本集到回归超平面的距离。 针对s v m 问题,v a p i n k 提出了最大间隔化( m a x i m a l m a r g i n ) 这个支持向量机专有 名词,它是指在对所有样本点回归拟合的情况下,寻求使间隔达到最大的回归学习机【2 8 1 , 这时的、b 就是最优值。对应最大间隔的回归超平面就是最优回归超平面。最大间隔 和最优回归超平面只由落在边际上的样本点决定,因此s v m 学习机计算的复杂性也仅取 决于支持向量的数目,与样本空间的维数无关。如图2 5 中落在边际上的样本点补x 2 就 是支持向量( s u p p o r tv e c t o r ) ,它到超平面的距离为1 i l 。 2 4 1s v m 线性回归 给定一组训练样本( 一,m ) ,( x 2 ,款) ,( _ ,m ) ,训练样本中x 与y 之间存在函数关系: f = 厂:r - - + r ) ,线性支持向量机回归如图2 5 所示: 下l 气 、 、 。,v 7 ,。 设图中回归超平面,的方程为: 两条边界、乞的方程分别为: 、 f 1 :、 , 7 。1 ,了8 、 7 二一一一一一- 最优回归超平面 图2 5s v m 线性回归示意图 厂( 石) = ( 缈- x ) + b = 0 1 3 ( 2 7 ) 第_ 二章理论皋础 ( - ) + 6 = 一1 同1 ( 2 8 ) ( 批z ) + 6 2 研1 ( 2 9 ) c o - ( x 2 - x , ) 2 赢 j 眢2 斋 眨 为了使所有样本点都在边界线、乞的范围之内,在s 一不敏感损失函数精度要求 一?;?譬-8y wb占 lf 一( (x f ) +) 一占 p r o g r a m m i n g ,简称q p ) 。由于目标函数和约束条件都是凸集,根据最优化理论,二次 m i n 劲w 0 2 ( 2 1 3 ) m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年远程协作工具的效率提升分析
- 2025年江苏南京医科大学招聘专职辅导员3人(第一批)笔试备考题库含答案详解
- 助听器验配师题库检测试题打印(含答案详解)
- 2024银行招聘考试历年机考真题集含答案详解【突破训练】
- 人教版8年级数学上册《轴对称》同步练习试卷(含答案详解版)
- 工地安全员考及答案类型
- 安全员考试及答案二
- 难点详解自考专业(小学教育)试卷1套附答案
- 2023年度重庆科技大学单招《英语》通关题库含答案详解【模拟题】
- 地理题玄学高考真题及答案
- 《情满今生》读书笔记模板
- 胸痛中心网络医院STEMI患者绕行急诊和CCU方案流程图
- 2021年一级注册消防工程师继续教育试题答案
- 急危重病人营养与代谢支持
- 甲醇理化性质及危险特性表MSDS
- GB/T 7216-2009灰铸铁金相检验
- GB/T 5796.3-1986梯形螺纹基本尺寸
- 华北理工大学2016年《互换性及技术测量》期末考试复习题
- 医学影像学总论-X线课件
- 大班科学《神奇的洞洞》课件
- 第二次全国陆生野生动物资源调查技术规程
评论
0/150
提交评论