




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
模式辨别与机器学习期末考察试卷研究生姓名:入学年份:导师姓名:试题1:简述模式辨别与机器学习研究的共同问题和各自的研究重视点。答:(1)模式辨别是研究用计算机来实现人类的模式辨别能力的一门学科,是指对表征事物或现象的各种形式的信息进行办理和剖析,以对事物或现象进行描绘、辨识、分类和解说的过程。主要集中在双方面,一是研究生物体(包含人)是如何感知客观事物的,二是在给定的任务下,如何用计算机实现识其余理论和方法。机器学习则是一门研究如何用计算机来模拟或实现人类学习活动的学科,是研究如何使机器经过辨别和利用现有知识来获取新知识和新技术。主要表现以下三方面:一是人类学习过程的认知模型;二是通用学习算法;三是结构面向任务的专用学习系统的方法。二者关怀的好多共同问题,如:分类、聚类、特色选择、信息交融等,这两个领域的界线愈来愈模糊。机器学习和模式识其余理论和方法可用来解决好多机器感知和信息办理的问题,此中包含图像/视频剖析(文本、语音、印刷、手写)文档剖析、信息检索和网络搜寻等。2)机器学习和模式辨别是分别从计算机科学和工程的角度发展起来的,各自的研究重视点也不一样。模式识其余目标就是分类,为了提升分类器的性能,可能会用到机器学习算法。而机器学习的目标是经过学习提升系统性能,分类不过其最简单的要求,其研究更重视于理论,包含泛化成效、收敛性等。模式辨别技术相对照较成熟了,而机器学习中一些方法还没有理论基础,不过实验成效比较好。很多算法他们都在研究,可是研究的目标却不一样。如SVM在模式辨别中研究所关怀的就是其对人类成效的提升,偏工程。而在机器学习中则更重视于其性能上的理论证明。试题2:列出在模式辨别与机器学习中的常用算法及其优弊端。答:(1)K近邻法KNN算法作为一种非参数的分类算法,它已经宽泛应用于分类、回归和模式辨别等。在应用KNN算法解决问题的时候,要注意的两个方面是样本权重和特色权重。优弊端:特别有效,实现简单,分类成效好。样本小时偏差难控制,储存全部样本,需要较大储存空间,关于大样本的计算量大。2)贝叶斯决议法贝叶斯决议法是以希望值为标准的剖析法,是决议者在办理风险型问题时经常使用的方法。优弊端:因为在生活中间很多自然现象和生产问题都是难以完好正确展望的,所以决议者在采纳相应的决议时总会带有必定的风险。贝叶斯决议法就是将各要素发生某种改动惹起结果改动的概率凭统计资料或凭经验主观地假定,而后进一步对希望值进行剖析,因为此概率其实不可以证明其客观性,故常常是主观的和人为的概率,自己带有必定的风险性和不必定性。固然用希望的大小进行判断有一些风险,但仍能够以为贝叶斯决议是一种兼科学性和实效性于一身的比较完美的用于解决风险型决议问题的方法,在实质中能够宽泛应用于组织系统改革、公司效益、市场开发、证券投资等诸多领域。使用时依据决议者的重视点,联合变异系数,综合使用钱币要素的贝叶斯决议、或功效函数的贝叶斯决议法,都会获取自己想要的结果。(3)DES加密算法DES是DataEncryptionStandard(数据加密标准)的缩写,它为密码系统中的对称密码系统,又被称为美国数据加密标准,是
1972
年美国
IBM公司研制的加密算法。
DES是一个分组加密算法,他以
64位为分组对数据加密。同时
DES也是一个对称算法:加密和解密用的是同一个算法。它的密匙长度是
56位(因为每个第
8
位都用作奇偶校验),密匙能够是随意的
56位的数,并且能够随意时候改变。此中有很少许的数被以为是弱密匙,可是很简单避开他们。所以保密性依靠于密钥。优弊端:拥有极高安全性,分组比较短,密钥很短,密码生命周期短,运算速度较慢。4)决议树学习算法决议树算法是一种混淆算法,它综合了多种不一样的创立树的方法,并支持多个剖析任务,包含回归、分类以及关系。决议树算法支持对失散属性和连续属性进行建模。优弊端:决议树算法高效快速且可伸缩,可轻松实现并行化,这意味着全部办理器均可共同工作,共同生成一个一致的模型。这些特色使决议树分类器成为了理想的数据发掘工具。在数据发掘的各种方法中,决议树概括学习算法以其易于提取显式规则、计算量相对较小、能够显示重要的决议属性和较高的分类正确率等优点而得到宽泛应用。决议树的这种易理解性对数据发掘的使用者来说是一个明显的优点。但是决议树的这种明确性可能带来误导。比方,决议树每个节点对应切割的定义都是特别明确绝不含糊的,但在实质生活中这种明确可能带来麻烦。对决议树常有的责备是说其在为一个节点选择如何进行切割时使用“贪婪”算法。此种算法在决定当前这个切割时根本不考虑此次选择会对未来的切割造成什么样的影响。(5)C均值算法均值算法是经过不停调整聚类中心使得偏差平方和准则函数获得极小值。优弊端:能够动向聚类,是一种无监察学习算法,算法简单,速度快,局部搜寻能力强,能够有效办理大型数据库,与神经网络联合可极大地提升收敛性和精度。c-均值算法的一个主要问题是区分类型数一定预先确立,这种主观确立数据子集数量其实不必定吻合数据集自己的特色,所以关于随机的初始值选用可能会致使不一样的聚类结果,甚至存在着无解的状况;在选用聚类中心点时采纳随机选用易使得迭代过程堕入局部最优解,简单收敛于局部极小点;该算法对“噪音”和孤立点数据比较敏感,少许的该类数据能够对均匀值产生极大的影响。(6)遗传算法遗传算法(GeneticAlgorithm)是模拟达尔文的遗传选择和自然裁减的生物进化过程的计算模型,是一种经过模拟自然进化过程搜寻最优解的方法。优弊端:遗传算法是一类可用于复杂系统优化的拥有鲁棒性的搜寻算法,与传统的优化算法对比,主要有以下特色:
1.与问题领域没关切快速随机的搜寻能力。
2.搜寻从集体出发,拥有潜伏的并行性,能够进行多个个体的同时比较。
3.搜寻使用评论函数启迪,过程简单。
4.使用概率体制进行迭代,拥有随机性。
5.拥有可扩展性,简单与其余算法联合。6.直接以适应度作为搜寻信息,无需导数等其余协助信息。7.使用多个点的搜寻信息,拥有隐含并行性。8.使用概率搜寻技术,而非确立性规则。也存在一些问题:1.没有能够实时利用网络的反应信息,故算法的搜寻速度比较慢,要得要较精准的解需要许多的训练时间。
2.算法对初始种群的选择有必定的依靠性,能够联合一些启迪算法进行改良。
3.算法的并行体制的潜伏能力没有获取充分的利用,这也是目前遗传算法的一个研究热门方向。(7)BP神经网络算法其学习过程由正向流传和反向流传构成。在正向流传过程中,输入信息从输入层经隐单元层逐层办理后,传至输出层。假如输出层得不到希望输出,那么就转为反向流传,把偏差信号沿连结路径返回,并经过改正各层神经元的权值,使偏差信号最小。优弊端:BP算法能够经过学习带正确答案的实例集自动提取“合理的”求解规则;拥有必定的推行能力;学习过程有被“固化”的潜伏可能性;它能以随意精度迫近随意非线性函数,并且拥有优秀的迫近性能,并且结构简单,是一种性能优秀的神经网络。但也存在一些问题,BP算法是依据均方偏差的梯度降落方向收敛的,但均方偏差的梯度曲线存在许多局部和全局最小点,这就使得神经网络易堕入局部最小;算法的收敛速度较慢,可能会浪费大批时间;神经网络隐层的结点个数难以确立适合的数值;如何选用适合的学习样本解决网络的推行(泛化)问题,即便网络能正确办理未学习过的输入。8)Hopfield网络算法Hopfield网络算法作为典型的反应神经网络,有以下独有的优点和弊端。只有不动点吸引子,没有其余种类的吸引子。Hopfield同的这个性质被称为全局稳固性。2.网络状态的演化趋于某个二次函数的局部最小点。3.很难精准地分析Hopfield网的性能。4.难于找到通用的学习算法。5.这种阿络的动力学行为过于筒单。5.Hopfield问只有不动点吸子,是一种悲观被动的神经网络。试题3:简述在模式辨别与机器学习中解决问题的主要步骤。指出那些步骤波及到学习?在数据的前办理中,特色选择起什么作用?答:(1)在模式辨别与机器学习中解决问题的主要步骤:问题描绘:正确剖析研究目的,并对未来工作做出计划。数据选择:数据选择是依据用户需求从数据库中提取有关数据。知识发现过程:概括为3个步骤,即数据发掘预办理、数据发掘、数据发掘后办理。数据预办理是对数据进行再加工,检查数据的完好性及一致性,对此中的噪音数据进行办理。对丢掉的数据利用统计方法进行填充,形成发掘数据库。数据变换即从发掘数据库里选择数据,变换的方法主假如利用聚类剖析和鉴别剖析。数据发掘是依据用户要求,确立知识发现的目标是发现何种种类的知识。运用选定的知识发现算法。从数据库中提取用户所需要的知识。知识评论主要用于对所获取的规则进行价值评定,以决定所获取的规则能否存入基础知识库。选择或设计模型:对同一个问题也许有很多不一样的模型能够描绘,不一样的模型会致使辨别和学习结果的不一样,所以需要利用已有的经验和知识来选择或设计适合的模型。在确立了所成立的模型后,就能够预计模型的参数,需要注意的时,应当使得模型对未知数占有优秀的适应性。训练所成立的模型:用前面所得的数据分红两组,一组作为训练数据,一组作为测试数据。设定目标偏差,用训练数据对所成立的模型进行训练,达到目标误差,就停止训练,这样就确立了所成立模型的参数。测试、评估、考证模型:测试模型的目的是为了确立所成立模型能否知足实质应用要求。测试数据应当和训练用的样本数据不一致,不然,测试所得的结果永久都是满意的。用测试数据对所成立模型进行测试,察看测试结果能否与实质状况是相吻合。若与实质状况相吻合,所成立模型便可对未知数据做展望,进而获取进一步的考证。在这些步骤中,步骤5波及到学习。特色选用(也称作属性选择)是简化数据表达形式,是在模式辨别中依据必定的原则,选用反应被辨别模式实质的那些特色的方法或过程。模式辨别和机器学习方法第一要解决的一个问题就是特色选择。在数据的前办理中,特色选择是一个特别重要的步骤,特色选择不合理,会影响辨别和学习成效。经过特色选择和提取,我们才可获取所采集数据中最有效的信息,最有效的特色,选择出有益于分类或聚类成立模型的变量,进而实现特色空间维数的压缩,以降低后续办理过程的难度,才能鉴于这些特色对所成立模型进行训练和测试。同时特色选用也是降低储存要求,提升分类精度和效率的重要门路。试题4:在模式辨别与机器学习的研究中,还不停有人提出新的算法。请列举一些能够用来比较算法利害的方法?答:算法是计算机科学中一个重要的研究方向,是解决复杂问题的要点。在计算机世界中,算法无处不在。同一问题可用不一样算法解决,而一个算法的质量好坏将影响到算法以致程序的效率。能够用来比较算法利害的方法有:正确性一个算法能否正确的,是指关于一吻合法的输入数据,该算法经过有限时间(算法意义上的有限)的履行能否都能产生正确(或许说知足规格说明要求)的结果。时间复杂度和空间复杂度一个算法的时间复杂性是指该算法的基本运算次数,记作T(n)=O(f(n))。时间复杂度不停增大,算法的履行效率越低。空间复杂度是指算法在计算机内履行时所需储存空间的胸怀。记作S(n)=O(f(n))。储存空间越大,算法效率也越低。占用空间算法履行需要储存空间来寄存算法自己包含的语句、常数、变量、输入数据和实现其运算所需的数据(如中间结果等),其余还需要一些工作空间用来对(以某种方式储存的)数据进行操作。可读性可读性好的算法有助于设计者和别人阅读、理解、改正和重用。与此相反,艰涩难懂的算法不只简单隐蔽许多的错误,并且增添了人们在阅读、理解、调试、改正和重用算法等方面的困难。牢固性当输入数据非法时,算法能适合地作出适合的反响。试题5:在你所知道的模式辨别与机器学习算法中,那些方法较合合用来解决纯数值型数据的问题,那些方法较适合用来解决包含大批非数值数据的问题。答:(1)解决纯数值型数据问题的方法:贝叶斯决议法、神经网络算法等。贝叶斯决议法是鉴于概率统计的基本的鉴别函数分类法。只需知道先验概率和条件概率就能够对样本进行判断,因为数据是纯数值型数据,数据简单,样本间的空间距离易计算,且先验概率和条件概率易求得。神经网络只好办理数值型数据。成立神经网络需要做的数据准备工作量很大。要想获取正确度高的模型一定仔细的进行数据冲洗、整理、变换、选择等工作。对任何数据发掘技术都是这样,神经网络特别着重这一点。比方神经网络要求全部的输入变量都一定是0—1(或-1—+1)之间的实数,所以像“地域”之类文本数据一定先做必需的办理变为数值以后才能用作神经网络的输入。2)关于非数值型数据可用方法:决议树、遗传算法等。决议树很善于办理非数值型数据,决议树的分类方法是从实例集中结构决议树,是一种有指导的学习方法。其算法的特色是经过将大批数占有目的分类,从中找到一些有价值的,潜伏的信息,特别适合大规模的数据办理。遗传算法特色从解会合进行搜寻,利于全局择优。该算法拥有收敛性,经过选择、交错、变异操作,能快速清除与最优解相差极大的串。是非数值并行算法之一,解决了非数值数据及大批数据带来的计算量和储存量的问题。试题6:模式辨别与机器学习最难解决的问题是什么?并说明原因。答:我感觉模式辨别与机器学习中最难解决的问题是:1)学习速率确实定。提出设计者应当从详细系统中获取的数据确立算法学习速率的上、下界数值,并选用最优学习速率。2)在办理详细的问题时,适合算法的选择。在算法选择中没有天生优胜的模式。辨别与机器学习算法,各自算法的都有其对应的应用范围及应用中应注意的问题,只有充分认识不一样模式辨别算法,深入剖析算法的使用条件,才能做到最正确选择。但目前算法好多,没有深入的话简单被忘记,深入的话花得时间多,且在好多实质问题中间,经常不简单找到那些最重要的特色,或许受条件限制不可以对它们进行丈量,这使得特色选择和提取的任务复杂化,进而成为结构模式辨别系统,提升决议精度的最困难的任务之一。3)相应的参数的选择。如何确立变量值,这是一个很要点的问题,但到现在还没有快速而有效的规则,有的不过一些原则性的指导。并且选择参数值最后还应归纳为每个用户对算法的体验,用户只好经过自己的编程实践,用各种不一样的参数值进行调试,看结果会发生什么,并从中选用适合的值。试题7:请例举一些你以为应用得较好的算法及应用实例。答:我以为应用较好的算法以下:1)遗传算法因为遗传算法的整体搜寻策略和优化搜寻方法在计算是不依靠于梯度信息或其它协助知识,而只需要影响搜寻方向的目标函数和相应的适应度函数,所以遗传算法供给了一种求解复杂系统问题的通用框架,它不依靠于问题的详细领域,对问题的种类有很强的鲁棒性,所以宽泛应用于很多科学。1、函数优化函数优化是遗传算法的经典应用领域,也是遗传算法进行性能评论的常用算例,很多人结构出了各种各种复杂形式的测试函数:连续函数和失散函数、凸函数和凹函数、低维函数和高维函数、单峰函数和多峰函数等。关于一些非线性、多模型、多目标的函数优化问题,用其余优化方法较难求解,而遗传算法能够方便的得到较好的结果。2、组合优化跟着问题规模的增大,组合优化问题的搜寻空间也急剧增大,有时在目前的计算上用列举法很难求出最优解。对这种复杂的问题,人们已经意识到应把主要精力放在追求满意解上,而遗传算法是追求这种满意解的最正确工具之一。实践证明,遗传算法关于组合优化中的NP问题特别有效。比如遗传算法已经在求解旅游商问题、背包问题、装箱问题、图形区分问题等方面获取成功的应用。其余,GA也在生产调动问题、自动控制、机器人学、图象办理、人工生命、遗传编码和机器学习等方面获取了宽泛的运用。(2)BP神经网络算法BP神经网络模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 以人为本提升医护团队工作效率与质量的研究报告
- 医疗AI的隐私保护与法规要求
- 医疗健康管理中的个性化服务设计与实施
- AI临床决策支持系统的科技发展及其挑战
- 人性化医疗服务的国际比较与借鉴
- 企业内部健康管理探索员工对新型医疗科技的接受度
- 学校体育教师的工作总结模版
- 看开学第一课心得体会模版
- 医疗AI在公共卫生领域的伦理应用探讨
- 业务撮合合同范例
- 彩票大数据预测分析
- 4.1基因指导蛋白质的合成(第1课时)高一下学期生物人教版必修2
- 建材商户入驻协议书模板
- (完整)老旧小区改造施工组织设计
- 2024-2030年中国科技服务行业发展前景及投资策略分析研究报告
- 《城市轨道交通》课件
- 建筑工程材料取样送检一览表
- 电梯安装挂靠合同
- 婚姻家庭继承法期末考试复习题及参考答案
- 2024年四川省成都市中考数学试卷(含解析)
- 有机肥原材料采购合同范本
评论
0/150
提交评论