苏州科技大学-机器学习复习JU-JI自整

上传人：y*** IP属地：天津上传时间：2023-03-02 格式：DOCX 页数：12 大小：106.30KB 积分：18 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一、考试题型1.选择题20题共40分2.名词解释题10题共10分3.简答题3题共30分4.计算题1题共20分（4小问）二、考试知识点整理.人工智能ArtificialIntelligence,简记为AI,是当前科学技术迅速发展及新思想、新理论、新技术不断涌现的形势下产生的一个学科，也是一门涉及数学、计算机科学、哲学、认知心理学和心理学、信息论、控制论等学科的交叉和边缘学科。.智能的定义智能是知识和智力的总和，知识是一切智能行为的基础，智力是获取知识并运用知识求解问题的能力。.智能特征1）感知能力2）记忆和思维能力3）学习和自适应能力4）行为能力.机器学习机器学习（MachineLearning，ML）是机器获取知识的根本途径，也是机器具有智能的重要标志，是人工智能研究的核心问题之一。机器学习是使计算机无需明确编程就能学习的研究领域。.人工智能的主要学派1）符号主义2）连接主义3）行为主义.人工智能的主要研究内容1）知识表示：实际上是对知识的一种描述，或者是一组约定，是机器可以接受的用于描述知识的数据结构。2）推理：指按照某种策略，从已知事实出发，利用知识推出所需结论的过程。3）搜索与规划：搜索是指为了达到某个目标，不断寻找推理路线，以引导和控制推理，使问题得以解决的过程。规划是一种重要的问题求解技术，是从某个特定问题状态出发，寻找并建立一个操作序列，直到求得目标状态为止的一个行动过程的描述。4）机器学习：是机器获取知识的根本途径，也是机器具有智能的重要标志，是人工智能研究的核心问题之一。.机器学习分类1）监督式学习2）无监督学习3）强化学习.监督学习与非监督学习区别1）原理不同：监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程。无监督学习指根据类别未知（没有被标记）的训练样本解决模式识别中的各种问题的过程。2）算法不同：监督学习的算法是通过分析已知类别的训练数据产生的。无监督学习的算法主要有主成分分析方法、等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。3）适用条件不同：监督学习适用于样本数据已知的情况。非监督学习适用于无类别信息的情况。.监督学习与强化学习区别1）监督学习有两个主要任务，即回归和分类，而强化学习则具有不同的任务，例如开发或探索，马尔可夫的决策过程，政策学习，深度学习和价值学习。2）在监督学习中，存在各种数量的算法，它们的优缺点适合于系统要求。在强化学习中，马尔可夫的决策过程为建模和决策情况提供了数学框架。3）监督学习意味着名称本身就表示它是高度监督的，而强化学习则受到较少的监督，并且依赖学习代理来通过确定不同的可能方式来确定输出解决方案，以实现最佳解决方案。.过拟合与欠拟合过拟合：当学习器把训练样本学得太好了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降。欠拟合：指对训练样本的一般性质尚未学好。.模型评估的关键在于如何获得测试集，且测试集应该与训练集互斥。.常见的模型评估方法1）留出法保持数据分布一致性（举例：分层采样）多次重复划分（举例：100次随机划分）测试集不能太大也不能太小（举例：1/5〜1/3）2）交叉验证法3）自助法4）调参与最终模型算法参数由人工设定，模型参数由学习确定调参过程相似：先产生若干模型，然后基于某种评估方法进行选择算法参数选定后，要用“训练集+验证集”重新训练最终模型.性能度量是衡量模型泛化能力的评价标准，反映了任务需求，使用不同的性能度量往往会导致不同的评判结果，回归任务最常用的性能度量是均方误差。.常用的性能度量1）错误率与精度查准率、查全率与F1ROC与AUC4）代价敏感错误率与代价曲线.比较检验（在某种度量下取得评估结果后，是否可以直接比较以评判优劣？）在某种度量下取得评估结果后，不可以直接比较以评判优劣，因为测试性能不等于泛化性能，测试性能会随着测试集的变化而变化，并且很多机器学习算法本身有一定的随机性。.比较检验的常用方法1）假设检验2）交叉验证t检验McNemar检验Friedman检验与Nemenyi后续检验.偏差-方差分解泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度共同决定，偏差-方差分解是解释学习算法泛化性能的一种重要工具。.偏差-方差窘境训练不足时，学习器拟合能力不强，偏差主导随着训练程度加深，学习器拟合能力逐渐增强，方差逐渐主导训练充足后，学习器的拟合能力很强，方差主导.参数与超参数1）参数：从模型中学习得到的变量。2）超参数：在开始学习过程之前设置其值的参数，而不是通过训练获得的参数数据。.参数与超参数区别1）获取信息的方式不同通过模型训练获得参数。超参数是手动设置的。2）不同的影响因素超参数来自人类经验，并将受到硬件的限制。参数主要受模型的影响。不同模型的训练效果不同。3）不同的影响因素超参数是人工设定的，具有很高的可控性。参数与模型相关，结果有时达不到预期，可控性差。

.强化学习强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标(比如取得最大奖励值)。强化学习就是智能体不断与环境进行交互，并根据经验调整其策略来最大化其长远的所有奖励的累积值。智能体(Agent)：感知外界环境的状态(State)和奖励反馈(Reward)，并进行学习和决策。智能体的决策功能是指根据外界环境的状态来做出不同的动作(Action)，而学习功能是指根据外界环境的奖励来调整策略。环境(Environment)：智能体外部的所有事物，并受智能体动作的影响而改变其状态，并反馈给智能体相应的奖励。.强化学习和监督学习的区别1)强化学习是试错学习，由于没有直接的指导信息，智能体要以不断与环境进行交互，通过试错的方式来获得最佳策略。2)延迟回报，强化学习的指导信息很少，而且往往是在事后才给出的，这就导致了一个问题，就是获得正回报或者负回报以后，如何将回报分配给前面的状态。.马尔科夫决策过程(MDP)MDP组成一组状态s动作a一个过渡分布缁=尸(5$=$'W=s,q=。)黑友，期待下一次奖励r=Is,= =4s,+i=s']awX2)决策许多随机过程可以在MDP框架内建模。这个过程是通过在每个状态下选择行动来控制的，试图获得最大的长期回报。3）示例（回收机器人）5二3）示例（回收机器人）5二{highjow}>i(high)={wait,search}JI(low)-{waft.search,recharge)5=/=Sf+la=df始K%highhighsearchohighIqwsearch1—CE^saarchlowhighsaarcli1—£lowlovsearch8-7j-searchii&hhighwa.it1汽弋hi曲loutfa.itDlowhighoaitDlow1OBoait1&，altloQhighrecharge1uIqqIonrecharge0u.:expected#cansv<iiilesearchingK'M；expected#cansvdiilewaiting宽R小>昭皿究，。口，外，门1团「一，为一|"1一|：/一」，闻，…，当尔可夫过程p(%+i|s%%, 】即，的)=p®+1l^tiOt),24.强化学习基本方法1)动态规划：发展良好，但需要完整准确的环境模型；2)蒙特卡罗方法：不需要模型，概念上非常简单，但不适合逐步增量计算;3)时差学习：时差法不需要模型，而且是完全增量的，但分析起来更复杂;Q-Learning.动态规划①P)1)可以用来计算最优策略的一组算法给出了一个完美的环境模型。(例如MDP)2)动态规划是理解其他方法的必要基础。3)其他方法试图实现与DP几乎相同的效果，只是计算量较少，并且没有假设环境的完美模型。.动态规划方法1)政策评估2)政策改进3)策略迭代4)价值迭代V(s)=maxzPa[Ra+YV(s')]k+1 a s,SSSSk异步DP・异步DP不使用扫描，它是重复此步骤，直到满足收敛条件然后随机选择一个状态并应用适当的备份・异步DP仍然需要大量计算，但不会陷入无望的长扫描.蒙特卡罗方法(随机搜索法)・蒙特卡罗方法是求解基于平均样本收益的强化学习问题的方法。・为了确保定义良好的返回是可用的，我们只对情景任务定义蒙特卡罗方法。.蒙特卡罗(MC)方法与动态规划(DP)之间的区别和联系MC可以直接从与环境的交互中学习；MC不需要完整的模型；MC违规造成的伤害较小；MC方法提供了另一种策略评估过程；5)与DP相反，MC没有引导。.时差学习(TD)结合了MC和DP的思想。与MC一样，TD方法可以直接从原始经验中学习，而无需环境动力学模型。与DP一样，TD方法在一定程度上基于其他学习到的估计值来更新估计值，而无需等待最终结果。.为什么TD更擅长在批量更新中推广MC易受不良状态采样和怪异事件的影响；TD较少受到怪异事件和抽样的影响，因为与其他状态相关的估计可能会得到更好的抽样；3)对于环境的最大似然模型，TD收敛于修正值函数。31.Sarsa31.SarsaSarsa:On-PolicyTDControl・InitializeQ(sta)arbitrarily♦Repeat(foreachepisode):-Initializes-Repeat(foreachstepofepisode):ChooseafromsusingpolicyderivedfromQ(e.g.,t-greedy)Takeactiona；observerewardsrtandnextstate^s'Choo&ea'froms'usingpolicyderivedfromQ(e,g,,e-greedy)Q(s,a)-Q(s,a)+o[r+Q(s1,a')-Q(s,a)]s—C：日—岁-untilsisaterminal32.Q-Learning32.Q-LearningQ-Learning:Off-PolicyTDControl♦Initialize0(5,a)arbitrarily•Repeat(foreachepisode):-InitializesRepeat(foreachstepofepisode):Chooseafrom$usingpolicyderivedfromQ(erg..e-greedy)Takeactiona;observereward,r,andnextstate,占'Choo&ea,froms'usingpolicyderivedfromQ(s.g.,s-greedy)金外日)-QSm1)一W*+『in警,(?)-5品阡)*untilsisaterminal

33.公式1)策略的状态值函数V兀(s)=E[RIs=s]=ETOC\o"1-5"\h\z兀tt 兀2)V的贝尔曼方程\o"CurrentDocument"V兀(s)=乙兀(s,a)XParRa+YV兀(s')ss' ss'„ fa ss：状态a：行为r：奖励Y：折扣因子3)贝尔曼最优方程V*(s)=maxXawA(s)s,4)Q2TR(s)

P'(s)iQMs,a)xQ(s,a)二,汩—2pi(s)pBi=1 i=^~~PaV^(s)ss=2Pa2n(s'a')Qn(s',a')ss，[Rt-V([Rt-V(s)]5)蒙特卡罗方法(MC)5)V(s)―V(s)+a动态规划(DP)V(s)一£{r+d(s)}TOC\o"1-5"\h\zt 冗t+1 t+1时差学习(TD) 「V(s)―V(s)+alr+yV(s)-V(s)」t t ?+l ?+l t34.计算题1考虑以下带有折扣因子-'••的马尔可夫决策过程(MDP),大写字母A、B、C代表状态，弧代表状态转换，小写字母ab，ba，bc，ca，cb代表动作，有符号整数代表奖励，分数代表转移概率。•定义折扣MDP的状态值函数Vn(s)【回答】♦%$)=e孔—十1十之十…•写出状态值函数的贝尔曼期望方程【答案】10产(s)=E--+1+丫炉兀0+1)|导orv%，)=E兀60(咒"—了£偿厂(4))江廿E组 \ 5%$ /V71-4冗—丫严M考虑统一随机策略n1(s,a)，它以相等的概率从状态s采取所有行动。从初始值函数V1(A)=V1(B)=V1(C)=2开始，应用迭代策略评估的一个同步迭代(即每个状态一个备份)来计算新的值函数V2(s)【回答】V2[A]：--8-O.5V](Bj--7%(即=03(2+0.5。4))+05(—2+0.55(C))=IV^(C)=0.5(8+0,5Vi(5))+0.5(

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

苏州科技大学-机器学习复习JU-JI自整

文档简介

温馨提示

最新文档

评论

苏州科技大学-机器学习复习JU-JI自整

文档简介

温馨提示

最新文档

评论

相关文档