




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
如何系统学习机器学习?机器学习是人工智能下一个比较广泛的分支,涉及了很多交叉的领域如NLP自然语言处理、计算机视觉ComputerVision等等。简单来说,机器学习ML就是通过训练计算机来模拟人类的学习行为,从而进行预测并解决更多的问题。机器学习往往需要大量的时间和耐心,其过程就像一场马拉松,不会直接冲刺到终点,而是在学习中体会到一个不断变化的、多样的领域。那么机器学习又包含了哪些概念呢?根据难易程度和专注的分支不同,我将它分为以下几类:基础概念Logistic回归、决策树算法、纳伊夫贝叶斯、支持向量机缶丫乂虫分类项目、回归项目、无监督学习进阶概念提升算法(XGBoost,LightGBM,Catboost)、时间序列、随即森林机器学习技术验证策略、超参数调整、特征工程、集合学习、叠加和混合推荐系统矩阵代数、SVD和PCA、处理不同类型的数据、推荐系统、Github从这些分类中不难看出,机器学习所涵盖的内容五花八门,它的概念从来就不是与其他领域独立开来的。所以要想成为ML的专家,往往需要尽可能多的去探索、研究其他领域的内容,建立一个完整的知识体系;因为很多内容都是相通的,有了一定知识储备后,对于日后的学习也能更好的理解。当你学习理论时,要问自己,这里发生了什么?我怎样才能真正应用这个?ML领域内的数学容易看起来令人生畏。对于很多的文字内容的理解,我的技巧是借助Rademacher模型。事实证明,人们对于图像的理解往往比对文字的理解更好。我学习时,面对很多标记数据,会先尝试建立一个模型并训练模型,测试其准确性是更差还是相同。不过这个方法不太建议大家在深度学习时尝试,因为神经网络可以过度拟合任何数据集,甚至是随机标记的数据。关于这部分的训练,你可以通过任何bootcamp或MOOC'S接受相关培训。这些资源在很多平台也有所提供,在这之中,我比较推荐其中一个叫Learnbay的平台。Learnbay是由IBM认证的数据科学培训。在机器学习模块下,你将学习很多我前面提到的基础概念,如,监督学习,线性回归,逻辑回归,决策树。除此之外,你还有机会参与各种实时项目。在了解了机器学习的基础概念之后,就到了学习方法。在过去的一年半里,我一直专注于机器学习领域computervision的学习,所以对于机器学习的学习方法,也是有自己的一些见解的。接下来我会将机器学习步骤分成基础、理论学习和实践三步来讲解。一、学前基础如果不对其前提条件进行介绍的话,机器学习可能会显得很可怕。对于大部分人来说,虽然这个领域不需要你成为一个专业的数学家或资深的程序员来学习,不过对于这些领域的核心技能还是需要掌握的。好消息是,一旦你拥有了这些基础,剩下的学习就会相当容易。事实上,几乎所有的ML都是关于将统计学和计算机科学的概念应用于数据。关于学前的基础,大致可以分为三类:线性代数和微积分一原始算法研究需要有线性代数和多变量微积分,尤其是导数,链式和乘积规则的基础。而针对于这部分,很多大学内的高数课程都有涉及到。作为英语中这些数字运算的定义和名称的一种补充,大家也可以去YouTube找很多国外大学的公开课,如Essenceoflinearalgebra-YouTube。统计学一了解统计学,特别是贝叶斯概率,对许多机器学习算法来说是必不可少的。不管是自然语言处理还是机器学习,最重要的事情就是把基础知识搞清楚。在这里,我所说的基础知识是指对于概率和线性代数等概念浅层的理解。不一定需要掌握这些科目,但如果一些算法,比如子空间、基础、i.i.d、独立、相关这些术语,要能明白
它们的意思,而不是略知皮毛。我遇到过一些人,他们在网上学习了2-3门关于机器学习的课程,并在一些数据集上应用了2、3种算法,从github上复制了一些代码,就认为自己已经学会了机器学习,并准备好解决数据科学问题。尽管现在有一些数据库能为机器学习ML任务提供非常好的API,并用它们来执行ML任务,但是,仅仅使用它们而不了解内在的东西,从长远来看不会对你有帮助。此外统计学、EDA、线—Forwardpropagation:Vectorizedimpiementation14 ~ . ',=血国,—Forwardpropagation:Vectorizedimpiementation14 ~ . ',=血国,自以二Ia।一,%气心由JYAdd哽二1一-4w@小・浊身靠)=和呵=\,j4'',=。坦 1r.i-电助::;+国试i,碎.守吊针。+蜀£+H骋工3±^\;Python一编程可以说是机器学习一大基础,没有编程就无法学习机器学习。如果说前面的数学知识是基础的话,Python和R就像接下来战斗需要使用到的武器。我个人在学习的时候主要使用R语言,搭配Datacamp学起来真的很方便。针对刚入门的人,我会更推荐Python,操作简单也好上手。关于编程部分,我建议大家花几个月时间同时学习Python代码和不同的机器学习概念。因为在后面你会发现很多情况下你会同时需要它们。而在学习Python代码的同时,大家可以练习使用一些数据科学工具,如Jupyter和Anaconda,主要了解它们的用途以及为什么要使用它们。关于程序语言的学习,网上的资源有很多,coursera和网易公开课都有很多可以选择。除此之外,大家可以尝试ujjwalkarn/DataSciencePython。而对于大部分项目,还需要知道算法设计和分析(课程:AlgorithmDesignandAnalysis)。一开始我只是直接使用教材的算法,就立刻去操作了,但随着逐渐学习的深入,我也发现如果花点时间去理解所有的东西,结果是很令人满意的。这套课程还提供了很好的讲义,指导学习多层前馈人工神经网络。二、理论在有了一定数学基础后后,就可以开始阅读一些教材了,以了解机器学习的理论知识。个人建议从一些关于机器学习的基本介绍性书籍开始,不要直接跳到花哨的书籍。很多人都推荐的西瓜书,在我看来其实不太适合入门学习,难度较大;而且像机器学习这样实践大于理论的领域来说,单单从书本获得的理论知识,往往不能满足于实际生活的应用。而这一部分的理解往往需要具体例子的搭配,一些书本内容涵盖的实例早已过时,所以针对这一部分,给大家推荐几套我在机器学习时使用的课程。1.贪心科技AI课程贪心学院这套课程,是面向泛AI、AI群体提供专业的系列课程,整套课程将以上提及的内容根据难易程度分为基础和进阶两个阶段,需要付费使用。根据具体所学项目不同,课程的价格在7000到20000之间不等。这套课程吸引我的其中一点就是它涵盖的知识面广。不仅涉及了AI领域内的深度学习、NLP,机器学习,还有很多更细的分支。其中机器学习中的基本算法如分类算法、集成算法、聚类算法、降维算法等,在这套课程内也有大篇幅重点讲解。课程设置这套课程是线上课程,这种模式灵活性较高,随时打开就可以上课,比较适合上班族或者学生党利用碎片化时间进行学习。课件和PPT模式类似,左边显示的小标题方便进度查找。由于是近几年新出的课程,和之前提及的书籍教材相比,实例都比较新,也都具有代表性。每节课程中还会配有一定的题目,帮助大家巩固知识点概念。我自己在做这些题目的时候,感受很好的是,这些题目的设定与每小节的课程内容结合的很好,能做到即时的巩固,也能为后面的学习做铺垫。
课程内容贪心科技这套课程可以说是很全面地涵盖了我上面提到的关于机器学习的各种概念,如随机森林、逻辑回归、线性回归等。通过将机器学习放进人工智能的大框架里学习,能帮助学生更好的理解一些概念,将所学知识串联起来,掌握综合性的技能。:rikUJL Vm宙FJtuSiil'i-qi-th假设转们拥有教据凄口={(%比出% 乂己{51}.2裁特的口国人|]・占,,南iFt1 *诜木理-Iffr.*T.向IkUE”•谓0善史+*冈餐店号•优史匕JUzHMMh砺 E•窃一#■TO旧*3.-Qi*所有样本的似然概率向二、,相仆百阖在“%蓝忌对于其中的任重样本〔0加),转的可屎定义保然概率p(yi\x[rw假设转们拥有教据凄口={(%比出% 乂己{51}.2裁特的口国人|]・占,,南iFt1 *诜木理-Iffr.*T.向IkUE”•谓0善史+*冈餐店号•优史匕JUzHMMh砺 E•窃一#■TO旧*3.-Qi*所有样本的似然概率向二、,相仆百阖在“%蓝忌对于其中的任重样本〔0加),转的可屎定义保然概率p(yi\x[rwtb)=p(M=1|孙明出产[1-pCw=1|知*划―di^_d1.11k|:r12:[.baRI;*h38MK'KI**KAARaH*!mr・BFQ:11110T・不1■知事g七M中MF、LT.:EM中支1,口盟(归川.“力打可/UTTjF用■仃工知X干।皿.川3醍iiuuP0:lwkhPi'4"r+rtn・sNikchR-.mrnr!"lwjrnMHn,iixmvimi^<mn dimNE^JILhJli^lH-USIdlD^_!lfiILkIIpllllrlvadlV..J Gb网f£声PKrt-x:^j.j:.-^b4,.iWItai'VVHLin:TL«?1 .FWJi#J.Ji:Sb 叫二七:山由«sr.w.也出□4tlQfl'JM3■.HU■:Mi・。L>Hl*^^UELnTFr'JNiMi5Ml♦.1■I:如G-i;a&n这套教材总体来说还是比较简单易懂的。在同样浏览了中、高级课程之后,个人感觉不足的是,进阶课程难度较大。有相关机器学习及数据分析背景的人可能会觉得刚开始的内容过于基础,而进阶部分,尤其是高级,则会有些吃力。教研团队课程的核心团队由海内外AI专家组建而成,多位合伙人及主讲老师都是业内资深工程师。其教研人员包括前金融独角兽首席科学家、美国google科学家、ALBERT第一作者、美国微软AI总监等专家;多位合伙人及主讲老师都是业内资深工程师,并多次在ICML、AAAI、IJCAI、ICDM等会议发表数十篇论文,被数百次引用。我在上这节课的时候的导师就是亚马逊的工程师,李文哲老师。他对于每一个问题的讲解都十分细致,尤其是遇到运算问题,都会一步步手写出具体公式。除此之外,他还经常会举一反三,举出同样类型的例子,加深我们的记忆。课后的助教对教学也都十分认真负责,每次我提出的问题都会及时解答,就算现在已经结课了,我们也会经常沟通一下最近遇到的问题。课后课后的练习根据难易程度和知识点的不同有所区分,如身高体重预测、A股股价预测、客户是否开设定期银行账户预测、成绩是否及格预测、判断新闻真实性等项目,每一个练习的都是不同的知识点,学生可以在jupyter上自己进行代码的编写,还能得到助教一对一的反馈,及时纠正错误。除了课程中提供的练习和案例,这套课程课后还配有github使用权限和专门的系统进行学习、练习。我在进行ML学习时,就经常会从github上找各种大神的代码和他们新开发的新奇的程序,如随机文章生成器等,这些内容完全可以拿来当成是实践项目进行练习。有时候遇到棘手的问题,我也会上去发帖求助。总之github对于人工智能领域的学生和职场人都是一个不可多得的好资源。.哈佛数据科学datascience课程这套课程也是网上教学,一个大课程下分成很多的小部分,在coursera、edx等学习网站上可以找到。课程主要介绍分析数据和建立模型的各种方法,在上课过程中还可以锻炼与人沟通和工作的能力。在整个课程中,我们使用口语言,并同时学习R、统计概念和数据分析的技术。举例来说,我暑假上的这节CS501的课涵盖了很多数据调查的关键技巧,如数据处理、清理、采样、管理、探索性分析、回归和分类、预测和数据通信并通过应用先进的统计学、建模和编程技能,得出预测性的见解。总的来说,这三个月的学习很有趣,但在这过程中,我也发现了自己基础的不足。作为一个统计专业并且有一些编程基础的学生,我本以为自己对于数据的处理和建模应该是能信手拈来的。可这套课程的难度远超出我的想象。因为之前的学习比较基于理论,接触实例不多,所以在接触像这类对实例进行深入分析并利用一系列连续和离散数学工具的练习的项目就会有些应付不过来。这套课程为理解、预测和决策提供了一个定量框架,几乎涉及生活的方方面面,从交通信号灯的计时,到疾病传播的控制,从资源管理,到体育领域等等。可以肯定的是,上完这套课,你也会跟我一样,有一种柳暗花明后充实的感觉,并且技能也会得到很大程度的提升。除了这些课程,哈佛还提供了相应线上的证书项目,一共四节课,总时长约为2年。这个项目旨在教授学生如何通过应用先进的统计学、建模和编程技能,得出预测性的见解,获得机器学习和计算技术的深入知识,并为从产品设计到金融等一系列行业发掘出重要的问题和情报。
DataScienceGraduateCertificateDerivepredictiveinsightsDerivepredictiveinsightsbyapplyingadvancedstatistics,rtiicxleliing.mdprogrammingskills.Acquirein-depth^knowledgeofnochriD犯vni通and乏Qaipulati的卅UnaarthImportantquestions.andintelligenceforaranfleoflndusM飒tromproduetdesigmtoFinance.虽然与AndrewNg的课程相比,这个项目对机器学习强调内容较少,但你会得到更多关于从数据收集到分析的整个数据科学工作流程的练习。像我之前提及的,对于机器学习极其相关领域要尽可能多的掌握、了解。所以相对于系统性地学习,这套课程能帮助你拥有一个整体的框架概念,并拓展很多数据科学领域的知识。不足的是,这套教材目前只有英文资源,且难度较高。.吴恩达机器学习(Andrewng)这套教材也是很多人推荐的,它是2017年推出的,内容较新,可以免费使用,Coursera上线之后我也慕名有去体验过。我个人在学习时使用的是斯坦福大学的版本,不是Coursera的。这两个版本相比较之下,Coursera的课程内容比斯坦福的CS229更简单,对于数学基础的要求也更低。Coursera版本的课程几乎没有涉及很多概率分布、线性优化、平滑处理等机器学习相关的数学知识;反之,吴恩达通过各种举例代入的讲解,让机器学习这门课程变得更加通俗易懂,虽然梯度、矩阵等的内容显得十分复杂,但是后期用python都可以代入得出结果,这样简单实用的设置,也受到了很多入门者的喜爱。不过这也是这套课程受争议的地方,很多人认为对于数学知识讲解过于浅显,不足以打好机器学习的基础。吴恩达本人是斯坦福大学计算机科学系和电气工程系的客座教授,他也是在线教育平台Coursera的创始人之一。这套教材在网易有中文版资源,课程的形式也是像PPT一样并且附上吴恩达本人的笔记。整体来说内容浅显易懂,处于初级-中级难度。比较适合入门学习。这套还配有课后作业和测试,保证了一定的练习量,但只限于Cousera课程,且编程作业需要在Jupyter上完成。其次,由于是较新的教材,了解并真正使用过的人不一定很多,所以在学习过程中遇到问题时,需要自己查阅资料解决。这套教
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国左炔诺孕酮片行业消费动态及营销趋势预测报告
- 三叉神经痛课件
- 六级证书面试题库精 编版:不同领域职业能力测试
- 小儿遗传代谢病课件
- 小儿辩日课件
- 大道项目安全文明施工管理工作总结
- 小儿艾条灸课件
- 2025秋新人教版初中英语八上 Unit 5 What a Delicious Meal!单词扩量讲义【增词汇强辨识】
- 大学生毕业实习目的与意义
- 大学生借款合同
- 2024年江苏省南京市中考数学试卷真题(含答案逐题解析)
- 2025年区块链应用操作员职业技能竞赛理论参考试指导题库500题(含答案)
- 2025年中国移动初级解决方案经理学习考试题库大全-上(单选题)
- DB35T 1951-2020福建省公共机构能耗定额标准
- 医疗机构从业人员规范
- 《研学旅行相关概念与理论基础综述》1900字
- 医院培训课件:《股骨头坏死》
- 保险基础知识简读本(2024版)
- 集团公司司库管理办法
- 住院患儿实施院内转运临床实践指南2023版课件
- 主播新手上路-打造游戏直播与娱乐新风向
评论
0/150
提交评论