




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习的技术分享和讨论,长沙爱财网络科技李剑,1,.,什么是机器学习,什么是机器学习机器通过分析大量数据来进行学习,不需要编程而从而归纳和识别特定的目标。重在发现数据之间内在的模式(相关性),并做出预测。机器学习与人工智能的关系机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。深度学习是机器学习的一个子集,现在兴起的人工智能主要是大规模的深度学习。,2,.,人工智能的五大流派,符号主义:使用符号、规则和逻辑来表征知识和进行逻辑推理,代表的算法是:规则和决策树贝叶斯派:获取发生的可能性来进行概率推理,最喜欢的算法是:朴素贝叶斯或马尔可夫联结主义:使用概率矩阵和加权神经元来动态地识别和归纳模式,主要算法是:神经网络进化主义:生成变化,然后为特定目标获取其中最优的,代表的算法是:遗传算法Analogizer:根据约束条件来优化函数(尽可能走到更高,但同时不要偏离),代表的算法是:支持向量机,3,.,人工智能的发展历程,1980年代-主导流派:符号主义-架构:服务器或大型机-主导理论:知识工程-基本决策逻辑:决策支持系统,实用性有限1990年代到2000年-主导流派:贝叶斯-架构:小型服务器集群-主导理论:概率论-分类:可扩展的比较或对比,对许多任务都足够好了,语音识别2010年代早期到中期-主导流派:联结主义-架构:大型服务器+GPU+云计算-主导理论:神经科学和概率-识别:更加精准的图像和声音识别、翻译、情绪分析等,4,.,未来的人工智能的发展预测,2010年代末期-主导流派:联结主义+符号主义-架构:许多云-主导理论:记忆神经网络、大规模集成、基于知识的推理-简单的问答:范围狭窄的、领域特定的知识共享2020年代+-主导流派:联结主义+符号主义+贝叶斯+-架构:云计算和雾计算主导理论:感知的时候有网络,推理和工作的时候有规则简单感知、推理和行动:有限制的自动化或人机交互2040年代+主导流派:算法融合架构:无处不在的服务器主导理论:最佳组合的元学习感知和响应:基于通过多种学习方式获得的知识或经验采取行动或做出回答,5,.,机器学习的通用步骤,选择数据:将你的数据分成三组:训练数据、验证数据和测试数据(训练效果,验证效果,泛化效果)数据建模:使用训练数据来构建使用相关特征的模型(特征:对分类或者回归结果有影响的数据属性,例如,表的字段)特征工程。训练模型:使用你的特征数据接入你的算法模型,来确定算法模型的类型,参数等。测试模型:使用你的测试数据检查被训练并验证的模型的表现(模型的评价标准准确率,精确率,召回率等)使用模型:使用完全训练好的模型在新数据上做预测调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现,6,.,机器学习的位置,传统编程:软件工程师编写程序来解决问题。首先存在一些数据为了解决一个问题,软件工程师编写一个流程来告诉机器应该怎样做计算机遵照这一流程执行,然后得出结果统计学:分析并比较变量之间的关系机器学习:数据科学家使用训练数据集来教计算机应该怎么做,然后系统执行该任务。该计算可学习识别数据中的关系、趋势和模式智能应用:智能应用使用人工智能所得到的结果,如图是一个精准农业的应用案例示意,该应用基于无人机所收集到的数据,7,.,机器学习的分类,1、监督式学习工作机制:用有正确答案的数据来训练算法进行机器学习。代表算法:回归、决策树、随机森林、K近邻算法、逻辑回归,支持向量机等。2、非监督式学习工作机制:训练数据没有标签或者答案,目的是找出数据内部的关联和模式,趋势。代表算法:关联算法和K均值算法。3、强化学习工作机制:给予算法一个不断试错,并具有奖励机制的场景,最终使算法找到最佳路径或者策略。代表算法:马尔可夫决策过程,AlphaGo+Zero,蒙特卡洛算法4.半监督学习工作机制:训练数据一部分数据为生成数据,一部分数据为监督数据,算法分为生成器和判定器两部分,生成器的目标是使判定器接受自己的数据,判别器是为了最大可能的区分生成数据和监督数据。通过不断的训练使两者都达到最佳性能。代表算法:GANs(生成式对抗网络算法),8,.,机器学习的经典算法,决策树(DecisionTree)支持向量机(SupportVectorMachine)回归分析(Linear/LogisticRegression)朴素贝叶斯(NaiveBayesClassification)随机森林(Randomforest)K阶近邻(KNearestNeighbor)K均值算法降维算法集成算法,9,.,决策树算法,在进行逐步应答过程中,典型的决策树分析会使用分层变量或决策节点,例如,可将一个给定用户分类成信用额度进行分类。(如何找到一个快速准确决策的路径)(特征节点的选择信息熵,信息增益,gini系数,信息论)优点:擅长对人、地点、事物的一系列不同特征、品质、特性进行评估场景举例:基于规则的信用评估、赛马结果预测,10,.,支持向量机,基于超平面(hyperplane),支持向量机可以对数据群进行分类。用核函数将数据映射到高维度做分类或者回归优点:支持向量机擅长在变量与其它变量之间进行二元分类操作,无论他们之间的关系是否是线性的场景举例:新闻分类、手写识别。,11,.,回归(Regression),回归可以勾画出因变量与一个或多个因变量之间的状态关系。在这个例子中,将垃圾邮件和非垃圾邮件进行了区分。可以理解成数据拟合得出函数关系。优点:回归可用于识别变量之间的连续关系,即便这个关系不是非常明显场景举例:路面交通流量分析、邮件过滤,12,.,朴素贝叶斯算法,朴素贝叶斯分类器:假定模型的的各个特征变量都是概率独立的,根据训练数据和分类标记的的联合分布概率来判定新数据的分类和回归值。优点:对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类场景举例:情感分析、消费者分类,13,.,机器学习应用的场景,1.风控征信系统2.客户关系与精准营销3.推荐系统4.自动驾驶5.辅助医疗6.人脸识别7.语音识别8.图像识别9.机器翻译量化交易智能客服商业智能BI,14,.,机器学习算法的项目代码演示,Scikit-Learn的简介线性回归算法简介支持向量机算法KNN的算法例子,15,.,机器学习的入门的资料,1.数学基础线性代数,概率论与统计分析,微积分,数值分析,凸优化2.编程语言java,python,C+任何一门语言3.算法学习(可参考知乎问答)统计学习方法(李航)机器学习(周志华)深度学习(Iangoodfellow),数据挖掘基础,机器学习实战4.网上视频教程(可参考知乎问答)CourseraUdacity网易云课堂,网易公开课推荐机器学习斯坦福AndrewNg深度学习courseraAndrewNg网易云课堂5.算法框架(看自己的喜好)sklearn,keras,paddlepaddle,angel,theano,caffe,torch,pytorch,tensorflow,numpy,pandas,matplotlib,mxnet机器学习推荐sklearn,numpy,pandas,matplotlib深度学习推荐keras
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汉字演变过程
- 贵州省部分学校2025届高三上学期9月月考历史试卷(含答案)
- 广东省广州市天河区2024-2025学年下学期期末考试七年级道德与法治试卷
- 【资源】大学体育在线视频系列课程(山东联盟)知到智慧树答案
- 幸福心得体会15篇
- 网络直播行业市场调研报告
- 2024年秋新北师大版数学一年级上册课件 总复习 第3课时 统计与概率
- 2024年秋新北师大版数学一年级上册教学课件 第四单元 10以内数加与减 第5课时 小鸡吃食
- 永动机课件教学课件
- 智算中心硬件设备选型方案
- 福建省福州市联盟校2023-2024学年高一下学期期末考试英语试题(解析版)
- 2024-2025学年重庆市万州区八年级(下)期末语文试卷
- 2025年江苏省苏豪控股集团有限公司校园招聘笔试备考试题及答案详解(必刷)
- (完整)中小学“学宪法、讲宪法”知识竞赛题库及答案
- 2025年行政执法人员执法证考试必考多选题库及答案(共300题)
- 《工程勘察设计收费标准》(2002年修订本)
- 2024年自投光伏安装合同范本
- 车间员工技能管理办法
- DB11T 1581-2018 生产经营单位应急能力评估规范
- 汶川地震波时程记录(卧龙3向)
- 吴迪完胜股市学习笔记
评论
0/150
提交评论