




已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习,MachineLearning,李成伟,1,目录,一大数据与云计算二机器学习、深度学习和人工智能三编程语言的选择四机器学习算法介绍五算法案例介绍,2,一大数据与云计算,3,4,什么是大数据?,5,大数据特征定义,6,大数据时代要具备大数据思维,维克托迈尔-舍恩伯格认为:1-需要全部数据样本而不是抽样;2-关注效率而不是精确度;3-关注相关性而不是因果关系。,大数据并不在“大”,而在于“有用”。,价值含量、挖掘成本比数量更为重要。,7,大数据的价值所在?,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。未来在大数据领域最具有价值的是两种事物:,1-拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;,2-还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。,8,云计算和大数据的关系,云计算充当了工业革命时期的发动机的角色,而大数据则是电。,云计算思想:把计算能力作为一种像水和电一样的公用事业提供给用户。,9,二机器学习、深度学习和人工智能,10,任何通过数据训练的学习算法的相关研究都属于机器学习。比如线性回归(LinearRegression)、K均值(K-means,基于原型的目标函数聚类方法)、决策树(DecisionTrees,运用概率分析的一种图解法)、随机森林(RandomForest,运用概率分析的一种图解法)、PCA(PrincipalComponentAnalysis,主成分分析)、SVM(SupportVectorMachine,支持向量机)以及ANN(ArtificialNeuralNetworks,人工神经网络)。深度学习的概念源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括语音识别、图像识别、机器人、自然语言处理、智能搜索和专家系统等。,11,人工智能与机器学习、深度学习的关系,12,三编程语言的选择,13,14,PK,R与Python语言的区别,学习难度大,入门简单,适合处理大量数据,功能强大,命令式编程,统计功能强大,15,16,Python在线学习推荐-,菜鸟教程,17,Anaconda:初学Python、入门机器学习的首选,NumPy,Scipy,TensorFlow,Matplotlib,Pandas,Scikit-Learn,18,四机器学习算法介绍,19,拥抱人工智能从机器学习开始,20,机器学习最大的特点是利用数据而不是指令来进行各种工作,其学习过程主要包括:数据的特征提取、数据预处理、训练模型、测试模型、模型评估改进等几部分。,21,机器学习算法是使计算机具有智能的关键,算法是通过使用已知的输入和输出以某种方式“训练”以对特定输入进行响应。代表着用系统的方法描述解决问题的策略机制。人工智能的发展离不开机器学习算法的不断进步。,22,机器学习算法分类,23,1.线性回归:找到一条直线来预测目标值一个简单的场景:已知房屋价格与尺寸的历史数据,问面积为2000时,售价为多少?,24,25,线性回归的应用,预测客户终生价值:基于老客户历史数据与客户生命周期的关联关系,建立线性回归模型,预测新客户的终生价值,进而开展针对性的活动。机场客流量分布预测:以海量机场WiFi数据及安检登机值机数据,通过数据算法实现机场航站楼客流分析与预测。货币基金资金流入流出预测:通过用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率等信息,对用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。电影票房预测:依据历史票房数据、影评数据、舆情数据等互联网公众数据,对电影票房进行预测。,26,2.逻辑回归:找到一条直线来分类数据逻辑回归虽然名字叫回归,却是属于分类算法,是通过Sigmoid函数将线性函数的结果映射到Sigmoid函数中,预估事件出现的概率并分类。,逻辑回归从直观上来说是画出了一条分类线。位于分类线一侧的数据,概率0.5,属于分类A;位于分类线另一侧的数据,概率啤酒,它的置信度为尿布-啤酒假设尿布,啤酒的支持度为0.45,尿布的支持度为0.5,则尿布-啤酒的置信度为0.45/0.5=0.9。,35,9.PCA降维:减少数据维度,降低数据复杂度降维是指将原高维空间中的数据点映射到低维度的空间中。因为高维特征的数目巨大,距离计算困难,分类器的性能会随着特征数的增加而下降;减少高维的冗余信息所造成的误差,可以提高识别的精度。,36,10.人工神经网络:逐层抽象,逼近任意函数前面介绍了九种传统的机器学习算法,现在介绍一下深度学习的基础:人工神经网络。它是模拟人脑神经网络而设计的模型,由多个节点(人工神经元)相互联结而成,可以用来对数据之间的复杂关系进行建模。,37,例如利用单层神经网络实现逻辑与门和同或门,38,多层神经网络的每一层神经元学习到的是前一层神经元值的更抽象的表示,通过抽取更抽象的特征来对事物进行区分,从而获得更好的区分与分类能力。,39,11.深度学习:赋予人工智能以璀璨的未来深度学习就是一种基于对数据进行表征学习的方法,使用多层网络,能够学习抽象概念,同时融入自我学习,逐步从大量的样本中逐层抽象出相关的概念,然后做出理解,最终做出判断和决策。通过构建具有一定“深度”的模型,可以让模型来自动学习好的特征表示(从底层特征,到中层特征,再到高层特征),从而最终提升预测或识别的准确性。,40,深度学习的历史变迁:深度学习经历了三次浪潮:20世纪40年代60年年代,深度学习的雏形出现在控制论中;20世界80年代90年代,深度学习表现为联结主义;2006年以后,正式以深度学习之名复兴。第一次浪潮:以感知机和线性模型为代表不能解决与或问题第二次浪潮:以多层感知机和BP模型为代表以统计学为基础,应用核函数和图模型的支持向量机算法(SVM算法)等各种浅层有监督的机器学习模型广泛应用,且深度神经网络不可训练第三次浪潮:以无监督学习为代表。解决了深层神经网络的计算能力问题;解决了深度神经网络后向误差反馈梯度消失的问题。,41,最初,人工神经网络中神经元之间的连接数受限于硬件能力。而现在,神经元之间的连接数大多是出于设计考虑。一些人工神经网络中每个神经元的连接数与猫一样多,并且对于其他神经网络来说,每个神经元的连接数与较小哺乳动物(如小鼠)一样多,这种情况是非常普遍的。甚至人类大脑每个神经元的连接数也没有过高的数量。1.自适应线性单元(WidrowandHoff,1960);2.神经认知机(Fukushima,1980);3.GPU-加速卷积网络(Chellapillaetal.,2006);4.深度玻尔兹曼机(SalakhutdinovandHinton,2009a);5.无监督卷积网络(Jarrettetal.,2009b);6.GPU-加速多层感知机(Ciresanetal.,2010);7.分布式自编码器(Leetal.,2012);8.Multi-GPU卷积网络(Krizhevskyetal.,2012a);9.COTSHPC无监督卷积网络(Coatesetal.,2013);10.GoogLeNet(Szegedyetal.,2014a,与日俱增的每个神经元的连接数,42,自从引入隐藏单元,人工神经网络的规模大约每2.4年翻一倍。1.感知机(Rosenblatt,1958,1962);2.自适应线性单元(WidrowandHoff,1960);3.神经认知机(Fukushima,1980);4.早期后向传播网络(Rumelhartetal.,1986b);5.用于语音识别的循环神经网络(RobinsonandFallside,1991);6.用于语音识别的多层感知机(Bengioetal.,1991);7.均匀场sigmoid信念网络(Sauletal.,1996);8.LeNet5(LeCunetal.,1998c);9.回声状态网络(JaegerandHaas,2004);10.深度信念网络(Hintonetal.,2006a);11.GPU-加速卷积网络(Chellapillaetal.,2006);12.深度玻尔兹曼机(SalakhutdinovandHinton,2009a);13.GPU加速深度信念网络(Rainaetal.,2009a);14.无监督卷积网络(Jarrettetal.,2009b);15.GPU-加速多层感知机(Ciresanetal.,2010);16.OMP-1网络(CoatesandNg,2011);17.分布式自编码器(Leetal.,2012);18.MultiGPU卷积网络(Krizhevskyetal.,2012a);19.COTSHPC无监督卷积网络(Coatesetal.,2013);20.GoogLeNet(Szegedyetal.,2014a),与日俱增的神经网络规模,43,目前深度学习的应用十分广泛,例如图像识别、语音识别、机器翻译、自动驾驶、金融风控、智能机器人等。,44,五算法案例介绍,45,K近邻法(KNN)原理K近邻法(k-nearestneighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用。比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出了。KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。而KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。由于两者区别不大,本次主要是讲解KNN的分类方法,但思想对KNN的回归方法也适用。,46,KNN场景电影可以按照题材分类,那么如何区分动作片和爱情片呢?动作片:打斗次数更多爱情片:亲吻次数更多基于电影中的亲吻、打斗出现的次数,使用k-近邻算法构造程序,就可以自动划分电影的题材类型。,47,KNN计算步骤假设有一个带有标签的样本数据集(训练样本集),其中包含每条数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较。计算新数据与样本数据集中每条数据的距离。计算距离时直接使用了欧式距离公式,计算两个向量点之间的距离对求得的所有距离进行排序(从小到大,越小表示越相似)。取前k(k一般小于等于20)个样本数据对应的分类标签。求k个数据中出现次数最多的分类标签作为新数据的分类。,48,KNN算法特优点:1)理论成熟,思想简单,既可以用来做分类也可以用来做回归2)可用于非线性分类3)训练时间复杂度比支持向量机之类的算法低,仅为O(n)4)和朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感5)由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合6)该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分缺点:1)计算量大,尤其是特征数非常多的时候2)样本不平衡的时候,对稀有类别的预测准确率低3)KD树,球树之类的模型建立需要大量的内存4)使用懒散学习方法,导致预测时速度比起逻辑回归之类的算法慢5)相比决策树模型,KNN模型可解释性不强适用数据范围:数值型和标称型,49,下面我们通过实例来演示如何实现一个简单的KNN算法首先,我
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 运动防护用具的环保可持续发展战略考核试卷
- 文化艺术产业的国际竞争力分析考核试卷
- 珠宝首饰设计与消费者互动体验考核试卷
- 计量技术在汽车行业的应用考核试卷
- 橡胶板在防尘口罩密封材料中的应用考核试卷
- 计量检测在科研领域的应用考试考核试卷
- 糕点店品牌故事与文化建设考核试卷
- 耳部微波治疗技术解析
- 医学检验毕业就业去向分析
- 影视作品音乐版权授权与版权保护及合作开发及广告合作合同
- 红金大气商务风领导欢迎会PPT通用模板
- 最新高考前20天励志主题班会课件
- 《现代管理学》全套课件
- 地下水环境影响评价工作分级与技术要求
- DB64-T 1686-2020 风电场专业气象服务规程-(高清可复制)
- 动物生物技术(课件)
- 个人有关事项报告表(全)
- 南昌航空大学校徽校标
- 广东省中山市2021-2022学年八年级下学期期末水平测试道德与法治试卷
- 饲料学第五章粗饲料课件
- 语文老师家长会PPT
评论
0/150
提交评论