版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人工智能
基础与应用第二章机器学习基础1、什么是机器学习
2、监督学习
3、无监督学习
4、深度学习
5、强化学习
6、迁移学习1、什么是机器学习数据:描述事物的符号记录。涉及事物的存在形式,是构成信息和知识的原始材料。分类:数字数据和模拟数据。什么是数据服务器又双叒叕崩溃了现象原因?上世纪90年代被提出。麦肯锡大数据概念的提出麦肯锡在2012年的评估报告中指出“大数据”时代已经到来,使得人们对于大数据重要性的认识和关注度进一步增加。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。大数据非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片,HTML、各类报表、图像和音频/视频信息等等。大数据非结构化数据:文本文件:文字处理、电子表格、演示文稿、日志。社交媒体:新浪微博、微信、QQ、Facebook、Twitter网站:YouTube、Instagram、照片共享网站。移动数据:短信、位置等。通讯:聊天、即时消息、电话录音、协作软件等。媒体:MP3、数码照片、音频文件、视频文件。卫星图像:天气数据、地形、军事活动。科学数据:石油和天然气勘探、空间勘探、地震图像、大气数据。传感器数据:交通、海洋传感器。结构化数据:信用卡号码、日期、财务金额、电话号码、产品名称等。大数据20%80%占比情况?特征一:数据规模(Volume)大5EB
=全世界人类讲过的所有话1Byte=8Bit1KB=1,024Bytes1MB=1,024KB1GB=1,024MB
1TB=1,024GB1PB=1,024TB1EB=1,024PB1ZB=1,024EB1YB=1,024ZB大数据的特征大数据的特征特征二:数据种类(Variety)多多个应用系统的数据互联网和物联网的兴起,带来了社交网站、传感器等多种来源数据之间频繁交互关联性强大数据的特征特征三:处理速度(Velocity)快数据是实时分析,而非批量式分析。数据的输入处理和丢弃,要起到立竿见影的效果。实时数据流的处理需求是区别大数据和传统数据分析技术的一个关键。大数据的特征特征四:数据价值(Value)密度低大数据不仅是技术,关键是产生价值。从各个层面进行优化,更要考虑整体的价值。从海量数据中挖掘稀缺但珍贵的信息,但价值密度低。淘宝每天交易超过数千万笔,其单日数据产生量超过50TB。峰值时处理交易达到9万笔/分钟,1GB/s。在阿里数据平台事业部的服务器上有超过100PB己处理过的数据。关于数据在不需要确定性编程的情况下,给予计算机学习能力的领域。从数据中找到信息,从而学习一些规律,也就是“利用经验来改善系统自身的性能”。机器学习2、监督学习与无监督学习带标签的数据集监督学习算法模型新的数据集预测/认识回归与分类?监督学习监督学习无监督学习判断下列哪些选项是无监督学习给定标记为垃圾邮件/非垃圾邮件的电子邮件,学习垃圾邮件过滤器。给定一些在网络上找到的新闻文章,将它们分组为几组关于同一故事的文章。给定一个客户数据数据库,自动发现细分市场并将客户分组到不同的细分市场。给定一组被诊断为是否患有糖尿病的患者,学习将新患者分类为是否患有糖尿病。练习数据集线性回归线性判别分析(LDA)线性判别分析(LDA)决策树-常见的监督学习方法。-从给定带标签训练数据集产生一个模型,对新示例进行分类。-基于树结构进行决策。优点:1)易于理解和实现,可读性好,具有描述性,有助于人工分析2)效率高,只需构建一次可反复使用,最大计算次数不超过数的深度缺点:1)对连续性的字段比较难预测2)对有时间顺序的数据,需要很多预处理的工作3)当类别太多时,错误可能就会增加的比较快决策树熵用来表示物体内部的混乱程度。一个物体内部构成越纯,熵越小;越混乱,熵越大。在机器学习中,表示随机变量分布的混乱程度。决策树决策树熵的表达式信息熵(informationentropy):信息熵通常用来描述整个随机分布所带来的信息量平均值,更具统计特性。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。随机变量的取值个数越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大。决策树的构建通常包括三个步骤:特征选择(选取对训练数据具有分类能力的特征)决策树的生成(ID3算法、C4.5决策树算法和CART决策树算法)决策树的修剪特征选择可以帮助提高决策树学习的效率,如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。通常特征选择的准则是信息增益或信息增益比。决策树决策树支持向量机(SVM)最受欢迎、讨论最广泛的机器学习分类方法之一。适用于高维空间(特征向量中有许多特征)。可以有效地用于小型数据集。可以轻松高效地对新的观察值进行分类。支持向量机支持向量机支持向量机贝叶斯方法朴素贝叶斯:一种允许以简单直接的方式构建分类器的方法。朴素贝叶斯分类器:利用了所有属性都是独立的假设。可以用该算法来解决复杂问题。2.问问周围其他人的选择1.随便选一个3.做一份详细的报告,根据自身的情况量身定制选择方案Step1:找到待测样本周围最近的几个已知样本点Step2:统计周围已知样本点分布状况Step3:将待测样本类别归为优势方K近邻K近邻K近邻总结优点:1.直观,好理解2.局部分布,不需要估算整体缺点:1.局部估算可能不符合全局的分布2.不能计算概率3.对K的取值非常敏感K近邻集成学习集成学习集成学习集成学习聚类聚类聚类降维降维欠拟合与过拟合监督学习与无监督学习
有监督学习的核心是分类,无监督学习的核心是聚类。4、深度学习什么是人工神经网络定义:是一个由简单处理元构成的规模宏大的并行分布处理器,具有存储经验知识和使之可用的特性。什么是人工神经网络感知机感知机假设待分类的生鲜有豆角、绿苹果、茄子、洋葱和西瓜,分为水果和蔬菜两类。特征提取:生鲜颜色形状口感豆角绿苹果茄子洋葱西瓜颜色a1,(1,-1);形状a2,(1,-1);口感a3(1,-1)生鲜颜色形状口感豆角1-1-1绿苹果111茄子-1-1-1洋葱-11-1西瓜111感知机多层感知机人工神经网络结构人工神经网络结构神经元模型是一个包含输入,输出与计算功能的模型。输入可以类比为神经元的树突,而输出可以类比为神经元的轴突,计算则可以类比为细胞核。下图是一个典型的神经元模型:包含有3个输入,1个输出,以及计算功能。人工神经网络结构这是一个包含三个层次的神经网络。红色的是输入层,绿色的是输出层,紫色的是中间层(也叫隐藏层)。输入层有3个输入单元,隐藏层有4个单元,输出层有2个单元。1.设计一个神经网络时,输入层与输出层的节点数往往是固定的,中间层则可以自由指定;2.神经网络结构图中的拓扑与箭头代表着预测过程时数据的流向,跟训练时的数据流有一定的区别;3.结构图里的关键不是圆圈(代表“神经元”),而是连接线(代表“神经元”之间的连接)。每个连接线对应一个不同的权重(其值称为权值),这是需要训练得到的。每一层的作用输入层——从外部接受信息并将此信息传入人工神经网络,以进行处理。隐含层——接受输入层的信息,静静地对所有的信息进行处理,整个处理步骤用户是看不见的。输出层——接受人工神经网络处理后的信息,将结果送到外部接受器。反向传播算法卷积神经网络全连接卷积连接
卷积神经网络卷积神经网络卷积神经网络卷积神经网络卷积神经网络池化层又称为下采样层目的:降低特征图的维度,进而降低卷积神经网络的参数量。卷积神经网络全连接层作用:将前一层的特征进行进一步组合卷积神经网络输入层输入数据;卷积层权值共享;激活函数;池化操作;卷积层、激活函数层和池化层重复堆叠;全连接层分类;——减少了参数,检测出图像中的特征。——为模型增加非线性,增加表征能力。——对数据进行向下采样,减少过拟合。——特征由低级的特征变成高级的特征。——将高层语义特征经过组合达到分类目的。卷积神经网络激活函数卷积神经网络卷积神经网络卷积神经网络—lenet5卷积神经网络循环神经网络用来处理文本、音频、视频等序列数据语音识别问答系统情感分类文本生成机器翻译视频动作识别循环神经网络去食堂吃鸡蛋饼循环神经网络图像生成语义图像
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健全心理辅导室工作制度
- 健康小屋工作制度及流程
- 健康证体检工作制度范本
- 儿科门诊采血室工作制度
- 金属装饰保温板施工环境保护方案
- 2026四川南充阆中北大博雅骏臣学校教师招聘11人备考题库含答案详解(模拟题)
- 2026安徽马鞍山市纤维检验所招聘编外聘用人员1人备考题库及答案详解(名校卷)
- 2026湖北鄂州市鄂城区国控投资集团市场化选聘经营管理人才3人备考题库及答案详解1套
- 硬装与软装结合方案
- 2026广东江门市台山市部分学校进江西师范大学现场招聘教师8人备考题库附答案详解ab卷
- 2026年消费维权竞赛试题及答案
- 2025年广东深圳市中考英语试卷真题及答案详解(精校打印版)
- 校医院内部财务管理制度
- 2026年兰考三农职业学院单招职业适应性测试题库附答案详解(黄金题型)
- 2025年一级建造师考试《矿业工程管理与实务》真题及答案
- 夸克-反夸克对生成机制-洞察与解读
- 2025四川泸州市古蔺县考试选任聘副科级领导干部14人备考题库附答案
- 小学语文跨学科融合教学的实践探索课题报告教学研究课题报告
- 高校毕业生就业创业调查报告
- 山东省2026届高三12月大联考数学试题(含答案)
- 水晶产品采购合同范本
评论
0/150
提交评论