版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据挖掘基本术语简介技术创新,变革未来智慧IT基本术语信息数据知识价值记录、存储数据挖掘应用 通常我们把信息转化为价值,要经历信息、数据、知识、价值四个层面,数据挖掘就是中间的重要环节,是从数据中发现知识的过程。 数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。基本术语数据挖掘的用途示例1(关联问题): 经常去超市的同学可能会发现,我们事先在购物清单上列举好的某些商品可能会被超市阿姨摆放在相邻的区域。例如, 面包柜台旁边会摆上黄油、面条柜台附近一定会有老干妈等等。这样的物品摆放会让我们的购物过程更加快捷、轻松。那么如
2、何知道哪些物品该摆放在一块?又或者用户在购买某一个商品的情况下购买另一个商品的概率有多大?这就要利用关联数据挖掘的相关算法来解决。示例2(分类问题): 在嘈杂的广场上,身边人来人往。仔细观察他们的外貌、衣着、言行等我们会不自觉地断论这个人是新疆人、东北人或者是上海人。又例如,在刚刚结束的2015NBA总决赛中,各类权威机构会大量分析骑士队与勇士队的历史数据从而得出骑士队或者勇士队是否会夺冠的结论。基本术语数据挖掘的用途示例3(聚类问题): ”物以类聚,人以群分“,生活中到处都有聚类问题的影子。假设银行拥有若干客户的历史消费记录,现在由于业务扩张需要新增几款面对不同人群的理财产品,那么如何才能准
3、确的将不同的理财产品通过电话留言的方式推荐给不同的人群?这便是一个聚类问题,银行一般会将所有的用户进行聚类,有相似特征的用户属于同一个类别,最后将不同理财产品推荐给相应类别的客户。示例4(回归问题): 回归问题或者称作预测问题同样也是一个生活中相当接地气的应用。大家知道,证券公司会利用历史数据对未来一段时间或者某一天的股票价格走势进行预测。同样,房地产商也会根据地域情况对不同面积楼层的房产进行定价预测。基本术语参考:机器学习,周志华,清华大学出版社编号色泽根蒂敲声1青绿蜷缩浊响2乌黑蜷缩浊响3青绿硬挺清脆4乌黑稍蜷沉闷数据记录的集合称为一个“数据集”。每条记录是关于一个事件或对象的描述,称为一
4、个“示例”或“样本” 。反映事件或对象在某方面的表现或性质的事项,称为“属性”或“特征” 。属性组成的空间,称为“属性空间”或“样本空间”或“输入空间” 。属性上的取值,称为“属性值” 。关于西瓜的数据信息基本术语参考:机器学习,周志华,清华大学出版社编号色泽根蒂敲声1青绿蜷缩浊响2乌黑蜷缩浊响3青绿硬挺清脆4乌黑稍蜷沉闷从数据中学得模型的过程称为“学习”或“训练”。训练过程中使用的数据称为“训练数据”,其中每一个样本称为一个“训练样本”,训练样本组成的集合称为“训练集” 。关于西瓜的数据信息基本术语参考:机器学习,周志华,清华大学出版社编号色泽根蒂敲声好瓜1青绿蜷缩浊响是2乌黑蜷缩浊响是3青
5、绿硬挺清脆否4乌黑稍蜷沉闷否拥有标记信息的示例称为“样例”,所有标记的集合称为“输出空间”。若我们预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为“分类”称为“分类” 。关于西瓜的数据信息若我们预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为 “回归” 。基本术语参考:机器学习,周志华,清华大学出版社编号色泽根蒂敲声好瓜1青绿蜷缩浊响是2乌黑蜷缩浊响是3青绿硬挺清脆否4乌黑稍蜷沉闷否101青绿硬挺清脆否102青绿硬挺浊响否关于西瓜的数据信息学得模型后,使用其进行预测的过程称为“测试”,被预测的样本称为“测试样本”,测试样本的集合称为“测试集”。训练集:测试集:学得模型适
6、用于新样本的能力,称为“泛化”能力。验证集:验证集:是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。基本术语-公式化表述训练数据学习算法模型(映射函数)测试数据预测结果训练数据:编号色泽根蒂敲声好瓜1青绿蜷缩浊响是2乌黑蜷缩浊响是3青绿硬挺清脆否4乌黑稍蜷沉闷否101青绿硬挺清脆否102青绿硬挺浊响否学习目标:基本术语-一个形象的比喻训练集验证集测试集数据集数据课后题模拟考高考课后题+模拟考+高考标签答案答案答案答案 训练集:学生的课本,也就是我们的课后题,学生根据课本里的内容来掌握知识。 验证集:模拟考,通过作业可以知道对模拟考的掌握情况怎么样,发
7、现自己薄 弱部分。 测试集:高考,考的题是平常都没有见过,考察学生举一反三的能力。 数据集:课后题,模拟考,高考的总和。 样 本:所做的每一道题可以看做为一个样本。 标 签:题的答案可以看做标签。基本术语-一个形象的比喻为什么要测试集?训练集直接参与了模型调参的过程,显然不能用来反映模型真实的能力(防止课本死记硬背的学生拥有最好的成绩,即防止过拟合)。验证集参与了人工调参(超参数)的过程,也不能用来最终评判一个模型(刷题库的学生不能算是学习好的学生)。所以要通过最终的考试(测试集)来考察一个学(模)生(型)真正的能力(进行高考作为最后测试)。为什么要验证集?开发模型时总是需要调节模型配置,比如
8、选择层数或每层大小(这叫作模型的超参数)。这个调节过程需要使用模型在验证数据上的性能作为反馈信号。基本术语 监督学习:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练数据既有特征又有标签,通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。 无监督学习:我们不知道数据集中数据、特征之间的关系(即不知道标签),而是要根据聚类或一定的模型得到数据之间的关系。 半监督学习:一部分数据有标记,一部分数据没有标记。基本术语-机器学习的任务类型监督学习聚类,就是对大量的未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。无监督学习:分类回归
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【阿克苏】2025年上半年新疆维吾尔自治区阿克苏地区引进急需紧缺人才241人笔试历年典型考题及考点剖析附带答案详解
- 2026河南新乡牧野区消防救援局招录政府专职消防员10人备考题库及完整答案详解一套
- 2026中国疾病预防控制中心(中国预防医学科学院)后勤运营管理中心招聘1人备考题库含答案详解ab卷
- 2026广东清远市佛冈县石角镇招聘自主聘员2人备考题库带答案详解(完整版)
- 2026云南省气象部门事业单位招聘应届毕业生21人备考题库(第2号)及完整答案详解一套
- 2026北京交通大学物理工程学院招聘1人备考题库含答案详解(巩固)
- 2026北京市医疗纠纷人民调解委员会招聘备考题库附答案详解(基础题)
- 2026天津市消防救援总队水上支队招录政府专职消防员95人备考题库含答案详解(基础题)
- 2026年南阳师范学院招聘高层次人才168人备考题库含答案详解(突破训练)
- 【西双版纳】2025年云南西双版纳州勐腊县事业单位考核招聘急需紧缺人才62人笔试历年典型考题及考点剖析附带答案详解
- 2026年华为光技术笔测试卷及参考答案详解1套
- 14.2法治与德治相得益彰 课 件 2025-2026学年统编版 道德与法治 八年级下册
- 2026年自考00247国际法真题
- DB42∕T 2523-2026 党政机关办公用房面积核定工作规范
- 2026年紧凑型聚变能实验装置总装调试操作手册
- 二毛土建课程配套资料
- 2026年希望杯IHC全国赛一年级数学竞赛试卷(S卷)(含答案)
- 集团子公司安全责任制度
- 三年(2023-2025)辽宁中考语文真题分类汇编:专题09 记叙文阅读(解析版)
- 北森测评题库及答案2026
- 《建筑法规》课程教案
评论
0/150
提交评论