


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章(1)请阐述什么是大数据分析。大数据分析的主要任务主要有:第一类是预测任务,目标是根据某些属性的值,预测另外一些特定属性的值。被预测的属性一般称为目标变量或因变量,被用来做预测的属性称为解释变量和自变量;第二类是描述任务,目标是导出概括数据中潜在联系的模式,包括相关、趋势、聚类、轨迹和异常等。描述性任务通常是探查性的,常常需要后处理技术来验证和解释结果。具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。(2)大数据分析的类型有哪些?大数据分析主要有描述性统计分析、探索性数据分析以及验证性数据分析等。(3)举例两种数据挖掘的应用场景?(1)电子邮件系统中垃圾邮件的判断电子邮件系统判断一封Email是否属于垃圾邮件。这应该属于文本挖掘的范畴,通常会采用朴素贝叶斯的方法进行判别。它的主要原理就是,根据电子邮件中的词汇,是否经常出现在垃圾邮件中进行判断。例如,如果一份电子邮件的正文中包含“推广”、“广告”、“促销”等词汇时,该邮件被判定为垃圾邮件的概率将会比较大。(2)金融领域中金融产品的推广营销针对商业银行中的零售客户进行细分,基于零售客户的特征变量(人口特征、资产特征、负债特征、结算特征),计算客户之间的距离。然后,按照距离的远近,把相似的客户聚集为一类,从而有效地细分客户。将全体客户划分为诸如:理财偏好者、基金偏好者、活期偏好者、国债偏好者等。其目的在于识别不同的客户群体,然后针对不同的客户群体,精准地进行产品设计和推送,从而节约营销成本,提高营销效率。(4)简述数据挖掘的分类算法及应用。K-Means算法也叫作k均值聚类算法,它是最著名的划分聚类算法,由于简洁和效率使得它成为所有聚类算法中最广泛使用的。决策树算法是一种能解决分类或回归问题的机器学习算法,它是一种典型的分类方法,最早产生于上世纪60年代。决策树算法首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析,因此在本质上决策树是通过一系列规则对数据进行分类的过程。KNN算法也叫作K最近邻算法,是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。神经网络可以指向两种,一个是生物神经网络,一个是人工神经网络。在这里专指人工神经网络。它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。第6章1)请阐述什么是数据可视化?数据可视化,是关于数据视觉表现形式的科学技术研究,它为大数据分析提供了一种更加直观的挖掘、分析与展示当代手段,从而让大数据更有意义。因此,大数据可视化是将各种数据用图形化的方式展示给人们,是人们理解数据,诠释数据的重要手段和途径。从本质上讲,数据可视化是为了帮助用户通过认知数据,进而发现这些数据所反映的实质。2)数据可视化的流程是什么?数据可视化是一个系统的流程,该流程以数据为基础,以数据流为导向,还包括了数据采集、数据处理、可视化映射和用户感知等环节。具体的可视化实现流程有很多3)数据可视化有哪些实现图表?在统计图表中每一种类型的图表中都可包含不同的数据可视化图形,如柱状图、饼图、气泡图、热力图、趋势图、直方图、雷达图、色块图、漏斗图、和弦图、仪表盘、面积图、折线图、密度图以及K线图等。4)数据可视化的方法有哪些?文本可视化、网络可视化与空间信息可视化5)数据可视化有哪些应用?金融行业面临诸多挑战。通过引入数据可视化可以对企业各地日常业务动态实时掌控,客户数量和借贷金额等数据进行有效监管,帮助企业实现数据实时监控,加强对市场的监督和管理;通过对核心数据多维度的分析和对比,指导公司科学调整运营策略,制定发展方向,不断提高公司风控管理能力和竞争力。
数据可视化在工业生产中有着重要的应用,如可视化智能硬件的生产与使用。可视化智能硬件通过软硬件结合的方式,让设备拥有智能化的功能,并对硬件采集上来的数据进行可视化的呈现。因此在智能化之后,硬件就具备了大数据等附加价值。随着可视化技术的不断发展,今后智能硬件从可穿戴设备延伸到智能电视、智能家居、智能汽车、医疗健康、智能玩具、智能机器人、智能交通、智能教育等各个不同的领域。等习题71)请阐述什么是数据治理。数据治理是指从使用零散数据变为使用统一数据、从具有很少或没有组织流程到企业范围内的综合数据管控、从数据混乱状况到数据井井有条的一个过程。数据治理强调的是一个过程,是一个从混乱到有序的过程。2)请阐述什么是元数据。一般来讲,元数据主要用来描述数据属性的信息,例如记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态等。因此,元数据是对数据本身进行描述的数据,或者说,它不是对象本身,它只描述对象的属性,就是一个对数据自身进行描绘的数据。3)请阐述什么是主数据。主数据是用来描述企业核心业务实体的数据,它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。4)请阐述在数据治理项目实施中包含哪些主要流程。(1)组织架构(2)流程(3)数据标准(4)工具(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025标准门面房租赁合同范本
- 2025年代理记账合同正式签订新政策助力企业发展
- 2025房屋租赁代理合同书样本
- 2025果园承包经营合同协议书
- 2025店铺租赁合同模板「详细版」
- 2025房产买卖合同补充协议
- 2025南昌市建筑材料买卖合同范本
- 2025农田租赁合同书样本
- 2025最权威的工程承包合同模板
- 2025违反商品房买卖合同的法律责任
- 创新物业服务管理的思路与方法
- 上市公司涉税风险分析报告
- 少数民族维吾尔族民俗文化介绍图文课件
- 引导接车监控装置操作办法
- 《中国马克思主义与当代》部分课后题-参考答案
- 读书分享交流会《外婆的道歉信》课件
- 科技论文写作与学术规范课件
- 医疗器械自查表【模板】
- 2023学年完整公开课版《2BM3U2Rules》教学
- 曼陀罗绘画疗法
- 四年级下册英语素材单元知识点总结 陕旅版
评论
0/150
提交评论