第8章大数据分析.ppt_第1页
第8章大数据分析.ppt_第2页
第8章大数据分析.ppt_第3页
第8章大数据分析.ppt_第4页
第8章大数据分析.ppt_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据分析,第8章,目录,8.1大数据概要8.2推荐系统8.3推荐系统设定修改实践8.4数据预处理实现和结果分析8.5实验结果及其分析本章的总结,8.1大数据概要,所谓大数据(Big Data,Mega Data ), 指需要新的处理方法来通过数据表达更强的决策的大数据一般具有4V的特征: Volume、Velocity、Variety和Value。 大数据技术的战略意义是专业化处理有意义的数据,体现大数据背后的价值。 在技术上,大数据与云计算密切相关。 适用于大型数据的技术,包括大型并行处理(MPP )数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展存储系统。 8.

2、1.1大数据的特征数据分析需要从复杂数据中发现规则,提取新知识,是大数据价值挖掘的关键。 经过数据的修正和处理,得到的数据成为数据分析的原始数据,根据需要对数据进行进一步的处理和分析,最终找到数据内部的隐藏规则或知识,体现数据的真正价值。 大数据的特点是数据量巨大流动速度快,数据种类多,价值密度低,8.1.2大数据的传统处理方法统一修正分析是运用有关统一修正方法和分析对象的知识,从定量和定性结合开始进行的研究活动。 统订分析继统订设订、统订调查、统订整理之后,通过分析达到对研究对象的更深层次的认识。 统订分析是在一定的选题下,集中分析方案的设订、资料的收集和整理而开展的研究活动。 系统、完善的

3、资料是统一修订分析的必要条件。 整合分析分为描述要分析的数据性质的五个步骤。 研究基础小组的数据关系。 建立统一数据与基础小组联系的模型。 证明(或否定)该模型的有效性。 用预测分析预测将来的趋势。8.1.3大数据分析的机器学习方法聚类分析聚类通常以静态分类的方式将相似对象分成不同组或更多子集,并且具有与相同子集的成员对象相似的若干属性结构聚集:可以如从上到下或从下到上双向地校正采用先前成功的聚集器的分类结构算法。 从下到上的算法以每个对象的个别分类开始,继续融合其中相近的对象。 从上到下的算法将所有对象分类为一个整体,逐渐变小。 分割聚类算法用于确定一次生成的类。 基于密度的聚类算法被发明用

4、于挖掘具有任意形状特性的类。 此算法将类别视为大于数据集中的阈值的区域。 分散性聚类:一次决定所有的分类。 K-means算法表示以空间中的k个点为中心进行聚类,并对最接近它们的对象进行分类。 算法总结为:个选择聚类的个数k。 可任选地产生k个集群、确定集群的中心或者直接产生k个中心。 对每个点决定其集群中心点。 修正那个集群的新中心。 重复上述步骤,直到满足收敛要求(通常确定的中心点不会改变)。 该算法的最大优点是简单快捷。 缺点是不能满足某些结果的需要,因为随机点的选择通常是非常偶然的。 神经网络神经网络是由与多个节点(或称为“神经元”、“单元”)的互连构成的运算模型。 每个节点代表一个称

5、为激励函数的特定输出函数。 两个节点之间的连接表示对通过该连接的信号的加权值,称为权重,其对应于人工神经网络的存储。网络的输出根据网络的连接方式、权重值、激励函数而不同。 神经网络是一个可以学习、归纳的系统,可以通过已知数据的实验运用来学习、归纳。 人工神经网络通过对局部状况进行比较(这些比较是根据不同状况的自动学习和实际问题解决的复杂性而决定的),它可以推论并创建自动识别的系统。 常见的多层结构的前馈网络由三部分组成:输入层,许多神经元接收大量的非线性输入信息。 输入的信息称为输入向量。 输出层通过神经元链路传递、分析、折衷信息,形成输出结果。 输出的信息称为输出向量。 隐藏层简称为“隐藏层

6、”,是由输入层和输出层之间的多个神经元和链路组成的各层。 隐藏层可以有多个层,习惯上使用一个层。 隐藏层的节点(神经元)数不定,习惯性地选择输入节点的1.21.5倍的节点。 中的组合图层性质变更选项。 决策树由一个决策图和可能包含资源成本和风险的结果组成,用于创建修订图以实现目标。 决策树是利用树一样的图形和决策模型进行决策支持的工具。 决策树常用于运筹学,尤其用于决策分析。 决策树法的决策步骤是制作树状图,根据已知的条件排列各方案和各方案的各种自然状态。 把各状态的概率及损益的值附在概率分支上。 校正每个计划的期望值并将其标记为对应于该计划的状态节点。 剪枝,比较各方案的期待值,在方案枝上做

7、上记号,把期待值小的(即去掉劣等方案)最后的方案作为最佳方案。 相对于其他的数据挖掘算法,决策树具有容易理解和实现,人们有能力通过解释理解决策树表示的意思的优点。 决策树中,数据的准备通常简单或不需要。 其他技术通常需要将数据普遍化,例如删除多才多艺的属性和空白的属性。 可以同时处理数据类型和正常类型的属性。 其他技术通常要求数据属性的单一性。 决策树是白色箱子的模型。 给出观察的模型,可以容易地从生成的决策树导出适当的逻辑公式。 通过静态测试对模型进行评价很容易。 表明该模型的可靠性有测量的可能性。 在相对短的时间内,可以对大型数据源取得可行且有效的结果。关联分析关联规则是数据挖掘中的一个重

8、要课题,它用于从大量数据中挖掘有价值的数据项之间的关联关系。 关联规则包括根据关联规则处理的值类型:布尔关联规则数量关联规则关联的数据维:单维关联规则(siii ) 一般的分类是基于关联规则的多维关联规则是关联规则的抽象层次:单层关联规则的广义关联推荐系统一般基于各种智能算法,利用数据挖掘技术提取大数据中出现的各种指标所暗示的信息模式,生成个性化推荐结果。 个性化推荐是根据用户的兴趣特征和购买行为,向用户推荐用户感兴趣的信息和商品。 个性化推荐系统是基于大量数据挖掘构建的高级商务智能平台,电子商务网站完全个性化到顾客购物的决策支持和信息,8.2.1背景介绍因特网技术迅速发展和传播信息的爆炸降低

9、了信息的利用率,这种现象称为信息过载。 个性化建议(包括个性化搜索)是当前解决此问题最有效的工具之一。 建议的问题基本上是代表用户对未见过的产品进行评价。 个性化推荐系统通过建立用户与信息产品之间的二维关系,利用现有的选择过程和相似性关系挖掘每个用户可能感兴趣的对象,进行个性化推荐。 8.2.2推荐系统中常用方法的主要推荐方法有基于内容的推荐、协同过滤推荐、基于关联规则的推荐、基于效用的推荐、基于知识库推荐和组合推荐。 基于内容推荐的内容推荐是信息过滤技术的继续和发展,是基于项目内容信息的推荐,不需要基于用户对项目的评价意见,而是以机器学习的方式进行内容推荐在基于内容的推荐系统中,项目和对象由

10、相关的特征的属性定义,该系统由用户评估对象的特征,学习用户兴趣,并且考察用户资料和要预测的项目之间的适合度。 用户的资料模型取决于所使用的学习方法,常用决策树、神经网络、基于向量的表现方法等。 建议使用基于内容的方法的优点是不需要其他用户的数据,不存在冷启动或稀疏问题。 可以推荐给有特殊兴趣的用户。 您可以推荐一个新的或不太受欢迎的项目。 没有新项目的问题。 通过列举推荐项目的内容特征,能够说明推荐这些项目的理由。 分类学习相关技术相当成熟等,有比较好的技术。 缺点:内容可以很容易地提取出有意义的特征,要求特征内容具有良好的结构性,用户的喜好必须以内容特征形式表达,不能明确得到其他用户的判断情

11、况。 协同过滤推荐协同过滤推荐技术通常采用最近邻技术,通过使用用户的历史偏好信息来校正用户之间的距离,然后目标用户对最近邻用户的商品评估的加权值。 协作过滤的最大优点是,推荐对象没有特别的要求,可以处理非结构化的复杂对象。 基于协调过滤的推荐系统从用户的观点进行适当的推荐,可以说是自动的。 协调过滤的优点:可以过滤机器自动内容分析困难的信息。 分享他人的经验可以避免内容分析的不完整性和不准确性,并根据复杂难以表达的概念进行过滤。 我有推荐新信息的能力。 发现内容上完全不同的信息,用户无法预先预测推荐信息的内容。 有效使用其他类似用户的反馈信息,减少用户的反馈量,提高个性化学习的速度。 基于关联

12、规则的推荐(association rule-basedrecommendation )基于关联规则,以购买的商品为规则标题,以规则体为推荐对象。 基于效用的推荐是基于用户利用该项目的效用来校正的,其核心问题是为每个用户创建效用函数。 知识型推荐在一定程度上可以被视为推理技术,而不是基于用户的需求和偏好来推荐的。 “混合推荐”(Hybrid Recommendation )。 研究和应用最多的是内容推荐和协同过滤推荐的组合。 最简单的方法是使用基于内容的方法和推荐的协作过滤方法来生成推荐的预测结果,然后将结果以某种方式进行组合。8.3推荐系统设置修订实践、完整推荐系统包括收集用户信息的行为记录

13、模块、分析用户偏好的模型分析模块和推荐算法模块。 推荐算法模块是最核心的部分。 8.3.1实现推荐系统的过程基于用户的协同过滤推荐的基本原理(如图8.2所示): 根据所有用户对物品或信息的偏好,发现与当前用户的偏好相似的“邻居”用户群,通常对“K-邻居”进行纠正基于项目的协同过滤推荐的基本原理(如图8.3所示) : 使用所有用户对物品和信息的偏好,基于发现物品和物品之间的相似度的用户的历史偏好信息,向用户推荐相似的。 基于图8.2用户的协同过滤机制的基本原理,基于图8.3项目的协同过滤推荐机制的基本原理,基于模型的推荐原理,通过使用现有用户偏好信息作为训练样本,基于训练用于预测用户偏好的模型的

14、模型来计算和推荐相似度。 8.3. 2数据预处理数据预处理方法包括数据清洗、数据聚合、数据转换、数据归约等。 数据清洗:主要从空缺值的填充、孤立点的识别、去噪、数据中的不一致的修正等方面处理原始数据集。 空缺值的处理及其实施方法元组忽略属性列手动输入空缺值自动输入空缺值的方法:有三种方法可以使用全局常量输入空缺值,并用相同的常量替换空缺属性值。 使用属性的平均值或期望值或频率值进行默认输入。 可通过线性回归、基于推论的工具或决策树归纳确定空缺值的可能值来输入。 清除噪音数据的方法噪音数据是包含错误或孤立点值的测量变量的随机错误或偏差。 噪音产生的原因有很多:收集设备发生故障的数据输入或收集整理

15、过程中发生人为错误或疏忽的数据传输中的错误等。 现在,作为处理噪音数据的方法,有几种通过考察“邻居”(周围的值),平滑地保存数据的值的方法。 聚类:对相似的值进行分组或分类,通过删除偏差点来平滑数据。 计算机与人工结合:根据现有经验处理数据集明显不符合逻辑的数据点后,再根据回归或数据处理算法处理初步处理的数据集。 回归分析:通过使数据适合回归函数,可以使数据平滑化。 数据整合:在几乎一致的数据存储设备上存储来自两个或多个数据源的数据,包括多个数据库、多维数据集或通用文件。 数据完整性:数据整合时,来自多个数据源的现实世界的实体可能不一致。 数据属性值冗馀:属性或维名称不匹配可能导致数据集中的冗馀。 元组重复问题:重复意味着相同数据存在多个相同元组。 检测和处理数据值表示形式的冲突:如果数据集中的一个实体来自不同的数据源,则其属性值可能不同。 这可能是因为数据的表示、缩小率(通常用于数字属性)或数据格式的编码不同。 数据的变化就是将数据转换为适合挖掘的格式。 平滑化:从数据中去除噪音。 其中包括盒子划分、聚类、回归等。 聚类:聚合和聚合数据。 数据概化:使用概念层次结构,将低级别的“原始”数据替换为高级别的概念。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论