云计算与大数据（第二版）分布式数据存储与大数据挖掘

上传人：熊*** IP属地：山东上传时间：2024-03-03 格式：PPT 页数：65 大小：2.63MB 积分：25 举报 版权申诉

已阅读5页，还剩60页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

云计算与大数据第2版分布式文件存储与大数据挖掘10.1分布式数据库HBase10.2分布式数据仓库Hive10.3大数据挖掘计算平台Mahout实验基于Hive的数据统计实验基于Mahout的聚类实验重点：Hbase概念与结构Hive体系结构Mahout中的协同过滤难点：Hbase、协同过滤本章重点及难点10.1分布式数据库Hbase10.1.1HBase简介HBase是Hadoop的子项目，它是一个面向列的分布式数据库。它建立在HDFS之上，是能提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。HDFS实现了一个分布式的文件系统，虽然这个文件系统能以分布和可扩展的方式有效存储海量数据，但文件系统缺少结构化/半结构化数据的存储管理和访问能力，其编程接口对于很多应用来说还太底层了。就像有了NTFS这样的单机文件系统后，我们还需要Oracle、IBMDB2、MicrosoftSQLServer这样的数据库来帮助我们管理数据一样。HBase之于HDFS就类似于数据库之于文件系统。10.1分布式数据库Hbase10.1.1HBase简介HBase存储的数据介于映射（key/value）和关系型数据之间。能通过主键(rowkey)和主键的range来检索数据，支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。它可以直接使用本地文件系统，也可以使用Hadoop的HDFS文件存储系统。10.1分布式数据库Hbase10.1.1HBase简介10.1分布式数据库Hbase10.1.1HBase简介HBase的特征包括：线性及模块可扩展性；严格一致读写；可配置的表自动分割策略；RegionServer自动故障恢复；便利地备份MapReduce作业的基类；便于客户端访问的JavaAPI；为实时查询提供了块缓存和BloomFilter；可通过服务器端的过滤器进行查询预测；提供了支持XML、Protobuf及二进制编码的Thrift网管和REST-ful网络服务；可扩展的JIRB（Jruby-based）shell；支持通过Hadoop或JMX将度量标准倒出到文件或Ganglia中。10.1分布式数据库Hbase10.1.1HBase简介HBase中表一般有如下的特点：大：一个表可以有上亿行，上百万列面向列:面向列(族)的存储和权限控制，列(族)独立检索。稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。10.1分布式数据库Hbase10.1.2Hbase体系结构HBase的服务器体系结构遵从主从服务器架构，由HRegion服务器（HRegionServer）群和HBaseMaster服务器（HBaseMasterServer）构成。HBaseMaster服务器负责管理所有的HRegion服务器。而HBase中的所有服务器都是通过ZooKeeper来进行协调并处理HBase服务器运行期间可能遇到的错误。HBaseMaster服务器本身并不存储HBase中的任何数据，HBase逻辑上的表可能被划分成多个HRegion，然后存储到HRegion服务器群中。HBaseMaster服务器中存储的是从数据到HRegion服务器的映射。10.1分布式数据库Hbase10.1.2Hbase体系结构10.1分布式数据库Hbase10.1.2Hbase体系结构1、HRegion当表的大小超过设置值时，HBase会自动将表划分到不同的区域，每个区域包含所有行的一个子集。对用户来说，每个表是一堆数据的集合，靠主键来区分。从物理上来说，一张表是被拆分成了多块，每一块就是一个HRegion，用表名+开始/结束主键来区分每一个HRegion。一个HRegion会保存一个表中某段连续的数据，从开始主键到结束主键，一张完整的表格保存在多个Region上面。10.1分布式数据库Hbase10.1.2Hbase体系结构2、HRegion服务器HRegion服务器主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBase中最核心的模块。所有的数据库数据一般是保存在Hadoop分布式文件系统上面的，用户通过一系列HRegion服务器来获取这些数据，一台机器上面一般只运行一个HRegion服务器，且每一个区段的HRegion也只会被一个HRegion服务器维护。10.1分布式数据库Hbase10.1.2Hbase体系结构2、HRegion服务器HRegion服务器包含两部分：HLog部分和HRegion部分。其中HLog存储数据日志。HRegion部分由很多的HRegion组成，存储的是实际的数据。每一个HRegion又由许多Store组成，每一个Store存储实际上是一个列族（ColumnFamily）下的数据。此外，在每一个Store中包含一块MemStore。MemStore驻留在内存中，数据到来时首先更新到MemStore中，当达到阈值之后再更新到对应的StoreFile（又名HFile）中。每一个HStore集合包含了多个HStoreFile，HStoreFile负责的是实际的数据存储，为HBase中最小的存储单元。10.1分布式数据库Hbase10.1.2Hbase体系结构3、HBaseMaster服务器每台HRegion服务器都会和HMaster服务器通信，HMaster的主要任务就是要告诉每台HRegion服务器它要维护哪些HRegion。当一台新的HRegion服务器登录到HMaster服务器时，HMaster会告诉它先等待分配数据。而当一台HRegion死机时，HMaster会把它负责的HRegion标记为未分配，然后再把它们分配到其他HRegion服务器中。HBase通过ZooKeeper来保证系统中总有一个Master在运行。HMaster在功能上主要负责Table和HRegion的管理工作。10.1分布式数据库Hbase10.1.2Hbase体系结构4、ZooKeeperZooKeeper存储的是HBase中Root表和Meta表的位置。此外，ZooKeeper还负责监控各个机器的状态。当某台机器发生故障时，ZooKeeper会第一个感知，并通知HBaseMaster进行相应的处理。当HBaseMaster发生故障时，ZooKeeper负责HBaseMaster的恢复工作，能够保证在同一个时刻系统中只有一台HBaseMaster提供服务。10.1分布式数据库Hbase10.1.3Hbase数据模型1、物理模型HBase是一个类似GoogleBigtable的分布式数据库，它是一个稀疏的长期存储的（存储在硬盘上）、多维度的、排序的映射表，这张表的索引是行关键字、列关键字和时间戳，HBase中的数据都是字符串，没有类型。用户在表格中存储数据，每一行都有一个可排序的主键和任意多的列。由于是稀疏存储，同一张里面的每一行数据都可以有截然不同的列。列名字的格式是"<family>:<qualifier>"，都是由字符串组成的，每一张表有一个列族集合，这个集合是固定不变的，只能通过改变表结构来改变。但是qulifier值相对于每一行来说都是可以改变的。10.1分布式数据库Hbase10.1.3Hbase数据模型2、概念视图可以将一个表想象成一个大的映射关系，通过行健、行健+时间戳或行键+列（列族：列修饰符），就可以定位特定数据，HBase是稀疏存储数据的，因此某些列可以是空白的。10.1分布式数据库Hbase10.1.3Hbase数据模型2、概念视图从上表可以看出，test表有r1和r2两行数据，c1和c2两个列族，在r1中，列族c1有三条数据，列族c2有两条数据；在r2中，列族c1有一条数据，列族c2有一条数据，每一条数据对应的时间戳都用数字来表示。10.1分布式数据库Hbase10.1.3Hbase数据模型3、物理视图虽然从概念视图来看每个表格是由很多行组成的，但是在物理存储上面，它是按照列来保存的。10.1分布式数据库Hbase10.1.4Hbase的基本操作HBase的部署可分为单机模式、伪分布模式以及完全分布模式。单机模式直接下载HBase的二进制tar.gz包解压后配置Java路径即可使用。伪分布模式的搭建下载解压HBase压缩包，先在Master机器上操作；修改配置文件conf/hbase-env.sh，conf/hase-site.xml；设置regionservers和环境变量；HBase安装文件复制到HadoopSlave节点；先启动Hadoop，再启动Hbase。10.1分布式数据库Hbase10.1.4Hbase的基本操作10.1分布式数据库Hbase10.1.4Hbase的基本操作HBaseShell是为用户提供的能通过Shell控制台或脚本执行HBase操作的接口。任务命令表达式1）一般操作

查询数据库状态status查询版本version2）数据库操作

创建表create'表名称','列名称1','列名称2','列名称N'添加记录put'表名称','行名称','列名称:','值'查看记录get'表名称','行名称'查看表中的记录总数count'表名称'删除记录delete'表名','行名称','列名称'删除一张表先要屏蔽该表，才能对该表进行删除，第一步disable'表名称'第二步drop'表名称'查看所有记录scan"表名称"查看某个表某个列中所有数据scan"表名称",['列名称:']10.2分布式数据仓库Hive10.2.1Hive简介Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为HiveQL。HiveQL允许熟悉SQL的用户查询数据。同时，也允许熟悉MapReduce的开发者自定义Mapper和Reducer操作，从而支持MapReduce框架。10.2分布式数据仓库Hive10.2.1Hive简介Hive的设计特点如下：支持不同的存储类型，例如，纯文本文件、HBase中的文件。可将元数据保存在关系数据库中，减少了在查询过程中执行语义检查的时间。可以直接使用存储在Hadoop文件系统中的数据。内置大量用户函数UDF来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF函数来完成内置函数无法实现的操作。采用类SQL的查询方式，可将SQL查询转换为MapReduce的job在Hadoop集群上执行。10.2分布式数据仓库Hive10.2.2Hive体系结构10.2分布式数据仓库Hive10.2.2Hive体系结构

（1）用户接口用户接口主要有三个：命令行接口（CommandLineInterface，CLI）、Client和网络接口（WebUserInterface，WUI）。其中最常用的是CLI，当CLI启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至HiveServer（如前图中的ThiftServer）。在启动Client模式的时候，需要指出HiveServer所在节点，并且在该节点启动HiveServer。WUI是通过浏览器访问Hive。10.2分布式数据仓库Hive10.2.2Hive体系结构（2）元数据存储Hive将元数据存储在数据库中，如MySQL、Derby。Hive中的元数据包括表的名字、表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。（3）解释器、编译器、优化器、执行器解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后由MapReduce调用执行。（4）HadoopHive的数据存储在HDFS中，大部分的查询由MapReduce完成（包含*的查询，比如select*fromtbl会生成MapReduce任务）。10.2分布式数据仓库Hive10.2.3Hive数据类型Hive的数据存储模型有四种：表(Table)，外部表(ExternalTable)，分区(Partition)，桶(Bucket)。（1）Hive中的Table和数据库中的Table在概念上是类似的。在Hive中每一个Table都有一个相应的目录存储数据。例如，一个表ahpu，它在HDFS中的路径为：/wh/ahpu，其中，wh是在hive-site.xml中由${hive.metastore.warehouse.dir}指定的数据仓库的目录，所有的Table数据（不包括ExternalTable）都保存在这个目录中。（2）外部表是一个已经存储在HDFS中，并具有一定格式的数据。使用外部表意味着Hive表内的数据不在Hive的数据仓库内，它会到仓库目录以外的位置访问数据。10.2分布式数据仓库Hive10.2.3Hive数据类型1、Hive的数据存储模型Hive的数据存储模型有四种：表(Table)，外部表(ExternalTable)，分区(Partition)，桶(Bucket)。（3）分区对应于数据库中的分区列的密集索引，但是Hive中分区的组织方式和数据库中的很不相同。在Hive中，表中的一个分区对应于表下的一个目录，所有的分区的数据都存储在对应的目录中。（4）桶对指定列进行哈希（hash）计算，会根据哈希值切分数据，目的是为了并行，每一个桶对应一个文件。10.2分布式数据仓库Hive10.2.3Hive数据类型1、Hive的数据存储模型Hive的数据存储模型有四种：表(Table)，外部表(ExternalTable)，分区(Partition)，桶(Bucket)。（3）分区对应于数据库中的分区列的密集索引，但是Hive中分区的组织方式和数据库中的很不相同。在Hive中，表中的一个分区对应于表下的一个目录，所有的分区的数据都存储在对应的目录中。（4）桶对指定列进行哈希（hash）计算，会根据哈希值切分数据，目的是为了并行，每一个桶对应一个文件。10.2分布式数据仓库Hive10.2.3Hive数据类型2、Hive的元数据存储管理Hive运行过程中，其元数据可能会不断被读取、更新和修改，因此这些元数据不宜存放在Hadoop的HDFS文件系统中，否则会降低元数据的访问效率，进一步降低Hive的整体性能。目前，Hive使用一个关系型数据库来存储元数据。Hive可以通过三种方式连接到数据库。（1）“单用户”模式（2）“多用户”模式（3）“远程服务器”模式10.2分布式数据仓库Hive10.2.3Hive数据类型3、Hive的数据类型（1）基本数据类型数据类型所占字节开始支持版本TINYINT1byte，-128~127

SMALLINT2byte，-32,768~32,767

INT4byte,-2,147,483,648~2,147,483,647

BIGINT8byte,-9,223,372,036,854,775,808~9,223,372,036,854,775,807

BOOLEAN

FLOAT4byte单精度

DOUBLE8byte双精度

STRING

BINARY布尔型（true/false）从Hive0.8.0开始支持TIMESTAMP

从Hive0.8.0开始支持DECIMAL

从Hive0.11.0开始支持CHAR

从Hive0.13.0开始支持VARCHAR

从Hive0.12.0开始支持DATE

从Hive0.12.0开始支持10.2分布式数据仓库Hive10.2.3Hive数据类型3、Hive的数据类型（2）复杂数据类型包括：ARRAY,MAP,STRUCT,UNION，这些复杂类型是由基础类型组成的。10.2分布式数据仓库Hive10.2.4Hive基本操作创建表：hive>

CREATE

TABLE

pokes

(foo

INT,

bar

STRING);

创建一个新表，结构与record表一样hive>

create

table

new_table

records;

创建分区表：hive>

create

table

logs(ts

bigint,line

string)

partitioned

(dt

String,country

String);

加载分区表数据：hive>

load

data

local

inpath

'/home/Hadoop/input/hive/partitions/file1'

into

table

logs

partition

(dt='2001-01-01',country='GB');

展示表中有多少分区：hive>

show

partitions

logs;

10.2分布式数据仓库Hive10.2.4Hive基本操作展示所有表：hive>

SHOW

TABLES;

hive>

SHOW

TABLES

'.*s‘显示表的结构信息hive>

DESCRIBE

invites;

更新表的名称：hive>

ALTER

TABLE

source

RENAME

target;

添加新一列hive>

ALTER

TABLE

invites

ADD

COLUMNS

(new_col2

INT

COMMENT

comment');

10.2分布式数据仓库Hive10.2.4Hive基本操作删除表：hive>

DROP

TABLE

records;

删除表中数据，但要保持表的结构定义hive>

dfs

-rmr

/user/hive/warehouse/records;

从本地文件加载数据：hive>

LOAD

DATA

LOCAL

INPATH

'/home/hadoop/input/ncdc/micro-tab/sample.txt'

显示所有函数：hive>

show

functions;

查看函数用法：hive>

describe

function

substr;

10.2分布式数据仓库Hive10.2.4Hive基本操作内连接：

hive>

SELECT

sales.*,

things.*

FROM

sales

JOIN

things

(sales.id

things.id);

外连接：hive>

SELECT

sales.*,

things.*

FROM

sales

LEFT

OUTER

JOIN

things

(sales.id

things.id);hive>SELECTsales.*,things.*FROMsalesRIGHTOUTERJOINthingsON(sales.id=things.id);hive>SELECTsales.*,things.*FROMsalesFULLOUTERJOINthingsON(sales.id=things.id);

10.2分布式数据仓库Hive10.2.4Hive基本操作创建视图：hive>CREATEVIEWvalid_recordsASSELECT*FROMrecords2WHEREtemperature!=9999;查看视图详细信息：hive>

DESCRIBE

EXTENDED

valid_records;10.3大数据挖掘计算平台Mahout10.3.1Mahout简介Mahout项目是由ApacheSoftwareFoundation（ASF）的开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便、快捷地创建智能应用程序。发展至今，ApacheMahout项目目前已经有3个公开发行版本，包含许多实现，如聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用ApacheHadoop库，Mahout可以有效地扩展到云中。10.3大数据挖掘计算平台Mahout10.3.1Mahout简介Mahout的机器学习算法算法类算法说明分类算法LogisticRegression逻辑回归

Bayesian贝叶斯

SVM支持向量机

Perceptron感知器算法

NeuralNetwork神经网络

RandomForests随机森林

RestrictedBoltzmannMachines有限波尔兹曼机聚类算法CanopyClusteringCanopy聚类

K-meansClusteringK均值算法

FuzzyK-means模糊K均值

ExpectationMaximizationEM聚类（期望最大化聚类）

MeanShiftClustering均值漂移聚类

HierarchicalClustering层次聚类

DirichletProcessClustering狄里克雷过程聚类

LatentDirichletAllocationLDA聚类

SpectralClustering谱聚类关联规则挖掘ParallelFPGrowthAlgorithm并行FPGrowth算法回归LocallyWeightedLinearRegression局部加权线性回归降维/维约简SingularValueDecomposition奇异值分解

PrincipalComponentsAnalysis主成分分析

IndependentComponentAnalysis独立成分分析

GaussianDiscriminativeAnalysis高斯判别分析进化算法并行化Watchmaker框架

推荐/协同过滤Non-distributedrecommendersTaste(UserCF,ItemCF,SlopeOne）

DistributedRecommendersItemCF向量相似度计算RowSimilarityJob计算列间相似度

VectorDistanceJob计算向量间距离非Map-Reduce算法HiddenMarkovModels隐马尔科夫模型集合方法扩展Collections扩展了java的Collections类10.3大数据挖掘计算平台Mahout10.3.1Mahout简介TasteTaste是ApacheMahout提供的一个协同过滤算法的高效实现，它是一个基于Java实现，可扩展性强，它在Mahout中对一些推荐算法进行MapReduce编程模式转化，从而可以利用Hadoop的分布式架构，提高了推荐算法的性能。10.3大数据挖掘计算平台Mahout10.3.2Mahout中的协同过滤1.协同过滤协同过滤(CollaborativeFiltering,CF)是利用集体智慧的一个典型方法。要理解什么是协同过滤，首先想一个简单的问题，如果你现在想看个电影，但你不知道具体看哪部，你会怎么做？大部分的人会问问周围的朋友，看看最近有什么好看的电影推荐，而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。换句话说，协同过滤就是借鉴和你相关人群的观点来进行推荐。10.3大数据挖掘计算平台Mahout10.3.2Mahout中的协同过滤1、

协同过滤概念不同于基于内容的推荐，协同过滤主要是基于用户行为的推荐。比如，协同过滤会在海量的用户中发掘出一小部分和你品位比较类似的，这些用户成为邻居，然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。当然其中存在的核心的问题是：如何确定一个用户是不是和你有相似的品位？如何将邻居们的喜好组织成一个排序的目录？10.3大数据挖掘计算平台Mahout10.3.2Mahout中的协同过滤2、协同过滤实现要实现协同过滤的推荐算法，要进行以下三个步骤：（1）收集数据这里的数据指的都是用户的历史行为数据，比如用户的购买历史，关注，收藏行为，或者发表了某些评论，给某个物品打了多少分等等，这些都可以用来作为数据供推荐算法使用，服务于推荐算法。需要特别指出的在于，不同的数据准确性不同，粒度也不同，在使用时需要考虑到噪音所带来的影响。10.3大数据挖掘计算平台Mahout10.3.2Mahout中的协同过滤2、协同过滤实现要实现协同过滤的推荐算法，要进行以下三个步骤：（2）找到相似用户和物品计算用户间以及物品间的相似度。以下是几种计算相似度的方法：欧几里德距离皮尔逊相关系数Cosine相似度Tanimoto系数10.3大数据挖掘计算平台Mahout10.3.2Mahout中的协同过滤2、协同过滤实现要实现协同过滤的推荐算法，要进行以下三个步骤：（3）进行推荐计算相似度后，就可以进行推荐了。在协同过滤中，有基于用户的协同过滤和基于项目（物品）的协同过滤两种主流方法。10.3.2Mahout中的协同过滤

基于用户的协同过滤基于物品的协同过滤10.3大数据挖掘计算平台Mahout10.3.2Mahout中的协同过滤2、协同过滤实现基于用户的协同过滤的基本思想是：基于用户对物品的偏好找到相邻邻居用户，然后将邻居用户喜欢的推荐给当前用户。计算上，就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，找到K邻居后，根据邻居的相似度权重以及他们对物品的偏好，预测当前用户没有偏好的未涉及物品，计算得到一个排序的物品列表作为推荐。如图所示，对于用户A，根据用户的历史偏好，这里只计算得到一个邻居，即用户C，然后将用户C喜欢的物品D推荐给用户A。10.3大数据挖掘计算平台Mahout10.3.2Mahout中的协同过滤2、协同过滤实现基于物品的协同过滤的原理和基于用户的协同过滤类似，只是在计算邻居时采用物品本身，而不是从用户的角度，即基于用户对物品的偏好找到相似的物品，然后根据用户的历史偏好，推荐相似的物品给他。从计算的角度看，就是将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度，得到物品的相似物品后，根据用户历史的偏好预测当前用户还没有表示偏好的物品，计算得到一个排序的物品列表作为推荐。对于物品A，根据所有用户的历史偏好，喜欢物品A的用户都喜欢物品C，得出物品A和物品C比较相似，而用户C喜欢物品A，那么可以推断出用户C可能也喜欢物品C。10.3大数据挖掘计算平台Mahout10.3.2Mahout中的协同过滤3.Mahout中的协同过滤过程Mahout首先通过Taste库建立一个针对协同过滤的推荐引擎。Taste支持基于用户和基于物品（项目）的推荐，在它的用户自定义的界面提供了许多推荐选项。借助这些组件以及它们的实现，开发人员可以构建复杂的推荐系统，提供基于实时或者离线的推荐。基于实时的推荐经常只能处理数千用户，而离线推荐具有更好的适用性。Taste甚至提供了一些可利用Hadoop离线计算推荐的工具，可以满足包含大量用户、项目和首选项的大型系统的需求。10.3大数据挖掘计算平台Mahout10.3.2Mahout中的协同过滤3.Mahout中的协同过滤过程具体来说，Taste包含5个主要组件，用于确定用户、项目和首选项，它们是：DataModel：用于存储用户、项目和首选项；UserSimilarity：用于定义两个用户之间的相似度的界面；ItemSimilarity：用于定义两个项目之间的相似度的界面；Recommender：用于提供推荐的界面；UserNeighborhood：用于计算相似用户邻近度的界面，其结果随时可由Recommender使用。10.3大数据挖掘计算平台Mahout10.3.3Mahout中的分类和聚类1、分类分类(classification)一种有监督的学习方法，它根据有标记的数据找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。分类的目的是学会一个分类函数或分类模型(也常常称作分类器)，该模型能将未知的数据映射到给定类别中的某一个类中，从而实现分类的目标。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。不同的分类器有不同的特点。常使用三种分类器评价指标：①预测准确度；②计算复杂度；③模型描述的简洁度。10.3大数据挖掘计算平台Mahout10.3.3Mahout中的分类和聚类2、聚类聚类(clustering)

是一种无监督的学习方法，它是根据“物以类聚”的原理，将本身没有类别的样本聚集成不同的组，并且对每一个组对象进行描述的过程。这样的一组数据对象的集合常被称为簇，。聚类目的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似。与分类规则不同，进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组。聚类旨在发现空间实体的属性间的函数关系，挖掘的知识用以属性名为变量的数学方程来表示。常见的聚类算法包括：K-means聚类算

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

云计算与大数据（第二版）分布式数据存储与大数据挖掘

文档简介

温馨提示

最新文档

评论

相关文档