数据挖掘技术（工商管理）教案

上传人：无*** IP属地：河北上传时间：2024-10-22 格式：PDF 页数：65 大小：8.52MB 积分：12 举报 版权申诉

已阅读5页，还剩60页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘技术（工商管理）

哈尔滨商业大学王磊

概论：大数据和数据挖掘

学习目的：了解大数据基本概念和数据挖掘基本思想，掌握市场数据处理、分析和展示基本方

法和技能

一、大数据和大数据时代

1、什么是大数据（GigData）:一种规模大到在获取、存储、管理、分析方面大大超出了传统

数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据

类型和价值密度低四大特征。

2、计算机数据存储单位：

最小的基本单位是bit,按顺序给出所有单位：bit、Byte、KB、MB、GB、TB、PB、EB、

、、、、

ZBYBBBNBDBO

它们按照进率1024（2的十次方）来计算:

>1Byte=8bit

>1KB=1,024Bytes=8192bit

>1MB=1,024KB=1,048,576Bytes

>1GB=1,024MB=1,048,576KB

>1TB=1,024GB=1,048,576MB

>1PB=1,024TB=1,048,576GB

>1EB=1,024PB=1,048,576TB

>1ZB=1,024EB=1,048,576PB

>1YB=1,024ZB=1,048,576EB

>1BB=1,024YB=1,048,576ZB

>1NB=1,024BB=1,048,576YB

>1DB=1,024NB=1,048,576BB

一般情况下：个数字或英文字母占个汉字占

1lB=8Bit,12B=16bito

>《红楼梦》含标点87万字（不含标点853509字）

>1GB约等于671部红楼梦

>1TB约等于631,903部

>1PB约等于647,068,911部

A美国国会图书馆藏书（151,785,778册）（2011年4月：收录数据235TB）

>1EB=4000倍美国国会图书馆存储的信息量

3、大数据的特征

/容量（Volume）:数据量巨大；

/种类（Variety）:数据类型的多样性（结构化数据、半结构化数据和非结构化数据）；

/质量（Value）:无法保证质量（沙里淘金，价值密度低）；以监控视频为例，一部一小

时的视频，在连续不间断监控过程中，可能有用的数据仅仅只有一两秒。如何通过强大

的机器算法更迅速地完成数据的价值"提纯”是目前大数据汹涌背景下亟待解决的难题。

/速度（Velocity）:指获得数据的速度（实时获取需要的信息）；

4、大数据时代

半个世纪以来，随着计算机技术全面融入社会生活，信息爆炸已经积累到了一个开始引发变

革的程度。它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。信息爆炸的

如天文学和基因学，创造出了"大数据”这个概念。如今，这个概念几乎应用到了所有人类

智力与发展的领域中。21世纪是数据信息大发展的时代，移动互联、社交网络、电子商务

等极大拓展了互联网的边界和应用范围，各种数据正在迅速膨胀并变大。

大数据时代的一些基本特征：

A硬件成本降低

A网络带宽提升

A云存储、云计算兴起

＞网络技术快速发展

A智能终端的普及

A电子商务、社交网络、电子地图等的全面应用

A物联网（"Internetofthings（IoT上顾名思义，物联网就是物物相连的互联网）

二、数据挖掘概述

1、什么是数据挖掘

＞数据挖掘（DataMining）,一般是指从大量的数据中通过算法搜索隐藏于其中信息的

过程。

＞数据挖掘-从大量数据中寻找其规律的技术，是统计学、数据库技术和人工智能技术的

综合；

＞数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。

2、数据挖掘必备的基本技能

＞计算机科学（软件）；

＞统计学和应用数学；

＞专业技术水平和实际工作经验。

3、大数据时代统计数据处理过程

＞数据收集-DataCollection（数据抓取）；

＞数据处理-DataProcessing（数据预处理、数据清洗）；

＞数据分析-DataAnalysis（数据挖掘、建模、规律发现）；

＞数据存储-DataDtorage（海量数据存储和使用）；

＞数据交换（数据传递方式：E、、微信等；数据交换格式：格式化字符、HTML、XML、

JSON）;

＞数据展示（图形、表格、公式、地图；文字、图像、视频；网页、博客。）；

基本目的：

/预言（Predication）:用历史预测未来

/描述（Description）:了解数据中潜在的规律

/展示（Presentation）:展示和演示数据趋势和规律

4、数据挖掘基本技术

/分类（Classification）:首先从数据中选出已经分好类的训练集，在该训练集上运用数据

挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类（信用卡申请者：分类

为低、中、高风险);

/估计(Estimation):根据购买模式，估计一个家庭的孩子个数，或估计一个家庭的收入；

/预测(Prediction):通过分类或估值得出模型，该模型用于对未知变量的预言；

/相关性分组或关联规则(Affinitygroupingorassociationrules):超市中客户在购买A

的同时，经常会购买B,即A=>B(关联规则)。客户在购买A后，隔一段时间，会购买

B(序列分析)；

/聚类(Clustering):聚类是对记录分组，把相似的记录放在一个聚集里。聚集和分类的区

别是聚类不依赖于预先定义好的类，不需要训练集；

/描述和可视化(DescriptionandVisualization):是对数据挖掘结果的表示方式。一般只

是指数据可视化工具，包含报表工具和商业智能分析产品(BI)的统称

/异常检测(AnomalyDetection):数据挖掘中一个重要方面，用来发现“小的模式"(相

对于聚类)，即数据集中间显著不同于其它数据的对象。异常探测应用在如下领域：

令电信和信用卡欺骗

令贷款审批

令药物研究

令气象预报

令客户分类

令网络入侵检测

令故障检测与诊断等

5、数据挖掘经典算法

/C4.5:是机器学习算法中的一种分类决策树算法，其核心算法是ID3算法；

/K-means算法：是一种聚类算法；

/SVM:一种监督式学习方法，广泛运用于统计分类以及回归分析中；

/Apriori:是一种最有影响的挖掘布尔关联规则频繁项集的算法。

/EM:最大期望值法；

/pagerank:是google算法的重要内容；

/Adaboost:是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器然后把

弱分类器集合起来，构成一个更强的最终分类器；

/KNN:是一个理论上比较成熟的方法，也是最简单的机器学习方法；

/NaiveBayes:在众多分类方法中，应用最广泛的有决策树模型和朴素贝叶斯(Naive

Bayes);

/Cart:分类与回归树，在分类树下面有两个关键的思想，第一个是关于递归地划分自变

量空间的想法，第二个是用验证数据进行减枝。

三、大数据和数据挖掘案例

L一天之间，互联网上要发生多少事

/每天有2940亿封电子邮件发出，如果这些是纸质信件，在美国需要花费两年时间处理；

,每天有200万篇博客在网上发布，这些文章相当于《时代》杂志刊发770年的总量；

,每天有2.5亿张照片上传至社交网站Facebook,如果都打印出来，摞在一起能有80

个埃菲尔铁塔那么高；

/每天有86.4万小时视频被上传至视频网站Youtube,相当于不间断播放视频98年;

/每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放，如果一台电脑从公

元元年就开始播放这些音乐会，到现在还没完没了地接着放；

/谷歌翻译每天处理的文字数量，每天翻译次数达十亿次，相当于一百万册图书，超过了

全世界的专业翻译人员一年能够翻译的文字规模；

/百度每天的关键词搜索量50亿，谷歌33.3亿；

淘宝天猫双11那一天营业额达191亿人民币。中国小商品城全年成交额才580.03亿

兀人民币。

累积起来，互联网一天之内产生的信息总量，可以装满1.68亿张DVD光盘。

2、尿布与啤酒”的故事

在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个奇怪的举

措却使尿布和啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市

的真实案例，并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统，为了能够

准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾

客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在

这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意

外的发现是："跟尿布一起购买最多的商品竟是啤酒！经过大量实际调查和分析，揭示了一

个隐藏在“尿布与啤酒”背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常

要到超市去买婴儿尿布，而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一

现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后

又随手带回了他们喜欢的啤酒。

按常规思维，尿布与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘

分析，沃尔玛是不可能发现数据内在这一有价值的规律的。

四、数据挖掘和统计分析技术有什么不同？

硬要去区分DataMining和Statistics的差异其实是没有太大意义的。DataMining技术

或计算等理论方法，都是由统计学者根据统计理论所发展衍生。换另一个角度看，Data

Mining有相当大的比重是由高等统计学中的多变量分析（多元统计分析）所支撑。但是为

什么DataMining的出现会引发各领域的广泛注意呢？主要原因在相较于传统统计分析而

言，DataMining有下列几项特性：

/处理大量实际数据更强势，且无须太专业的统计背景去使用DataMining的工具；

/数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件，DataMining

的工具更符合企业需求；

/纯就理论的基础点来看,DataMining和统计分析有应用上的差别，毕竟DataMining

目的是方便企业终端用户使用而非给统计学家检测用的。

五、数据处理工具和软件（经济类专业）

1、微信、百度云和博客

参考博客：:blog.sina/galaxystatistics

:cnblogs/abdata/articles/4896229.html

2、WORD、PPT

3、EXCEL.VBAforEXCEL.R

第一章数据处理

学习目的：理解运用数据挖掘方法前需要对数据进行清理、标准化等基础工作，掌握数据相似

性和相异下分析方法

一、数据清理

二、数据标准化和归一化

1、最大最小值标准化方法；

TZ乃一minX—〃maxX-X

Y=或y=

maxX-minXmaxX-minX

2、均值方差标准化方法

y=---

三、数据相似性分析

相似性和相异性被许多数据挖掘技术所使用，如聚类、最近邻分类、异常检测等。两个对象之

间的相似度是这两个对象相似程度的数值度量，通常相似度是非

负值，并常常在0(不相似)和1(完全相似)之间取值。两个对象之间的相异度是这两个对

象差异程度的数值度量，两个对象越相似，它们的相异度就越低，通常

用"距离"作为相异度的同义词。数据对象之间相似性和相异性的度量有很多，如何选择度量

方法依赖于对象的数据类型，数据的量值是否重要，数据的稀疏性等。

1.欧氏距离(EuclideanDistance)

欧氏距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。

(1)二维平面上两点a(xl,yl)与b(x2,y2)间的欧氏距离：

d12=-％2)2+(71—丫2)2

(2)三维空间两点a(xl,yl,zl)与b(x2,y2,z2)间的欧氏距离:

d12=JW一只)2+-丫2尸+(Z]—Z2)2

(3)两个n维向量a(xll,xl2,...,xln)与b(x21,x22,…,x2n)间的欧氏距离:

d12=力2

也可以用表示成向量运算的形式：

d12—J(a-b)(a-

欧式距离是高维空间中两点之间的距离，它计算简单、应用广泛，但是没有考虑变量之间的相

关性，当体现单一特征的多个变量参与计算时会影响结果的准确性，同时它对向量中得每个分

量的误差都同等对待，一定程度上放大了较大变量误差在距离测度中的作用。

两个n维向量A(xll,xl2,...,xln)与B(x21,x22,...,x2n)间的欧氏距离定义为：

D(A,B)=[(xll-x21)A2+(xl2-x22)A2+...+(xln-x2n)A2]A0.5

欧式距离的公式是

d=sqrt(J(xil-xi2)A)这里i=L2..n

欧氏距离：(w(Xi-Yi)2)1/2,即两项间的差是每个变量值差的平方和再平方根，目的是计

算其间的整体距离即不相似性。

欧氏距离虽然很有用，但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的

差别等同看待，这一点有时不能满足实际要求。例如，在教育研究中，经常遇到对人的分析和

判别，个体的不同属性对于区分个体有着不同的重要性。因此，有时需要采用不同的距离函数。

欧氏距离看作信号的相似程度。距离越近就越相似，就越容易相互干扰，误码率就越高。

2.曼哈顿距离(ManhattanDistance)

(1)二维平面两点a(xl,yl)与b(x2,y2)间的曼哈顿距离

4=1%-M1+1%-y2l

(2)两个n维向量a(xll,xl2，…,xln)与b(x21,x22，…,x2n)间的曼哈顿距离

d[2=W|xlk-X2kl

k=l

曼哈顿距离也称为城市街区距离(CityBlockdistance),想象在曼哈顿要从一个十字路口开车

到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。实际

驾驶距离就是"曼哈顿距离"。

两个n维向量A(xll,xl2,..”xln)与B(x21,x22,...,x2n)间的曼哈顿距离定义为:

D(A,B)=|xll-x21|+|xl2-x22|+...+|xln-x2n|

两个n维向量a(xll,xl2xln)^b(x21,x22，…,x2个间的曼哈顿距离

以上两个距离都具有的数学性质是：

非负性：d(i,j)>0距离是一个非负的数值

同一性：d(i,i)=0对象到自身的距离为0

对称性：d(i,j)=距离是一个对称函数

三角不等式：d(i,j)sd(i,k)+d(k,j)从对象i到对象j的直接距离不会大于途经的任何其他对象k

的距离

3.切比雪夫距离(ChebyshevDistance)

数学上，切比雪夫距离(Chebyshevdistance)或是1_8度量是向量空间中的一种度量，二个

点之间的距离定义为其各座标数值差的最大值。以(xl,yl)和(x2,y2)二点为例，其切比雪夫距离

为max(|x2-xl|,|y2-yl|)o切比雪夫距离得名自俄罗斯数学家切比雪夫。

切比雪夫距离也称为棋盘距离，国际象棋中，国王走一步能够移动到相邻的8个方格中的任意

一个，那么国王从格子A(xl,yl)走到格子B(x2,y2)最少需要多少步？你会发现最少步数总是

max{|x2-xl|,|y2-yl|)^o

两个n维向量A(向l,xl2，…,xln)与B(x21,x22，…,x2n)间的切比雪夫距离定义为:

D(A,B)=max{|xll-

x21|,|xl2-x22|,...,|xln-x2n|}该公式的另一种等价形式是：口/8)=[仅11以21)人1<+仅12-

x22)Ak+...+(xln-x2n)Ak]A(l/k),其中k趋向于无穷大。

4.闵氏距离(MinkowskiDistance)

闵可夫斯基距离：

P=(Ti，T2%)andQ=(血./，…C/

闵可夫斯基距离(Minkowskidistance)是衡量数值点之间距离的一种非常常见的方法，假设

数值点P和Q坐标如下：

那么，闵可夫斯基距离定义为：

/n\1/P

£出-什.

闵氏距离不是一种距离，而是一组距离的定义。

该距离最常用的p是2和1,前者是欧几里得距离(Euclideandistance),后者是曼哈顿

距离(Manhattandistance)。假设在曼哈顿街区乘坐出租车从P点到Q点,白色表示高

楼大厦，灰色表示街道：

绿色的斜线表示欧几里得距离，在现实中是不可能的。其他三条折线表示了曼哈顿距离，这三

条折线的长度是相等的。

当p趋近于无穷大时，闵可夫斯基距离转化成切比雪夫距离(Chebyshevdistance):

/蚂方_/|P)=破千出—圻|.

我们知道平面上到原点欧几里得距离(p=2)为1的点所组成的形状是一个圆，当p取其

他数值的时候呢？

注意，当P<1时，闵可夫斯基距离不再符合三角形法则，举个例子：当P<L(0,0)至U(LD

的距离等于(1l)A{l/p}>2,而(0,1)到这两个点的距离都是1。

闵可夫斯基距离比较直观，但是它与数据的分布无关，具有一定的局限性，如果X方向的幅值

远远大于y方向的值，这个距离公式就会过度放大X维度的作用。所以，在计算距离之前，

我们可能还需要对数据进行z-transform处理，即减去均值，除以标准差：

3•例)T(,-)

〃：该维度上的均值

。：该维度上的标准差

可以看到，上述处理开始体现数据的统计特性了。这种方法在假设数据各个维度不相关的情况

下利用数据分布的特性计算出不同的距离。如果维度相互之间数据相关(例如：身高较高的信

息很有可能会带来体重较重的信息，因为两者是有关联的)，这时候就要用到马氏距离

(Mahalanobisdistance)了。

两个n维变量A(xll,xl2,…,xln)与B(x21,x22,...,x2n)间的闵氏距离定义为：D(A,B)=[|xll-

x21|Ap+|xl2-x22|Ap+...+|xln-x2nrp]A(l/p),其中p是一个可变参数。当p=l时为曼哈

顿距离，当p=2时为欧氏距

离，当p-8时为切比雪夫距离。

闵氏距离，包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点：(1)对各个分量的量

纲(Scale)没有区别对待。(2)未考虑各个分量的分布(期望，方差等)可能是不同的。

5.标准化欧氏距离(StandardizedEuclideanDistance)

标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进，其基本思想是先将数据对象的各

个分量都进行均值为口、标准差为s的标准化，然后再计算欧式距离。

两个n维向量A(向l,xl2，…,xln)与B(x21,x22,...,x2n)的标准化欧氏距离定义为:

D(A,B)={[(xll-x21)/sl]A2+[(xl2-x22)/s2]A2+...+[(xln-x2n)/sn]A2}A0.5

6.马氏是巨离(MahalanobisDistance)

马氏距离由印度统计学家马哈拉诺斯(P.C.Mahalanobis)提出，表示数据的协方差距离，与

欧式距离不同，它考虑了各指标之间相关性的干扰，而且不受各指标量纲的影响，但是它的缺

点是夸大了变化微小的变量的作用。

设A、B是从均值向量为|j,协方差阵为£的总体G中抽取的两个样本，A、B两点之间的马氏

距离定义为：D(A,B)=[(A-B)TI-l(A-B)]A0.5,A与总体G的马氏距离定义为

D(A,G)=[(A-p)T2-l(A-p)]^0.5o

当协方差矩阵W是单位矩阵(各个样本向量之间独立同分布)，则马氏公式就转化为欧氏距离；

当协方差矩阵W是对角阵时，则马氏距离就转化为标准化欧式距离；

7.汉明距离(HammingDistance)

在信息论中，两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句

话说，它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。

例如：例11101与1001001之间的汉明距离是2例toned"与"roses”之间的汉明距

离是3。

8.皮尔逊相关系数(PearsonCorrelationcoefficient)

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘技术（工商管理）教案

文档简介

温馨提示

最新文档

评论

数据挖掘技术（工商管理）教案

文档简介

温馨提示

最新文档

评论

相关文档