




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术(工商管理)
哈尔滨商业大学王磊
概论:大数据和数据挖掘
学习目的:了解大数据基本概念和数据挖掘基本思想,掌握市场数据处理、分析和展示基本方
法和技能
一、大数据和大数据时代
1、什么是大数据(GigData):一种规模大到在获取、存储、管理、分析方面大大超出了传统
数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据
类型和价值密度低四大特征。
2、计算机数据存储单位:
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、
、、、、
ZBYBBBNBDBO
它们按照进率1024(2的十次方)来计算:
>1Byte=8bit
>1KB=1,024Bytes=8192bit
>1MB=1,024KB=1,048,576Bytes
>1GB=1,024MB=1,048,576KB
>1TB=1,024GB=1,048,576MB
>1PB=1,024TB=1,048,576GB
>1EB=1,024PB=1,048,576TB
>1ZB=1,024EB=1,048,576PB
>1YB=1,024ZB=1,048,576EB
>1BB=1,024YB=1,048,576ZB
>1NB=1,024BB=1,048,576YB
>1DB=1,024NB=1,048,576BB
一般情况下:个数字或英文字母占个汉字占
1lB=8Bit,12B=16bito
>《红楼梦》含标点87万字(不含标点853509字)
>1GB约等于671部红楼梦
>1TB约等于631,903部
>1PB约等于647,068,911部
A美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)
>1EB=4000倍美国国会图书馆存储的信息量
>
3、大数据的特征
/容量(Volume):数据量巨大;
/种类(Variety):数据类型的多样性(结构化数据、半结构化数据和非结构化数据);
/质量(Value):无法保证质量(沙里淘金,价值密度低);以监控视频为例,一部一小
时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大
的机器算法更迅速地完成数据的价值"提纯”是目前大数据汹涌背景下亟待解决的难题。
/速度(Velocity):指获得数据的速度(实时获取需要的信息);
4、大数据时代
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变
革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的
如天文学和基因学,创造出了"大数据”这个概念。如今,这个概念几乎应用到了所有人类
智力与发展的领域中。21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务
等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。
大数据时代的一些基本特征:
A硬件成本降低
A网络带宽提升
A云存储、云计算兴起
>网络技术快速发展
A智能终端的普及
A电子商务、社交网络、电子地图等的全面应用
A物联网("Internetofthings(IoT上顾名思义,物联网就是物物相连的互联网)
二、数据挖掘概述
1、什么是数据挖掘
>数据挖掘(DataMining),一般是指从大量的数据中通过算法搜索隐藏于其中信息的
过程。
>数据挖掘-从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的
综合;
>数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。
2、数据挖掘必备的基本技能
>计算机科学(软件);
>统计学和应用数学;
>专业技术水平和实际工作经验。
3、大数据时代统计数据处理过程
>数据收集-DataCollection(数据抓取);
>数据处理-DataProcessing(数据预处理、数据清洗);
>数据分析-DataAnalysis(数据挖掘、建模、规律发现);
>数据存储-DataDtorage(海量数据存储和使用);
>数据交换(数据传递方式:E、、微信等;数据交换格式:格式化字符、HTML、XML、
JSON);
>数据展示(图形、表格、公式、地图;文字、图像、视频;网页、博客。);
基本目的:
/预言(Predication):用历史预测未来
/描述(Description):了解数据中潜在的规律
/展示(Presentation):展示和演示数据趋势和规律
4、数据挖掘基本技术
/分类(Classification):首先从数据中选出已经分好类的训练集,在该训练集上运用数据
挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类(信用卡申请者:分类
为低、中、高风险);
/估计(Estimation):根据购买模式,估计一个家庭的孩子个数,或估计一个家庭的收入;
/预测(Prediction):通过分类或估值得出模型,该模型用于对未知变量的预言;
/相关性分组或关联规则(Affinitygroupingorassociationrules):超市中客户在购买A
的同时,经常会购买B,即A=>B(关联规则)。客户在购买A后,隔一段时间,会购买
B(序列分析);
/聚类(Clustering):聚类是对记录分组,把相似的记录放在一个聚集里。聚集和分类的区
别是聚类不依赖于预先定义好的类,不需要训练集;
/描述和可视化(DescriptionandVisualization):是对数据挖掘结果的表示方式。一般只
是指数据可视化工具,包含报表工具和商业智能分析产品(BI)的统称
/异常检测(AnomalyDetection):数据挖掘中一个重要方面,用来发现“小的模式"(相
对于聚类),即数据集中间显著不同于其它数据的对象。异常探测应用在如下领域:
令电信和信用卡欺骗
令贷款审批
令药物研究
令气象预报
令客户分类
令网络入侵检测
令故障检测与诊断等
5、数据挖掘经典算法
/C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法;
/K-means算法:是一种聚类算法;
/SVM:一种监督式学习方法,广泛运用于统计分类以及回归分析中;
/Apriori:是一种最有影响的挖掘布尔关联规则频繁项集的算法。
/EM:最大期望值法;
/pagerank:是google算法的重要内容;
/Adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把
弱分类器集合起来,构成一个更强的最终分类器;
/KNN:是一个理论上比较成熟的方法,也是最简单的机器学习方法;
/NaiveBayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive
Bayes);
/Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变
量空间的想法,第二个是用验证数据进行减枝。
三、大数据和数据挖掘案例
L一天之间,互联网上要发生多少事
/每天有2940亿封电子邮件发出,如果这些是纸质信件,在美国需要花费两年时间处理;
,每天有200万篇博客在网上发布,这些文章相当于《时代》杂志刊发770年的总量;
,每天有2.5亿张照片上传至社交网站Facebook,如果都打印出来,摞在一起能有80
个埃菲尔铁塔那么高;
/每天有86.4万小时视频被上传至视频网站Youtube,相当于不间断播放视频98年;
/每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台电脑从公
元元年就开始播放这些音乐会,到现在还没完没了地接着放;
/谷歌翻译每天处理的文字数量,每天翻译次数达十亿次,相当于一百万册图书,超过了
全世界的专业翻译人员一年能够翻译的文字规模;
/百度每天的关键词搜索量50亿,谷歌33.3亿;
淘宝天猫双11那一天营业额达191亿人民币。中国小商品城全年成交额才580.03亿
兀人民币。
累积起来,互联网一天之内产生的信息总量,可以装满1.68亿张DVD光盘。
2、尿布与啤酒”的故事
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举
措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市
的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够
准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾
客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在
这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意
外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一
个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常
要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一
现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后
又随手带回了他们喜欢的啤酒。
按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘
分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
四、数据挖掘和统计分析技术有什么不同?
硬要去区分DataMining和Statistics的差异其实是没有太大意义的。DataMining技术
或计算等理论方法,都是由统计学者根据统计理论所发展衍生。换另一个角度看,Data
Mining有相当大的比重是由高等统计学中的多变量分析(多元统计分析)所支撑。但是为
什么DataMining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而
言,DataMining有下列几项特性:
/处理大量实际数据更强势,且无须太专业的统计背景去使用DataMining的工具;
/数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,DataMining
的工具更符合企业需求;
/纯就理论的基础点来看,DataMining和统计分析有应用上的差别,毕竟DataMining
目的是方便企业终端用户使用而非给统计学家检测用的。
五、数据处理工具和软件(经济类专业)
1、微信、百度云和博客
参考博客::blog.sina/galaxystatistics
:cnblogs/abdata/articles/4896229.html
2、WORD、PPT
3、EXCEL.VBAforEXCEL.R
第一章数据处理
学习目的:理解运用数据挖掘方法前需要对数据进行清理、标准化等基础工作,掌握数据相似
性和相异下分析方法
一、数据清理
二、数据标准化和归一化
1、最大最小值标准化方法;
TZ乃一minX—〃maxX-X
Y=或y=
maxX-minXmaxX-minX
2、均值方差标准化方法
y=---
S
三、数据相似性分析
相似性和相异性被许多数据挖掘技术所使用,如聚类、最近邻分类、异常检测等。两个对象之
间的相似度是这两个对象相似程度的数值度量,通常相似度是非
负值,并常常在0(不相似)和1(完全相似)之间取值。两个对象之间的相异度是这两个对
象差异程度的数值度量,两个对象越相似,它们的相异度就越低,通常
用"距离"作为相异度的同义词。数据对象之间相似性和相异性的度量有很多,如何选择度量
方法依赖于对象的数据类型,数据的量值是否重要,数据的稀疏性等。
1.欧氏距离(EuclideanDistance)
欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。
(1)二维平面上两点a(xl,yl)与b(x2,y2)间的欧氏距离:
d12=-%2)2+(71—丫2)2
(2)三维空间两点a(xl,yl,zl)与b(x2,y2,z2)间的欧氏距离:
d12=JW一只)2+-丫2尸+(Z]—Z2)2
(3)两个n维向量a(xll,xl2,...,xln)与b(x21,x22,…,x2n)间的欧氏距离:
d12=力2
也可以用表示成向量运算的形式:
d12—J(a-b)(a-
欧式距离是高维空间中两点之间的距离,它计算简单、应用广泛,但是没有考虑变量之间的相
关性,当体现单一特征的多个变量参与计算时会影响结果的准确性,同时它对向量中得每个分
量的误差都同等对待,一定程度上放大了较大变量误差在距离测度中的作用。
两个n维向量A(xll,xl2,...,xln)与B(x21,x22,...,x2n)间的欧氏距离定义为:
D(A,B)=[(xll-x21)A2+(xl2-x22)A2+...+(xln-x2n)A2]A0.5
欧式距离的公式是
d=sqrt(J(xil-xi2)A)这里i=L2..n
欧氏距离:(w(Xi-Yi)2)1/2,即两项间的差是每个变量值差的平方和再平方根,目的是计
算其间的整体距离即不相似性。
欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的
差别等同看待,这一点有时不能满足实际要求。例如,在教育研究中,经常遇到对人的分析和
判别,个体的不同属性对于区分个体有着不同的重要性。因此,有时需要采用不同的距离函数。
欧氏距离看作信号的相似程度。距离越近就越相似,就越容易相互干扰,误码率就越高。
2.曼哈顿距离(ManhattanDistance)
(1)二维平面两点a(xl,yl)与b(x2,y2)间的曼哈顿距离
4=1%-M1+1%-y2l
(2)两个n维向量a(xll,xl2,…,xln)与b(x21,x22,…,x2n)间的曼哈顿距离
n
d[2=W|xlk-X2kl
k=l
曼哈顿距离也称为城市街区距离(CityBlockdistance),想象在曼哈顿要从一个十字路口开车
到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。实际
驾驶距离就是"曼哈顿距离"。
两个n维向量A(xll,xl2,..”xln)与B(x21,x22,...,x2n)间的曼哈顿距离定义为:
D(A,B)=|xll-x21|+|xl2-x22|+...+|xln-x2n|
两个n维向量a(xll,xl2xln)^b(x21,x22,…,x2个间的曼哈顿距离
以上两个距离都具有的数学性质是:
非负性:d(i,j)>0距离是一个非负的数值
同一性:d(i,i)=0对象到自身的距离为0
对称性:d(i,j)=距离是一个对称函数
三角不等式:d(i,j)sd(i,k)+d(k,j)从对象i到对象j的直接距离不会大于途经的任何其他对象k
的距离
3.切比雪夫距离(ChebyshevDistance)
数学上,切比雪夫距离(Chebyshevdistance)或是1_8度量是向量空间中的一种度量,二个
点之间的距离定义为其各座标数值差的最大值。以(xl,yl)和(x2,y2)二点为例,其切比雪夫距离
为max(|x2-xl|,|y2-yl|)o切比雪夫距离得名自俄罗斯数学家切比雪夫。
切比雪夫距离也称为棋盘距离,国际象棋中,国王走一步能够移动到相邻的8个方格中的任意
一个,那么国王从格子A(xl,yl)走到格子B(x2,y2)最少需要多少步?你会发现最少步数总是
max{|x2-xl|,|y2-yl|)^o
两个n维向量A(向l,xl2,…,xln)与B(x21,x22,…,x2n)间的切比雪夫距离定义为:
D(A,B)=max{|xll-
x21|,|xl2-x22|,...,|xln-x2n|}该公式的另一种等价形式是:口/8)=[仅11以21)人1<+仅12-
x22)Ak+...+(xln-x2n)Ak]A(l/k),其中k趋向于无穷大。
4.闵氏距离(MinkowskiDistance)
闵可夫斯基距离:
P=(Ti,T2%)andQ=(血./,…C/
闵可夫斯基距离(Minkowskidistance)是衡量数值点之间距离的一种非常常见的方法,假设
数值点P和Q坐标如下:
那么,闵可夫斯基距离定义为:
/n\1/P
£出-什.
闵氏距离不是一种距离,而是一组距离的定义。
该距离最常用的p是2和1,前者是欧几里得距离(Euclideandistance),后者是曼哈顿
距离(Manhattandistance)。假设在曼哈顿街区乘坐出租车从P点到Q点,白色表示高
楼大厦,灰色表示街道:
绿色的斜线表示欧几里得距离,在现实中是不可能的。其他三条折线表示了曼哈顿距离,这三
条折线的长度是相等的。
当p趋近于无穷大时,闵可夫斯基距离转化成切比雪夫距离(Chebyshevdistance):
1
/蚂方_/|P)=破千出—圻|.
我们知道平面上到原点欧几里得距离(p=2)为1的点所组成的形状是一个圆,当p取其
他数值的时候呢?
注意,当P<1时,闵可夫斯基距离不再符合三角形法则,举个例子:当P<L(0,0)至U(LD
的距离等于(1l)A{l/p}>2,而(0,1)到这两个点的距离都是1。
闵可夫斯基距离比较直观,但是它与数据的分布无关,具有一定的局限性,如果X方向的幅值
远远大于y方向的值,这个距离公式就会过度放大X维度的作用。所以,在计算距离之前,
我们可能还需要对数据进行z-transform处理,即减去均值,除以标准差:
3•例)T(,-)
〃:该维度上的均值
。:该维度上的标准差
可以看到,上述处理开始体现数据的统计特性了。这种方法在假设数据各个维度不相关的情况
下利用数据分布的特性计算出不同的距离。如果维度相互之间数据相关(例如:身高较高的信
息很有可能会带来体重较重的信息,因为两者是有关联的),这时候就要用到马氏距离
(Mahalanobisdistance)了。
两个n维变量A(xll,xl2,…,xln)与B(x21,x22,...,x2n)间的闵氏距离定义为:D(A,B)=[|xll-
x21|Ap+|xl2-x22|Ap+...+|xln-x2nrp]A(l/p),其中p是一个可变参数。当p=l时为曼哈
顿距离,当p=2时为欧氏距
离,当p-8时为切比雪夫距离。
闵氏距离,包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点:(1)对各个分量的量
纲(Scale)没有区别对待。(2)未考虑各个分量的分布(期望,方差等)可能是不同的。
5.标准化欧氏距离(StandardizedEuclideanDistance)
标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进,其基本思想是先将数据对象的各
个分量都进行均值为口、标准差为s的标准化,然后再计算欧式距离。
两个n维向量A(向l,xl2,…,xln)与B(x21,x22,...,x2n)的标准化欧氏距离定义为:
D(A,B)={[(xll-x21)/sl]A2+[(xl2-x22)/s2]A2+...+[(xln-x2n)/sn]A2}A0.5
6.马氏是巨离(MahalanobisDistance)
马氏距离由印度统计学家马哈拉诺斯(P.C.Mahalanobis)提出,表示数据的协方差距离,与
欧式距离不同,它考虑了各指标之间相关性的干扰,而且不受各指标量纲的影响,但是它的缺
点是夸大了变化微小的变量的作用。
设A、B是从均值向量为|j,协方差阵为£的总体G中抽取的两个样本,A、B两点之间的马氏
距离定义为:D(A,B)=[(A-B)TI-l(A-B)]A0.5,A与总体G的马氏距离定义为
D(A,G)=[(A-p)T2-l(A-p)]^0.5o
当协方差矩阵W是单位矩阵(各个样本向量之间独立同分布),则马氏公式就转化为欧氏距离;
当协方差矩阵W是对角阵时,则马氏距离就转化为标准化欧式距离;
7.汉明距离(HammingDistance)
在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句
话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。
例如:例11101与1001001之间的汉明距离是2例toned"与"roses”之间的汉明距
离是3。
8.皮尔逊相关系数(PearsonCorrelationcoefficient)
相关公式:
Px_cov(星,y)_E&x_〃*)(y_〃y))__(仃)_6(幻右位)
''々by/byJ/(X?)-炉(X)j£(Y2)-炉(Y)
^XY-^X^Y
PXy—,j二
,在次一⑵工尸1汇U—[2丫)2
v7yAyZ-
p_L乙N
皮尔逊相关系数也称为简单相关系数,它是衡量随机变量X与Y相关程度的一种方法,相关系
数的取值范围是[-L1]。相关系数的绝对值越大,则表明X与Y相关度越高,负值表示负相关,
正值表示正相关。
皮尔逊相关系数定义如下:r(X,Y)=Cov(X,Y)/[(D(X)A0.5)*(D(Y)A0.5)]=E((X-EX)*(Y-EY))/
[(D(X)A0.5)*(D(Y)A0.5)]=[(Xl-X_bar)(Yl-Y_bar)+(X2-X_bar)(Y2-Y_bar)+...+
(Xn-X_bar)(Yn-Y_bar)]/{[(Xl-X_bar)A2+(X2-X_bar)A2+...(Xn-X_bar)]*[(Yl-
AAA
Y_bar)2+(Y2-Y_bar)2+...(Yn-Y_bar)]}0.5o
Pearson相关系数要求参与计算的变量为服从双变量正态分布的连续型数据,并且仅适用于线
性相关的情况。另外,当极值对Pearson相关系数的影响非常大,因此在计算之前要首先进行
极值处理。
9.斯皮尔曼秩相关系数(SpearmanRankCorrelation)
与Pearson相关系数一样,它也可以反映两组变量联系的紧密程度,取值在-1到+1之间,计
算方法上也完全相同,不同的是它建立在秩次的基础之上,对原始变量的分布和样本容量的大
小不作要求,属于非参数统计方法,适用范围更广。
设R(Rl,R2,...,Rn)表示X在(Xl,X2,...,Xn)
中的秩,Q(Q1,Q2,…,QrO表示Y在(Y1,Y2,…,Yn)中的秩,如果X和Y具有同步性,那么R
和Q也会表现出同步性,反之依然,将其代入
Pearson相关系数,就得到秩之间的一致性,也就是Spearman相关系数。考虑到
Rl+R2+...Rn=Ql+Q2+...+Qn=n(n+l)/2,
RlA2+R2A2+...+RnA2=QlA2+Q2A2+...+QnA2=n(n+l)
(2n+l)/6,Spearman相关系数可以定义为:
r(X,Y)=l-6*[(Rl-Ql)A2+(R2-Q2)A2+...(Rn-Qn)A2]
/[n(nA2-l)]
10.肯德尔秩相关系数(KendallRankCorrelation)
Kendall在本质设想方面与Spearman是一样的,它从两个变量是否协同一致的角度出发检验
两变量之间是否存在相关性。什么是协同?假设两
个变量X、Y有n对观察值(XI,Yl)(X2,Y2)...(Xn,Yn),如果(Xj-Xi)(Yj-Yi)>0(j>i),称
(Xi,Yi)与(Xj,\j)满足协同性(concordant),或者说变化方向一致。否则,不满足协同性。
全部数据共有n(n-l)/2对,如果用Nc表示同向数对的数目,Nd表示反向数对的数目,则
Nc+Nd=
相关系数由两者的平均差定义:相关系数的
n(n-l)/2,Kendall(Nc-Nd)/[n(n-l)/2]oKendall
取值范围在-1到1之
间,当等于1时,表示两个随机变量拥有一致的等级相关性;当等于-1时,表示两个随机变量
拥有完全相反的等级相关性;当等于0时,表示两个随机变量是相互
独立的。
11.余弦相似度(CosineSimilarity)
几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中用这一概念来衡量样本向量之间
的差异。夹角余弦的取值范围为卜1,1]。夹角余弦越大表
示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角
余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。
两个n维样本向量A(xll,xl2,…,xln)和B(x21,x22,...,x2n)的夹角余弦定义为:cosO=
(AB)/(|A|*|B|)
=(xll*x21+xl2*x22+...Xln*X2n)/[(xllA2+xl2A2+...+xlnA2)A0.5*
(x21A2+x22A2+...+x2nA2)A0.5],夹角余弦经常应用于像文档这样的稀疏数据,它变量的长
度无关,如向量(L2)和(2,4)的夹
角余弦与向量(L2)和(10,20)的相等。
欧氏距离是最常见的距离度量,而余弦相似度则是最常见的相似度度量,很多的距离度量和相
似度度量都是基于这两者的变形和衍生,所以下面重点比较下两者在衡量个体差异时实现方式
和应用环境上的区别。
借助三维坐标系来看下欧氏距离和余弦相似度的区别:
Y
dist(A,B)
从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体
特征维度的数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是体现在方向上
的差异,而不是位置。如果保持A点的位置不变,B点朝原方向远离坐标轴原点,那么这个时
候余弦相似度cosG是保持不变的,因为夹角不变,而A、B两点的距离显然在发生改变,这就
是欧氏距离和余弦相似度的不同之处。
根据欧氏距离和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:欧
氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异
的分析,如使用用户行为指标分析用户价值的相似度或差异;而余弦相似度更多的是从方向上
区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分用户兴趣的相似度
和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不
敏感)。
12.调整余弦相似度(AdjustedCosineSimilarity)
余弦相彳以度更多的是从方向上区分差异,而对绝对的数值不敏感。因此没法衡量每个维数值的
差异,会导致这样一个情况:比如用户对内容评分,5分制,X
和Y两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得出的结果是0.98,两者
极为相似,但从评分上看X似乎不喜欢这2个内容,
而Y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,需要修正这种不合理性。
调整余弦相似度,将所有维度上的数值都减去一个均值,比如X和Y的评分均值都是3,那么
调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显
然更加符合现实。
13.简单匹配系数(SimpleMatchingCoefficient,SMC)
设A、B是两个二元属性组成的对象,这两个对象的比较导致如下四个频率变量:f00:A取0
并且B取。属性的个数;f01:A取。并且B取1属性的个数;f10:A取1并且B取。属性
的个数;fll:A取1并且B取1属性的个数。
那么SMC就是两个对象A、B属性值匹配的属性个数与所有属性个数的比值,即
SMC(A,B)=(fll+fOO)/(fOl+flO+fll+fOO)
14.Jaccard系数(JaccardCoefficient)
当数据对象的二元属性是非对称的时,例如用1表示商品被购买,用0表示商品未被购买。由
于未被购买的商品数远远大于被购买的商品数,因此,如果用SMC计算数据对象的相似度,
其结果必然是所有的数据对象都是相似的。
Jaccard系数可以处理仅包含非对称二元属性的对象,它是匹配属性的个数与不涉及0-0匹配
的属性个数的比值,BPJ(A,B)=fll/(f01+fl0+fll)o
15.广义Jaccard系数(ExtendedTanimotoCoefficient)
广义Jaccard系数又称为Tanimoto系数,常常用于文档数据,并在二元属性情况下规约为
Jaccard系数。
该系数用EJ表示,定义如下:EJ(A,B)=(A-B)/(|A|*|A|+|B|*|B|-
AB)=(xll*x21+xl2*x22+...+xln*x2n)/[(xllA2+xl2A+...xlnA2)+(x21A2+x22A2+...+x
2nA2)-(xll*x21+xl2*x22+...+xln*x2n)]
第二章EXCEL基础
一、EXCEL绝对和相对单元格操作
二、EXCEL常用函数
三、EXCEL在数据挖掘算法中的运用
四、EXCEL在线练习(单选和判断题)
链接::galaxystatistics/sjfxsTK/mypastExcel.html
第三章KNN算法
KNearestNeighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法,总体来说KNN
算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法
不同的是,K-Means算法用来聚类,用来判断哪些东西是一个比较相近的类型,而KNN算法是用来做归类
的,也就是说,有一个样本空间里的样本分成很几个类型,然后,给定一个待分类的数据,通过计算接近自
己最近的K个样本来判断这个待分类数据属于哪个分类。你可以简单的理解为由那离自己最近的K个点来投
票决定待分类数据归为哪一类。
一个比较经典的KNN图如下:
从上图中我们可以看到,图中的有两个类型的样本数据,一类是蓝色的正方形,另一类是红色的三角形。而
那个绿色的圆形是我们待分类的数据。
如果K=3,那么离绿色点最近的有2个红色三角形和1个蓝色的正方形,这3个点投票,于是绿色的这个
待分类点属于红色的三角形。
如果K=5,那么离绿色点最近的有2个红色三角形和3个蓝色的正方形,这5个点投票,于是绿色的这个
待分类点属于蓝色的正方形。
我们可以看到,机器学习的本质一是基于一种数据统计的方法!那么,这个算法有什么用呢?我们来看几
个示例。
>KNN分类
产品质量判断假设我们需要判断纸巾的品质好坏,纸巾的品质好坏可以抽像出两个向量,一个是"酸腐蚀的
时间",一个是"能承受的压强"。如果我们的样本空间如下:(所谓样本空间,又叫TrainingData,也就是
用于机器学习的数据)
向量XI向量X2
品质Y
耐酸时间(秒)JE强(公斤/平方米)
77坏
74坏
34好
14好
那么,如果XI=3和X2=7,这个毛巾的品质是什么呢?这里就可以用到KNN算法来判
断了。
假设K=3,K应该是一个奇数,这样可以保证不会有平票,下面是我们计算(3,7)到所有点
的距离。
向量XI向量X2
计算到(3,7)的距离向量Y
耐酸时间(秒)压强(公斤/平方米)
77(7—3)2+(7-7)2=16坏
74(7-3)2+(4-7)2=25N/A
34(3—3尸+(4—7尸=9好
14(1-3)2+(4-7)2=13好
所以,最后的投票,好的有2票,坏的有1票,最终需要测试的(3,7)是合格品。(当然,你还可以使用
权重——可以把距离值做为权重,越近的权重越大,这样可能会更准确一些)
>KNN预测
假设我们有下面一组数据,假设X是流逝的秒数,Y值是随时间变换的一个数值(你可以想像是股票值)
那么,当时间是6.5秒的时候,Y值会是多少呢?我们可以用KNN算法来预测之。
这里,让我们假设K=2,于是我们可以计算所有X点到6.5的距离,如:X=5.1,距离是|6.5-5.11=1.4,
X=1.2那么距离是|6.5-1.2|=5.3。于是我们得到下面的表:
XYX间距离
1235.5
1.2175.3
3.2123.3
4272.5
5.181.4
6.5?
KY预测值
217.5
315.66667
注意,上图中因为K=2,所以得到X=4和X=5.1的点最近,得到的Y的值分别为27和8,在这种情况
下,我们可以简单的使用平均值来计算:(27+8)/2=17.5。
第四章聚类分析(最短距离法)
一、什么是聚类分析
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就
是指相似元素的集合。严格的数学定义是较麻烦的,在不同问题中类的定义是不同的。详见参考文献口]。
聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术
和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进
行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值
分类学。后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。
在社会经济领域中存在着大量分类问题,比如对我国30个省市自治区独立核算工业企业经济效益进行
分析,一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固
定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标
对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。
又比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食
品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。
总之,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越受到人们的重视,它在许多领域中都
得到了广泛的应用。
值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更
好。
聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚
类预报法等。本章主要介绍常用的系统聚类法。
二、八种系统聚类方法
正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。例如可以定义类与
类之间的距离为两类之间最近样品的距离,或者定义为两类之间最远样品的距离,也可以定义为两类重心之
间的距离等等。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。本节介绍常用的八种系
统聚类方法,即最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差
平方和法。系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有
不同的定义方法,从而得到不同的计算距离的公式。这些公式在形式上不大一样,但最后可将它们统一为一
个公式,对上机计算带来很大的方便,详见后。
以下用。表示样品X,与Xj之间距离,用生表示类G,与G,之间的距离。
1最短距离法
定义类G,与G)之间的距离为两类最近样品的距离,即
D::=mind,:
JG"G产GjIJ
设类Gp与Gq合并成一个新类记为Gr,则任一类Gk与G,的距离是:
D,-mind„
《d:.,d>
=minminvmin:i
[XgQ.XjeG,X,eGt.XyeG.,"J
最短距离法聚类的步骤如下:
(1)定义样品之间距离,计算样品两两距离,得一距离阵记为。(0),开始每个样品自成一类,显然这
时Dg=djj0
(2)找出的非对角线最小元素,设为。内,则将G,,和G,合并成一个新类,记为G,.,即
G'=同。}。
(3)给出计算新类与其它类的距离公式:
与,=min{2,%}
将。⑼中第Rq行及p、g列用上面公式并成Y新行新列,新行新列对应G一所得到的矩阵记为外)。
(4)对。⑺重复上述对2。)的(21(3)两步得。⑵;如此下去,直到所有的元素并成一类为止。
如果某一步。”,中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。
为了便于理解最短距离法的计算步骤,现在举一个最简单的数字例子。
例1设抽取五个样品,每个样品只测一个指标,它们是1,2,3.5,7,9,试用最短距离法对五个样
品进行分类。
(1)定义样品间距离采用绝对距离,计算样品两两距离,得距离阵。(°)如下:
表1
G[={X]}G?={^2}63={X3}G4={Xj65={X5}
G]={xj0
G?={^2}10
G3E}2.51.50
G4HX4}653.50
G5={X5}875.520
(2)找出O(o)中非对角线最小元素是1,即功2=42=1,则将G1与G2并成一个新类,记为
G6={X.,X2)O
(3)计算新类G<,与其它类的距离,按公式:
G,6=min(Dit,Di2)i=3,4,5
即将表Ro,的前两例取较小的一列得表)如下:
表2
GeG3GA65
G6={X1,X2}0
G3={X3}1.50
G4={X4}53.50
G4={XJ75.520
(4)找出中非对角线最小元素是1.5,则将相应的两类。和位合并为G7={X,,X2,X.},然后再
按公式计算各类与&的距离,即将Gi,a相应的两行两列归并一行一列,新的行列由原来的两行(歹11)中
较小的一个组成,计算结果得表。⑵如下:
GIGA65
G1={Xl,X2,Xi}0
G4={X/3.50
G4HX4}5.520
⑸找出。⑵中非对角线最小元素是2,则将&与统合并成Gg={X4,Xs},最后再按公式计算G与
&的距离,即将G>,8相应的两行两列归并成一行一列,新的行列由原来的两行(列)中较小的一个组成,
得表。⑶如下:
表4
GIGs
G.={X1,X2,X.}0
G8={X4,X5}3.50
最后将67和伍合并成a,上述并类过程可用下图表达。横坐标的刻度是并类的距离。
X1
x4-
由上图看到分布两类{X”X2,X3}及{X4,Xs}比较合适,在实际问题中有时给出一个阈值T,要求类与
类之间的距离小于T,因此有些样品可能归不了类。
最短距离法也可用于指标(变量)分类,分类时可以用距离,也可以用相似系数。但用相似系数时应找
最大的元素并类,也就是把公式D*=min(Dip,%)中的min换成max。
2最长距离法
定义类G,与类G,之间距离为两类最远样品的距离,即
Dpq=maxdy
,qXjeGp,XjeGqJ
最长距离法与最短距离法的并类步骤完全一样,也是将各样品先自成一类,然后将非对角线上最小元素对应
的两类合并。设某一步将类与Gq合并为G,.,则任一类G*与G,的距离用最长距离公式为
Dkr=maxd::
XfGk,XjWG,,J
=max<maxd”,maxd-:>
J7
[XieGk,XJeGpX产G-X/GgJ
=max{%,%}
再找非对角线最小元素的两类并类,直至所有的样品全归为一类为止。
易见最长距离法与最短距离法只有两点不同:一是类与类之间的距离定义不同;另一是计算新类与其它
类的距离所用的公式不同。下面将要介绍的其它系统聚类法之间的不同点也表现在这两个方面,而并类步骤
完全一样,所以下面介绍其它系统聚类方法时,主要指出这两个方面:定义和公式。
举例1应用最长距离法按聚类步骤(1)—(3)可得下表:
。⑼为
表5
G3G4
GG2G5
G[=俾}0
G[={^2}10
G3={X3}2.51.50
G4={X4}653.50
875.520
G5={^5}
口⑴为
表6
G3G4G5
G6={XltX2}0
G3={X3}2.50
G4={xj63.50
85.520
G5={^}
D⑵为
表7
GsG7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业买卖土地合同范本
- 冻品储存租赁合同范本
- 农场家禽订购合同范本
- 企业员工加班合同范本
- 农业综合开发合同范本
- 农场鱼塘租赁合同范本
- 保安公司解聘合同范本
- 公益创投协议合同模板
- 出售松树苗圃合同范本
- 全程融资合作合同范本
- 《习近平新时代中国特色社会主义思想概论》课程标准
- 员工安全培训考试题(各地真题)
- JB-T 8881-2020 滚动轴承 渗碳轴承钢零件 热处理技术条件
- FlowmasterV7中文技术手册
- 2023年石油天然气集团公司固井技术规范试行
- 《光合作用(第1课时)》公开课课件
- 物业经理竞聘演讲稿课件
- 《治安管理处罚法》课件
- 陕09J08 楼梯 栏杆 栏板图集
- 法院执行培训课件
- 危化品的风险管控与监控措施
评论
0/150
提交评论