版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术
哈尔滨商业大学王磊
概论:大数据和数据挖掘
学习目的:了解大数据基本概念和数据挖掘基本思想,掌握市场数据处理、分析和展示基本方
法和技能
一、大数据和大数据时代
1、什么是大数据(GigData):一种规模大到在获取、存储、管理、分析方面大大超出了传统
数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据
类型和价值密度低四大特征。
2、计算机数据存储单位:
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、
YB、BB、NB、DBo
它们按照进率1024(2的十次方)来计算:
>1Byte=8bit
>1KB=1,024Bytes=8192bit
>1MB=1,024KB=1,048,576Bytes
A1GB=1,024MB=1,048,576KB
>1TB=1,024GB=1,048,576MB
>1PB=1,024TB=1,048,576GB
>1EB=1,024PB=1,048,576TB
>1ZB=1,024EB=1,048,576PB
>1YB=1,024ZB=1,048,576EB
>1BB=1,024YB=1,048,576ZB
>1NB=1,024BB=1,048,576YB
>1DB=1,024NB=1,048,576BB
一般情况下:1个数字或英文字母占lB=8Bit,1个汉字占2B=16bit。
>《红楼梦》含标点87万字(不含标点853509字)
>1GB约等于671部红楼梦
>1TB约等于631,903部
>1PB约等于647,068,911部
>美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB)
>1EB=4000倍美国国会图书馆存储的信息量
3、大数据的特征
/容量(Volume):数据量巨大;
/种类(Variety):数据类型的多样性(结构化数据、半结构化数据和非结构化数据);
>结构化数据
建立一个信息系统设计时肯定会涉及到数据的存储,一般我们都会将系统信息保存
在某个指定的关系数据库中。我们会将数据按业务分类,并设计相应的表,然后将对应
的信息保存到相应的表中。比如我们做一个业务系统,要保存员工基本信息:工号、姓
名、性别、出生日期等等;我们就会建立一个对应的staff表。这种类别的数据最好处
理,只要简单的建立一个对应的表就可以了。
>非结构化数据
像图片、声音、视频等等。这类信息我们通常无法直接知道他的内容,数据库也只
能将它保存在一个BLOB字段中,对以后检索非常麻烦。一般的做法是,建立一个包含
三个字段的表(编号number、内容描述varchar(1024)>内容blob)。引用通过编号,
检索通过内容描述。现在还有很多非结构化数据的处理工具,市面上常见的内容管理器
就是其中的一种。
>半结构化数据
这样的数据和上面两种类别都不一样,它是结构化的数据,但是结构变化很大。因
为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处
理,由于结构变化很大也不能够简单的建立一个表和他对应。本文主要讨论针对半结构
化数据存储常用的两种方式。
先举一个半结构化的数据的例子,比如存储员工的简历。不像员工基本信息那样一致每
个员工的简历大不相同。有的员工的简历很简单,比如只包括教育情况;有的员工的简
历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、
技术技能等等。还有可能有一些我们没有预料的信息。通常我们要完整的保存这些信息
并不是很容易的,因为我们不会希望系统中的表的结构在系统的运行期间进行变更。
/质量(Value):无法保证质量(沙里淘金,价值密度低);以监控视频为例,一部一小
时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大
的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题。
/速度(Velocity):指获得数据的速度(实时获取需要的信息);
4、大数据时代
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变
革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的
学科如天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有
人类智力与发展的领域中。21世纪是数据信息大发展的时代,移动互联、社交网络、电子
商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。
大数据时代的一些基本特征:
>硬件成本降低
>网络带宽提升
>云存储、云计算兴起
>网络技术快速发展
>智能终端的普及
>电子商务、社交网络、电子地图等的全面应用
>物联网("Internetofthings(IoT)”。顾名思义,物联网就是物物相连的互联网)
二、数据挖掘概述
1、什么是数据挖掘
>数据挖掘(DataMining),一般是指从大量的数据中通过算法搜索隐藏于其中信息的过
程。
>数据挖掘一从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的
幺宗台*.
>壶据以掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构。
2、数据挖掘必备的基本技能
>计算机科学(软件);
>统计学和应用数学;
>专业技术水平和实际工作经验。
3、大数据时代统计数据处理过程
>数据收集-DataCollection(数据抓取);
>数据处理-DataProcessing(数据预处理、数据清洗);
>数据分析-DataAnalysis(数据挖掘、建模、规律发现);
>数据存储-DataStorage(海量数据存储和使用);
>数据交换(数据传递方式:Email.QQ、微信等;数据交换格式:格式化字符、HTML、
XML、JSON);
>数据展示(图形、表格、公式、地图;文字、图像、视频;网页、博客。);
基本目的:
/预言(Predication):用历史预测未来
/描述(Description):了解数据中潜在的规律
/展示(Presentation):展示和演示数据趋势和规律
4、数据挖掘基本技术
/分类(Classification):首先从数据中选出已经分好类的训练集,在该训练集上运用
数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类(信用卡申请者:
分类为低、中、高风险);
/估计(Estimation):根据购买模式,估计•一个家庭的孩子个数,或估计一个家庭的收入;
/预测(Prediction):通过分类或估值得出模型,该模型用于对未知变量的预言;
/相关性分组或关联规则(Affinitygroupingorassociationrules):超市中客户在购
买A的同时,经常会购买B,即A=>B(关联规则)。客户在购买A后,隔一段时间,会
购买B(序列分析);
/聚类(Clustering):聚类是对记录分组,把相似的记录放在一个聚集里。聚集和分类的
区别是聚类不依赖于预先定义好的类,不需要训练集;
/描述和可视化(DescriptionandVisualization):是对数据挖掘结果的表示方式。一
般只是指数据可视化工具,包含报表工具和商业智能分析产品(BI)的统称
/异常检测(AnomalyDetection):数据挖掘中一个重要方面,用来发现“小的模式”(相
对于聚类),即数据集中间显著不同于其它数据的对象。异常探测应用在如下领域:
令电信和信用卡欺骗
令贷款审批
令药物研究
令气象预报
令客户分类
令网络入侵检测
。故障检测与诊断等
5、数据挖掘经典算法
/C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法;
/K-means算法:是一种聚类算法;
/SVM:一种监督式学习方法,广泛运用于统计分类以及回归分析中;
/Apriori:是一种最有影响的挖掘布尔关联规则频繁项集的算法。
/EM:最大期望值法;
/pagerank:是google算法的重要内容;
/Adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把
弱分类器集合起来,构成一个更强的最终分类器;
/KNN:是一个理论上比较成熟的方法,也是最简单的机器学习方法;
/NaiveBayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive
Bayes);
/Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变
量空间的想法,第二个是用验证数据进行减枝;
/BP神经网络。
三、大数据和数据挖掘案例
1、一天之间,互联网上要发生多少事
/每天有2940亿封电子邮件发出,如果这些是纸质信件,在美国需要花费两年时间处理;
/每天有200万篇博客在网上发布,这些文章相当于《时代》杂志刊发770年的总量;
/每天有2.5亿张照片上传至社交网站Facebook,如果都打印出来,摞在一起能有80个
埃菲尔铁塔那么高;
/每天有86.4万小时视频被上传至视频网站Youtube,相当于不间断播放视频98年;
/每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台电脑从公
元元年就开始播放这些音乐会,到现在还没完没了地接着放;
/谷歌翻译每天处理的文字数量,每天翻译次数达十亿次,相当于一百万册图书,超过了
全世界的专业翻译人员一年能够翻译的文字规模;
/百度每天的关键词搜索量50亿,谷歌33.3亿;
/淘宝天猫双11那一天营业额达191亿人民币。中国小商品城全年成交额才580.03亿元
人民币。
累积起来,互联网一天之内产生的信息总量,可以装满1.68亿张DVD光盘。
2、尿布与啤酒〃的故事
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举
措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市
的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够
准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾
客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在
这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意
外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一
个隐藏在“尿布与啤酒''背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常
要到超市去买婴儿尿布,而他们中有30%〜40%的人同时也为自己买一些啤酒。产生这一现
象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又
随手带回了他们喜欢的啤酒。
按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘
分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
四、数据挖掘和统计分析技术有什么不同?
硬要去区分DataMining和Statistics的差异其实是没有太大意义的。DataMining技术
或计算等理论方法,都是由统计学者根据统计理论所发展衍生。换另一个角度看,Data
Mining有相当大的比重是由高等统计学中的多变量分析(多元统计分析)所支撑。但是为
什么DataMining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,
DataMining有下列几项特性:
/处理大量实际数据更强势,且无须太专业的统计背景去使用DataMining的工具;
/数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,DataMining
的工具更符合企业需求;
/纯就理论的基础点来看,DataMining和统计分析有应用上的差别,毕竟DataMining
目的是方便企业终端用户使用而非给统计学家检测用的。
五、数据处理工具和软件(经济类专业)
1、微信、百度云和博客
参考博客:http:〃www.cnblogs.com/cloudlj/
2、WORD、PPT
3、EXCEL,VBAforEXCEL.R
第一章数据处理
学习目的:理解运用数据挖掘方法前需要对数据进行清理、标准化等基础工作,掌握数据相似
性和相异下分析方法
一、数据清理(EXCEL字符串函数)
二、数据标准化和归一化
1、最大最小值标准化方法;
vX-minX/八..maxX-X八
Y=(A)或/=(B)
maxX-minXmaxX-minJ
2、均值方差标准化方法
r=(0
s
数据实例一:现有男、女生各20人体重(公斤)数据如下,
男生5085537273616256647959666381867760825154
女生6262677850574854546469776056647451545355
问,男生还是女生体重变化较小?
解:
男生体重最大、最小值maxM=86、minM=50;
女生体重最大、最小值maxF=78、minF=48;
男生体重平均数和样本标准差场=66.7,Ms=11.788;
女生体重平均数和样本标准差场=60.45,Ms=8.9058;
男女生体重数据标准化计算表:
男生女生男生A女生A男生B女生B男生C女生C
50620.000.471.000.53-1.420.17
85620.970.470.030.531.550.17
53670.080.630.920.37-1.160.74
72780.611.000.390.000.451.97
73500.640.070.360.930.53-1.17
61570.310.300.690.70-0.48-0.39
62480.330.000.671.00-0.40-1.40
56540.170.200.830.80-0.91-0.72
64540.390.200.610.80-0.23-0.72
79640.810.530.190.471.040.40
59690.250.700.750.30-0.650.96
66770.440.970.560.03-0.061.86
63600.360.400.640.60-0.31-0.05
81560.860.270.140.731.21-0.50
86641.000.530.000.471.640.40
77740.750.870.250.130.871.52
60510.280.100.720.90-0.57-1.06
82540.890.200.110.801.30-0.72
51530.030.170.970.83-1.33-0.84
54550.110.230.890.77-1.08-0.61
三、数据相似性分析
相似性和相异性被许多数据挖掘技术所使用,如聚类、最近邻分类、异常检测等。两个对象之
间的相似度是这两个对象相似程度的数值度量,通常相似度是非
负值,并常常在0(不相似)和1(完全相似)之间取值。两个对象之间的相异度是这两个对
象差异程度的数值度量,两个对象越相似,它们的相异度就越低,通常
用“距离”作为相异度的同义词。数据对象之间相似性和相异性的度量有很多,如何选择度量方
法依赖于对象的数据类型,数据的量值是否重要,数据的稀疏性等。
1.欧氏距离(EuclideanDistance)
欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。
⑴二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:
九=JOi一%)2+(71一旷?)?
(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:
22
%=V(^i-x2)+Oi-y2)+(-z2)
(3)两个n维向量a(x11,x12,...,x1n)-igb(x21,x22,…,x2n)间的欧氏距离:
-x2k)
yk=1
也可以用表示成向量运算的形式:
d12=J(a-b)(a-by
欧式距离是高维空间中两点之间的距离,它计算简单、应用广泛,但是没有考虑变量之间的相
关性,当体现单一特征的多个变量参与计算时会影响结果的准确性,同时它对向量中得每个分
量的误差都同等对待,一定程度上放大了较大变量误差在距离测度中的作用。
两个n维向量A(x11,x12,…,x1n)与B(x21,x22,…,x2n)间的欧氏距离定义为:
D(A,B)=[(x11-x21)A2+(x12-x22)A2+...+(x1n-x2n)A2]A0.5
欧式距离的公式是
d=sqrt(X(xi1-xi2)A)这里i=1,2..n
欧氏距离:(幺(Xi-Yi)2)1/2,即两项间的差是每个变量值差的平方和再平方根,目的是计
算其间的整体距离即不相似性。
欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的
差别等同看待,这一点有时不能满足实际要求。例如,在教育研究中,经常遇到对人的分析和
判别,个体的不同属性对于区分个体有着不同的重要性。因此,有时需要采用不同的距离函数。
欧氏距离看作信号的相似程度。距离越近就越相似,就越容易相互干扰,误码率就越高。
2.曼哈顿距离(ManhattanDistance)
⑴二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离
%=反1-叼1+1%-y2l
(2)两个n维向量a(x11,x12,…,x1n)与b(x21,x22,...,x2n)间的曼哈顿距离
n
di2=W|xlk-X2kl
k=l
曼哈顿距离也称为城市街区距离(CityBlockdistance),想象在曼哈顿要从一个十字路口开车到
另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。实际驾
驶距离就是“曼哈顿距离,
两个n维向量A(x11,x12,…,x1n)与B(x21,x22,…,x2n)间的曼哈顿距离定义为:
D(A,B)=|x11-x21|+|x12-x22|+...+|x1n-x2n|
两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的曼哈顿距离
以上两个距离都具有的数学性质是:
非负性:d(i,j)>0距离是一个非负的数值
同一性:d(i,i)=0对象到自身的距离为0
对称性:d(i,j)=d(j,i)距离是一个对称函数
三角不等式:d(i,j)4d(i,k)+d(k,j)从对象i到对象j的直接距离不会大于途经的任何其他对象k的
距离
3.切比雪夫距离(ChebyshevDistance)
数学上,切比雪夫距离(Chebyshevdistance)或是L8度量是向量空间中的一种度量,二个点
之间的距离定义为其各座标数值差的最大值。以(x1,y1)和(x2,y2)二点为例,其切比雪夫距离为
max(|x2-x1|,|y2-y11)。切比雪夫距离得名自俄罗斯数学家切比雪夫。
切比雪夫距离也称为棋盘距离,国际象棋中,国王走一步能够移动到相邻的8个方格中的任意
一个,那么国王从格子A(x1,y1)走到格子B(x2,y2)最少需要多少步?你会发现最少步数总是
max{|x2-x1|,|y2-y1|}步。
两个n维向量A(x11,x12,…,x1n)与B(x21,x22,…,x2n)间的切比雪夫距离定义为:
D(A,B)=max{|x11-
x21|,|x12-x22|,…,|x1n-x2n|},该公式的另一种等价形式是:D(A,B)=[(x11-x21)Ak+(x12-
x22)Ak+...+(x1n-x2n)Ak]A(1/k),其中k趋向于无穷大。
4.闵氏距离(MinkowskiDistance)
闵可夫斯基距离:
P=(Ti,T2,T„)andQ=(如.诙,…,胡)G映”
闵可夫斯基距离(Minkowskidistance)是衡量数值点之间距离的一种非常常见的方法,假设
数值点P和Q坐标如下:
那么,闵可夫斯基距离定义为:
/n\1/P
凶….
闵氏距离不是一种距离,而是一组距离的定义。
该距离最常用的p是2和1,前者是欧几里得距离(Euclideandistance),后者是曼哈顿距
离(Manhattandistance)。假设在曼哈顿街区乘坐出租车从P点到Q点,白色表示高楼大
厦,灰色表示街道:
绿色的斜线表示欧几里得距离,在现实中是不可能的。其他三条折线表示了曼哈顿距离,这三
条折线的长度是相等的。
当p趋近于无穷大时,闵可夫斯基距离转化成切比雪夫距离(Chebyshevdistance):
我们知道平面上到原点欧几里得距离(p=2)为1的点所组成的形状是一个圆,当p取其他
数值的时候呢?
注意,当p<1时,闵可夫斯基距离不再符合三角形法则,举个例子:当p<1,(0,0)至U(1,1)
A
的距离等于(11){1/p}>2,而(0,1)到这两个点的距离都是10
闵可夫斯基距离比较直观,但是它与数据的分布无关,具有一定的局限性,如果x方向的幅值
远远大于y方向的值,这个距离公式就会过度放大x维度的作用。所以,在计算距离之前,
我们可能还需要对数据进行z-transform处理,即减去均值,除以标准差:
(\,/叫一出以一〃八
(力,协)T(•-)
。rOy
〃:该维度上的均值
。:该维度上的标准差
可以看到,上述处理开始体现数据的统计特性了。这种方法在假设数据各个维度不相关的情况
下利用数据分布的特性计算出不同的距离。如果维度相互之间数据相关(例如:身高较高的信
息很有可能会带来体重较重的信息,因为两者是有关联的),这时候就要用到马氏距离
(Mahalanobisdistance)了。
两个n维变量A(x11,x12,…,x1n)与B(x21,x22,…,x2n)间的闵氏距离定义为:D(A,B)=[|x11-
x21|Ap+|x12-x22|Ap+...+|x1n-x2n|ApF(1/p),其中p是一个可变参数。当p=1时为曼哈顿距离,
当p=2时为欧氏距
离,当p-8时为切比雪夫距离。
闵氏距离,包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点:(1)对各个分量的量
纲(Scale)没有区别对待。(2)未考虑各个分量的分布(期望,方差等)可能是不同的。
5.标准化欧氏距离(StandardizedEuclideanDistance)
标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进,其基本思想是先将数据对象的各
个分量都进行均值为不标准差为s的标准化,然后再计算欧式距离。
两个n维向量A(x11,x12,…,x1n)与B(x21,x22,…,x2n)的标准化欧氏距离定义为:
D(A,B)={[(x11-x21)/s1]A2+[(x12-x22)/s2]A2+...+[(x1n-x2n)/sn]A2}A0.5
6.马氏星巨离(Maha山nobisDistance)
马氏距离由印度统计学家马哈拉诺斯(P.C.Mahalanobis)提出,表示数据的协方差距离,与
欧式距离不同,它考虑了各指标之间相关性的干扰,而且不受各指标量纲的影响,但是它的缺
点是夸大了变化微小的变量的作用。
设A、B是从均值向量为5协方差阵为£的总体G中抽取的两个样本,A、B两点之间的马氏
距离定义为:D(A,B)=[(A-B)TZ-1(A-B)]A0.5,A与总体G的马氏距离定义为
D(A,G)=[(A-M)TZ-1(A-P)]A0.5O
当协方差矩阵E是单位矩阵(各个样本向量之间独立同分布),则马氏公式就转化为欧氏距离;
当协方差矩阵E是对角阵时,则马氏距离就转化为标准化欧式距离;
例1:已知两样本{(25,30,28,40,26),(30,45,32,41,30)},计算如下距离:
欧氏距离(18.8226)、曼哈顿距离(29)、切比雪夫距离(15)、闵氏距离(19.525/1.5)、
相关系数(0.667231)、夹角余弦(0.989811)、标准欧氏距离(3.263219、标准化时用样本
标准差)
例2:现有样本集为:{(1,2),(3,4),(4,6),(2,3),(3,5)},求两样本{(1,2),(2,3)}的马氏距离。
解:D.,.=-¥,.)但(¥,一为)
5=-^―x\L''L'2](该样本集为二维变量)
“一11^2/22_
当样本集为四维变量时有,
AiL[2△14
L?\工22/23L/
S=—X
14/33
n-An工33
Ai工42243
41=Z(储一储)2=Z才:一:(241)2,工22=Z(12-兄)2=-](Z*2)2
几=z(储一月)(/一月)=z七(T(Z储)x(z()
已知,n=5,=13,2莅=20,2或=39,E属=90,Z储4=59
32
=39--x13=5.2,L=90--x20=10,Z12=59--x13x20=7
Ai52255
1力」5.271.31.75'
SXAi
〃一1£12G」4[710.1.752.5
1.31.7513.3333-9.3333"
1.752.59.33336.9333
-9.3333-
Z)=(;—:x13.33332-1)0.5
D,.j=yl(Xi-X./S-\X,.-y
-9.33336.93333-2
13.3333'9,3333x1)05=1.605=1.264911
x
-9.33336.9333J\_1_
7.汉明距离(HammingDistance)
在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句
话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。
例如:1011101与例01001之间的汉明距离是2;"toned"与“roses”之间的汉明距离是3。
8.皮尔逊相关系数(PearsonCorrelationcoefficient)
相关公式:
(忑逐门-()()
covxn・二A-f-)-)二-2--x--sr
%可F-A〜3)J国:甲)一百20
为N灯一
力吃?_必疗、”,3_(^?F
P»A,S£二¥--
1葡
(E©\e浮立?)\
X?jJ
NQN
皮尔逊相关系数也称为简单相关系数,它是衡量随机变量X与丫相关程度的一种方法,相关系
数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与丫相关度越高,负值表示负相关,
正值表示正相关。
皮尔逊相关系数定义如下:r(X,Y)=Cov(X,Y)/[(D(X)A0.5)*(D(Y)A().5)]=E((X-EX)*(Y-EY))/
[(D(X)A0.5)*(D(Y)A0.5)]=[(X1-X_bar)(Y1-Y_bar)+(X2-X_bar)(Y2-Y_bar)+...+
(Xn-X_bar)(Yn-Y_bar)]/{[(X1-X_bar)A2+(X2-X_bar)A2+...(Xn-X_bar)]*[(Y1-
Y_bar)A2+(Y2-Y_bar)A2+...(Yn-Y_bar)]}A0.5o
Pearson相关系数要求参与计算的变量为服从双变量正态分布的连续型数据,并且仅适用于线
性相关的情况。另外,当极值对Pearson相关系数的影响非常大,因此在计算之前要首先进行
极值处理。
9.斯皮尔曼秩相关系数(SpearmanRankCorrelation)
与Pearson相关系数一样,它也可以反映两组变量联系的紧密程度,取值在-1到+1之间,计
算方法上也完全相同,不同的是它建立在秩次的基础之上,对原始变量的分布和样本容量的大
小不作要求,属于非参数统计方法,适用范围更广。
设R(R1,R2,…,Rn)表示X在(X1,X2,...,Xn)
中的秩,Q(Q1,Q2,...,Qn)表示丫在(丫1,Y2,...,Yn)中的秩,如果X和丫具有同步性,那么R
和Q也会表现出同步性,反之依然,将其代入
Pearson相关系数,就得到秩之间的一致性,也就是Spearman相关系数。考虑到
R1+R2+…Rn=Q1+Q2+…+Qn=n(n+1)/2,
R1A2+R2A2+...+RnA2=Q1A2+Q2A2+...+QnA2=n(n+1)
(2n+1)/6,Spearman相关系数可以定义为:r(X,Y)=1-6*[(R1-Q1)A2+(R2-Q2)A2+.(Rn-QnF2]
/[n(nA2-1)]
10.肯德尔秩相关系数(KendallRankCorrelation)
Kendall在本质设想方面与Spearman是一样的,它从两个变量是否协同一致的角度出发检验
两变量之间是否存在相关性。什么是协同?假设两
个变量X、丫有n对观察值(X1,Y1)(X2,丫2)…(Xn,丫n),如果凶-Xi)g-Yi)>0(j>i),称
(Xi,丫i)与(Xj,Yj)满足协同性(concordant),或者说变化方向一致。否则,不满足协同性。
全部数据共有n(n-1)/2对,如果用Nc表示同向数对的数目,Nd表示反向数对的数目,则Nc+Nd=
n(n-1)/2,Kendall相关系数由两者的平均差定义:(Nc-Nd)/[n(n-1)/2]。Kendall相关系数的取值
范围在-1到1之
间,当等于1时,表示两个随机变量拥有一致的等级相关性;当等于-1时,表示两个随机变量
拥有完全相反的等级相关性;当等于0时,表示两个随机变量是相互
独立的。
2P,4。,
T=-|~:T-1=—:7-1
|n(n-1)n(n-1)
举例:
假如我们设一组8人的身高和体重在那里A的人是最高的,第三重,等等:
PersonABCDEFGH
Rankby
12345678
Height
Rankby
34125786
Weight
我们看到,有一些相关的两个排名之间的相关性,可以使用肯德尔头系数,客观地衡量对应。
注意,A最高,但体重排名为3,比体重排名为4,5,6,7,8的重,贡献5个同序对,即AB,AE,AF,
AG,AH,同理,我们发现B、C、D、E、F、G、H分别贡献4、5、4、3、1、0、0个同序对,因此,
尸=5+4+5+4+3+1+0+0=22.
因而R=(88/56)-1=0.57。这一结果显示出强大的排名之间的规律,符合预期。
11.余弦相似度(CosineSimilarity)
几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中用这一概念来衡量样本向量之间
的差异。夹角余弦的取值范围为11,1]。夹角余弦越大表
示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角
余弦取最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。
两个n维样本向量A(x11,x12,…,x1n)和B(x21,x22,...,x2n)的夹角余弦定义为:cos0=
(A-B)/(|A|*|B|)
=(x11*x21+x12*x22+...X1n*X2n)/[(x11A2+x12"2+…+x1nA2)A0.5*
(x21A2+x22A2+...+x2nA2)A0.5],夹角余弦经常应用于像文档这样的稀疏数据,它变量的长度无
关,如向量(1,2)和(2,4)的夹
角余弦与向量(1,2)和(10,20)的相等。
欧氏距离是最常见的距离度量,而余弦相似度则是最常见的相似度度量,很多的距离度量和相
似度度量都是基于这两者的变形和衍生,所以下面重点比较下两者在衡量个体差异时实现方式
和应用环境上的区别。
借助三维坐标系来看下欧氏距离和余弦相似度的区别:
从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体
特征维度的数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是体现在方向上
的差异,而不是位置。如果保持A点的位置不变,B点朝原方向远离坐标轴原点,那么这个时
候余弦相似度cose是保持不变的,因为夹角不变,而A、B两点的距离显然在发生改变,这就
是欧氏距离和余弦相似度的不同之处。
根据欧氏距离和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:欧
氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异
的分析,如使用用户行为指标分析用户价值的相似度或差异;而余弦相似度更多的是从方向上
区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分用户兴趣的相似度
和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不
敏感)。
12.调整余弦相似度(AdjustedCosineSimilarity)
余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。因此没法衡量每个维数值的
差异,会导致这样一个情况:比如用户对内容评分,5分制,X
和丫两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得出的结果是0.98,两者
极为相似,但从评分上看X似乎不喜欢这2个内容,
而丫比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,需要修正这种不合理性。
调整余弦相似度,将所有维度上的数值都减去一个均值,比如X和丫的评分均值都是3,那么
调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显然
更加符合现实。
13.简单匹配系数(SimpleMatchingCoefficient,SMC)
设A、B是两个二元属性组成的对象,这两个对象的比较导致如下四个频率变量:f00:A取0
并且B取。属性的个数;f01:A取0并且B取1属性的个数;f10:A取1并且B取。属性的
个数;f11:A取1并且B取1属性的个数。
那么SMC就是两个对象A、B属性值匹配的属性个数与所有属性个数的比值,即
SMC(A,B)=(f11+fOO)/(fO1+f10+f11+f00)
14.Jaccard系数(JaccardCoefficient)
当数据对象的二元属性是非对称的时,例如用1表示商品被购买,用0表示商品未被购买。由
于未被购买的商品数远远大于被购买的商品数,因此,如果用SMC计算数据对象的相似度,
其结果必然是所有的数据对象都是相似的。
Jaccard系数可以处理仅包含非对称二元属性的对象,它是匹配属性的个数与不涉及0-0匹配
的属性个数的比值,即J(A,B)=f11/(f01+f10+f11)o
15.广义Jaccard系数(ExtendedTanimotoCoefficient)
广义Jaccard系数又称为Tanimoto系数,常常用于文档数据,并在二元属性情况下规约为
Jaccard系数。
该系数用EJ表示,定义如下:EJ(A,B)=(A-B)/(|A|*|A|+|B|*|B|-
AB)=(x11*x21+x12*x22+...+x1n*x2n)/[(x11A2+x12A+...x1nA2)+(x21A2+x22A2+...+x2nA2)-(x
11*x21+x12*x22+...+x1n*x2n)]
第二章EXCEL基础
一、EXCEL绝对和相对单元格操作
二、EXCEL常用函数
三、EXCEL在数据挖掘算法中的运用
四、EXCEL在线练习(单选和判断题)
链接:htlp://www.galaxyslalislics.com/sjfxsTK/mypa.slExcel.html
第三章KNN算法
地理学第一定律(Tobler'sFirstLaw)-k近邻(KNN)等数据挖掘方法理论基础:
Allattributevaluesonageographicsurfacearerelatedtoeachother,butcloservaluesaremorestrongly
relatedthanaremoredistantones.
涵义:地理事物或属性在空间分布上互为相关,存在集聚(clustering)、随机(random)、规则(RegulaHty)分布。
一个空间单元内的信息与其周围单元信息有相似性,空间单元之间具有的连通性,属性各阶矩的空间非均
匀性或非静态性。空间分布模式主要有点模式、线模式、面模式和体模式,其中最早被提出和研究的是点模
式(pointpattern)»点模式分析的理论最早由Ripley(1977)提出,并不断得到完善(Haase,1995;Dixon,
2002)。目前应用领域最广的面模式——空间自相关。空间因素表现在「空间自相关」(SpatialAuto-correlation)
与I■空间异质」两个概念上,空间自相关是认为「邻近地区的影响」(neighborhoodeffect)的大小,空间异
质旌指空间位置差异造成的观察行为不恒定现象。例如在某个区域之中,存在著不同的次区域,各区域间误
差的变异不相等。举例说明:犯罪率与教育程度的关系,不同地区(文教区、贫困区)可能不一样,此即空间
异质现象。基本上,人的行为表现受到所处环境或周遭环境的影响非常明显,空间分析学者尝萧结合日益成
熟的电脑科技GIS、空间计量方法、以及大型资料库,目的在精确地界定空间因素的重要性及影响力:到底
是哪一种「空间因素」产生影响?影响有多大?如何建立模型?解释自变数与因变数间的关系。
KNearestNeighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法,总体来说KNN算法
是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法不同的是,
K-Means算法用来聚类,用来判断哪些东西是一个比较相近的类型,而KNN算法是用来做归类的,也就是说,
有一个样本空间里的样本分成很儿个类型,然后,给定一个待分类的数据,通过计算接近自己最近的K个样
本来判断这个待分类数据属于哪个分类。你可以简单的理解为由那离自己最近的K个点来投票决定待分类数
据归为哪一类。
一个比较经典的KNN图如下:
从上图中我们可以看到,图中的有两个类型的样本数据,一类是蓝色的正方形,另一类是红色的三角形。而
那个绿色的圆形是我们待分类的数据•
如果K=3,那么离绿色点最近的有2个红色三角形和1个蓝色的正方形,这3个点投票,于是绿色的这个待
分类点属于红色的三角形。
如果K=5,那么离绿色点最近的有2个红色三角形和3个蓝色的正方形,这5个点投票,于是绿色的这个待
分类点属于蓝色的正方形。
我们可以看到,机器学习的本质一一是基于一种数据统计的方法!那么,这个算法有什么用呢?我们来看几
个示例。
>KNN分类
产品质量判断假设我们需要判断纸巾的品质好坏,纸巾的品质好坏可以抽像出两个向量,一个是“酸腐蚀的
时间”,一个是“能承受的压强”。如果我们的样本空间如下:(所谓样本空间,又叫TrainingData,也就是用
于机器学习的数据)
向量XI向量X2
品质Y
耐酸时间(秒)庄强(公斤/平方米)
77坏
74坏
34好
14好
那么,如果XI=3和X2=7,这个毛巾的品质是什么呢?这里就可以用到KNN算法来判断
了。
假设K=3,K应该是一个奇数,这样可以保证不会有平票,下面是我们计算(3,7)到所有点的
距离。
向量XI向量X2
计算到(3,7)的距离向量Y
耐酸时间(秒)庄强(公斤/平方米)
77(7—3、+(7-7)3=16坏
74^-3)3+(4-7),2=25N/A
34。-松-7y=g好
14好
所以,最后的投票,好的有2票,坏的有1票,最终需要测试的(3,7)是合格品。(当然,你还可以使用
权重——可以把距离值做为权重,越近的权重越大,这样可能会更准确一些)
>KNN预测
假设我们有下面一组数据,假设X是流逝的秒数,Y值是随时间变换的一个数值(你可以想像是股票值)
那么,当时间是6.5秒的时候,Y值会是多少呢?我们可以用KNN算法来预测之。
这里,让我们假设K=2,于是我们可以计算所有X点到6.5的距离,如:X=5.1,距离是|6.5-5.1|=1.4,
X=1.2那么距离是|6.5-1.2|=5.3。于是我们得到下面的表:
XYX间距离
1235.5
1.2175.3
3.2123.3
4272.5
5.181.4
6.5?
K_________Y预测值
2—17.5
3|15.66667
注意,上图中因为K=2,所以得到X=4和X=5.1的点最近,得到的Y的值分别为27和8,在这种情况下,
我们可以简单的使用平均值来计算:(27+8)/2=17.5。
第四章聚类分析(最短距离法)
一、什么是聚类分析
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就
是指相似元素的集合。严格的数学定义是较麻烦的,在不同问题中类的定义是不同的。详见参考文献⑴。
聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术
和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进
行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值
分类学。后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。
在社会经济领域中存在着大量分类问题,比如对我国30个省市自治区独立核算工业企业经济效益进行
分析,一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固
定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标
对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。
又比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食
品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。
总之,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越受到人们的重视,它在许多领域中都
得到了广泛的应用。
值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更
好。
聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚
类预报法等。本章主要介绍常用的系统聚类法。
二、八种系统聚类方法
正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。例如可以定义类与
类之间的距离为两类之间最近样品的距离,或者定义为两类之间最远样品的距离,也可以定义为两类重心之
间的距离等等。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。本节介绍常用的八种系
统聚类方法,即最短距离
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030图瓦卢水产养殖产业链供需平衡优化及食品出口产业发展策略研究报告
- 2025-2030品牌文化构建方式对市场竞争力的影响及实践方法探讨
- 2026届广东省揭阳市华侨高级中学生物高一上期末经典模拟试题含解析
- 安徽省安庆市市示范中学2026届生物高三上期末教学质量检测模拟试题含解析
- 2026届吉林省示范名校高一数学第一学期期末复习检测模拟试题含解析
- 2026届湖南省衡阳市重点中学高二上生物期末综合测试模拟试题含解析
- 2026届江苏省滨海县生物高三上期末质量检测试题含解析
- 安徽省长丰锦弘学校2026届英语高三上期末检测模拟试题含解析
- 2026年温室气体核查员基础认证题含答案
- 2026年互联网营销岗位市场营销学综合能力测评练习题及答案
- 《装饰装修工程》课件
- 2025年浙江杭州市水务集团有限公司招聘笔试参考题库含答案解析
- 医学伦理与伦理伦理
- 《医疗机构胰岛素安全使用管理规范》
- 华师福建 八下 数学 第18章 平行四边形《平行四边形的判定 第1课时 用边的关系判定平行四边形》课件
- 特殊作业安全管理监护人专项培训课件
- 电梯日管控、周排查、月调度内容表格
- 人教版三年级上册《生命-生态-安全》全册教案(及计划)
- 电能表修校工(高级技师)技能认证理论考试总题及答案
- 长塘水库工程环评报告书
- 工程建设公司QC小组提高型钢混凝土柱预埋地脚螺栓一次施工合格率成果汇报书
评论
0/150
提交评论