心理测量中的数据挖掘 PPT课件

上传人：优*** IP属地：广东上传时间：2020-07-16 格式：PPT 页数：109 大小：1.07MB 积分：88 举报 版权申诉

已阅读5页，还剩104页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、1,心理测量中的数据挖掘关联规则和决策树,余嘉元,目录,2013.5,数据挖掘技术概述,关联规则,2,决策树,3,来华留学生跨文化适应性测量的数据挖掘,4,我最喜欢的人之一：戴海琦老师中国心理测量的领军人物之一。我最害怕的人之一：戴海琦老师我总是跟不上他豪迈的步伐！,1、数据挖掘技术概述,1.1 数据挖掘概念现代社会，充满了数据但并非所有数据都是完全的许多数据还受到随机因素的影响例如奥巴马、金正恩、禽流感人们希望从数据中找到有规律的知识这就是数据挖掘。,1989年，从数据库中发现知识(KDD) 从大量的、不完全的、有噪声的数据中发现隐含在数据中的关系，提取具有价值、

2、能被理解的知识的过程。,前提条件：数据必须是真实的、大量的、含噪声的发现的是研究者感兴趣的知识；发现的知识要可接受、可理解、可运用。它是针对特定问题的，并不要求发现放之四海皆准的知识。,数据挖掘（Data Mining）是知识发现中最核心的部分，有时会不加区别的使用“数据挖掘” 和“知识发现”这两个词。,数据挖掘技术涉及到人工智能、数据库、统计学、模式识别、信息检索等多学科，是一门交叉性的学科。,数据挖掘的任务：数据总结：对数据进行压缩；分类和预测：建立一个分类函数或分类模型；发现关联规则：从数据库中发现那些置信度(Confidence ) 和支持度(Suppo

3、rt )都大于给定值的稳健(Robust) 规则；,聚类分析：使得属于同一个类别的个体之间的距离尽可能小，而使不同类别个体之间的距离尽可能大，把一组个体按照相似性进行归类；以及孤立点分析、演变分析等任务。,1.2 数据挖掘的方法（1）分类方法：决策树前馈神经网络（BP网络、RBF网络）基于规则的方法（AQ算法、C4.5rule）支持向量机贝叶斯分类粗糙集,（2）聚类方法划分聚类（k-means算法）层次聚类基于密度的聚类 Kohonen聚类（自组织特征映射）,（3）关联分析频繁项集挖掘算法（Apriori算法）关联规则生成算法,1.3 数据挖掘过程（1）数

4、据准备数据选择、数据预处理及数据类型转换其中的数据预处理工作至关重要，也称为数据清洗，目的是消除或减少噪声。,包括数据清理、合并、离散化等。数据清理主要是删除重复记录的数据，查找错误的属性值，利用均值等方式填补缺失值，识别和删除孤立点，平滑噪声数据（脏数据）。,数据离散化主要是将连续性质的属性值采用区间的标记来替代实际的数据值，即用区间标记替换连续属性的数值。,（2）选择算法根据数据挖掘的目的，如数据分类、聚类、关联规则发现等，选择相应的挖掘算法。,（3）对模式进行评估对于冗余或无关的模式进行剔除；对于不满足实际要求的模式，返回到前面的阶段，重新选择数据、

5、采用新的数据变换方法、设定新的参数值，甚至变换挖掘算法等。,2、关联规则,为了考察两个变量线性相关的密切程度，通常采用相关系数对变量间关系进行度量。关联规则比相关系数能够得到更多信息，可以量化相互关系中两者的出现概率，以及前者出现对后者出现的影响率。,即一个事件的出现时，另一事件出现的概率有多大，如果概率较大，则前后两者的关系接近因果关系，因此比相关分析的结果更有意义。,相关系数的缺点：作为线性关联的度量，不便于描述非线性关系，且非线性关系与变量分布有关，计算方法也不同。,对于不同类型的数据，需要采用不同的相关系数。等距变量：Pearson相关系数；两个等级变量

6、：Spearman相关系数多个等级变量：Kendall和谐系数。采用不同方法得到的相关系数无法比较，关联规则可以在一定程度上解决该问题。,2.1 关联规则方法的基本概念关联规则是由Agrawal(1993) 提出，最初提出的动机是针对购物篮分析问题，目的是从交易数据库中发现顾客购物的行为规则。,关联是指两个或多个变量的取值之间存在某种规律性，关联规则是描述两个或多个变量之间某种潜在关系的规则。,实例：超市每周的交易记录称为事务，每一条事务都记录了一次交易中所销售的商品（称为项目）。因此管理者可了解本周各项目的销售量，还可发现哪些项目经常被顾客同时购买。,表1 样本数据D,

7、定义：项目全集 I = i1, i2, im ，是本周销售的所有项目的集合，在本例中，I=啤酒，果冻，面包，奶油，花生酱。,定义：事务t是某个客户在一次交易中所购项目的集合，并且t I，在本例中，t1=面包，果冻，花生酱。对应每一个事务有唯一的标识，记作tid。,定义：事务集（事务数据库） D=t1,t2,tn是一系列的事务组成。定义：项目集是包含若干个项目的集合。定义：项目集维数是一个项目集中包含的项目的个数，也称为项目集长度。对于长度为k的项目集，称为k-项目集。,支持度（support）：设X是I中的一个项目集（即X I）， D是一个事务集，那么称D中包含项目集X的事

8、务个数与D中总的事务个数之比称为 X在D中的支持度，记做support (X)， support (X)=,支持度用于发现频率出现较大的项目集，即“某个项目集相对总事务所占的比重”。在本例中，假设项目集X=面包，花生酱，则在D中包含X的事务有t1，t2和t3，因为D中总的事务个数为5，故X在D中的支持度为60%。,定义：最小支持度（minsup）：由用户定义的可以接受的支持度的阈值。定义：对于项目集X，如果它的支持度不小于最小支持度，则称X为频繁项目集。,只有从频繁项目集得到的关联规则才是有价值的。在本例中，假设minsup=40%，项目集X=面包，花生酱在D中的支持

9、度为60%，因此X是频繁项目集。,置信度（confidence）：对于关联规则XY，其中X和Y都是项目集，定义该规则的置信度为事务集合D中既包含X也包含Y的事务个数与D中包含X的事务个数之比，即项目集XY的支持度与X的支持度之比。,置信度应用于在频繁项目集中发现频率较大的规则。,在本例中，项目集X=面包，花生酱是频繁项目集，因此可以在其中寻找关联规则 “面包花生酱”和“花生酱面包”。,对于规则“面包花生酱”， Support（XY）=3/5=60%， Support（X）=4/5=80%，于是Confidence（XY）=60%/80%=6/8=3/4=0.75%，它表示

10、这条规则的可信度，即“买面包的顾客中有75%同时也买了花生酱”。,对于规则“花生酱面包”， Support（XY）=3/5=60%， Support（X）=3/5=60%， Confidence（XY）=60%/60%=100%，它表示这条规则的可信度，即“买花生酱的顾客中100%同时也买了面包”。,最小置信度：用户定义的一个置信度阈值，表示对于规则可以接受的最低可靠性。,给定一个事务集D，挖掘关联规则就是产生支持度和置信度分别大于用户给定的最小支持度和最小置信度的关联规则。支持度用于衡量关联规则在整个数据集中的统计重要性，置信度用于衡量关联规则的可信度。,2.2 关联规则挖掘过程

11、（1）挖掘频繁项目集依据用户给定的最小支持度，寻找所有的频繁项目集。,（2）生成关联规则使用频繁项目集生成置信度大于等于最小置信度的关联规则。上述步骤（2）比较简单，而步骤（1）是一个NP问题，当项目数量较大时，要穷尽地搜索每一个频繁子集，是非常困难的问题，因此提出了许多算法。,2.3 频繁项集挖掘算法 Apriori算法：Agrawal（1994）提出，它使用宽度优先的迭代搜索方法。,首先是统计所有含一个元素的项集出现的频率，找出频繁1-项集集合F1，再用F1找频繁2-项集集合F2，再用F2找F3，依次循环，直到不能找到频繁k -项集为止。,算法的核心部分是 apriori_gen

12、( Fk-1 ) 函数，该函数的输入参数为(k-1) -项集集合Fk-1，输出结果为候选k-项集集合Ck。扫描数据库并计算Ck中候选k-项集的支持度。,3、决策树,3.1 数据分类数据分类是从过去已分类的数据经验中学习各个类别的区别，建立模型，或者对未知类别的数据进行分类。决策树是一种重要的分类方法。,3.2.1 决策树的概念决策树是以实例为基础的归纳学习算法，采用自顶而下的递归方式，从根结点的每一条路径就是一条合取规则，整个决策树就是一组析取表达式规则。,决策树由决策结点、分支和叶子组成，以树型结构（二叉树或多分支树）表示最终分类结果，生成If-Then形式的规则。

13、其中叶结点是类名，中间结点是带有分支的属性，该分支对应该属性的某一可能值。,多分支树二叉树,表2 顾客购买计算机的数据库,决策树的核心思想是根据对象的属性值将其进行划分，那么选择哪一个属性进行划分？接着再选择哪一个属性进行划分？因为任何一个属性都可以用来对数据集进行划分，但最后形成的决策树差异很大，有的非常简洁，有的却很臃肿。因此要寻找最优的属性选择方法。,3.2.2 分类回归树（CART）的构造 CART（Classification and Regression Tree）是一种有监督的学习算法，在使用CART 进行预测之前，必须先提供一个学习样本集对CART进行建构和

14、评估，然后才能使用。,样本集结构如下： L: = X1 , X2 , , Xm , Y X1: = ( x11 , x 12 , , x 1t ), , ( xm1, xm2 , , xmt ) Y: = ( y1 , y2 , , yk ) 其中， X1 Xm 称为属性向量， Y 称为标签向量，属性可以是连续的也可以是离散的。 X1 Xm 代表心理测量中的自变量， Y 代表因变量。,根据给定的样本集L 构建分类决策树Tmax，使得Tmax中每一个叶节点要么很小；要么是纯节点（节点内部样本的Y 属于同一个类）；要么只有唯一属性向量作为分支选择。,该算法的核心是确定决策树的分支准则：如何从

15、众多的输入变量中选择一个最佳的分组变量；如何从分组变量的众多取值中找到一个最佳的分割阈值。,该算法引入了差异系数的概念，即采用Gini系数计算从相同的总体中随机选择的两个样本来自于不同类别的概率，它反映了信息的纯度。,式中： c 是数据集/子集Dj 中决策类的个数， pi 是第 i 个决策类在 D 中的比例。,在本例中，对于数据集D，它的Gini系数为：,对于任意一个属性，如果将数据集划分成多个数据子集，把未进行划分时的数据集的Gini系数与划分后数据子集的Gini系数加权和的差称为信息增益G（A）：,其中，A是候选属性，k是该属性的分支数； D是未使用A进行划分时的数据集， Gi

16、ni（D）是数据集D的Gini系数， Dj是由A划分而成的子数据集。在所有属性中信息增益G (A)为最大的属性就选为当前进行划分的结点。,在本例中，如果根据年龄来划分，可以分为3个子集，它们的Gini系数分别为,于是可计算属性“年龄”的信息增益为：,采用类似的方法，可以计算属性“学生”的信息增益为：,采用类似的方法，还可以计算属性“收入”、“信用等级”的信息增益，然后从所有属性中找到信息增益最大的属性，将它作为划分的对象。,3.2.4决策树的剪枝如果建立的决策树的构造过于复杂，则对应的知识规则将是难以理解和应用的，因此对于决策树的建立，不仅需要考虑分类的正确性，还要考虑决策树的复

17、杂程度，即在保证一定的分类正确率条件下，决策树越简单越好。,最常用的决策树简化方法就是剪枝，包括预剪枝与后剪枝。预剪枝是预先设定某一相关阈值，决策树达到该阈值后就停止树的生长。该方法比较简单，但预先指定阈值相当困难。,后剪枝是对已经建立的决策树以一定的标准进行剪枝，使决策树得以简化，但仍具有一定的分类正确率。 CART算法采用后剪枝法。,具体方法为：针对未经剪枝的决策树T，运用算法将其某一个或几个子树删除，得到新的决策树 j，然后对于多种不同剪枝的结果 j进行比较，找出最好的剪枝形式。,剪枝过程中删除的子树将用叶结点代替，这个叶结点所属的类用这棵子树中大多数训练实例所属的类来代

18、替。,4、来华留学生跨文化适应性测量的数据挖掘,我们通过问卷调查得到学校环境影响因素、社会文化影响因素、个性心理特征与适应性水平的数据。,适应性和影响因素的关系：关联规则方法；根据适应性对留学生分类：决策树方法。,4.1关联规则提取 4.1.1数据准备与参数设定对于来华留学生跨文化适应性的影响因素包括四方面21项：,人口统计学因素：（1）按文化圈分类的留学生国籍（2）按GDP分类的留学生国籍（3）所在地（4）性别（5）年龄（6）汉语水平（7）学生类别（8）所学专业（9）已来华时间（10）来华前已学汉语的时间（11）留学生来华前对华了解（12）来华经费；,学校环

19、境影响因素：（1）教师形象（2）教学管理（3）食堂环境（4）学习条件；社会文化影响因素：（1）服务模式（2）公德意识；个性心理特征：（1）外向性（2）灵活性（3）独立性。,适应性水平则包括三个维度：社会文化适应、心理适应、校园适应。参与数据挖掘的有效被试数目是651人。,首先进行数据预处理，将被试在各道题目上的分数离散化。在问卷中，学校环境影响因素、社会文化影响因素、个性心理特征以及适应性水平各维度都是由多道题目进行测量，而后各自获得总分。,计算每个影响因素的均分，将被试分数大于等于均分的项目设置为1，表示留学生认同题目所描述的情形；小于均分的项目设置为2，表示留学生不

20、认同题目所描述的情形。在适应性水平上也做同样设置， 1和2分别表示适应和不适应。,运用软件WEKA实现频繁多项集的挖掘，设置最小支持度“minsup”不低于0.1，最小置信度“minconf ”不低于0.6。,4.1.2频繁2-项集规则提取与解释研究的维度：学校环境影响因素、社会文化影响、个性心理特征、适应性水平，人口统计学因素，共计有21个变量。,由于各个变量又分为不同水平，总计有96个水平，如果两两组合， 96*95=9120个关系，可以得到9120条关联规则。,我们设置了不同的支持度和置信度，进行了13次实验，共获得524个频繁2-项集规则，还不到9120条规

21、则的6%。,表3 频繁2-项集挖掘的Apriori算法实现,决策变量：总适应性社会文化适应、心理适应、校园适应。按照CART的二叉树构建原理，根节点包含所有样本，然后分割为两个子节点，这个过程在子节点上重复进行。,在实现分类回归树算法时，将Gini系数的最小变化值设置为0.0001。采用“最小代价复杂度”方法剪枝。将复杂度参数设置为1，并采用10层交叉验证模型识别正确分类数与正确率。,4.2.2 CART模型建立对留学生总体适应性、社会文化适应、心理适应和校园适应分别建立CART模型，经决策树的建立和剪枝得到四个分类树。,图2 总适应水平决策树,图3 社会文化适应水平决

22、策树,图4 心理适应水平决策树,图5 校园适应水平决策树,4.2.3 分类规则提取与解释决策树得出的分类规则用 If-Then 的形式表述，从根结点到每个叶子结点的一条路径就是一条分类规则。,从决策树的根结点开始沿着一条路径所形成的属性与属性值的合取项就构成了If 部分，叶子结点所标记的类别就构成了规则的 Then 部分，即规则的结论。,本研究产生了29个叶子结点，即29条分类规则。以适应性总分为例，列举其产生的八条规则。,规则1： IF 留学生对服务模式的态度=“认同” AND 留学生性格外向=“是” AND 对教学管理的态度=“不认同” THEN 总适应(60.0%)=“适应”。,规则2： IF 留学生对服务模式的态度=“认同” AND 留学生性格外向=“是” AND 对教学管理的态度=“认同” AND 对公德意识的态度=“认同” THEN 总适应(86.3%)=“适应”。,规则3： IF 留学生对服务模式的态度=“认同” AND 留学生性格外向=“是” AND 对教学管理的态度=“认同” AND 对公德意识的态度=“不认同” THEN 总适应

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

心理测量中的数据挖掘 PPT课件

文档简介

温馨提示

最新文档

评论

心理测量中的数据挖掘 PPT课件

文档简介

温馨提示

最新文档

评论

相关文档