版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1,心理测量中的数据挖掘 关联规则和决策树,余嘉元,目录,2013.5,数据挖掘技术概述,关联规则,2,决策树,3,来华留学生跨文化 适应性测量的数据挖掘,4,我最喜欢的人之一:戴海琦老师 中国心理测量的领军人物之一。 我最害怕的人之一:戴海琦老师 我总是跟不上他豪迈的步伐!,1、 数据挖掘技术概述,1.1 数据挖掘概念 现代社会,充满了数据 但并非所有数据都是完全的 许多数据还受到随机因素的影响 例如奥巴马、金正恩、禽流感 人们希望从数据中找到有规律的知识 这就是数据挖掘。,1989年,从数据库中发现知识(KDD) 从大量的、不完全的、有噪声的数据中 发现隐含在数据中的关系, 提取具有价值、
2、能被理解的知识的过程。,前提条件: 数据必须是真实的、大量的、含噪声的 发现的是研究者感兴趣的知识; 发现的知识要可接受、可理解、可运用。 它是针对特定问题的, 并不要求发现放之四海皆准的知识。,数据挖掘(Data Mining) 是知识发现中最核心的部分, 有时会不加区别的使用“数据挖掘” 和“知识发现”这两个词。,数据挖掘技术涉及到 人工智能、数据库、 统计学、模式识别、 信息检索等多学科, 是一门交叉性的学科。,数据挖掘的任务: 数据总结:对数据进行压缩; 分类和预测: 建立一个分类函数或分类模型; 发现关联规则:从数据库中发现 那些置信度(Confidence ) 和支持度(Suppo
3、rt )都 大于给定值的稳健(Robust) 规则;,聚类分析: 使得属于同一个类别的个体之间 的距离尽可能小, 而使不同类别个体之间的距离尽可能大, 把一组个体按照相似性进行归类; 以及孤立点分析、演变分析等任务。,1.2 数据挖掘的方法 (1)分类方法: 决策树 前馈神经网络(BP网络、RBF网络) 基于规则的方法(AQ算法、C4.5rule) 支持向量机 贝叶斯分类 粗糙集,(2)聚类方法 划分聚类(k-means算法) 层次聚类 基于密度的聚类 Kohonen聚类(自组织特征映射),(3)关联分析 频繁项集挖掘算法(Apriori算法) 关联规则生成算法,1.3 数据挖掘过程 (1)数
4、据准备 数据选择、数据预处理及数据类型转换 其中的数据预处理工作至关重要, 也称为数据清洗, 目的是消除或减少噪声。,包括数据清理、合并、离散化等。 数据清理主要是删除重复记录的数据, 查找错误的属性值, 利用均值等方式填补缺失值, 识别和删除孤立点, 平滑噪声数据(脏数据)。,数据离散化主要是 将连续性质的属性值 采用区间的标记来替代实际的数据值, 即用区间标记替换连续属性的数值。,(2)选择算法 根据数据挖掘的目的, 如数据分类、聚类、关联规则发现等, 选择相应的挖掘算法。,(3)对模式进行评估 对于冗余或无关的模式进行剔除; 对于不满足实际要求的模式, 返回到前面的阶段, 重新选择数据、
5、采用新的数据变换方法、 设定新的参数值,甚至变换挖掘算法等。,2、关联规则,为了考察两个变量线性相关的密切程度, 通常采用相关系数对变量间关系进行度量。 关联规则比相关系数能够得到更多信息, 可以量化相互关系中两者的出现概率, 以及前者出现对后者出现的影响率。,即一个事件的出现时, 另一事件出现的概率有多大, 如果概率较大, 则前后两者的关系接近因果关系, 因此比相关分析的结果更有意义。,相关系数的缺点: 作为线性关联的度量, 不便于描述非线性关系, 且非线性关系与变量分布有关, 计算方法也不同。,对于不同类型的数据, 需要采用不同的相关系数。 等距变量:Pearson相关系数; 两个等级变量
6、:Spearman相关系数 多个等级变量:Kendall和谐系数。 采用不同方法得到的相关系数无法比较, 关联规则可以在一定程度上解决该问题。,2.1 关联规则方法的基本概念 关联规则是由Agrawal(1993) 提出, 最初提出的动机是针对购物篮分析问题, 目的是从交易数据库中 发现顾客购物的行为规则。,关联是指两个或多个变量的取值之间存在某种规律性, 关联规则是描述两个或多个变量之间某种潜在关系的规则。,实例: 超市每周的交易记录称为事务, 每一条事务都记录了一次交易中所销售的商品(称为项目)。 因此管理者可了解本周各项目的销售量,还可发现哪些项目经常被顾客同时购买。,表1 样本数据D,
7、定义:项目全集 I = i1, i2, im ,是本周销售的所有项目的集合, 在本例中,I=啤酒,果冻,面包,奶油,花生酱。,定义:事务t是某个客户在一次 交易中所购项目的集合,并且t I, 在本例中,t1=面包,果冻,花生酱。 对应每一个事务有唯一的标识,记作tid。,定义:事务集(事务数据库) D=t1,t2,tn是一系列的事务组成。 定义:项目集是包含若干个项目的集合。 定义:项目集维数是一个项目集中 包含的项目的个数,也称为项目集长度。 对于长度为k的项目集,称为k-项目集。,支持度(support): 设X是I中的一个项目集(即X I), D是一个事务集,那么称D中包含项目集X的 事
8、务个数与D中总的事务个数之比称为 X在D中的支持度,记做support (X), support (X)=,支持度用于发现频率出现较大的项目集, 即“某个项目集相对总事务所占的比重”。 在本例中,假设项目集X=面包,花生酱, 则在D中包含X的事务有t1,t2和t3, 因为D中总的事务个数为5, 故X在D中的支持度为60%。,定义:最小支持度(minsup): 由用户定义的可以接受的支持度的阈值。 定义:对于项目集X, 如果它的支持度不小于最小支持度, 则称X为频繁项目集。,只有从频繁项目集得到的 关联规则才是有价值的。 在本例中,假设minsup=40%, 项目集X=面包,花生酱在D中 的支持
9、度为60%, 因此X是频繁项目集。,置信度(confidence): 对于关联规则XY, 其中X和Y都是项目集, 定义该规则的置信度为事务集合D中 既包含X也包含Y的事务个数 与D中包含X的事务个数之比, 即项目集XY的支持度与X的支持度之比。,置信度应用于在频繁项目集中发现频率较大的规则。,在本例中,项目集X=面包,花生酱 是频繁项目集, 因此可以在其中寻找关联规则 “面包花生酱”和“花生酱面包”。,对于规则“面包花生酱”, Support(XY)=3/5=60%, Support(X)=4/5=80%, 于是Confidence(XY)=60%/80%=6/8=3/4=0.75%, 它表示
10、这条规则的可信度,即“买面包的顾客中有75%同时也买了花生酱”。,对于规则“花生酱面包”, Support(XY)=3/5=60%, Support(X)=3/5=60%, Confidence(XY)=60%/60%=100%, 它表示这条规则的可信度,即“买花生酱的顾客中100%同时也买了面包”。,最小置信度: 用户定义的一个置信度阈值, 表示对于规则可以接受的最低可靠性。,给定一个事务集D,挖掘关联规则就是产生支持度和置信度分别大于用户给定的最小支持度和最小置信度的关联规则。 支持度用于衡量关联规则在整个数据集中的统计重要性, 置信度用于衡量关联规则的可信度。,2.2 关联规则挖掘过程
11、(1)挖掘频繁项目集 依据用户给定的最小支持度,寻找所有的频繁项目集。,(2)生成关联规则 使用频繁项目集生成置信度大于等于最小置信度的关联规则。 上述步骤(2)比较简单,而步骤(1)是一个NP问题,当项目数量较大时,要穷尽地搜索每一个频繁子集,是非常困难的问题,因此提出了许多算法。,2.3 频繁项集挖掘算法 Apriori算法:Agrawal(1994)提出,它使用宽度优先的迭代搜索方法。,首先是统计所有含一个元素的项集出现的频率,找出频繁1-项集集合F1, 再用F1找频繁2-项集集合F2, 再用F2找F3,依次循环,直到不能找到频繁k -项集为止。,算法的核心部分是 apriori_gen
12、( Fk-1 ) 函数, 该函数的输入参数为(k-1) -项集集合Fk-1,输出结果为候选k-项集集合Ck。 扫描数据库并计算Ck中 候选k-项集的支持度。,3、 决策树,3.1 数据分类 数据分类是从过去已分类的数据经验中 学习各个类别的区别,建立模型,或者 对未知类别的数据进行分类。 决策树是一种重要的分类方法。,3.2.1 决策树的概念 决策树是以实例为基础的归纳学习算法, 采用自顶而下的递归方式, 从根结点的每一条路径就是一条合取规则,整个决策树就是一组析取表达式规则。,决策树由决策结点、分支和叶子组成, 以树型结构(二叉树或多分支树)表示 最终分类结果,生成If-Then形式的规则。
13、 其中叶结点是类名,中间结点是带有分支的属性, 该分支对应该属性的某一可能值。,多分支树 二叉树,表2 顾客购买计算机的数据库,决策树的核心思想 是根据对象的属性值将其进行划分, 那么选择哪一个属性进行划分? 接着再选择哪一个属性进行划分? 因为任何一个属性都可以用来对数据集进行划分,但最后形成的决策树差异很大,有的非常简洁,有的却很臃肿。 因此要寻找最优的属性选择方法。,3.2.2 分类回归树(CART)的构造 CART(Classification and Regression Tree)是一种有监督的学习算法, 在使用CART 进行预测之前, 必须先提供一个学习样本集对CART进行建构和
14、评估,然后才能使用。,样本集结构如下: L: = X1 , X2 , , Xm , Y X1: = ( x11 , x 12 , , x 1t ), , ( xm1, xm2 , , xmt ) Y: = ( y1 , y2 , , yk ) 其中, X1 Xm 称为属性向量, Y 称为标签向量, 属性可以是连续的也可以是离散的。 X1 Xm 代表心理测量中的自变量, Y 代表因变量。,根据给定的样本集L 构建分类决策树Tmax,使得Tmax中每一个叶节点要么很小; 要么是纯节点(节点内部样本的Y 属于同一个类); 要么只有唯一属性向量作为分支选择。,该算法的核心是确定决策树的分支准则:如何从
15、众多的输入变量中选择一个最佳的分组变量; 如何从分组变量的众多取值中找到一个最佳的分割阈值。,该算法引入了差异系数的概念, 即采用Gini系数计算从相同的总体中随机选择的两个样本来自于不同类别的概率,它反映了信息的纯度。,式中: c 是数据集/子集Dj 中决策类的个数, pi 是第 i 个决策类在 D 中的比例。,在本例中,对于数据集D, 它的Gini系数为:,对于任意一个属性, 如果将数据集划分成多个数据子集, 把未进行划分时的数据集的Gini系数 与划分后数据子集的Gini系数加权和的差称为信息增益G(A):,其中,A是候选属性,k是该属性的分支数; D是未使用A进行划分时的数据集, Gi
16、ni(D)是数据集D的Gini系数, Dj是由A划分而成的子数据集。 在所有属性中信息增益G (A)为最大的属性 就选为当前进行划分的结点。,在本例中,如果根据年龄来划分,可以分为3个子集,它们的Gini系数分别为,于是可计算属性“年龄”的信息增益为:,采用类似的方法,可以计算属性“学生”的信息增益为:,采用类似的方法, 还可以计算属性“收入”、“信用等级”的信息增益, 然后从所有属性中找到信息增益最大的属性,将它作为划分的对象。,3.2.4决策树的剪枝 如果建立的决策树的构造过于复杂,则对应的知识规则将是难以理解和应用的, 因此对于决策树的建立,不仅需要考虑分类的正确性, 还要考虑决策树的复
17、杂程度,即在保证一定的分类正确率条件下,决策树越简单越好。,最常用的决策树简化方法就是剪枝, 包括预剪枝与后剪枝。 预剪枝是预先设定某一相关阈值,决策树达到该阈值后就停止树的生长。 该方法比较简单,但预先指定阈值相当困难。,后剪枝是对已经建立的决策树 以一定的标准进行剪枝, 使决策树得以简化, 但仍具有一定的分类正确率。 CART算法采用后剪枝法。,具体方法为: 针对未经剪枝的决策树T,运用算法将其某一个或几个子树删除,得到新的决策树 j,然后对于多种不同剪枝的结果 j进行比较,找出最好的剪枝形式。,剪枝过程中删除的子树将用叶结点代替,这个叶结点所属的类 用这棵子树中大多数训练实例所属的类来代
18、替。,4、来华留学生跨文化适应性测量的数据挖掘,我们通过问卷调查得到 学校环境影响因素、 社会文化影响因素、 个性心理特征 与适应性水平的数据。,适应性和影响因素的关系: 关联规则方法; 根据适应性对留学生分类: 决策树方法。,4.1关联规则提取 4.1.1数据准备与参数设定 对于来华留学生跨文化适应性的 影响因素包括四方面21项:,人口统计学因素: (1)按文化圈分类的留学生国籍 (2)按GDP分类的留学生国籍(3)所在地(4)性别(5)年龄 (6)汉语水平 (7)学生类别(8)所学专业 (9)已来华时间 (10)来华前已学汉语的时间 (11)留学生来华前对华了解 (12)来华经费;,学校环
19、境影响因素:(1)教师形象 (2)教学管理(3)食堂环境 (4)学习条件; 社会文化影响因素:(1)服务模式 (2)公德意识; 个性心理特征:(1)外向性(2)灵活性(3)独立性。,适应性水平则包括三个维度: 社会文化适应、心理适应、校园适应。 参与数据挖掘的有效被试数目是651人。,首先进行数据预处理, 将被试在各道题目上的分数离散化。 在问卷中,学校环境影响因素、社会文化影响因素、个性心理特征以及适应性水平各维度都是由多道题目进行测量,而后各自获得总分。,计算每个影响因素的均分, 将被试分数大于等于均分的项目设置为1,表示留学生认同题目所描述的情形; 小于均分的项目设置为2, 表示留学生不
20、认同题目所描述的情形。 在适应性水平上也做同样设置, 1和2分别表示适应和不适应。,运用软件WEKA实现频繁多项集的挖掘, 设置最小支持度“minsup”不低于0.1, 最小置信度“minconf ”不低于0.6。,4.1.2频繁2-项集规则提取与解释 研究的维度: 学校环境影响因素、社会文化影响、 个性心理特征、适应性水平, 人口统计学因素, 共计有21个变量。,由于各个变量又分为不同水平, 总计有96个水平, 如果两两组合, 96*95=9120个关系, 可以得到9120条关联规则。,我们设置了不同的支持度和置信度, 进行了13次实验, 共获得524个频繁2-项集规则, 还不到9120条规
21、则的6%。,表3 频繁2-项集挖掘的Apriori算法实现,决策变量:总适应性 社会文化适应、心理适应、校园适应。 按照CART的二叉树构建原理, 根节点包含所有样本, 然后分割为两个子节点, 这个过程在子节点上重复进行。,在实现分类回归树算法时, 将Gini系数的最小变化值设置为0.0001。 采用“最小代价复杂度”方法剪枝。 将复杂度参数设置为1, 并采用10层交叉验证模型 识别正确分类数与正确率。,4.2.2 CART模型建立 对留学生总体适应性、社会文化适应、 心理适应和校园适应分别建立CART模型,经决策树的建立和剪枝得到四个分类树。,图2 总适应水平决策树,图3 社会文化适应水平决
22、策树,图4 心理适应水平决策树,图5 校园适应水平决策树,4.2.3 分类规则提取与解释 决策树得出的分类规则 用 If-Then 的形式表述, 从根结点到每个叶子结点的一条路径 就是一条分类规则。,从决策树的根结点开始沿着一条路径 所形成的属性与属性值的合取项就 构成了If 部分, 叶子结点所标记的类别就构成了规则 的 Then 部分,即规则的结论。,本研究产生了29个叶子结点, 即29条分类规则。 以适应性总分为例, 列举其产生的八条规则。,规则1: IF 留学生对服务模式的态度=“认同” AND 留学生性格外向=“是” AND 对教学管理的态度=“不认同” THEN 总适应(60.0%)=“适应”。,规则2: IF 留学生对服务模式的态度=“认同” AND 留学生性格外向=“是” AND 对教学管理的态度=“认同” AND 对公德意识的态度=“认同” THEN 总适应(86.3%)=“适应”。,规则3: IF 留学生对服务模式的态度=“认同” AND 留学生性格外向=“是” AND 对教学管理的态度=“认同” AND 对公德意识的态度=“不认同” THEN 总适应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 苏州城市学院《海洋科学导论》2025-2026学年期末试卷
- 上海东海职业技术学院《精神科护理学》2025-2026学年期末试卷
- 山西警官职业学院《刑事诉讼法》2025-2026学年期末试卷
- 兴安职业技术大学《行政法学》2025-2026学年期末试卷
- 太原幼儿师范高等专科学校《口腔解剖生理学》2025-2026学年期末试卷
- 忻州师范学院《成本会计下》2025-2026学年期末试卷
- 山西工程职业学院《健康管理职业导论》2025-2026学年期末试卷
- 上海工商外国语职业学院《经济应用文写作》2025-2026学年期末试卷
- 上海第二工业大学《语文课程与教学论》2025-2026学年期末试卷
- 上海商学院《文学概论》2025-2026学年期末试卷
- 《智能建造概论》高职完整全套教学课件
- 急诊护士考试题目及答案
- 2025年云南省情试题及答案
- 各福彩站点管理办法
- 人保笔试测试题及答案解析
- T/CCS 040-2023煤矿智能化管理体系规范
- DB62T 2421.3-2018 主要草种子质量 第3部分 豆科草种子
- ISOSAE 21434标准培训考试试题
- 【9英一模】2025年安徽省合肥市包河区中考一模英语试卷(含答案)
- 煤矸石综合利用项目的可行性研究报告
- 2025年四川省对口招生(农林牧渔类)《农业经营与管理》考试复习题库(含答案)
评论
0/150
提交评论