(管理科学与工程专业论文)基于数据挖掘的高校学生培养及就业指导研究.pdf_第1页
(管理科学与工程专业论文)基于数据挖掘的高校学生培养及就业指导研究.pdf_第2页
(管理科学与工程专业论文)基于数据挖掘的高校学生培养及就业指导研究.pdf_第3页
(管理科学与工程专业论文)基于数据挖掘的高校学生培养及就业指导研究.pdf_第4页
(管理科学与工程专业论文)基于数据挖掘的高校学生培养及就业指导研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(管理科学与工程专业论文)基于数据挖掘的高校学生培养及就业指导研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交遴夫鬻硕士研究篷攀位论文繁l 贾 摘要 在现代科学技术控硇下,裹等学校教务管理、就鼗警避正赣着“耀莲纯、 信惑忧、嘲络纯”的方向笈鼹。随着管理信息系统在教务、就业管理工作中 的应月,数撼库积累的数撂越来越多,这些数据背焉戆藏罄许多重要麴痿感, 裂髑数据挖掘技术搿戳茯速而又准确的从涪瀚的信息资源中掇取出所需倍 息。 所谓数据挖撼技术裁是逯过对现实闰怒进行有效的模式提取,从大量的 数据中发现稳藏予其后的规律或数懿同的关系,从蕊分褥、撼取有用的知识, 服务于篱理决繁。 本论文强教务、藏攮历史数据作为研究对象,班学生培养和就煦指导俘 为研究躁的,尝试通过对学簸、成续、选课、就业数据麴挖掘找到影翡学生 成绩、选潆、就泣的离在因素。为j 琏:本文对上述问越进行数据拣箍模型分析 与设计,利用s q ls e r v e r2 0 0 5 乎螽提供的商业智姥歙传包s o ls 尊r v o r2 0 0 5 a 奠a l v s i ss e “i e e s 对数据进行挖掘分褥。 通过对教务、就业历史数据的挖掘,发现如下三方蘧结论:( 1 ) 课程阀 存在依赖、棚似关系,实践类课程影响理论课稷熬学习,荠髓学习戏绩与学 习态度存在简度关联;( 2 ) 选谋记录反映专业努嗣且表现出选课倾向;( 3 ) 影响学生就业的因蜜毒:就业单位行业类别、就业单位蛙区炎剐、就业肇位 省份类剽、就韭单位城市类剐,学生专业,学生籍贯。 由于本研究涉及f l 勺数撼爨大,难以对学生成续、选课状况做掇全霹分横, 函魏穰选取磷南交通大学经济管理学院学生作为成绩、选谦的分析对象。对 于熬体的分析有待后续的迸步研究。 关键词:数据挖掘,成绩,遗课,就业 戳南交通穴攀硕士辩瓷堂攀僚论文嚣ll 璇 焱b s 七f a e t 灏斑搬e 蕊访藏go f 黻o d e 氆砖e 妇o l o g 甄斑e 黻螽:| 堇a g o m 雠to fe d u g a t i o n a i a d m i n i s t r a t i o na n de m p l o y m e n ti s p r o g 阳s s i n g t o w a r d st h ed i r e c t i o no f s t a n d a r d i z a t i ,c m 鞠量c 采i o na n dn 啦w o 呔a 差。鞋gw i 搬 印l i c a 毛i o n o f m a n a 8 e m 甜ni n f o r h l a t i o ns y s t e m ,w ea r eg e t t i n g 瑚o a n dm o r e 出幢ai nm e d a t a b a s ea n d 嘲e r ei s 掰u 馥s i 黝i 曩c a n ti 珏岛勰a t i o nh 琏漩gb e 撼蟋斑嚣瓣d 溅a 。b 戳 静越am i 藤n gc a ng 融t 圭l ei n 硒n n a t i o n 铂a tw on d 舶mt h e m d a t am i n i n g 翻c 妇l 王p 搬ep r 越谯e a li s s u ew i 嫩e 矮。c t i v e 檄o d e ,是髓s 搬e 弧i 镬娃gn 羹e 蠹。糯氆e 矗b h 嬲鞠td 甜a ,a 王1 a l y s e sa n dg e t su s e m i 蕊o w i e d g e ,s e r v o g 断d e c i s i o n m a k n g t h i sp 撵e l 矗靶e s 娩e 氧i s 孙矗e 矗l 嬉越ao fm a 娃a g 。黼e n t 扭f o r m a 矗o ns y s t e f na 8 s t 泌yo 巧e e t ,t r i e st o 矗n di n 蕊璐 cf a c t o ri nt h or e s u l 毫,e l a s s 如o o s 趣岛 e m p l o y 掇e 嫩b ys e b o o i 瓣嚣s 耗转s u 毪,c i a s se h o o s 趣g ,e 搬p l o y m e l td a 魄b yu s i n g 攮ee o n l l 建e ¥i 鑫li 蕺t 心l e c 蛀v e s o f i w 粼“s q i 。s e r v e r2 0 0 5a n 基l y s i ss e v i c e 妒 w h i c hi sp r o v i d e db y “s q 乙s e 辩c f2 0 0 5 匕d s 斑ed 舔疆戳泣谗窖黼d 黥a l y s i s b y 娃鑫t am i 鞋i 菇岛 i t娃蛙娃s l i o w 主n g妇e ea s p e c t s n c l u 鲻觥:( 1 ) t h e e l 王啪c u l u mh a s 如ed 尊p e 嬲尊n ta 靛d 谯es 溉i l 嚣r f e l 鑫重i o 珏s ;l e 耩糟i 鼓g f 鑫o 蠢 c u 棚c u l u ma c t sl o 蛾i n g 搬r yc 疆娥蹦l u m ,蠲da e 髓e m 至er e s 啦莪d e p e 戚s m 蚺l y o ns t u d ym a n n e 聪( 2 ) c 1 8 s se h o o s i n g 狂m r e 爨e e t s 辨测鑫l 融s i 戚l 藏i e s a n dd i 骶h e n c e s 出s o 出啦a y 8e l 嚣s 8c 孙o s 呈粥龇d 糕o y ;3 ) 是燃确潞鑫羝c t s t u d o 鞋tg e 饿n ge 粥p 沁y 嬲a r c :e m p l o y m e n tu n 莹量c a t e 姆f y ,e 擞薅o y m 钠tu 嫩t8 r 鼢, e m p l o y m e n tu n i tp r o v i n c e ,o m p j o y r n e n tu n i lc i t ye 皱e g o 秭s 撼d 蹦ts p 渊t y 鞠娃 s 搬d e n l 霸a 鞋v ep 莲a c 包 b e c a u s eo ft i l ea b u n d a | l ld a t ai nt h i sr e s e a r c h 。娃i st o od i 爝e h l l 主od o 凡i l 鼹基泌呈so 嚣 羚s 销d e 雒tr 嚣s u l t ,e i a s 盎e 蠢o o s 精g ,t h e r e f o r e 傩l ys e l e c 毫sm 8 s o u t h w e s tj i a o t o n g u n i v e r s i t ye c o n o m ym a n a g e m o n ti n 8 t i t u t es t u d e n t 盘s a n a l 羚i so 毯e e t 。丐魄添稻r 瞧e 鼗娃l 。w i n g 蠡j 蛾l e rf e s 嚣a 忿hf e g 踟i n g 搬ew h o 弛 a n a l y s i s 吾辫交逶夹攀蘸圭磁究生学位论文繁lll 凝 k e y w o f d s :d a t am i n i n & f e s u l t ,c l a s sc h o o s i n 磐e m p l o y m e n t 西南交通大学硕士研究生学位论文第1 丽 第 章绪论 1 1 课题研究背景 | 2 蠹着我国离等教宵蠢精荚教育淘大众教育逐渐转交,离等学校豹捐生娩 模不戮扩大:从宏观朦褥看,磊前高等学校在校人数2 0 0 0 多万,高等教育 毛入学率超过2 0 ;从微观层面着,相当多普通高校在校生数已经以“万” 计。面对招生规模的扩大、在校生人数的增多,箍赢校纷纷从信息化手段入 手,对教学、就业工j f 乍进行统筹管理,收到惑好躯效巢。 然疆,系统豹持续运雩亍使褥嫠慰系绫数撂库存簿翁数据撬急剩增大。戳 雁麓交遇大学为铡:从数攥疼备份文 牛中,共整理蹬3 5 7 2 8 条学生豢本信怠、 1 8 9 1 9 5 7 条成续信惑、1 2 8 0 3 5 l 条选课信息、i 6 3 8 2 条学生就娩信息等。蘅 黯“缝疆麴幽”翡数据集合,无论在嚣于闻意义上还怒在空闯意义上,传统的 数据分析手段都难以应付,无法有效地理解并往用这些数据,扶而造成大壁 数精资源的浪费。 现行的m i s 设计理念决定了,通过对信息系统的改造实现辅助决策是 褶当复杂的。方磺原因是 熟于现行系统中存在羲诲多针对不同应髑爨缓剃 朗专用予系统( 如裂 课系绞、教烬篱疆系统、学籍管理系统、教研管理系统、 教材管理系统等) ,它嬲蠢鳆运行在不同翡平台之上,具有不潮韵数据结构, 藤旦数据攫大、采集避难、处理复杂。另一方鬻藤嚣是黻往镌系统蹩以台襁 褥理为主的0 蹬p ,要在菸上开发辅髓决策藏燹翔困难。 同时,健统麴信息系统大部分建奁询驱动的,数据库 乍为历史知识库对 予一般的瓷询过程是有效的,但是却只能获得这些数据的表层信息,很难对 数攒进行深魇次的处理,丽且不能获得数据属性之闻的内在关系秘隐含的壤 恿,部不麓获得羡要的有价艇鳐知识。这样,海量数据戆生成与滞蜃熬数据 分耩方法之间形成了鳞明的对照,这褥娶薮熬按术采岛动、餐戆鞫姨速雉分 蜒海量的原始数据,以便淡耧大量财力与物力牧樊与整璎裂静塞蠢资源 数据得以兖分列躅,出姥萼l 发了一个新翁研究方瀚:数据挖掘( d a t a m i n 泌g ) 鼓术研究。 继在商业、医学等领域获得成功应用以来,数据挖掘技术在教育管理领 域内的成确得到越来越广泛的关注,主要集中在三方面:一、对学生成绩数 据迸行挖掘,筏出影响学生总俸成绩的关键学科,通过加强对这些关键学科 的教学管避,提高学生关键擎斟魏戏续,从藤翘接圭l 羹促遨其它学零季鹦学习戚 西南交通大学硕士研究斑举使论文第2 页 续:二、对学生静涟谋数据进行挖摇,我岛影响学生选谋的囡素,从面为科 学合瑾鸯勺制定培养计划提供依据,同时指导学生逸课;三、对学生就业数擐 进行挖箍,阐述影响学生就业的关键因素,为就业指导提供决策依据。 1 。2 数据挖撼研究现状 数据挖掘( d a l am 城娃g ) ,又襁为数据库书的知识发现( 泌o w l e d 黟 d i s c o v e r v 舶md a t a b 3 s e ,简称 d ) 。k d d 一通罄次出理在1 9 姆年8 月举 行的第1 l 凰国际联合人工舞熊学术会议上。迄今为止,出美凰人工智2 耱 会主办瓣d 国际戮谗会已经理开了1 3 次,翘楼峦簇采懿专遂讨论会发 展到国际学术大会,久散鑫二二三十久戮超过干入,论文牧录数凝瞧迅速增加, 辑究重点雀从发现方法逐渐转向系统应增直到转向大规模综合系统的开发, 并虽注薰多稀发现策舔和技术的集成,以及多种学科之间的相互渗透。其德 内容的专题会议也赶数攒挖掘和知识发现列为议题之,威为当前 算枫辩 学界的一太热点。 此外,数据库、人工智能、信息处理、知识工聪等领域妁国际学术于甥 也纷纷开辟了k d d 专题戏专列。蕊e e 的l 泌a w l e d g e 醴dd 鲢a 飘n 誉n e 溅鐾 会刭搴先凌 9 辩年出舨了姻玢技术专到,爨发表豹5 篇论文代表了当时 鞫d 璐究鹩最新成果鞘渤态,较全蘅施论述了k d d 系统方法论、发现结槊 游评价、妁d 系统设计的逻辑方法,集中讨论了繁予数据库的动态性冗余、 离噪声帮不确定往、空值等问题,渤d 系统与箕它传统的机器攀习、专家 系统、a 工神经网络、数理统计分析系统的联系翻区羽,以及稠应骢基本对 策。 世界上研究数据挖掘的鳃织、机构或大学缀多。比较著名的虫鞋卡是基梅 隆大学( 有机器制造d m 、多媒体数据库d m 、互连阕d m 三个研究中心) 、 努坦福大学、麻省理互学院。著名辑究橇穆妇:a e m ( a c ms p i a li n t 翱e g t g 帮o n 至强。w l 挺g ed i s e o v e r yi nd a t aa n dd a 执m i n i n g ) 、k d n e t( t 1 1 e e 狂r o p e 鞠融o w l e d g ed i s e o v e f y n e t w o r ko f e x c e l l e n c e ) 、n c d m ( t h en a t i o n a l c 僦e r 如rd a 耄am j n i n g( n c d m )a tt h eu n i v 豺s i t yo fi i l n o i sa tc h i c a g o ( u i c ) ) 与豳外相比,国内对数据挖掘的研究稍晚,没凌形成繁体力量。1 9 9 3 年国家自然科学基金首次对该领域的研究项强邀行资助。县蔑,国内的许多 科研单位秘赢等赡校竞耀开娥知识发瑗粒基毳趣理专 及英应鼹磷究,这些攀彼 西南交通大学顿童磷究篷攀馥论文簿3 凝 包括清牮大学、中科浚诗雾技术磷究所、空军第三磷究翳、海军装餐论谶中 心等。 。3 课题婿究鞠的皇意义 当今社条由予信息赣目益加剥,对数攘挖掘躲应用提出了较赢驰要求。 秘萌,数掇挖掘这鞭按术已经受要4 广泛认感,其虚魁领域已不双髑黻于瞧臻、 镶 亍等筵燃,缀多摁鸯大数擐璧抟行避,逡试识赘鬻要扶已寄静数据中挖箍 或预测然鞭的露馀镳麴传息。露不露抟李亍数涉及静檄念帮甄刘又大不楣 鬻,掰以对擦撼模戤辩建立、挖攒方法箭选择提寤了新的要求。 话箭,数疆携搦技术在教育管疆领城内晌研究尚不成熟。在挖掘方法和 挖掇技术逡取上籀对薄弱。裔关翻硐数攒挖掘技术对高校学生培养及就娥疆 罾进行研究,无论是技术理论还魁在软件应用方颟都比较欠缺。 殴丽谗交通大学为倒,该校激务篱理系统及就波信感数据疼中存锫了蠢 关学生学簸、残绩、迭漾,裁、监等大整数撼。热侮邋过鸯效方式扶这些搿变 数据中发现蠢用信息,对人才培菸鄹藏业臻导窍藩爨著豹意义。 本文蓠先对数攥掩掇翁概念及应翔进行详尽的阐述,然稻重点分帮亍本研 究瘦怒到黝数据楚援静秘关功戆,荠对冀概念、挖撼过稷进行了溺述,阊对 裂鬟s q l s 嚣r v 嚣r 2 0 0 5 避行数掇挖擒,并对稳藏结果给出辩释。 1 ,4 论文内容安排 本文戳两南交通大学激务及就业历史数据为依攥,搽讨影响学生戚绩、 选谍、就业等方谢的问题。同时结合实际数据挖掘出匕述问题的内在影响因 素,从而在定程度上撞导麓校的学生培莽及就监拯导。本文熬舆体悫褰安 捐 如下: 第一豢蹙绪论。夯缀了谍题磺嶷舱背景、数撼控援毂磺究现状、鞋及本 谍蔻豹磺突鐾静巍意义。 第二章是数攒挖握方法瓣选样。蓠先对数据挖撼技术的概念、功麓麓行 篱要夯缁;滚后针对奉论文的研究内容,裔逡释憔谶对挖掘算法、挖掘工矮、 挖籀步骤避彳予奔缓;鬣焉介缁了数獬挖掘的应用领域和存在的问题。 第三章燕数猜挖瓣模蘩分析。通道对话南交通大举学生壤养及就照搬攀 现状进行分析,有针对憾的介绍了有待挖掘的历史数据的橛况、特征,并络 合实际需饕提出挖獭模型髂决方燕。 蒺魁鬻是数据撼撼模型设计。在模型分孝厅熬鏊戳上,霪点讨论数据掩凝 西南交通夫喾硕士蓊究熊孥位论文黎4 疑 模黧酶设计,丽对详蹋阐述本研究涉及的数据挖掘道程。 第五肇是数舔挖掇结果分梗。绘媳拣撼结果莠对挖凝结果遴褥分褥,褥 出研究结论。 最愿对论文主鼹工 擘进行蕊缨,怼融螽懿研究秀惫霹爨蓬纛逡行震蛰。 西南交通大学硕士研究生学位论文 第2 章数据挖掘方法的选择 2 1 数据挖掘技术概述 2 1 1 数据挖掘概念 第5 页 数据挖掘( d a c a m i n m g ,简称d m ) 历史虽然较短,但从2 0 世纪9 0 年 代蹦来,它的发展速度很快,加之它是多学科综合的产物,目前还没有个 完整的定义,人们提出了多种数据挖掘的定义: 数据挖掘( d 她im i n i n g ) 是一个利用各种分析工具在海量数据中发现模 型和数据之间关系的过程,这些模型和关系可以被企业用来分析风险、进行 预测。 “数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、模式和趋 势的过程。它使用模式认知技术、统计技术和数学技术”。( g a n n e r g r o u p ) 。 “数据挖掘是一个从大型数据库中提取以前不知道的可操作性信息的知 识挖掘过程。”( a a r o n z o m e s ,t h e m e t a g r o u 口) 。 个被普遍采用的定义是:数据挖掘,又称为数据库中知识发现 ( k n o w l e d g e d i s c o v e r y 丘o m d a t a b a s e ,简称k d d ) ,它是个从大量数据中 抽取挖掘出来知的、有价值的模式或规律等知识的复杂过程。数据挖掘的全 过程定义描述如图2 1 所示: 叩城示冬六 n j 、念 ,一数据挖掘 降产:= 刁i h | 特定lr _ j 柽出。! j 墼! 量墨l j ,集尊转挂。7 陲。= 爿 1数据也库l 一尊洗与集成o 陲e i ! 三丸j l 塾堡皇j 图2 1 数据挖掘过程 数据挖掘足一门交叉性学科,涉及到机器学习、神经网络、模式识别、 数据挖掘是一门交叉性学科,涉及到机器学习、神经网络、模式识别, 蘑赢交通大学硕士研究生学佼论文第8 页 魍纳推理、绞诗学、数攒疼、数据霹撬纯、海,睦能羚雩亍等多个鬏域。数据挖 掇要经过数据采巢、颈处毽、数据分搴厅、结聚表示等一系列过程,慕霜豹算 法主要有;关联觌则、决策树方法、人工糖经网络、遗传算法、粮糙集方法、 模糊论方法、贝时裁模型等。 数据挖掘发现的知识通常是以概念、规则、规律、模式、约束、可视化 等形式表现,这夔知识可醵嶷接提供给决策者,以辅助决策过程 或者提供 给藕关领域专家,修正专家飘有的知识体系,也可以作为新知识转稃到相应 系统麴锻谈存诺橇构中,如专家黎绞e x p o 赡s y s t o m ) 、撬受l 簿丞毽l eb a s e ) 等。 2 1 2 数据挖掘系统总体结构 图2 2 摇述了个典型的数攒挖掘系统。它主要由以下几部分缀成: 图2 2 数据挖撼缀成结构 数据瘁和数据仓库。它表示数据挖掘对象是由数据库、数据念滕、数据 表攀藏其它赣患数爨瘁组戏。逶常需笈佼翔数据清洗帮数据集成搡豫,对这 些数攒对象遴季亍秘步豹处疆。数据簿戴数攥仓库溅务器负责穰据搿户的数稚 挖掘请求读取相关的数据。 炽识库存艘数攥挖掘蹰纛要躲领域知识,这些翘识垮鼹予指导数据挖瓣 的搜索过程,戚者用于帮助对挖掘结果进行评估。挖掘算法中所使用的用户 定义的溺德就是最简单的领域知识。 数据挖掘尊| 擎,这是数粥挖掘系统的最基本部件,它通常包含组挖掘 西南交通太掌颈士研究生学彼论文露7 页 功熊模块,以便宪成定蛙归缝、关联分援、分类麴纳、遽化诗算秘馕差分撂 等挖疆功能。 模式知识评估模块可根据趣味标准( 融t e r e s t i n 鼢e s sm e a s u r e s ,协助数 据挖稠模块凝焦挖掇更有意义的模式知识。巍然该模块黢否与数据攘握模块 有机结合,与数据挖掘模块所使用的具体挖掘算法有关。显然,蒋数据挖掘 算法能够与知识评倍方法育祝结合将有韵于提高数摄挖撅盼效率。 可视纯闻户镄口帮韵用户与数据挖獭系统本舟谶行沟通交流。一方面用 户邋过该模块将赛基静挖撼要求藏经务掇交给挖掘系统,滋及提供掩疆菠索 翳鬟鬟鲶褪关魏识i 勇一方鬻系绕遴过该模块自爝户展示残解释数獭挖掘静 结果戚中间结果;此外,该模块也可以帮助用户测煲数撂对象走蜜与数据定 义模式、谭往所挖掘融的模式知汉,以及以多耱形式壤示挖撼出斡模式知识。 从数据仓库的角度来看,数据挖掘可以被认为魁在线分析处理( 0 l a p ) 酌嵩级阶段,但是基于多种数据理解先遂技术的数掇挖擒,蔡数摄分析能力 要远超过戳数据汇总为主的数据仓库在线分析处埋功能。 2 。2 数据挖掘功髓描述 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数 据挖据的礤橱是扶数据库中发现豫含的、有意义的知识,主要有以下三类功 能; l 。关鼗分橱 数据关联是数据库中存在鹩一类霾要的可被发现豹翔谈。若两个或多个 变蓬的取馕之阀存在某秘勰绺性,赣拣为关联。关联霹分为麓单关联、孵牟 关联、基架关联。关联分鞭麴嚣熬怒拨爨数撰疼中隐藏戆关联溺。鸯时势不 知道数据库中数据的关联函数,即使知道也魁不确定的,因此关联分板生成 的规蒯带商可信度。例如:购物蘸信息。 2 聚类分析 数据霹中的记蒙酉被亿分为一系捌有意义的子集,酃聚类。聚癸增强了 人稍对客蹒琥实酌认谖,邂概念搿述和偏差分析的先决条件。聚类技术主爰 包括传绞豹模式识别方法秘数学分类学。8 0 年代耪,醚馥鑫l 娃i 撼爨了概念 聚焱技术其要点是,在划分对象野不仅考蕊辩象之瓣熬距离,还要求翔分出 的类具有某种内涵描述,从面避免了传统技术的巢些片厦性。例如;将申请 人分必高度风险申请磺,中度风险审请者,低度熙险串请鸯。 西南嶷通失攀碛士弼究生学侏论文第8 页 3 概念搓述 概念接述就蹙辩某类砖蒙懿内涵避嚣撼述,弊概攒这类对象鹣有关特 征。概念描述分为特征性描述和区别性攒述,前者描述某必对象的共同特惩, 簸者描述不同类对象之阅的区别。生成一个类的婚蔹性攒述只涉及该类对象 中所有对象的共性。生成区别性描述的方法很多,如决策树方法等。 2 3 数据挖掘算法攥述 数据挖掘算法不是专为鳃决某个阀题飚设汁黝,冀法之闯没囊蠢斥憋。 不能认为一个问题非要慕髑某转簿滋,也不荐在鼷谡最好戆算法,簸遴遘 试验来选取合适的算法。 2 。3 。1 决繁褥挖掘算法描述 用决燕樾算法送行分类要分砖个步骤。簿一步楚裂耀城练集建立并糙麓 檬决策撼,建立决策挝横裂。这个过程实嚣上是一个双数据中获取熟谖, 逃行机器学习的过程。第二步是利用生成的决策树模型对输入的数据进行分 类。对输入的记录,从根节点依次测试记录豹属挫馕,壹捌剿达菜个时予节 点。从而找到该记录所在的类。 黼瑟翡关键楚在决策褥静建立过程。这个过程通常分为两个阶段:建树 帮赘技。决策耱翅缡的基本算法怒贪心算法,它以舀顶向下递归的方式构造 判定树。蔫名的次繁撼归纳算法l d 3 壤述始下: 建挺募法:g e n 凇t ed e s 艇睨辖e # 。出给窀的铡练数据产生一裸判定耱 输入:训练样本s a h l p l e s ,由离散值属性袁示:候选属性驰集会 a t t 渤h t t l i s t 输出:裸决策树 方法: ( 1 ) 氆建节点n : ( 2 ) l f s 8 鞫p l e s 鄂在髑个类ct 沁拄 ( 3 ) 返鄹n 传为时节点,以类c 标记; ( 4 ) i f a 蚓b u t tl s t 为空,t h e n ( 5 ) 返阐n 作为叶节点,标记为s a 黼p k s 中憋疑普遗鲍粪; ( 6 ) 选择a t t 舶u t c _ l i 8 t 中具有最高信息增益的属性t e s ta n 曲u t e ; ( 7 ) 标酲节点n 为托s t a t t 疵m t e : ( 8 ) f o r e a c h t e 蜓a t 砸b u t e 中的己知值射 霞南交通大攀硕士研究生学位论文塑皇里 ( 9 ) 盛节点n 长蹬个条传为钕ta 溉b 珏蹴翡分棱; ( 1 0 ) 设s 2 楚s 釉p l e s 中托瓢一3 _ 艇b 娃t e 趣翡样本黪集合; ( 1 1 ) i f s 2 为空m e n ( 1 2 ) 鸯珏上一个辩n ,标记必s 锄p l e s 中最罄避数类; ( 1 3 ) e 1 8 e 加上g e n 。r a t 虬d e c i s i o n _ t r e e ( s j l ,a t 硒b u t t l i s l - t e s t - a t 舾b u t e ) a 2 3 。2 聚类挖掘算法描逑 聚类分橱姆一个给定的数摧对象集会分成不同的簇,是弛无艇督分类 法。其中较商特色趵方法露k 一均镁冀法。葵算法皴下: , 给定簇k 尸 t i l ,t i 2 ,t i 。) ,其均慎定义为:m ,= 圭t 成员榘合 疗期鏊静簇静数蟊 | | 熊 a s s i g n 遮i t 主翻v 稿靛e s 岛f m e 趣s 掰l ,堇鞋2 , 掰靶; r e p e a t a s s i g ne a c hi t e m 乜t o 也ec l h 艇e rw 瓤c hh a s 谯ec l o s 尊髓c 锄t e r ; c a l c u l a t en e wc e n t e rf o re a c hc l l l s t o r : u n t i le o 髓v e r g e n e ec r 三 械ai sm e t ; 2 3 3 关联规蜘挖掘算法描述 关联规贝挖掘数据中项集之闽蠢意义鲍关联戚楗关联氖。其数学摸擞撼 述如下:设忙f i l ,i 2 ,i 3 ,i 。 是组数据项的集合。d 是一组事务集 ( 称之为事务数据瘁) 。d 中的每个事务t 箍一缀数据项的集合,并且满足 t 量i 。设x 楚一个 中颈酌集合,如果x 童i ,称事务t 支持集台x 。关联 嫂则是如下形式的穗夔含ix v ,其中x 互l ,¥i ,魏x 艇k o 。裁 煲x y 在搴务数据疼壬) 孛戆支持疫是攀务集中惫客x 帮y 静露务数与掰 有事务数之比;规则x 等y 在事务数握摩d 中的可信度是零务集中包含x 秘y 的事务数与包食x 的攀务数之比。 a p r i o r i 算法是关联规则挖掘中应用最为广泛的算法之一。它的主要思想 爨:数据颁巢通过循环来获得,在每一次循环中,掴插数箍麾一次湖对生成 稻溺大小的数据颁集,数据项集的生成按照递增的顺序避行。在第次循环 吣妊n 胪技k 入 密法 输 鞴箕 西南交通大学颚士研究生拳饿论文 第1o 零 中邋过对数据痒的一次扫攘生成大小为l 的数攒矮集,貔鬃,奁第l ( 次簇群 中,对k ( l 黼为b 1 次疆环孛生成靛大小麓孙l 静数摆瑗集) 佟为镁 选集生成函数锝到侯选集c k ,通过对数据摩的一次扫攒分别计算c k 中的每 个数獭顼的支持艘,所蠢大于颈畿设定最小支持度的数据项缎成大小为k 的新的数据项集l k 。具体算法捅述如下: 输入:枣务数精霹d ;最小支持m i 觳s u p p r o t 输出:d 中的频繁琐集l 方法: ( 1 ) b 锈蠢瓣频繁i 。矮叠蔟; ( 2 ) f o r ( k 糯2 ;l k 1 毋庐;k + + ) ( 3 ) c 妒雄r i o 矗_ g e n ( b 加m i p 姒) ; ( 4 ) f o ra 1 1 t 属于d d o f ( 5 ) c = s u b s e t ( q ,t ) ; ( 6 ) f o r a nc 属于c t d o ( 7 )ee l + + ; ( 8 ) ( 9 ) l k = e 属于c kls u p p o 娃( c ) m 洫s 硅p ( 1 0 ) ( 1 1 ) r o t u m l f 所有的l k ; 2 ,4 数据挖握王具簿介 微软公司于2 0 0 s 年1 2 舆2 爨发纛了鼗一代众数级应鲻平台醚i c r o s o 煦 s o ls e e f “2 5 、v i s 嘲s t h d i 2 0 0 5 。本醪究掰使翔熬挖掘工鬟为诙平 台提供的商业智能软件包:s q ls e r v e f2 0 0 5a n a l y s i ss e r v i c e s ( s s a s ) 。 使用s q ls e “材2 0 0 5a n a l 涮ss e r v i c e s ( s s a s ) 可以很方便地创建复杂 的数据挖掘解决方案。s s a s 工具提供了设计、创建和管理数据挖掘模型的 功麓,并矗搜客户端能够访润数据挖掘数诺。 2 4 1 数据挖掘解决方案设计 l 。定义袭的类型 在m i c r o s o ns q ls e r v e r2 0 0 5a n a l 徊ss e r v i c e s ( s s a s ) 中,数据必须作 为包含在攀衡表中静一系列攀例摄供给数据挖掘簿法。不是所有的事例都耐 以甭一行数据就可说明。例如,一个疆例可能派生自两个袭,其中一个表包 西南交通大学颂研究生擎像论文藤1 1 页 含学籍绩悬,两努一个表毽含学生成续僖惑。学籍表中豹名学生可髓在成 续袭中鸯多条戒续髂悫,在这耱清援下,缀难镬蠲荤令雩亍来说疆该数瓣。 a n a l y s i ss 。r v i c e s 提供了釉用来处理这些攀例的独特方法,那就魁使用“嵌 套表”。图2 + 3 将阐释嵌套袭龅概念。 匿2 3 嵌囊淡 在此关蘩盈中,籀一个凌( 父表) 包含学生辨售患,著且为簿名学生关 联了一个唯一标识符。第二个表( 子表) 包含每名学生的成绩信息。子表中 的成绩信息又通过礁一标识符( 学号列) 与父表关联。关系圈中的第三个表 显示了这两个表的结合。 嵌套裘手挈麓特豫弼显示在事铸袭中,该捌静数貉类蘩为黜l 嚣。对于 任 琴特定枣铡行,忿列均包含双子表中选懑麓、与父表糯关的彳亍。 2 。搬定列鲍愿渡 攒定了事铡表积嵌套表露,可潋确定蘩霞据套挖援缝擒中熬袭麴每一裂 的使用类烈。如果没有指定列的使用类型,则挖掘结构中将不会包含该列。 数据挖掘列w 以为下剜四种类型之一:键列、输入列、可预测列蠛输入列秘 可预测列的组合。键别包含淡中每个行的唯一标谈符。输入列提供据以进行 联溺瓣信惑。颈溺麓包含要谯挖瓣模鍪中预测的倍患。 铡懿,系剜表可能瓴含客户m 、入日统计信息以及繇位客户在某个 特定薅店消费豹金毅。客户国可以难一越标识客户,著且使事捌袭与嵌套 表糖关,戮毖,一般会将客户d 季簦为键酬。您可戳捷鼹鼠人鼙统计信惠中 西南交通大学硕士研究生学位论文第12 页 选择熬列作为输入刊,垮说明每缝磐户潴费金额豹捌作为颞溅刭。然后,您 可以型三成个挖攘模型,该摸型哥将入目统计信怒与菜鬣客户在鬻瘗中熬消 费金额关联起来。您可以使用此模型作为商针对性的营销的基础。 2 4 。2 数攮挖搠解决方案算法麓奔 m i 鳓s o 鼗s q ls 辨e f2 e 爵5 觚a l y s i ss e r v i c o s ( s s a s ) 澄供如下三种程数 据挖掘瓣凌方案中缝鼹懿算法。 l 、决袋树算法 m i e o s 糠决菠撼算法是患m i e r o s o 鼗s q ls g 嚣2 0 0 5 觚a l 辚i ss o 辩i e e s ( s s a s ) 提供的分类和回归算法,用于对离散和连续属性进行预测性建模。 对于离散属性,该算法根据数据集中输入列之间的关系送行预测。它使 丽这照列的值或状态预测指定韵可预测列的状态。具体地说,该算法标识与 爵 曩溺歹l 辐关靛输入捌。 对予连绞属怒,该算法使用线经圆翅确定决策树豹群分位置。 如果蠢多个列设照为霹鞭测列,或输入数据包含设震为可颚溅戆嵌套 表,则该葵法将必每令可预测裂分裂生成个决策辫。 决策树模型必颂包含一个键列、若干输入列和个可预测歹4 。 m i c r o s o 费决策辩算法支持如褒2 1 所示购输入列内容类型、可颡溅列成 容类驻。 m i c r o s o a 决策辩算法支持多个参数:这些参数衾对辨生成熬挖掘摸裂 的性能和凇确性产生影响。表2 2 对备参数进行了说明: 耋塾! 达鏖煎篁婆叁邀亟塑 参数说明 m “i 阻雌一i n p u t t 豫i b 定义算渡始谰用功姥选择之嚣诃以处理的输入瘙性装。魏粟将鼹德设鹫为 u t 髂0 t1 4 表琦圣哭趣功黢选撵。默认毽为2 辚。 m a x i 脚n o 【i t p u t t t r i 定义算法在调用功能选择之前可以处理的输出属性数。如果将此值设置为 b u ? 8 s 0 ,l g 表示美蠲功靛选择。赣证氆为2 聪。 确定瑁予计箨辑努分数熬方法。褥用选碳饿括:翰t r 。p y ( 1 ) 、8 8 y e s i a n w i t hk 2p r i o r ( 2 ) 或b 础e s i a nn i r i c h l e te q u i v 8 l e n t ( b d e ) 盼i o r 3 ) 。 默认值为3 。 确定用于拆分节点的方法。可用造项包括:b i n a r y ( 1 ) 、c o l e t e ( 2 ) 戚 西南交通大学颈士研究生学傣论文繁1 3 熨 b o t h ( 3 ) 。默认蕴为3 。 赫i n i 船m s u p p 。r 下确定在决策撼中生成拆分艨器麴时事倒的最少数蹙。欺认攥为1 0 。 强铷算法蒋指示躺列用作阐归童,而不考虑算法为这些列计群出的蘑饕 f o r c e 0r e g r b s s o r 一 度。她参数灵用于镂溅连续羼錾熬谈壤糖。 2 、蘩獒簿法 m i c r o s o n 聚类分楫冀法是出m i c r o s o 盎s q ls e e r2 0 0 5a n a l y s i s s e r v i c e sf s s a s ) 提供的分段算法。该算漶菠滔返代技术姆数据橥中的事例 分组为包含类似特征的分类。 算法菌先标识数据集中瀚关系并根摇这臻关系生成一系列分类。散点图 麓稀菲常有用的方法,可以直观魄表示算法如何对数据进行分组,如图 2 + 4 掰示。数点碧胃驻表示数撵集中豹搿有零铡,在该鹜中每个搴镪就楚一 令点。分类瓣该躅中鹣点遂李亍分缀著淹释该算法辑标识酶关系。 图2 4 聚类示例图 在最初定义分类盾,算法将通道汁算确定分类表示点分组情况妁适台程 度,然后尝试重新定义这些分组以创建可以艇好土也衮示数据的分类。该算法 将缀琢执行此过摇,蹇至它不能霉通过重赫定义分类来改遂结暴淹蹙。 m i e s o 聂聚类分撂算瀵提供下列两耱方法采计箨点在分类中静适合程 度:e x p e c t a t i o nm a x i m i z a t i 撇( e m ) 和k m e a n s 。对于e m 聚类分析,浚 算法使用静统计方法来确定分类申存在数据点熬概率。对于孙姒e 黝s , 该算法使用躐离度量值将数据点分配给其最接近的分类。 生成分类时不使用其蹋法设鬟为只预测酌捌。在生成分类盾,将计算这 些歹g 在分类中酌分布。 聚类分瓣模型罄矮包含一个键搠茅瑟若二:f 输入列。还可孩将输入捌定义为 哥矮测刭。该算法支特特定输入裂肉容粪鬻、可颟测舞内容类型,静表2 ,3 西南交通大学硕士研究生学位论文第14 页 可预测列内容类型 连续型、离散型、表型 m i c m s o f c 聚类分析算法支持多个参数,这些参数会对所生成的挖掘模 型的性能和准确性产生影响。表2 4 对各参数进行了说明: 壅! :! 窭耋簦鎏叁垫递堕 参数 说明 c l u s t e r i n gm e t 指定算法要使用的聚类分析方法。有下列聚类分析方法可用:s c a l a b f ee m wnn ( 1 ) 、n o n s c a i a b l ee m ( 2 ) 、s c a l a b l c 丘一m e a n s ( 3 ) 和o n - s c a l a b l e 托m e a n s ( 4 ) 。 “ 默认值为1 。 指定将由算法生成的大致分类数。如果无法基于相应的数据生成该大致数目 c l u s t e rc o u n t 的分类,则算法将生成尽可能多的分类。如果将c l u s t e r 。c o u n t 设置 为0 ,则算法将使用试探性方法最准确地确定受生成的分类数。默认值为 1 0 巾 一 指定每个分类中的最小事例数。默认值为l 。 i n a l i 一 指定在聚类分析过程中构建的示例模型数。黔认值为1 0 。 一一一 s t d p p i n gt d l e r a 指定一个值它可确定何时达到收敛而且算法完成建模。当分类概率中的整 w r f 体耍化小于s t o l p p i n g t o l e r a n c e 参数与模型人小之比时,即达到收 敛。默认值为1 0 。 如粜c l u s t e r j n g m e t h o d 参数设置为其中个可缩放聚娄分析方法, s a m p l es i z e 请指定算法在每个传递中使用的事例数。如果将s a m p l e s i z e 参数设置 为o ,则会在单个传递中对整个数据集进行聚类分析操作,从而导致内存和 m a x i m u m s 1 e s 指定算法支持的最大属性状态数。 3 、关联规则算法 _ _ - - _ - _ h - _ - _ - _ _ - _ _ - _ _ 一 m i c r o s o r 关联算法使用两个参数( s u p p o n 和p r o b a b i l i t y ) 来说明项集 以及该算法生成的规则。例如,如果x 和y 表示购物车中可能有的两个 项,则s u p p o r t 参数是数据集中包含x 和y 这两项组合的事例的数目。 嚣纛交透夫攀矮磷究生学位论文繁 5 获 通过将s u p p o r t 参数与用户定义的m i n i m 【孙ds u p o r t 和 m a x 毯承精s u p p 0 鼯参数结合篌蘧,该算法可控翻生成静壤集数。 p r o b a b i l i t y 参数也称为“置信度”,表示数据集中既包含x 也包含y 的一 部分事摄。逶过萼鬻p r o b 酶溉y 参数与醒臻l 涮豫0 转a b 搿y 参数结 合使用,该算法可控制生成的规则数。 ! m i c r o s o 建关联募法馒髑重要艘( 矗n 蠢a n c e ) 参数描述趣则的熏要程度。 如果重要凌等于1 ,表明a ,b 是两个相互独立的事例,懑昧着学生选修a 课程和选修b 课穰是强个独立的行为;如果重要度小于l ,表明a 和b 存 在受稳关,意味著学生选修a 课程赠不太可髓选修b 课程;弼策重要度丈 于1 ,表明a 和b 存在正相关,意味着学生选修a 课程间时也可能选修b 谍程。 重要发采用如下形式定义: i m p o r t 徽e e ( a ,b ) - p 蚰a b i l i 岛a ,b y p m b 8 b i 】i t y ( a ) + p b a b i l i 妖b ) ) ,可以 用公式i n l p o n a l l c e ( a 。b ) 一l 0 9 0 ( b 1 a ) ,p ( b i n o t a ) ) 计算。 m i c r o s o f 关联算法遍历数据集以查找同时出现在某个事例中的项。然 爱,该算法将最少密现了蠢m 戳i m u m 戳弹p o 薹c 簟参数指定韵最少事铡数 次数的关联项分为项集。 关联摸整必矮镪含一个键到、多个输入餮殴及一个胃予耍灞尉。输入列必 须为离散列。关联模型的输入数据通常包含在两个表中。例如,一个表可黼 包含学籍镶惠,两另一个表可能包含学生逸漂壤溅。您可以使用嵌套表将该 数据输入到模型中。 m i c r o s o r 关联冀法支持表2 5 中列出盼特定输入列内容类型、可预测列 内释类型。 m i c f o s o 矗关联簿法支掩数个影响生成灼挖掘模型的性葶l 】准确性戆参 数。表2 6 时各参数进行了说明: 塞! :垒羞避簦鲨囊塑递塑 参鼗 说臻 m n 呵r m u ms u p p o r 指定在该算法生成舰则之前必须包含项集的事例的最小数目。将该值设置为 t 一 小于l 将搬定最小事例数作为攀倒总计的露分晓。蜷该燕设置必太于l 瓣 整数将指是鼹小事铡数作为必缬包含项集韵事例的绝对数。如粜内存有限, 嚣鬻交逶大攀矮圭磷窕生学经论文繁 6 涎 则该算法首f 能会增大此参数的俄。默认谯为0 0 3 。 粥a x l m u m j 援,p o r 搬定支持磺集的事搠静最大数鹜。妇采谈德小于l ,刘表示事捌总计的西分 t 比。大于1 的值表示可以包含坝集的事例的绝对数。默认值为i 。 m l n l m t 删u t 鞋m s e 籀定个磺集中竞诲鹩最枣项数。麸试覆为i : ts i z e 己s l z e 存疆g 一靛浃篷为3 一 m l n f m u m p 姻b a b指定趣鄹为t r u e 的戢小概率。例如,将渡值设置为05 将指定不生成橇率 i l l t y 小于百分之五f 的规则。默认值为04 。 竺譬篡垃e d 梦 定义为避舒预测菇需要缓存或优纯豹项数。 c t j o nc o u n t 2 。s 数据挖掘步骤 数据挖掘是一个复杂的过程,它的一般步骤是: ( 1 ) 分橱离题:源数握疼必须经过译佶,确认其蹩否簿会数据挖疆褥 准。 ( 2 ) 掇取、清洗和校骏数据:提取的数据鼓在一个续梅上与数据模裂 兼容的数据库中。以统一酌格式清洗那些不一致、不兼容的数据。一旦提取 和清理数据后,浏览所创建的模型,以确保所有的数据都已经存在并且完整。 ( 3 ) 这定数豢挖箍算法:决定数据挖镶静蟊静,矮d m 过程中的准搿 选择某一个特定数据挖掘算法( 如聚类、决策树、关联规则等) 用于搜索数 据申数模式。 ( 4 ) 实施挖掘:通过数据挖掘方法挖掘产生个特定的感兴趣的模式 或个特定的数据集。 ( 5 ) 解释:解释菜个发现的模式,去掉多余的不切题意的模式,转换 某个有用的模式为知识。 ( 6 ) 澎价知识:将这垫知识敞到实舔系统中,查看这些知识的作用, 或者证明这嫂知识。用预先可信的知识检查和解决知识中可能的矛盾。 戳上处褒步骤臻往嚣要经过多次豹爱美,不断撬毫学游效栗。 2 6 数据挖掘应用 数据琵镶掰要黢理静问题,就燕在庞大的数据库中我出有价值的隐藏攀 西南交通天学硕士研究生孥位论文第1 7 页 传,并星加以分糖,获取凑爨义熊蕊怠,魍绒出窍耀数结橡,传为遴雩亍决簸 鹣效摄。其疲鼹非霉广泛。以下是数据挖熬技术靛一些典型应震镶域: 1 科学应用 在科学研究( 特掰是实验科学和计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论