




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘的智能答疑系统的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
济南大学硕士学位论文 摘要 随着各种教学网站的出现以及基于网络教学研究的不断深入,老师与学生的在线 信息交流也日益丰富起来。在很多教学系统中,在线答疑已经成为师生交流的基本工 具。然而伴随着学生提问频数的不断增加,教师对于大量问题进行一一回答的方式已 经明显不能满足学生学习的需要,教师不可能时刻在线,也没有那么多的精力逐个回 答学生提出的问题,在交流中学生更加希望能够给予及时有效的回答,于是一种智能 化的自动答疑系统成了迫切的需要智能答疑采用了友好的自然语言接口,使网络教 学真正起到辅助教学的作用。 数据挖掘在各个领域应用不断发展,近年来人们致力于寻找新的发展空间。本课 题将数据挖掘算法应用于智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计 方案并加以实现,目标是改正当前的汉语答疑系统中存在的一些缺点。实现一个高效 快速准确的智能答疑系统该方案的设计思想: 第一,充分收集教学网站中提问回答及讨论与评价等相关信息; 第二,从每个问题所对应的许多答案中抽取出一个最优答案,生成一个一一对应 的问题答案对库,然后进行分类存储,最后形成一个可以直接用于数据挖掘的信息全 面的q a 数据仓库。这一步将基于关键词的关联规则用于文档的相似度计算中,不仅 可以为每个问题找出最优答案,而且可以提高问题文本聚类的查全率和查准率。将聚 类后的每一类问题应用关联规则,可以得到更加准确的关联表,同时也促使相似度的 精确度得以提高。因此这一循环操作可以提高答疑速率与精度; 第三,系统答疑。将用户提出的问题分析。快速定位到某一类,再从数据库中查 得与用户提出问题最相关的问题答案对,即相似度最大的文档,将其答案返回给用户, 并将问题答案存入数据仓库,备与第二步之用。 实验证明文本聚类查全率与查准率都有明显提高,该系统具有智能性,自我更新 性能,不仅节约了问题答案对的存储空间而且提高了系统答疑速率与准确率等优点。 关键词:数据挖掘;关联规则;文本聚类;答疑系统 基于数据挖掘的智能答疑系统的研究与设计 w i t ht h ec o u s t a n td e e p e n i n go fn e t w o r kt e a c h i n g 代s e a r c h ,o n l i n ec o m m u n i c a t i o n b e t w e e nt e a c h e r sa n ds t u d e n t sb e c o m e s 旧r ea n dm o r ep o p u l a ri nm a n yt e a c h i n gs y s t e m s w h e r e a sw i t ht h ei n c r e a s i n go fi n f o r m a t i o n ,t h et r a d i t i o n a lw a yt h a tt e a c h e r sa n s w e r i n ga l l t h eq u e s t i o n so fs t u d e n t sc a nn o tm e e tt h en e e a j so fs t u d e n t s s t u d y f u r t h e rm o r e , t e a c h e r s c a n tb eo n l i n ea l lt h ed a ya n dh a v en o ts om u c he n e r g yt oa n s w e rs t u d e n t s q u e s t i o n so n e b yo n e 。b u ts t u d e n t sn e e dt h e i rq u e s t i o n st ob ea n s w e r e dt i m e l ya n da c c u r a t e l y s o , a n i n t e l l i g e n ta u t oq u e s t i o na n s w e r i n gs y s t e mb e a x ) m 嚣t h eu r g e n tn e e do ft e a c h i n gs y s t e m , a n di ts h o u l dh a v eaf r i e n d l yn a t u r a ll a n g u a g ei n t e r f a c ef o re x e r t i n gi t sf u n c t i o n si n n e t w o r kt e a c h i n g w i t ht h ec o n s t a n td e v e l o p m e n to fd a t am i n i n gi nv a r i o u sf i e l d s ,p e o p l eb e g i nt ot a k e g r e a te f f o r tt oe x p l o r en e wa p p l i c a t i o na r e ai nr e c e n ty e a r s t h ep a p e ra p p l i e st h ed a t a m i n i n ga l g o r i t h mi n t o t h eq as y s t e m ,p u t sf o r w a r das e to fs c h e m ea b o u tq u e s t i o n a n s w e r i n gs y s t e mb a s e do nd a t am i n i n ga l g o r i t h ma n dr e a l i z ei t t h ea i mo ft h es c h e m ei s t og i v eu ps o m ed e f e c t so fc u r r e n tq u e s t i o na n s w e r i n gs y s t e ma n dg e ta ne f f i c i e n c yq a s y s t e m t h es c h e m e i si nd e t a i la sf o l l o w i n g : f i r s t l y , a l lt h ei n f o r m a t i o ni n c l u d i n gt h eq u e s t i o n s , a n s w e r sa n dr e m a r k sf r o ms o m e t e a c h i n gw e b s i t ei ss e a r c h e da n ds a v e d s e c o n d l y , t h eb e s ta n s w e ri sa b s t r a c t e df r o mt h em a n ya n s w e r st oe v e r yq u e s t i o n t h e o n et oo n eq a p a i r sw i l lb eg o t t e na n ds a v e db yc l a s s e s b yt h i sw a yac o m p r e h e n s i v ea n d a c c u r a c yq a d a t a b a s eg 2 n f i n a l l yb ef o r m e dt h a tc a n b eu s e dt od a t am i n i n g t h ei m p r o v e d a s s o c i a t i o nm l e sa l g o r i t h mi sa p p l i e dt oc a l c u l a t et h es i m i l a r i t yo fd o c u m e n t sa n dt e x t c l u s t e r i n ga l g o r i t h m b yt h i sm e t h o d , t h ep r e c i s i o na n dr e c a l lw i l lb em o r ee x a c ta n dt h e m o r ea c c u r a t ea n s w e r sw i l lb eg o t t e n b yu s i n gt h ei m p r o v e da s s o c i a t i o nm l e sa l g o r i t h m i n t ot h ee v e r yc l a s sa f t e rt e x tc l u s t e r i n g , t h em o r ea c c u r a t ea s s o c i a t i o nt a b l ef o re x t r a c t i n g t h eb e t t e ra n s w e r sf r o mt h ed a t a b a s ec a nb eg o t t e n f i n a l l y , a n s w e r i n gt h eq u e s t i o n s t h eq u e s t i o n s u s c i sa s k e da r ea n a l y z e da n d o r i e n t a t e dq u i c k l yt os o m ec l a s s ,a n dt h e nt h eb e s ta n s w e r sf r o mt h ec l a s sa r ea b s t r a c t e d 侪南大学硕士学位论文 a n dr e t u r n e dt ou s e r s t h eo p e r a t i n gq u e s t i o n sa n da n s w e r sa r es a v e di n t od a t aw a r e h o u s e u s i n gf o rt h es e c o n ds t e p e x p e r i m e n t ss h o wt h a tt h ep r e c i s i o na n dr e c a l lw i l lb em o r ei m p r o v e da n dt h es y s t e m h a sm e r i t ss u c ha s i n t e l f i g e n c e ,c o n t i n u o u ss e l f - r e n e w i n ga b i l i t y , s a v i n gs t o r es p a c ea n d i m p r o v i n ge x e c u t i v ee f f i c i e n c ye t c k e y w o r d s :d a t am i n i n g ;a s s o c i a t i o nr o l e ;t e x tc l u s t e r i n g ;o u e s t i o na n s w e r i n gs y s t e m ; 1 1 1 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含 任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究做出 重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律责任由本人承担。 论文作者签名: 立盔望 e l 期:趔;! :空 关于学位论文使用授权的声明 本人完全了解济南大学有关保留、使用学位论文的规定,同意学校 保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被 查阅和借鉴;本人授权济南大学可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和 汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:墨熟导师签名: 济南大学硕士学位论文 第一章绪论 1 1 课题背景、目的和意义 随着i n t e r a c t 的发展与应用,智能化信息技术得到迅猛发展。网络成了人们获取 信息的有效工具,面对面的提问解答已经不是师生的主要学习方式,基于网络的自主 性学习已经成了学生的另一主要学习方式,这使学生由听众变成了知识的主动索取 者,所以遇到不能解决的问题时,及时有效的答疑便成了同学们必不可少的需求最 初学生可以通过电子邮件直接与老师交流,或者通过系统留言板发布公告消息;接着 有了b b s 聊天室,教师和学生同时进入聊天室可以进行“面对面”的交流;后来又 出现了专门的在线答疑,仍以聊天室的形式出现的,但是由后台数据库管理员或专家 在一定的时间内针对所有问题统一做出回答,这种答疑方式已经成了教学平台的重要 组成部分,更加方便了师生交流,也为质疑和解答提供了优良的渠道;接着又出现了 进行纯文本的关键字查询的在线答疑系统,这种系统已经初步具有智能答疑的特征, 其后台数据库含有问题和与其对应的答案,学生可以输入问题的关键字对问题进行搜 索,这要求用户具有一定的抽取关键词的能力,输入关键字若不够精确,可能查到许 多与其无关的问题及其答案。 虽然以上几种交流方式一直在进步,但是这些方式费时、费力,已经明显不能满 足学生学习的需要,而且给出的答案形式单一,准确性也不高。这几种答疑方式通常 采用发帖子方式或者搜索匹配方式,没有将解答和评价有效的结合起来,所以难以给 同学们有效的解答。随着学校学生规模的不断扩大,学生索取知识的需求急剧增加, 网络内容的不断丰富,非常有必要设计一种有效的答疑系统即基于文本挖掘的智 能答疑系统i 本课题研究的目的是利用现有的自然语言理解技术【2 j ,改革现有的智能答疑系统 模式,充分利用网络资源,通过机器处理自动理解用户提出的自然语言描述的问题, 并自动返回答案,其中包括自然语言理解技术、文本分类技术【3 , 4 1 和数据挖掘技术阁 与数据仓库1 6 1 技术,最终实现了抽取问题的智能化、答案评优的智能化和信息维护的 自动化的目的,从而使得用户可以更加方便的使用系统,管理员可以更加容易的管理 基于数据挖掘的智能答疑系统的研冤与设计 系统,系统返回的答案具有更高的有效性。简而言之,答案更有效,查询更省时,管 理更方便,减轻了教师的负担,更好地帮助学生学习,提高网络教学质量和效率。 在目前的网络教学模式中,研制开发一个智能答疑系统的意义【7 1 尤为重大,这是 因为: 1 答疑是学生进行系统学习的有益补充,同时也是学生巩固知识的重要途径, 无论学习的形式如何变化,答疑对于学习活动来说是必要且不可缺少的,在网络环境 下,及时、有效地获得解答是学生网络学习的基本需求。 2 通过对学生所提问题的记录分析,可以统计出学生普遍存在的知识薄弱环节, 为教师进一步改进教学方法提供参考,成为辅助教学的有效工具。 3 在网络环境下的智能答疑系统采用了友好自然的自然语言接口,学生可以轻 松自如地提问,及时解决学习过程中遇到的难题,使网络教学真正起到辅助教学的作 用,对于网络教学方式在我国的进一步普及,具有不可估量的重大意义。 4 将功能良好的智能答疑系统应用于国家大力发展的远程教学支撑平台中,具 有很大的社会价值。 5 为自然语言理解以及信息检索技术的应用发展提供了一个方向,可以推动该 技术领域的发展。本课题还为数据挖掘的应用提供了一个新的发展领域。 1 2 国内外研究动态 智能答疑系统越来越受到重视,在国内外都有了迅猛的发展,下面了解一下智能 答疑系统在国内外的发展动态: 国外动态: 国外的教学网站【蚺1 0 1 1 i - - 般都具有较好的交互,答疑功能和反馈机制,并且每个 学生都由专门的教师负责,利用e - m a i l 、传真、信件、电话等进行答疑交流。同时, 国外也出现了一些比较成型的,能为用户解答不受限领域以及特定领域问题的答疑系 统。这些典型的问答系统有; ( 1 ) a s k j c e v c s :该系统是美国a s k j c e v e s 公司开发的,该系统的网址为: h t t p :w w w a s k j e e v e s c o r n 。a s k j e e v c s 允许用户用自然语言句子提问,检索系统会自 动分析用户的提问,然后通过与用户的交互进一步明确用户的真正意图,这种检索方 2 蒋南大学颂士掌位论文 式检索到的网页比单纯基于关键词的网页更符合用户的需求。但是,a s l o e e v e s 返回 的结果仍然是网页,而不是问题的直接答案。 ( 2 ) s t a r t :是麻省理工学院开发的问答系统。于1 9 9 3 年开始发布在i n t e m e t 上, 网址为:h t t p :l l w w w a i m i t e d u p r o j e e t s i n f o l a b 。该系统是第一个面向国际互联网的自 然语言问答系统,它能够回答针对m r r 信息实验室的地理学知识的用户提问,同时, 该系统的答案不局限于文本,也可以是图片、声音或者动画等。s t a r t 系统使用主体 关系对象三元组的形式存放系统知识以及回答问题,系统的精确性和鲁棒性都比较 差。同时,该系统是以英文为母语的,只能识别用英语提交的问题。 ( 3 ) a n s w e r b u s :也是一个比较成熟的答疑系统网址为: h t t p :m i s s h o o v e r s i u m i c h e d u 一z z h e n g q a - n e w 。a n s w e r b u s 是一个多语种的自动答疑 系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语,德语、意大利语和 葡萄牙语的问题。 ( 4 ) f a q f i n d , 芝加哥大学人工智能实验室开发的f a q f i n d e r 该系统预先收集 “问答对”库( f a q 库) ,通过使用语义网分析与概念匹配技术,采用基于向量的搜索 引擎从问答对文件中抽取答案。 国内动态: 国内的智能答疑系统【1 2 , 1 3 , 1 4 , 1 5 , 1 6 _ _ 般是作为远程教学支撑平台的一个子系统,而 不是一个独立的答疑系统。很多远程教学平台只是提供一些简单的答疑方式,并没有 专门的答疑系统。比如:让教师和学生通过留言板、b b s 、e m a i l 、实时聊天等方式 来答疑。这种方式大部分依靠人工来实现答疑,这些答疑方式对于远程教育来说有很 多缺点:一会耗费教师较多的时间来答疑,教师经常需要重复回答学生的一些问题; 二答疑经常会延时,有时学生提出的疑问好长时间没有回复,这在一定程度上影响了 学生的学习积极性和学习效率。另外,国内还有一些答疑系统采用较复杂技术,实现 了智能的答疑,克服了以上不足。它们大体上可以分为两类: ( 1 ) 基于f a o 库的智能答疑系统 比较典型的是上海交通大学的远程智能答疑系统。该系统的f a q 库存储了用户 可能提出的问答对。系统根据用户输入的自然语言句子,自动抽取其中的关键词和库 中问题进行关键词匹配,并将最匹配的问题的答案从库中返回给用户。也就是,这类 3 基于数据挖掘的智能答疑系统的研究与设计 系统只是采用简单的基于关键词的匹配技术,并没有涉及用户问句语义理解方面的技 术。哈尔滨工业大学也开发过基于常见问题库的问答系统。与上面介绍的系统不同的 是,它考虑了词语的语义,采用基于语义的句子相似度计算方法来实现问题的答疑。 该系统运用知网计算用户闯题与f a q 库中的闫题的词语语义相似度,进而得到句子 之间的相似度,将相似度满足一定条件的问题对应的答案从库中返回给用户,这种解 答方式深入到了词语的语义。答疑效果要比上面的系统好。另外北京理工大学也开发 了类似的系统。不同的是它对用户问句进行了比较深入的理解分析,将理解结果表示 成问句向量,通过本体推理以及利用知网计算闯句向量之间的语义相似度等策略,完 成问题的答疑。 ( 2 ) 基于全文检索的智能答疑系统 基于全文检索的智能答疑系统主要利用了信息检索技术来实现答疑。它的特点是 知识库不是现成的问题答案对,而是相关文档库。对用户问句进行自然语言理解后, 采用信息检索技术对文档库中的文档进行检索后。将文档按与查询的相关度排序输 出,最后系统对相关度比较高的文档采用答案抽取技术进行答案抽取后返回给用户 如华南理工大学就开发过类似的系统。 1 3 论文的组织结构 论文从结构上分为以下五个部分: 第一章,首先对课题研究的背景作了大体的介绍,阐述了课题研究的目的和意义, 然后分析了当前国内外的发展动态,并叙述了论文的组织结构和主要研究成果。 第二章,阐述了课题所涉及的两大主要技术数据仓库技术和数据挖掘技术,主 要包括其定义与功能描述等,并给出了设计的体系结构及设计步骤等。 第三章,讲述了文本挖掘的概念,挖掘过程、方法及其应用,因为本课题的工 作主要属于文本挖掘的范畴,所以对文本挖掘过程和方法作了详细的介绍。 第四章,本课题对文本聚类和关联规则算法两个经典算法做了大量的研究、改进 与应用,在本章中对这两部分进行了详细的分析与算法实现演示,同时深入研究了课 题中涉及到的其他相关算法,如分词算法,权重计算算法,文本特征向量表示方法, 特征选择方法,相似度计算方法等。针对每一种方法进行详细讲解,并将其在系统中 4 济南大学顼士学位论文 的应用给予实现。 第五章,给出了数据仓库的体系结构及算法设计方案,并演示实验过程:然后给 出了答疑系统的整体框架设计与答疑中算法流程,并演示答疑过程,最后给出问题的 文本聚类结果和系统答疑的准确度,并分析其原因。 第六章,总结全文,并对下一步的工作进行展望。 1 4 论文的主要研究成果 本文根据现有的两类中文答疑系统( 1 2 节中提到的国内现有的两种答疑系统) 的优点,提出了一种集二者优点于一体的设计思想,提出一种基于数据挖掘的智能答 疑系统。最终论文取得的研究成果主要包括: ( 1 ) 利用数据挖掘算法将某些教学平台答疑系统后台库中一对多的问题答案对 整理出一个一一对应、分类存储并可以直接用于数据挖掘的数据仓库 ( 2 ) 将关联规则算法应用于问题答案库中。得出了基于关键词的关联规则,用 于计算关键词间的关联度,进而计算文档之间的相似度 ( 3 ) 针对现有的文本聚类算法对于小文档聚类效果差的问题,提出了一种改进 的k - m e a n s 聚类算法,该算法的文档相似度计算是利用关键词的关联度的方法与空间 向量模型并行挖掘的思想得出的。这种聚类算法有效地解决了问题答案对的聚类问 题,实验证明提高了聚类得准确率和召回率 ( 4 ) 实现了一个回答自然语言提问,答疑准确、快速的智能答疑系统。经过多 次实验,得出答疑准确度和答疑速率都在很大程度上得到提高。 5 基于数据挖掘的智能答疑系统的研究与设计 第二章数据仓库与数据挖掘 2 1 数据仓库 数据挖掘所依赖的数据来源多种多样,可以使常用的关系数据库,事务数据库, 文本数据库,多媒体数据库等,主要取决于用户的目的及所处的领域。目前,数据挖 掘的数据主要来自关系数据库和数据仓库,作为一个新兴的研究领域,数据仓库技术 发展的很快,许多大学和公司都正在这个领域内进行着广泛的研究,其中尤以斯坦福 大学、i b ma l m a d e n 研究中心、威斯康辛大学、微软和a t & t 的研究最具有代表性【1 刀。 2 1 1 数据仓库的定义 经过十余年的探索与研究,人们目前一致认为,数据仓库的鼻祖美国著名的信 息工程学家因蒙w h u u m o n 博士于1 9 9 2 年在其著作( b u i l d i n gt h ed a t aw a r e h o u s e ) 一书中对数据仓库的特点描述是极其正确的【堋。在该书中他说:“数据仓库( d a t a w a r e h o u s e ) 就是面向主题的( s u b j e c to f i c m e d ) 、集成的( m t e 笋g t e ) 、非易失的( n o n v o l a t i l e ) 、时变的( 1 - 蛐ev a r i a n t ) 的数据集合体”我- f f j 可以从两个层次予以理解【1 9 1 ,首 先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据 库:其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组, 并包含历史数据,而且存放在数据仓库中的数据一般不再修改 所谓主题,是指用户使用数据仓库进行决策时所关心的重点方面,如答疑系统中 问题与答案等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,为按主 题进行决策的过程提供信息。所谓集成的,是指数据仓库中的信息不是从各个业务系 统中简单抽取出来的,是经过系统加工、汇总和整理,保证数据仓库内的信息是关于 整个组织的一致的全局信息。这一步实际上是数据仓库建设中关键、最复杂的一步。 所谓稳定的,是指某个数据一旦进入数据仓库以后,一般情况下将长期保留,也就是 数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少。所谓随时问变化 的,是指数据仓库内的信息并不只是关于整个组织当时或某一时间点的信息,而是记 录了整个组织从过去某一时间点到目前的各个阶段的信息,可以对整个组织的发展历 程和未来趋势做出定量分析和预测。 6 辑甭六掌坝士掌位论文 2 1 2 数据仓库的体系结构 简单地说,数据仓库由可操作的外部数据源、一个或多个数据库和一个或多个数 据分析工具组成。因而其实现过程应包括三大步骤l 铷:汇集各种源数据( g e t t i n gd a t a i n ) 、存储劳管理数据( m a n a g e m e n t t h ed a t a ) 和获取所需信息( g e t t i n gd a t ao u t ) 。 如图2 1 所示: 图2 1 数据仓库的体系结构 1 ) 从任何业务处理系统源中取出决策所需数据; 2 ) 对数据源进行清理和整合; 3 ) 按主题进行数据仓库的装载和更新; 4 ) 根据决策支持系统的需要,以多种形式进行数据和信息的组织; 5 ) 决策数据分析处理能力及数据挖掘; 6 ) 灵活多样的结果表现形式。 2 1 3 数据仓库的功能描述 ( 1 ) 数据仓库提供了标准的报表和图表功斛:u ,其中的数据来源于不同的多个事 务处理系统,因此,数据仓库的报表和图表是关于整个企业集成信息的报表和图表。 ( 2 ) 数据仓库支持多维分析,多维分析是通过把一个实体的多项重要的属性定义 7 摹于数据挖掘的智能答疑系统的研究与设计 为多个维度,使得用户能方便地汇总数据集,简化了数据的分析处理逻辑,并能对不 同维度值的数据进行比较,而维度则表示了对信息的不同理解角度。应用多维分析可 以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过程中非常有用。 ( 3 ) 数据仓库是数据挖掘技术的关键基础,数据挖掘技术要在已有数据中识别数 据的模式,以帮助用户理解现有的信息,并在已有信息的基础上,对未来的状况做出 预测。在数据仓库的基础上进行数据挖掘,就可以针对整个企业的状况和未来发展做 出较完整、合理、准确的分析和预测。 2 1 4 数据仓库的实现 数据仓库的实现瞄l 主要包括四个部分:数据仓库的设计,数据集成,数据存储和 管理,以及数据分析和展现。 ( 1 ) 数据仓库的设计。根据决策主题设计数据仓库结构,一般采用星型模型和 雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必 要联系。主要有以下3 个步骤【矧:1 ) 定义该主题所需各数据源的详细情况,包括所 在计算机平台、拥有者、数据结构、使用该数据源的处理过程、仓库更新计划等。2 ) 定义数据抽取原则,以便从每个数据源中抽取所需数据;定义数据如何转换、装载到 主题的哪个数据表中。3 ) 将一个主题细化为多个业务主题,形成主题表,从数据仓 库中选出多个数据子集,即数据集市( d a t am a r t ) 。这些数据定义直接输入系统中, 作为元数据( m e t a d a t a ) 存储,供数据管理模块和分析使用。元数据存储在元数据库中, 它不仅是数据仓库的文档资料,供管理、维护人员使用,而且亦可供用户查询,使之 更好地了解数据仓库结构,提高自己的使用水平。 ( 2 ) 数据集成【川。该模块是根据元数据库中的主题表定义、数据源定义、数据抽 取规则定义对异地异构数据源( 包括各平台的数据库、文本文件、h t m l 文件、知识 库等) 进行清理、转换,对数据进行重新组织和加工,去掉无用的数据项。最后转换成统 一格式加载到数据仓库的目标库中。 ( 3 ) 数据存储与管理1 2 5 1 。数据仓库的存储可以选用“多维”数据库,也可以选用关 系型数据库或其他的特殊存储方式。要保证数据的安全性、完整性及一致性,同时还 要具有复杂的分析查询的高效性。 8 济南大学硕士学位论文 ( 4 ) 数据分析和展现1 2 6 1 。o l a p 是一项分析处理技术,他从企业的数据集合中收 集信息,并运用数学运算和数据处理技术,灵活、交互式地提供统计、趋势分析和预 测报告。通过多种0 l a p 工具对数据仓库中的数据进行多维分析、汇总,形成图表或 报表的形式。使企业的决策者可以清晰地直观地看到分析结果,这就是数据仓库系统 所要达到的目的。 2 1 5 数据仓库工具 数据仓库中的工具嘲以分析型为主,但也包括查询工具。对数据仓库的查询,并 不是指对记录级数据的查询,而是指对分析结果( 发展趋势或模式总结) 的查询,这要 求友好一致的界面。数据仓库中最主要的工具是分析型工具。根据数据仓库的定义和 用途,它面向的是用户中的中高管理层,主要执行决策和趋势分析类应用。但是目前 的存储和检索系统与用户对高层次信息的需求之间存在着巨大的鸿沟,原有的d b t o o l 对此是无能为力的,解决之道唯有功能强大的分析工具。数据仓库工具大体上 可以分为两种模式嘲:验证型( v e r i f i c a t i o n ) 和发掘型( d i s c o v e r y ) 。 1 、验证型工具 用户首先提出自己的假设,然后利用各种工具通过反复的、递归的检索查询以验 证或否定自己的假设。从用户的观点看,验证型工具是在从数据仓库中发现事实。这 方面的工具主要是多维分析工具 2 、发掘型工具 发掘型的应用主要负责从大量数据中发现数据模式、预测趋势和行为。与验证型 工具一个很大的不同在于:用户在整个信息的发据过程中无需或只需很少的指导。发 掘型的工具主要指的是数据挖掘( d a t am i n i n g ) 查询工具、验证型工具和发掘型工具结合在一起构成了数据仓库系统的工具层 例,它们各自侧重点不同,因此适用范围和针对的用户也各不相同。从工具对数据分 析的深度来看,验证型工具处于较浅的层次,而发掘型工具处于较深的层次。从工具 实现的数据分析模型来看,验证型工具主要实现了前三种分析模型:绝对模型、解释 模型和思考模型;而发掘型工具实现了第四种分析模型,即公式模型。但是在实际工 作中,查询工具、验证型工具和发掘型工具是相互补充的,只有很好结合起来使用, 基于数据挖掘的智能答疑系统的研究与设计 才能达到最好的效果。建立三者合而为一的数据仓库工具层是数据仓库系统真正发挥 其数据宝库作用的重要环节。 2 2 数据挖掘技术 数据挖掘刚( d m ,d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、 随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在的有用信息和知识 的过程。 2 2 1 数据挖掘的产生背景 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越 来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的 分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查 询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未 来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏” 的现象。 数据挖掘技术p 1 】是人们长期对数据库技术进行研究和开发的结果,数据挖掘的过 程实际上就是数据增值的过程,是从大型数据库、数据仓库或其他大量信息存储系统 中挖掘潜在有用的模式。起初各种商业数据是存储在计算机的数据库中的,然后发展 到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库 技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找 出过去数据之间的潜在联系,从而促进信息的传递。 特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数 据库的简单检索查询调用,而且要对这些数据进行微观或宏观的统计、分析、综合和 推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对 未来的活动进行预测。这样一来,就把人们对数据的应用,从低层次的末端查询操作, 提高到为各级经营决策者提供决策支持。需要指出的是,这里所说的知识发现,不是 要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公 式,更不是什么机器的定理证明。所有发现的知识都是相对的是有特定前提和约束条 件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结 1 0 济南大学硕士学位论文 果,因此数据挖掘的研究成果很讲求实际【3 2 1 。 2 2 2 数据挖掘的功能 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。在某种情况下,用户不 知道什么类型的数据模式是有趣的,因此可能想并行地搜索多种不同的模式,这就要 求数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用 此外,数据挖掘系统应当能够发现各种粒度( 即不同的抽象层) 的模式。数据挖掘系统 应当允许用户给出提示,指导或聚集有趣模式的搜索数据挖掘功能以及它们可以发 现的模式类型【m 介绍如下: 1 ) 概念,类描述:特征化和区分 数据可以与类或概念相关联。例如销售的商品类包括计算机和打印机,顾客概念 包括b i g s p e n d e r s 和b u d g e t s p e n d e r s 。用汇总的、简洁的、精确的方式描述每个类和 概念可能是有用的,这种类或概念的描述称为类,概念描述。这种描述可以通过下述 方法得到: ( 1 ) 数据特征化:是目标类数据的一般特征或特征的汇总。 ( 2 ) 数据区分:将目标类对象的一般特性与一个或多个对比类对象的一般特性比 较。目标类和对比类由用户指定,而对应的数据通过数据库查询检索。 2 ) 关联分析 关联分析用于发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出 现的条件,即发现一个事物与其他事物间的相互关联性或相互依赖性。它首先是 a g r a w a lr 等提出的。所谓关联规则,是指客体之闻的相互关系。关联分析广泛用 于购物篮或事务数据分析,关联规则将在以下小节中详细讨论。 3 ) 分类和预测 分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未 来的数据趋势。数据分类是一个两步的过程,首先,建立一个模型。描述给定的数据 集,通过分析由属性描述的数据元组来构造模型,这部分的算法有:判定树( d e c i s i o n t r e e ) 、c c a - s 、贝叶斯分类算法( b a y e s i a nc l a s s i c a t i o n ) 、后向传播算法 ( b a c k p r o p a g a t i o n ) 。k - 最临近分类算法( k - n e a r e s tn e i g h b o rc l a s s i f i e r s ) 、基于案例的推 基于数据挖掘的智能各疑系统的研究与设计 理( c a s e - b a s e dr e a s o n i n g ) 、遗传算法( o e n e t i ca l g o r i t h m s ) 、粗糙集算法( r o u g hs e t a l g o r i t h m s ) 、模糊集算法( f u z z ys e t a p p r o a c h e s ) 、神经网络等。 分类是找出描述并区分数据类或概念类的模型或函数的过程,以便能够使用模型 预测类标记未知的对象类导出模型是基于对训练数据集( e p 其类标记己知的数据对 象) 的分析。预测是构造和使用模型评估无标号样本类,或评估给定样本可能具有的 属性值或值区间。分类是预测离散或标称值,而预测用于预测连续或有序值。分类和 预测的区别是:用预测法预测类标号( 或离散值) 为分类,用预测法预测连续值( 例如使 用回归方法1 为预测。分类和预测具有广泛的应用,包括信誉证实、医疗诊断、性能 预测和选择购物等 4 ) 聚类分析 聚类是将数据对象分组成为多个类或簇,在同一簇中的对象之间具有较高的相似 度,而不同簇中的对象差别较大与分类和预测不同,聚类分析数据对象,而不考虑 已知的类标记。 聚类分析已经广泛地应用于许多方面,包括模式识别,数据分析,图像处理,以 及市场研究等。 5 ) 孤立点分析 数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数 据对象被称为是孤立点,大部分数据挖掘方法将孤立点视为噪声或异常而丢弃。然而 在一些应用中,孤立点事件可能比正常出现的事件更有趣,孤立点数据分析称作孤立 点挖掘。 孤立点分析可以发现信用卡欺骗。通过检测一个给定账号与正常的付费相比,以 付款数额特别大来发现信用卡欺骗性使用。孤立点值还可以通过购物地点和类型,或 购物频率来检测。 6 ) 演变分析 数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这种 分析可能包含时阃相关数据的特征化、区分、关联、分类或聚类,这类分析的不同特 点包含时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。 1 2 济南大学硕士学位论文 2 2 3 数据挖掘的体系框架 数据挖掘的体系框架1 3 4 1 ( 图2 2 ) 大体由三部分组成:数据准备体系、建模挖掘 体系、结果解释与评价体系。然而在实际应用中,这三个体系并没有明显的界限,因 为数据挖掘的过程是一个反复循环的过程,从数据预处理、模型建立、数据挖掘、直 到结果评价,可以从一个步骤返回前面的环节为了达到更好的效果,往往进行多次 反复的过程,直到对结果满意为止。 2 2 4 数据挖掘的步骤 图2 2 数据挖掘的体系框架 d m 的数据分析过程可以分成四个步骤【3 5 l 。 1 、数据准备( d a t ap r e p a r a t i o n ) 1 3 基于数据挖掘的智能答疑系统的研究与设计 本阶段可以进一步细分为两步:数据集成;数据选择和预分析。( 1 ) 集成 ( i n t e g r a t i o n ) 。在这一步中,将从操作型环境中提取并集成数据,解决语义二义性问 题,消除脏数据等。很明显,数据集成的目的是为了建立统一的数据视图。数据挖掘 系统建立子数据仓库之上,所以不会漏掉任何与主题相关的信息。另外,为了保证结 果的正确性,d m 需要大量的基础数据,数据仓库可以很好的满足这个要求。( 2 ) 数 据选择和预分析( d a t as e l e c t i o na n di r e - a n a l y s i s ) 。这一步将负责缩小数据范围,提 高数据挖掘的质量,验证型工具( o u 姬) 擅长于对数据的细致,深入地观察和表述, 在这一步中可以发挥相当的作用 2 、数据挖掘( d a mm i n i n g ) 数据挖掘执行阶段首先根据对问题的定义明确挖掘的任务或目的,然后决定使用 什么样的算法。选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此 需要用于之相关的算法来挖掘;二是用户或实际运行系统的要求,有的用户可能希望 获取描述型的,容易理解的知识,而有的用户只是希望获取预测准确度尽可能高的预 测知识,并不在意获取的知识是否易于理解 3 、结果表述( p r e s e n t a t i o n ) 数据挖掘将获取的信息以便于用户理解和观察的方式反映给用户,这时可以利用 可视化工具。由于用户要求的不同,d m 分析的数据的范围会有所不同,例如计算机 相关课程之间的关联规则,比较高级层次上的关联规则等。这样的d m 系统会得出不 同的结论。这些基于不同数据集合的分析结果除了通过可视化工具提供给用户外还可 以存储在知识库中,供日后进一步分析和比较。 4 、结果解释与评价 数据挖掘结果的评估是数据挖掘最后阶段,它可以判断挖掘算法的有效性。挖掘 的结果好,那软件维护人员可以十分方便地理解和修改程序,节约时问,提高效率。 现在研究人员已经提出了预测度( p r c d i c t a b i l i t y ) 和兴趣度( i n t e r e s t i n g n e s s ) 等标准,并通 过实验对他们自己提出的挖掘算法或框架进行了评估。评估所挖掘模式的趣味性标准 对于有效挖掘出具有应用价值的模式知识十分重要,这些标准不但可以直接帮助指导 挖掘算法获得有实际价值的知识,有效抛弃无意义的模式,更重要的是可以积极指导 整个知识发现过程,及时消除无前途的搜索路径,提高挖掘有效性。但是,现在主要 1 4 济南大学硕士学位论文 的评估手段是实验,并且都是对特定算法。特定框架的应用进行评估,缺乏通用的评估 标准与方法,尤其在程序理解方面,更是没有什么好的方法:程序理解本来就没有硬 性指标,对程序理解的好与差没有明显的区分标准。这些方面都是今后进行研究要解 决的问题。 2 2 5 数据挖掘存在的问题及展望 尽管数据挖掘在国内外应用广泛,但也存在许多问题,这为未来的发展提供很大 空间。首先。数据挖掘涉及的数据关系到隐私及安全,比如保险业务中,通过对投保 人的工资、职业、年龄等信息的挖掘,得出向何种人投保风险小的结论,从而方便联 系业务。但这样涉及安全隐私问题,要做好对顾客保密。必须健全法制,确保安全。 数据挖掘不能告诉你某个模型对你的企业的实际价值;数据挖掘是一个工具,它 只是帮助商业人士更深入、更容易地分析数据,但是无法告诉你某个模型对你的企业 的实际价值;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 夏天的沙滩作文
- 2025年教师招聘之《幼儿教师招聘》通关练习题库包及参考答案详解【夺分金卷】
- 2025内蒙古呼伦贝尔农垦集团有限公司招聘笔试及答案详解(新)
- 2025年教师招聘之《小学教师招聘》题库必背100题及完整答案详解【夺冠系列】
- 成都安全管理培训课件
- 卫浴投票活动策划方案范文
- 2025年公安辅警招聘知识考试题库附含答案
- 彩超在腹部的运用
- 工业母机关键核心部件国产化替代技术创新趋势报告
- 公安机关封控应急处置预案
- 2025债权收购委托代理合同
- 2025年中国建筑集团招聘面试宝典与模拟题答案
- 2025年辅警招聘考试试题库(附答案)(满分必刷)
- CQB战术课件教学课件
- 汽车客运服务合同协议书
- 稽核培训课件
- 制鞋工岗前考核试卷及答案
- 2025-2026年秋季学期一年级开笔礼校长致辞稿:执笔启智 向新而行
- 2025强制执行申请书(范文模板)
- 《法律基础知识》教案
- 2025年浙江省中考道德与法治试题答案详解讲评(课件)
评论
0/150
提交评论