




已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)面向文本的主题挖掘技术与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
r e s e a r c ha n dr e a l i z a t i o no f t o p i ce x t r a c t i o nb a s e d o nt e x tm i n i n g b y l uj i a n 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律责任由本人承担。 论文作者签名: 关于学位论文使用授权的声明 本人完全了解济南大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借鉴;本人授权济南大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:导师签名:日期: 济南大学硕十学位论文 目录 摘要v a b s t r a c t v i i 第一章绪论1 1 1 课题背景、目的和意义1 1 2 国内外研究动态2 1 2 1 国内研究动态2 1 2 2 国外研究动态2 1 3 论文的组成部分3 1 4 论文的主要研究成果4 第二章数据挖掘原理5 2 1 数据挖掘产生的背景5 2 2 机器学习与数据挖掘5 2 3 数据挖掘的含义6 2 4 数据挖掘中的基本概念7 2 5 数据挖掘的步骤7 2 6 数据挖掘的体系结构9 2 7 数据挖掘的功能1 0 2 8 数据挖掘的分类与应用1 2 第三章文本挖掘原理 3 1 文本挖掘及其与数据挖掘的区别 3 1 1 文本挖掘的概念 3 1 2 文本挖掘与数据挖掘的区别 3 2 文本挖掘的过程 3 2 1 特征提取文本表示 3 2 2 特征选择 i 面向文本的丰题挖掘技术与实现 3 2 3 结果评价1 7 3 3 文本挖掘的方法1 8 3 3 1 文本的特征表示1 8 3 3 2 文本的特征选择1 8 3 3 3 文本分类1 9 3 3 4 文本聚类2 0 3 4 文本挖掘的功能2 0 3 5 文本挖掘在本课题中的应用2 1 第四章特定主题词库建立的相关技术的研究2 3 4 1 相关技术的研究2 3 4 1 1 中文切词2 3 4 1 2 文本特征表示与向量空间模型2 7 4 1 3 词语间的相关度2 8 4 1 4 文本的特征选择2 8 4 1 5t f i d f 方法提取文本主题词2 9 4 2 主题词库的建立3 0 4 2 1 文本主题词的提取3 1 4 2 2 句内同现率3 l 4 2 3 组合词的拼接3 2 4 2 4 同义词处理3 2 第五章面向文本的主题挖掘技术与实现3 5 5 1 系统的设计与功能3 5 5 1 1 系统功能结构图3 5 5 1 2 系统总体设计3 5 5 1 3 系统功能流程图3 7 第六章系统测试结果分析4 l 6 1 领域词库生成实验及结果分析4 1 6 1 1 实验环境介绍4 l h 济南大学硕十学位论文 6 1 2 实验方法4 1 6 1 3 实验结果4 2 6 1 4 结果分析4 3 6 2 文档主题生成实验及结果分析4 4 6 2 1 实验环境介绍4 4 6 2 2 实验方法4 4 6 2 3 实验结果4 4 6 2 4 结果分析4 6 第七章结束语4 7 7 1 全文总结4 7 7 2 进一步研发设想4 7 7 3 实验总结4 8 参考文献4 9 致谢5 3 附录a ( 攻读学位其间发表论文目录) 5 5 l i l 面向文本的主题挖掘技术与实现 i v 济南大学硕十学位论文 摘要 随着信息时代的到来,互联网技术得到了飞速的发展,数字化图书馆、数字化 办公也变得越来越普及,于是网络上的信息在以几何级数般的速度在膨胀。面对网 络上如此浩瀚的信息,和人们有限的精力,快速提取出自己需要的信息,成为了人 们的迫切需求。目前存在的主题挖掘系统,能够提取出文档的主题,从一定程度上 满足了人们的需求,但是它们大都存在着效率低,主题提取不准确的问题,为此, 本课题认真分析了他们的不足之处,通过改进提出了一种面向文本的主题挖掘的新 技术。 面向文本的主题挖掘技术,旨在利用日益成熟的文本挖掘技术,首先抽取某一 领域的一篇文档,和其他领域的几百篇文档,进行特征表示和中文切词处理,然后 统计词频,计算权重大小,得出这一领域的此篇文档中的词语,在代表该领域词语 特征方面的重要程度。一般认为,一个词语在该领域内越重要,那么它在该领域的 文档中的出现频率就越高,而在其它领域内的出现频率越低,甚至不出现。然后按 重要程度的大小排序,并按比例提取词语放入该领域的词库中。同时,很多文本文 档都带有标题、摘要、关键字等信息,而这些信息跟正文相比,对于文本主题的贡 献程度是不同的,它们往往都是经过作者提炼加工得出的,因此,比j 下文信息更能 代表文档的中心思想,所以还要对将这些信息经过切词处理后与j 下文信息进行词语 相似度计算,将符合阈值要求的词语加入到该领域的词库中,然后还要将中文切词 中切碎的词语,进行组合词拼接,以使专业词语保留在该领域的主题词库中,最后, 按比例提取主题词,得到该领域的主题词库,同时,由于“爸爸与“父亲”具有 相同的含义,因此,还需要将得到的该领域的主题词库中的词语查找同义词表,并 将这些词语的同义词一块加入到该领域的词库中。通过不断的训练,该领域的文档, 逐步扩展该领域的词语数,并且通过设定的参数优化本领域中的词语,使其保留最 具代表性的词语,提高主题发现的效率和准确性。 在得到的领域词库的辅助下,将需要进行主题挖掘的文档经过特征表示后,用 该领域的主题词库进行切词处理,通过词频统计和权重计算后,得到按权重大小排 序的词集,最终得到形如“体育一 足球一 任意球技术”的主题。 实验表明:在建立领域词库的过程中该方法的准确率在8 0 以上,并会随着背 景文档数的增加,准确率成缓慢上升的趋势,因为随着词语数量的增加,专业词语 v 面向文本的主题挖掘技术与实现 在该领域中的出现频率不变而在其它领域中的出现频率会逐渐降低,这样经过权重 计算,就会使主题提取的准确率提高。 在主题提取实验中,该方法在领域词库的帮助下,能够准确、高效的提取出该 文档表达的主要思想,能够帮助人们从浩瀚的文本信息中,快速识别自己需要的东 西,提高人们的工作效率。 综上所述,面向文本的主题挖掘技术,在借鉴传统方法的基础上,通过改进方 法,提出了一种全新的挖掘主题的方式,提高了主题挖掘的效率和准确性,并且能 够在使用过程中不断完善。 关键字:数据挖掘;文本挖掘;文本分类;领域词库;主题提取 v l 济南大学硕十学位论文 a b s t r a c t a l o n gw i t ht h ec o m i n go fi n f o r m a t i o np e r i o d ,t h ei n t e m e td e v e l o p sf a s t l y i ti s c o n l m o no ft h ed i g i t a ll i b r a r ya n dd i g i t a lo f f i c e t h en e t w o r ki n f o r m a t i o nd e v e l o p q u i c k l y p e o p l eh a v ef e wt i m et or e a ds om a n ym a t e r i a l s s oo b t a i n i n gt h ek n o w l e d g e t h a tp e o p l en e e dq u i c k l yi sd e m a n d e du r g e n t l y c u r r e n t l y , t h ee x i t i n gt o p i ce x t r a c t i n g s y s t e m ,c a nf u l f i lp e o p l er e q u i r e m e n tp a r t l y b u tt h e yh a v el o w e re f f i c i e n c ya n dp r e c i s i o n t h et i t l ea n a l y s e st h ed e f e c to ft h ee x i s t i n gs y s t e m ,a n di m p r o v e st h e m ,a d v a n c i n gt h e n e w t e c h n o l o g yo ft o p i ce x t r a c t i n gb a s e do n t e x t t h et o p i ce x t r a c t i n gb a s e do nt e x ti so nt h eb a s i so ft e x tm i n i n g ,c h o s i n go n e d o c u m e n to faf i e l da n dh u n d r e d so fd o c u m e n t so fo t h e rf i e l df i r s t l y t h e n ,r e p r e s e n t i n g t h ed o c u m e n t sa n ds p l i t t i n gt h es e n t e n c e a tl a s t ,c a l c u l a t i n gt h ew o r df r e q u e n c y , a n d c a l c u l a t i n gt h ew e i g h t i td e l e g a t e st h ei m p o r t a n c eo ft h ew o r di nt h ef i e l d u s u a l l y , t h e m o r ei m p o r t a n tt h ew o r di s ,t h em o r ea p p e a r a n c ei nt h ef i e l d s ow ec a ng e tal i s t a c c o r d i n gt ot h ew e i g h t ,a n dp u tt h ew o r d si n t ot h et o p i cl e x i c o nb ys c a l e a tt h es a m e t i m e ,m a n yd o c u m e n t sm a k eu po ft h et i t l e , a b s t r a c ta n dk e yw o r d s t h e ya r em o r e i m p o r t a n to nd e l e g a t i n gt h et o p i co f t h ed o c u m e n ta g a i n s tt h et e x t s o ,w eh a v et os o l v e t h e mb ye a c u l a t i n gt h et e x ts i m i l a r i t yi no r d e rt oe x t r a c tt h et o p i ce x a c t l y c o m p o u n d w o r dc o n n e c t i o ni sa l s oa ni m p o r t a n ts t e pi nt h et o p i ce x t r a c t i o n b e c a u s et h ew o r df a t h e r h a st h es a m em e a n i n go f b ab a ”w h e na d d i n gt h ew o r dt ot h et o p i cl e x i c o n ,w es h o u l d i n q u i r et h es y n o n y mt a b l et o a d dt h es y n o n y m i nt h et o p i cl e x i c o n ,w ea d dt o p a r a m e t e r st oe n h a n c e t h ee f f i c i e n c ya n dp r e c i s i o n o nt h eh e l po ft h et o p i cl e x i c o n ,w ec a nr e p r e s e n tt h ed o c u m e n tt h a te x t r a c t i n gt h e t o p i c ,a n ds p l i t t i n gt h ew o r db yt h et o p i cl e x i c o n t h e n ,c a l c u l a t i n gt h ew o r df r e q u e n c y , a n dc a l c u l a t i n gt h ew e i g h t a tl a s t w ec a na c q u i r et h et o p i co ft h ed o c u m e n t ,s u c ha s ”s p o r t - 一 f o o t b a l l 一一 f r e ek i c k ” i ti ss h o w nb yt h ee x p e r i m e n t ,t h ep r e c i s i o ni s8 0 a b o v e ,a n di tw i l le n h a n c ea l o n g w i t ht h en u m b e ro fb a c k g r o u n dd o c u m e n t s t h er e a s o ni s ,i tw i l lb em o r ei m p o r t a n t a l o n g w i t ht h ei n c r e m e n to fw o r d s i nt h ee x p e r i m e n to ft h et o p i ce x t r a c t i o n ,a st h eh e l po ft h et o p i cl e x i c o n ,t h em e t h o d v l i 面向文本的主题挖掘技术与实现 c a ne x t r a c tt h et o p i co ft h ed o c u m e n te x t a c t l ya n dq u i c k l y t h u s ,i tc a r lh e l pp e o p l et o e n h a c et h ew o r k i n ge f f i c i e n c y a l li na l l ,b yi m p r o v i n gt h et r a d i t o n a lm e t h o d so f t o p i ce x t r a c t i o n ,t h et e c h o n l o g yo f t o p i ce x t r a c t i o nb a s e do nt e x ta d v a n c e san e wm e t h o do ft o p i ce x t r a c t i o n ,a n de n h a n c e t h ee f f i c i e n c ya n dp r e c i s i o no ft o p i ce x t r a c t i o n m o r ei m p o r t a n t ,i tc a ni m p r o v e t h e m s e l v e sc o n t i n u o u s l y k e y w o r d s :d a t am i n i n g ;t e x tm i n i n g ;t e x tc l a s s i f y i n g ;t o p i cl e x i c o n ;t o p i ce x t r a c t i o n v i l l 济南大学硕十学位论文 皇i ;a l i i m ;i i iiiii i i i i i ! 詈詈詈詈皇詈詈詈皇詈詈曼! 詈詈! 暑 第一章绪论 1 1 课题背景、目的和意义 随着信息时代的到来和互联网技术的发展,网络在人们的生活中正在扮演着越 来越重要的角色,越来越多的人们已经慢慢习惯通过网络获取自己想要的信息。信 息通讯技术的发展及由此带来的信息量的增长,极大地促进了人们的沟通和交流, 为人类的文明和发展做出了巨大的贡献。但同时,信息爆炸式增长带来的消极影响 正在凸现。一方面由于信息产生的速度远远超过人们对信息的利用能力,使得人们 在海量的信息面前无所适从,给广大用户带来时间、资金、精力的巨大浪费。据统 计,机构内9 0 的信息是以文本的形式存在,我们存在着大量的数字化图书馆、和 数字化档案馆,同时数字化办公也变得越来越流行,w e b 中9 9 的可分析信息是以 文本形式存在的,w e b 网页总量超过1 0 0 亿,每天新增网页数千万;另一方面,有 害和无用信息正在严重影响着国际政治、军事、经济、金融安全与决策效率。人们 要想从如此浩瀚的文本信息中获取对生产和生活有指导意义的信息,势必会耗费大 量的时间和精力,而且效率也会非常低。在网络信息时代全球j 下面临前所未有的信 息爆发式增长的挑战。 传统的主题挖掘技术的不足之处在于:一方面,为了准确地切分专业词库,往 往会配置一个庞大的切词词典,这样会导致,切词效率较低,甚至会让用户达到无 法忍受的程度;另一方面,如果切词词典变小,一些专业的术语又不能准确地切分 出来,另外,大多数主题挖掘方法往往没有考虑文档中摘要、标题、正文等不同组 成部分对文档主题的重要性的不同,以及词典的优化等方面的问题。 面向文本的主题挖掘技术与实现,旨在借助于同益成熟的文本挖掘技术,通 过对大量文本文档进行中文切词处理,然后计算词语的权重,按比例提取主题词, 分领域生成主题词库。将训练得到的词库再作为主题提取的切词词库,然后根据提 取出来的主题词,获取该文档所表达的中心思想。 这样一来,我们可以运用计算机技术,模拟人类获取知识的过程,对文档特别 是长篇文档进行文本挖掘处理心1 后,“概括”出它的中心思想,形式为“体育足球 专任意球技术”。这样就可以充分发挥计算机在处理海量信息时准确、快速的优势, 充分利用信息时代的各方面的海量信息,并能大大减轻人们的工作量,让人们从繁 面向文本的主题挖捅技术与实现 重的文字阅读中解脱出来,可以根据自己的兴趣和爱好,有目的、有针对地获取某 一方面的信息,避免无效的学习,适应信息时代的要求,帮助人们快速的取得进步。 1 2 国内外研究动态 1 2 1 国内研究动态 2 0 0 5 年,在计算机应用上,发表了一种基于词聚类的中文文本主题抽取方法 口1 该方法利用相关度对词的共现进行分析,建立词之间的语义关联,并生成代表某 一主题概念的用种子词表示的词类。对于给定文档,先进行特征词抽取,再借助词类 生成该文档的主题因子,最后按权重输出主题因子,作为文本的主题。,该方法具有 较高的抽准率。2 0 0 6 年,在计算机工程与设计上发表文本主题的自动提取方法研 究与实现h 3 ,它在深入分析了当前流行的文本主题提取技术和方法的基础上,将 语义方法融入统计算法,提出了一种基于统计的主题提取方法,并描述了它的实现 过程。该方法利用文档内句子之间的语义相关性,实现了文本主题的自动生成。它 首先对文本进行切词和分句处理实现信息分割,再结合文本聚类技术对文本句进行 聚类实现信息合并,最后从每类中抽取代表句生成文本主题。2 0 0 7 年提出的一种 w e b 主题文本通用提取方法畸3 。该方法巧妙地利用中文文本长度和标点符号序列, 配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及 具体的h t m l 标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准 确性,达到了构建大规模中文文本语料库的要求。2 0 0 9 年提出了中文文本情感主 题句分析与提取研究陆3 该方法通过对文本中语义的归纳和概括计算各个候选主题 句的重要程度,然后确定文档的主题,它侧重于情感主题句的分析和提取。 1 2 2 国外研究动态 19 9 7 年由l a n d a u e ra n dd u m a i s 提出的l a t e n ts e m a n t i ca n a l y s i s ( l s a ) 理论中描 述了知识归纳和知识表征的新理论,也是利用大型文本语料库及统计计算方法提取 和表征词汇语境意义的一种理论和方法,它使用统计计算的方法对大量的文本集 进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构, 来表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的, 能够提取文档的主题思想。2 0 0 4 年基于可视化文档的语义主题提取和分割的 方法, s e m a n t i c t o p i c e x t r a c t i o na n ds e g m e n t a t i o nf o re f f i c i e n td o c u m e n t v i s u a l i z a t i o n h 3 ,它根据语义数据库中词和词之间的关系,产生有助于主题理解的关 2 济南大学硕:t :学位论文 键词。并且这种方法有助于对文档结构的理解和分割。2 0 0 8 年发表的“能力管理领 域的科技论文的主题提取研究 t o p i ce x t r a c t i o n f r o ms c i e n t i f i cl i t e r a t u r ef o r c o m p e t e n c ym a n a g e m e n t m l 。提出了一种自动的用于提取网络上发表的文献主题的像 g o o g l e 学术搜索一样的技术,它可以被广大网民自由使用的,并对这种技术进行了 测试,反馈的结果对于这种技术的改进是很有力的,也就是说他在一定程度上完成 了主题提取功能。 1 3 论文的组成部分 本论文由以下七部分组成: 第一章,阐述了本课题研究的迫切性和重要性,同时说明了当今国内外学者们 在该领域的研究情况和他们当前研究的各自的特点,并且描述了本论文的组成部分 以及各项研究成果。 第二章,详细介绍了本课题所涉及的数据挖掘的产生背景、基本概念,数据挖 掘的功能、体系结构、分类和应用,让读者对数据挖掘有个全面、深入的理解,为 后面用到的知识做铺挚。 第三章,详细说明了本课题研究的范畴文本挖掘这一重要的研究方向的相关 的各种概念、各种理论和各种方法,同时介绍了文本挖掘与数据挖掘的区别,文本 挖掘的过程、方法和功能以及文本挖掘在本课题中的应用作了详细的介绍。以便读 者进一步深入的理解本课题的研究内容和意义。 第四章,对特定主题词库建立过程中需要用到的方法和理论做了详细的介绍, 包括:中文切词技术、权重计算、词语的相关度计算、组合词拼接、句内同现率计 算等,并给出了本系统中用到的核心算法和建立领域词库的流程图。本系统将这些 方法进行整合,用n e t b e a n s 6 1 进行了系统实现。 第五章,首先给出了系统的功能结构图和系统的功能流程图,通过这两个图, 可以让读者很容易的理解该系统的整体结构,并对每一部分的设计方法和系统的功 能流程做了详细的介绍。 第六章,对领域词库的生成的实验环境和方法做了详细介绍,并通过选取不同 数量的文档对领域词库的生成结果做了对比实验,同时对主题提取进行了详细的验 证,通过实验,验证该方法的效率和准确性,并详细 兑明了两个实验得出的结论。 第七章,对本课题进行了回顾,同时对将来的研究提取了方向。 面向文本的主题挖掘技术与实现 暑! 詈曼曼皇詈鼍詈皇詈詈皇詈詈皇詈詈! 鼍皇詈詈詈詈詈詈皇詈曼詈皇詈皇詈詈詈詈曼詈! 詈皇詈鼍i i i 皇皇詈鼍詈詈皇! 詈! 鼍! ! 皇詈鼍皇詈! 詈! 皇! ! 詈皇 1 4 论文的主要研究成果 本文在分析目前存在的各种主题挖掘系统的基础上,吸取他们的优点,改进了 其中的不足之处,提出了一种新的主题挖掘技术,它通过首先生成领域词库,然后 通过领域词库进行主题挖掘,提高了主题挖掘的效率和准确性,本课题所取得的研 究成果,有以下几个方面的内容: ( 1 ) 提出了领域词库的概念,通过文本的预处理,将能够代表该领域特征的词 语提取出来,加入到相应的主题词库中,然后,利用主题词库进行主题挖掘,不但 提高了中文切词的效率,而且大大提高了切词的准确性,使中文切词的复杂度大大 的降低。 ( 2 ) 提出了对领域词库的优化技术,通过在每个词语后添加追加频率表征该词语 在文本训练过程中被作为该领域的专业词语保留下来的次数和切分频率表征该词 语在主题挖掘过程中,作为切词词语使用的次数两个参数,在进行一段时间的主题 挖掘后,可以将追加频率低并且切分频率低的词语删除,以提高词库中专业词语的 代表性和切词的效率 ( 3 ) 通过改进权重计算公式的使用方式,能够在一个较小规模的文档集空问中 ( 几百篇) 进行主题挖掘,降低了主题挖掘的复杂程度,提高了主题挖掘的效率。 ( 4 ) 通过区分文档中不同组成部分的重要程度,分别处理,以及使用组合词拼接, 词语关联度等技术,提高了生成的领域词语的准确性,进而提高了主题挖掘的准确 性。 ( 5 ) 在挖掘某领域的专业文档时,选取该领域的词库,大大提高了中文分词的效 率、和准确性,能够将某些专业性很强的词语切分出来,进而提高了主题挖掘的准 确性。 4 济南大学硕十学位论文 第二章数据挖掘原理 2 1 数据挖掘产生的背景 数据挖掘是- - f - j 涉及数据库技术、机器学习、统计学、人工智能模式识别的跨 学科技术。它是在强烈的社会需求下而产生和发展的。随着数据库技术的发展,数 据采集和数据存储技术,使得数据库的规模变得越来越庞大,如何充分利用这些庞 大的数据库,从中获取有价值的信息逐渐成为迫切的需求。当今的数据库系统虽然 已经相当完善,能够很好的管理各种数据,但是在数据挖掘领域所起的作用并不明 显。比如它只能存储各种数据信息,但是对于各种数据之间的关系,如规则、关联 等无法提取,这就像人们面对一个海量的矿产宝库,无法去“开采 一样,非常的 可惜。 而数据挖掘的产生f 好适应了当时时代的发展需求,可以说它是时代的产物, 它不仅能分析各种海量的数据信息,而且能从中发现数据之间纷繁复杂的关系,这 是一件很令人兴奋的事情,这样人们就可以利用这一工具,对过去一段时问产生的 各种数据加以分析,然后从中找到需要的规则,并且加以应用,在今后的生产和生 活过程中,加以运用,对企业实现生产成本的最小化和产品利润的最大化,对经营 者实验销售利润的最大化。 当然,应该看清楚的是,数据挖掘是一种工具,它是综合运用各种相关技术的 产物,要想让它充分发挥自己的优势,还需要做一些辅助的工作,比如对于产生的 各种规则,还需要解释为人们易于理解的自然语言表达的各种知识1 3 2 1 2 2 机器学习与数据挖掘 机器学习( m a c h i n el e a r n i n g ) 作为人工智能的重要研究领域之一,已经遍及人 工智能的各个领域,它产生的初衷是为了让计算机系统模拟人类的学习能力,获取 新知识或新技能,以使其具有智能。从而代替人类的劳动。因为众所周知,没有学 习能力的系统很难被认为是具有智能的。但是,使得计算机具备智能的各种规则和 理论都是存储在计算机系统中的数据,所以,机器学习的重点就是怎样充分地分析 这些数据,从中获取有用的信息。 “数据挖掘”和“机器学习”经常被同时提到,而且有些情况下,经常被人 5 嚆 】向文本的主题挖獭技术与买现 们认为是一种事物。其实它们之间还是有区别的,数据挖掘技术是机器学习和数据 库技术共同作用下的产物阳1 ,首先利用数据库技术存储和管理各种事物,同时利用 机器学习技术来分析各种事物,这样才能提取各种规则和约束,它们之间的关系如 图2 1 所示: 数据分 图2 1 机器学习与数据挖掘 管理技术 2 3 数据挖掘的含义 数据挖掘【l o 】( d a t am i n i n g ) ,又称为数据库中的知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,l d ) ,就是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又时潜在的有用信息和知识的过程。国 内外很多学者也将“d a t am i n i n g ”翻译为数据采掘或数据开采。概括地讲,数据挖 掘就是从海量数据中获取有价值的信息。 数据挖掘必须包括三个因素:( 1 ) 数据挖掘的本源:大量、完整的数据。( 2 ) 数 据挖掘的结果:知识、规则。( 3 ) 结果的隐含性:因而需要一个挖掘过程。 由此看来,数据挖掘的过程具有以下一些显著的特点: ( 1 ) 数据挖掘要处理大量的数据,它所处理的数据库( 数据仓库) 的规模十分庞 大,达到g b 、t b ,甚至更大; ( 2 ) 由于用户不能形成精确的查询要求,因此要运用数据挖掘技术为用户找寻 他可能感兴趣的东西; ( 3 ) 在数据挖掘过程中,规则的发现是基于统计规律的。因此,所发现的规则 不必适用于所有数据,而是当达到一定的“阈值”时,即认为具有此规则。所以, 利用数据挖掘技术可能会发现大量的规则; ( 4 ) 数据挖掘所发现的规则是动态的,它只是反映了当前状态的数据集合所具 有的规则,随着不断地向数据库( 数据仓库) 中加入新的数据,需要不断地更新规 则,以便发现新的规则。 6 济南大学硕+ 学位论文 2 4 数据挖掘中的基本概念 ( 1 ) 模式1 ( p a t t e r n ) :是指用高级语言表示的表达一定逻辑含义的信息,这里通常指 数据库中数据之间的逻辑关系。例如:在超市的商品销售数据库中,我们可以找到 以下信息:人们在购买足球、篮球等球的同时,也往往会购买球针;在购买手机的 顾客中,大部分的人同时也买了手机套。 ( 2 ) 兴趣度( i n t e r e s t i n g n e s s ) 在一定数据域上为真的知识被用户关注的程度。 ( 3 ) 置信度( c o n f i d e n c e ) 知识在某一数据域上为真的量度。置信度涉及到许多因素, 如数据的完整性、样本数据的大小、领域知识的支持程度等。没有足够的确定性, 模式不能成为知识。 ( 4 ) 知识( d i s c o v e r e dk n o w l e d g e ) 满足用户兴趣度和置信度的模式。 2 5 数据挖掘的步骤 数据挖掘可分为:数据准备( d a t ap r e p a r a t i o n ) 、数据挖掘( d a t am i n i n g ) 、 结果评价( e v a l u a t i o n ) 三个步骤n 来进行,如图2 2 所示 卜一数据准备斗据挖掘十结果评价- q 图2 2 数据挖掘的步骤 ( 1 ) 数据准备“3 1 ( d a t ap r e p a r a t i o n ) 这一步中,又包含数据集成( d a t ai n t e g r a t i o n ) 、数据选择( d a t as e l e c t i o n ) 、数据 7 面向文本的主题挖掘技术与实现 预处理( d a t ap r e p r o c e s s i n g ) 和数据转换( d a t at r a n s f o r m a t i o n ) 。 a ) 数据集成:将从操作型环境中提取并集成数据,解决语义二义性问题,消除 脏数据等。显然,数据集成的目的是为了建立统一的数据视图。因为用于进行数据 挖掘的数据,可能来自于多个不同的系统,要想将不同系统中的数据建立统一的格 式,就可能需要将一些命名方式、单位等做数据转换处理,以满足知识发现的需要。 数据挖掘系统建立于数据仓库之上,所以不会漏掉任何与主题相关的信息。另外, 为了保证结果的j 下确性,数据挖掘过程需要大量的基础数据,数据仓库能够很好的 满足这个要求。 b ) 数据选择的目的就是确定目标数据,即本次数据挖掘的操作对象,它是根据 数据挖掘的目的,从原始数据库中提取的一组数据。 c ) 数据预处理就是要进行消除噪声、消除重复记录、完成数据类型的转换( 比如 把连续值数据转换为离散型的数据,以便于符号归纳,或是把离散型的数据转换为 连续值型的,以便于神经网络) 等。当数据挖掘的对象为数据仓库时,通常,数据预 处理已经在生成数据仓库时完成了。 d ) 数据转换的主要目的是消减数据维数或称为降维,即从初始特征中发现对数 据挖掘有真正价值的特征项,以减少要考虑的特征或变量个数,提高挖掘效率。 ( 2 ) 数据挖掘 数据挖掘f 1 4 1 执行阶段首先根据对问题的定义明确挖掘的任务或目的,如数据分 类、数据聚类、关联规则发现或序列模式发现等。然后决定使用什么样的算法。选 择实现算法要考虑以下两个方面的内容:一是根据数据的特点,选择与之相关的算 法来挖掘;二是根据用户或实际运行系统的要求,有的用户可能希望获取描述型的, 容易理解的知识,而有的用户只是希望获取预测准确度尽可能高的预测知识,并不 在意获取的知识是否易于理解。最后,实施数据挖掘算法,以获取有用的模式。 ( 3 ) 结果评价 经过数据挖掘的过程,会发现一些模式,而数据挖掘本身是面向用户的,因此, 要将这些模式表示为用户能够理解的形式,然后用户对这些模式进行评价,消除与 挖掘目标无关的模式,如果所有模式都不能满足用户的需求,那就要重新选取数据, 或采用新的数据挖掘算法,重新设定阈值等,再通过数据挖掘步骤,重新发掘模式, 直到达到用户的要求为止。 整个数据挖掘过程【1 4 1 是一个不断重复,并在重复中不断获取反馈的过程。数据 济南大学硕十学位论文 挖掘算法的执行只是整个数据挖掘步骤中的一步,要想提高数据挖掘的效率,还要 在数据的选择、数据挖掘特征的选取、数据的数量等方面进行研究。 2 6 数据挖掘的体系结构 数据挖掘的总体结构由三部分组成:数据准备体系、建模与挖掘体系、结果解释 与评价体系。数据准备体系主要完成数据的转换、数据清洗等方面的工作;建模与 挖掘体系主要是通过各种数据挖掘的算法和方法,完成对整理后的数据的知识发 现;结果解释与评价体系主要是对数据挖掘后的结果表示为人们容易理解的形式, 并对得到的结果,做出客观、公正的评价。数据挖掘的体系结构【1 4 1 如图2 3 所示: 结果解释、验证与应用 + 结果解 fli 概念与规则 l 梗式与梗型 报告与报表图形与图像 释与评 iili 价傩系 + 成果输出与展示 一+ ? r l 数据分析与建梗 il 数理统 人工智数据库可视化 相关软 建模 计技术 铯技术技术技术 件技术 与挖 li 掘体 千 系 十 r l 数据预处理:数据清理、转换、归并等 十 数据 i ll 厂、一一、 准备 、_ 一1 、k 。 一一 i 结构l半结构i 异构 体系 i 化数据l懈i型拥 l)、l 、一一一l 一一l 图2 3 数据挖掘的体系结构 9 面向文本的主题挖掘技术与实现 2 7 数据挖掘的功能 由于大多数情况下,用户本身并不知道什么类型的数据模式是有用的,因此, 他希望能够搜索出多种不同的模式,能够从中选择自己需要的模式。因此,这就需 要数据挖掘具备两个方面的功能:第一、能够从数据挖掘的过程中找出模式;第 二、不但能找出模式,而且还需要挖掘出多种类型的模式。 此外,数据挖掘系统应当能够发现各种粒度( 即不同的抽象层) 的模式【1 6 1 。数据 挖掘系统应当具备交互性,即允许用户给出提示,以指导或聚集有趣模式的搜索。 数据挖掘的功能以及它们可以发现的模式类型有以下几种【17 l : ( 1 ) 概念类描述:特征化和区分 数据可以与类或概念相关联。例如销售的商品类包括计算机和打印机,顾客概 念包括b i g s p e n d e r s 和b u d g e t s p e n d e r s 。用汇总的、简洁的、精确的方式描述每个 类和概念可能是有用的,这种类或概念的描述称为类概念描述。这种描述可以通过 下述方法得到: a ) 数据特征化:是目标类数据的一般特征或特征的汇总。 b ) 数据区分:将目标类对象的一般特性与一个或多个对比类对象的一般特性比 较。目标类和对比类由用户指定,而对应的数据通过数据库查询检索。 ( 2 ) 关联分析 关联分析用于发现关联规则,这些规则展示属性值频繁地在给定数据集中一起 出现的条件,即发现一个事物与其他事物问的相互关联性或相互依赖性。它首先是 a g r a w a lr 等提出的。所谓关联规则,是指客体之间的相互关系。关联分析广泛用 于购物篮或事务数据分析,关联规则将在以下小节中详细讨论。 ( 3 ) 分类和预测 分类和预测是两种数据分析形式【1 8 】,可以用于提取描述重要数据类的模型或预 测未来的数据趋势。数据分类是一个两步的过程,首先,建立一个模型,描述给定 的数据集,通过分析由属性描述的数据元组来构造模型,这部分的算法有:判定树 ( d e c i s i o nt r e e ) 、c c a s 、贝叶斯分类算法( b a y e s i a nc l a s s i c a t i o n ) 、后向传播算法 ( b a c k p r o p a g a t i o n ) ,k - 最临近分类算法( k n e a r e s tn e i g h b o rc l a s s i f i e r s ) 、基于案例的 推理( c a s e b a s e dr e a s o n i n g ) 、遗传算法( g e n e t i ca l g o r i t h m s ) 、粗糙集算法( r o u g hs e t 1 0 济南大学硕十学位论文 a l g o r i t h m s ) 、模糊集算法( f u z z ys e t a p p r o a c h e s ) 、神经网络等。 分类是找出描述并区分数据类或概念类的模型或函数的过程,以便能够使用模 型预测类标记未知的对象类。导出模型是基于对训练数据集( 即其类标记己知的数据 对象) 的分析。预测是构造和使用模型评估无标号样本类,或评估给定样本可能具有 的属性值或值区间。分类是预测离散或标称值,而预测用于预测连续或有序值。分 类和预测的区别是:用预测法预测类标号( 或离散值) 为分类,用预测法预测连续值( 例 如使用回归方法) 为预测。分类和预测具有广泛的应用,包括信誉证实、医疗诊断、 性能预测和选择购物等。 ( 4 ) 聚类分析 聚类是将数据对象分组成为多个类或簇,在同一簇中的对象之间具有较高的相 似度,而不同簇中的对象差别较大。与分类和预测不同,聚类分析数据对象,而不 考虑已知的类标记。 聚类分析已经广泛地应用于许多方面,包括模式识别,数据分析,图像处理, 以及市场研究等。 ( 5 ) 孤立点分析 所谓孤立点就是,数据库中可能包含些数据对象,它们与数据的一般行为或 模型不一致的数据对象,大部分数据挖掘方法将孤立点视为噪声
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 产品品质检验及优化方案框架
- (正式版)DB15∕T 3207.2-2023 《秋播大葱生产技术规程 第2部分:栽培》
- 居家养老服务保障承诺函(5篇)
- 机械基础 第2版 习题答案
- 采购与供应商信息管理及操作指引平台
- 宋代词牌赏析:大三语文辅导教案
- 客户关系管理策略与案例分析模板
- 质量控制流程及检测记录模板
- 守秘责任下知识产权保护承诺书(8篇)
- 医疗安全培训教学课件
- 视网膜中央动脉阻塞的急救和护理
- 国际金融学 第一章 国际收支 南京大学商学院
- HY/T 087-2005近岸海洋生态健康评价指南
- GB/T 5563-2013橡胶和塑料软管及软管组合件静液压试验方法
- GB/T 3600-2000肥料中氨态氮含量的测定甲醛法
- GB 2715-2005粮食卫生标准
- OA流程表单案例
- 医师多点执业注册申请表
- 《边坡稳定性分析》课件
- 刮板输送机-课件
- 深信服防火墙技术方案
评论
0/150
提交评论