




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究 工作所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡 献的个人和集体,均己在文中作了明确的说明。本声明 的法律结果由本人承担。 学位论文作者签名:i 睑日期: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:岔查丝旷指导教师签名: 日 期: 日期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 钎处 ,k , 电话: 邮编: 自从知识发现被提 中信息部门的高度关注 银行业、保险业、零售 行业和部门,并为决策 随着高校数字资源数量的激增和教师对信息更深、更广层次的需求,传统的资源服 务模式已经不能适应新的需求,我们就需要将知识发现引入到学科服务中,为教师提供 基于资源需求的主动服务、延伸服务,这对于提升学科服务的水平和教师的教学、科研 能力也将起到不可忽视的促进作用。在学科服务领域,知识发现是学科馆员根据教师的 信息需求或者说资源需求,运用知识发现的内容管理、数据挖掘、文本挖掘等技术和方 法来发现教师对信息的潜在需求,发现创新的、潜在的知识,为教师的教学和科研提供 一定的知识支撑和边缘知识导向。本文主要论述了知识、知识发现、数据挖掘、文本挖 掘等概念,并深入探讨了知识发现的一般过程和主要技术、方法,在此基础上重点阐述 了知识发现在学科服务中是如何应用的,如何为教师的教学、科研提供动力和更好的支 持,最后给出了知识发现的应用平台一学科服务系统的设计与开发思想,技术难点突破 等,并对全文做以总结。 关键词:知识、知识发现、数据挖掘、文本挖掘、学科服务 a b s t r a c t s i n c et h ek n o w l e d g ed i s c o v e r yw a sp u tf o r w a r d ,i tw a sp a i dl l i g l l l y a t t e n t i o nb y a c a d e m i cf i e l d ,e s p e c i a l l yb yt h ei n f o r m a t i o nd e p a r t m e n ti nc o 印o m t i o mg o v e r n m e n t , a n d o t h e ru n i t s k n o w l e d g ed i s c o v e r yi st h ec o m b i n a t i o no fm u l t i - d i s c i p l i n ea n dm a n yt e c h n i q u e s i th a sb e e nw i d e l ya p p l i e di nb a n k i n g ,i n s u r a n c e ,r e t a i l ,h e a l t h c a r e ,e n g i n e e r i n g a n d m a n u f a c t u r i n g s c i e n t i f i cr e s e a r c h , s a t e l l i t eo b s e r v a t i o n s ,e n t e r t a i n m e n ti n d u s t r i e s ,a n de t c , k n o w l e d g ed i s c o v e r ya l s op r o v i d e sr e l i a b l es u p p o r tf o rd e c i s i o n - m a k e r s ,a n di n j e c t sn e w p o w e rf o rt h ed e v e l o p m e n to ft h ei n d u s t r i e s w i t ht h eb u l g ei n c r e a s eo ft h ed i g i t a lr e s o u r c e si nc o l l e g e sa n dt e a c h e r s d e e p e ra n d w i d e rd e m a n df o ri n f o r m a t i o n ,t r a d i t i o n a lm o d eo fr e s o u r c es e r v i c ec a n n o tb ea d a p t e dt ot h e n e wd e m a n d s ow es h o u l di n t r o d u c ek n o w l e d g ed i s c o v e r yi n t od i s c i p l i n es e r v i c et op r o v i d e a c t i v es e r v i c ea n de x p e n d i n gs e r v i c ef o rt e a c h e r sb a s e do nr e s o u r c ed e m a n d t h i sw i l lp l a y u n i g n o r a b l er o l ei nr a i s i n gt h el e v e lo fd i s c i p l i n es e r v i c ea n dt e a c h e r s a b i l i t yo ft e a c h i n ga n d s c i e n t i f i cr e s e a r c h i nt h ef i e l do fd i s c i p l i n es e r v i c e ,a p p l i e db yt h et e c h n i q u e sa n d m e t h o d so f i t sc o n t e n tm a n a g e m e n t ,d a t am i n i n ga n dt e x tm i n i n g ,a c c o r d i n gt ot e a c h e r s i n f o r m a t i o n d e m a n do rr e s o u r c ed e m a n d ,k n o w l e d g ed i s c o v e r yi su s e dt of i n dt e a c h e r s p o t e n t i a ld e m a n d o fi n f o 肌a t i o 玑a n dt o f i n di n n o v a t i v ea n dp o t e n t i a lk n o w l e d g e ,s o 嬲t op r o v i d ec e r t a i n k n o w l e d g es u p p o r ta n de d g ek n o w l e d g eo r i e n t a t i o n f o rt e a c h e r s t e a c h i n ga n ds c i e n t i f i c r e s e a r c h t h i sp a p e rd i s c u s s e st h ec o r l c e p t so fk n o w l e d g e ,k n o w l e d g ed i s c o v e r y , d a t am i n i n g a n dt e x tm i n i n g ;p r o b e si n t ot h eg e n e r a lp r o c e s s ,m a i nt e c h n i q u e sa n dm e t h o d so fk n o w l e d g e d i s c o v e r y ;m a i n l yf o c u s e so nh o wk n o w l e d g ed i s c o v e r yw a sa p p l i e di n d i s c i p l i n es e r v i c e , h o wk n o w l e d g ed i s c o v e r yp r o v i d e sp o w e ra n db e t t e rs u p p o r tf o rt e a c h e r s t e a c h i n ga n d 。s c i e n t i f i cr e s e a r c h ;f i n a l l yp r e s e n t st h ea p p l i c a t i o np l a t f o r mo fk n o w l e d g ed i s c o v e r y m e d e s i g no fd i s c i p l i n es e r v i c es y s t e m ,t h ei d e a so fd e v e l o p m e n t , t h eb r e a k t h r o u g ho f t e c h n i c a l d i 币c u l t i e s ,a n de t c ,t h e nm a k e st h ec o n c l u s i o no ft h ew h o l ep a p e r k e yw o r d s :k n o w l e d g e ,k n o w l e d g ed i s c o v e r y , d a t am i n i n g ,t e x tm i n i n g ,d i s c i p l i n es e r v i c e n 目录 中文摘要i 英文摘要 目j 5 :i i i 1 绪论。2 1 1 课题研究的意义2 1 2 国内外的研究现状2 1 3 论文的结构。3 2 知识、知识发现的概念4 2 1 知识的概念及种类。4 2 2 知识发现的概念4 2 3 知识发现与数据挖掘的关系4 2 3 1 数据挖掘的概念4 2 3 2 知识发现与数据挖掘的关系5 3 知识发现的模式与一般过程7 3 1 知识发现的模式7 吾 3 1 1 知识发现的模式的类型7 3 1 2 知识发现的模式分析8 3 2 知识发现的一般过程8 3 2 1 知识发现过程的分类8 3 2 2 知识发现过程的应用1 1 4 知识发现的主要技术1 3 4 1 内容管理技术。1 3 4 2 信息抽取技术1 3 4 3 信息过滤技术。1 3 4 4 数据挖掘与文本挖掘技术1 4 4 4 1 数据挖掘技术1 4 4 4 2 文本挖掘技术。l5 4 5 分类发现与聚类技术1 5 4 5 1 分类发现技术15 4 5 2 聚类技术l6 5 知识发现在学科服务的应用1 7 5 1 学科服务的介绍。1 7 i i i 5 1 1 学科服务的产生1 7 5 1 2 学科服务的现状1 7 5 1 3 学科服务的未来发展方向1 8 5 2 学科服务系统的实现 5 2 1 系统分析1 8 5 2 2 学科服务系统的数据结构2 0 5 2 3 学科服务系统的模块功能2 l 5 2 4 学科服务系统的代码实现2 2 5 3 学科服务系统的应用 5 3 1 学科服务与学科服务系统的关系。2 3 5 3 2 学科服务系统的功能2 3 5 3 3 学科服务系统的作用。2 4 6 总结。 参考文献 致谢。 :! t ; 2 7 :1 9 摘要 自从知识发现被提出后,就一直受到学术界,特别是企事业单位、政府机关等单位 中信息部门的高度关注,它是多门学科、多项技术相互结合的产物,目前己广泛应用于 银行业、保险业、零售业、医疗保健、工程和制造业、科学研究、卫星观察和娱乐业等 行业和部门,并为决策者提供可靠的决策支持,为行业的发展注入了新的动力。 随着高校数字资源数量的激增和教师对信息更深、更广层次的需求,传统的资源服 务模式已经不能适应新的需求,我们就需要将知识发现引入到学科服务中,为教师提供 基于资源需求的主动服务、延伸服务,这对于提升学科服务的水平和教师的教学、科研 能力也将起到不可忽视的促进作用。在学科服务领域,知识发现是学科馆员根据教师的 信息需求或者说资源需求,运用知识发现的内容管理、数据挖掘、文本挖掘等技术和方 法来发现教师对信息的潜在需求,发现创新的、潜在的知识,为教师的教学和科研提供 一定的知识支撑和边缘知识导向。本文主要论述了知识、知识发现、数据挖掘、文本挖 掘等概念,并深入探讨了知识发现的一般过程和主要技术、方法,在此基础上重点阐述 了知识发现在学科服务中是如何应用的,如何为教师的教学、科研提供动力和更好的支 持,最后给出了知识发现的应用平台一学科服务系统的设计与开发思想,技术难点突破 等,并对全文做以总结。 关键词:知识、知识发现、数据挖掘、文本挖掘、学科服务 a b s t r a c t s i n c et h ek n o w l e d g ed i s c o v e r yw a sp u tf o r w a r d ,i tw a sp a i dh i g h l ya t t e n t i o nb y a c a d e m i cf i e l d ,e s p e c i a l l yb yt h ei n f o r m a t i o nd e p a r t m e n ti nc o r p o r a t i o n , g o v e r n m e n t , a n d o t h e ru n i t s k n o w l e d g ed i s c o v e r yi st h ec o m b i n a t i o no fm u l t i d i s c i p l i n ea n dm a n yt e c h n i q u e s i th a sb e e nw i d e l ya p p l i e di nb a n k i n g ,i n s u r a n c e ,r e t a i l ,h e a l t h c a r e ,e n g i n e e r i n g a n d m a n u f a c t u r i n g s c i e n t i f i cr e s e a r c h ,s a t e l l i t eo b s e r v a t i o n s ,e n t e r t a i n m e n ti n d u s t r i e s ,a n de t c , k n o w l e d g ed i s c o v e r ya l s op r o v i d e sr e l i a b l es u p p o r tf o rd e c i s i o n - m a k e r s ,a n di n j e c t sn e w p o w e rf o r t h ed e v e l o p m e n to ft h ei n d u s t r i e s w i t ht h eb u l g ei n c r e a s eo ft h ed i g i t a lr e s o u r c e si nc o l l e g e sa n dt e a c h e r s d e e p e ra n d 、忻d e rd e m a n df o ri n f o r m a t i o n ,t r a d i t i o n a lm o d eo fr e s o u r c es e r v i c ec a n n o tb ea d a p t e dt ot h e n e wd e m a n d s ow es h o u l di n t r o d u c ek n o w l e d g ed i s c o v e r yi n t od i s c i p l i n es e r v i c et op r o v i d e a c t i v es e r v i c ea n de x p e n d i n gs e r v i c ef o rt e a c h e r sb a s e do nr e s o u r c ed e m a n d t h i sw i l lp l a y u n i g n o r a b l er o l ei nr a i s i n gt h el e v e lo fd i s c i p l i n es e r v i c ea n dt e a c h e r s a b i l i t yo f t e a c h i n ga n d s c i e n t i f i cr e s e a r c h i nt h ef i e l do fd i s c i p l i n es e r v i c e ,a p p l i e db yt h et e c h n i q u e sa n dm e t h o d so f i t sc o n t e n tm a n a g e m e n t ,d a t am i n i n ga n dt e x tm i n i n g ,a c c o r d i n gt ot e a c h e r s i n f o r m a t i o n d e m a n do rr e s o u r c ed e m a n d ,k n o w l e d g ed i s c o v e r yi su s e dt of i n dt e a c h e r s p o t e n t i a ld e m a n d o fi n f o r m a t i o n , a n dt of m di n n o v a t i v ea n dp o t e n t i a lk n o w l e d g e ,s oa st op r o v i d ec e r t a i n k n o w l e d g es u p p o r ta n de d g ek n o w l e d g eo r i e n t a t i o n f o rt e a c h e r s t e a c h i n ga n ds c i e n t i f i c r e s e a r c h t h i sp a p e rd i s c u s s e st h ec o n c e p t so fk n o w l e d g e ,k n o w l e d g ed i s c o v e r y , d a t am i n i n g a n dt e x tm i n i n g ;p r o b e si n t ot h eg e n e r a lp r o c e s s ,m a i nt e c h n i q u e sa n dm e t h o d so fk n o w l e d g e d i s c o v e r y ;m a i n l yf o c u s e so nh o wk n o w l e d g ed i s c o v e r yw a sa p p l i e di n d i s c i p l i n e s e r v i c e , h o wk n o w l e d g ed i s c o v e r yp r o v i d e sp o w e ra n db e t t e rs u p p o r tf o rt e a c h e r s t e a c h i n ga n d s c i e n t i f i cr e s e a r c h ;f i n a l l yp r e s e n t st h ea p p l i c a t i o np l a t f o r mo fk n o w l e d g ed i s c o v e r y 吐坨 d e s i g no fd i s c i p l i n es e r v i c es y s t e m ,t h ei d e a so fd e v e l o p m e n t ,t h eb r e a k t h r o u g ho ft e c h n i c a l d i f f i c u l t i e s ,a n de t c ,t h e nm a k e st h ec o n c l u s i o no ft h ew h o l ep a p e r k e yw o r d s :k n o w l e d g e ,k n o w l e d g ed i s c o v e r y , d a t am i n i n g ,t e x tm i n i n g ,d i s c i p l i n es e r v i c e 目录 中文摘要i 英文摘要 目j 录i i i 1 绪论2 1 1 课题研究的意义2 1 2 国内外的研究现状。2 1 3 论文的结构3 2 知识、知识发现的概念4 2 1 知识的概念及种类:。4 2 2 知识发现的概念4 2 3 知识发现与数据挖掘的关系4 2 3 1 数据挖掘的概念4 2 3 2 知识发现与数据挖掘的关系。一5 3 知识发现的模式与一般过程。7 3 1 知识发现的模式7 3 1 1 知识发现的模式的类型7 3 1 2 知识发现的模式分析- 8 3 2 知识发现的一般过程8 3 2 1 知识发现过程的分类8 3 2 2 知识发现过程的应用1 1 4 知识发现的主要技术。1 3 4 1 内容管理技术1 3 4 2 信息抽取技术。1 3 4 3 信息过滤技术。1 3 4 4 数据挖掘与文本挖掘技术1 4 4 4 1 数据挖掘技术1 4 4 4 2 文本挖掘技术15 4 5 分类发现与聚类技术1 5 4 5 1 分类发现技术1 5 4 5 2 聚类技术1 6 5 知识发现在学科服务的应用1 7 5 1 学科服务的介绍。1 7 i i | 5 1 1 学科服务的产生1 7 5 1 2 学科服务的现状一1 7 5 1 3 学科服务的未来发展方向1 8 5 2 学科服务系统的实现 5 2 1 系统分析。l8 5 2 2 学科服务系统的数据结构2 0 5 2 3 学科服务系统的模块功能2 1 5 2 4 学科服务系统的代码实现2 2 5 3 学科服务系统的应用 5 3 1 学科服务与学科服务系统的关系2 3 5 3 2 学科服务系统的功能2 3 5 3 3 学科服务系统的作用2 4 6 总结。 参考文献 2 6 致谢 w 2 9 东北师范大学硕士学位论文 引言 信息时代的来临使得图书馆积累了海量的数据,再加之数据的不断更新和存储技术 的不断进步,电子资源的数据量变得异常庞大,百万条甚至千万条记录的数据库更是屡 见不鲜,这就使得教师容易获取到信息,但是难于获取到所需知识,或者说难于根据教 师的资源需求为其提供对知识的潜在需求,即所谓“人们被数据淹没了,却饥饿于知识”- 【。面对这种现状,仅仅依靠传统的文献管理软件或统计分析工具是很难于满足教师的 需求的,如果将能够知识发现融入并成功应用到学科服务领域便能很好的解决这一矛 盾。 东北师范大学硕士学位论文 1 绪论 1 1 课题研究的意义 知识发现一词最早出现在1 9 8 9 年,原意是指从数据集中识别出有效的、新颖的、 潜在有用的,以及最终可理解的模式的非平凡过程1 2 j 。知识发现的出现,是人们长期对 信息或知识进行处理和开发的结果,是人们在工作中需要这种潜在知识或边缘知识,并 且对工作具有一定的指导作用或启发作用。随着网络技术的不断成熟和网络信息资源的 大量涌现,知识发现已经广泛应用在金融、经济、医药信息产业、工程技术等我们所熟 悉的领域,并起着越来越重要的作用,为行业的可持续发展提供了有效的决策支持和解 决方案。 图书馆作为高等学校的文献信息服务中心,有责任和义务为教师的教学和科研提供 最优质的文献信息服务,其服务核心也要由传统的以信息资源的传播、组织为基础转向 为有效支持知识应用和知识创新为目标。面对如此丰富的信息资源,如何从中选取最贴 近需求的资源并发现其潜在需求,为其提供边缘知识、延深知识、关联知识,成为学科 服务的方向和重点,知识发现的应用则是一种很好的解决方案和手段。当把知识发现应 用到学科服务中,我们就可以根据教师的信息需求,通过知识发现的技术和方法,捕获 到对教师的教学和科研最有价值的信息,并挖掘出潜在知识、边缘知识,起到参考和导 向作用,这也正是本文的现实意义所在。 1 2 国内外的研究现状 通过查阅国内外相关文献资料得知,知识发现是2 0 世纪8 0 年末代兴起的一个交叉 学科,知识发现一词最早出现在1 9 8 9 年8 月美国底特律的第1 1 届国际人工智能联合会 议的专题讨论会上,它的本义是指从数据集中识别出有效的、新颖的、潜在有用的,以 及最终可理解的模式的非平凡过程。近些年,知识发现的应用越来越广泛,在各行业的 信息部门都可以寻得到知识发现的影子,而且起着越来越重要的作用。 通过查阅中国期刊网可知,关于“知识发现 的研究,从2 0 0 6 年到2 0 0 9 年1 0 月 份之间,命中记录的数量在以每年l o 篇左右减少,但是研究方向却在从理论转向应用, 而且研究的内容更加具体、细化,比如将知识发现应用到流通管理、非相关文献等中。 目前,国外知识发现主要应用于建立知识发现系统,并通过系统来促使相关产业或 者行业的不断发展,从而更好的服务于社会。在知识发现系统的开发中经常使用的关联 挖掘方法通常有a s s o c i a t i o nr u l e s 、t f i d f 、z s c o r e 和m i mp j ,而这些方法在处理中 文文献的知识发现系统中的应用却很少,还只是停留在理论阶段。 2 东北师范大学硕士学位论文 1 3 论文的结构 文章主要分为七部分: 第一部分:绪论 这部分主要介绍论文选题的背景和现实意义以及国内外研究的现状,研究现状主要 介绍国内部分专家、学者的研究现状,最后给出论文的主体结构。 第二部分:知识、知识发现的概念 首先给出知识的概念,并介绍与之相关的边缘概念,还有知识的分类等:然后介绍 知识发现的概念,知识发现的由来与演变;最后重点阐述知识发现与数据挖掘的关系。 第三部分:知识发现的模式与一般过程 这部分分为两块:第一块是知识发现的模式,首先阐述知识发现模式的类型,然后 重点对其模式进行分析,如分类、聚类、时间序列等;第二块是知识发现的一般过程, 主要有基于数据库的知识发现的过程和基于文本信息的知识发现的过程,也要重点介 绍。 第四部分:知识发现的主要技术 主要技术有内容管理技术、信息抽取技术、信息过渡技术、数据挖掘与文本挖掘技 术、分类发现与聚类技术等,将重点介绍数据挖掘与文本挖掘技术,其中数据挖掘是知 识发现的核心技术。 第五部分:知识发现的应用 我们提出一个观点或者一种技术,它的重点是能够应用到工作中,并为工作提供帮 助和支持。学科服务系统则是将知识发现引入到学科服务中,通过学科馆员团队在系统 中记录的需求,通过各种技术和方法来分析,从而发现教师的潜在需求,为其提供更加 贴近需求的信息,甚至边缘知识、延深知识,真正起到学科服务的作用和知识导向的作 用。这部分将首先介绍学科服务的未来发展方向和趋势,起到一个铺挚的作用,然后重 点介绍学科服务系统的数据结构、模块划分与系统实现等。 第六部分:总结 对全文做一总结,指出论文可能存在的问题等。 东北师范大学硕士学位论文 2 知识、知识发现的概念 2 1 知识的概念及种类 关于知识,有多种理解。从管理学的角度来讲,知识是关于事实与思想的陈述,这 些陈述能提出合理的判断或实证结果,它们可通过传媒传递给他人。【4 j 知识不同于数据、信息等,是人们在实践中所获得的认识和经验的总和,是一个动 态的过程,是一种有组织的经验、价值观、相关信息以及洞察力的动态组合。 关于对知识的分类,有很多角度。德国哲学家马克斯舍勒将知识划分为应用知识、 学术知识和精神知识三大类;o e c d ( 经合组织) 将知识分为事实知识、原理知识、技 能知识和人力知识。以上分类是从知识使用的角度进行的,因而更注重知识的实践性和 价值性,我们还可以在o e c d 分类的基础上,进一步将知识划分为两大类别:显性知识 和隐性知识,显性知识指人们可以通过口头传授、教科书、参考资料、期刊杂志、专利 文献、视听媒体、软件和数据库等方式获取,也可以通过语言、书籍、文字、数据库等 编码方式传播,也容易被人们学习;隐性知识往往是个人或组织经过长期积累而拥有的 知识,通常不易用言语表达,也不可能传播给别人或传播起来非常困难。我们通常所说 的知识指显性知识,因而本文中提到的知识也指显性知识。【5 】 2 2 知识发现的概念 知识发现一词最早出现在1 9 8 9 年8 月在美国底特律举行的第1 l 届国际联合人工智 能学术会议上,将其定义为从数据集中识别出有效的、新颖的、潜在有用的,以及最终 可理解的模式的非平凡过程。1 6 1 如果把知识发现的过程抽象为数学表达式,则可以把知识发现表达成一个三元组k = ( t ,f ,m ) ,其中t 表示某种学习任务,f 表示存储在数据库中的大量数据和一组 有助于发现特定知识的基本概念和背景知识,m 是指用来形成各种发现的技术方法,k 则是通过学习发现的知识。1 7 j 由知识发现的上述定义可知,知识发现是一个从现有数据和事实中提取更有价值的 深度信息的、非常复杂的数据处理过程,它能够将数据和事实转变为知识,为知识创新 和知识经济的发展做出贡献。l 列 2 3 知识发现与数据挖掘的关系 2 3 1 数据挖掘的概念 随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的同益普及,人们面 4 一 东北师范大学硕士学位论文 临着快速扩张的数据海洋,如何有效利用这一丰富的数据资源引起了信息产业界的极大 关注,迫切需要将这些数据转换成有用的信息和知识,而获取到的信息和知识又可以广 泛应用于商务管理、生产控制、市场分析、工程设计和科学探索等,为其提供决策支持, 数据挖掘正式在这种情况下被提出的。 从这个意义上来说,数据挖掘就是从存放在数据库、数据仓库或其他信息库中的大 量的原始性数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程, 又被称为数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e 或k d d ) 。1 9 1 根据数据挖掘的概念,我们可以总结出数据挖掘的一些主要特点: ( 1 ) 面对的数据量庞大: ( 2 ) 主要依靠数据挖掘技术来寻找用户可能感兴趣的信息; ( 3 ) 数据挖掘要能够根据数据的变化做出快速响应,以提供决策支持; ( 4 ) 数据挖掘在发现潜在规则的同时,还要管理和维护规则,并且能够根据数据 的变化,及时更新规则; ( 5 ) 数据挖掘中规则的发现一般基于统计规律,不必适合所有的数据库。 数据挖掘可以针对某种结构的数据源,也可以针对特殊应用的数据源,所以其类型 可以大致分为以下几类: ( 1 ) 序列数据挖掘,包括时间序和空间序,也就是生活中与时间或空间有关的数 据,如交易记录; ( 2 ) 流数据挖掘,对流数据进行聚类分析、异常分析等; ( 3 ) 空间数据挖掘,空间数据主要指数字地图、遥感图像、交通控制等领域出现 的与空间有关的数据,对这些数据进行分析、关联,可能是会得到“8 0 的医院门口的 3 0 到5 0 米内会有一家花店”的规律; ( 4 ) 交易数据挖掘,是数据挖掘中应用最多的,效果也明显,如“啤酒尿布”就 是典型的交易数据挖掘的结果: ( 5 ) w e b 数据挖掘,就是对w e b 上的信息进行归类、分析等。 2 3 2 知识发现与数据挖掘的关系 海量数据与知识贫乏导致了知识发现与数据挖掘的出现,知识发现与数据挖掘是两 种重要的知识管理技术,关于它们之间的关系一般有三种观点:一,数据挖掘即为知识 发现;二,数据挖掘是知识发现的一个重要步骤;三,数据挖掘完全不同于知识发现。 【2 】 第一种观点:数据挖掘即为知识发现。数据挖掘是指从数据中挖掘知识,而知识发 现并不是从知识中发现新知识,而是发现知识。更近一步说,知识是从数据中经过挖掘 发现的:数据挖掘则是对原始数据进行挖掘、分析。前者强调的是处理过程,后者强调 的是最终结果,可以把他们认为是同一个概念的两种不同解释,只是他们的侧重点有所 不同。 第二种观点:数据挖掘是知识发现的一个重要步骤。知识发现是指从数据中获取有 5 东北师范大学硕士学位论文 用知识的整个处理过程,这个过程包括些主要技术和方法,通过这些技术或方法达到 最终的结果;数据挖掘是指从原始性数据中抽取出有用知识的具体算法的应用过程,除 了数据挖掘之外,还有文本挖掘、分类发现与聚类技术、内容管理、信息抽取等。 第三种观点:数据挖掘完全不同于知识发现。数据挖掘所要处理的对象一般是结构 化的数据( 非结构化数据要先通过文本挖掘等方法转化为结构化数据) ,其数据项不可 以再次分割,主要应用于统计、数据分析等领域;而知识发现的处理对象可以是半结构 化或非结构化的数据或信息,这些元素对象一般可以被分解,主要应用于人工智能领域。 无论是哪种观点,都各有其理,取决于研究背景,更多学者认为数据挖掘是知识发 现的一个重要步骤或者说是核心技术,这也是本文所采取的观点。 数据挖掘是知识发现的重要步骤,那么知识发现通常包含哪些具体步骤,哪一步是 k d d 的核心,没有确切的定义。然而,一般的知识发现过程应该是接收最原始性数据 的输入,选择重要的、显著的、具有代表性的特征数据项,对数据集合进行适当缩减、 预处理和浓缩,将数据集合中数据项转换为合适的格式,再从这些有效数据项中找到模 式,最后评价、解释发现结果,关于各步的具体任务将在后面详细阐述。 6 3 知识发现的模式与一般过程 3 1 知识发现的模式 知识发现的功能就是从数据集中发现对于用户来说有效的、有用的或潜在有用的模 式,也就是从大量现有或历史数据集合中发现并找出最初未知、但最终可理解的有用知 识,并用简单的方式进行表现,发现了的知识可被用于信息管理、查询优化、决策支持 等,还可以用于数据自身的管理与维护。1 1 0 j 知识发现的主要功能就是用于指定知识发现任务中要找的模式类型。在某些情况 下,用户并不知道在他们的数据群中哪些类型的模式是有用的,因此可能想尽可能地搜 索多种不同的并行模式。这样,知识发现就要挖掘多种类型的模式,以适应不同的用户 需求或不同的应用。此外,知识发现也应当能够发现各种粒度( 即不同的抽象层) 的模 式,由于有些模式并非对数据库中的所有数据都成立,通常每个被发现的模式都带上一 个确定性或“可信度”参数。j 3 1 1 知识发现的模式的类型 关于知识发现的模式主要分为以下几类: ( 1 ) 概念描述 概念描述就是专门针对某对象类的内部特征进行总结或描述,指出其特征。概念描 述分为数据区分性描述和数据特征化描述,数据区分性描述是指将目标对象的各种特征 与其他与之对比对象集合的某些特征进行综合比较、特征分析,从而我们能够得到不同 类集合对象之间的显著区别;而后者是通过归纳目标对象的一般特征、特性等要素来总 结同类对象的共同特点。i l 副 ( 2 ) 关联规则 关联规则是一种重要的知识发现的模式,是知识发现系统中最有价值的目标 知识模式,它产生于大型零售机构所面临的决策支持问题。关联规则反映的是有些从表 面看起来毫不相关的事件通过某种活动而存在的一种联系。典型的关联规则的例子就是 “9 0 的顾客在购买面包和黄油的同时也会购买牛奶 ,其表现出来的直观意义是, 顾客在购买某些目标商品的时候顺便购买计划外商品的概率是多大,找出类似这样的规 则,对决策者的决策是很有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建设工程方案审批样板(3篇)
- 2025年机组自动化屏项目建议书
- 2025年教师招聘之《幼儿教师招聘》考前冲刺练习题库带答案详解(能力提升)
- 清肺药质量控制标准-洞察及研究
- 国际化屠宰市场拓展创新创业项目商业计划书
- 农产品音乐活动创新创业项目商业计划书
- 押题宝典教师招聘之《幼儿教师招聘》试题带答案详解(a卷)
- 水产加工技术升级创新创业项目商业计划书
- 押题宝典教师招聘之《小学教师招聘》考试题库及参考答案详解(综合题)
- 农副食品品牌故事挖掘与传播路径创新创业项目商业计划书
- 2025年中小学生科学知识竞赛试题及答案
- 胸腰椎压缩骨折课件
- 三力测试题库2025版考题及答案
- 企业安全生产无事故管理方案
- 房屋征收业务培训课件
- 影视中的人工智能
- 中职口腔生理基础教学课件
- 2025年“学宪法讲宪法”知识竞赛题库含答案
- 气瓶检验人员考试题题库及答案
- 胰腺超声标准切面
- 上饶市市级机关选调真题2024
评论
0/150
提交评论