(系统分析与集成专业论文)气象科普知识多媒体系统查询方法研究与系统实现.pdf_第1页
(系统分析与集成专业论文)气象科普知识多媒体系统查询方法研究与系统实现.pdf_第2页
(系统分析与集成专业论文)气象科普知识多媒体系统查询方法研究与系统实现.pdf_第3页
(系统分析与集成专业论文)气象科普知识多媒体系统查询方法研究与系统实现.pdf_第4页
(系统分析与集成专业论文)气象科普知识多媒体系统查询方法研究与系统实现.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要在当前全球气候持续变暖的背景下,应对气候变化是国内外高度关注的事情,随之而来的是大力提升公众在气象防灾减灾方面应对气候变化的意识。为了让大家了解更多气象知识,我国急需加强气象科普知识的普及。在社会媒体高度发达的今天,网络、电视、报纸等已经成为气象科普知识传播的主要阵地,但网络、电视、报纸传播的气象科普知识并不是全面的、系统的。本文搜集了大量的气象科普知识,搜集的气象科普知识不仅有单纯的文本信息,还有图片、声音、动画和视频等多媒体信息,经过系统整理,采用s q ls e r v e r 2 0 0 0作为数据库管理系统,建立知识数据库,以d e l p h i 7 作为前端开发工作,研发了内容丰富的气象科普知识多媒体系统,供大家查询、了解、学习气象科普知识。本文根据系统中的文本、图片、声音、视频多媒体信息建立了关系型为主的多媒体数据库。把数据挖掘中的关联规则算法和聚类分析方法应用于本系统。对气象科普知识多媒体系统的查询方法进行研究,开发了气象科普知识多媒体系统的查询内核。可以从查询关键字字面维度、用户查询历史记录维度、相关气象知识维度三个维度进行查询分析,根据查询实际情况返回查询结果。气象科普知识查询内核模块用m a t l a b 编程实现,d e l p h i 可以通过c o r ni z :l 调用该查询内核模块。本文以用户的浏览查询日志为挖掘对象,应用关联规则算法进行分析,找出具有强关联性的各类气象科普知识,当用户查询关键词时向用户推荐经过关联规则挖掘后的相关关键词。系统具有知识编辑、知识管理、知识查询、系统管理等功能。用户在查询知识界面可以根据查询条件,采用模糊查询、目录式浏览查询、分类查询、高级查询等方式,快速检索到所需要的气象科普知识。本查询系统内容丰富翔实,知识涵盖面广,界面友好,信息查询操作简单、快速,可以很好地满足人民大众对气象科普知识查询的需求。关键词:气象科普知识,关联规则,模糊查询a b s t r a c ti nt h ec u r r e n tc o n t e x to fg l o b a lc l i m a t ec o n t i n u e st ow a r m ,c o u n t e r i n gc l i m a t ec h a n g ei ss o m e t h i n go fg r e a tc o n c e r na th o m ea n da b r o a d , f o l l o w e db yi sas t r o n gi n c r e a s ea w a r e n e s so fc l i m a t ec h a n g ei np u b l i co fm e t e o r o l o g i c a ld i s a s t e rp r e v e n t i o n i no r d e rt ol e a r nm o r em e t e o r o l o g i c a lk n o w l e d g e ,o u ru r g e n tn e e dt os t r e n g t h e nt h ep o p u l a r i z a t i o no f k n o w l e d g eo f m e t e o r o l o g i c a ls c i e n c e t h i sp a p e rc o l l e c t e dal a r g en u m b e ro fm e t e o r o l o g i c a lk n o w l e d g e ,k n o w l e d g eo fm e t e o r o l o g i c a ls c i e n c ei sn o to n l ys i m p l et e x t ,a sw e l la sp i c t u r e s ,s o u n d , a n i m a t i o na n dv i d e oa n do t h e rm u l t i m e d i a ,s o r t i n gt h r o u g ht h es y s t e m ,u s i n gs q ls e r v e r 2 0 0 0a st h ed a t a b a s em a n a g e m e n ts y s t e m ,b u i l d i n gak n o w l e d g ed a t a b a s e ,u s i n gd e l p h i 7 舔ad e v e l o p m e n tt o o l s ,d e v e l o p e dai n q u i r ys y s t e mt h a ti sr i c hk n o w l e d g eo fm e t e o r o l o g i c a ls c i e n c e ,f o ra l li n q u i r i e s ,u n d e r s t a n d ,l e a r nk n o w l e d g eo f m e t e o r o l o g i c a ls c i e n c e t h i sp a p e ra c c o r d i n gt ot h et e x t , i m a g e s ,v i d e o ,m u l t i m e d i ai n f o r m a t i o ni nt h es y s t e mt oe s t a b l i s har e l a t i o n a l - b a s e dm u l t i m e d i ad a t a b a s e a s s o c i a t i o nr o l em i n i n ga n dc l u s t e ra n a l y s i sa r ei n t r o d u c e di n t ot h es u b j e c t r e s e a r c h i n gi n q u i r ym e t h o d sa n dd e v e l o p m e n ti n q u i r yk e r n e lo fm e t e o r o l o g i c a ls c i e n c ek n o w l e d g em u l t i m e d i as y s t e m q u e r y i n ga n a l y s i st h r e ed i m e n s i o n st h a ti sk e y w o r d sf r o mt h eq u e r yl i t e r a ld i m e n s i o n , t h eu s e rq u e r yh i s t o r yd i m e n s i o na n dr e l a t e dm e t e o r o l o g i c a lk n o w l e d g ed i m e n s i o n , r e t u r n st h eq u e r yr e s u l t sa c c o r d i n gt ot h ea c t u a ls i t u a t i o no ft h eq u e r y i n q u i r yk e r n e lm o d u l ei sp r o g r a m m e d 丽mm a t l a b ,c a l l i n gt h eq u e r yk e r n e lm o d u l eb yd e l p h ic o mp o r t t h i sp a p e rt a k e st h eu s e r t sb r o w s i n g q u e r yl o gf o rt h em i n i n go b j e c t ,t h ea p p l i c a t i o no fa s s o c i a t i o nr u l e sa l g o r i t h mt of i n das t r o n gc o r r e l a t i o no ft h ev a r i o u sm e t e o r o l o g i c a ls c i e n c ek n o w l e d g e ,w h e nt h eu s e rq u e r yk e y w o r d s ,r e c o m m e n d e dt h er e l e v a n tk e yw o r d st h a t a f t e rt h ea s s o c i a t i o nr u l em i n i n gt ot h eu s e r s y s t e mh a sk n o w l e d g eo fe d i t i n g ,m a n a g e m e n t , q u e r y , s y s t e mm a n a g e m e n tf u n c t i o n s t h eu s e ri nc a nq u e r y , f u z z yq u e r y ,d i r e c t o r y - s t y l eb r o w s i n gq u e r i e s ,s o r t i n gq u e r i e s ,a d v a n c e dq u e r y , e t c ,q u i c k l yr e t r i e v et h en e e d e dk n o w l e d g eo f m e t e o r o l o g i c a ls c i e n c e t h i ss y s t e mi sr i c hi nc o n t e n t ,c o v e r i n gaw i d er a n g eo fk n o w l e d g e ,f r i e n d l yi n t e r f a c e ,t h ei n f o r m a t i o nq u e r yi ss i m p l e ,f a s t , c a ns a t i s f yp e o p l e sn e e d s o fm e t e o r o l o g i e a lk n o w l e d g e k e yw o r d s :m e t e o r o l o g i c a lk n o w l e d g e ,a s s o c i a t i o nr u l e s ,f u z z yq u e r yh独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。本论文除了文中特别加以标注和致谢的内容外,不包含其他人或其他机构已经发表或撰写过的研究成果,也不包含为获得南京信息工程大学或其他教育机构的学位或证书而使用过的材料。其他同志对本研究所做的贡献均已在论文中作了声明并表示谢意。关于论文使用授权的说明南京信息工程大学、国家图书馆、中国学术期刊( 光盘版) 杂志社、中国科学技术信息研究所的中国学位论文全文数据库有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文,并通过网络向社会提供信息服务。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权南京信息工程大学研究生部办理。|q 公开口保密(年月) ( 保密的学位论文在解密后应遵守此协议)学位论文作者签名:写数指导教师签名:名磨掳签字日期:冲历压签字日期:多啦南京信息工程大学硕士学位论文1 1 研究背景及意义第一章绪论在当前全球气候持续变暖的背景下,我国超强台风、特大干旱、强降雨等极端天气气候事件频发,对国民经济发展、社会和谐稳定,尤其是对人民群众生命财产安全构成严重威胁。前年年初我国遭受了历史罕见的低温雨雪冰冻极端气象灾害,使交通运输、电力、农业生产等蒙受了重大损失,给人民群众生产生活带来了不良影响。我国急需加强气象防灾减灾和气象科普知识的普及与教育,增加人民群众应急避险、自救互救的知识,提升公众参与气候变化应对行动的能力。随着社会经济的发展,人们物质生活水平的提高,气象与各行各业以及民众的生活越来越息息相关,公众自然产生了要了解气象和应用气象的强烈欲望。在农村,农民群众不再因循守旧,靠天吃饭,而是根据当地的天气、气候条件和市场的变化,选种不同的农作物;在城市,市民们的居家旅游,上班上学等,也都要关注天气的变化。让人们了解天气、气候与人体健康的关系,了解气象与工业、农业、商业、环境保护、交通运输等人类活动的关系,显得日益重要。近几年,在经济活动中不考虑天气气候灾害而造成经济损失、因贻误“天机”而坐失“商机”的事例,已屡见不鲜。这些,无疑都是气象科普工作的广阔领域瞄1 。在气象科普知识普及的过程中还要着重于科普知识的通俗化,全国政协委员、中国气象局局长郑国光在政协十一届三次会议上接受记者采访时表示,我国应该建立专门的防灾减灾和应对气候变化等方面科普宣传队伍,要争取使科普知识更加通俗化,让公众能读懂、能听懂气象科普知识。郑国光表示,气象工作涉及国民经济的方方面面。气象科普是气象科技联系经济社会发展和人民生产生活的重要纽带,也是科学防灾减灾,最大程度减少灾害损失不可或缺的重要途径。与百姓利益关系密切的气象防灾减灾和应对气候变化科普,应该是全社会都来做的事情。目前,国内有关气候变化方面的科普尚欠“火候”,难以让全社会真正认识和理解气候变化的内涵、气候变化对人类的影响以及人类该如何应对气候变化等方面的知识。各级气象部门正竭尽全力让气象科普走进农村、走近农民、走进社区、走进列车,力争实现气象科普宣传在农村和城市的均等化,使处于弱势群体的农民随时随地都能享受到科普大餐。气象灾害是全人类的共同敌人,它给人们带来干旱、高温、冷冻、风雹、龙卷风、雷击、连阴雨、浓雾、洪涝等灾害,这些灾害都会给人们带来巨大的损失【羽。为了让大家了解到更多的气象知识,我国急需加强气象科普知识的普及。在社会媒体高度发达的今天,网络、电视、报纸等已经成为气象科普知识传播的主要阵地,但网络、电视、报纸传播的气象科普知识并不是全南京信息工程大学硕士学位论文面的、系统的。本文作者在中国气象科普网、北京气象科普网、气象科普宣传手册等资源中搜集了大量的气象科普知识,搜集的气象科普知识不仅有单纯的文本,还有图片和视频等多媒体,经过系统整理,以气象科普知识为基础采用了对象一关系数据模型,将气象百科、气象科技、防灾常识、气象图片及气象视频有机地结合在一起,开发了气象科普知识多媒体系统。对气象科普知识多媒体系统的查询方法进行研究,开发了气象科普知识多媒体系统的查询内核,在系统实现方面该系统设计了人性化的查询界面,实现了完备的查询功能,并有效利用数据挖掘中常用的关联规则算法根据用户查询浏览的关键词向用户推荐相关的关键词引导用户查询。观看气象图片展、发放气象灾害防御手册和气象知识小手册等形式,加深了人们对气象灾害及防灾减灾害知识的了解,同时也让人们深刻感受到当今世界由于温室气体排放,产生气候变化,导致极端气候事件频发、大气污染,最终对人类健康造成极大的危害。活动呼吁大家共同保护我们的环境,保护我们赖以生存的大气圈,增强自身的环保意识。推进气象科普宣传,提高全民气象防灾减灾和应对气候变化的能力,最大限度地减少气象灾害造成的人员伤亡和财产损失。通过近几年的科普教育工作,各界人士深感气象科普工作的重要性,气象和人们的生活息息相关,和国民经济发展关系密切。让人们了解和掌握气象知识,无论对青少年还是成年人都是非常重要的,做好气象科普,使人们充分利用和开发气象信息和气候资源,都将发挥重要作用口1 。在科学技术高度发展的今天,不同领域的科学技术相互渗透和交叉,这充分体现出科普工作的重要性。应将防御气象灾害、应对气候变化等科技知识纳入国民教育,纳入文化、科技、卫生“三下乡”活动,纳入全社会科普活动,使气象科普工作更加融入社会、融入百姓生活、融入经济社会方方面面,发挥科普工作更大的作用和效益。本文以气象科普知识为基础采用了对象一关系数据模型,将气象百科、气象科技、防灾常识、气象图片及气象视频有机地结合在一起,开发了气象科普知识多媒体数据库系统,对查询方法进行了研究并开发了气象科普知识查询内核,用户每次输入关键词请求查询,系统就从查询关键字字面维度、用户查询历史记录维度、相关气象知识维度三个维度进行查询分析并根据查询情况返回结果。本论文重点是研究气象科普知识的查询内核,气象科普知识多媒体系统是用d e l p h i 7 0 和s q ls e r v e r 2 0 0 0 在单机版上实现的,在本系统的基础上研究气象科普知识的查询内核,查询内核调试成功后用m a t l a b 编程实现查询内核模块,d e l p h i 可以通过c o i i l 口调用该查询内核模块。以后气象科普知识多媒体系统发展成网络版,该查询内核模块可以移植到气象科普知识多媒体网络系统中,用j a v a 或v c 通过接口调用该模块,实现了较好的扩展性和兼容性。从理论上讲,本系统属于信息系统的设计研究范畴。从实际价值来看,如果系统做好并运行起来后,可以安装在各个省科普教育基地,对2南京信息工程大学硕士学位论文外界开放,广大人民群众可以到科普教育基地参观、咨询,学习气象科普知识。不仅可以用来向广大人民群众提供图文并茂的综合气象知识查询平台,更重要的是此系统与多媒体相结合,使得此系统的表现形式更丰富,更灵活,更友好。气象科普知识多媒体系统属于气象科普活动的一部分,气象科普活动是社会的需要,也是政府部门决策指挥的需要。气象科普通过不断创新而不懈地开展下去,除了在公众中倡导崇尚科学的风气之外,对社会经济发展也会产生不小的作用曙1 。气象科普的受益面是整个社会,特别是那些正在长知识的青少年,所以开发气象科普多媒体系统对整个社会是有意义的。1 2 国内外研究现状在我国,过去,气象部门比较封闭,气象科学在公众心目中较为神秘,除了能看到白色围栏的观测场,空中的探测气球和每天接触到的传媒天气预报外,更深层次的东西几乎一无所知。随着科学技术飞速发展,许多高新科技在气象业务中得到广泛应用,有必要通过气象科普工作,让公众了解应用于气象科技和业务的大型计算机、气象卫星、天气雷达和数值模式天气预报技术等,使他们开眼界,长见识口1 。近几年来,气象局和列车、公交车等流动载体合作,列车车厢及沿线车站播发气象科普宣传品( 广播稿、口袋书、科普光盘等) ,将气象防灾减灾和气候变化科学知识随列车传播到四面八方,深入到千家万户。充分利用列车这一重要流动载体,发挥铁路网络密集、人口流动量大的优势,将更多、更准确、更实用的气象防灾减灾和应对气候变化等方面的科学知识传播到群众手中。在每年的“3 2 3 ”世界气象日,各个市气象局的工作人员会走进校园、走进社区、走进农村,进行气象图片展、发放气象灾害防御手册和气象知识小手册,播放视频或由讲解员解说各种天气的形成及专业图标代表的含义。目前,我国有多种查询系统,如身份证查询系统、驾驶证查询系统、公交查询系统,住房公积金查询系统。这些查询系统有的是针对某一个具体的号码查询以验证该号码是否存在,有的是针对某一个用户,只有输入用户名和密码后才能针对该用户查询。而气象科普知识多媒体系统具有科普宣传性质,为广大群众了解学习气象科普知识提供途径。虽然目前有气象科普网站,但气象科普网站只能以浏览方式或以关键词方式查询气象科普知识。本文中的气象科普知识多媒体系统设计了人性化的查询界面,实现了完备的查询功能,并有效利用数据挖掘中常用的关联规则算法和聚类分析法研究了气象科普知识查询内核,并且可以根据用户查询浏览的关键词向用户推荐相关的关键词引导用户查询。国外非常重视气象科普知识的宣传和普及,以美国为例,美国气象学会( a m s ) 对从幼儿园到工作人员直到退休群体的大众传播气象科普知识,并且开设了2 4 小时专业气象频3南京信息工程大学硕士学位论文道,在内容上,提供天气新闻、气象灾害分析、气象科普等多种类型的气象节目,在形式上,将天气与国民的日常生活向联系,开设丰富多彩的专题节目,逐步培养起自己稳定的观众群。在加拿大也有天气频道。加拿大天气网络t w n ( t h ew e a t h e rn e t w o r k ) 不仅向观众连续提供2 4 小时的气象信息,而且加拿大国内一半以上电视台,7 0 以上的报纸和绝大部分网站的天气信息都是从t w n 获得的。不管是在国内还是在国外,人们对气象科普知识的宣传大多是通过电视、广播、口袋书、光盘、网站等途径进行的,每个宣传途径都比较单一,只有综合起来才会有吸引广大人民兴趣,才能对气象科普知识普及工作有所成效。但是,我国目前还没有一个以专门介绍气象科普知识的专业多媒体数据库为后台数据库的气象科普知识查询系统。在关联规则挖掘领域,国外研究的内容十分广泛。关联规则挖掘的概念及其算法最早是由i b ma l m a d e nr e s e a r c hc e n t e r 的a g r a w a l 等人提出的1 。自从1 9 9 3 年以来,很多的研究人员对关联规则的挖掘问题进行了大量研究,其中主要的工作有:经典的a p r i o r i算法及其衍生算法、并行挖掘算法以及量化关联规则挖掘算法等璩1 。挖掘方式主要有:自顶向下型、自底向上型。但这些算法不能避免a p r i o r i 算法固有的缺陷,即需要多次重复扫描数据库,而且可能产生大量的候选项集。有的研究者为了避免产生频繁项集的缺陷,提出了独立于a p r i o r i 算法的新方法,如j i a w e ih a n 等提出了不产生候选项集的f p g r o w t h算法 。埘。目前,一般关联规则挖掘算法是从大量的数据中挖掘关联规则,从而找到数据库中数据项间联系的规律。经典的a p r i o r i 算法是通过对数据库进行多次扫描,反复迭代直至产生所有的频繁项集。基于约束的关联规则挖掘时关联规则挖掘发展的另一个重要方向。还有,由于数据项在概念上可以有多个层次,因此不同概念层次数据项间的关联规则可以转化为普遍化关联规则,这也是目前研究的一个热点问题。此外,由于互联网的飞速发展,促使对w e b 数据的挖掘也成为一个非常重要的研究领域,将关联规则挖掘应用于w e b 上方面的研究也取得了较大的进展,w e b 日志中的关联规则挖掘等技术已经得到了很好的实践与应用。近年来,国内的关联规则挖掘研究也正逐渐掀起高潮,对关联规则挖掘所涉及的研究领域很多,一般集中于算法的研究、关联规则挖掘的实际应用以及关联规则挖掘理论方面的研究。国内的一些研究者对关联规则挖掘进行了大量的研究,但提出的算法也都是基于国外所提出算法的改进算法。中科院计算机研究所的欧阳为民最先把国外关联规则挖掘的概念和思想引进国内,并在基于a p r i o r i 算法的基础上提出了时态约束的关联规则。宋爱波等提出了一种新颖的m b p 算法n 引,利用关联规则挖掘发现的频繁项目集可以加快速度,能找出所有满足阈值约束的频繁浏览路径。王瑜、刘连臣等通过对a p r i o r i 方法的分析,运4南京信息工程大学硕士学位论文用对事务集和候选项目集有效约简的方法,提出了基于a p r i o r i 算法的、改进的快速w e b资源关联规则挖掘f a p r i o r i 方法n 们。潘雷、苏晶和徐汀荣对传统的关联规则挖掘方法进行了扩充和改进,改进后的方法能够结合系统设计的属性参数及概念划分要求,提取有价值的关联规则,有效反映用户的访问行为模式。刘滨在研究一些a p r i o r i 改进算法的基础上,提出了l _ a p r i o r i 算法瞪,通过缩减数据库和与连接方法,实现了对a p r i o r i 算法的改进,并应用到所在学校5 0 周年校庆网站的日志挖掘中。目前国内研究关联规则挖掘的人员大部分在大学,也有一些在公司或研究所。政府资助了大部分研究项目,如“九五”计划、8 6 3 计划、国家自然科学基金等。具体的研究项目有复旦大学开发的a r m i n e r 系统,该系统采用的关联规则挖掘算法是基于a p r i o r i 的改进算法,是专门针对智能化的p o s 系统开发的关联规则挖掘工具。在数据挖掘领域中,聚类分析是一项重要的研究课题。聚类分析是指事先不了解一批样品中的每一个样品的类别或者其他的先验知识,而唯一的分类根据是样品的特征,利用某种相似性度量的方法,把特征相同或相近的归为一类,实现聚类划分。现有的主要聚类算法可以大致分为以下几种:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法。在划分法方面,1 9 5 7 年l l o y d 提出了k - m e a n s 算法,1 9 9 0 年k a u f i n a n提出了k 一中心点算法。在层次法方面,1 9 9 6 年z h a n g 提出了b n c h 算法,1 9 9 8 年g u h a提出了c u r e 算法等等】- 【2 引。本文通过比较关联规则的相关算法和聚类分析的相关算法,把关联规则的经典算法a p r i o r i 算法和聚类分析中的最短距离法应用到气象科普知识多媒体系统中,开发了气象科普知识的查询内核,并且通过h p r i o r i 算法对用户浏览查询历史记录的关键词分析,得出关键词频繁项集,当用户查询某一个关键词时系统根据关联规则分析的结果向用户推荐相关联的其他关键词,起到智能引导用户浏览知识的作用。1 3 论文研究内容及组织结构1 3 1 本文研究内容气象科普知识多媒体系统是在当前气象科普知识宣传和普及的需求下开发的图文并茂、生动活泼的多媒体查询系统。气象科普知识多媒体系统是用d e l p h i 7 0 和s q is e r v e r 2 0 0 0在单机版上实现的,采用流技术实现对多媒体数据的存取。在本系统的基础上研究气象科普知识的查询内核。本论文从以下几个方面进行探讨:1 作者通过查阅国内外大量相关技术文献,在了解气象科普知识、多媒体、关联规则挖掘南京信息工程大学硕士学位论文以及聚类分析的基础上,确定了本系统的解决方案。2 作者通过研究关联规则挖掘技术和聚类分析方法,掌握了关联规则的概念、分类及相关算法,掌握了聚类分析方法以及空间度量,把数据挖掘中的关联规则算法和聚类分析方法应用于本系统。3 对气象科普知识多媒体系统的查询方法进行研究,开发了气象科普知识多媒体系统的查询内核。气象科普知识查询内核的原理是:可以从查询关键字字面维度、用户查询历史记录维度、相关气象知识维度三个维度进行查询分析,三个维度的查询结果在三维空间形成不同的点,空间中点到点之间的距离根据欧氏距离求得,空间中的各个点开始自成一类,通过最短距离法临近的点形成聚簇,每个聚簇在空间中可以用一个球包起来,这个球也称为包络。每一个包络中的关键词信息存在数据库中形成包络数据表,并且在数据库中为每一个包络设一个唯一的d 号。当用户在系统界面输入某一关键词进行查询请求时,系统根据用户请求查询的关键词到数据表中查找是否有包含该关键词的包络信息,若有,就把包络表中该记录用s q l 语句读取出来;若没有,就对该关键词分别从三个维度上进行度量计算,求出在三维空间中构成的各个点位置,再用样本点到类的距离公式计算出该样本点与哪个包络的距离最近,把各个点分到不同的包络中。对用户的浏览查询日志进行关联挖掘,当用户查询关键词时可以向用户推荐进过关联规则分析后得出的相关关键词。4 作者对系统进行总体设计,使前台应用系统能很方便地进行查询与输出,能有效地实现信息的组合和分解、检索、更新、分析与统计,以文本、图形或视频等方式输出等。5 在多媒体数据库构建部分介绍了气象科普知识的内容、关系型为主的多媒体数据库以及数据库的总体设计。本系统所涉及的是一个多媒体数据库,涉及到视频、图像以及音频等结构比较复杂、数据量比较大的非常规数据,因此本系统开发的难点是怎么在数据库中更好的存储、检索以及读写这些非常规数据。本系统以开发一个操作简捷、界面友好大方、功能完备的信息系统为设计宗旨。通过本系统,用户可以很方便的对系统数据库中的信息进行查询、修改、添加和删除等操作,以实现用户的需求。6 气象科普知识查询内核模块用m a t l a b 编程实现,d e l p h i 可以通过t o m 口调用该查询内核模块。用户提交查询请求后系统从查询关键字字面维、用户查询历史记录维、相关气象知识三个维度根据情况返回查询结果。系统实现了知识编辑、知识管理、知识查询、系统管理等功能。用户在查询知识界面可以根据查询条件,采用模糊查询、目录式浏览查询、分类查询、高级查询等方式,快速检索到所需要的气象科普知识。7 最终实现了方便、快捷,能满足各种查询要求的气象科普知识查询系统。6南京信息工程大学硕士学位论文1 3 2 本文组织结构本文共分为六章,具体内容如下:第一章:绪论。主要介绍项目背景、论文的研究意义、国内外研究现状、研究内容以及作者所做的工作。第二章:数据挖掘基本知识。简要介绍了数据挖掘的概念及功能,在本论文中用到关联规则算法和聚类分析,介绍了关联规则挖掘技术,包括关联规则的概念、分类及相关算法,聚类分析在第三章中讲到。第三章:气象科普知识查询内核的设计及关联规则推荐算法的应用。在科普知识查询内核部分详细介绍了查询关键字字面维、用户查询历史记录维、相关气象知识三个维度每个维度是如何进行度量的,通过对几种距离度量函数的比较选择欧氏距离作为空间度量。用m a t l a b 实现了经过聚类分析的空间包络效果图。接着详细介绍了关联规则推荐算法的设计思路及其在本系统中的应用。第四章:气象科普知识多媒体系统设计。首先对开发的系统进行了概述,简要介绍了所使用的开发工具,接着对系统进行了总体设计,包括各个功能模块和子模块的设计。最后介绍了气象科普知识多媒体数据库的构建。在多媒体数据库的构建中介绍了气象科普知识内容、关系型为主的多媒体数据库、数据库总体设计。第五章:气象科普知识多媒体系统的实现。利用d e l p h i 7 0 开发工具实现该查询系统,其中包括主窗体的实现、知识查询模块的实现、气象知识模块的实现以及多媒体模块的实现。在知识查询模块,本论文开发的查询内核模块用m a t l a b 编程实现,d e l p h i 可以通过c o i n口调用该查询内核模块。第六章:结论与展望。对系统的研究设计进行总结,并提出下一步的研究方向。7南京信息工程大学硕士学位论文第二章数据挖掘基本知识2 1 数据挖掘的概念及功能数据挖掘是2 0 世纪末期产生的信息技术,是从大量数据中抽取隐含、潜在、有用信息的方法和过程。最终目的是发现和推导出有价值的知识,包括概念、规则、模式和模型等,为管理和决策提供参考和支持鲫。数据挖掘有狭义的数据挖掘和广义的数据挖掘。狭义的数据挖掘是k d d 中的一个步骤。广义的数据挖掘与数据库知识发现( k n o w l e d g ed i s c o v e rf o r d a t a b a s e ,k d d ) 含义相同嘲。数据挖掘主要有以下几种功能。( 1 ) 关联分析关联规则主要用于发现大量数据中项集之间的关联和相互关系,主要指标是最小支持度阈值和最小置信度阈值。关联可以分成因果关联、简单关联、时序关联。关联分析主要是找出隐藏在数据库中的关联网。因为不知道数据库中数据信息的关联函数,有时即使知道也是不确定的,所以通过关联分析得到的关联规则具有可信度。( 2 ) 聚类分析聚类分析是将数据分成多个类或簇,在同一个簇中对象之间高度相似。与分类不同,聚类分析要划分的类或簇是未知的,是无指导的学习过程。对象根据最大化类内部的相似性、最小化类之间的相似性的规则进行分组或聚类。也就是说,最终得到的簇具有这样的特点:在一个簇里的对象极其相似,而与其他簇中的对象极不相似。产生的每个簇可以看作一个对象类,规则由它导出。聚类技术主要包括数学分类学和模式识别方法。( 3 ) 分类分析预测模型通过数据库中某些数据获得,以此对另外的数据进行预测。当预测变量是离散的,这类问题称为分类;若预测变量是连续的,这种问题称为回归。分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来数据趋势,是一种有指导的学习过程。( 4 ) 离群点分析数据库中可能包含一些数据对象,它们与数据的一般模型或行为有区别,这些数据对象是离群点。很多数据挖掘方法把离群点看作异常或噪声丢弃。但是,在一些领域如罕见事件、欺骗检测也许比正常发生的事件情更使人感兴趣。离群点数据分析称作离群点挖掘。( 5 ) 概念描述8南京信息工程大学硕士学位论文用户常常需要抽象有意义的描述,经过归纳的抽象描述能概括大量数据类信息。概念描述有两种典型的描述方法:区别性描述和特征性描述,区别性描述是描述不同类对象之间的区别,特征性描述是描述某类对象的共同特征。( 6 ) 偏差检测数据库中的数据信息总是有一些反常记录,检测这些偏差非常有意义。偏差包括非常多的潜在知识,如不满足规则的特例、分类中的反常实例、模型预测值与观测结果的偏差等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。在本文中气象科普知识查询内核属于知识挖掘的领域。气象科普知识查询内核的设计思想是:从查询关键字字面维度、用户查询历史记录维度、相关气象知识维度三个维度进行查询分析,三个维度的查询结果在三维空间形成不同的点,空间中点到点之间的距离根据欧氏距离求得,空间中的各个点开始自成一类,通过最短距离法临近的点形成聚簇,每个聚簇在空间中可以用一个球包起来,这个球也称为包络。每一个包络中的关键词信息存在数据库中形成包络数据表,并且在数据库中为每一个包络设一个唯一的d 号。用m a t l a b编程实现查询内核模块,d e l p h i 可以通过c o r n 调用该查询内核模块。当用户在系统界面输入某一关键词进行查询请求时,系统根据用户请求查询的关键词到数据表中查找是否有包含该关键词的包络信息,若有,就把包络表中该记录用s q l 语句读取出来:若没有,就对该关键词分别从三个维度上进行度量计算,求出在三维空间中构成的各个点位置,再用样本点到类的距离公式计算出该样本点与哪个包络的距离最近,把各个点分到不同的包络中。在用户查询历史记录维需要用到关联规则挖掘算法,对三维空间中的点需要用到聚类分析算法才能形成包络。下面分别对关联规则算法和聚类分析算法进行详细的介绍。2 2 关联规则挖掘技术从广义上讲,关联分析是数据挖掘的本质。关联知识反映一事件与其他事件间的关联或依赖。数据库中的数据一般都有关联关系,两个或多个变量的取值有一定的规律性。数据间的关联是隐含的、复杂的。关联可以分成因果关联、简单关联、时序关联。关联分析主要是找出隐藏在数据库中的关联网。2 2 1 关联规则的概念关联规则挖掘技术是数据挖掘技术的一个重要问题,a g r a w a l 于1 9 9 3 年提出了关联规则的概念后已经在数据库界引起了广泛的研究。在购买面包和黄油的顾客中,有9 0 的人9南京信息工程大学硕士学位论文同时也买了牛奶,这是一条关联规则。对于关联规则问题的研究最早是r a g r a w a l ,其目的是要在交易数据库中发现各项目之间的关系。随着条形码技术的发展,零售企业交易数据库中存储了大量的售货数据 9 1 。利用关联规则发现技术对这些历史数据分析,能够提供极有价值的信息。例如,能够帮助如何规划市场,帮助如何摆放货架上的商品,实施促销计划。从事务数据中发现关联规则,对于改进零售业等商业活动的决策非常重要。根据商品之间的相互关联关系,为用户推荐相关的商品,“基于关联规则的推荐”是商品级( i t e ml e v e l ) 的推荐。定义2 1 关联规则挖掘的数据集记为d ( d 一般为事务数据库) ,d = t l ,t 2 , ,q ,户 i l ,i 2 ,i 蛳,i p ) ,t 僻= l ,2 ,山称为事务( t r a n s a c t i o n s ) , i m ( m = l ,2 ,p )称为项( i t e m ) 。每一个事务都有一个唯一的标识符,称为t i ) 。定义2 2 设i - i b i 2 ,i p 是d 中全体数据项组成的集合,i 的任何子集x 称为d 中的项集( i t e m s e t ) ,若l x i - k ,称集合x 为k - 项集0 k - i t e m s e t ) 。设t k 和x 分别为d 中的事务和项集,如果x 如,称事务k 包含项集x 。定义2 3 数据集d 中包含项集x 的事务数称为项目集x 的支持数,记为吒。项集x的支撒记为哪郴) ,s u p p o r t ( x ) = 裔1 0 0 ( 或哪。娴= 裔) 其中i d i 是数据集d 的事务数,如果s u p p o r t ( x ) 大于等于用户指定的最小支持度阈值m i n s u p ,则称x 为频繁项目集,简称频繁集,否则称x 为非频繁项目集,简称非频繁集( 或小项目集) 。定理2 1 如果x y 是数据集d 中的项目集:( 1 ) 如果彳y ,则s u p p o r t ( x ) s u p p o r t ( y )( 2 ) 如果工量】,如果x 是非频繁项集,则y 也是非频繁项集;( 3 ) 如果彳】,如果y 是频繁项集,则x 也是频繁项集。定义2 4 如果x 、y 为项目集,且xny = ,蕴涵式xjy 称为关联规则,x 、y分别称为关联规则zj 】,的前提和结论。项集工u 】,的支持度称为关联规则xjy 的支持度,记作:s u p p o r t ( xjy ) 。s u p p o r t ( xjy ) = s u p p o r t ( xu y 、关联规则xjy 的置信度记作:c o n f i d e n c e ( xjy ) ,c o n f i d e n c e ( x y ) = s u p p o r t ( xuy ) s u p p o r t ( x ) xl0 0 通常用户根据挖掘需要而指定的最小置信度记为m i n c o n f ,置信度和支持度和是描述关联规则的两个概念。置信度用于衡量关联规则的可信程度,1 0南京信息工程大学硕士学位论文而支持度用于衡量关联规则在整个数据集中的统计重要性。一般来说,只有支持度和置信度均较高的关联规则才可能是有用的、用户感兴趣的关联规则。定义2 5 如果s u p p o r t ( x 令y ) m i n s u p 且c o n f i d e n c e ( xjy ) m i n e o n f ,称关联规则xjy 为强关联规则,否则称关联规则石jy 为弱规则。关联规则的挖掘任务就是挖掘出d 中所有的强规则。强规则xjy 对应的项集( x u y ) 必定是频繁集,频繁集( x u 】,) 导出的关联规则x y 的置信度可由频繁集x和( xuy ) 的支持度计算。所以,可以把关联规则挖掘分为以下两个问题:( 1 ) 通过最小支持度找出数据集d 中的所有频繁项集:( 2 ) 通过频繁项集和最小置信度产生关联规则。第一个子问题的任务是迅速高效地找出d 中全部频繁项集,是关联规挖掘的核心问题。第二个子问题求解过程是比较容易、直接的,目前所有的关联规则挖掘算法都是针对第一个子问题而提出的。关联规则挖掘中的核心问题是频繁项集的获取,发现频繁项集的算法主要考虑的问题有如下两个:( 1 ) 减少f o 操作。有时关联规则挖掘的数据集可达g b 甚至t b 数量级,过于频繁的f o 操作可能会直接影响到关联规则的挖掘效率,而减少f o 操作的主要方法就是减少扫描数据集d 的次数;( 2 ) 降低需要计算支持度的候选项集的数量,使其与频繁项集的数量接近。候选项数量的降低可以节省所需的计算时间和存储空间【6 】。2 2 2 关联规则的分类关联规则根据不同的情况进行分类:( 1 ) 根据规则中处理的变量的类别,关联规则可以分为数值型和布尔型。数值型关联规则可以直接对原始的数据进行处理,也可以与多层关联规则或多维关联结合起来,对数值型字段进行处理,当然数值型关联规则中也可以包含种类变量;而布尔型关联规则处理的变量是种类化的、离散的。( 2 ) 根据规则中涉及到的数据的维数,关联规则可以分为单维关联规则和多维关联规则。在单维关联规则中只处理数据的一个维,如某职工的职业;但是在多维关联规则中,处理的是与多个维有关的数据。也就是说,单维关联规则是处理单个属性中的关系;而多维关联规则处理的是各个属性间的关系。( 3 ) 根据规则中数据的抽象层次,可以分为单层关联规则与多层关联规则。在单层关联南京信息工程大学硕士学位论文规则中,全部变量只考虑到单层性没有考虑到数据的多层性;但是在多层关联规则中,充分考虑了数据的多层性。( 4 ) 根据规则中涉及到的数据的确定性,关联规则可以分为模糊的关联规则和确定的关联规则。客观世界是复杂的和多样的,大部分事物很难用精确概念表达,因此出现了模糊关联规则。模糊关联规则中的数据项用模糊概念的语义项表示强1 。对于任意模糊属性集詹p兀t ,o 。)x - y t ,y 。,y p ,模糊属性集x 的模糊支持率为f s u p ( x ) ,f s u p ( x ) = 上生生一,其中n 是t 的记录个数,兀t j ( y 。) 是模糊属性集x 的模糊支持数,记为f s u p p o r t ( x ) 。j = lr a - - 1在规则中处理的变量的类别方面,在本系统中没有涉及到数值类型,采用的是布尔型关联规则。在规则中数据的抽象层次方面,风= 雷阵雨,是一个较高层次和细节层次之间的多层关联规则。采用的是布尔型关联规则。在规则中涉及到的数据的维数方面,涉及到历史记录维,相关气象知识维,字面相似维,用到的是多维关联规则。在规则中涉及到的数据的确定性方面,阴天= 下雨,由于这里的下雨是模糊语义,可能下的是小雨、中雨、大雨、暴雨,因此用的是模糊关联规则。2 2 3 关联规则的相关算法研究者们已经提出了许多关联规则算法。1 9 9 3 年a g r a w a l 等人提出了a p r i o r i 算法【7 】,随后又提出了改进的算法a p r i o r i t i d 以及a p r i o r i h y b r i d 算法,d h p 算法是a p r i o r i 算法的一个改良算法,p a r t i t i o n 算法使用了分而治之的策略,h a n 等人提出了一种新的算法f p g r o w t h 算法、蔡之华等提出了d l g 算法,牛小飞等提出了a v m 算法【2 1 1 。这些算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论