




已阅读5页,还剩47页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘在航空安全自愿报告分析中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国民航大学硕t 毕业论文 摘要 航空安全自愿报告是由民航从业人员自愿提供的一种信息报告,主要记录该报告人 员经历的民航安全隐患事件过程,其形式包括结构化数据( 事件发生地点、时间、航空 器类型、航空公司类型、飞行过程等) 和非结构化数据( 事件经过的简要描述) ;数据 挖掘旨在从大量的、不完全的、有噪声的数据中,自动提取隐含在其中的模式和知识。 论文以“航空安全自愿报告系统”中收集的事件报告为数据源,主要研究数据挖掘在自 愿报告分析中的应用,针对自愿报告特有的结构化数据和非结构化数据共存的现状,研 究如何借助数据挖掘技术自动识别隐藏在数据中未知的、潜在的问题,揭示事故发展的 趋势和关联,以期高效进行安全事件数据分析,控制和消除航空安全隐患,提高飞行安 全性能。 论文在对数据挖掘技术( 关联规则挖掘,文本检索,聚类等) 及我国的航空安全自 愿报告进行系统和深入探讨研究的基础上,主要做了以下工作:1 针对我国航空安全自 愿报告的数据形式进行实验分析,采用数据清洗、数据集成、数据归约等技术对数据进 行必要的预处理;2 采用哈希表及数据划分技术对a p r i o r i 算法进行改进,并对其进行 多维关联规则挖掘适应性改进,最终采用此算法对航空安全自愿报告结构化部分进行关 联分析,挖掘其中隐藏的关联规则;3 采用关注词集合技术表征自愿报告特征,分别采 用欧氏距离和余弦距离两种方式度量报告相似度,实现了航空安全自愿报告的相似检 索;4 采用模糊聚类方法对航空安全自愿报告非结构化部分进行报告的自动聚类:5 针 对我国航空安全自愿报告专有数据形式,提出了不同数据挖掘技术在航空安全自愿报告 分析中的综合应用策略,并给出了实验结果及分析。 论文分别给出了不同数据挖掘方法和技术在用于航空安全自愿报告分析时的实验 结果。实验表明:从航空安全自愿报告中可以挖掘出隐含的有效航空安全关联规则;报 告的聚类及相似报告检索有助于分析人员聚焦分析相关报告之间的实质联系,就所选数 据源而占,采用余弦距离比欧氏距离聚类效果更好;多种数据挖掘技术在航空安全自愿 报告的综合应用能更有效地挖掘安全信息,这将是航空安全自愿报告分析研究的一个趋 势。 关键词:航空安全自愿报告;关联规则挖掘;关注词;相似报告检索;聚类 中国民航大学硕士毕业论文 a b s t r a c t r e p o s e db ys o m ec i v i l a v i a t i o np e r s o n n e l ,s i n oc o n f i d e n t i a la v i m i o ns a f e t yr e p o r t ( s c a s r ) i s s o m ek i n do f i n f o r m a t i o nw h i c hm a i n l yr e c o r d st h ep r o c e s so f t h ec i v i la v i a t i o no c c u r r e n c ee x p e r i e n c e db y t h er e p o r t e r a n dt h er e p o r t sc o n t a i n sb o t hs t r u c t u r e d ( t h ep l a c e ,t h et i m e ,a i rc r a f tt y p e ,a i r w a y st y p e ) w e l la su n s t r u c t u r e dd a t a ( t h ef r e et e x td e s c r i p t i o no f t h ee v e n t ) d a t am i n i n gr e f e r st oe x t r a c t i n gi n t e r e s t i n g p a r e mo rk n o w l e d g ef r o ml a r g ea m o u n t so fd a t a t h i st h e s i sm a i n l yd i s c u s s e sd a t am i n i n ga n di t s a p p l i c a t i o ni nt h ea n a l y s i so fs c a s r t h et h e s i sd e s c r i b e ss o m ea p p r o a c h e st of i n dn o n - t r i v i a l ,i m p l i c i l p r e v i o u s l yu n k n o w na n dp o t e n t i a l l yu s e f u li n f o r m a t i o no rp a t t e r n sf r o ms c a s rd a t a b a s e do nt h ea n a l y s i so ft h ed a t am i n i n gt e c h n o l o g i e s ( a s s o c i a t i o nr u l e sm i n i n g ,t e x ts e a r c h i n g , t h e c l u s t e r i n g ) a n ds i n oc o n f i d e n t i a la v i a t i o ns a f e t yr e p o r t s ,a n d t h e p r i m a r yw o r ko ft h i st h e s i s i n c l u d e s :1 p e r f o r mt h ed a t ap r e p r o e e s s i n go f s c a s r , u s i n gt e c h n o l o g i e so f d a t ac l e a n i n g ,d a t ai n t e g r a t i o n a n da t t r i b u t e o r i e n t e di n d u c t i o n ;2 i m p r o v et h ea p r i o r ia l g o r i t h mu s i n gt h eh a s ht a b l ea n dd a t ap a r t i t i o n a n da p p l yt h ei m p r o v e da l g o r i t h mt om i n em u l t i d i m e n s i o n a la s s o c i a t i o nr u l e sf r o ms c a s r ;3 s e a r c h s i m i l a rr e p o r t sf r o mt h ed a t a b a s eo fs c a s rb a s e do nt h et e c h n o l o g yo fi m p o r t a n t - w o r d su s i n gb o t h e u c l i d e a nd i s t a n c ea n dc o s i n ed i s t a n c et om e a s u r et h es i m i l a r i t y ;4 c l u s t e rt h eu n s t r u c t u r e dp a r t so ft h e s c a s ru s i n gt h ef u z z yc l u s t e r i n g ;5 p r e s e n ts o m ea p p r o a c h e st oa p p l yd i f f e r e n td a t am i n i n gt e c h n o l o g i e s i nt h ea n a l y s i so f s c a s r t h ee x p e r i m e n t a lr e s u l t so ft h ea p p l i c a t i o n sa b o u td i f f e r e n td a t am i n i n gm e t h o d si nc o n f i d e n t i a l a v i a t i o ns a f e t yr e p o r t sa r eg i v e ni nt h i st h e s i s ,a n dw h a tw eg e tf r o mt h ee x p e r i m e n t sa r ea sf o l l o w s :t h e s i g n i f i c a n tc i v i l a v i a t i o na s s o c i a t i o nr u l e sc o u l d b e f o u n di na n a l y z i n gs c a s ru s i n gd a t am i n i n g t e c h n o l o g i e s ;w ec o u l dg e tt h ec o n n o t a t i v er e l a t i o n sb e t w e e nr e p o r t su s i n gt h ec l u s t e r i n ga n dt h es e a r c h i n g s i m i l a rr e p o r t sm e t h o d s , a n dc o s i n ed i s t a n c ei sm o r ee f f e c t i v et h a ne u c l i d e a nd i s t a n c ei nt h ec l u s t e r i n ga n d s oo n t h ep r e s e n t e da p p l i c a t i o ns t r a t e g i e sa b o u ta n a l y z i n gs c a s rs h o u l db ean e wr e s e a r c hd i r e c t i o n k e yw o r d s :c o n f i d e n t i a la v i a t i o ns a f e t yr e p o r t s ;a s s o c i a t i o nr u l e sm i n i n g ;s i m i l a ri n f o r m a t i o ns e a r c h i n g ; i m p o r t a n t - w o r d s ;c l u s t e r i n g 中国民航大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得中国民航大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志 对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。 研究生签名 康经 日期:兰丑型 中国民航大学学位论文使用授权声明 中国民航大学,中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件 和电子文档,可以采用影印,缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内 容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全 部或部分内容。论文的公布( 包括刊登) 授权中国民航大学研究生部办理。 研究生签名: 采叛 导师签名:埠日期:回:u 里 中国民航丈学硕十毕业论文 引言 随着民航事业近几年的飞速发展,如何进一步完善航空安全,成为航空各部门关注 的焦点。民航安全信息的收集、分析、传播和共享则是改善航空安全的最有效手段之一。 世界各国和地区的民航界都非常重视民航安全信息的收集、研究和利用。然而,对于收 集到的大量的航空安全信息,如何有效地对其进行分析,从而改善航空安全系统,是目 前民航安全信息分析中亟待解决的一个问题。 航空安全自愿报告系统( s i n oc o n f i d e n t i a la v i a t i o ns a f e t yr e p o r t i n gs y s t e m 简称s c a s s ) 是具有收集、分析和共享民航安全信息功能;提供航空安全告警服务的航 空安全信息系统,由它收集的报告即为航空安全自愿报告( c o n f i d e n t i a la v i a t i o n s a f e t yr e p o r t s ) ,其主要是民航从业人员包括飞行员,管制员、乘务员、机务维修人 员、保安人员以及其他相关人员针对涉及到航空器运行过程中的不安全事件或者当前航 空安全系统中存在的及潜在的矛盾和不足之处自愿提交的不安全事件和安全隐患报告, 其收集的主要目的是对报告信息进行处理与分析,及早采取预防措施,消除安全隐患, 提高安全科学管理。 航空安全自愿报告包含报告的基本信息( 结构化部分) 和事件的经过( 非结构化部 分) 两部分组成,对大量的航空安全自愿报告进行人工分析不仅耗时耗力,而且其分析 结果的准确性在很大程度上依赖于分析人员的经验及知识背景,而其固有的结构化数据 与非结构化数据共存的报告形式,使得对其自动分析又面l 临很大的技术挑战,因此,如 何从自愿报告中挖掘出分析人员需要的信息,并有效地结合两种数据进行分析比较,进 而得出有价值的内容,是目前航空安全自愿报告分析亟待解决的一个问题,也是本论文 主要研究的问题。 中国民航大学硕卜毕业论文 第一章绪论 1 1 航空安全自愿报告( s c a s s ) 航空安全自愿报告系统( s i n oc o n f i d e n t i a la v i a t i o ns a f e t yr e p o r t i n gs y s t e m 简称s c a s s ) 是具有收集、分析和共享民航安全信息功能;提供航空安全告警服务的航 空安全信息系统,由它收集的报告即为航空安全自愿报告( c o n f i d e n t i a la v i a t i o n s a f e t yr e p o r t s ) ,其主要是民航从业人员包括飞行员、管制员、乘务员、机务维修人 员、保安人员以及其他相关人员针对涉及到航空器运行过程中的不安全事件或者当前航 空安全系统中存在的及潜在的矛盾和不足之处自愿提交的不安全事件和安全隐患报告, 其收集的主要目的是对报告信息进行处理与分析,及早采取预防措施,消除安全隐患, 提高安全科学管理。“* 1 1 1s c a s s 背景介绍 为了提高民用航空系统的安全性,尽量减少飞行事故和事故征候的发生,需要尽可 能快速、准确地发现并改正系统存在的缺陷。已发生的差错、不安全事件恰好暴露了系 统的缺陷,因此搜集已发生的不安全事件信息并对其进行研究就具有重要的意义。然而, 小的差错或不安全事件具有隐蔽、动态的特征,如果当事人不报告,其他人事后就很难 发现。而由于人性的弱点,多数人出于害怕处罚,或者害怕丢面子等原因,不愿意暴露 自己的失误和错误。因此,失去了大量的信息和完善系统的机会。 早在2 0 世纪7 0 年代,美国开始建立自愿报告系统,后来发展成为全球最早实行的 航空安全报告系统a s r s ( a v i a t i o ns a f e t yr e p o r t i n gs y s t e m ) ,并获得了很大的成功。 鉴于a s r s 的成功,英国、加拿大、澳大利亚、新西兰等国先后开发了适合于其国情的 保密性的自愿报告系统,自1 9 9 9 年后我国的台湾、韩国和日本也建立了保密自愿报告 系统。自愿报告系统可获取大量的第一手航空安全资料,特别是珍贵的人为因素资料, 为制定有效的改正措施、开展研究工作以及制定宏观政策提供依据。为尽快在世界范围 内建立保密自愿报告系统,上个世纪8 0 年代初在前a s r s 主席提议下成立了国际航空安 全保密系统组织i c a s s ( i n t e r n a t i o n a lc o n f i d e n t i a la v i a t i o ns a f e t ys y s t e m ) ,致 力于各国和地区的航空安全保密系统的建立,促进全世界民航安全水平的提高。近年来, i c a s s 每年召开年会,各国与会者借此加强交流,推广经验,研究对策,共同推进全球保 密的航空安全报告系统的发展。国际民航组织也一直积极推进此项工作,最新版的i c a o 公约附件1 3 特别建议各缔约国建立航空安全自愿报告系统。全球范围内的保密自愿报 告系统在提高航空安全水平方面起到了越来越重要的作用。 保密性的航空安全自愿报告系统大量收集来自飞行员、管制员和维修人员等一线人 2 中国民航丈学硕士毕业论文 员的有关报告,发现现行民用航空运行系统的缺陷或漏洞,并作为人为因素研究的第一 手资料,完善民用航空系统,保证其安全运行。人为因素一直是航空事故的主要原因, 改善人为因素已成为进一步降低航空事故率、提高航空安全水平的主要途径。保密的航 空安全自愿报告系统的建立,为广大航空从业人员创造一条方便快捷地报告不安全事件 的渠道,对促进航空安全起到重要的作用。 1 i 2s c a s s 报告的范围 s c a s s 是收集航空安全信息的多种渠道之一,其接收的报告有一定的限制。s c a s s 主 要收集航空系统的缺陷和隐患的报告,没有造成严重后果或无明显后果,不易被发现的 事件或违章行为的报告( 见图1 1 ) 。收集的安全信息是事故金字塔底边对应的日常运 行中大量的不安全事件和隐患,而这些事件和隐患却是严重事故得以发生的温床。 自愿报 范围 1 1 3s c a s s 报告的具体内容 图1 i 自愿报告事件范围 s c a s s 报告的具体内容为: 1 涉及航空器不良的运行环境、设备设施缺陷的报告; 2 由于不经心或无意造成违章事件、人为因素事件的报告; 3 涉及到执行标准、飞行程序的困难事件报告; 4 影响航空安全的不包括5 ) 中的其他事件或环境报告; 5 s c a s s 不受理涉及事故、事故征候、严重差错以及犯罪的事件报告; 6 s c a s s 原则上不受理匿名报告。如果匿名报告的内容符合要求,报告被受理, 单独统计。 对于不符合如上规定的报告,但涉及到事故、事故征候、严重差错或犯罪的紧急 中国民航大学硕 毕业论文 事件,s c a s s 将报告内容转交给相关的部门( 民航总局或公安机关等) ;对于不符合如 上规定的报告,如不涉及紧急事件,s c a s s 将报告返还给报告人;无法返还的销毁。 1 2 航空安全自愿报告分析的国内外研究现状 自愿报告系统可获取大量的第一手航空安全资料,特别是珍贵的人为因素资料,为 制定有效的改正措施、开展研究工作以及制定宏观政策提供了基础。因此建立自愿的航 空安全报告系统,已经作为提高航空安全水平的一个重要途径。 美国a s r s 已经有2 0 多年经验,是世界上发展最早也是目前发展最好的一个航空自愿 报告系统,平均每个月可以收到约3 4 0 0 份自愿报告。a s r s 由大约1 5 名左右的资深飞行员、 空管人员作为安全分析员,对飞行事故征候及其他不安全事件进行深入分析,根据经验 对飞行事故征候和不安全因素进行分析,查出原因,提出改进措施,是a s r s 信息应用的 关键。安全分析员都是退休人员,其分析不受环境约束,较为客观公正,收到的每份报 告要经过专人按一定的信息处理程序进行处理。 但是,随着大量报告的收集,仅仅采用人去分析,不仅耗费大量的时间和财力,同 时其分析结果的准确性在很大程度上也依赖于分析人员的经验及知识背景,而当数据量 达到一定程度的时候,采用人力分析也成为不可能的事情。另外,像数据之间的关联规 则及其中的一些隐含内容,单凭人力是不可能实现的。因此,各国尝试采用各种技术对 收集到的大量的航空安全自愿报告进行分析研究。 美 虱m i t r e 公司也在做这方面的尝试,并取得了阶段性进展m m 7 州删2 川2 ”。考虑 到其收集到的报告语占是英语,他们在报告检索中采用了基于语义的技术,他们首先把 报告存入文本中,再对文本报告做处理,这其中用到了“相近词缀”( s t e m m i n g s i m i f a r ) 及“无关词”( s t o p - w o r d s ) 技术。因为英语中包含大量的“词缀”,因此包含词缀的 词语可以看作是相近的词语。因此,他们首先把报告中的“无关词”( s t o p w o r d s ) 去 除掉,这些词与航空安全报告的特性无关紧要,诸如“的( o f ) ”“和( a n d ) ”“或 ( o r ) ”等等。之后去掉符号,从而形成词串报告。当然,这种方法由于基于语义技术, 提高了自动程度,基本不需要人为的参与,但是由于其去掉了“无关词”,原始报告已 经发生了变化,另外他们采用了“相近词缀”技术,因此对于我国的报告,也是不能用 这种方法简单实现的。 英国航空公司也进行了尝试,其采用风险分析工具( t h er i s ka n a l y s i st o o l ,r a t ) 对其1 9 9 8 年来收集到的报告进行研究分析。“”其主要目的是通过风险分析工具分析飞行 员的心理及飞行中事故发生的内在规律等。但由于其主要采用数学分析工具,没有采用 数据挖掘分析方法,因此其数据的具体形式很固定,分析出来的结果也很有限。 美国的阿拉斯加航空公司采用根源分析工具( r o o tc a u s ea n a l y s i st 0 0 1 ) 对其2 0 0 2 年之前发生的大小飞行事故进行了分析。通过分析员给定的一个固定的事故问题,搜索 所有的报告,并根据其内定的若干个问题选择“正确”( y e s ) 或“错误”( n o ) ,再 4 中国民航大学硕士毕业论文 利用概率学进行评估,最后找出原因。同样,这种方法也没有用到数据挖掘方法,其适 用面也非常有限。 虽然国外已经展开了各种技术在航空安全自愿报告分析上的应用研究,但是针对不 同语言所采用的技术也不尽相同,另外,目前尚没有多种数据挖掘技术在此领域的综合 应用方法及模型。丽大部分国家目前尚处在数据收集阶段,还没有把数据挖掘技术引入 到航空安全自愿报告的分析中。 我国于2 0 0 4 年9 月1 6 日正式启动航空安全自愿报告系统,目前依然处于数据收集和 人力分析阶段,因此,采用数据挖掘技术对其进行深入分析尚属空白。“8 1 1 3 数据挖掘技术 数据挖掘( d a t am i n i n g ,简称d m ) ,简单地讲就是从大量数据中挖掘或抽取出感兴 趣的信息或模式( 非平凡的,隐含的,先前未知的,潜在有用的) 。“7 8 知识挖掘的全过程定义描述如图1 2 所示。 图1 2 知识挖掘全过程示意描述 由图1 2 可见,整个知识挖掘过程是由若干挖掘步骤组成,而数据挖掘仅是其中的 一个主要步骤。整个知识挖掘的主要步骤。1 有: 数据清洗( d a t ac l e a n i n g ) 其作用就是清除数据噪声和与挖掘主体明显无关的数 据。 数据集成( d a t ai n t e g r a t i o n ) 其作用就是将来自多数据源中的相关数据组合到一 起。 数据转换( d a t at r a n s f o r m a t i o n ) 其作用就是将数据转换为易于进行数据挖掘的 数据存储形式。 数据挖掘( d a t am i n i n g ) 它是知识挖掘的个基本步骤,其作用就是利用智能方 中国民航大学硕毕业论文 法挖掘数据模式或规律知识。 模式评估( p a t t e r ne v a l u a t i o n ) 其作用就是根据一定评估标准( i n t e r e s t i n g m e a s u r e s ) 从挖掘结果筛选出有意义的模式知识。 知识表示( k n o w l e d g ep r e s e n t a t i o n ) 其作用就是利用可视化和知识表达技术, 向用户展示所挖掘出的相关知识。 数据挖掘的方法很多,包括关联规则挖掘,分类预测,聚类技术,异类分析以及演 化技术等等。本文主要采用了关联规则挖掘,报告检索以及聚类技术等方法对航空安全 自愿报告进行数据挖掘,以寻求有价值的信息或模式。 1 4 论文的主要研究内容 我国尚未建立起完整的航空安全自愿报告分析系统,而在国外,由于航空安全报告 数据形式及报告语言的不同,其建成的系统实现方法和功能也各不相同。 论文通过对国内外航空安全自愿报告数据形式的分析,结合数据挖掘的相关技术, 对数据挖掘方法在航空安全自愿报告上的分析应用做了深入的研究探讨。主要研究内容 如下: 1 深入研究我国的航空安全自愿报告形式,对1 3 8 份通用表报告进行数据分析及 预处理。 2 针对我国的报告形式,建立并实现我国航空安全自愿报告分析的模拟系统,其 主要功能是利用数据挖掘方法对我国航空安全自愿报告进行分析研究。 3 深入研究关联规则方法,采用适应性改进的a p r i o r i 算法对航空安全自愿报告 结构化部分进行关联规则挖掘,并对挖掘结果进行关联分析,从而证明了关联规则方法 应用于航空安全自愿报告分析中的可行性及必要性。 4 深入研究文本检索技术及聚类算法,采用关注词集合作为报告的特征向量,分 别实现了航空安全自愿报告非结构化数据部分的相似报告检索及自动聚类,并对挖掘结 果做了深入分析,从而证明了相似报告检索的必要性及聚类分类的有效性,通过实验证 明了余弦距离比欧氏距离在聚类分类中更有效。 5 通过对自愿报告及数据挖掘技术的深入研究,提出了两种将数据挖掘技术综合 应用于航空安全自愿报告分析中的方法,并通过实验证明了这种方法的可行性,这也将 成为数据挖掘技术在此领域应用的一种趋势。 论文深入研究了数据挖掘技术在航空安全自愿报告分析中的应用,并通过实验证明 了其可行性及必要性,为研究大量航空信息提供了新的方法,也为进一步改善航空安全 系统提供了理论及实践基础。 6 中国民航大学硕l 毕业论文 1 5 论文的组织 论文的其余部分组织如下; 第二章主要介绍我国的航空安全自愿报告数据的预处理。 第三章主要介绍关联规则挖掘技术及其在航空安全自愿报告分析中的应用,最后给 出了实验结果及分析。 第四章主要介绍文本检索技术以及其在航空安全自愿报告分析中的应用研究,最后 给出了实验结果及分析。 第五章主要介绍聚类技术以及其在航空安全自愿报告分析中的应用研究,并给出了 实验结果及分析。 第六章主要介绍数据挖掘技术在航空安全自愿报告分析中的综合应用及其实验结 果及分析。 第七章是对全文的总结以及对本领域发展前景的展望。 7 中国民航大学硕上毕业论文 第二章航空安全自愿报告数据的预处理 在任何数据挖掘项目中,挖掘者大部分时间都花在预处理数据集上,而这些预处理 也正是挖掘者的挖掘工作的起点。它是数据挖掘( 知识发现) 过程中的一个重要步骤, 尤其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据 的预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的 目的。 2 1 数据预处理的过程 挖掘数据的最初三个阶段分析、特征提取和数据调查。这三个阶段合起来构成 了数据预处理所进行的大部分工作。这里主要介绍分析阶段,特征提取阶段主要以关注 词集合作为其特征标志,数据调查阶段作为整个预处理过程的补充。 数据预处理首先要做的是检验( a s s a y ) ,目的是评估数据是否适合挖掘和值得挖掘。 检验数据始于简单但又关键的一步:简单的查看数据并检查它确实是所要的数据。现阶 段数据的检验需要查看数据,并不是改变数据。检验数据时,我们先把变量作为个体来 考虑,然后逐步进展到把数据集作为整体考虑。 数据的一个非常基本的特征是具有不同类型的变量。在挖掘数据中,通常有三种性 质不同的类型:数字型、日期型和其它非日期非数字类型。包含数字的变量称为数值变 量,包含日期的变量称为日期变量,其它变量通常叫做类别变量。 开始时检查每个变量的基本统计信息,确保变量实际包含的值是其所应该包含的, 并且不包含其他多余信息。 1 对数值变量的基本检查 对数值变量所进行的最基本的检查是范围检查换句话说,确定数据集的最大值 和最小值,与数据集应该具有的最大值和最小值进行比较。这个简单的检查常常能够发 现一些意想不到的惊人问题。 此外,如果相关的话,还有一些其它标准,值得用于实际值与期望值的比较。 平均值:包括均僮、中值和最频值。均值通俗的说法就是“平均值”,通过先算出 所有项的总和再除以项数得到。中值是所有变量的一个有序序列中位于中间的值。最频 值是出现频率最高的值。总体上,这些值被称为中心趋势的度量,因为他们都在某种程 度上反映了分布的中间位置。和处理最大最小值的方式一样,检查这些值是否合理或者 属于预期的值。 缺失值:每个数据域内的缺失值由什么组成? 许多数据库在没有数值的地方注上空 值( 意味着“这里没有数据项”) ,算出当前的缺失值,同时仔细检查并替代成空值。一 个替代空值,至少对数值域来说,实际上是一个数值型值。当某项没有已知值时,以某 中国民航大学硕 毕业论文 种方式输入替代空值。有时在未知数值时会输入零。一些系统在不知道实际值的情况下 输入默认值。如果存在替代空值,挖掘数据时可能引起一些问题。自然地,挖掘工具会 把任何输入值当作有效的值使用,去掉所发现的那些替代空值将会极大改善模型。用空 值代替这些替代空值,或者像缺失值一样处理。 分布估计:即变化的度量( 变化指的是值在值域内的分布方式) ,对于理解一个变 量的分布趋势非常有用。分布估计既可以直接显示变化情况,也可以使用标准偏差的形 式来表达。另外,分布度量还包括倾斜度和峰度。倾斜度衡量是否实例的大部分值都分 布在取值范围的中点以上或以下字面意义上说,就是分布是否倾斜。峰度衡量是否 取值有趋于值域极限或者在中部聚集的倾向。 分布直方图:直方图是一种图,它用于描述变量值域的每部分中所分布的数值的数 目。仔细分析数据分布直方图,我们就可以看出分布是否连续、是否有孤立点、是否是 多重模态( 值构成多个簇) ,还可看出其它许多未来将很快显示其重要性的特征等等。 错误值:很多时候,一个非数值型的值会伪装成一个变量。或者有时创建数据集时 的一个错误可能使变量的一整部分值错位到另一个变量,这可能把一大块类别值放在一 个数值型变量中。或者变量某部分有一组与其它部分很不相似的值。 孤立点:这些值远远偏离大多数值。当发现单个或按值分组的孤立点时,孤立点也 许并不存在错误,然而它们出错的可能性至少比非孤立点要大,所以需要检查这些点。 可并不能只因为它们是孤立点就进行删除或改变。因为孤立点也是数据的一部分,我们 需要清醒地意识到孤立点的存在,在预处理阶段必须特别注意。 2 对类别变量的基本检查 一个类别变量可取值的个数可能很少( 如性别) ,也可能很多( 如邮政编码或人名) 。 对于一个取值少的类别变量,通常很容易列出其所有可能的取值从而确定取值是否合 理。当有很多值时,通常不可能逐个检查所有的值。 若不可能检查所有取值,则可使用直方图类型的图形来检查。由于类别型数值的一 个难点是通常无法对类别值进行合理排序,所以找不到某种度量可用于确定怎样在直方 图的轴上安排类别标签。即便如此,检查这样的直方图也是很有必要的。寻找一下类型 的模式: 最频值分布:一些类别变量的大部分实例都分布在相对很少的类别取值中,而只有 相对少的实例分布在非常多的类别中。零售杂货店的购物项是一个很好的例子。在任何 单个购物篮中,许多人购物时都会从相对较少的几种主要商品( 面包、牛奶) 中选择, 而少数的人会选择任意一种非主要商品( 牙膏、有机谷物) 。回想在数值分布中,最频 值的出现频率最高对于类别值来说同样如此。事实上,现阶段对任何变量进行检验, 我们主要观察变量的取值和分布,确保它们没有错误。 均匀分布:一些类别变量可用数据集合中的计数值来均匀地代表它们的类别。一个 直方图类型的图示( 图中条形的高度代表数据集中特定值的实例数) 将用相对统一的高 度来表示每一种类别。 9 中国民航= 学顾上毕业论文 单调分布:在这种情况下,每个类别值都是唯一的,所以每个类别恰好只对应一项。 序列号、个人名字和社会保障号都是单调类别型的,尽管类型描述中使用了术语“号”, 尽管这些变量有数字组成的,尽管每个标签的构成方式中编入了非常复杂且有用的信 息。然而变量不含有在数值上有意义的结构。 2 2 航空安全自愿报告的数据预处理 航空安全自愿报告的数据包括结构化数据和非结构化数据两部分,在对这些数据进 行数据挖掘分析之前,我们必须对其进行数据预处理。 2 2 1 实验数据简介 我们从s c a s s 网站“”( h t t p :s c a s s a i r - s a f e t y c o m ) 上下载了来自若干国家的 共1 3 8 个报告者提交的航空安全自愿报告。 根据s c a s s 网站提供的报告表格式,一共分为8 类,包括飞行员报告表,管制员报 告表,机务员报告表,机场地面人员报告表,空防安全事件报告表,乘务员报告表,管 理员报告表,通用人员报告表等。 根据以上8 个报告表格式,我们要选取其中一个作为挖掘的数据报告格式。由于从 s c a s s 网站下载的1 3 8 个报告数据来自各类报告人员,不失一股性,因此我们采用通用 人员报告表格式作为我们挖掘的数据表格式,如图2 1 所示。 j 0 b 乒孽伪昀町 自愿报告系统事件报告表 ( 通用袭不分专业和类型事件) 耽迎您为航空安全自愚报告系统s c a s s ) 墁供事件信息鹰怒仔细埴写碴用蠡屋t 件发生时的当地响, 一年一月日一时分一对区 件发生时怒的两位。 o 飞符直o | 捌矗 。机务人厦 。乘务曩 。机蟠地面聩务入矗o 弈拾矗。佩寄矗 。其他一 怒的工作经历墨: 年的工作羟驻,并在此岗位上工作了一年,拥有执照 蚌发生阶段to 着秆。起飞。弗升。退航,作业。下降。着陆 。蒂to 值札鲁楂 o 族扎叠乩。其他 阵是否涉礁蔽空嚣:o 是。否 如涉厦。航空器种尧是 o 飞打lo 直升机 。滑翔机其他萁型号为一 飞行区同是一 一一至 蕾最尽可能完整趋描述事件羟过( 期囊胜过程、晨因,建议簪,可加附页) ( 空f 目环够请撸背面) 图2 1 航空安全自愿报告表( 通用表) 纵观通用表格式,其包含6 个属性项和一个文字报告项,它们分别是事件发生时的 当地时间、事件发生时您的岗位( 7 个选项) 、您的工作经历( 工作年龄) 、事件发生阶 段( 1 1 个选项) 、事件是否涉及航空器( 如涉及,航空器种类( 3 个选项) ) 、完整的事 1 0 中国民航大学硕上毕业论文 件经过等。 我们把每一个报告的“完整事件经过”分别存放在文本文档中,并在报告最后添加 上报告者的结构化数据,并对所有报告进行编号,将这1 3 8 个文本报告作为相似报告检 索及聚类挖掘的实验数据集合。 2 2 2 数据结构化部分的预处理 首先,利用面向属性的归约方法( a t t r i b u t e o r i e n t e di n d u c t i o n ) ,根据属性泛 化控制阈值对目标数据集所包含的属性进行初步分析,消除取值过多的属性并进行小规 模属性泛化操作。“事件发生时的当地时间”由于取值过多而被消除,此外利用概念层 次树,将“您的工作经历”( 工作年龄) 泛化到a g e ( 年龄) ,将“年龄”泛化到a g e r a n g e 属性( 3 个选项) 。k a m b e r 等人提出了使用量化属性的静态离散化和数据立方体挖掘关 联规则的方法,这种方法中,量化属性使用预定义的概念分层。在挖掘之前离散化,数 值属性的值用区间代替。我们把报告者年龄的概念分层用于区间值,而根据报告者年龄 分布趋势图( 如图2 ,3 所示) ,报告者的年龄主要分布在2 5 - 2 8 ,3 0 3 7 ,4 0 - 4 5 等阶段, 因此,我们把年龄划分成“2 0 3 0 ”,“3 1 ”4 0 ”“4 1 - ”5 0 ”3 个区间。 对比报告发现。所有报告都涉及到航空器。因此消除“是否涉及航空器”属性,并 改为“客机类型选择”属性( 3 个选项) ,“事件发生阶段”属性的1 1 个选项可以泛化到 4 个选项,“事件发生时您的岗位”属性的7 个选项可以泛化到4 个选项,从而获得结构 化实验数据。 实验数据的结构化部分经过处理后存放在m d b 数据表中,如图2 2 所示。 图2 2 航空安全自愿报告结构化数据 中国民航大学硕b 毕业论文 2 2 3 实验数据分布 我们对原始实验数据进行数据检查,检查数据分布的情况,修j 下错误值,删除错误 的孤立点,最终形成了我们的结构化数据部分。 从报告者的年龄分布趋势图( 如图2 3 ) 来看,在我们的实验数据报告库中,报告 者的年龄主要分布在2 5 2 8 ,3 卜3 7 ,4 0 4 5 等阶段,因此,我们把年龄分为2 0 3 0 ,3 卜4 0 , 4 卜5 0 这3 个阶段,而整体来看,报告者年龄多数集中在3 1 - 4 0 这个阶段。 例2 3 报告者年龄分布趋势图 从报告者的职业分布趋势图( 如图2 4 ) 来看,报告者中以飞行员居多,这是因为 飞行员要求的操作更复杂,从事件发生的人为因素角度考虑,飞行员更容易提交报告。 而管制员和地面工作人员提交的报告比较少,较少的报告也不容易发现其属性相互之间 的关联规则。 图2 4 报告者职业分布趋势图 从所发生事件的客机种类分布图( 如图2 5 ) 中,我们可以看出3 种类型的客机其 报告数大致相当,中型客机略多一些,这符合客观的客机种类数量。 1 2 中国民航大学硕t 毕业论文 图2 5 客机种类分布趋势图 从事件发生阶段( 如图2 6 ) 来看,多数事件发生在飞行中,这主要是因为飞行员 提交的报告占多数,另外,起飞与下降着陆的报告数相同,这也说明起飞阶段和下降阶 段很可能从事件问题上有相似的性质( 如发生飞鸟撞击事件仅发生在这两个阶段) ,事 实上,这些在我们研究报告之间的相互联系是需要考虑的。 图2 6 事件发生阶段分布趋势图 2 3 航空安全关注词数据集合研究 航空安全关注词集合用来表征一个非结构化数据( 记录事件过程) 的特征,因此, 其关注词选取的恰当与否直接关系到相似报告及聚类的结果。事实上,航空安全关注词 集合的选取是一个很深很广的研究课题,这里仅给出我们实验中用到的航空安全关注词 集合的生成方法,如图2 7 示。 分析员 飞廿,) 蔓璺, 飞机:2 0 3 ,琶行员:1 1 8 , 飞行员,乘务员 油,乘务员 油:2 0 ,乘务员:6 1 图2 7 关注词集合生成过程 蠡 中国民航大学硕匕毕业论文 根据航空安全的经验及对所有报告的了解,我们加入报告中涉及到的航空安全词 汇,初始词汇集合如图2 8 所示。 图2 8 初始词汇集合 再统计初始词汇集合中的词语在所有报告中出现的频度,从而生成候选关注词集 合,如图2 9 示。 | 璺i2 ,9 候选关注词集合 最后,我们根据需求及候选关注词集合,生成关注词集合,即用来表征非结构化数 据的特征的词集。如候选关注词集合中包含“飞机”“事故”等候选关注词,由于“飞 机”一词本身并不能表征一个报告的特征,“事故”一词在所有报告中出现的频度过低, 所以这些词语在生成关注词集合时均被删掉,虽然“管制员”一词的频度为3 0 ( 不高) , 但是其词汇对于一个报告的表征起到关键的作用,因此“管制员”保留在关注词集合中, 这样筛选之后,即生成了表征航空安全自愿报告非结构化数据特征的航空安全关注词集 合,其存储于“m y i i l l p o r t a n t w o r d s t x t ”文件中,如图2 。1 0 示。 图2 1 0 航空安全关注词集合 1 4 中国民航丈学硕士毕业论文 2 4 本章小结 本章主要介绍了论文中实验数据的选取及预处理过程。在对航空安全自愿报告形式 深入分析的基础上,采用通用表报告作为实验数据的基本形式,并对实验数据进行了处 理分析;论文中相似报告检索及聚类实验中的特征提取部分采用了关注词集合技术,因 此本章还具体地介绍了关注词的选取及其集合的生成过程。这些都为后面的挖掘分析提 供了实验基础。 中国民航大学硕士毕业论文 第三章关联规则在航空安全自愿报告分析中的应用 3 1 关联规则挖掘 关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关 知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应 的关联知识越来越有兴趣。 挖掘关联知识的一个典型应用实例就是市场购物分析。根据被放到一个购物袋的物 品( 内容记录数据) 而发现的不同( 被购买) 商品之间所存在的关联知识无疑将会帮助 商家分析顾客的购买习惯。发现常在一起被购买的商品( 关联知识) 将帮助商家制定有 针对性的市场营销策略。比如:顾客在购买牛奶时,是否也可能同时购买面包或会购买 哪个牌子的面包,显然能够回答这些问题的有关信息肯定会有效地帮助商家进行有针 对性的促销,以及进行合适的货架商品摆放。如可以将牛奶和面包放在相近地方或许会 促进这两个商品的销售。 航空安全自愿报告的结构化数据记录了报告者的基本信息及事件的阶段等等,这类 数据从形式上来说是一种多维数据,那么对于这类数据如何有效地进行关联规则的挖 掘,是本章深入研究探讨的一个问题。 3 1 1 关联规则挖掘的基本概念 设,= ( ,i :,0 为数据项集合,d 为与任务相关的数据集合,也就是一个交易数 据库,其中的每个交易r 是一个数据项子集,即r 量i ;每个交易均包含一个识别编号 t i d 。设a 为一个数据项集合,当且仅当彳r 时,称交易r 包含彳。一个关联规则就 是具有“a j b ”形式的蕴含式;其中有a c i ,b c i ,且彳n b = 。规则a jb 在交 易数据集d 中成立,且具有j 支持
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 切片猪肉售卖合同范本
- 外呼员工合同范本
- 混合性酸碱平衡失调护理查房
- 合伙经营机械合同范本
- 安装单包工合同范本
- 船运居间协议合同范本
- 木质设备安装合同范本
- 草皮出售合同范本
- 委托空调维修合同范本
- 焊接铣刀销售合同范本
- 2025年肇庆社区专职工作人员招聘真题
- 兄妹房屋协议书
- 微量泵输液泵使用技术
- epg信息管理制度
- 产品开发项目管理制度
- 液氧站安全管理制度
- 2025至2030年中国汽车空调过滤器行业市场现状分析及前景战略研判报告
- 【课件】《合并同类项》说课课件++2024-2025学年人教版数学七年级上册
- 2021年12月大学英语四级考试真题及答案(第1套)
- 【课件】新高三启动主题班会:启航高三逐梦未来
- 医院殡葬领域管理制度
评论
0/150
提交评论