(计算机应用技术专业论文)数据挖掘在农产品交易系统中的应用研究.pdf_第1页
(计算机应用技术专业论文)数据挖掘在农产品交易系统中的应用研究.pdf_第2页
(计算机应用技术专业论文)数据挖掘在农产品交易系统中的应用研究.pdf_第3页
(计算机应用技术专业论文)数据挖掘在农产品交易系统中的应用研究.pdf_第4页
(计算机应用技术专业论文)数据挖掘在农产品交易系统中的应用研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘在农产品交易系统中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ad i s s e r t a t i o ns u b m i t t e dt og u a n g d o n g u n i v e r s i t yo ft e c h n o l o g y f o rt h ed e g r e eo fm a s t e ro f e n g i n e e r i n gs c i e n c e d a t am i n i n ga p p l i c a t i o ni na g r i c u l t u r a lt r a d i n gs y s t e m c a n d i d a t e :h u a n gj i a n q i a n g s u p e r v i s o r :a s s o c i a t ep r o f t a n gr o n g j i a n g m a y2 0 1 0 f a c u l t yo fc o m p u t e r g u a n g d o n gu n i v e r s i t yo ft e c h n o l o g y g u a n g z h o u ,g u a n g d o n g ,p r c h i n a ,5 1 0 0 9 0 摘要 摘要 近年来,由于农产品安全危机频繁发生,严重影响了人们的身体健康,如何实现 农产品的可追溯能力,已是非常紧迫。农产品交易系统就是通过r f i d 技术规范化交易 市场的秩序,记录并保存相关有用的信息,为各级管理部门、主管单位提供先进高效 的技术手段,实现对农产品生产、经营流通环节的监控管理。 由于以往市场的买卖都是以现金的形式进行的,所以,买家卖家都习惯了使用现 金流通的方式,这是非常不利于市场的管理和数据的收集,为了鼓励他们多使用刷卡 消费的方式,市场部门需要推出一些优惠措施,但这些措施的制定,需要有数据支持, 使之更有效率,更符合实际。本文就是通过使用数据挖掘技术,发现用户消费方式与 交易单上各属性之间的关系,为管理部门制定相关政策提供有力的数据支持。 本文针对基于r f i d 技术的农产品交易系统,应用数据挖掘技术发现隐藏于海量数 据集之中的有用的信息。农产品交易系统是一个涉及到多环节、多机构之间基于网络 环境的工作管理方式的系统,它采用了c s 与b s 相结合的模式进行开发实施,是一 个综合性的管理平台。文章通过流程图和结构图的方式描述了系统的整体设计、系统 体系结构、网络架构和相关模块的设计实现,并给出了相关模块的数据库关系图和属 性字段。研究了数据挖掘算法在系统中的应用过程。首先分析了数据挖掘的工作流程, 其中包括:应用模式分析、数据理解、数据预处理、建立模型和评估;结合系统和用 户的需求,明确了数据挖掘的目的和过程;接着针对系统收集到数据,研究了数据具 体的预处理过程,包括有属性选择、数据转换和数据清理等,通过数据预处理,使得 数据集适用于数据挖掘;根据数据的特点选择决策树方法进行数据挖掘,应用i d 3 算 法,在数据已经预处理的基础上分析数据以及构建决策树,并给出了算法的伪代码; 数据的剪枝采用的是预剪枝的方法,即如果节点分裂的增益值小于预先给定的值,则 不对该节点进行扩展;分析了具体的案例,数据源来自于中南农业批发市场使用本系 统的测试阶段,应用基于i d 3 的改进算法,构建并修剪决策树,得出具体的决策树模 型,从而分析得到的结果。 关键词:农业市场;r f i d 技术;数据挖掘 广东工业大学硕士学位论文 a b s t r a c t i nr e c e n t y e a r s ,p r o d u c es a f e t yc r i s i sh a p p e n sv e r yo f t e n , a f f e c t i n gp u b l i c h e a l t h e n o r m o u s l y t h e r e f o r e ,i ti sau r g ef o rr e l a t e dd e p a r t m e n tt or e a l i z et h e i rp r o d u c et r a c e a b i l i t y t h ep r o d u c et r a d i n gs y s t e mi ss u c hat o o lf o rn o r m a l i z i n gt h eo r d e ro ft h em a r k e t , r e c o r d i n g a n ds t o r i n gr e l a t e du s e f u li n f o r m a t i o n , u s i n gr f i dt e c h n o l o g y , i no r d e rt or e a l i z et h e m o n i t o ra n dm a n a g e ro ft h ep r o d u c ep r o d u c t i o n , o p e r a t i o na n dc i r c u l a t i o n d u et ot h em a r k e t sa r eb o u g h ta n ds o l di nt h ef o r mo fc a s h , c u s t o m e r sa r ea c c u s t o m e d t ou s i n gt h ec a s hf o r m ,t h i si sv e r yd e t r i m e n t a lt ot h em a r k e tm a n a g e m e n ta n dd a t ac o l l e c t i o n i no r d e rt oe n c o u r a g et h e mt o 吣er f i dm o r e ,t h ed e p a r t m e n t sn e e dt of i n dp r e f e r e n t i a l m e a s u r e s ,b u tt h e s em e a s u r e s ,n e e dt oh a v ed a t at os u p p o r t , m a k et h e mm o r ee f f i c i e n t , m o r e r e a l i s t i c t h i sp a p e rd i s c o v e r st h er e l a t i o n s h i pb e t w e e nt h ew a yc u s t o m e r sc o n s u m ea n dt h e d i f f e r e n ta t t r i b u t e so nt r a d i n gr e c o r dt h r o u g hd a t am i n i n g , i no r d e rt op r o v i d es t r o n gd a t a s u p p o r tf o rm a n a g e m e n td e p a r t m e n te s t a b l i s h i n gr e l a t e dp o l i c i e s t h i sp a p e rf o c u s e so nt h er f i db a s e dp r o d u c et r a d i n gs y s t e m ,a p p l y i n gd a t am i n i n g t e c h n o l o g yt of i n do u tu s e f u li n f o r m a t i o nh i d i n gi nt h eh u g ed a t a s e t p t si sas y s t e mw h i c h i n v o l v e st h en e t w o r ke n v i r o n m e n tb a s e dm a n a g e m e n ts t y l eo fm a n yl i n k sa n dm a n y d e p a r t m e n t s i td e v e l o p sb yt h ec o m b i n a t i o no fc sa n db si n t 0ai n t e g r a t i v em a n a g e m e n t p l a t f o r m t h i sp a p e rd e s c r i b e st h ew h o l es y s t e ms t r u c t u r e ,n e t w o r ka r c h i t e c t u r ea n dt h e r e l a t e dd e s i g na n di m p l e m e n t a t i o no ft h em o d u l et h r o u g ht h es t r u c t u r a lc h a r t sa n df l o w c h a r t sa n dg i v e st h ec o r r e s p o n d i n ge - rc h a r ta n dt h ea t t r i b u t ef i e l d s a n dt h e ni ts t u d i e st h e p r o c e s so f d a t am i n i n ga l g o r i t h ma p p l y i n gi nt h es y s t e m :f i r s t l y , i ta n a l y s e st h ed a t am i n i n g w o r k f l o w , i n c l u d i n ga p p l i c a t i o nm o d ea n a l y s i s ,d a t ap r e t r e a t m e n t ,e s t a b l i s h m e n to fm o d e l a n de v a l u a t i o n ;c o m b i n i n gw i mt h es y s t e ma n dt h eu s e r sd e m a n d , m a d et h ep u r p o s eo fd a t a m i n i n gc l e a r l y ;t h e na c c o r d i n gt o t h ed a t a s e t ,i ts t u d i e s t h ed a t ap r e t r e a t m e n t , i n c l u d i n g p r o p e r t i e ss e l e c t i o n , d a t at r a n s f o r m a t i o na n dd a t ac l e a n i n ge t c , a c c o r d i n gt ot h es y s t e mi t c h o o s e st h ea p p r o p r i a t ed a t am i i l i n gm e t h o d s ,t h ed e c i s i o nt r e em e t h o db a s e do nt h e a p p l i c a t i o no f d a t am i n i n g f i n a l l yi ta n a l y s e sas p e c i f i cc a s e ,w h o s ed a t ai sf r o mz h o n g n a n w h o l e s a l ea g r i c u l t u r a lm a r k e tb a s e do nt h et e s t i n gs t a g eo ft h es y s t e m ,u s i n gt h ei m p r o v e d a l g o r i t h mo fi d 3 ,e s t a b l i s h i n ga n dp r u n i n gd e c i s i o nt r e ea n do b t a i n i n gas p e c i f i cm o d e li n o r d e rt og e ta n a l y t i c a lr e s u l t s k e y w o r d s :a g r i c u l t u r a lm a r k e t ;r f i dt e c h n o l o g y ;d a t am i m n g 目录 目录 摘要i a b s t r a c t 1 i 目录i ii c o n t e n t s v 第一章绪论1 1 1 研究背景1 1 2 研究现状2 1 3 研究内容及意义3 1 4 论文结构4 第二章相关技术5 2 1 数据挖掘技术5 2 1 1 数据挖掘基础6 2 1 2 主要方法7 2 1 3 数据挖掘过程1 0 2 1 4 应用模式1 1 2 2 决策树构造技术1 2 2 2 1 用决策树归纳分类1 3 2 2 2 决策树的基本组成1 3 2 2 3 决策树的构造过程1 4 2 2 4 决策树的剪枝1 5 2 2 5i d 3 算法1 6 第三章总体设计1 8 3 1 体系结构1 8 3 2 网络架构1 9 3 3 模块设计2 0 3 4 数据库设计2 6 i i i 广东工业大学硕士学位论文 3 5 开发环境3 l 第四章数据挖掘算法3 3 4 1 工作流程与应用模式3 3 4 1 1 工作流程3 3 4 1 2 应用模式3 4 4 2 数据的预处理3 5 4 2 1 数据集成3 5 4 2 2 特征属性选择i 3 8 4 2 3 数据清理3 9 4 2 4 数据转换4 0 4 3 决策树生成4 1 第五章案例分析4 5 5 1 数据来源4 5 5 2 构建决策树4 5 5 3 决策树修剪4 9 5 4 结果分析4 9 结论5 2 参考文献5 4 读学位期间发表的学术论文5 7 独创性声明5 8 致谢5 9 i v c o n t e n t s c o n t e n t s a b s t r a c t i a b s t r a c t i i c o n t e n t s c o n t e n t s v c h a p t e r1i n t r o d u c t i o n 1 1 1b a c k g r o u n d 1 1 2r e s e a r c hs t a t u s 2 1 3c o n t e n ta n dm e a n i n go f r e s e a r c h 3 1 4s t r u c t i l i i e 。4 c h a p t e r2r e l a t e dt e c h n o l o g i e s 5 2 1d a t a m i n i n g 5 2 1 1t h eb a s i so f d a t am i n i n g 6 2 1 2m a i nm e t h o d 7 2 1 3d a t am i n i n gp r o c e s s 1 0 2 1 4a p p l i c a t i o nm o d e 1l 2 2 d e c i s i o nt r e es t m c t i o n 1 2 2 2 1c l a s s i f i c a t i o nu s i n gd e c i s i o nt r e ei n d u c t i o n 1 3 2 2 2t h eb a s i cc o m p o s i t i o no f t r e e 1 3 2 2 3d e c i s i o nt r e ec o n s t r u c t i o np r o c e s s 1 4 2 2 4d e c i s i o nt r e ep r u n i n g 1 5 2 2 5i d 3a l g o r i t h m s 1 6 c h a p t e r3d e s i g n 18 3 1a r c h i t e c t i i r e 18 3 2n e t w o r ka r c h i t e c t u r e 1 9 3 3m o d u l ed e s i g n 2 0 3 4d a t a b a s ed e s i g n 2 6 3 5d e v e n l o p m e n te n v i r o n m e n t 3 1 c h a p t e r4 d a t am i n i n ga l g o r i t h m s 3 3 4 1w o r k f l o wa n da p p l i c a t i o nm o d e 3 3 4 1 1w o r k f l o w 3 3 v 广东工业大学硕士学位论文 4 1 2a p p l i c a t i o nm o d e 3 4 4 2 d a t ap r e p r o c e s s i o n 3 5 4 2 1d a t ai n t e r g r a t i o n 3 5 4 2 2f e a l 呲es e l e c t i o n 3 8 4 2 3d a t ac l e a n i n g 3 9 4 2 4d a t ac o n v e r s i o n 4 0 4 3 d e c i s i o nt r e e s 。4 1 c h a p t e r5c a s es t u d y “4 5 5 1d a t as o u r c e s 。4 5 5 2c o n s l 蚋l c t i o no f d e c i s i o nt r e e s 4 5 5 3t r e ep r u n i n g 。i e 5 4a n a l y s i s 4 9 c o n c l u s i o n 5 2 i k f e r e n c e s ”5 4 p u b l i s h e dp a p e r 5 7 o d g m a ls t a t e m e n td u r i n gs t u d y 5 8 a c k n o w l e d g e m e n t s 5 9 第一章绪论 1 1 研究背景 第一章绪论 目前我国已经有制定相关的法规和制度来规范农产品生产加工、仓储、运输与市 场销售准入的管理,同时国家还采取了相应措施来保障相关制度的规范运作,但仍然 存在许多不安全因素,缺乏有效的监管手段,无法实现对农产品流通环节的有效监管 以及对农产品实现追溯管理,这些因素都有可能造成食品安全隐患。通过项目的建设, 管理部门可随时掌握农产品生产流通环节相关信息,并反馈到管理中心平台之上以供 日常管理操作,应用检测设备即可实现对农产品的生产、经营追溯管理;通过对各类 信息的分类、统计、分析,可以得到不同的数据报表,帮助市场管理部门提高监管力 度、对突发紧急事件的应急措施提供必要的信息依据,为重大决策提供有力的数据支 持。 当前,d m k d 研究正方兴未艾,预计未来还会形成更大的高潮,研究点可能会集中到 以下的几个方面:研究用于知识发现的数据挖掘语言,或者会像s q l 语言一样走向形式 化和标准化;寻求数据挖掘过程中的可视化的方法,使得知识发现过程能够被用户所理 解,也便于在知识发现过程中人机交互;研究在网络环境下数据挖掘技术,特别是在 i n t e r n e t 上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非 结构化数据挖掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引, 市场的驱动是永恒的,d m k d 将首先满足信息时代用户的急需,大量基于d m k d 的决策支持 软件工具产品将会问世。 数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库简单检索查询 和调用,而且要对这些数据进行微观的、中观的乃至宏观的统计、分析、综合和推理, 用以指导实际问题求解,企图发现事件之间相互关联,甚至利用已有的数据对未来的活 动进行预测。数据挖掘技术是八十年代,投资人工智能研究项目失败后,人工智能转 入实际应用时提出来的。它是一个新兴的,面向商业应用的人工智能的研究。选择数 据挖掘这一说法,表明了与统计、精算和长期从事预言模型的经济学家之间没有技术 重叠。数据挖掘技术包括三个主要部分:算法和技术;数据;建模能力。在过去的几 十年之中,随着计算机技术、互联网等技术的快速发展,以及人们获得数据的多样化, 广东工业大学硕士学位论文 各行各业中用于数据统计的信息系统也逐步完善。许多企业都开发了各种信息的收集 处理系统,这些系统不仅为他们带来了便利,也给企业带来了宝贵的财富大量宝 贵的数据。这些数据背后隐藏着极为重要的商业知识,这些东西是隐含的、事先未知 的和具有潜在价值的。但是,积累了大量数据并不能得到有效的利用,而这些数据的 规模仍然在不断增长。问题是使用什么样的技术发现这些知识。传统的信息处理工具 已经不能应付这样的需求,人们需要一种技术,能够自动地分析数据、自动地发现和 描述数据中隐含的商业发展趋势、自动地标记数据、对数据进行更高层次的分析,以 便更好地利用这些数据。 近年来,由于农产品安全危机频繁发生,严重影响了人们的身体健康,引起了全 世界的广泛关注。欧盟、美国等发达国家和地区要求出口到当地的农产品均必须能够 进行跟踪和追溯。而在国内,农产品安全问题已成为农业发展新阶段亟待解决的主要 矛盾之一。如何强化农产品的安全管理,建立农产品安全监控系统,实现其信息在整 个供应链上的共享,实现农产品的可追溯能力,已是非常紧迫! 由于农产品生产与消 费的日益分离,供给体系的复杂化,所涉及的生产、加工、运输、贮藏、包装、检测 和卫生等各个环节众多。采用何种技术和方式实现农产品的全程监控和可追溯能力, 是一个非常重要的课题。 r f i d ( r a d i of r e q u e n c yi d e n t i f i c a t i o n ) 技术具有使用简便、识别工作无须人 工的干预、批量远距离读取、对环境要求低、使用寿命长、数据可加密和存储信息可 更改等优点,结合有效的数据库系统及网络体系,可以帮助实现农产品从生产源头到 最终消费者的监控。因此,本文提出的农产品交易系统就是应用r f i d 技术,围绕“生 产、监控、检测、监管 四条主线,以农产品生产环境、农产品生产、农产品流通、 市场进入等环节为立足点,对农产品实施实时监控。 1 2 研究现状 经过近3 0 年的发展,尤其是美国、日本、英国、德国、瑞典、瑞士及南非等国 家目前已有较为成熟而且先进的r f i d 系统,如生产制造和装配、航空行李处理、邮件 快运包裹处理、文档追踪、图书管理、身份的标识、移动车辆自动识别、运动中计时、 身份自动认证、智能交通管理、网络家电控制、门禁电子门票、物流管理与供应链管 理等领域,都已经或正在投入实际的应用【1 j 。其中,近距离的r f i d 系统主要使用 2 第一章绪论 1 2 5 k h z 、1 3 5 6 m h z 等l f 和h f 频段,技术最为成熟;远距离r f i d 系统主要使用 4 3 3 瑚z 、8 6 0 m h z 一- , 9 6 0 m h z 等邗频段,以及2 4 5 g l z 、5 8 g h z 等的微波频段,技 术处于发展的阶段。而在中国,除了铁路车号自动识别系统之外,主要应用是在近距 离1 2 5 k h z 和1 3 5 6 m h z 等频段的非接触i c 卡方面,特别是第二代的公民身份证和学 生证、铁路优惠卡等量大面广的实际领域之中。此外,中国众多的制造企业在沃尔玛 等商家的推动下,也需要尽快完成条码到r f l d 电子标签的过渡阶段。 需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因 是存在大量数据,可以广泛的使用,并且迫切需要将这些数据转换成有用的信息和知 识。获取信息和知识可以广泛地应用于各种领域,包括商务,生产控制,市场分析, 工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想: ( 1 ) 来自统计学的抽样、估计和假设检验。 ( 2 ) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。 数据挖掘也接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息 论、信号处理、可视化和信息检索。一些其他领域也起到非常重要的支撑作用。特别 地,需要数据库系统提供有效的存储、索引和查询处理支持等。源于高性能计算的技 术在处理海量数据集方面常常是很重要的。分布式技术也能帮助处理海量数据,并且 当数据不能集中到一起处理时更是至关重要【2 】。 数据挖掘作为一个多学科交叉研究与应用的领域,正在许多行业的决策支持中起 着越来越重要的作用。数据挖掘需要在商业环境中收集大量的数据,并要求所挖掘的 信息是有价值的。对于商业而言,不外乎三种情况:降低成本、提高利润、提升产品 的竞争力。针对不同特定领域,将数据挖掘知识结合起来,提供最为有效的数据挖掘 方案。就目前而言,数据挖掘技术已经被广泛应用在西方金融行业、零售业、电信以 及生物等的领域中。它可以成功地预测银行客户需求,帮助银行改善自身的营销;它 可以被用于分析促销活动的有效性、顾客的购买模式、商品之间的关联度、顾客忠诚 度、个性化的服务;它也可以应用针对d n a 的分析等等。此外,对于其他行业,数据 挖掘技术还可以改进工作效率、改进过程、科学发现、预警等【3 】。 1 3 研究内容及意义 农业产品交易系统的开发就是为各级管理部门、主管单位提供先进高效的技术手 3 广东工业大学硕士学位论文 段,实现对农产品生产、经营流通环节的监控管理。 系统采用r f d 技术为管理部门与农产品相关档主提供农产品信息统计、农产品 生产与经营过程的监管以及综合信息管理( 包括相关档主和人员基本信息的管理、农 产品生产经营信息管理等) ,为市场管理部门和档主在农产品生产加工、仓储、运输与 市场销售准入等过程进行监管。提供基于r f i d 技术的农业市场管理系统,有利于维护 农业市场农产品生产经营管理秩序,预防由农产品引发的食品安全事故,对于保障人 民的生命财产安全将起到积极的作用。农业产品交易系统一共分为多个模块,系统通 过使用r f d 技术为市场管理提供便利,并通过数据库系统收集到相关的数据,帮助市 场管理部门提高监管力度、对突发紧急事件的应急措施提供必要的信息依据,为重大 决策提供有力的数据支持。由于以往市场的买卖都是以现金的形式进行的,所以,买 家卖家都习惯了使用现金流通的方式,这是非常不利于市场的管理和数据的收集,为 了鼓励他们多使用刷卡消费的方式,市场部门需要推出一些优惠措施,但这些措施的 制定,需要有数据支持,使之更有效率,更符合实际。 本文就针对这样的情况,对系统中的一些模块收集到的数据,利用数据挖掘进行 分析,得出用户刷卡与否和交易表单上各属性之间的关系,为管理部门推出相关的优 惠政策提供有力的依据。 1 4 论文结构 本文的结构安排如下: 第一章绪论,主要介绍研究项目的背景和意义,论文的研究内容以及结构安排。 第二章相关技术,介绍了r f d 技术和数据挖掘技术的定义,原理,分类以及在 不同领域上的应用。 第三章系统的整体设计,介绍了系统的整体设计,相关模块的设计以及数据库 结构 第四章数据挖掘算法,详细介绍了数据挖掘算法在系统中的应用过程。 第五章案例分析,应用决策树方法,在系统收集到的数据基础上,进行数据挖 掘,构造模型,并分析得出的结果。 最后是结论和参考文献。 4 第二章相关技术 2 1 数据挖掘技术 第二章相关技术 数据挖掘是一个多学科互相交叉的新领域,它涉及的学科有机器学习、模式识别、 统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等。数据挖掘 可以应用在信息管理、过程控制、科学研究、决策支持等许多方面。 数据挖掘指的是从大型数据库或数据仓库等数据存贮中提取有用的知识。这些知 识是隐含的、事先未知的潜在有用的。数据挖掘是目前国际上数据库和信息决策领域 的最前沿研究方向之一。 数据挖掘技术作为一种重要的商业决策技术已经越来越受到国际上的重视,并成 为企业界研究的一个热点。例如,电讯行业通过分析用户登录的记录来识别线路故障; 保险公司在制定新的保险项目时通过历史的记录来预测某项投保的风险性;超市通过 分析购买记录来做出能够促进销售的经营策略等等,无一不用到数据挖掘的方法。 在传统的企业决策支持系统中,知识库的知识和规则是由专家或程序员自己手动 建立的,由系统外部输入。而数据挖掘是从大量的数据中找出尚未被发现的有价值的 东西,是由系统内部自动获取知识的过程【3 1 。对于明确了解的信息,决策者可以用查询、 联机分析处理( o l a p ) 或其它工具直接获取,对于隐藏在大量数据中的关系、趋势,就 算是管理数据的专家也不易发现,但对于决策者可能又是至关重要的知识,这就需要 用到数据挖掘技术来支持了。 数据挖掘出的知识可以直接提供给决策者,以便辅助决策,又或者提供给相关领 域的专家,修正专家们已有的知识体系,也可以作为新知识转存到应用系统的知识存 储机构当中。 对决策树常见的批评是说其在为一个节点选择怎样进行分割的时候使用“贪心 算法。此种算法在决定当前这个分割时根本不考虑此次选择会对将来的分割造成什么 样的影响。也就是说,所有的分割都是顺序的,一个节点完成分割之后不可能以后再 有机会回过头来再考察此次分割的合理性,每次分割都是依赖于他前面的分割方法, 也就是说决策树中所有的分割都受根结点的第一次分割的影响,只要第一次分割有一 不同,那么由此得到的整个决策树就会完全不同。那么是否在选择一个节点的分割的 5 广东工业大学硕士学位论文 同时向后考虑两层甚至更多的方法,会具有更好的结果呢? 目前我们知道的还不是非 常清楚,但至少这种方法使建立决策树的计算量成倍的增长。 2 1 1 数据挖掘基础 数据挖掘,英文是d a t am i n i n g ,中文又翻译为数据采掘,一个比较公认的定义是 w j f r a w l e y ,g p i a t e s k y - s h a p f i o 等人提出的,数据挖掘就是从数据中获取正确、新颖、 有潜在使用价值和最终可理解的模式的非平凡的过程【4 】。还有很多和这一术语相似的术 语,如从数据库中发现知识( k d d ,k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ) 、数据分析、 模式分析、数据考古、知识抽取、数据采集、信息收割、商业智能、数据融合以及决 策支持等。多数人认为数据挖掘是k d d 过程中关键的步骤,因而不加区分地使用知识 发现和数据挖掘这两个术副4 】。一般在科学领域中称为k d d ,而在工程领域则称为数 据挖掘。 人们把原始数据看作是形成知识的源泉,就像从原始矿石中采矿一样。原始数据 可以是结构化的,如关系数据库中的数据,也可以是半结构化,如文本、图形、图像 数据,甚至是分布在网络上的异构数据。发现知识的方法可以是数学的,也可以是非 数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息的管理、查 询优化、决策支持、过程控制等等,还可以用于数据自身维护。因此,数据挖掘是一 门很广义的交叉型学科,它汇集了不同的领域,尤其是数据库、人工智能、数理统计、 可视化、并行计算等方面。 数据挖掘与知识发现( d m ) 是一个以数据库、人工智能、数理统计、可视化 四大支柱为基础的,多学科交叉的、渗透的、融合形成新的交叉型学科,其研究内容 十分广泛。目前d m k d 的主要研究内容包括基础理论、发现算法、数据仓库、可视化 技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非 结构化数据中的知识发现以及网上数据挖掘等【5 】。 数据挖掘主要发现以下五类知识: ( 1 ) 广义型知识( g e n e r a l i n z a t i o n ) ,指类别特征的概括性描述知识【6 】o 根据数据 的微观特性发现其表征的、带有普遍性的、较高层次概念的微观和宏观的知识,反映 同类事物共同性质,是对数据的概括、精炼和抽象。广义的知识发现方法和实现技术 有很多,如面向属性的归约等。 6 第二章相关技术 ( 2 ) 分类型知识( c l a s s i f i c a t i o n ) ,反映同类事物共同性质的特征型知识和不同 事物之间差异型特征知识。用于反映数据的汇聚模式或根据对象的属性区分其所属类 别。最为典型的分类方法是基于决策树的分类方法及数理统计、粗糙集( r o u g h s e t ) 等方法。 ( 3 ) 联型知识( a s s o c i a t i o n ) ,反映一个事物和其他事件之间依赖或关联的知识, 又称依赖( d e p e n d e n c y ) 关系。这类知识可用于数据库中的归一化,查询优化等。最为著 名的关联规则发现方法是r a g r a w a l 提出的a p r i o r i 算法。 ( 4 ) 预测型知识( p r e d i c t i o n ) ,通过时间序列型数据,由历史的和当前的数据去 预测未来的情况。它实际上是一种以时间为关键属性的关联知识【7 1 。目前,时间序列预 测方法有经典的统计方法、神经网络和机器学习等。 ( 5 ) 偏差型知识,它是对差异和极端特例的描述,揭示事物偏离常规的异常现 象,如标准类外的特例,数据聚类外的离群值等。 2 1 2 主要方法 数据挖掘技术从传统意义上说是数据的统计分析技术,我们称之为传统数据挖掘 技术,其主要包含线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、 多变量分析、时间序列的分析、最邻近算法和聚类分析等f 8 】。随着数据库技术、人工智 能和知识工程研究的发展,自2 0 世纪8 0 年代以来,出现了一些新的数据挖掘技术, 我们称之为现代数据挖掘技术,主要有关联分析、决策树方法、神经网络方法、粗糙 集方法等。数据挖掘的功能是确定数据挖掘任务中要找的技术类型。数据挖掘技术有 很多种,按功能可分为两大类:分类预测型方法和描述型方法。 分类预测方法是能够根据数据项的值精确地确定某种结果的一种方法,其所使用 的数据也都是可以明确知道结果的。 1 决策树方法 决策树是一种常用的预测模型算法,它通过将大量数据有目的分类,从中找到潜 在有用的信息【9 1 。 主要优点就描述简单,分类速度快,特别适合大规模的数据处理。 最有影响和最早的决策树方法是由q u i n l a n 提出的著名的基于信息熵的i d 3 算法。 其主要问题是:一种非递增学习算法:结果是单变量决策树,难以表达复杂概念:同 7 广东工业大学硕士学位论文 量詈量e 置| 量置皇葛詈量曩兽置暑置昌量置鼍舅墨昌量昌置置置皇皇篁- ii i 性问的相互见习强调不够;抗噪性能差。 此外,还有其他一些算法,例如是c 4 5 算法、p u b l i c 算法等。 2 神经网络方法 神经网络具有良好的自组织自适应性、并行处理、分布存储和高度容错等特性, 适合于解决数据挖掘问趔1 0 1 。 典型的神经网络模型主要分为3 大类:以感知机、b p 反向传播模型、函数型网 络为代表的,用于分类、预测和模式识别的前馈神经网络模型;以h o p f i e l d 的离散型 和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以a r t 模型、k o h o l o n 模型为代表的,用于聚类的自组织映射方法。 神经网络方法的缺点是人们难以理解网络学习和决策过程。 3 规则归纳方法 规则归纳就是通过方法归纳、提取有价值的规则。规则归纳技术在数据挖掘中被 广泛应用。基于规则的归纳方法则可以给出模型的生成规则描述。 这些规则是通过使用某些统计方法对数据集合进行分段而生成的。有大量的基于 规则的技术被用于数据挖掘。 4 支持向量机 支持向量机( s u p p o r tv e c t o rm a c h i n e s ) 是数据挖掘中的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论