




已阅读5页,还剩63页未读, 继续免费阅读
(管理科学与工程专业论文)基于数据仓库的农业呼叫中心数据分析系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 针对目前农业呼叫中心存在的“数据丰富,信息匮乏”问题,本文提出了利用数据仓库的方 法来解决农业呼叫中心系统的数据分析问题。在构建呼叫中心数据仓库的基础上利用联机分析处 理进行多维分析,以及利用数据挖掘进行客户细分和信息需求分类,为辅助呼叫中心管理者制定 科学的信息服务策略提供重要依据,进而提高呼叫中心的信息服务水平。 全文围绕着数据分析系统的方案、数据仓库的建立、数据挖掘模型、以及数据分析系统的实 现展开探讨。首先,分析农业呼叫中心业务系统数据资源,提出基于数据仓库的农业呼叫中心数 据分析系统的方案,并进行了系统的总体规划。其次,根据该系统的实施目标,建立呼叫中心数 据分析的数据仓库数据模型,该模型包括客户发展和信息需求两个主题,并且实现了数据从数据 源到数据仓库的抽取、转换和加载过程,完成了数据仓库的生成,为后面的数据分析提供了数据 准备。再次在数据仓库完成数据准备的基础上,探讨应用数据挖掘的方法进行知识发现,重点 采用决策树方法进行客户细分和信息需求分类。生成决策树,提取规则集,完成知识发现过程。 最后本文遵循软件工程的思想采用a s p 、o w c 、v c + + 等开发工具,完成了前端数据展示层的联 机分析处理模块和数据挖掘模块的实现,初步实现了基于数据仓库的农业呼叫中- t l , 数据分析系统 原型。 本文探讨了数据仓库技术在农业呼叫中心的数据分析问题上的应用,其设计方案、数据分析 模型和系统实现方法对其它领域建立数据仓库系统有一定的参考价值。 关键词:呼叫中心,数据仓库,数据挖掘,联机分析处理,决策树 中国农业人学颂j 一学位论文 英 = 摘要 a b s t r a c t i no r d e rt os o l v et h ep r o b l e mt h a t “t h ed a t ai sa b u n d a n t ,h u tt h ei n f o r m a t i o ni ss h o r t ”,c u r r e n t l ye x i s t i n g i nc a l lo e f l t r so fa g r i c u l t u r a li n f o r m a t i o ns e r v i c e ,t h i sp a p e rp u t sf o r w a r dt h em e t h o do fd a t aw a r e h o u s e t os o l v et h ep r o b l e mo fd a t aa n a l y s i so fa g r i c u l t u r a lc a l lc e n t e r o nt h eb a s i so fb u i l d i n gt h ed a t a w a r e h o u s eo fc a l lc e n t e r , o n l i n ea n a l y t i c a lp r o c e s s i n g ( o 队p ) i su s e dt om u l t i - d i m e n s l o na n a l y s i sa n d d a t am i n i n gi su s e dt oc u s t o m e rs e g m e t a t i o na n dn e e d e di n f o r m a t i o nc l a s s i f i c a t i o n ,w h i c hp r o v i d e st h e i m p o r t a n te v i d e n c et oa s s i s tt h em a n a g e r so ft h ec a l lc e n t e rt oc o n s t i t u t em o r es c i e n t i f i ci n f o r m a t i o n s e r v i c es t r a t e g y ,a n dr a i s e s t h e l e v e l o f i n f o r m a t i o ns e r v i c eo f c a l lc e n t e r n ew h o l ep a p e rm a i n l yd i s c u s s e st h es c h e m eo f d a t aa n a y s i ss y s t e m ,t h eb u i l d i n go fd a t aw a r e h o u s e s 。 t h em o d e lo fd a t am i n i n g , a n dt h er e a l i z a t i o no fd a t aa n a l y s i ss y s t e m f i r s t , t h ed a t ar e s o u r c e so f a g r i c u l t u r a lc a l lc e n t e rh a v eb e e na n a l y z e d ,a n dt h es c h e m eo fu s i n gd a t aw a r e h o u s et oe s t a b l i s hd a t a a n a l y s i ss y s t e mo fa g r i c u l t u r a lc a l lc e n t e rh a sb e e np u tf o r w a r d s e c o n d l y , a c c o r d i n gt ot h eg o a lo f s y s t e m ,t h ew a r e h o u s ed a t am o d e l so ft h ed a t aa n a l y s i ss y s t e mo fc a l lc e n t e r , w h i c hi n c l u d e st w o s u b j e c t s lc u s t o m e ra n dn e e d e di n f o r m a t i o n ,h a v eb e e ne s t a b l i s h e d t h r o u g ht h ep r o c e s so fe x t r a c t i o n , t r a n s f o r m a t i o na n d1 0 a d ( e t l xt h ed a t ai sp u ti n t od a t aw a r e h o u s ef r o md a t ah e a d s t r e a m ,a n dt h ed a t a w a r e h o u s ei sb u i l t “p ,w h i c hp r e p a r e sd a t af o rd a t aa n a l y s i s t h i r d l y , b a s e do nt h ed a t ap r e p a r a t i o n , k n o w l e d g ed i s c o v e r yh a sb e e nd i s c u s s e dt h r o u i g hd a t am i n i n g ,i n c l u d i n ga p p l y i n gt h em e t h o do f d e c i s i o nt r e ef o rc u s t o m e rs e g m e t a t i o na n dn e e d e di n f o r m a t i o nc l a s s i f i c a t i o n ,b u i l d i n gu pd e c i s i o nt r e e a n dp r o d u c i n gt h es e to fr u l e s f i n a l l y , a c c o r d i n gt ot h ed e m a n do fs o f t w a r ee n g i n e e r i n ga n db yt h et o o l s o f a s p , o w c ,v c + + a n de t c ,t h eo l a pm o d e la n dt h ed a t am i n i n gm o d e lh a v eb e e ni m p l e m e n t e d a n d b a s e do nd a t aw a r e h o u s e ,t h ep r o t o t y p eo ft h ea g r i c u l t u r a lc a l lc e n t e rd a t aa n a l y s i ss y s t e mh a sb e e n b a s i c a l l ya c h i e v e d t h ed e s i g ns c h e m e ,t h em o d e lo fd a t aa n a l y s i sa n dt h em e t h o do fs y s t e mr e a l i z a t i o no ft h i sp a p e ra r e v a l u a b l et ob u i l du pt h ed a t aw a r e h o u s es y s t e mo fo t h e r sf i e l d s k e yw o r d s :c a l lc e n t e r , d a t aw a r e h o u s e ,d a t am i n i n g ,o l a p , d e c i s i o nt r e e 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究t 作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得中国农业大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 研究生签名 唠如亳 l n j :2 幻f 年,月争日 关于论文使用授权的说明 本人完全了解中国农业大学有关保留、使用学位论文的规定,即:学校有权保留送 交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。同意中国农业大学可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议1 研究生签名 导师签名 :海也罄 铺吁田 时问:j f 年,月,牛r i 时间:磁年月峄h 1 1 问题的提出 第一章绪论 随着现代信息技术的迅速发展,农业信息化已经成为现代农业的标志和关键t 可以说,信息 在某种意义上已经成为今天整个农业的“种子”。互联网成为建立新型的农业科技推广和农业 产业化经营组织信息服务的最为有效的手段之一。据农业部信息中心统计,我国农业网站1 9 9 8 年 不足2 0 0 个。2 0 0 0 年底发展到2 2 0 0 多个 2 1 。笔者利用“中国农业科技信息网”的农业网站搜索引擎 系统进行统计截止到2 0 0 4 年2 月中旬,我国涉农网站己增至7 9 5 3 个( 包括港澳台地区) ,内容涉 及农业钓各个专业领域。但是,由于。两络信息传递最后一公里“问题,计算机和网络在农村的 普及程度还很低。然而由于我国农村电话装机量( 包括手机) 迅速普及( 目前农村装机量已经超过 1 亿,村通电话率已经达至u t 8 9 2 1 3 j ) ,电话已成为农民获取信息的新渠道。因此,建立互联网、 电话网、无线通讯网等多种通讯方式融为一体的农村信息化服务体系是十分必要的,这样用户在 没有计算机和网络的情况下,仍能得到快速准确的信息服务。 现代呼n q 中心( c a uc e n t e r ) 的出现适时地满足了这一需求。现代呼叫中心是利魁计算机嚼 络和电话通信的集成技术( c o m p u t e r t e l e p h o n y i n t e g r a t i o n ,c t i ) 建立起来的综合信息服务系统。 国内从2 0 0 0 年开始探索呼叫中心在农业领域应用的可行性和应用前景,并开展了一些实质性的研 究工作,取得了可喜的成果【4 j 。2 0 0 2 年,国家农业信息工程研究中心利用该项技术建立了农业信 息服务中心l lj 。2 0 0 3 年,中国农业大学农业信息研究中心研制了基于呼叫中心的农业信息服务呼 叫与咨询系统,采用的是呼叫中心与信息资源库、信息系统、w e b 发布系统、专家系统及专家人 力系统集残方案,客户可以通过电话、传真、短信、w e b 、e m a i i 等多种通信手段访妈呼叫中心, 呼叫中心的坐席人员或农业专家能对远距离之外的客户进行多种模式的信息咨询服务,农业信息 服务呼叫中心是个高效的信息传递和信息交互通讯平台。 呼叫中心作为信息服务的统一接触平台,正逐渐成为农业信息服务机构进行信息收集的主要 渠道,能够从民众那里获得各种信息、数据全部储存在庞大的数据库中。虽然目前的呼叫中心数 据库业务系绕可以高效地实现数据录入、查询、统计等功畿,但无法发现数据背后隐藏的信息, 导致“数据丰富、信息匮乏”的问题,直接带来的挑战是:方面规模庞大、纷繁复杂的数据体 系让使用看漫无头绪、无从f 手;另一方面在这些大量戥据背后却隐藏着很多具有决策意义的有 价值的信息。那么,如何分析、处理这些数据,使这些数据能最大程度地得到利用,这是个很值 得研究的问题。基于农业呼叫中心目前的现实,有必要利用现代信息技术,自动快速获取有用的 决策信息从而为呼叫中心的进一步的发展提供决策支持。 数据仓库( d a t aw a r e h o u s e ,d w ) 是近年来兴起的一种数据处理技术,是基丁数据管理和利 用前综台性技术及解决方案主要面向决策分析。数据仓库技术是公认的解决在信息技术中存在 的拥有大量数据而有用信息贫乏问题的有效途径,其功能是对数据的合理存储,信息转化和集合, 中国椒业人学硕卜学位论文第。帚缔论 实现数据挖 i l f ( d a t am i n i n g ,d m ) 和知识发现( k j l o w l e d g ed i s c o v e r yd a l a b a 女+ k d d ) ,以及 基丁二网络的数据共享p i 。本文引入数据仓库技术,在构建数据仓库的基础上进行数据分析,为信 息分析人员和管理决策者进行科学决策提供支持,亦使之能更清晰地认识其服务对象及内容。 综上所述,本课题旨在已经建立农业信息服务呼叫中心的基础上,引入数据仓库技术,建立 基于数据仓库的农业呼叫中心的数据分析系统,实现呼叫中心的数据处理,在构建数据仓库的基 础上,进行客户呼叫数据的联机分析处理( o n l i n ea n a l y l i e a lp r o c e s s i n g ,o l a p ) 。并利用数据 挖掘算法对客户进行细分以及对客户需求进行分类预测,为以后按照年优化数据模型自动进行需 求分析奠定坚实的基础,并为辅助管理层制定科学的服务策略提供了重要依据。本课题对数据仓 库和数据挖掘理论进行研究与应用,对其推广到大系统的可行性进行探索,具有一定的理论和应 用价值。 本鹾究缛到了国家8 5 3 许鲻重点资助项b ( 2 0 0 2 a a 2 4 3 1 3 3 _ ) “农、监病虫害弼络化远程诊断技 术研究与示范”的资助。 1 2 文献综述 1 2 1 关于呼叫中心在农业中的研究 呼叫中心( c a l lc e n t e r ) 义称作客户服务中心,发展后称为客户关系管理中心。早期仅以电 话和接线员组成的电话热线服务不能视为呼叫中心。现代呼叫中心本身的含义是:它是一种基于 计算机一电话集成( c t i ) 技术,不断将通信网、计算机网和信息领域的晟新技术集成融合,于企 业连为一体的综台信息服务系统可演变为最完整的电子商务系统f 6 】。现代呼叫中心除了提供传 统电话呼叫通道外,还支持传真、邮件、w e b 、视频、【p 电话等多种服务方式为客户提供融会 贯通的交流渠道。呼叫中心正深入到各个行业,早期只是通信行业中使用,很抉发晨烈银行,迂 券、保险。电力、铁路、航空、旅游。纺织、石油等行业l 。 基于ca l lc e n t e r 技术的信息系统支持多种接入方式,如电话、传真、短信息和w e b 等,而且 能方便地与w e b 站点、电子商务系统和其它应用系统对接,因此,可用于对现有农业信息服务资 源和设施进行集成整合,特别是用于对区域性资源和设施进行集成整台,形成一个综合性农业信 息服务平台,实现一点接入,全面服务。 国内扶2 0 年开始探索该顶技术在教业领域应用鹊可行性釉应用前景,并_ 开震了一些实质 性的研究 作取得了可喜的成果。在农业部启动的“十五农业市场信息服务行动计划”中, 明确提出要对采用ca l lc e n t e r 技术建立全国农业信息服务呼叫中心进行可 i 性研究【8 l 。2 0 0 2 年, 针对当前广大农村和绝大多数农民的计算机应用水平状况,北京农业信息技术研究中心利用该项 技术建立了农业信息服务中心,实现农业信息“1 1 0 ”功能川。“九五”期间,重庆市政府、重庆 市商委和信息产业办联合采用c a l le e n t e 川n t e r n e t 相结合的技术建立了“网上农贸超市”,并以此 作为重庆电子商务应用平台的个补充接入方式,可让远在乡镇的群众通过普迥电话获得信息资 源、服务和进行商务交易”。湖南省i 农、监科学院采用此项技术构建长栋潭农业客户服务系统。湖 南省农业科学院情报研究所于2 0 0 0 年开始对采用c a l lc e n t e r 技术建设农业生产信息服务平台的 可行性进行调研,2 0 0 1 年在湖南省政府的支持f 获得立项。该项目的主要内辑是实现农业生产全 过程的信息支撑服务1 4 l 。绍兴市农业信息中心提出了把互联网服务与语音信息系统进行入机结合 2 中国农业人学硕士学位论文 第一章绪论 的课题研究,绍兴市农业信息中心在完善农业网站建设的基础上探索语音技术在互联网上开发 应用,并取得了一定成效。语音咨询系统自2 0 0 2 年3 月正式运行以来,通过本地服务器实现r 电话与农业网站的无缝对接i l lj 。 在国外,政府农业推,一体系的主要职能之一是向农民提供全方位的信息咨询与服务。主要途 径就是通过墙报、小册子、广播、电视、网络等方式向农民提供全面及时的信息服务。近年来, 电话咨询和计算机网络成为推广组织向农民提供信息服务的主要手段【l “。在印度。2 0 0 4 年- 开通了 名叫“基桑”的呼叫中心。专门为农民服务,免费为广大农民答疑解惑,随时向他们提供农作物、 天气、粮价等方面的信息。并提供相关农业技术服务支持【l 。 1 2 2 关于数据仓库的研究 1 9 9 2 年,w h i n m o n 在其里程碑式的建立数据仓库一书中提出了“数据仓库”的概念 【“,数据仓库提出的哥的是解决在信怠技术发展中存在的拥有大量数据,然而有用信息贫乏的问 题【1 5 l 。从此数据仓库的研究和应用得到了广泛关注,国内外专家学者对关于数据仓库的理论和 应用作了大量的研究和实践尝试。 1 2 2 1 数据仓库技术研究 首先,许多国内外学者从数据仓库的元数粥管理方面作了探讨大量的探讨。比较有代表性的 有:a r u ns e n 【1 6 | 在综述了元数据管理的历史发展的基础上,对元数据的发展提出了展望,并提出 了元数据仓库的概念。w a n gj i a n f e n l l l 等作了数据仓库总元数据的表示模型研究。罗昌隆【1 8 】在分 析元数据的内容、作用和生命周期等的基础上,提出了一个通用的元数据参考模型。 其次国内外学者还在数据仓库体系结构方面进行了研究。比较有代表性的有:徐忠键【1 9 】 针对传统数据仓库体系机构的不足,引进软件a g e n t 技术及数据仓库基库德概念,提出了一种基 于a g c n t 的三层数据仓库系统体系结构。彭波 2 “在其参与设计的联通数据仓库系统中,设计了具 有4 个存储结构和3 个数据流的数据仓库体系结构。 再次,国内外学者还在数据仓库建模方面进行了研究。比较有代表性的有:任锦鸾 2 i 】介绍了 数据仓库中数据结构的方法,改进了信息打包技术和星型模型技术,提出了层次实体、类别实体 等一系列概念和表示符号。李雪梅衄l 等提出了一种基于信息动态打包的数据设计方法,该方法采 用了维度和类别动态重组技术,提供可以修改的数据存储方式,从而使所设计的数据仓库具有真 正的自适应的数据结构。 此外,值得一提的是,人们正把数据仓库的研究和数据挖掘的研究结合起来。数据仓库的发 展为数据采掘开辟了更广阔的空间数据仓库完成了对数据的收集、集成、存储、管理等预处理 l :作,使得数据挖掘可以更专注予知识和规则的发现,充分发挥数据采掘技术的潜力,为决策提 供更有力的支持。由于数据仓库所具有的新的特点,给数据采粕技术提山了更高的要求,数据仓 库环境r 的数据采掘的理论和技术将成为信息科学学术界的新的热点研究问题。蒋良孝 z 3 1 探讨了 数据仓库和数据挖掘结合的必然性,提出了基于数据仓库的数据挖掘的体系结构,综述了基丁- 数 据仓库的数据挖掘的主要特征和典1 4 应用, 3 1 2 2 2 数据仓库的应用 数据仓库技术作为一种薪的分析系统辩决方案,得n t j 泛的重视。数据仓库技术早在上世 纪9 0 年代就已经在n g l - 被应_ r 实际的企业及政府的信息系统之中了,并且国外一些丈的软件 公司都推出了自己的数据仓库解决方案和产品,如i b m ,i n f o r m i x ,m i c r o s o f t , n c r ,o r a c l e ,s y b a s e 等。国外企业应用数据仓库已有比较长的时间,不少企业对积累的信息进行职能分析和挖掘,收 到了良好的效益。数据仓库较多的应用于金融、保险、交通、电信、零售、能源等行业”“。例如 在壤行业,目前华尔街6 2 的银行、保险和证券机构采用数据仓库技术进行风险管理,其中包括 花旗银行、加拿大皇家银行等;在零售业,世界最丈的零售公司沃尔玛利用数据仓库解决了商品 分组布局、降低库存成本、了解销售全局、市场细分等问题。 目前我国数据仓库还处于刚刚起步阶段,其应用也主要集中在市场竞争压力较大和联机事务 处理较强且成熟的龙头行业,饲如:金融、电信、保险、税务等。下面介绍数据仓库技术在各行 业的应用现状: 在证券业的应用:数据仓库技术在证券业的应用十分广泛,它可处理客户分析、账户分析、 证券交易数据分析、非资金交易分析等多个业界关心的主题,这是证券业扩大经营、防范风险的 预警行动。1 9 9 9 年,深圳国信证券完成的数据仓库系统,使用户可以通过固定灵活的报表、多维 分析等多种方式对多个层面的数据进行访问p j 。 在银行领域的应用:剥用数据仓库的强大功能,银行可以建立企业客户群和个人客户群的数 据库,并对企业的结构、经营、财务和市场竞争等多个数据源进行统一的组织,形成一个一体化 的存储结构,为决策分析奠定基础。“八五”期间,中国银行广东分行承担开发的中国银行省、 市两级金融管理信息系统,构造了数据采集、数据仓库和数据呈现三个系统框架瞄】。 在电信业的应用:1 9 9 8 年,r 东省移动通信及其珠海分公司提出了利用计费系统的账单、清 单历史数据和交换系统原始详细呼叫记录,以及客户瓷料、缴费情况等业务系统数据和其它与系 统需求有关的外部数据源等,采用数据仓库技术进行“市场和用户行为分析”( m a s a ) 。经过探 索与开发,实现了基于数据仓库知识库与预测模型w e b 技术的移动企业决策支持系统口”。 在保险业的应用:随着商业保险公司业务系统日趋完善,数据交换和处理中心的建立,如何 满足保险行业日益增长的各种查询、统计、报表以及分析的需求,如何提高防范和化解经营风险 的能力,如何有效利用这些数据来实现经营目标,预测保险业的发展趋势,是保险企业在信息技 术应j j 上要解决的难题。数据仓库技术的成熟加速了决策支持的实用化过程。2 0 0 0 年,菲奈特公 司与深圳华安保险合作联合开发了华南地区首例商业应用的财产险业务系统和保险决策支持系 统,这是数据仓库在保险业的成功应用嘲。 往税务领域的应用:数据仓库技术之所以能够商出漏税者,其基本思想是通过对大量数据资 料的分所来掌握箨行各业、各种产品和各类市场的从业人员以及企业的纳税能力,并与其实际纳 税金额进行对比,从而查出可能的偷漏税者。2 0 0 3 年,深圳构建r “税务数据仓库”,实现了对 纳税人进行评估1 2 6 1 。 4 :2 耋彗耋垒茎竺垄耋二。,。,。,。,。,。,。,。,。,。耋些 由于农业领域的数据积累不足,数据仓库在农业领域的应用研究还处于起步阶段。2 0 0 1 年, 钱金良【2 7 1 利用计算机、数据库、数据仓库等先进技术进行了农业科研管理信息系统的开发和应片j 研究,对数据仓库在农业科研管理信息系统中应用的些问题和系统的研究发展进行了探讨。 2 0 0 2 年,孟军f 2 8 1 进行了农业生产宏观决策支持系统的研究及实证分析提出了基于数据仓库的农 业生产宏观决策支持系统软件结构该系统具有数据仓库管理系统、数据开采系统、模型管理系 统和对话系统四个部分,2 0 0 2 年。徐俊丽印墩了农业结构化决策支持系统研究在农业结构化决 策支持系统中,根据该系统中使用农业数据指标体系的特点,将数据仓库引入其中,设计并实现 了数据仓库机构,在数据仓库基础上应用了o i p 和敷据挖掘技术。2 0 0 3 年,邓林义,在研究 保护地蔬菜栽培专家系统时,进行了数据仓库与专家系统相结合的探讨,并给出了专家系统中数 据仓库的实现步骤。2 0 0 3 年,农业部信息中心采用c a 公司的数据仓库解决方案,建立了农产 品贸易数据集市、农产品价格数据集市和气象数据集市数据仓库定期自动生成农产品贸易信息 和价格信息在互联网上发布。 1 2 3 关于数据挖掘的研究 数据挖掘是知识发现( k d d :k n o w l e d g e d i s c o v e r y i n d a t a b a s e ) 的核心。自1 9 8 9 年第1 1 届国 际联合人工智能学术会议上首次提址i k d d 这一概念以来数据挖掘已引起了学术界和工业界的广 泛关洼,是目前国际上数据库和信息决策领域的最翦沿的研究方向之一。其研究重点己逐渐从发 现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。 1 2 3 1 数据挖掘技术研究 目前数据挖掘研究的主要目标是发展有关理论、方法和_ :【= 具,以支持从丈量的数据中提取有 价值的知识和模式。根据采用的技术类型分类,最常用的数据挖掘技术有如f 7 种: ( 1 ) 决策树方法:利用信息论中的互信息( 信息增益) 找出数据库中具有最大信息量的字 段,建立决策树的一个结点,再根据字段的不同取值建立树的分支:在每个分支的子集中,重复 建立树的下层结点和分支的过程,即可建立决策树【捌。国际上最有影响和最早的决策树方法是由 q u i n l a njr 研制的i d 3 方法1 3 3 1 它对越大的数据库效果越好。z e i d 3 方法的基础上,后人又发展 了其它的决策树方法。 【2 ) 规则归纳方法:通过统计方法归纳、提取有价值的i f t h e n 规则。规则归纳的技术在数 据采掘中拨广泛使用,其中以关联规则采掘的研究开展得较为积极和深入【”3 7 ) 。 ( 3 ) 神经网络方法:从结构上模拟生物神经网络,建立三大类多种神经网络模型:前馈式 网络、反馈式网络、自组织网络。抻经网络的学习体现在神经网络权值的逐步计算上,这是一种 通过训练来学习的非线性预测模型可以完成分类、聚类、特征采掘等多种数据采掘任务【3 8 j 。 【4 ) 粗糙集方法:它是1 9 8 z 年由波兰逻辑学家p a w j a k 提出的一种全新的数据分析方法【3 9 j ,近 年来在机器学习和k d d 等领域获得了,。泛的重视和应用。粗糙集理论是一种处理含糊和不精确性 问题的新拟数学r - 具。它特别适合t 。数据简化、数据相关性发现、发现数据意义、发现数据的相 5 似或差别、数据的近似分类等领域。近年来已被成功地应用在数据采掘和知】识发现研究领域中( , ( 5 ) 人1 = 神经网络:这种方法主要是模拟人脑神经元结构,也是一种通过训练来学习的非 线性预测模型。它可以完成分类、聚类、特征规则等多种数据挖掘任务,同时它又以m p 模型和 舳b 学习规则为基础,来建立前馈式网络、反馈式网络和自组织网络3 娄神经网络模型【4 i l 。 ( 6 遗传算法:这是一种模拟生物进化过程的算法。最早由h o g , a n d 于2 8 世纪粥年代链 l , 它是基于群体的、具有随机和定向搜索特征的迭代过程,这些过程有基因组合、交叉、变异和自 然选择4 种典型算子。遗传算法作用于一个由问题的多个潜在解( 个体) 组成的群体上,并且群体 中的每个个体都由一个编码表示,同时每个个体均需依据问题的目标函数而被赋予一个适应值 【4 2 】。 ( 7 ) 可视化技术;将信息模式、数据的关联或趋势等以直观的图形方式表示。决策者可以 通过可视化技术交互地分析数裾关系,使用户对数据的剖析更清楚。例如,决镱树算法采用树形 表示【, 上述数据挖掘技术虽各有各的特点和适用范围,但它们发现知识的种类不尽相同,其中规则 归纳法一般适用于关联规则、特征规则、序列模式和离群数据的挖掘:决策树方法、遗传算法和 粗糙集方法一般适用,分类模式的构造;而神经网络方法则可以用于实现分类、聚类、特征规则 等多种数据挖掘;模糊技术通常被硒来挖掘模糊关联、模糊分类和模糊聚类规剐。 1 2 3 ,2 数据挖掘的应用 数据仓库的应用和它的研究几乎是同步进行的。数据挖掘技术晟先应用于商业领域中关于客 户信息数据的分析。随着人们对其更深的认识和理解以及在实际应用中产生的显著经济效益,数 据挖弱技术在各个领域中静应鬻迅速发韪。数据挖掘匏应用领域非常广泛,常见的应角案例多见 于零售、保险、制造、电信等等行业。 零售业:从顾客购买商品中发现一定的关系,提供打折购物券等,提高销售额。王晓红等1 4 4 1 研究了数据挖掘在超市中的应用- 对此项技术在超市应用中存在的有利因素和不利因素进行了分 析。q i y u a nl i n 4 s ) 等利用数据挖掘技术从p 0 s 信息中抽取出零售知识,从而帮助零售商发现客户 的购买行为。 保险业:保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈彳亍为,避免道德风险,减 少成本r 提高利润。y o u n gm o o nc h a e l 4 q 等将数据挖掘中的决策树c 5 0 算法_ 【f j 于健康保险中的政 策分析。吉根林”等提出利用数据挖掘技术对保险业务数据进行风险分析,在保险公司建立的保 单及索赔信息数据库的基础上寻找索赔过的和没有索赔过的投保人各自具有的特征,从而发现风 险较大的颁域。得到一些实用的控制风险的方法。 制造盈:制造业应_ j 数据挖摘技术来进行零件故障诊断、资源优化、生产过程分析等,因为 通过对生产数据进行分析,可发现容易产生质量问题的工序以及相关的故障等冈素。a c k n o s o f t 公司开发的c a s s i o p e e 系统已用丁二诊断和预测在波音飞机制造过程中可能出现的问题i 鹌1 。 6 电信:分析呼叫数据( 如通话时间、k 度和路由 以规划和优化网络,考察各个地区话务量 同人口变化、经济发展等因素的关系。这方面主要适用神经网络和遗传算法等方法。贾琳【4 9 j 利用 数据挖掘的方法处理电信行业的客户流失问题,包括建立客户流失预测模型以及模型的评价。 数据挖掘在农业领域的应用较少,几乎都处在研究探索阶段。c h u n - c h i e hy a n g t ”等应用数据 挖掘的决策树技术根据肥料的遥感图像对农田进行分类。李文峰m 瞎人提出了一种基于农业信息 数据元表示的数据挖掘方法,论述了农业信息数据元表示以及租糙集理论的基本概念,并对基于粗 糙集理论的挖掘模型的建立过程以及挖掘过程进行了阐述。郑向群等田】分析了数据挖掘在农业环 保领域中进行数据分析的应用。周启生1 5 3 】探讨了数据挖掘技术以及它在病虫害防治决策中的应 用。邢平平等 5 4 1 提出了几种对农业数据库进行知识发现的有效方法,并将知识发现方法与信息系 统紧密结合。孙炜p 悃基于决策树的数据挖掘算法对农产品电子商务b 2 b 系统中的历史竟标样本 进行了分类,从而得出不同特征的农产品供应商在虚拟市场中的竟标能力高低差异依次由产品报 价、配送及时率、市场需求水平等因素决定。董辉p 钟设计出了基于遗传b p 神经网络的数据挖掘系 统,并将该系统应用于实际农业试验中。 总之,d m 可广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、远 程通讯、软件开发、运输等各个企事业单位及国防科研上。 1 2 ,4 研究综述 经过文献分析,目前呼叫中心已经在我国农业信息服务领域得到一定的应用。并取得了一定 的成果,有效地解决了网络信息服务的“最后一公里”问题。但是,目前农业呼叫中心都集中在 平台的建设,还没有对呼叫中心采集到的数据进行分析和研究,信息工作重采集,轻分析,这在 一定程度上造成了“数据丰富、信息匮乏”的问题,如何对这大量的数据进行分析处理,使这些 数据得到最充分的利用,为深层次的管理决策提供服务。这是个值得研究的问题。 目前数据仓库技术和数据挖掘技术是解决“数据爆炸”和“数据丰富,信息贫乏”问题的 有效解决方案,并且已经在一定的领域得到了应用,而在农业领域主要还是处于起步阶段,相关 的论文报道并不多,而对呼叫中心的数据处理方面还未见到相关的文章,基于数据仓库的农业呼 叫中心数据分析,目前在农业或者呼叫中心领域基本处于空白,这说明将数据仓库技术应用于农 业呼叫中心具有一定的探索性。 1 3 研究目标、内容与研究路线 1 3 。1 研究目标 本文的主要研究目标是在分析己开发的农业信息服务呼叫中心系统的基础上探讨数据仓库 的设计和构建,以及数据挖掘技术,缩合该农业呼叫中心系统借鉴c r m 思想在两业中的应用, 设计并建立数据仓库井在数据仓库的基础上进行联机分析处理设计和构建数据挖掘模型并进 行数据分柝模块系统的设计和实现。 7 具体地说,就是通过建立农业呼叫中心的数据分析系统,实现对客户呼叫的数据进行抽取转 换,通过数据仓库的方式存储,按主题组织数据,并采用联机分析处理,对各种类型问题的进行 统计,并利用数据挖掘算法对客户进行细分以及对客户信息需求进行分类,为以后按照优化数据 模型自动进行需求分析奠定坚实的基础,为辅助政府制定科学的服务策略提供重要依据,并将客 户最关心的需求问题及时补充到其它信息系统中,提高呼叫中心的服务水平。 1 3 2 研究内容 根据研究目标。论文题目确定为“基于数据仓库的农业呼叫中心数据分析系统”,论文的主 要内容与结构安排如下: 本文的主要内容包括以下几个方面: 第一章:绪论。主要探讨建立呼叫中心数据分析系统的必要性,阐明本文的选题依据:对呼 叫中心、数据仓库和数据挖掘三个方面进行文献综述,提出论文的研究目标、技术路线和研究内 容。 第二章:呼叫中心数据分析系统方案。分析现有的农业呼叫中心系统功能及数据资源,探讨 引入c r m 思想的可行性,提出呼叫中心数据分析系统方案,并做出呼叫中心数据分析系统总体 结构规划。 第三章:系统数据仓库的建立。本章在第二章的基础上,对数据仓库的客户主题和信息需求 主题进行模型设计,包括概念模型、逻辑模型和物理模型,并在此基础上完成这两主题数据的提 取、清理和转换,从而实现数据仓库的生成,为后面的数据分析做准备。 第四章:数据挖掘模型的研究。针对信息需求分类和客户细分两个问题,提出数据挖掘的决 策树解决方案,在探讨决策树的分类算法基础上,利用决策树“5 算法对信息需求分类和客户 细分进行实例分析。 第五章:原型系统的实现。根据系统结构要求,完成数据分析展示层的联机分析处理模块和 数据挖掘模块的实现。 第六章:结论与建议。总结本研究所得出的结论,并指出下一步工作的建议。 13 3 研究的技术路线 根据研究目的,本文的研究技术路线如图1 - 1 所示。 8 中国农业:= 学硕i :学位论文 第一章绪沧 i 问题提出 文献综述 i 研究思路与内容 系统方案设计系统数据仓库建立 系统分析 数据仓库概念模型设计 系统方案确定 数据仓库逻辑模型设计 系统体系结构设计 数据仓库物理模型设计 数据仓库生成 i f 数据挖掘模型研究 i i 决策树分类算法模型 i 实例分析 ; 数据分析系统的实现 o l a p 模块实现 数据挖掘模块实现 图卜1 技术路线 9 中国农业人学顾l 学位论义第一二章i l 乎l l q 中心数据分析系统方案 第二章呼叫中心数据分析系统方案 2 1 农业呼叫中心数据资源 2 1 1 呼叫中心数据获取 农业呼叫中心是农业信息部门与大众沟通的第一窗口,是最直接的信息采集源。农业呼叫中 心系统是一个集信息采集、信息处理、数据通讯为一体的综合信息服务系统。农业信息服务部门 通过一定的信息渠道为客户服务提供必要的、及时的信息,并根据客户反馈的信息及时调整各种 管理思想及策略,以及有关业务规定。呼叫中心对外面向客户对内与整个其它信息管理系统相 连结为一体,它通过e m a i l 、电话和w e b 访问等多种渠道从客户那里所获得的各种信息和数据全 部储存在庞大的数据库系统中,提供给管理人员做分析和决策之用。 本课题研究的呼叫中,t l , 是为了实现农业信息服务呼叫咨询系统而构建的,农业信息服务呼叫 咨询系统是一个可以通过多种访问手段为客户提供全方位信息服务的综合平台多种访问手段包 括电话、传真、短信、v o i c e m a 1 、e m a i l 和 w e b 等,客户可以利用任何一种形式来作为获取信息 的手段,平台一方面连接客户,一方面连接信息服务机构。起到中介的作用,平台提供服务的导 航和转按、信息的转换和转发、客户管理、统计分析等管理职能,实现统一接入、统一管理和统 一应用,其系统网络结构图如图2 - 1 所示。 图2 - 1 呼口q 中心系统网络结构图 0 中国衣业人学硕i j 学位论文第二荦i 呼叫中心数据分析系统方案 该系统功能设计的指导思想是各模块相互协同,共同实现对客户整个生命周期的管理。把 信息系统与客户资料信息库高度融合,个性化地满足客户的需要。呼叫中心系统数据流图如图2 - 2 所示,业务数据库存放所有客户的基本资料以及客户需求的相关资料,同时记录座席与客户之间 的关联信息。 图2 - 2 呼叫中心系统数据流图 2 1 2 呼叫中心的数据资源 从整体上看t 农业信息服务呼叫中心解决了农业知识传橘的问题,以多种方式提高和农民及 其他客户的接触频率,完成客户基本信息和客户需求信息采集。为客户提供解决方案,同时也为 以后的数据分析挖掘和其它预警系统提供原始数据, 呼叫中心作为信息服务机构与客户进行信息交互的窗口,它实现了数据采集功能,这些数据 的来源可以有多种渠道,包括电话、传真、短信、电子邮件、网页互动、文本交谈等等。将这些 数据进行合理的分类,是呼叫中心决策分析的关键所在。 呼叫中心系统的数据库服务器为呼叫中心提供数据存储服务,这些数据包括:客户信息、人 i :座席人员信息、w e b 交互信息和系统信息。 客户信息包括客户基本资料信息( 年龄、职业,地址簿) 、接触信息( 历史访问记录、访 问次数和客户级别、访问手段,访问时间等) 等。这是本文研究中的主要数据来源。 人l :座席人员信息包括每个座席服务人员的基本信息( 姓名、编号、服务等级等) 、每 次服务的信息( 服务时间、服务种类等) 。 w e b 交互信息是客户通过w w w 访问呼州中心与w e b 交互时提交的信息。 系统信息包括每个呼叫的数据和系统各个设备的数据。 2 2 基于c r m 思想的数据分析 客户关系管理( c l i e n tr e l a t i o nm a n a g e m e n t ,c r m ) 是指对企业和客户之间的交互活动进行 管理的过程,是一种客户之间关系的新型管理机制。其目的是通过管理与客户之间的互动,提高 客户价值、客户满意度、客户忠诚度。并发现市场和销售渠道,发现新的客户,提高客户利润贡 献率最终实现企业的社会效益和经济效益的提高印i 。 虽然c r m 是基于企业营销管理的电子商务平台而提出来的,但是如果把农业呼叫中心系统 的使用者。如农民、农技人员等视为客户,把信息系统中提供的服务视为产品,那么,通过概念 的平移,完全可以将c r m 的理念与技术融入到农业呼叫中心系统之中,达到一种理想的效果。 为了更好地分析c r m 思想在本数据分析系统中的应用,_ f 面将分析商用c r m 与农业呼叫 中心c r m 的异同。 企业实行c r m 策略是为了与客户建立持久的良好的关系,从而为企业和客户_ 双方都带来利 益。为了实现这个策略,企业需从庞大的数据库中抽取出有效的、未知的、便于理解的信息_ ; j 来提高效益。农业呼叫咨询也具有相似的目的。而且对企业和农业信息部门而言,长期积累了人 量的宝贵资源。优秀的数据挖掘工具能将这些数据转化为知识,为c r m 提供有力的技术保证。 商用c r m 面向的客户是一种收益群体,一般将客户群分为三类口8 l :第一类是无价值或低价 值的客户;第二类是不会轻易走掉的有价值的客户;第三类是不断地寻找更优惠的价格和更好的 服务的有价值的客户。而由于目前农业呼q 中心系统的投入不以盈利为目的,主要是政府用于农 业信息咨询和科技推广,因此对用户来说并无分三六九等之说,但仍需按照其地域、职业、重要 程度等各有侧重。 商用c r m 中的数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025网络安全合同
- 2025年关于终止劳动合同的范本
- 2025粮食购销合同范文
- 农业机械维修合同(范本)
- 配送站销售代理合同
- 铺面租赁合同范本
- DB65T 3675-2014 农产品质量安全信息追溯 数据格式规范 种植业
- 2025年钢筋工劳工考试题及答案
- 汽车承包经营合同
- 市区教师招聘试题及答案
- 与父母断绝关系协议书
- 架空架空绝缘电线长度换算重量表
- GB/T 14662-2006冲模技术条件
- GB 31644-2018食品安全国家标准复合调味料
- 第三章-经济性评价的指标和方法课件
- Unit 1 Reading B A letter to my daughte课件-高中英语上教版(2020)必修第一册
- 电力建设工程安全健康与环境管理办法
- 节能减排课件
- 掌骨骨折查房课件
- 国际商法完整ppt课件全套教学ppt教程
- 小箱梁运输及架设施工危险源辨识及分析
评论
0/150
提交评论