




已阅读5页,还剩64页未读, 继续免费阅读
(企业管理专业论文)通信行业客户服务系统中知识发现的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性说明 作者郏燕声明:本硕士学位论文怒蔽个人在导师指导下进行的研究工 乍及取 ;孽研究成慕。尽我新朔,除了文中特剐刍羹以轹注塞致谢篷她方岁 , 论文中不包含其他久已经发表或撰写的礤究成果,瞧不包含为获缚大连瑾 互丈学或考其馋单位麓学位或证书所馒躐过戆撼辩。与我一瓣王锌鹣矮恚 对本研究所儆的贡献均己在论文中做了明确的说明并寝示了谢意。 作者签名;垒墅麓期:2 照互_ 2 :,夕 大连理工大学硕士研究生学位论文 大连理正大学学位论文版权使用授权书 本学位论文 乍者及指导敬筛完全了解“太涟理工大学硕士、褥士学位论文敝权饺蠲 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部戏部分内 容编a 有关数擐库进行检索,也可采用影印、缩印或扫描等笈制手段保存和茫缡学位论 文。 2 一、 作卷签名; 鱼竺: 导师签名 莎主箬 年秀瑟 大连理工大学硕士研究生学位论文 摘要 新经济的到来,一方面使得知识成为企业赖以生存和发展的动力,另一方面使得以 客户为导向成为企业的主要生产经营理念。于是,越来越多的学者和企业人士都开始重 视对于客户知识管理的研究。那么什么是客户知识? 如何来获得客户知识? 这一新需求 促进了客户知识发现这一领域的理论的探讨和方法的应用性研究。 本文的研究着重于知识发现在通信行业客户服务文本记录分类这一问题的应用上。 目前通信行业已经积累了大量的客户服务文本记录,但对文本记录的使用主要仍是结构 化查询和统计,而另一方面,随着我国通信行业的不断发展,国外通信运营商的加入, 3 g 业务的使用,文本记录的数量会呈现高速增长的趋势,这些记录中存在着大量的客户 知识,如果不能够很好的得到充分地利用,对企业来说不仅仅是一种资源的浪费,也将 会使企业失去把握客户的机会。这一问题已经愈发显得突出和急需解决。 通过对不同的知识发现技术进行了比较分析后,结合通信行业客户服务文本记录的 自身的特点,最后选择了凝聚层次聚类的方法进行文本记录的知识发现处理。尝试探索 一个适用于通信行业客户服务系统的文本处理模式和聚类方法的具体实施步骤。在方法 比较和实例验证的研究过程中,也进行了以下方面内容的尝试,期望在方法的应用方面 有一点见解和创新。 ( 1 ) 在通信行业客户知识的界定和表示方面,采用集合方式和产生式系统的表示方 法。 ( 2 ) 在通信行业文本知识的转化方面,采用了目前研究和应用都比较成熟的向量空间 模型( v s m ) 的方法,尝试使用t f m i 函数进行权重计算。 ( 3 ) 进行了一定规模的实例验证分析,晟后得出具有实际意义的客户反馈的分类标准 和客户知识具体分类方法。 关键词:知识发现;文本记录;通信行业;文本聚类 壹亘墨! 望堡堡些查生竖堑墨堑! 型望垄堡堕壁塑竺茎 一 r e s e a r c ho nt h ea p p l i c a t i o no fk n o w l e d g ed i s c o v e r i n gi nt h ec u s t o m e r s e r v i c es y s t e mo fc o m m u n i c a t i o ni n d u s t r y a b s t r a c t t h ea d v e n to ft h en e ws t y l ee c o n o m yh a sm a d ek n o w l e d g et h em o t i v a t i o nt h a t e n t e r p r i s e sr e l yo ni no r d e rt os u r v i v ea n dd e v e l o p ,i na d d i t i o n ,i th a sm a d et h ec u s t o m e r o r i e n t a t i o nt h em a i ni d e a o ft h ee n t e r p r i s e s p r o d u c t i o na n dm a n a g e m e n t t h i sn e w r e q u i r e m e n th a sp r o m o t e dt h ea c a d e m i c d i s c u s s i o na n dt h es t u d yo nt h e a p p l i c a t i o no f m e t h o d s ,i nt h ea s p e c to fc u s t o m e rk n o w l e d g ed i s c o v e r y t h es t u d yo ft h i st e x te m p h a s i z e so nt h ea p p l i c a t i o no fk n o w l e d g ed i s c o v e r yi nt h e c l a s s i f i c a t i o no ft e x t u a lr e c o r d so nt h ec u s t o m e rs e r v i c ei nt h ec o m m u n i c a t i o ni n d u s t r y t h e i n e f f e c t i v ea n di n s u f f i c i e n tu s eo ft h e s er e c o r d sw i l ln o to n l ym a k ew a s t eo fr e s o u r c e sf o rt h e e n t e r p r i s e sb u ta l s ol e a dt ot h e i rl o s so fc h a n c e st oh o l dt h ec u s t o m e r s t h i sp r o b l e mh a sb e e n b e c o m i n gm o r ea n dm o r eo u t s t a n d i n ga n di nn e e do fr e s o l u t i o n a f t e rt h ec o m p a r i s o na n da n a l y s i so nd i f f e r e n tt e c h n o l o g i e so fk n o w l e d g ed i s c o v e r y , l i n k i n gt h ec h a r a c t e r i s t i c so ft h et e x t u a lr e c o r d so fc u s t o m e rs e r v i c ei nt h ec o m m u n i c a t i o n i n d u s t r y ,t h em e t h o do fh i e r a r c h i c a lc l u s t e r i n gi sf i n a l l ys e l e c t e dt om a k ep r o c e s so nt h e k n o w l e d g ed i s c o v e r yo ft e x t u a lr e c o r d s as e a r c hf o ra t e x t u a lp r o c e s s i n gm o d ea n da c o n c r e t ee x e c u t i v ea p p r o a c ho fc l u s t e r i n gi s a t t e m p t e d i nt h ep r o c e s so fm e t h o d o l o g i c a l c o m p a r i s o na n di n s t a n c ev a l i d a t i o n ,t h ea t t e m p t so nt h ef o l l o w i n gc o n t e n ta r ea l s oa c q u i r e d , e x p e c t i n gs o m eu n i q u eo p i n i o na n dc r e a t i o ni nt h ea s p e c to fm e t h o d o l o g i c a la p p l i c a t i o n , ( 1 ) i n t h e a s p e c t o fb o u n d i n ga n d s h o w i n go f t h e c u s t o m e r s k n o w l e d g e i nt h e c o m m u n i c a t i o ni n d u s t r y ,t h em e t h o do f p r o d u c t i o ns y s t e mi si n t r o d u c e d ( 2 ) c o n c e r n i n gt h et r a n s f o r m a t i o no ft e x t u a lk n o w l e d g ei nt h ec o m m u n i c a t i o ni n d u s t r y ,t h e m e t h o do fv s m ,w h i c hi sa tp r e s e n tr e l a t i v e l ym a t u r ei ns t u d ya n da p p l i c a t i o n ,i s i n t r o d u c e d ,aa t t e m p to fw e i g h tc a l c u l a t i o nu s i n gt f - m if u n c t i o ni sa c q u i r e d ( 3 ) t h r o u 曲t h ev a l i d a t i o na n da n a l y s i so nt h ei n s t a n c e s ,as t a n d a r do fc l a s s i f i c a t i o nt ot h e c u s t o m e r s f e e d b a c ka n dac o n c r e t em e t h o do fc l a s s i f i c a t i o nt oc u s t o m e r s k n o w l e d g e , w h i c ha r eo fp r a c t i c a lm e a n i n g ,a r ef i n a l l ya c q u i r e d k e y w o r d s :k n o w l e d g ed i s c o v e r y ;t e x tr e c o r d ;c o m m u n i c a t i o ni n d u s t r y :t e x t c l u s t e r i n g l , 一一查垄堡三奎鲎堡兰兰焦丝茎 , _ _ w 一 1 绪论 i 1 选题的科学依据与意义 1 1 1 选题的科学依握 新经济时代的一个重要特征就憝资本经济向知识经济的转变,即资本密度下降,知 识密度上升。数字资本一书中就指出:新经济流通的不是硬资本,而是知识和关系 资本哆蠡谖凌霆翡增魏蕊企鳖彗壤有了薮鹣发震蘑蠢,繇获经验鍪警壤骥式转囱知识 型管理模式的发展与应用。亦即,知识是企业竞争优势的来源,企业现有的知识存量和 流量决定了企业市场发展鄱资源配鬣的能力,企业资源发捧效率的程度也和企业拥有斡 知识密切相关;拥有自己核一t ;, h 。j 7 的企韭不荔授对手仿效,从丽形成独特的、持久酌巍 争优势。因此知识是企业蘑要的资源【2 j 。 毅经济时代躲另一令黧要特征体现在营销理论窝营镪蕊念上懿改变。市场营镂经艨 了近一个世纪的发展,营销观念也先后经历了生产和产j 鞴观念、维销观念、市场营销观 念和社会营销观念等几个阶段,至今各种新型的营销理论仍层出不穷。现代麓销观念特 爨强调获颓客戆需要篷发,协调各韵可憝影瘸鞭客最终麴买熬活动,逶过瀵跫颓窖曩繁 来实现企业的利润。顾客中心论要求企业通过不断的认识、发现、开发和满足顾客的需 要,与顾客建立一种互动荚系,从瓶实现企业的经营目标。达文波特( d a v e n p o r t ) 教授 指如,“竞争静焦点麸以产品为核心转向了以客户为核心嵋”,在这秘情况下,企监只脊 快速响应并满足客户个性化的需求,建立和维持长期的客户关系,提高客户的满意度和 忠诚发,才戆在激烈的市场竞争中褥以生存秘发震。 作为新经济时代下企业发展的两个重要的资源,知识和顾客并不是独立存在的,它 们在企业中是相互依存、相互作用的【”。客户除了了解他们自己的需求外,还掌握客户 戳井戆其它戆罄 ,磐竞争者的信惠、其它行鼗戆蔷惠以及客户瘸鬓人靛痿惑帮知谈。这 些信息和知识可以帮助企业发现新的市场机会、开发新的产品、发现新的潜在的客户、 降低成本、提离效率、改进服务,为双方创造更多的价镶甚至调整企业的战略。所以, 可以褥出客户怒企韭知识的重要来源,客户知识是企韭知识资源稔重要组成部分。蘸将 客户与员工中的知识( 人力资本) 转换为实际能力( 机构资本) 与关系( 关系资本) 的 企业鼹会成为露泣翦领头苹1 5 l 。 企业客户知识管理是一个系统工程,包括了客户知识的发现、存储、传播、共享和 应用磐一系列的知识活动。客户知识发现是完熬的客户知识管理过程中不可或缺的一部 努,只有骰努稚识发褒瓣工俸才麓避一步裂霜稚识、龟l 戆知识。龛妲良葑静客户藏务系 统是承载诸多客户信息的载体,是立足于不断地收集客户的各种信息资料、使之转化成 为企业知识的动力,并且企业的这幂孛知识的转他魅力是不可转移的、不可复制鲍,是构 齐丽云:通信行业客户服务系统中知识发现的应用研究 成企业的核心竞争能力的重要来源。因此,如何获得客户的知识越来越受到企业的重视, 而有效的发现企业的客户知识是企业实现客户知识管理的必经之路,是企业顺利实现以 客户为中心的经营管理模式转变的有力保障。因此,对企业“客户知识”的发现和获取 的研究将会是当前企业管理领域的一个前沿课题,同时也是一个非常重要而有意义的课 题。 1 1 2 选题的意义 我国的通信行业经过了2 0 多年的发展,先后进行了邮电分营、电信重组、开放市 场、引入竞争等系列工作,形成了目前“5 + 1 ”的竞争格局( 以中国电信、中国移动、 中国网通、中国联通、中国铁通和中国卫星为主要经营主体的新竞争格局) ,并逐渐由 卖方市场转向买方市场。市场格局以及经营模式的转变都对通信行业的发展提出新的挑 战,因此,“如何抓住市场”成了通信行业竞争的关键,客户成了通信运营商之间竞争 的焦点。如何不断提高企业自身的竞争力,提升企业形象,保持企业的竞争优势,实现 企业的可持续发展,这一切的关键就在于客户满意度和客户忠诚度的提高。要达到这样 的目标,就要能够对客户的需要进行很好的把握,能够为客户提供量体裁衣式的服务, 因此就要对企业客户服务系统中记录的客户信息进行深层次的挖掘,发现其中有价值的 客户知识来支持企业的市场决策和战略制定。 目前存在着很多关于数据库知识发现( k d d ,k n o w l e d g ed i s c o v e l yi nd a t a b a s e ) 的 技术、方法、软件等,对于大量的数据库数据进行整理、归纳和应用。通信行业客户服 务系统中的服务记录是由结构化数据和非结构化数据混合组成的,传统的数据库知识发 现的方法只能够很好的实现结构化数据的挖掘和发现工作,对于文本结构的数据就显得 有些力不从心了。本研究就是要在借鉴文本挖掘技术在大型制造企业、医学以及银行等 金融机构的实际应用的基础上,利用文本聚类分析的方法,对通信行业客户服务系统中 的非结构化的文本服务记录进行有效的分类,从而提高通信行业客户服务系统的运作效 率,同时可以从中发现对于通信发展有帮助的客户知识,这也正是本研究的实际意义。 文本聚类分析方法是聚类分析和文本挖掘理论的一个结合点,也是文本挖掘领域的 一个重要的分支和组成部分。文本聚类分析主要是根据事物的固有的特征和概念的自然 属性,基于“物以类聚”的朴素思想,试图发现隐含在一组混杂、非结构化、非线形的 数据对象中的分类规则和典型模式1 6 】。聚类分析在企业管理方面的应用主要集中在市场 细分、目标顾客的定位、企业的业绩评估等方面,而在通信行业客户知识发现领域的应 用较少。聚类分析方法的特点就是能够在混杂、非结构化、非线性的数据资料无法组织 成任何分类时,可以自动地将数据按照某些特征进行划分。本研究就是要借助于聚类分 析方法的这些特征,结合企业经营管理的普遍原则和方法,考虑到通信行业自身的特点, 来研究知识发现理论和方法在通信行业客户服务系统中的应用问题。随着通信行业的不 断发展,其客户信息数据库容量的扩大,其客户知识的分类以及规律原则的产生也会随 盔垄堡三盔堂篓生堂垡丝塞 。 之进化到最为客观、准确的状态。本文就是将知识发现技术应用到通信行业客户服务系 统的具体领域中去,使其媳有一定的领域的特点,同时在领域知识的实践过穰中再通过 不瑟魏掺芷、完善弱发袋,矮鎏l 够使荬其有一定翟袋鹣逶瘸毪霸磐逮缝,这邀正跫本 研究的理论意义之所在。 l 。2 论文豹磷突方法及硬突愚路 1 2 1 研究方法和主要的研究内容 本文采瑁安爨醭究与疆论硬究,定量分疆与定性分掇裙缝合赘疆究方法矮开。峦予 知识发现和文本聚类是较新的研究领域,至今来形成一个具有普遍意义的成型的发现模 式,因此本文以移动通信行业为研究的依托和实践背最,在进行了大量文本的聚类分析 处理豹基确上,窦正我出鼗够提高通信行监客户服务系统运作效率、提高满足客户满意 度、提升企业觉争力的客户知识的关键属性和县体的分类标准。本文历时近半年的文献 检索与峦阅,对楣关领域豹磷究进鼹进行评援;同靖,在这裁闻与移动遥信企蝗合作避 行的课题研究工作对论文的选题和开展提供了很大的帮助和研究旗础。 通过对移动通信企业的客户服务系统的实地调研,深入了解了企业工作的流程,发 凌了葵中毒在翁超蘧窝裁绞垒翌菠鼹懿簸颈,瓣露迄涤刻蘧矮摄载了客户瓣予逐售嚣烫 发展的关键作用和战略意义。结合豳内外对于文本挖掘的研究现状,通过对各种挖掘方 法进彳亍了仔细的比较分析,并考虑到改进通信 亍业客户服务系统工作的实际嚣要,最终 论文逸择了文本层次聚类静方法,嗣时在琢有挖箍步骤鞠计算过稷的基瑶上结合领域特 点进行了一定程度的改进,以提高其领域的实践价值。在此基础上,研究了通信行业客 户知识熬定义、文本知识豹转位、以及层次聚类方法的具体诗算过程。同避,遴行了大 量的数据实证研究,最后对利用选定和改进方法挖掘地进行了具有实际意义的讨论和评 价,井对这些知识在企业中的具体应用进行了一定的规划和构建,形成了企业客户关系 管理疆论窝氯谈发瑗技术豹有疆结合,挺鲞了蒸于懿莰豹邋蘩芎亍鼗客户豢务黎统靛愚怒 和理论框架。最后,提出了研究的不足和今后的研究方向。 本研究主要就是对予通信行业容户服务体系中知谚 发现的理沦枢架构她的研究,枣 要氆捺对予通锩行韭客户羰务俸系中客户知识豹器定和表示、文本知识豹转化、知识的 发现过程及实例分析这四个方丽内容。 酋先,在邋信行业客户觳识懿赛定积表示方蠢,采耀集会方式鄹产生式系绫戆,露 “i f t h e n ”方法来对客户知识进行界定和表示。 其次,在通信行业文本知以的转化方面。采剧了目前研究和应用都比较成熟的向量 空瓣羧受( v s m ) 戆方法,楚文本绉愚静莲嚣翊遂转纯为窀鹚r l 鹩翔量莲酝游题,孬蘩j 刚利关的数掘挖j i i f 方法进行知u , f g j 掇取。 齐丽云: i | 魏佑行业客户服务系统中知识发现的廊n 】研究 再次,在知识发现方丽,谯比较分析了锫种数据挖掘方法的基础上,选择了层次聚 类熬方法采实瑷文本挖掘诗努鞠茇袋过程。 最后,实例分析方面,在调磅过程中搜集到大量酌移魏通信行盈( 1 8 6 0 1 8 6 1 1 2 5 8 0 ) 客户服务系统的“用户投诉受理单( 1 8 6 0 ) ”,采用了上述的方法,在海量智能分词( 研 究版) 和s p s s 软件的帮助下对这些文本数攒进行了实际的计簿,最后得出了具有实际 意义的客户反馈的分类标准秘客户知识具 奉分类。同时对产生熬绩票进行了一定程度的 讨论帮评价。 1 2 2 技术路线 在文献阅读和企业实际调研的基础上,文章首先对知识发现的技术进行了综述和比 较。结合蘧露行l 客户缀务系楚耱工终突嚣巍客户鼗务记录鑫赛浆特点述雩于了文本蒙类 方法酌选择帮粳重计算函数的改进。最嚣送行了一定撬模静受铡研究,真歪的将文本聚 类的方法引入了通信行业的客户服务系统的工作实际中。同时,构建了基于知识的客户 服务系统。技术路线见图1 1 。 1 。2 ,3 主要秘鞭建 本文的研究将借鉴聚类分析在企业业绩评价、市场营销等领域的实际成用,在考虑 到通信行业客户服务体系的黩体特点和运作宓际的基础上,对现有的文本聚类( 层次聚 类) 的方法进行了一定程度的改进,对其在通信行业客户服务系统中非结构化服务记录 熬聚类翊瑟瀵嚣了应溺蛙的磷究。 大量的实铡分辑也是本文研究的特色之一。研究蒋戬移动通信行韭鸯例避行丈样本 实证研究,尝试对辽宁移动通信有限公司丹承分公司的客户服务记录进行分类、归纳, 发现对完善企业客户服务体系的功能的有重鞭意义的客户知识。 研究瓣嚣标是构建适合涎售弦韭客户服务体系知滠发现鹣理论摇架,莠东实恻分板 鹃基础上撼出基于知识静邋信行业客户溅务系统静愚想( k n o w l e d g e b a s e dc u s t o m e r s e r v i c es y s t e m ) 。 4 查垄堡王奎堂堡主堂焦丝兰 国】1 技术路线 f i g 1 1t e c h n i q u ea p p r o a c h 齐丽云:通信行业客户服务系统中知识发现的应用研究 2 知识发现技术的综述 数据痒辩谖发现( d ) 一谲蓠浚氆臻在1 9 8 9 年举彳予瓣第属国藩联台人工譬赣 学术会议上【”。到目前为止,由美国人工智能协会主办的k d d 国际研讨会已经召开了8 次,攥模也出艨来的专题讨论会发鼹到国际学术大会,磷究重点也逐渐从发现方法转起 系统应用,注羹多干中发现策略和援术的集成,以及多种学科之间的相互渗透潮。1 9 9 9 年, 亚太地区在北京召开的第三届k d d 会议的讨论、研究空前热烈,充分显现了k d d 迅 猛发震憝态势。i e e e 熬薮。n o w l e d g ea n dd a t ae n g i n e e r i n g 麓裂率先在1 9 9 3 年魄舨了k d d 技术专刊。国外的一些大企业也都投入的研发,i b m 、s g i 等均裔产品推出,有的已经 面向匿内销售。 与国务鞠毙,莺起辩k d d 磷究起多藕浚,还没有形成整薄力霪,研究主要是臣知 识发现的任务描述、知识评价与知识表示为主线,有效的知识发现算法为中心_ 1 。1 9 9 3 年莺家基然科学基金首次支持对该领域的硬炎项基。黪翦,国内毂谗多科研零位和赢等 院校竞相开展知识发现的基础理论及萁应用研究。其中,北京系统工程研究所对模糊方 法在知识发现中的应用j 藏行了较深入的研究,北京大学开展的对数据立方体代数的研 囊,南素大学、霾蹦联合大学寒上澎交逶丈擎等摹整黯予 缝秘二数据弱知识发理以及 w e b 数据挖掘的探讨等p j 。 尽管对k d d 技术的研究时间不长,到目前为止还是一个很新的研究课题,但其理论 研究和产品开发韵速凄鄂 鬻滚久,以它衙疆有筑为垒澈懿遥重大经济袭煮熬潜力,已 使冀很快有了许多成功的应用。 在毒场营镳中应曩k d d 技术进行市场定位和消费考分橱,辘黝割定市场策赂i i 眦。 k d d 在金融韭上的应用可分为两类:金融投资和欺诈甄掰i i l 】。勇矫,k d d 还可以蠲予 工业、交通、电信、市场营销、保除、甚至掣事等其他行业l l 。 2 1 知谖发瑶的定义及处理过疆 2 1 1 女b 识发现的定义 众多举者根据各自对于数据库知识发现k d d 的认识和理解,给出了很多不周的定 义,裒| ;其中裟公认为比较宠整、深刻霸全嚣豹是由f r a w l e y 稻f a y y a d 分别在1 9 9 1 年鞠 1 9 9 6 年的会议论文中绘漱的定义f 1 3 1 l : “数据库中的知识发飘是从数据集中识别出有效的、新颖的、潜在有用的。以及最 终哥理勰筑模式的高级过糕。” 熟识发臻( 强。w l e d g $ d i s c o v e r y ) g ( 1 予太工餐能秽掇瓣擎毳,怒缀器学习、人工替能、 数据库和知识库等众多举科相互融合而彤成的一门适应性强的新兴交叉学科。在上面的 定义中,以下几个地方辩爱引起重视: 大连理工大学硕士学位论文 数据集:是一个有关事实上f 的集合( 如学生档案数据库中有关学生基本情况的各 条记录) ,它是用来描述事物有关方面的信息,是我们进一步发展知识的原材料。一般 来说这些数据度是准确无误的。 有效:指提取出的模式应该是有意义的,可以通过定义u 表示模式e 的有效程度, “:u ( e ,) ,0 s “i ,u 值越大,则模式p 的有效程度越高。 新颖:经过数据挖掘提取出的模式必须是新颖的。模式是否新颖可以通过两个途径 来衡量:其一是通过对比当前得到的数据和以前的数据或期望得到的数据来判断该模式 的新颖程度:其二是通过其内部所包含的知识,通过对比发现的模式与已有的模式的关 系来判断。通常可以用一个函数来表示模式的新颖程度陋,f ) ,该函数的返回值是逻 辑或是模式e 的新颖程度的一个判读数值。 潜在有用:提取出的模式应该是有意义的,这可以通过某些函数的值来衡量。用n 表示模式e 的有用程度,“= u ( e ,f 1 。 可理解:知识发现的一个目标是将数据库中的隐含的模式以容易理解的形式表现出 来,从而帮助人们更好地了解数据库中所包含的信息。知识发现不同于以往知识获取技 术的一个特点是发现的知识是人们( 至少是领域专家) 可以理解的,如“i f t h e n ” 的形式,因此挖掘过程是一个人机交互、螺旋上升的过程。而以往的方法,如人工神经 网络,不论是知识获取过程还是知识应用过程,内部都是一个近”黑箱”的过程。当然一 个模式是否容易被人理解,这本身就很难衡量。目前,它主要体现在简洁性上。 模式:对于集合f 中的数据,可以用语言l 来描述其中数据的特性。模式就是指的 可以用语言l 来描述的数据属性的集合,并且满足:对任意的表达式e e l ,e 所描述 的数据是集合f 的某个子集五。只有当表达式e 比列举霹中所有元素的描述方法更为 简单时,才可称之为一个模式。 高级过程:知识发现是对数据进行更深层处理的过程,而不是仅仅对数据进行加减 求和等简单运算或查询,它是一个多步骤的处理过程,多个步骤之间相互影响、反复调 整,形成一种螺旋式的上升过程。 由于k d d 是- f 9 新兴的交叉学科,知识发现有很多不同的术语名称,除了 “知识发现”外,还有“数据挖掘( d a t am i n i n g ) ”、“信息抽取( i n f o r m a t i o ne x t r a c t i o n 、”、 “信息发现( i n f o r m a t i o nd i s c o v e r y ) ”、“智能数据分析( i n t e l l i g e n td a t aa n a l y s i s ) ”、“信息 收获( i n f o r m a t i o nh a r v e s t i n g ) ”、等称法。其中最常用的术语是“k d d ”和“数据挖掘”。 而数据挖掘( d a t am i n i n g d m ) 的定义是:从大量的、不完全的、有噪声的、模糊 的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有的信息和知识的 过程。数据挖掘提取的知识可以表示为概念、规律、模式、约束、可视化。数据挖掘算 法的好坏将直接影响到所发现知识的好坏。数据挖掘的任务是从数据中发现模式1 1 5 】。 严格地说,数据库知识发现被认为是从数据中发现有用知识的整个过程,而数据挖 齐丽云;通信行业客户服务系统中知识发现的应用研究 掘( d m ) 指的是k d d 熬个过程中的一个特意步骤,是k d d 中最核心的部分f 圳。此外, 从k d d ( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ) 的名称中可以看出,k d d 强调与数据库的 联系,全称为“数蠢痒戋嚣识发袋”。 2 1 2 知识发现的处理j 童粳 可视化 图2 1 知识发现过程示意圈 f 碴2 ip r o c e s so f k n o w l e 咄ed i s c o v e r y 图2 1 显示了知识发现的赴瑗过程,可粗略遗瑕解为三部癌:数据准备( d a t a p r e p a r a t i o n ) 、数据开采以及结果的解释评价( i n t e r p r e t a t i o n a n de v a l u a t i o n ) 1 s i 1 7 o ( 1 ) 数据毽锯 本步骤是为知识发现做数据上的准备。知识发现算发对数据有一定的娄求,数据冗 余性小,数据属性之间的相关性小,数据出错率低等。数据准备阶段的工作般又可分 为三个子步骤,数据选取( d a t as e l e c t i o n ) 、数箨颚处理( d 辩ap r e p r o e e s s i n 葑蠢鼗攥交换( d a t a t r a n s f o r m a t i o n ) a ( 2 ) 数据挖撅阶段 数据挖掘阶段首先螫确定开采的任务或黼豹是什么,如数据总结、分类、聚类、蓑 联规则发现或序列模式发现等。确定了开采任务后,就鼹举定是应什么样的开采算法。 两襻魏强务可良疆再露懿箨法来实瑗,选择实现算法枣蟋个考虑鲮霆素:一跫不固熬数 据脊不同的特点,因此需臻用与之拥关的算法来开采;二是用户或实际运彳亍系统的要求, 有的用户可能希望获取描述型的( d e s c r i p t i v e ) 、容易理勰的知识( 采用规则袭示的开采 方法显然要爵予辛率经丽终之类的方法) ,两有豹瑶户或系统匏嚣鹣是获取预瓣准确震尽 可能高的预测型( p r e d i c t i v e ) 知识。 ( 3 ) 结果磐释和评价 数据挖掘阶段发展国来的模式,经过用户或机器的评价,可熊存在冗余或无关的模 式,这时需要将其剔除;也有可能模式不满足用户的需求,这时则需要整个发现过程遐 容到发现阶段之 l 萋,蛰羹灏选取凝掇、栗震藜款数据变换方法、设定耘兹数掇挖握参数 。奎壅鍪三查堂堡主鲎堡笙茎 _ _ _ - _ w h _ ,_ _ _ _ _ - _ _ h _ _ - _ _ _ _ _ w _ _ _ _ - _ _ m _ _ _ _ _ 一一 值,旗至换一种采掘算法( 如当发现任务是分类时,有多种分类方法,不同鑫勺方法对不 同的数据有不麓的效果) 。 懿井,k d d 由于最终是瑟向人类雳户翁,函既可畿甍对发现静模式送行可视纯, 或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“i f t h e n ”规则。 2 2 翔误发珑技术酶分类 2 2 1 按照功能分类 浆据挖箍不仅能对过去豹数据邋行套诲辩遍历,著羹能够对将来鲢趋势茅妥芎亍为送行 预测,并自动探测以前未发现的模式,从而很好地支持预测和决策。被挖掘出来的信息 稆知识,能够翅子售息管潦、查谗处疆、决繁支跨、过程控制等应爝。按其功2 数据挖 掘可以划分为以下几类: ( 1 ) 关联分析 关联分援广泛瘸子熬甥篷或事务数撂努撬5 蝽j 。著嚣个或多个数褥顼豹墩德霪复塞巍 且概率很高时,它就存在潜某种关联,可以建立起这些数据项的关联规则。关联分析的 耳的怒找出数据库中隐藏的关联网。 ( 2 ) 分类 分类是找出一个类别的概念描述,它代表了这类数据的整体信息,即该炎的内涵描 述,般用趣则或决策树模式表示| 1 9 j 。 ( 3 ) 聚类 数据库中的数据可分为系列有意义的集,或称为类( 2 0 i 。在同一类别中,个体之间 豹疆蔫较小,稀不弱类鬟麴个落之溺憝距褒镄大。 ( 4 ) 时序模式 通过时间序列搜索出鼹复发生概率较高的模式,这墨强调时间序列的影响【2 l l 。 ( 5 ) 编差捡溯 数据库中的数据常有些异常记录,从数据库中检测出这些偏麓很有意义f 1 7 j 。偏差 检测鲍基本方法跫寻找或测结果与参照之闻懿差裂。 ( 6 ) 预测 预测是利用历史数据找出变化规律,即建立模型并用此模型米预测未来数据的种 类、赞经等。 ( 7 ) 孤立点分析 数据库中可能包含些数据对象,它 f 与数据的般行为或模型不一致,这些数握 对象怒j j 蕞立点m 1 。孤立点可珏往用统计方法、簇予距离酌方法或基于偏差秘方法进乎亍识 别。 壹堕墨! 望堡堑些查生里墨墨竺主塑望叁翌叟生旦堑塞 2 2 2 按照挖掘技术分类 按照数据挖掘技术可以有如下的分类: ( 1 ) 统计方法 传统的统计学所研究的主要是渐进理论,即当样本趋向于无穷多时的统计性质。统 计方法主要考虑测试预想的假设是否与数据模型拟台,它依赖于显示的基本概率模型。 传统统计方法可细分为回归分析( 多元回归和自回归等) 、判别分析( 贝叶斯判别、费 歇尔判别和非参数判别等) 、聚类分析( 系统聚类、动态聚类等) 和探索性分析( 主元 分析法和相关分析法等) 等 2 3 】。 ( 2 ) 模糊集方法 模糊集( f u z z ys e t ) 是表示和处理不确定性数据的重要方法 2 4 】。模糊集不仅可以处 理不完全数据、噪声或不精确数据,而且在开发数据的不确定性模型方面是有用的,能 提供比传统方法更灵巧、更平滑的性能。 ( 3 ) 支持向量机方法 支持向量机( s v m ,s u p p o r tv e c t o rm a c h i n e ) 建立在计算机学习理论的结构风险最 小化原则之上 心。其主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为 两类的分割,以保证最小的分类错误率。s v m 的一个重要优点是可以处理线性不可分 的情况。 ( 4 ) 粗糙集方法 粗糙集( r o u g hs e t ) 理论由z d z i s k e wp a w l a k 在1 9 8 2 年提出,是一种新的数学工具, 用于处理含糊性和不确定性,在数据挖掘领域中发挥了重要作用。粗糙集是由集合的下 近似、上近似来定义的。与模糊集一样,它是种处理数据不确定性的数学工具,常与 规则归纳、分类和聚类方法结合起来使用。 ( 5 ) 机器学习方法 机器学习起源于2 0 世纪5 0 年代,是研究学习的计算理论、建立学习的计算机模型、 使计算机具有学习能力的科学。机器学习有很多方法,根据机器学习所采用的学习策略、 知识表示方法及应用领域,机器学习可分为机械学习、归纳学习、示例学习、类别学习、 解释学习、观察学习、连接学习( 神经网络) 和遗传算法等。机器学习模型如图2 2 所 不。 还有些其他的分类方法,如根据挖掘的应用对象分,可分为结构化数据挖掘、半 结构化数据挖掘、非结构化数据挖掘和知识库中的知识挖掘。 盔垄堡三查兰里兰三堂垡堡苎 一 一一 f i g 2 2m o d l eo fm a c h i n el e a r n i n g 2 2 3 按照挖掘对象分类 有如下若干种数据库或数据源:关系数据库、面向对象数据库、空间数据库、 时态数据库、文本数据库、多媒体数据库、异质数据库、遗产( 1 e g a c y ) 数据库, 以及万维网络( w o 订dw i d ew 曲) 等 2 3 】【2 6 。 2 3 文本挖掘技术 2 3 1 文本挖掘的产生、发展与研究现状 在现实世界中,知识不仅以传统数据库中的结构化数据的形式出现,更多的是以诸 如书籍、研究论文、新闻文章、w e b 页面及电子邮件等各种各样的形式出现。文本是存 储和交换信息的最自然的方式,文本挖掘具有非常重要的现实意义。事实上,最近的统 计资料研究表明“在企业的信息中有8 0 以上的数据都是以非结构化的形式保存在文本 中,如科技报告、技术文档、e m a i l 、专家陈述等【2 ”。由于在这些非结构化的数据源中 存在着大量的知识,因此也应该在这些数据源上进行数据挖掘,提取感兴趣的、潜在的 有用模式和隐藏的信息,这就是文本挖掘( t e x tm i n i n g ) 2 8j 。文本挖掘可以完成不同文档 的比较,以及文档重要性和相关性排列,或者找出多文档的模式及趋势。因此,文本挖 掘就成为了数据挖掘中的一个目益流行且重要的研究课题。 国外对于文本挖掘的研究开展较早,5 0 年代末,h r l u h n 在这一领域进行了开创性 的研究,提出了词频统计思想用于自动分类。1 9 6 0 年,m a r o n 发表了关于自动分类的第 一篇论文,随后,众多学者在这一领域进行了卓有成效的研究工作【”j 。到目前为止,文 本挖掘的研究仍处于发展的初期,对其含义、过程、功能等尚无统一的结论。不同的学 者对于文本挖掘的研究也有不同的理解 3 0 l 。 一般认为文本挖掘是指在大量文本集合或语料库上,发现其中隐含的、令人感兴趣 齐囊云:透信行整客户辍务系统中籍谖发现熬应霸辑究 的、霄用的模式和知识。大多数作用于数据库中滟知识发现功能,例如:依赖关系分板、 分类、浆类、偏差检测等,在文本挖掘中都能够或者有可能被实现。显然这种定义将文 本挖搬视为数掘挖掘从肖结构的数据库到无结构文本的种跳跃,或者说文本挖掘是数 错挖撼的一个将殊的应绢或方舔。 r o n e nf e l d m a n 在k d d 9 9 中给文本挖掘下了定义。他认为文本挖掘怒- - f 新的研究 领域,暹过采爝数据挖掘、视嚣学习、裔然语言、售患稔索和翔识管理酌技术瞳解决信 息过载的问题。它涉及文档集合的预处理、中间形式的处理( 分类、聚类、趋势预测、 关联菇翔等) 良及结巢蠡每哥撬纯 3 “。 目前,国外的文本挖掘研究己经从最初的可行性基础研究,经历了试验性研究进入 到了实爝诧除蔽,著在整 串分类、遣孑会议、嵇惑过滤等方瑟取褥了较为广泛赘应用。 目前,匿外著名的文本挖掘工具主要有:i b m 的文本智能挖掘机,a u t o n o m y 公司的核 心产品c o n c e p ta g e n t s ,戬及我摄b 蘸公霭熬产熬p q 。 国内对于文本挖掘的研究越步较晚,1 9 8 7 年,侯汉清教授对于计算机在文本挖掘工 馋中款虚鼹敲了探讨,势夯疆了国癸 卡黪援管理分类表、诗算极分类捡索、计算辍鱼凌 分类、计算机编制分类液等方面的情况。此后,我国陆续开始关注于文本挖掘方黼的研 究。表2 - 1 列出了莺内文本挖掇方面的磷究现状n 副: 表2 1 国内文本挖掘方面的研究现状 t a b2 1 p r e s e n tr e s e a r c h e s 。口t e x t c i n s t e r i n g i n c h i n a 一 奎垄堡三查兰堡圭兰焦堡兰 _ - _ _ _ 一 ( 续表) 1 丽瓦嚼丽丁= = 丽雨露磊两酾疆 5 脑研究所 王水厩 网络的自动分词优化算法 自动标注汉语词类( 神经网络模 北京邮电大学信息工 。、,。型) 、自动文摘( 文摘语文本结构 北京邮电大学学 6 程系 钟义 i 关系) 、提出了基于语言行为理论报情报学报 的话语分析方法 7 复旦大学吴立德 部分汉语语法分析器 词性标注、继承理论( 将无限的 自然语言处理转换成有限的类别 处理) 、中文信息自动抽取、词类 搭配规则、语音识别模型、文本 。 的时间信息分析( 时态逻辑) 、短 8 东北大学 竺霆竺 语结构规则自动获取方法、模糊 禾靖扳 聚类分析用于语音识别领域、语 言异化、基于神经网络的模糊知 识自动获取方法、英文中动词的 远程搭配、中文姓名识别、汉语 文本自动分类模型设计与实现 9 北京大姜芝苎机语言 俞志汶 汉语单句谓语中心词识别 研究所m “- j - - j e - 。一 。 ,。华南篙嚣子与黧裟豢鬻耋萎 计算机研究与开 发1 9 9 7 计算机研究与开 发1 9 9 7 软件学报1 9 9 7 东北大学学报 1 9 9 7 北京大学学报 中文信息学报 电路与系统学报 华南理工大学学 报 2 3 2 文本挖掘的工作流程及相关计算模型 文本挖掘是一种典型的非结构化数据挖掘,涉及数据挖掘、计算机语言学、信息检 索、自然语言理解、知识管理等诸多领域。从数据挖掘的角度来看,文本挖掘是指将数 据挖掘技术应用在大量的文本集合上,发现其中隐含的知识的过程【2 8 j 。 文本挖掘的主要困难是文本数据缺乏结构化、组织的规整性,再加上自然语言处理 技术还相当有限,很难从语义分析的角度从文本中抽取信息量足够大而且易于处理的特 征。文本挖掘的结果既可以是对某个文本内容的概括,也可以是对整个文本集合的分类 结果或聚类结果等。图2 3 描述了文本挖掘的工作流程。 与结构化的数据库中的数据相比,文本文档具有有限的结构,或者根本没有结构, 一般称为半结构化、非结构化数据。即使具有一些结构,也是着重于格式,而非文档内 容。不同文档的结构也不一致。此外,文档的内容是通常使用的自然语言,计算机是很 j 塑墨! 望堕堑些查芝望堑墨竺生堑堡茎堡塑堕旦堑窒 难处理语义的。文本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年桃城小升初考试题及答案
- 2025深圳租赁担保合同
- 2025商业房产租赁合同书样本
- 塔吊顶升安全培训课件
- 颈部疾病的护理课件
- 2025物业管理服务合同官方版样式
- 领班竞聘课件模板
- 2025工程中介合同范本标准版
- 领导班子安全责任培训课件
- 2025自动化控制系统安装合同
- 风电场运行管理课件(改)
- 京东自营采购合同
- 2024年设备监理师考试题库附参考答案【基础题】
- 医院医用耗材SPD服务项目投标方案
- 债务重组合同协议书样本
- 信息与网络安全培训
- 杜绝“死亡游戏”(梦回大唐)学生安全主题班会课件
- 人教版七上《峥嵘岁月-美术中的历史》教案
- 《妇产科学》课件-9.2产力异常
- 职工食堂服务(技术方案)
- 金融领域反腐
评论
0/150
提交评论