




已阅读5页,还剩83页未读, 继续免费阅读
(管理科学与工程专业论文)基于网格计算的文本挖掘系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
河海丈学硕 论文摘要 摘要 近年来,随着互联网技术与企业信息处理技术的快速发展,文本数据数量j 下在 飞速增长。如何有效地从这些海量的文本数据中找到经营决策所需要的信息越来 越被人们所关注。将网格计算与数据挖掘相结合是当前国际上的一个热门研究课 题,而如何将网格计算应用于文本挖掘系统则刚刚起步。 本文主要针对基于网格计算的分布式海量文本分类系统进行了研究。首先分析 比较三种传统的分类算法的性能及其适应环境,提出了基于词频、词长、词语的 首现位置的综合权重算法来处理海量文本。其次,在该算法的基础上构建了基于 桌面网格的海量文本分类挖掘系统以及基于网格的分布式文本数据仓库集成模 型,用于存储文本数据挖掘的结果,便于数据的统计分析。最后,成功地将这些 研究成果应用于电信c r m 客户抱怨系统。 本文设计并实现了相关的算法与系统,并对挖掘系统的有效性进行了分析。实 验结果表明,本文算法及系统的挖掘结果是令人满意的,具有较好的性能和一定 的实用价值。 关键词:数据挖掘,文本分类,网格计算,数据仓库 女海人学硕十论文a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e ta n de n t e r p r i s ei n f o r m a t i o nt e c h n o l o g y , t h e n u m b e ro fd i g i t a lt e x td a t ai sg r o w i n ga tav e r yf a s ts p e e d o no n eh a n d ,h o wt of i n d t h ev a l u a b l ed a t aw en e e dt os u p p o r tt h ea d m i n i s t r a t i o nd e c i s i o ni nt h em a s s i v et e x t d a t ai sa t t r a c t e db ym o r ea n d m o r ep e o p l e b u t ,o nt h eo t h e rh a n d ,g r e a ta m o u n to f m o n e yh a sb e i n gu s e dt or e c o n s t r u c tt h ei ts y s t e m t h eo c c u r r e n c eo f g r i d t e c h n o l o g yp r o v i d e san e ww a yt od e a lt h ef o r m e rt w op r o b l e m s am e t h o dw h i c h a s s o c i a t e sg r i dt e c h n o l o g yw i t hd a t am i n i n gi sh o tr e s e a r c hs u b j e c to nt h ew o r l d b u t , i nc h i n a ,h o wt oi n t e g r a t eg r i dt e c h n o l o g yi n t ot e x td a t am i n i n gj u s tw a l k so u tal i t t l e s t e p t h i sa r t i c l em a i n l ym a k e sar e s e a r c ho nt h eg r i d b a s e dt e x td a t am i n i n gs y s t e m ( g t d m s ) f i r s t l y , a n a l y z e st h et h r e et r a d i t i o n a lt e x tc l a s s i f i c a t i o na l g o r i t h m sa n d c o m p a r e st h e me a c ho t h e ri nm a s s i v et e x te n v i r o m e n t ,t h e np u t su pw i t han e w a l g o r i t h mw h i c hc o m p r e h e n s i v e l yc o n s i d e r sf r e q u e n c y , l e n g t ha n dt h ef i r s tp o s i t i o no f w o r di nt e x tt od e a lm a s s i v et e x t s e c o n d l y , b a s e do nt h en e wa l g o r i t h m ,c o n s t r u c t s g t d m s ,w h i c hi sad i s t r i b u t e dd e s k t o pg r i ds y s t e m ,c a nm o s t l yr e u s et h ee n t e r p r i s e s l e g a c yi ta s s e t sa n dc a ne n h a n c et h ee n t e r p r i s e sb e n e f i t a tt h es a m et i m e ,t h i sp a p e r g i v e sag r i d b a s e dd i s t r i b u t e dt e x td a t aw a r e h o u s ei n t e g r a t i o nm o d e l ( g t d w m ) w h i c hs t o r e st h er e s u l t so fd a t am i n i n gp r o c e s s ,s ot h a ta n a l y z i n gs y s t e mc a nr e t r i e v e d a t af r o mi t a tl a s t ,t h i sp a p e rs u c c e s s f u l l ya p p l i e st h eg t d m si n t ot e l e c o mc r m s c u s t o m e rc o m p l a i n t ss y s t e m t h i ss t u d yd e s i g n sa n dc o n s t r u c t sg t d m sa n dg t d w m ,a n da n a l y z e sg t d m s e f f i c i e n c y t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h eg t d m s i se f f e c t i v e ,w h i c hh a sa g o o dp e r f o r m a n c ea n da p p l i c a b i l i t y k e y w o r d s :d a t am i n i n g ,t e x tc l a s s i f i c a t i o n ,g r i dt e c h n o l o g y ,d a t aw a r e h o u s e 学位论文独创性声明: 本人所呈交的学位论文是我个人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果。与我一 同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。如不实,本人负全部责任。 论文作者( 签名) : 学位论文使用授权说明 删年) 月协日 河海大学、中国科学技术信息研究所、国家图书馆、中国学术期 刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件或电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文 档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允 许论文被查阅和借阅。论文全部或部分内容的公布( 包括刊登) 授权河 海大学研究生院办理。 论文作者( 签名) :逊p 影年) 月u 日 河海人学硕e 论文第一章绪论 第一章绪论 1 1 选题依据 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数 据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够通过对其进 行更高层次的分析,以便更好地利用这些数据。现有数据管理系统,可以高效地 实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无 法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏知识的手段,导 致了“数据爆炸但知识贫乏”的现象。因此从大量数据集合中挖掘有价值的潜在 信息变得越来越重要,数据挖掘应运而生。 目前,由于i n t e r n e t 和c r m 应用的联合推动力,在现有数据集合中文本和 超文本的数据量超过了结构化数据“1 ,一个组织的信息有8 0 是以文本的形式存 放的”1 ,包括w e b 页面、技术文档、电子邮件、访谈记录、网络留言、短信息等。 随着信息资源的不断增长,人们迫切需要从大量的文本信息中有效地收集和选择 所感兴趣的信息,在日益增多的信息中自动发现新的概念,并由计算机自动分析 它们之间的关系,能够真正做到信息处理的自动化。在这样的需求驱动下,文本挖 掘作为一个新的数据挖掘领域出现了。 企业内部存储的常年积累的文本数据,可能达到相当大的规模,而且每年都 在以高速度递增,例如电信企业每天的数据量都是惊人的。企业或组织例如电信 企业、邮政企业、大型连锁企业、政府部门等都在地理上有分布的特点,而这些 组织内部产生的文本数据也就有了分布的性质。面对这样海量的分布式文本数 据,要从其中获得有用的知识时,碰到两个问题:对它们进行高效地挖掘; 对这些文本数据挖掘结果进行集成分析。对文本进行挖掘,仅靠提高挖掘算法的 性能无法提高整体的效率和效益,因为它们太庞大了。例如,经过测试,利用一 台内存为4 g 、c p u 为x e o n 2 2 g h z 的服务器对5 0 0 0 个文本文件( 文本文件大小为 7 k 2 0 k ) 进行分类分析,耗时为2 5 4 0 分钟,内存使用量超过2 g 。如果有2 个用户同时提交5 0 0 0 个文本的分类任务,系统将无法处理,而导致分类系统崩 溃。服务器群集是解决问题的一种途径,但是昂贵的服务器大大增加了系统成 河海人学硕l :论文 第一章绪论 本,而企业要生存,要降低成本,所以要寻找其他可能的方案。文本挖掘结果的 集成分析也很重要,有两种方法可以进行集成:将原始文本复制到指定位置, 然后利用挖掘工具统一处理,集中存放挖掘结果:各个分布式数据节点各自按 照统一的规则进行挖掘,再将挖掘结果进行集成。在网络带宽受限制的情况下, 由于分布式海量数据传输耗时、耗资源,方法显然不合适。 网格( g r i d ) 技术的出现,为分布式的海量文本数据挖掘提供了一个值得尝 试的途径。“网格之父”i a nf o s t e r 博士对网格的经典定义。1 :网格是一个集成 的计算资源环境,或者说是一个计算资源池( c o m p u t i n gp 0 0 1 ) 。网格能充分吸 收各种计算资源,并将它们转化成一种随处可得的、可靠的、标准的、便宜的计 算能力。网格系统所提供的资源,是增强和放大后的可以动态任意组合的资源。 通俗地讲,网格是将来社会信息化必不可少的一种基础设旖,这个基础设施将会 为全球的商业、政府、科学研究和娱乐等领域提供最强有力的支持。网格把整个 互联网或企业内网整合成一台巨大的超级计算机,使计算资源、数据资源、存储 资源、知识资源、信息资源、专家资源等实现全面共享。 本研究希望以网格计算为突破口解决文本挖掘效益低下的问题,不仅要提高 文本挖掘的效率与效益,同时给出一个分析文本挖掘结果的应用框架。 1 2 研究目的及意义 本研究的目的在于构建一个基于网格计算的海量文本数据挖掘系统模型,该 模型利用先进的网格计算搭建数据挖掘的基础设施,包括计算网格和数据网格。 数据网格集成分布式数据仓库,存储海量文本数据挖掘结果以及这些文本的属性 信息( 、 、 、 、 ) ,实现数 据的透明和无差异访问,解决文本数据挖掘结果有效集成的问题;在计算网格中 部署改良的数据挖掘工具,挖掘结果存储在数据仓库中,以便用户界面程序访问 和集成。用户通过界面系统制定挖掘策略、查看并修正挖掘结果、能够根据系统 的输出结果进行统计分析与预测未来。 本研究的意义主要有两个方面:一是在理论上解决一直困扰文本数据挖掘的 低效益问题,在文本挖掘研究中给出一个新的突破口。二是在实际应用中给出一 个模拟的高效益文本数据挖掘系统,政府组织或企事业组织可以据此模拟建立实 2 河海大学硕上论文第一章绪论 用的文本数据挖掘系统,为决策的制定提供真j 下有价值的信息,进而获得良好的 社会效益或企业利润。通过所构建的文本挖掘系统,可以使组织内部的文本资源 不再是不活动的、没有利用价值的存档文件,而成为持续创造财富的源泉。 该系统如果实验成功,可以广泛应用于诸如:民情调研、网络监控、信息过 滤、网页搜索、文献管理、客户关系管理等领域。 1 3 国内外研究现状 1 3 1 文本数据挖掘 “知识发现”( k n o w l e d g ed i s c o v e r y ,k d ) 一词是1 9 8 9 年8 月在美国的第1 1 届国际人工智能联合会议的专题讨论会上首次出现的。随后几年,美国举行了知 识发现的专题讨论会。1 9 9 5 年在加拿大召开了第一届关于知识发现和数据挖掘 的国际学术会议。此后,知识发现与数据挖掘开始流行起来。归纳起来,国际知 识发现研讨会所讨论的主要问题有:定性知识和定量知识的发现:数据汇总; 知识发现方法;数据依赖关系的发现和分析;发现过程中知识的应用; 集成的交互式的知识发现系统;知识发现的应用等。 数据挖掘作为一个新兴的研究领域,刚刚出现就立刻受到广泛关注。第一本 关于数据挖掘和知识发现的国际学术杂志d a t am i n i n ga n dk n o w l e d g e d i s c o v e r y 于1 9 9 7 年3 月创刊,许多学术期刊也为此领域开辟专栏,在互联网上 也出现了有关知识发现的电子出版物。 数据挖掘( d a t am i n i n g ,d m ) “1 指从大量的、不完全的、有噪声的、模糊的、 随机的实际应用数据中采掘出隐含的、先前未知的、对决策有潜在价值的知识和 规则的过程,包括分类、聚类、关联规则挖掘、特征与偏差、时序模式发现、趋 势分析等。传统的数据挖掘技术,主要针对结构化数据,如关系的、事务的、数据 仓库的数据。随着数据处理工具、先进数据库技术以及网络技术迅速发展,大量 的形式各异的复杂类型的数据( 如结构化与半结构化数据、超文本与多媒体数据) 不断涌现。因此数据挖掘面临的一个重要课题就是针对复杂数据类型的挖掘,这 包括复杂对象、空间数据、多媒体数据、时问序列数据、文本数据和w e b 数据。 文本挖掘( t e x tg i n i n g ,t m ) ”1 最早是由f e l d m a n 和d a g a n 提出来的,又称为文 河海人学硕i - 论文第一章绪论 本知识发现。它是以计算语言学、统计数理分析为理论基础,结合机器学习和信 息检索技术,从文本数据中发现和提取隐含知识。它是一个从文本信息描述到选 取提取模式,最终形成用户可理解的信息知识的过程。 文本挖掘是近年来数据挖掘领域的一个新兴分支,在国际上,文本挖掘是一 个非常活跃的研究领域。推动文本数据挖掘技术发展的原动力主要有两方面: 一是i n t e r n e t 的迅速发展,i n t e r n e t 上大量的数据以文本的形式出现;另一个是 客户关系管理系统的广泛应用,客户的相关信息绝大多数是文本的形式。这些文 本信息是非结构化的数据,其中包含的重要信息不是显式的,而是隐含在文档内 部。从技术上说,文本数据挖掘实际是数据挖掘和信息检索两门学科的交叉。文 本挖掘与传统数据挖掘的差别在于文本数据与结构化数据的巨大差异。传统数据 挖掘所处理的数据是结构化的,如关系的、事务的、数据仓库的数据,其特征数目 通常不超过几百个,而文本数据没有结构,转换为特征向量后特征数将达到几万 甚至几十万。与数据库中的数据相比,文本数据结构隐含、松散,相对比较难以 处理。所以,文本挖掘即采用了很多传统数据挖掘的技术,又有自己的特性。 文本挖掘作为数据挖掘中一个日益流行而重要的研究课题有着广泛的应用 前景,主要有网络使用挖掘、文本检索、文本分类、文本聚类、文本文摘43 等。 网络使用挖掘通过分析用户的网络使用行为,帮助用户更好地寻找有用信息。文 本检索主要研究对整个文档文本信息的表示、存诸、组织和访问,即根据用户的 检索要求,从数据库中检索出相关的信息资料。文本分类是按照用户预先定义的 主题类别,依照某种分类算法,为文档集中的每一篇确定一个类别。通过分类, 用户不仅通过限制搜索范围来使文档查找更容易,而且还可以对某一时段内特定 类别的文本进行统计分析。文本聚类与文本分类不同之处在于文本聚类没有预先 定义好的主题类别,它的目标是将文档集合分成若干个簇,即物以类聚,要求同一 簇内文档内容的相似度尽可能大,而不同簇阳j 的相似度尽可能小。文本文摘又称 文本自动总结,它模拟读者对一篇文档的摘要过程,从文档中抽取关键信息,用 简洁的形式对文档的内容进行摘要或解释。 目前,国外及香港地区比较重视文本挖掘的研究,大量关于文本数据挖掘理 论及应用的论文相继出现。早在1 9 9 8 年,加利福尼亚大学j e f f r e ya l a ng o l d m a n 的博士论文文本数据挖掘的数字过滤器模型”1 提出一种循环迭代器,它能够 4 河海大学硕t 论文第一章绪论 在文本上下文中发现反常的单词、短语或者其他语言结构:1 9 9 9 年香港科技大 学v i n c e n tw i n g s i n gc h o 的博士论文k n o w l e d g ed i s c o v e r yf r o md i s t r i b u t e d a n dt e x t u a ld a t a ”3 论述了分布式文本数据的知识发现;2 0 0 4 年乔治亚技术学 院的a l i s ak o n g t h o n 的博士论文at e x tm i n i n gf r a m e w o r kf o rd i s c o v e r i n g t e c h n o l o g i c a li n t e lli g e n c et os u p p o r ts c i e n c ea n dt e c h n o l o g ym a n a g e m e n t ”与c h e r i er c o u r s e a u l t 的博士论文at e x tm i n i n gf r a m e w o r kl i n k i n g t e c h n i c a l i n t e l l i g e n c e f r o mp u b l i c a t i o nd a t a b a s e st o s t r a t e g i c t e c h n o l o g yd e c i s i o n s “”分别从不同角度对文本数据挖掘在科技管理领域的应 用进行了框架式的探讨;参考文献1 给出了文本数据挖掘在商业智能领域的应 用。一些科研机构与有实力的企业( 如i b m ,s a s ) 已经开发出了用于文本挖掘 的工具“”,一些情报部门开始利用文本数据挖掘系统来搜集情报;建立了许多专 门研究文本挖掘的网站“加”“”,同时每年都召开关于文本数据挖掘年会“”“”。 国内文本数据分类研究起步较晚,始于2 0 世纪8 0 年代初期,大体上经历了从 可行性探讨到辅助分类再到自动分类系统的发展阶段。关于中文文本数据分类的 研究相对较少,国内的研究基本上是在英文文本数据分类研究的基础上采取相应 策略,结合中文文本的特定知识,然后应用于中文之上继而形成中文文本数据分 类研究体系。 当前国内文本数据挖掘总体上处于理论研究、应用实验阶段,对算法研究的 多,实际应用还很少,但是已经成为数据挖掘研究领域的一个热点。主要研究内 容涉及中文文本分词、文本分类、文本聚类、文本摘要等算法以及讨论文本数据 挖掘系统框架“州埘”m ”。”,例如,中国农科院农业信息研究所李文炬撰写的文 本挖掘技术在农业科技基础数据库中应用的探讨1 。同时,利用文本挖掘技术 构建应用系统的研究也不断涌现”。,例如,同济大学计算机科学与工程系 朱炜等人撰写的 e m a i l 挖掘系统的体系模型及其具体实现。 1 3 2 网格计算 2 0 世纪9 0 年代初,根据网上主机大量增加,而其利用率却并不高的情况, 美国国家科学基金会将其4 个计算中心构筑成一个能够进行元计算 ( m e t a c o m p u t i n g ) 的整体。元计算的含义是通过网络,将计算资源连接起来, 5 河海大学硕l :论文 第一章绪论 形成对用户透明的超级计算环境。近年来,元计算的这个术语已经被网格计算所 代替。 网格计算的重要战略意义及其广阔的| j 景,使其成为当今吸引众多研究人员 和巨大资会投入的研究热点,一些大型网格计算研究项目相继启动。到目前为止, 网格的研究主要在美国和欧洲,最著名的网格计算研究项目包括。”:美国自然 科学基金于1 9 9 7 年底开始实施“分布式网格”研究项目,其目标是在美国建立 遍及全国的计算网格,支持重大科学与工程计算,为用户提供到桌面上的虚拟高 性能计算环境。美国国家航空和宇航局( n a s a ) 的i p g ( i n f o r m a t i o np o w e r g r i d ) 项目。这是一个2 0 年的研究计划,目的是让人们使用计算资源和信息资 源就像使用电力网提供的电力资源一样方便快捷。美国能源部开发的“先进战 略计算创新计划网格( a s c ig r i d ) ”已经投入生产性使用,其主要用途是核武器 研究。美国国防部的“全球信息网格( g l o b a li n f o r m a t i o ng r i d ) ”项目是最 庞大的网格计划,用于美军新世纪作战支撑,预计2 0 2 0 年完成。欧洲共同体 的e u r o 网格和d a t a 网格,主要用于包括高能物理、生物计算、气候模拟等多个 领域的应用。英国政府已经投资1 亿英镑,用于研究“英国国家网格( n k n a t i o n a lg r i d ) ”。美国m i c r o s o f t 公司决定支援g l o b u s 计划。其线路是通 过n e t 计划和c # 语言实现万维网服务;m i c r o s o f t 还在开发全面支持网格的下 一代w i n d o w s 操作系统。 s u n 公司则通过o p e nn e t w o r ke n v i r o n m e n t ( s u no n e ) 计划和j a v a 平台实现网格计算。s u n 公司在2 0 0 0 年就启动了以网格引擎 ( g r i d e n g i n e ) 分布式资源管理软件为基础的开放源代码战略。 就像随处可见的电源一样,网格使得许多行业具有挑战性的问题得以完成和 实现。各种科研机构( 如t h eg l o b u sa n dl e g i o np r o j e c t ) 、商业机构( 如a v a k i 和p l a t f o r m ) 等早已意识到网格的重要性,并作了很大的投入。相互合作是提 升网格的必要条件,因此标准化的努力,如“全球网格论坛( g l o b a lg r i df o r u m ) ” 和“新生产力倡议组织( n e wp r o d u c t i v i t yi n i t i a t i v e ) ”等标准化机构已经变 得越来越重要了。以知名企业i b m 、s u m 、h p 、a v a k i 和p l a t f o r m 为代表的跨国 公司都已经成为其会员。 网格项目研究和实施均有一个显著的特点,即研究项目是直接面向应用的, 和应用领域紧密相关。尽管网格计算还远不如互联网和w e b 技术那么成熟,但是, 6 河海大学硕t 论文 第一章绪论 一些公司和研究机构已经进入了使用或试验阶段。i b m 公司部署了一个内部研究 网格,以便分散在美国、以色列、瑞士等地的i b m 研究人员共享计算资源。同时, i b m 推出一系列新产品支持网格计算的应用,还积极地与g l o b u s 这样的开放源 代码丌发团体和有影响力的行业标准组织“全球网格论坛”进行合作,共同推动 开放的协议。医药、化工、电子、通信、汽车等领域的一些大公司,如辉瑞、爱 立信、日立、宝马、联合利华、史克必成等,都已经开始构造和使用内部网格。”。 企业领域的应用是网格计算发展的一个重要方面,甲骨文公司的o r a c l el o g 数据 库软件是基于网格计算构建的,它的出现将推动网格计算在企业界的使用进程 砷】 o 在国内,我国科技部在“九五”开展了国家高性能计算环境( 网格) 的建设 和关键技术的研究。“十五”期间科技部加大了对网格计算研究和推广的力度, 目标是突破网格关键技术、建立网格计算标准,将网格计算应用到行业和企业应 用中,建立行业和企业应用网格,进一步加强全社会共享的国家高性能网格计算 环境的建设,推动我国网格产业的形成和发展。 总体上说,网格计算在我国还处于研究阶段,目前已经完成的网格研究项目 主要有清华大学的先进计算基础设施a c i ( a d v a n c e dc o m p u t a t i o n a l i n f r a s t r u c t u r e ) 和以中科院为主的国家高性能计算环境n h p c e ( n a t i o n a lh i g h p e r f o r m a n c ec o m p u t i n ge n v i r o n m e n t ) 。目前正在进行的网格研究项目有“中国 网格( c h i n ag r i d ) ”、“上海教育科研网格”、“仿真网格”、“织女星网格”等等。 另外,国内还有几十所大学和研究机构已经开展各种网格研究。同时,大量关于 网格研究的论文相继发表,关于网格研究的资源共享平台“中国网格信息中转站” 1 已经开通。 1 3 3 网格计算与数据挖掘 在国外,网格计算在数据挖掘领域中的应用很广泛,并且成为热点,例如欧 洲信息社会组织在2 0 0 6 年1 1 月份举办网格环境下的数据挖掘展览。“,将主要展 现数据挖掘网格项目。2 研究成果,这也无疑会推动网格计算在数据挖掘领域应用 的发展。具有代表性的几个著名应用项目分别是:药物发现的分布式计算分析 1 利用桌面网格计算进行药物分析;蛋白质信息计算分析3 利用网格 7 河海人学坝l 论文第一幸绪论 计算提供一个对主要基因组中蛋白质的结构化解释。这种解释主要使用复杂的异 体同形和折合认知方法将蛋白质安放到基因组中,并形成三维模型;数据挖掘 网格项目。“提供允许数据挖掘工具和数据源在分布式网格计算环境中进行 交互的网格接口,提供基于网格的文本数据挖掘工具、服务和接口,提供在各个 行业部门中的应用测试环境,包括生物信息、保健卫生、汽车制造等,将不断出 现的网格标准和基础设施集成到数据挖掘网格之中; 将网格计算应用于文本数据挖掘的研究项目也不断涌现,例如:数据挖掘 网格项目”“;生物医药文献数据挖掘项目”“旨在利用d i s c o v e r y n e t 和 m y g r i d 网格建立一个统一的、实时的e - s c i e n c e 文本数据挖掘基础设施,并用 于生物医药文献的挖掘;数据挖掘网格与文本数据挖掘项目嘲德国研究 机构a i s 利用网格计算进行文本分类、文本摘要研究等等。 随着国外对网格计算和数据挖掘的研究,国内近几年在此方面的研究也开始 少量出现,例如:文献。7 “给出了在o g s a 体系结构下的网格挖掘算法,文献删 从整体上讨论了网格计算对数据挖掘的支持,以及网格计算在解决数据挖掘问题 时的关键问题等。但是,他们都有一个共同的特点:重单一的算法研究或者总体 论述,完整的可供参考的系统模型比较少“”,而且,将文本数据挖掘同网格计算 结合起来的研究仅文献“”一篇。该文章对网格与文本分类的研究主要建立在墨尔 本大学开发的a l c h e m i “”平台上,其由m a n a g e r 与e x e c u t o r 两部分组成,此平 台非常简单易用。m a n a g e r 接收用户任务并指派给e x e c u t o r ,e x e c u t o r 没有可 配置性,所以只负责计算。该文章构建的系统对m a n a g e r 的要求非常高,要处理 几乎全部的工作,而e x e c u t o r 只负责开启一个线程计算文本向量间的相似度; 系统可扩展性、灵活性差,而且文章并未对e x e c u t o r 的数量与分类速度间的关 系做进一步研究。 1 4 研究内容、方法及技术路线 1 4 1 研究内容 论文力图通过对网格计算和文本数据挖掘的研究,构建一个基于网格的文本 分类挖掘系统模型和基于网格的文本数据仓库集成模型。通过对文本数据挖掘算 8 河海人学硕i :论文第一章绪论 法和网格计算特点的研究,提出适用于网格计算的基于词频、词语的首现位置和 词长的综合权重算法,并以此为基础设计了基于网格计算的文本分类挖掘系统模 型( g t d m s ) 。与此同时,构建了基于网格计算的分布式文本数据仓库的集成分 析模型( g t d w m ) 。最后以电信c r m 抱怨系统为例,实现g t d m s 和g t d w m 原型系统,并进行仿真实验和分析。论文的研究内容主要包括以下几部分: 第一,研究了文本数据挖掘及网格计算的关键内容,深入研究了文本挖掘的 特点及网格计算对文本分类的支持,做好本文原型系统开发的技术准备。 第二,提出了两个新的评价文本分类系统的指标,并依据评价指标的对传统 分类算法进行比较研究,提出了确定词条权重的单文档综合权重算法,并基于此 设计了基于桌面网格的文本分类算法。 第三,针对当前分布式存储的海量文本分类挖掘系统效益低、重挖掘轻分析、 集成度差的问题,构建了文本数据仓库模型,设计了基于网格分布式文本数据仓 库的集成分析模型。 第四,实现了基于桌面网格的文本分类原型系统,将其成功应用到电信c r m 客户抱怨系统,并做了实验研究与分析。同时,实现了基于网格分布式文本数据 仓库集成分析的原型系统。 最后,笔者对论文的主要观点进行了总结,同时指出本研究的不足和今后努 力的方向。 1 4 2 研究方法 论文主要采用了文献阅读法、对比分析法、实验分析法以及规范研究与实证 研究相结合,人工智能学和计算机学方法理论交叉结合的研究方法。 在着手论文写作之前,本人通过文献阅读搜集了与论文相关的资料,为论文 的写作做好铺垫。 在论文的写作过程中实证分析与规范分析是两种最基本的方法。前者关注 “是什么”,而后者要解决“应该怎样”。本论文的研究中,既涉及到了“是什么” 的问题( 网格计算、文本数据挖掘、综合权重算法、文本分类挖掘系统评价标准、 分布式文本数据等) ,又讨论了“应该怎样”的问题( 怎样将文本分类算法应用 于网格环境、怎样构建基于网格计算的分类挖掘系统与分布式文本数据仓库集成 9 河海大学硕i :论文 第一章绪论 分析系统、怎样用网格计算提升文本挖掘系统效益等) 。 提出适用于网格计算的改进算法与构建基于网格的文本分类挖掘模型是本 研究的重点,系统模型的实现及实验分析是论文实用价值的体现。 人工智能学和计算机学是当前科学技术类学科中的前沿学科,一定程度上代 表了人类科技进步发展的水平。在论文实现机制的研究中既要运用人工智能的知 识模式识别,又要运用计算机学科的知识o g s a 网格计算、甜编程语 言。所以,论文在进行研究过程中,常需要将这两个学科的知识进行综合运用, 借鉴其中的方法和工具。 1 4 3 技术路线 本文是源于i n t e m e t 和c r m 中对文本挖掘的实际需要,基于理论与应用实践 的基础上衍生而来的。在对与论文相关的文本数据挖掘技术和网格计算进行研究 后,本文首先提出评价文本分类挖掘系统的评价标准,在此标准基础上对比分析 了传统算法在处理海量文本数据的能力与不足。接着,提出改进的综合权重算法 以适用于处理海量文本数据。随后,本文以处理分布式海量文本数据为基本点, 研究了以改进的综合权重算法为基础的、更有优势的基于网格计算的 m a s t e r - w o r k e r 模式的文本挖掘原型系统,而且对分布式文本数据仓库集成分析 模型进行了初步探讨与实现。最后,通过对实验结果的分析证明了本文构建模型 的正确性、有效性和实用性。本文的技术路线如图1 1 所示。 1 0 河海大学硕t 论文 第一章绪论 文献综述及研究问题的提出 文本分类挖掘的概念、内容、特点、过程网格技术的概念、体系结构、应用模型 州格技术对文本分类挖掘的支持 网格技术对分m i 式数据仓库集成的支持 提出海量文本分类挖掘系统评价标准 对比分析传统文本分类算法 提出能够高效率处理海量文本数据的 综合权重算法 研究基于网格计算的m a s t e r w o r k e r 模式的 文本分类挖掘系模型 1 5 本文的创新点 研究基于 【呵格计算的分布式文本数据仓库 集成模型 实现棘型系统 分析实验结果证明模型的价值 图1 1 技术路线图 本文研究的主要创新点如下: 1 ) 提出评价文本分类系统的两个新指标:系统容量和总体拥有成本;在国 内外相关研究中,此两指标未曾用于评价文本分类系统。 2 ) 依据评价指标,提出确定词条权重的综合权重算法,并以此为基础提出 基于网格的分类算法;设计实现基于网格的文本分类原型系统,该系统同文献1 相比,灵活性更好,并行度更高,可用性、可扩展性、可管理性更强。 3 ) 研究文本数据仓库,提出基于网格的分布式文本数据仓库集成方案。 4 ) 构建基于网格计算的分布式海量文本数据挖掘体系结构 5 ) 研究分类网格效率问题,给出可能的改进方案,为进一步研究打下基础。 河海人学硕十论文 第一章绪论 1 6 本文的组织结构 第一章绪论 简要介绍本文的研究背景、选题依据,研究目的及意义,以及文献综述, 并给出文章的主要研究内容、方法和技术路线。 第二章文本挖掘、网格计算及数据仓库 详细分析文本数据挖掘的特点,网格计算的本质特征及其体系结构,以 及网格计算对文本分类与分布式数据集成的支持。 第三章基于网格计算的文本分类挖掘算法研究 分析了文本挖掘系统的传统评价标准,提出了两个新评价标准,并评价 了三种分类算法的适应性,最后研究了基于桌面网格的文本分类算法及 系统。 第四章基于网格计算的文本分类挖掘体系研究 研究了基于网格的文本数据挖掘模型、文本数据仓库集成模型,并构建 了基于网格计算的文本分类挖掘体系结构。 第五章基于网格计算的文本分类挖掘在电信c r m 中的应用 分析了当前电信c r m 的现状,提出了其对文本分类挖掘的需求带别 是客户抱怨系统,并成功地将基于网格计算的文本分类挖掘体系结构应 用于其中。 第六章结论与展望 总结全文并提出进一步要完成的工作。 河海大学硕j :论文 第二章文本数据挖掘、网格计算及数据仓库 第二章文本挖掘、网格计算及数据仓库 2 1 文本数据挖掘 文本数据挖掘“1 可以定义为提取散布于文本中新的、合理的、对于未来行为 具有指导意义的知识的过程,通过组织和运用这些知识可以为未来决策提供有价 值的参考信息。 文本数据挖掘处理的是非结构化的文本,经常使用的方法来自于自然语言理 解和文本处理领域,发现的知识往往不是精确的数据,而是定性的规则。 2 1 1 文本数据挖掘的内容和方法 文本数据挖掘的内容是对大量的文档集合进行特征表示、自动摘要、分类分 析、聚类分析、关联分析以及利用文档的分布进行趋势预测等。 1 特征表示 特征表示是指以一定的规则和描述来表示文档,是文本挖掘的基础。“。文 本特征指的是关于文本的元数据,分为描述性特征,例如文本的名称、大小、类 型等:以及语义性特征,例如文本的作者、机构、标题、内容等。描述性特征易 于获得,而语义性特征则较难得到。近来w 3 c $ ) j 定的x m l ,r d f 等规范提供了对w e b 文档资源进行描述的语言和框架。在此基础上,可以从半结构化的w e b 文档中提 取作者、机构等特征。 对内容这个难以表示的特征,首先要找到一种能够被计算机处理的表示方 法。由g e r a r d 向s a l t o n 和m cg 订1 与1 9 6 9 年提出的向量空间模型( v e c t o rs p a c e m o d e l ,v s m ) 是近年来应用较广而且效果好的方法之一。在该模型中,文档集 被看作是由一组正交词条向量构成的向量空间,每个文档d 对应其中的一个规 范化向量v ( d ) l i ,w ,( d ) “z ,w a d ) ;以,( d ) 】,其中t ,为词条项,( d ) 为f , 在d 中的权重。可以将d 中出现的所有单词作为r ,也可以要求t ,是d 中出现的 所有短语,从而提高内容特征表示的准确性。( d ) 一般定义为r 。在d 中出现的 阿海人学顾l j 论文第二章文本数据挖掘、州格计算度数据仓库 频率t f , ( d ) 的函数,即( d ) = 妒似) ) ,常用的妒函数有:简单行尔函数 妒= 估馏:1 0 、平方根函数妒一厕、对数函数t p * l 0 9 2 ( 删) + 1 ) 、 t f * i d f 函数( 可有多种) 州) 。覆t f 丽( t , d ) 萧xl092菰(nn丽,+001) ( 2 1 ) 其中n 为训练文档集的数目,n 为含有词条f ,的文档数目。 2 自动摘要 自动摘要属于基于单文档数据挖掘的范畴”1 。文本自动摘要是指从文档中抽 取关键信息,用简洁的形式对文档内容进行摘要或解释。通过文本摘要,用户不 需要浏览整个文档就可以了解文档或文档集的总体内容。 3 分类分析 文本分类分析“”是依据一定的分类体系或标准,将文档自动标记为某一类别 的过程,属于同一类别的文本被标上相同的类别标记,为文本信息的处理提供系 统化解决方案。文本分类的一个关键问题是:特征词的选择及权重分配。为此需 要在已有数据的基础上构造出一个分类模型,即分类器。分类器一般分为单文档 分类器和基于训练文档集合分类器两种。基于规则的文档分类器“”属于前者,其 他绝大多数分类器属于后者。分类器一般分为训练和分类两个阶段,无论是单文 档分类器还是基于文档集合的分类器,都需要通过训练阶段来获取确定主题类别 的词条及其权重。由于分类可以在较大程度上解决目前文本信息杂乱的现象,方 便用户准确地定位所需要的信息和分类信息,因此,文本自动分类已成为一项具 有较大实用价值的数据挖掘技术,是组织和管理文本数据的有效手段。 文本分类规则是系统根据已经掌握的若干分类样本,总结出分类的规律性而 建立的判别公式和判别规则,在遇到新文本时,根据总结出的判断规则,确定文 本的所属类别。通过分类,用户不但能够方便地浏览文档,而且可以通过限制类 别范围使得文档的查找更容易。 4 聚类分析 文本聚类”1 的目标是将文档集合分成若干个簇,要求同一个簇内文档内容的 相似度要尽可能大,而不同簇l 日j 的相似度尽可能小,即实现文档的“物以类聚”。 1 4 河海人学硕上论文第一二章文本数据挖掘、网格计算及数据仓库 5 关联分析 关联分析是指从文档集合中找出不同词语之间的关系。关键词的关联分析 有助于找出符合的关联,即领域相关的词或词组。 6 趋势预测 分布分析与趋势预测是指通过对文档的分析,得到特定数据在某个历史时刻 的情况或者将来的取值趋势,进而采取防范与控制措施。 2 1 2 文本数据挖掘的过程 文本数据挖掘的一般过程”1 可以用图2 1 概括描述。首先对待分析的文本进行 预处理去掉禁用词语,然后把文本切分成词条。接着建立挖掘对象的特征表 示,一般采用特征向量。特征向量的约减处理是文本挖掘处理过程中必不可少的 一个环节。在完成特征向量纬数的缩减后,便可以利用机器学习的方法提取面向 特定应用的知识模式。最后,对获取的知识模型进行质量评价,若评价的结果满 足一定要求,则存储知识模式,否则返回到以前的某个环节分析改进后进行新一 轮的挖掘工作。 兰州兰挈兰h 芸h 蒌攀奎h 竺攀兰h 竺攀兰h 苎孥兰隧鸳 图2 1 文本挖掘的一般过程 2 1 3 文本数据挖掘的特点 文本数据挖掘系统由于其处理的数据是文本数据,所以文本数据挖掘拥有如 下特点: 1 半结构化或非结构化 挖掘对象为结构隐含、松散,相对比较难以处理的文本数据。文本数据可以 分为描述信息( 如文本名称、日期、大小、来源、文档格式等) 和语义信息( 文 本的作者、机构、标题、内容等) 。 2 来源广 河海人学硕i :论文第一二章文奉数据挖掘、叫格计算发数据仓库 文本数据的来源从种类角度来分,包括:企业运营系统数据库结构化数据、 电话录音、e m a i l 系统、网络留言、手机短信、纸质信函等等。从文本数据来源 的地点角度来分,包括:本地数据文件、远程数据文件。本地数据文件,指存在 于本地系统的文件。远程数据文件,指存放在同一个组织内部,在地理上分布于 各个地点系统中的文件;例如,电信企业各地的客户服务中心的客户投诉数据, 当把它们整合到起的时候,这些文件就是属于远程数据文件。 3 数量大 随着网络技术和客户关系管理的不断发展以及企业对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 夫妻离婚协议违约金执行程序及违约责任合同
- 离婚房产赠与及婚后财产分割协议范本
- 夫妻双方基于情感破裂离婚及子女抚养、财产分配协议
- 生态工业园区厂房租赁及绿色设备共享协议
- 住宅小区绿化带租赁合同续签及绿化养护服务协议
- 离婚协议书模板:婚姻关系终止与财产分配方案
- 《家庭变革真相:离婚协议全文阅读与青苔条款分析》
- 离婚时宅基地房屋分割、共有权处理及财产分配协议
- 2025年节目互动题目题库及答案
- 2025年一级建造师考试题库及答案
- otc药品管理办法
- 康复医学科病历书写规范与质量控制
- 商用厨房设计汇报
- 战术搜索教学课件
- 教科版五年级科学上册第一单元《光》测试卷及答案(含四题)
- Linux操作系统基础任务式教程(慕课版)课件 任务4 使用Linux操作系统中的硬盘
- 自控系统报警管理制度
- 口腔服务5S管理
- 保安投诉管理制度
- 2025年高考江苏卷物理真题(原卷版)
- 【公开课】种子植物+第2课时课件-2024-2025学年人教版生物七年级上册
评论
0/150
提交评论