已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)文本挖掘及其在多文化交流平台中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
皇查奎耋丝圭兰竺兰耋 竺兰 文本挖掘及其在多文化交流平台中的应用 计算机应用技术专业硕士研究生唐明 指导教师张自力教授 摘要 多文化交流平台( i n t e r c u l t u r a lc o ll a b o r a t i o ne n v i r o n m e n t ,i c e ) 是一项由亚洲 多个国家共同参与的国际合作项目,其目标是利用机器翻译及其他相关技术,使得亚洲各国 的用户可以通过互联网用自己的母语进行交流。目前,项目组从成立之初的i c e 2 0 0 2 发展到 现在的i c e 2 0 0 5 ,已吸引了亚洲多所大学与科研机构的合作参与,项目组已经开发出 t r a n s b b s 、a n n o c h a t 等在线交流工具可以实现简单的在线多语交流,并先后在亚洲各国 间进行了大规模的在线多语交流测试。然而,测试表明,使用a n n o c h a t 互动交流过程中双 方对翻译结果的可理解程度还有待提高。 为了改进翻译质量,提高用户对a n n o c h a t 翻译结果的可理解程度,我们研究小组提 出了一个基于本体的i c e 系统框架,并实现了基于该系统框架的原型系统o b i c e s ( o n t o l o g y b a s e di c es y s t e m ) 。该系统集成了本体、智能a g e n t 、文本挖掘三大模块,作 为对a n n o c h a t 的有益补充。本文工作主要集中在文本挖掘模块。 在o b i c e s 系统中,文本挖掘模块主要完成两方面的工作:对在线聊天文本进行语义 挖掘,协助a g e n t 进行语义选择:对聊天事务数据库中历史文本进行语义和主题挖掘。这两 方面挖掘得到的知识均放入聊天知识库,并进一步改进、修正和精化用于提供背景知识支撑 的领域本体。 在进行文本挖掘过程中,根据在线聊天文本的特点,本文对文本特征选取算法t f i d f ( t e r mf r e q u e n c yi n v e r s ed o c u m e n tf r e q u e n c y ) 作了改进,提出r 一种动态定义窗口大 小进行文本挖掘的方法,并通过实验验证了该方法有利于提高文本挖掘的效果和质量。 论文最后通过对比使用o b i c b s 系统前后,用户对a n n o c h a t 翻译结果在关键词、语句、 主题等方面的正确理解数据,验证了o b l c e s 系统有利于提高用户对a n n o c h a t 翻译结果的可 理解程度。 关键词:文本挖掘t d i d f 文本分类本体 皇童叁兰堡兰兰竺垒圣 ! ! 尘兰! t e x tm i n i n ga n di t sa p p l i c a t i o ni nt h e i n t e r c u l t u r a lc o u a b o r a t i o ne n v i r o n m e n t m a s t e rc a n d i d a t eo fc o m p u t e ra p p l i c a t i o nt e c h n o l o g y :t a n gm i n g s u p e r v i s o r :p r o f z h a n gz i l i a b s t r a c t i n t e r c u l t u r a lc o l l a b o r a t i o ne n v i r o n m e n t ( i c e ) i saj o i n tr e s e a r c hp r o j e c to f u n i v e r s i t i e s ,r e s e a r c hi n s t i t u t e s ,a n dr e s e a r c hs o c i e t i e si na s i a t h eo b j e c t i v eo fi c e i s t o s u p p o r ti n t e r c u l t u r a la n dm u l t i l i n g u a lc o l l a b o r a t i o n su s i n gm a c h i n et r a n s l a t i o n t e c h n o l o g i e s ( m t ) i c es t a r t e df r o m2 0 0 2h a sa t t r a c t e dm a n yu n i v e r s i t i e s ,r e s e a r c h i n s t i t u t e s ,a n dr e s e a r c hs o c i e t i e si na s i a t h et r a n s l a t i o nt o o l ss u c ha st r a n s b b s ,a n n o c h a t ,w h i c hw e r ed e v e l o p e db y i c eg r o u p ,a l ea b l et ot r a n s l a t em e s s a g e sa m o n gc h i n e s e ,e n g l i s h ,j a p a n e s e ,a n d k o r e a n ,t h eo u t c o m eo ft h et e s ts u g g e s t e dt h a tt h ec o m p r e h e n s i b i l i t ys h o u l db e i m p r o v e d t oi m p r o v et h em u t u a lu n d e r s t a n d i n go fu s e r su s i n gt h e i rn a t i v el a n g u a g e si na s i a ,a n o n t o l o g y b a s e d i c ef r a m e w o r kw a sp r o p o s e di nw h i c ho n t o l o g y ;a g e n ta n dd a t a m i n i n g t e c h n i q u e sw e r ei n t e g r a t e d ap r o t o t y p ec a l l e do b i c e s ( o n t o l o g y - b a s e di c es y s t e r r nw a s i m p l e m e n t e db a s e do nt h ep r o p o s e df r a m e w o r k w i t h t h es u p p o r to ft h i sf i a m e w o r k , t h e t r a n s l a t i o nr e s u l t so fa n n o c h a ta l ee a s i e rt ob eu n d e r s t o o d t h ew o r ko ft h i st h e s i si sf o c u s e do n t h et e x tm i n i n gm o d u l e t h e r ea r et w om a i nt a s k si nt h et e x tm i n i n gm o d u l eo fo b i c e s :f i r s t l y , m i n i n gt h es e m a n t i c so ft h eo n l i n ec h a tt e x ti n s t a n t l ya n da s s i s t i n ga g e n t st om a k e t h e s e m a n t i cc h o i c e ,s e c o n d l y , m i n i n gh i s t o r i ct e x ts e m a n t i c sa n dt h e m ei nt h ec h a t d a t a b a s e t h ek n o w l e d g em i n e db yt h et w ot a s k ss h o u l db es a v e di nt h ec h a t k n o w l e d g ed a t a b a s ea n di t i sa l s ou s e dt or e v i s ea n dr e f i n et h ed o m a i no n t o l o g y w h i c hi su s e dt op r o v i d eb a c k g r o u n dk n o w l e d g ef o rt h eu s e r s t h i sr e s e a r c hi m p r o v e dt h et e r mf r e q u e n c yi n v e r s ed o c u m e n tf r e q u e n c yi nt h e t e x tm i n i n gp r o c e s sa c c o r d i n gt ot h ec h a r a c t e ro ft h eo n l i n ec h a tt e x t ,a n dp r o p o s e da 皇妻垒兰丝圭茎! 圭丝圣垒! :! 呈呈 t e x tm i n i n gm e t h o dt od e f i n et h ed y n a m i cw i n d o ws i z e a c c o r d i n gt ot h ec h a r a c t e r i s t i c so ft h eo n l i n ec h a tt e x t ,ad y n a m i cw m d o ws i z e t e x tm i n i n gm e t h o dw a sp r o p o s e d ,w h i c hi sb a s e do nt h et e r mf r e q u e n c yi n v e r s e d o c u m e n tf r e q u e n c ya l g o r i t h m t h em e t h o dh a sb e e nv e r i f i e db ye x p e r i m e n t t h e e x p e r i m e n t a lr e s u l t ss h o wt h a ti tc a ni m p r o v et h ee f f e c ta n dq u a l i t yo ft h et e x tm i n i n g b yc o m p a r i n gt h er e s u l t so ft h ec o m p r e h e n s i b i l i t yo fk e y w o r d s ,s e n t e n c e sa n d t h e m ew i t ha n dw i t h o u tt h es u p p o r to fo b i c e s ,i ti si d e n t i f i e dt h a to b i c e sc a n i m p r o v et h ec o m p r e h e n s i b i l i t yo ft h et r a n s l a t i o nr e s u l t so f a n n o c h a t k e y w o r d :t e x tm i n i n g ,t f i d et e x tc a t e g o r i z a t i o n ,o n t o l o g y 独创性声明 学位论文题目:塞查搀摭超基奎垒塞丝塞速垩盒生煎廛攫 本人声明所譬交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得西南大学或其他教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 学位论文作者: 声卅嗵 签字日期:矽多年,月,日 学位论文版权使用授权书 本学位论文作者完全了解透南大学有关保留、使用学位论文的规 定,有权僳留并向鹜家有关部门或枫构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人授权西南大学研究生院可以将学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:口不保密, 口保密期限至年月止) 。八 , 学雠文储张库嘲导师鲐夕 签字日期:二一谚年,月,日、签字日期:加t 形年,月,日 学位论文作者毕业后去向: 工作单位:亟盎焘鲎进篡垫盏焦塞壁堂堂睦电话:fq 211 i ! 2 ! ! 通讯地址:耍壶盍堂盐簋扭是焦! 曼叠堂堂瞳邮编:! q q 21 第1 章绪论 1 1 论文选题背景与意义 1 1 1 多文化交流平台简介 人类因思想的沟通而衍生智慧,商品因货物的流通而产生贸易。社会因思想 的交流,货物的交换而逐步发展。从信使到网络,从封关自闭到地球村概念,没 有沟通就没有进步,没有交流就没有发展。2 l 世纪是全球高速信息化时代,人 们更需要高质量、高速度的信息交流。 随着人与人之间交流的推进,这种交流的范围越来越大,它可能是在朋友、 同事之间的交流,也可能是在不同国家、地区之间的跨文化交流。跨文化交流按 照不同的标准可以分为不同的类型和层次。如从文化人类学的角度,跨文化交流 可以分为种族间的交流、民族问的交流、国际间的交流和同一文化内部不同亚文 化的交流。从传播范围角度,则可以分为跨文化人际交流、跨文化组织交流和国 家间的跨文化交流【lj 。跨文化交流涉及三个基本的要素是:认知要素、言语语言 要素和非言语语言要素【2 j 。 在跨文化传播方面,各国学者已经开展了很多研究,其研究的角度有大众传 播、人际传播、组织传播、营销传播等多方面,也提出了“区分文化价值观的四 个维度”、“语境”等重要概念。这些研究成果,为我们研究网络中存在的跨文化 传播问题,提供了一个很好的基础。然而,目前直接针对网络进行的跨文化传播 研究与分析还比较少。 网络是集人际传播、群体传播、组织传播与大众传播于一体的全球性传播媒 介,为不同国家、不同民族之间的交流,带来了前所未有的便利,大大扩展了跨 文化传播的场合与范围。 然而,基于网络的跨文化传播存在诸如语言障碍这样的问题,为解决这个问 题,日本京都大学的t o m l s h i d a 教授在2 0 0 2 年提出了多文化交流平台项目,名 为i c e 2 0 0 2 【3 】,i c e ( i n t e r c u l t u r a lc o l l a b o r a t i o ne n v i r o n m e n t ,多文化交流平台) 是一项出亚洲多个国家共同参与的国际合作项目,其目标是利用机器翻译及其他 相关技术开发一种在线交互平台,使得亚洲各国的用户可以通过互联网用自己的 母语进行交流。一方面,在亚洲国家,不同语种的人们之间的交流往往通过第三 方语言如英语进行,但多数人更习惯于用母语交流,用其他语种交流通常会有一 些障碍,人们常常会因为语言交流的障碍而不愿意去了解对方的文化背景、习惯 西南太学硕士擘住论文 第1 章绪论 信仰等信息,这种了解的缺失往往是引起不同国度、不同民族问冲突的起因之一; 另一方面,亚洲各国文化有着深远的历史积淀,需要人们更进一步地继承和发扬, 并把这种文化底蕴传播到更多的国家和地区,而这种传播往往需要人们进行深入 的交流。同时,不同国度、不同民族的人们之间通过交流可以消除不同文化背景 下人们之间的误解,有利于促进社会更大的进步【4 l ,但不同国度的人们之间的交 流往往通过第三方语言( 如英语) 来进行,这相对于母语交流来说,有很大的限 制。因此,如果开发一种平台,让不同语种的人通过该平台用母语进行交流,将 对人们之间的交流提供良好的帮助【5 】,i c e 就是在这一背景下提出的。目前,项 目组从成立之初的i c e 2 0 0 2 发展到现在的i c e 2 0 0 5 【6 l ,已吸引了诸如日本的京都 大学、东京大学、n 兀,中国的上海交通大学、西南大学,韩国的汉城国立大学、 h a n d o n g 大学、马来西亚大学以及泰国的c o m p u t a t i o n a ll i n g u i s t i c sl a b o r a t o r y 等 众多大学与科研机构的合作参与,项目组已经开发出诸如t r a n s b b s 、a n n o c h a t 等在线交流工具f l ,可以实现简单的在线多语交流,并先后在亚洲各国间进行了 大规模的在线多语交流测试。然而,就测试结果来看,互动交流过程中双方对翻 译结果的可理解程度还不尽如人意,例如2 0 0 5 年6 月在日本和中国使用 a n n o c h a t 在线多语交流的测试中,双方对交谈内容的可理解程度在8 0 左右。 因此,利用其他计算机技术改进机器翻译的质量,提高对翻译结果的可理解程度, 对实现该项目具有积极作用。 1 1 2 选题意义 因特网的普及促进了国际合作和交流。与北美和欧洲联合组织迅速发展的情 况相比,亚洲各国之间在这方面明显落后。加强亚洲国家间的交流与合作是一个 迫切的问题,然而,语言障碍却限制了各国之间的合作。一方面,亚洲人彼此间 通常不清楚对方国家的语言,写作时又都习惯用自己的母语来表达,因而,语言 障碍严重地束缚了亚洲各国之间的交流,如何克服这一障碍是推动亚洲各国间广 泛合作的关键所在,另一方面,亚洲国家的文化有深远的历史沉淀,往往很难通 过第三方语言来进行表达,并且各国文化也应该在国际舞台占有一席之地。对于 前者,我们认为,解决这一问题的一个有效途径是以机器翻译技术作为沟通的桥 梁。 作为整个项目的第一步,i c e 计划倡导一个由亚洲多个国家共同参与的开源 软件开发实验,实现一个统一的多语交流平台;第二阶段才是最终目的通过 多文化( 多语言) 交流,弘扬哑洲文化。 在该项目的研究过程中,我们发现,通过a n n o c h a t 在线多语交流时,人们 西南大学砸士学拄论文 第1 章绪论 往往对有多义词的语句难以理解( 如2 0 0 5 年6 月的实验中,中文的“应用领域” 被a n n o c h a t 翻译成了日文的“应用软件运动场”,这种翻译结果显然 止人难以 理解) ,这主要是因为传统机器翻译技术对于恰当选择多义词的词义效果不够理 想造成的。因此,如何实时挖掘当前聊天文本语义并有效消除多义词歧义,成为 提高对a n n o c h a t 翻译结果可理解程度的重要途径之一。 在研究中我们发现,o n t o l o g y 对于解决消除语义模糊问题具有积极作用,因 而,我们计划在传统机器翻译技术基础之上建立一个o n t o l o g y 作为背景知识库, 并辅以a g e n t 技术、数据挖掘技术协助a n n o c h a t 进行多义词的正确语义选择, 以提高a n n o c h a t 翻译结果的可理解程度,进而推动整个i c e 项目的发展,为亚 洲各国人们通过互联网进行进一步交流提供一个更好、更强壮的交流平台。 然而,要想构建一个完善的o n t o l o g y 非常不易,某个特定领域的o n t o l o g y 将是一个庞大的语义网络,使用手工构建一个完善的o n t o l o g y 几乎不可能完成, 因而,我们计划在一个较小的领域来构建一个较小的o n t o l o g y ,用来验证其消除 语义歧义的作用。 面对这一问题,一个极富挑战性的课题是:在聊天过程中,如何在o n t o l o g y 背景知识库支撑下实时挖掘当前聊天文本语义,协助a n n o c h a t 进行正确的语义 选择,消除聊天文本中关键词的歧义:如何帮助人们利用已有交流信息事务数据 库中的文本信息,从中发现相关的知识,有效地选择和利用这些知识来修正、改 进和精化特定的o n t o l o g y 。本项目研究工作中,我们利用文本挖掘技术来解决这 一重要课题。 1 2 国内外研究现状 1 2 1 数据挖掘 数据挖掘( d a t am i n i n g ,简称d m ) 又称数据库中的知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e k d d ) ,d a v i dh a n d 等人将其定义为:数据挖掘就是对观测 到的数据集( 经常是很庞大的) 进行分析,目的是发现未知的关系和以数据拥有 者可以理解并对其有价值的新颖方式来总结数据【8 l 。其任务主要包含探索性数据 分析、描述建模、预测建模、寻找模式与规则和根据内容检索,它是数据库研究 中的一个很有应用价值的领域,融合了数据库技术、人工智能、机器学习、统计 学等多个领域的理论和技术【9 l 。 研究数据挖掘的历史,可以发现数据挖掘的快速增长是和商业数据库的空前 速度增长分不开的,并且九十年代较为成熟的数据仓库正同样广泛地应用于各种 商业领域。从商业数据到商业信息的进化过程中,每一步前进都是建立在上一步 的基础上的”l 。 常用的数据挖掘技术可以分成统计分析类、知识发现类和其他类型的数据挖 掘技术三大类i ”j 。统计分析( 或称数据分析) 技术中使用的数据挖掘模型有线性 分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间 序列分析、最近邻算法和聚类分析等技术。利用这些技术可以检查那些异构形式 的数据,然后利用各种统计模型和数学模型解释这些数据,解释隐藏在这些数据 背后的知识、规律和趋势。知识发现类数据挖掘技术可以从数据仓库中的大量数 据中筛选信息,寻找市场可能出现的运营模式,发掘人们所不知道的事实。知识 发现类数据挖掘技术包含人工神经网络、决策树、遗传算法、粗糙集、规则发现 和关联顺序等。除了上述数据挖掘技术以外,还有其他数据挖掘技术,其中包含 可视化系统、文本挖掘、w e b 挖掘、分类系统、空间数据挖掘和分布式数据挖掘 等。下面就主要的数据挖掘技术和特点进行阐述。 1 线性回归分析 线性回归仅包含一个预测目标和一个预测属性。这两者之间的关系可以绘制 一个二维空间:沿着轴绘制( 轴绘制表示预测值的记录值) 预测属性值。这样的回 归模型可被视为一条曲线,该曲线用于最小化实际预测值和线上点( 从模型上得 到的预测值) 之间的错误发生率。在经过数据所画的许多曲线中,曲线和数据点 距离最小的那条曲线被选为预测模型i ” 。 2 最近邻算法 用最近邻算法进行预测的基本概念是相互之间“接近”的对象具有相似的预 测值3 1 。如果知道其中一个对象的预测值后,可以预测其最近的邻居对象。这 种最近邻的概念往往和人们能将对象进行合理排序的能力有关。 3 神经元网络技术 它模拟人脑神经元结构,以m p 模型和h e b b 学习规则为基础,用神经网络 连接的权值表示知识,其学习体现在神经网络权值的逐步计算上。目前主要育三 大类神经网络模型4 1 :前馈式网络、反馈式网络和自组织网络。 4 决策树 在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类代 表不同的类别。由于分类规则是比较直观的,因而比较易于理解。然在机器获取 领域内,多年来己研制出不少实施决策树的有效算法( 如1 1 3 3 及其改进算法等) , 这种方法限于分类任务【1 ”。 5 遗传算法 西南大学硕士学住论支 第1 幸绪论 这是一种模拟生物进化过程的算法,最早由h o l l a n d 于2 0 世纪7 0 年代提出。 它是基于群体的、具有随机和定向搜索特征的迭代过程,这些过程有基因组合、 交叉、变异和自然选择4 种典型算子。 遗传算法作用于一个由问题的多个潜在解( 个体) 组成的群体上,并且群体 中的每个个体都由一个编码表示,同时每个个体均需依据问题的目标函数而被赋 予一个适应值。另外,为了应用遗传算法,还需要把数据挖掘任务表达为一种搜 索的问题以便发挥遗传算法的优势搜索能力【l “。 6 粗集方法 它是1 9 8 2 年由波兰逻辑学家p a w l a k 提出的一种全新的数据分析方法。近年 来在机器学习和k d d 等领域获得了广泛的重视和应用。这种粗集方法是研究信 息系统中不确定、不精确问题的有效手段,其基本原理是基于等价类的思想,而 这种等价类中的元素在粗集中被视为不可区分的,其基本方法是首先用粗集近似 的方法来将信息系统( 关系) 中的属性值进行离散化;然后对每一个属性划分等 价类,再利用集合的等价关系来进行信息系统( 关系) 的约简;最后得到一个最 小决策关系,从而便于获得规n t l 7 】。 7 可视化技术 即采用直观的图形方式来将信息模式、数据的关联或趋势呈现给决策者,这 样决策者就可以通过可视化技术来交互地分析数据关系,而可视化技术主要包括 数据、模型和过程方面的可视化,其中,数据可视化主要有直方图和散点图;模 型可视化的具体方法则与数据挖掘采用的算法有关,例如,决策树算法采用树形 表示:而过程可视化则采用数据流图来描述知识的发现过程甜。 8 文本挖掘 文本挖掘( t e x tm i n i n g ) 是数据挖掘的一个研究分支( 详细描述参见“1 2 2 文本挖掘”) 。 9 w e b 数据挖掘 w e b 数据挖掘可分为三类:内容挖掘、使用挖掘和结构挖掘。w e b 内容挖 掘是对w e b 页面内容进行挖掘,w e b 使用挖掘是对用户访问w e b 时在服务器方 留下的访问记录进行挖掘,w e b 结构挖掘是对页面之间的结构进行挖掘。m 1 1 0 分布式数据挖掘 分布式数据挖掘是基于分布算法从分布式数据库中挖掘知识的技术1 2 0 。分 布式数据挖掘技术主要用于对水平方式分布或垂直方式分布的数据库系统中数 据的挖掘。水平分布式数据挖掘算法只需要首先完成各个站点的局部数据分析, 构建局部数据模型,最后,组合不同数据站点上的局部数据模型,获得全局数据 西南大学硕士学位论文 第1 章绪论 模型即可。垂直式分布的数据库系统,则需要采用汇集型数据挖掘方法来实现。 分布式数据挖掘将更加有利于埘分布式数据库数据资源的利用。 1 2 2 文本挖掘 、在现实世界当中,可获得的大部分信息是存储在文本数据库中,有数据表明, 8 0 的电子化信息是文本的,由于文本类型数据缺乏严格的结构,缺乏组织的规 整性,因此,人们对它的利用率很低。如何发现大量文本信息内的知识,将对我 们有效利用文本信息资源具有十分重要的意义,基于此,文本挖掘( t e x tm i n i n g ) 应运而生,它采用数据挖掘的相关方法,以及自然语言处理、信息检索和知识管 理等领域的技术来处理和分析无结构或半结构的文本,提取其中潜在的有价位的 知识,我们就可利用这些知识进行文档信息检索、文档分类等各方面的应用。从 发现数据间的相互关系这一点上来看,文本挖掘和数据挖掘有很大的相似性,但 文本挖掘处理的对象主要是大量的、无结构或半结构( 如h t m l 、x m l 文本、自然 语言文本、电子邮件等) 的文本信息。可以认为文本挖掘是数据挖掘领域的一个 新兴分支。 在1 9 9 8 年底,我国国家重点基础发展规划首批实施项目中,就把文本挖掘 列为“图像、语音、自然语言理解与知识挖掘”中的重要内容。目前己有一些技 术得到了发展,如信息分类( i n f o r m a t i o nc l a s s i f i c a t i o n ) 、信息检索( i n f o r m a t i o n r e t r i e v a l ) 和信息过滤( i n f o r m a t i o nf i l t e r i n g ) 等。 文本挖掘是一项综合技术,涉及数据挖掘、汁算机语言学、信息检索、自然 语言理解、知识管理等诸多领域,从数据挖掘的角度来看,文本挖掘是指将数据 挖掘技术应用在大量的文本集合上,发现其中隐含的知识的过程,文本挖掘的结 果既可以是对某个文本内容的概括,也可以是对整个文本集合的分类结果或聚类 结果等,由于文本数据源基本上无结构可言,一般采用自然语言描述,现有的计 算机很难处理其语义,所以要进行有效的文本挖掘就必须先做文本分析,抽取或 归纳文本中具有典型意义的元数据并加以有效的表示。 到目前为止,国外的文本挖掘研究已经从最初的可行性基础研究经历了试验 性研究进入到了实用化阶段,并在邮件分类、电子会议、信息过滤等方面取得了 较为广泛的应用。下面列出一些著名的国外文本挖掘工具: 1 i b m 的文本智能挖掘机1 2 l 】 i b m 的文本智能挖掘机由高级搜索引擎( a d v a n c e ds e a r c he n g i n e ) ,t e x t m i n e r ,w e b 访问工具( w e ba c c e s st o o l s ) 年l 文本分析工具( t e x ta n a l y s i st o o l s ) 组 成。其主要功能足特征提取、文档聚集、文档分类和检索,支持1 6 种语言的多 一6 一 种格式文本的检索,采用深层次的文本分析和索引方法,支持全文搜索和索引搜 索,搜索条件可以是自然语言和布尔逻辑条件,是c l i e n t s e r v e r 结构,支持大量 并发用户做检索任务,联机更新索引,同时又能完成其他的搜索任务。 2 ,a u t o n o m y 公司的c o n c e p t a g e n t s ,经过训练以后,它能自动从文本中抽 取概念1 2 ”。 3 t e l t e c h 公司的1 1 e 1 1 1 e c h 提供专家服务,专业文献检索服务,产品与厂商检索服务,t e l t e c h 成功的 关键是建立了高性能的知识结构。它采用主题法,其主题词表分为不同专业,共 有3 万多个,由数位知识工程师维护,每周更新5 0 0 1 2 0 0 个词【2 ”。 在国内,文本挖掘起步较晚,还处于理论探讨阶段,基本还没形成成熟的文 本挖掘工具,部分大学和科研机构的研究情况如下表所示。 单位带头人研究内容 中科院计算机语言信息工程 陈肇雄 翻译、汉语分词、自然语言接口、句法分析、 研究中心语义分析、音字转换、自动分词 汉语基本名词短语分析模型、识别模型、文本 清华大学计算机科学与技术 黄吕 。词义标注、语言建模、分词歧义算法、上下文 系 无关分析、语素和构词研究 语句语义、自然语言模型、构造语义解释模型 上海交通大学计算机科学与 陆汝l i i( 增量式) 、树形分层数据库方法( 非结构化数 工程系 据知识方法) 、范例推理 哈尔滨t 业大学计算机科学王开铸晋手转换、臼动文摘、手与汉子识别、臼动分 与l = 程系王小龙 词、中文词句快速查找系统 表1 - 1 部分科研单 :i 7 :与大学对文本挖掘的研究情况 以上文本挖掘的对象都是文档,这些文档一般都比较长,遵循一定的语法结 构和组织结构( 如章、节) ,在组织结构中的某一部分表达同一主题。 然而,网络聊天文本与传统文档文本差别较大:网络聊天文本是一种动态的 文本,用户每一次的输入并不会像一篇文章一样完整,也不一定遵循严格的语法 结构,是一种上下文相关的动态文本,可能某一段时间、某几句话表达某一特定 主题,主题与主题之间可能完全不相关,并且每句话所形成的文本也是一种比较 简短的文本。对这种网络聊天文本进行文本挖掘的研究和实现,国内外都还没有 形成较成熟的产品。 1 3 本文研究工作 1 3 1 系统框架模型 西南大学硕士学位论文 第1 覃绪论 在对i c e 项目进行研究过程中,同方已开发出底层翻译软件a n n o c h a t ,通 过a n n o c h a t 已可实现在线交流,并在2 0 0 5 年6 月在多个国家进行大规模在线 交流测试。从测试结果来看,交流双方对翻译结果的可理解性达到8 0 左右,其 翻译结果的可理解程度尚需进一步提高。因此,我们小组以其核心底层翻译软件 a n n o c h a t 为基础,辅以o n t o l o g y 、a g e n t 和文本挖掘技术,以协助a n n o c h a t 在 特定语境下对多义词的歧义进行消除,构建的系统模型如图l l 所示( 本文以后 将这个改进的i c e 系统模型简称i c e 模型) : 图l 一1 改进的i c e 系统模型 在该模型中,主要包含下面几个部分: 1 针对某一特定领域而构建的小规模的o n t o l o g y 由于o n t o l o g y 是对世界或某一领域的知识描述,其规模往往很大,构建一 个o n t o l o g y 的工作量较大,而我们的研究只是为了证明o n t o l o g y 具有消除关键 词歧义的作用,因此,只需要在某一个较小领域内构建o n t o l o g y ,在本文的研究 过程中,也可以把它称为语义库。 2 智能a g e n t 为每一个用户分配一个a g e n t ,针对用户使用的语种访问相应的o n t o l o g y , 同时a g e n t 能够根据o n t o l o g y 中的背景知识进行推理,为词语在特定的交流语 句巾选择正确的语义项。 3 文本数据挖掘 该模块主要完成两方面工作:一方面,用户聊天过程中,在特定o n t o l o g y 背景知识库支撑下对当前聊天文本进行语义挖掘,协助a n n o c h a t 进行正确的语 义选择,消除聊天文本中关键词的歧义:另一方面,聊天结束后,对交流信息事 务数据库中的历史聊天文本信息进行文本挖掘,从中发现聊天文本语义及相关主 题等知识,对o n t o l o g y 做出反馈,进而有效地选择和利用这些知识来修正、精 西南大学硕士学位论文 第1 章绪论 化和改进特定的o n t o l o g y 。 4 a n n o c h a t :目前已开发成功的底层翻译软件,经大规模测试可完成在线 多语交流,但交流双方对翻译结果的可理解程度有待进一步提高。 整个系统运行流程如下: 用户a 与用户b 在线交流,分别为用户a 和b 分配一个a g e n t a g e n t a 、 a g e n t b ;对于用户a 输入的聊天文本,文本挖掘模块首先对其进行语义挖掘, 将挖掘结果放入聊天知识数据库中,并对o n t o l o g y 做出反馈;模块a g e n t a 访问 相应的o n t o l o g y 库,并根据其中知识进行推理,然后将用户a 输入数据进行处 理( 如消除语义歧义,对多义词进行注解等) 后传递给a n n o c h a t ;a n n o c h a t 将 其翻译成用户b 的母语,并传输给a g e n t b ;a g e n t b 访问对应的o n t o l o g y 库,并 根据其中知识进行推理,调整最后结果,得到目标语言文本,传送给用户b 。同 时,所有交互形成的谈话文本数据全部存储到t r a n s a c t i o n 库中,交流结束后, 文本数据挖掘模块对双方交互历史数据进行文本挖掘,挖掘其语义和主题等知 识,并向o n t o l o g y 做出反馈,以不断修正、改进o n t o l o g y 库,进而提高对a n n o c h a t 翻译结果的可理解程度。 1 3 2 论文研究内容 本文工作集中在文本数据挖掘这个模块,主要完成以下工作: 1 根据i c e 模型,提出了在i c e 模型下的文本挖掘模型; 2 对聊天文本进行语义挖掘,并对o n t o l o g y 做出反馈,以协助a g e n t 模块 进行f 确的语义选择: 3 交谈结束后,对存储在交互事务数据库中的历史文本数据进行文本挖掘, 挖掘聊天文本语义及主题等信息,进而修正、改进和精化特定o n t o l o g y ; 4 对聊天文本进行文本挖掘时,用动态定义挖掘窗口大小的方法改进反比 文档频数权重评价算法( t f d f ) 进行特征提取进而提高挖掘质量; 5 与小组成员协同完成i c e 模型下的系统o b i c e s ( o n t o l o g y b a s e di c e s y s t e m ) ,对使用o b i c e s 系统前后的a n n o c h a t 翻译结果的可理解程度进行对比 分析,验证i c e 模型的优越性。 1 3 3 论文仓新点 通过对a n n o c h a t 在线交谈的当前文本进行语义挖掘并对o n t o l o g y 做出反 馈,胁助a g e n t 进行正确的语义选择,消除聊天文本中关键间的歧义,聊天结束 西南大学硕士学位论支 第1 章绪论 后对交流事务数据库中的历史自然语言文本进行文本挖掘,获取聊天文本语义和 主题等相关知识,修正、改进和精化特定的o n t o l o g y 库,进而改进i c e 项目中 a n n o c h a t 的翻译结果的可理解程度。在创新方面主要有: 1 提出了一种对聊i 天文本进行语义挖掘的方法: 2 将文本挖掘和领域知识( o n t o l o g y ) 结合起来,挖掘聊天文本的语义和 主题等知识; 3 通过动态定义文本窗e l 大小来改进反比文档频数权重评价算法( 1 1 p d f ) 对聊天文本进行特征提取,提高了文本挖掘质量。 1 4 本论文的结构安排 本文总共分为六章,大致结构如下: 第l 章绪论:说明本文的研究意义以及本领域的研究现状和本文所作的工 作及贡献; 第2 章文本挖掘概述:本文所涉及的基本理论,主要介绍了文本挖掘的定 义、常用技术、模型、典型算法、研究课题、评估方法以及文本挖掘与本文研究 工作的关系: 第3 章主要介绍了结合i c e 模型所使用的文本挖掘理论,提出i c e 模型中 的文本挖掘模型,根据在线用户聊天得到的聊天文本的特点,使用动态定义挖掘 窗口大小的方法对t f i d f 算法作了改进,使之在进行文本挖掘时,能更准确、 有效地对聊天文本进行特征提取。通过对聊天文本的语义挖掘,协助a g e n t 进行 正确语义选择,消除关键词歧义,并在聊天结束后挖掘聊天文本语义和主题等相 关知识,对o n t o l o g y 做出反馈进一步修正、改进和精化o n t o l o g y ; 第4 章o b i c e s 中文本挖掘系统的实现:结合o b i c e s 给出了一个简单文 本挖掘实现方案,并给出与本项目中其他模块的接口: 第5 章实验设计与评价:通过对使用o b i c e s 前后用户对a n n o c h a t 聊天 中关键词、语句和主题理解程度的统计对比来验证i c e 模型的优越性,并对文 本挖掘模块的挖掘情况进行分析总结,对o b i c e s 和文本挖掘中出现的问题提出 解决办法; 第6 章总结与展望:对全文进行总结,并展望进一步的研究工作。 1 5 本章小结 本章主要介绍了本论文的选题意义和课题研究背景,给出了i c e 项目中的 i c e 模型,提出了本文所要进行的主要研究工作。 西南大学硕士学位论文 第2 章支本挖掘概连 第2 章文本挖掘概述 随着互联网的大规模普及和企业信息化程度的提高,文本信息的快速积累使 公司、政府和科研机构在信息处理和使用中面临前所未有的挑战。一方面,互联 网和企业信息系统每天都不断产生大量文本数据,这些文本资源中蕴含着许多有 价值的信息;而另一方面因为技术手段的落后,从大量数据资源中获取需要的信 息十分困难。人们迫切需要研究出方便有效的工具去从大规模文本信息资源中提 取符合需要的、简洁的、精炼的、可理解的知识,文本挖掘( t e x t m i n g ,简称t m ) 就是为解决这个问题而产生的研究方向。 文本挖掘作为数据挖掘的一个新主题,引起了人们的极大兴趣,同时,它也 是一个富于争议的研究方向,目前其定义尚无统一的结论,需要国内外学者开展 更广泛的研究以便进行精确的定义1 2 ”。 有关研究表明,公司信息大约有8 0 包含在文本文档中】。根据著名数据 挖掘网站k d n u g g e t s 对t 1 r 行业的9 7 名人员在线问卷调查表明:已有5 0 左右的 人在利用软件工具进行文本挖掘,另有1 9 的人计划在六个月内进行文本挖掘 2 6 1 ,如图2 1 所示: k d n u q q e t s :p o l l s :t e x tm i n i n ge x p e r i e n c e ( n o v2 0 0 5 ) n o n e n op l a n si n2 0 0 6 ( 3 1 ) 3 2 u s e dt mi nc o m b i n a t i o nw i t hd a t am i n i n g ( 3 1 ) _ 3 2 u s e df r e e r e s e a r c ht mt o o l si n2 0 0 5 ( 19 ) _ 2 0 n o n e b u t p l a nt ou s 8i n2 0 0 6 ( 18 ) _ 1 9 u s e dt mt o o l ss t a n d a l o n e ( 15 ) p l a nt og e tt mc o n s u l t i n gi n2 0 0 6 ( 5 ) u s e dt mc o n s u l t i n gi n2 0 0 5 ( 3 ) l 二16 燃5 淄3 图2 - 1k d n u g g e t s 网站对文本挖掘使用调查 2 1 文本挖掘定义 文本挖掘是信息挖掘的一个分支,用于基于文本信息的知识发现。一般来说 文本挖掘和文本数据库中的知识发现( k n o w l e d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 港口旅客实名登记制度
- 颅脑损伤患者的急救护理
- 造口护理的远程支持
- 剖宫产术后恶心呕吐的护理
- 绵阳教师行测试题及答案
- 【高三下】2026届江西高三下学期考前模拟预测语文试题+详解
- 公共场所卫生管理员创新方法能力考核试卷含答案
- 塑料模具工岗前保密考核试卷含答案
- 人教版语文五年级下册教案+反思 第三单元
- 固井工岗前基础实战考核试卷含答案
- 公司纪委“三重一大”决策制度监督检查管理办法
- 森林防火工程技术标准
- 2.5物质的转化(讲义)(原卷版)
- 五年级数学下册 第五单元培优拔高测评试题-(学生版)(北师大版)
- (正式版)JB∕T 5789-2024 筐篮式捻股机和成绳机
- 风险分级隐患排查治理风险分级管控隐患排查与治理措施培训课件
- 高级船员职业规划书
- 加工中心日常点检表
- 普外科常见病
- 卒中管理及中心建设
- 电阻的星形连接和三角形连接
评论
0/150
提交评论