




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于向量空间模型的w e b 文本自动摘要系统的研究 摘要 随着计算机和互联网技术的飞速发展以及广泛应用,万维网已经成为世界 上最大的信息源,如何在这海量信息中搜寻所需要的信息、获取信息的主旨, 如何快速阅读每天涌现出来的新信息,己经是一个迫在眉睫的问题。而自动文 摘正是解决这一难题的重要应用。 自动文摘是指利用计算机自动对文本编制摘要,是自然语言理解的重要应 用领域之一。自动文摘也是一项极具难度和挑战性的工作,目前,国内外在这 一方面的研究己取得了一定进展,本课题的研究目标是在对自动文摘技术进行 深入研究的基础上,提出一种适合于w e b 文档的自动摘要方法,并实际开发出 一个基于向量空间模型的w e b 文档自动摘要系统。 本文的研究内容主要有以下几个方面: ( 1 ) 概述了数据挖掘、w e b 挖掘、w e b 文本挖掘以及文本摘要的概念、特 点和主要内容,并对文本摘要的方法和质量评价等关键技术进行探讨和研究。 ( 2 ) 基于向量空间模型的文本自动摘要研究。在对向量空间模型进行系统、 深入的分析研究基础上提出了基于向量空间模型的中文文本自动摘要算法,并 针对普通文摘中常出现的冗余问题进行处理。实验结果表明,本方法提取的摘 要不受领域知识限制,能有效地去除冗余,更好反映文档内容。 ( 3 ) 在上述研究的基础上,设计并实现了文本摘要系统。建立了w e b 新 闻文档自动摘要原型系统,以此作为深入研究文本自动摘要技术的实验平台。 关键词:自动文摘,向量空间模型,中文网页,信息抽取 r e s e a r c ho na u t o m a t i cs u m m a r i z a t i o no fw e bt e x tb a s e do n v e c t o rs p a c em o d e l a b s t r a c t w i t ht h er a p i dd e v e l o p m e n ta n da p p l i c a t i o no fc o m p u t e ra n di n t e r n e t ,w o r l d w i d ew e bh a sb e e nt h eh u g e s tr e s o u r c e p e o p l ef a c ea ne x t r e m ep r o b l e m :h o wt o s e a r c hi n f o r m a t i o ne x p e c t e da n dg e tt h em a i nc o n t e n t ,h o wt ob r o w s et h en e w i n f o r m a t i o ne m e r g i n go u te v e r yd a y a u t o m a t i cs u m m a r i z a t i o ni sa ni m p o r t a n t i m p l i c a t i o nt h a ts o l v e st h i sd i f f i c u l tp r o b l e m i ng e n e r a l ,a u t o m a t i cs u m m a r i z a t i o ni sd e f i n e da st h ep r o c e s st h a tt h e a b s t r a c to fad o c u m e n ti sg e n e r a t e da u t o m a t i c a l l yu t i l i z i n gc o m p u t e r ;a l s oi ti s v i e w e da so n eo fn l u ( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ) i m p o r t a n ta p p l i c a t i o n s a u t o m a t i cs u m m a r i z a t i o ni so fg r e a td i f f i c u l t i e sa n dc h a l l e n g e s c u r r e n t l y , t h e r e h a v em a d en o t i c e a b l ep r o g r e s so nt h er e s e a r c hf o rt h ea b o v ea r e a si nd o m e s t i ca n d a b r o a d t h eg o a li nt h er e s e a r c ho ft h i ss u b j e c ti st op r o p o s eak i n do fa u t o m a t i c s u m m a r i z a t i o nm e t h o dt ow e bp a g e ,w h i c hb a s e so nc a r r y i n go nf u r t h e r i n v e s t i g a t i o no nt e c h n o l o g yo ft h ea u t o m a t i cs u m m a r i z a t i o n ,a n dt od e v e l o paw e b p a g ea u t o m a t i cs u m m a r i z a t i o ns y s t e mb a s e do nv e c t o rs p a c em o d e l t h em a j o rw o r ko ft h ed i s s e r t a t i o ni sa sf o l l o w s : ( 1 ) t h ec o n c e p t s ,c h a r a c t e r i s t i c sa n dt h em a i nc o n t e n to fd a t am i n i n g ,w e b m i n i n g ,a n dw e bt e x tm i n i n ga n da u t o m a t i cs u m m a r i z a t i o na r es u m m a r i z e d t h e k e yt e c h n i q u e s o fa u t o m a t i cs u m m a r i z a t i o na n dp e r f o r m a n c ee s t i m a t i o na r e r e s e a r c h e d ( 2 ) a u t o m a t i cs u m m a r i z a t i o nb a s e do nv e c t o rs p a c em o d e li ss t u d i e d v e c t o r s p a c em o d e li sd e e p l ya n a l y z e d an e w a u t o m a t i ca b s t r a c ta l g o r i t h mo ft h ec h i n e s e t e x tb a s e do nv e c t o rs p a c em o d e li sp r e s e n t e d ,a n dr e d u n d a n c yw h i c ho f t e no c c u r s i nt h eg e n e r a la b s t r a c ti st a c k l e d t h ee x p e r i m e n t a lr e s u l t sd e m o n s t r a t et h a tt h e p r o p o s e da u t o m a t i cs u m m a r i z a t i o nm e t h o di sn o tr e s t r i c t e db yt h ed o m a i n s ,o nt h e c o n t r a r y ,w h i c hc a ne f f e c t i v e l yd e l e t eo u tt h ep r o l i x i t ya n d b e t t e rd e m o n s t r a t et h e t e x t u a lc o n t e n t s ( 3 ) a na u t o m a t i cs u m m a r i z a t i o ns y s t e mi sd e s i g n e da n di m p l e m e n t e db a s e do n s t u d ya b o v e t h ea u t o m a t i cs u m m a r i z a t i o ns y s t e mi se s t a b l i s h e da st e s t i n gp l a t f o r m i no r d e rt or e s e a r c ho na u t o m a t i cs u m m a r i z a t i o nt e c h n i q u e s k e y w o r d s :a u t o m a t i cs u m m a r i z a t i o n ,v e c t o rs p a c em o d e l ,c h i n e s ew e bp a g e s ,i n f o r m a t i o n e x t r a c t i o n 插图清单 图2 1w e b 挖掘分类图7 图2 2w e b 文本挖掘过程图1o 图4 1 文档的向量空间模型图2 4 图5 1 文本摘要系统总体框架3 2 图5 2 输入u r l 地址界面3 4 图5 3 生成摘要界面3 4 表格清单 表4 1 文本摘要测试数据集2 8 表4 2 自动文摘比例抽取评价参数2 9 表4 3 自动文摘举例原文2 9 表4 410 新闻网页摘要3 0 表4 52 0 新闻网页摘要3 0 表4 63 0 新闻网页摘要3 0 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得金胆王些盔堂或其他教育机构的学位或证书而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 籼一虢( 溉伞期:中月吵 学位论文版权使用授权书 本学位论文作者完全了解金世王些太堂有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权金胆王些杰堂可 以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:f 召件 签字日期:加巧年惆咖 学位论文作者毕业后去向: 工作单位: 通讯地址: 新躲吲僦 签字醐:1 钳 吵日 蒜砑 邮编:刁叩 致谢 在论文完成之际,首先感谢合肥工业大学给我这个学习和提高的机会,特别感谢 我的导师胡学钢教授在整个硕士研究生学习阶段给予我的悉心指导! 胡老师在工作、 学习和生活等各方面给予我莫大的关心和帮助,并以他在研究领域的深厚理论知识和 对研究方向良好的把握,给予了我在学习研究上意义深刻的指引,同时也给我提供了 良好的工作和学习环境,并言传身教地让我学会许多做人的道理。在整个硕士学习阶 段,胡老师严谨的治学态度和谆谆教导给我留下了深刻的印象,令我终身难忘。 深深感谢胡老师在学业指导、科研方法等方面所给予的指导和帮助! 在两年多的学习生活中,在合肥工业大学人工智能与数据挖掘研究室的学 习经历让我难忘。我要深深地感谢合肥工业大学人工智能与数据挖掘研究室的吴共 庆、张晶、张玉红等老师,他们给了我许多珍贵建议和帮助。感谢研究室谢飞老师及 其他同学对我的关怀和帮助。感谢合肥工业大学研究生部及计算机与信息学院的老师 付出的辛勤工作! 最后,也要感谢我的家人和朋友,正是他们给予我的大力支持与一如既往的鼓励, 使我得以顺利完成学业。 作者:张筱丹 2 0 0 9 年1 0 月 第一章绪论 数据挖掘( d a t am i n i n g ) 是近年来随着数据库和人工智能发展起来的一门 新兴的、多学科交叉的应用领域,指的是从大量的、不完全的、有噪声的、模 糊的、随机的实际应用数据中,提取隐含在其中的、人们不知道的、但是又潜 在有用的信息和知识的过程【l 】。数据挖掘的对象主要是结构数据,如关系的、 事务的和数据仓库的数据。然而在现实世界中,可获取的大部分信息是存储在 文本数据库中,由新闻文章、研究论文、书籍、数字图书馆、电子邮件信息和 w e b 页面等大量文档组成。因此,文本挖掘就成为数据挖掘中一个日益流行而 重要的研究课题。而网络技术的高速发展和普及使得i n t e r n e t 上的信息呈指数 级的增长,w e b 上这些大量的、异质的信息资源中,隐藏着具有巨大潜在价值 的知识,如何从这些巨量的w e b 数据中发现有用的知识是数据挖掘和知识工程 研究面临的新课题。 本章首先介绍文本自动摘要系统的研究目的和意义;然后介绍国内外自动 摘要的研究现状;最后给出本文的研究内容与组织结构。 1 1 研究目的和意义 随着信息社会的到来,尤其是互联网的普及以及应用,面对网络上呈爆炸 式增长的信息,人们在享受其带来便利的同时,也迫切希望能对信息进行压缩、 提炼,从而迅速获取有用的信息。于是,出现了常见的搜索引擎( 如g o o g l e , b a i d u 等) ,它可以完成对w e b 的搜索。这些搜索引擎可以按照知识的种类进行 分门别类建立索引,人们可以利用键入关键字来快速定位到自己需要的网页, 从而减轻了从海量信息中寻找有用信息的负担。但是日前常用的搜索引擎存在 一些问题,比如输入某一关键字,会出现成千上万的页面链接,其中有很多内 容并不是我们需要的;或者某些需要的信息却因为没有包含关键字而导致搜索 遗漏。 这样的问题应该如何解决? 最好的方法是将返回的所有相关网页信息压 缩,提取出主要内容,概括成几句话,这样将帮助用户在短时间内浏览更多的 网页并迅速定位于需要的信息。要实现这个目的,就需要用到自动摘要技术, 因此,自动文摘系统已经成为紧迫的社会需求,并且具有极大的科学意义和实 际应用价值。 自动文本摘要技术是利用计算机自动编写和生成摘要的技术,是文本挖掘 的一个分支。自动文摘的目标为:从信息源中提取内容,采用压缩的形式和与 用户( 或应用) 需求相关的方式,将最重要的内容呈现给用户。它能够帮助人类 理解概括自然语言文本,并更加快速、准确、全面地获取重要信息。随着计算 机科学的发展和自然语言处理技术的进步,自动文本摘要技术不断发展,由起 初的单文档摘要技术发展到多文档摘要技术,并广泛应用到其他相关领域,比 如文本分类、信息检索、问答系统等,在信息检索领域中有着重要的用途。 1 2 国内外研究现状 1 2 1 国外自动文摘的研究 自动文摘系统的研究起源于2 0 世纪5 0 年代末。美国的l u h n 提出了可以 用计算机来进行文献的压缩【2 】。六年后,l u h n 发表了一篇阐述自动生成文摘方 法的论文,这篇论文和他在情报检索领域中所做的其它工作一起,为后继的同 类工作提供了一个开端。 l u h n 在1 9 5 8 年发表的关于自动编制文摘的文章,开创了自动文摘的样板 性研究方案。l u h n 把词汇分成两大类【2 j :通用词和内容词。通用词又称为功能 词,通常包括连接词、代词、介词、冠词、助动词,以及某些形容词和副词, 除此以外的所有词为内容词。功能词重要性被指定为0 ,词频统计只对内容词 进行,并把同根的内容词加以合并,词频超过某一事先设定的阈值的内容词被 认定是可以代表文章主题的有效词。 继l u h n 之后,很多学者投入到自动文摘的研究领域,并提出了多种文摘 方法。美国b a x e n d a l e 采用3 种方法从文章中选词和词串1 3 j :删除功能词、从 论题句中选择内容词、从正文的介词短语中选词。他认为论题句是段落的支撑 点,并发现8 5 的论题旬出现在段首,8 7 的论题句出现在段尾。因此,段首 和段尾句和出现在其中的内容词需要特殊加权;他还认为“介词短语似乎比任 何其他简单的语言结构更能密切地反映文章的内容 ,应该立足于词组和词串, 而不是孤立的单词。 o s w a l d 在其对自动索引的研究工作中主张:在自动编制文摘选择句子时, 应该根据句子中所含代表性词串的数量来计算句子的分值【4 】。在识别出最高频 的词之后,还应确定是否还有一个词频大于1 的重要词与该词相邻接,如果有 这样一个词,则和上述的最高频词就构成一个多元词。自动编制文摘的目标就 是选择含多元词数量最多的那些句子。 e d m u n d s o n 提出了提示词( c u e ) 法、关键词( k e y ) 法、题名( t i t l e ) 法和位置 f l o c a t i o n ) 法四种加权方法【5 】。提示词法假设句子内某些词预示着另一些与主题 相关的词在句中出现,对后者应给予加权;关键词法认为高频内容词可以用来 选择与文献内容紧密相关的句子;题名法指文献的题名和各级小标题概括了文 献的主题内容,在计算句子重要性时规定赋予题名用词以较高的权值;位置法 则根据句子在文中的一定标题之下出现及其在正文中的具体位置来确定句子的 权值。e d m u n d s o n 比较了综合应用四种加权方法所产生的文摘效果,计算了机 编文摘和目标文摘句子的重合率,发现提示词一题名一位置综合加权法具有最 高的重合率,而关键词加权法在单独使用时重合率最低。根据这些数据,他们 停止采用关键词加权法。 二十世纪九十年代以后,美国、日本、俄国,德国、加拿大等国的研究 机构加紧对自动文摘技术的研究和应用,取得了一些成绩,出现了一些实验系 统【6 1 。 在实际应用方面,世界著名的软件公司m i c r o s o f t 公司最早实现了自动文摘 系统的商业应用,在其办公软件o f f i c e9 7 及以后版本中加入了自动文摘的功 能,虽然效果不是很令人满意,但总算在自动文摘系统的应用推广方面做出了 贡献。 俄罗斯的m e d i a l i n g u a 公司开发了俄文和英文的自动文摘系统 l i b r e t t o ,并把它放到了国际互联网上,进行销售和演示。程序界面十分友 好,能和o f f i c e 办公软件集成,文摘效果和m i c r o s o f t 公司的差不多。 1 2 2 国内自动文摘的研究 我国对中文自动文摘的研究起步比较晚,1 9 8 5 年才有人正式撰文介绍国外 自动文摘方面的研究情况。经过二十多年的研究,已取得了不少成果。 上海交通大学的王永成教授较早地领导研究中文文献自动文摘系统,并于 1 9 8 8 年开发出了“汉语文献自动编制文摘试验系统 ( s j t u c a a ) ,对随机地从 情报学报1 9 8 3 年第一期上抽出的几十篇论文自动编制文摘,大部分文摘句 达到比较满意的效果1 7 j 。随后,又开发出了“中文文献自动摘要系统”( c a e s ) 【8 】和“o a 中文文献自动摘要系统 。该系统采用了仿人算法,实际上也集成了 位置法、指示短语法、标题法、关键词法等多种方法,是一个实用的系统【9 1 。 哈尔滨工业大学的王开铸教授等人于1 9 9 2 年研制了基于理解的自动文摘 实验系统m a t a s 1 0 】,1 9 9 4 年研制出自动摘录性的非受限领域的自动文摘系统 h i t - 8 6 3 i t l l l ,1 9 9 7 年提出了基于信息抽取和文本生成的自动文摘系统【l2 1 。 复旦大学的吴立德教授等人研制了中文文本摘要系统f d a s c t t l 3 j ,以统计 分析为主,采用最大似然估计法对每个句子内各个词进行了词性标引,对标引 语料库进行了研究。 北京邮电大学研制了非受限领域复合式自动摘要系统,该系统根据词频统 计、自由词标引的结果计算句子的重要性,然后运用依存关系树和语义框架法 进行文摘候选句子的加工l 1 4 j 。 总体上来说,自动摘要技术分为两类:基于机械统计的方法和基于知识理 解的方法。基于机械统计的方法【1 5 , 1 6 】利用统计信息获取文档的关键词,并结合 提示词、位置等启发信息,从文档中挑选出一些合适的句子,进行润色后得到 文档的摘要。机械统计方法具有速度快、领域不受限的特点,但生成的摘要质 量较差,存在反映内容不够全面、语句冗余等问题。基于知识理解的方法 t 7 , t g 】 利用各种知识和形式化理论,在理解文档语义内容基础上生成文摘( 对原文的概 括或浓缩) 。与机械统计方法相比,理解摘要质量较好,具有简洁精炼、全面准 确、可读性强等优点。但是,理解摘要不仅要求计算机具有自然语言理解和生 成能力,还需要表达和组织各种背景、领域知识。这些工作的难度十分巨大, 迄今为止进展甚微。 1 3 本文的研究内容和组织结构 本文结合网易上的w e b 新闻网页,开展了基于向量空间模型的自动摘要技术和 摘要系统的研究。本文的研究内容属于w e b 文本挖掘的范畴,开展了w e b 文本 自动摘要系统的设计及文摘冗余处理两个方面的研究工作。 本文共有六章: 第一章绪论。首先简述自动文摘技术的产生背景,然后概述自动文摘技 术的研究目的和意义,接着介绍目前国内外文本自动摘要的研究状况,最后给 出本文的研究内容与组织结构。 第二章主要介绍w e b 文本挖掘的过程和关键技术。首先概述数据挖掘以 及w e b 挖掘的概念。然后介绍w e b 挖掘的特点和分类,最后重点对w e b 文本 挖掘的定义、文本挖掘的意义、文本挖掘的主要内容以及文本挖掘的方法进行 深入讨论和研究。 第三章主要介绍文摘的概念和自动文摘的关键技术。首先概述文摘的相 关概念,详细阐述自动文摘的方法,对这四种方法所具有的特点作了进一步介 绍,分析了各自的优缺点;然后介绍文摘及文摘系统的质量评价体系。 第四章提出基于向量空间模型的自动摘要方法。首先介绍了向量空间模 型的相关概念,阐述了自动摘要生成的算法,然后对文摘的冗余处理进行介绍 和分析,最后给出实验结果并对结果进行分析。 第五章文本自动摘要系统的设计与实现。 第六章对本文进行的研究加以总结并对后续工作做出展望。 1 4 本章小结 本章首先概述了文本自动摘要技术的研究目的和意义,指出自动文摘系统能够帮 助用户在众多的网页信息中迅速的定位到需要的信息,有着极大的实用价值;并对目 前国内外自动摘要的研究状况进行了介绍。最后给出了本文的主要内容和组织结构。 第二章w e b 文本挖掘概述 本章对数据挖掘进行概述,然后介绍w e b 挖掘的定义、特点和分类,最后 对w e b 文本挖掘的主要内容以及过程进行了介绍。 2 1 数据挖掘 通过数据挖掘,有价值的知识、规则或高层次的信息就能从数据库的相关 数据集合中抽取出来,并从不同角度显示,从而使大型数据库作为一个丰富可 靠的资源为知识归纳服务。 数据挖掘是一个不断循环和反复的过程,这样,可以对所挖掘的知识不断 求精、深化并使其易理解。此过程包括:( 1 ) 确定业务对象( 2 ) 数据选取( d a t a s e l e c t i o n ) 、数据预处理( d a t ap r e p r o c e s s i n g ) 和数据变换( d a t at r a n s f o r m a t i o n ) 。 ( 3 ) 数据挖掘( 4 ) 挖掘结果的表述和评价( 5 ) 知识的集成 常用的数据挖掘技术有统计分析方法、人工神经网、遗传算法( g e n e t i c a l g o r i t h m s ) 、决策树( d e c i s i o nt r e e ) 、粗糙集理论( r o u g hs e tt h e o r y ) 。 2 2w e b 挖掘 2 2 1w e b 挖掘的定义 w e b 挖掘是一项综合技术,涉及w e b 、数据挖掘、计算机语言学、信息学 等多个领域。许多研究者从自身的领域出发,对w e b 挖掘的含义有着不同的理 解。一般的将w e b 挖掘定义为【l 刿:w e b 数据挖掘是指从大量w 曲文档的集合 c 中发现隐含的模式p 。如果将c 看作输入,将p 看作输出,那么w e b 挖掘 的过程就是从输入到输出的一个映射毛:c p 。 w e b 挖掘也可以描述为从大量非结构化、异构的w e b 信息资源( 包括w 曲 页面内容、页面之间的结构、用户访问信息、电子商务信息等) 中应用数据挖掘 方法以帮助人们从w w w 中提取有效的、新颖的、潜在可用的及最终可理解的 知识( 包括概念、模式、规则、规律、约束及可视化等形式) 的非平凡过程。 2 2 2w e b 挖掘的特点 数据挖掘的对象主要是数据库中的结构化数据,其中的数据为完全结构化 的数据,而w e b 挖掘的对象主要是网页上的数据,这些数据最大特点就是半结 构化。所以,w e b 挖掘是对数据挖掘的一种新的发展和应用,但又不同于传统 的数据挖掘,其特点如下【2 0 1 : ( 1 ) 异构数据环境 从数据库研究的角度出发,w e b 网站上的信息也可以看作一个数据库,一 个更大,更复杂的数据库。w e b 上的每一个站点就是一个数据源,每个数据源 都是异构的,因而每一个站点之间的信息和信息的组织都不一样,这就构成了 一个巨大的异构数据环境。首先,必须要研究站点之间异构数据的集成问题, 只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从 巨大的数据资源中获取所需要的信息。其次,还要解决w e b 上的数据查询问题, 因为如果不能很有效地得到所需的数据,对这些数据进行分析、集成、处理就 无从谈起。 ( 2 ) 数据量巨大、内容丰富,分布广泛 i n t e r n e t 把分布于世界不同位置的电脑连接了起来,每个电脑上都存有丰富 的数据,这些数据涉及各种不同的行业和领域,又由于连接于i n t e r n e t 的电脑 数量非常巨大,所以w e b 站点中的数据量也非常巨大。既有涉及经济、文化、 教育、新闻、娱乐、电子商务等丰富的信息服务,又蕴涵着访问页面特性、访 问路径特性、访问时间特性这些潜在的访问信息,内容相当丰富。 ( 3 ) 半结构化数据结构 半结构化数据有两层含义,一种是指在物理层上缺少结构的数据,另一种 是指在逻辑层上缺少结构的数据。有一些结构化数据,如元组,为用于w e b 页 面的显示而与h t m l 语言的标记呼号嵌在一起,构成了物理上的半结构化数 据。w e b 中有大量丰富的数据:文本、图片、声音、图像等,这些数据多存在 于h t m l 文件中,没有严格的结构及类型定义,这些都是逻辑层半结构化的数 据。w e b 上的数据与传统数据库中数据不同,传统的数据库都有一定的数据模 型,可以根据模型来具体描述特定的数据。而w e b 上的数据非常的复杂,没有 特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性 和动态可变性。因而,w e b 上的数据具有一定的结构性,也是一种非完全结构 化的数据,这也被称之为半结构化数据。半结构化是w e b 上数据的最大特点。 ( 4 ) 解决半结构化数据源问题 w e b 数据挖掘技术首先要解决半结构化数据源模型和半结构化数据模型的 查询与集成问题。解决w e b 上的异构数据的集成与查询问题,就必须要有一个 模型来清晰地描述w e b 上的数据。针对w e b 上的数据半结构化的特点,寻找 一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数 据模型外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半 结构化数据模型的技术。面向w e b 的数据挖掘必须以半结构化模型和半结构化 数据模型抽取技术为前提。 ( 5 ) 数据的动态性 w e b 是一个不断变化的、动态更新的系统,w e b 上的数据信息也是不断更 新的。因此,其数据源具有很强的动态性,需要利用数据库及数据仓库等技术 保存不断变化的w e b 数据。 2 2 3w e b 挖掘的分类 w e b 挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定 权威页面,w e b 文档分类,w e b 日志挖掘、智能查询,建立w e b 数据仓库等。 一般地,w e b 挖掘可分为3 类:w e b 内容挖掘( w e bc o n t e n tm i n i n g ) 、w 曲结 构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 使用挖掘( w e bu s a g em i n i n g ) 。如图2 1 所示。 图2 1w e b 挖掘分类图 ( 1 ) w e b 内容挖掘 w e b 内容挖掘是一种基于网页内容的挖掘,是从大量的网络的内容、数据、 文档中发现信息、抽取知识或模式的过程,是一项涉及数据挖掘、计算机网络 技术、人工智能、计算机语言学、统计学等诸多领域的综合技术。它又分为 w e b 文本挖掘和w e b 多媒体挖掘,研究的对象分别是文本信息和多媒体信息。 常用的w e b 挖掘技术有文本总结、文本分类、文本聚类、关联分析、趋势 预测等。其中,w e b 页面分类和聚类是w e b 内容挖掘的重点内容。w e b 页面的 分类是根据页面的不同特征,将其划分为事先建立起来的不同类。w e b 页面的 聚类是指在没有给定主题类别的情况下,将w e b 页面集合聚合成若干个簇,并 且同一簇的页面内容相似性尽可能大,而簇间相似度尽可能小。 ( 2 ) w e b 结构挖掘 w e b 结构挖掘是通过分析w e b 页面的超链接结构、w w w 的组织结构、 w e b 页面内部结构和u r l 的目录路径结构,从中推导出隐藏的、有价值的知识。 w e b 页中包含了网页及文档之间的超链接,这些w e b 页之间的超链接结构中又 包含了许多有价值的信息。一个页面被引用的次数体现了该页面的重要性,指 向某一网页的链接越多意味着这个网页的普及性越强,同时如果一个页面被重 要网页引用也说明了这个网页的重要性。 目前,典型的w e b 结构挖掘的算法有两个:p a g e r a n k 算法及h i t s 算法。 利用这些算法可以计算w e b 页面之间的关联程度,可用于提高网上搜索引擎搜 索结果的准确性,在g o o g l e 中就使用了h i t s 算法。通过分析w 曲链接和上下 文信息,系统可以产生比基于关键字索引搜索引擎如a l t av i s t a 和基于本体论 生成主题路径的搜索引擎如y a h o o 质量更好的搜索结果。 ( 3 ) w e b 使用挖掘 用户在浏览w e b 服务器时,会产生三种类型日志文件:s e r v e r l o g s , e r r o r l o g s ,c o o k i e l o g s ,这些曰志文件记录了关于用户访问和交互的信息。w e b 使用挖掘是指通过挖掘用户访问w e b 时在服务器上留下的日志记录,来发现用 户访问w e b 页面的模式。挖掘的手段是:路径分析、关联规则和序列模式的发 现、聚类和分类。w e b 访问信息挖掘可以从w e b 服务器那里自动发现用户存取 w e b 页面的模式,得出群体用户或单个用户的访问模式和兴趣。一般的访问模 式追踪通过分析使用记录来了解用户的访问模式和倾向。以改进站点的组织结 构。而个性化的使用记录追踪则倾向于分析单个用户的偏好,其目的是根据不 同用户的访问模式,为每个用户提供定制的站点。 w e b 内容挖掘是从文档的内容或描述中抽取知识,目的是联机自动搜索 w e b 上的信息资源;w e b 结构挖掘是从站点的页面结构推导出知识;w e b 使用 挖掘是从w e b 服务器上的日志中分析w e b 站点的使用情况,发现用户的访问 模式。在w e b 挖掘过程中,有时为了提高w e b 挖掘结果的兴趣性,将w e b 页 面内容、w e b 站点结构以及w e b 日志这三类数据融合在一起进行模式的挖掘。 2 3w e b 文本挖掘 2 3 1w e b 文本挖掘的定义 由于w e b 上的信息大多以文本的形式表达,例如电子邮件、新闻、广告等 信息,因此w e b 文本挖掘成为数据挖掘领域中一个重要的研究课题。w e b 文本 挖掘是从数据挖掘发展而来,但是它和传统的数据挖掘相比有很多不同之处, 因为w e b 文本挖掘的对象是海量、异构、分布的w e b 文本,这种文本是半结 构化或无结构化的,且缺乏机器所能理解的语义,所以有些数据挖掘技术并不 适用于w e b 挖掘。w e b 文本挖掘是以计算语言学、统计数理分析为理论基础, 结合机器学习和信息检索技术,从文本数据中发现和提取独立于用户信息需求 的文档集中的隐含知识。 2 3 2w e b 文本挖掘的主要内容 w e b 文本挖掘主要包括文本摘要、文本分类、文本聚类、关联分析以及利 用w e b 文档进行趋势预测。 文本摘要又叫文本总结,是指对一篇文章进行简单概括,是从文章中抽取 关键信息,以简洁的形式,对文本内容进行摘要和描述。用户不需要阅读全文 就可以从文本总结中了解到文章的大致内容。例如一些搜索引擎返回给用户的 查询结果都是文本的摘要。目前,绝大部分搜索引擎采用的方法是截取文档中 出现检索词频次最高的几行或者几句话作为摘要,并不考虑检索词位置和匹配 长度问题,因此摘要的效果很差。 文本分类是指根据预先确定的主题类别,将w e b 文档集合中每个文档归入 相应类别之中,这样不但方便浏览文件,而且使用户能快速、准确的查找自己 需要的文本。文本分类一般分为训练和分类两个阶段。近年来涌现出了大量的 适合于不同应用的分类算法,如:基于归纳学习的决策树( d t ,d e c i s i o nt r e e ) 【2 1 1 、基于向量空间模型的k 最近邻( k n n ,kn e a r e s tn e i g h b o r ) 【2 2 】【2 3 】【2 4 1 、基于 概率模型的b a y e s 分类器【2 3 儿2 5 1 1 2 6 】、神经网络( n n ,n e u r a ln e t w o r k ) 【2 7 1 、基于 统计学 - - j 理论的支持向量机( s v m ,s u p p o r tv e c t o rm a c h i n e ) 方法【2 3 】【2 8 】【2 9 】等。 文本聚类与文本分类一样,都是将文本归类,但是文本分类是文本归类到 预先已经存在的类中,而文本聚类则是没有预先定义好主题类别的,根据文本 的内容,将文本集中的所有文本分成若干类,要求类中的文本之间的相似度尽 可能小,而不同类中文本之间的相似度尽可能大。h e a r s t 3 0 】等人的研究己经证 明了“聚类假设”,即与用户查询相关的文档通常会聚类得比较靠近,而远离与 用户查询不相关的文档。 关联分析是指文档之间以及文档集合中不同词语之间的关联关系,即不同 的几个词语出现在同一篇文档中的概率研究。b r i n 3 0 1 提出了一种从大量文档中 发现一对词语出现模式的算法,并用来在w e b 上寻找作者和书名的出现模式, 从而发现了数千本在a m a z o n 网站上找不到的新书籍。 趋势预测是指通过对w e b 文档的分析,得到数据未来的取值趋势。 f e l d m a n t m 】等人使用多种分布模型对路透社的几万篇新闻进行了挖掘,得到主 题、国家、组织、人、股票交易之间的相对分布,揭示了一些有趣的趋势。还 可以通过分析w e b 上出版的权威性经济文章,对每天的股票市场指数进行预 侧,取得了良好的效果。 网络导航是指文本挖掘技术可以通过分析用户的网络行为等,帮助用户更 好地寻找有用信息,一个典型的例子是c m u 的w e bw a t c h e r 【32 1 。这是一个在线 用户向导,可以根据用户的实际点击行为分析用户的兴趣,预测用户将要选择 的链接,从而为用户进行导航。 2 3 3w e b 文本挖掘的过程 文本挖掘过程由文本收集、文本预处理、特征提取、文本挖掘、模式生成 等步骤组成,如图2 2 所示。 图2 2w e b 文本挖掘过程图 ( 1 ) 利用网页搜索软件自动通过w e b 进行文本的搜索,收集一定数量的 网页,形成w e b 文本集。 ( 2 ) 为了提高w e b 挖掘的效率和精确性,必须进行文本预处理,去掉跟 文本挖掘无关的标记,例如g i f 和j p e g 等类型的图象文件、声音文件等。 ( 3 ) 由于西文中单词之间有空格,而中文文章中各词之间没有固定的分隔 符,所以中文文本预处理比西文要复杂的多。经过预处理之后的文本要经过分 词处理,把文本分成单个字。 ( 4 ) w e b 文本挖掘对象通常是一组h t m l 或x m l 格式的文档集,这样的 挖掘对象缺乏像关系数据库中数据的组织规整性,因此要将这些文档转化成一 种类似关系数据库中记录的较规整且能反映文档内容特征的表示,目前用于文 本特征表示的方法很多,常用的是向量空间模型( v s m ) 。 ( 5 ) 特征表示一般采用文档特征向量,这些特征向量维数特别高,必须对 其进行降维处理,通过适当的特征选择算法计算出每个特征词的权值,仅保留 权值较高的词条作为文本的特征项。 ( 6 ) 在完成特征向量降维后,理解应用要求并且确定应用所要达到的目标, 便可利用机器学习的各种方法来提取面向特定应用目的的知识模式。 ( 7 ) 最后对获取的知识模型进行质量评价,若评价的结果满足一定的要求, 则存储该知识模式,否则返回到前面某个环节分析改进后进行新一轮的挖掘工 作。 2 4 本章小结 w 曲挖掘主要分为w e b 内容挖掘、w e b 结构挖掘和w e b 使用挖掘三大 类,其中w e b 内容挖掘又主要包括w e b 文本挖掘和w e b 多媒体挖掘。和多 媒体信息相比,虽然w e b 文本信息比较普通,但文本仍然是w e b 上信息传播的 最主要媒体。此外,文本挖掘又相对容易取得技术突破,其中的许多研究成果 也可以为多媒体挖掘和结构挖掘所借鉴。因此文本挖掘技术的研究具有十分重 要的意义和广泛的应用前景。本文重点对w e b 文本挖掘的的定义、文本挖掘的 意义、文本挖掘的主要内容以及文本挖掘的方法进行讨论。 第三章文摘与自动文摘技术 本章首先对文本自动摘要的特点和内容进行总结,然后介绍文本摘要的常 用方法;最后描述了文本摘要系统的质量评价体系和方法。 3 1 文摘的相关概念 3 1 1 文摘的概念 什么是文摘? 在中华人民共和国国家标准文摘编写规则( g b 6 4 4 7 8 6 ) 中,文摘被定义 为:“以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文 献重要内容的短文。 美国国家标准学会( a n s i ) 文摘编写标准中给出了文摘的一个定义:“某 一文献内容的简要而准确的表述,不加解释和评论,也不区分这篇文摘是由谁 写的。”【3 3 】 国际标准文献工作一出版物的文摘和文献工作( i s 0 2 1 4 1 9 7 6 ( e ) ) 中的文 摘指的是:“一份文献内容的缩短的精确的表达而无须补充解释或评论。且对写 文摘的人来说没有差别。” 在这三个定义中,都提出了“不加评论和解释的要求,即对文摘客观性 的要求。但是,也有学者认为:在实际生活中,任何人对每一样东西的认识都 包含了他自己的立场、观点和知识。因此,全世界的实验都表明了:几乎任何 二人对同一篇文章的摘要都不会完全相同;甚至是同一个人,在不同的时间, 对同一篇文章所做的摘要都不会完全相同。同时,因为信息爆炸般地产生,社 会加强了对综合性摘要与评论性摘要的需求,因此,他们按“实事求是 的原 则,毅然抛弃了全世界关于摘要的旧定义中的排除一切主观因素的要求。在他 们的定义中的“主题等内容”,是指文章的主题,或用户所需求的偏重信息;所 谓“尽可能简要”,是由摘录者和用户的水平所决定的。这里的偏重,是指用户 常常要求从不同的角度去看文章。 实际上,文摘确难被准确定义,国际著名的模糊数学大师l a z a d e h 在和 我们讨论自动摘要问题时也这么认为。文摘在中文中也可以称为摘要、概要、 提要、梗概、简介等,在英文中则有s u m m a r y ,b r i e f , c o m p e n d i u m ,e p i t o m e ,p r e c i s e 等,这些术语在概念上和文摘( a b s t r a c t ) 都有一些细微的差别。使用什么术语并 不十分重要,只要摘出的内容满足需要即可。 3 1 2 文摘的特点和功能 文摘的特点可归纳为三点【3 4 j : ( 1 )简洁性:文摘比所摘的文献短,长度为原文献的5 一l o 的文摘就 能基本上反映文献的主要内容;当文摘的长度达到原文献的1o 一2 5 时,很多 文章的写作风格就可以在文摘中体现出来了。 ( 2 ) 准确性:无论长短,文摘必须准确无误地报道原文献的基本内容,不 能主观改变原文观点,科技文献的文摘要确保正确引用原文中的各项数据。 ( 3 ) 清晰性:必须使用一种易读的文体把文献内容消晰地表示出来,最好 用完整的句子编写文摘,并尽可能使用著者自己使用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西藏流散僧尼管理办法
- 企业环境安全培训计划课件
- 企业火灾安全培训课件
- 纪委规范案件管理办法
- 2025年国家工作人员学法用法考试题库附参考答案
- 中级消防设施操作员试题考试题库含答案
- 出租屋安全培训方案课件
- 企业安全巡查培训内容课件
- 新媒体环境下的文化传播转型-洞察及研究
- 企业安全学习培训总结课件
- 农村电网改造合同协议书
- 2021版十八项医疗质量安全核心制度附流程图
- 门窗安装用工合同模板
- 人教版(2024年新版)七年级上册美术全册教学设计
- 人教版六年级数学上册第一单元测试卷
- 心电图并发症预防及处理
- TCECA-G 0286-2024 户式空气源热泵水机三联供系统技术规范
- 多感官体验融合算法与模型
- 2020六年级上册综合实践教案(苏少版)
- 安踏门店员工劳动合同
- JT-T-155-2021汽车举升机行业标准
评论
0/150
提交评论