




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)基于领域的信息分类和搜索技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
济南大学硕士学位论文 捅斐 随着互联网的快速发展,网络信息资源量爆炸性的增长,使得人们从浩瀚的信 息世界里查询到自己所需要的信息越来越困难,于是需要借助搜索引擎来进行查询。 目前已成熟的大型通用搜索引擎有谷歌和百度等,它们已经实现了强大的搜索功能, 但在一定程度上不能满足用户对特定领域信息的搜索需求,存在一些问题,如检索 的反馈量过大,甚至返回结果中有时经常包含一些广告信息等,为此基于领域的快 速准确的搜索引擎成了迫切的需要。 基于领域的搜索引擎也可称为主题型搜索引擎或专业垂直搜索引擎,从情报信 息服务的角度而言,也可称之为专题搜索引擎,主要用于从因特网上搜索和查询某 一特定领域的信息与知识。目前,基于领域的搜索引擎主要分成两类:一类是基于 内容的搜索,其内部包含一个针对特定主题的关键词表,搜索引擎的网络机器人( 也 称网络蜘蛛或爬行器) 根据该关键词表对网络信息进行检索。另一类是基于网页链 接分析的检索,通过分析网页之间的链接的汇聚性,搜索与主题相关的信息。本课 题采用的是基于内容的搜索。基于领域的搜索引擎面向特定专题或学科领域,以互 联网网络信息资源为对象,利用计算机自动搜集符合该特定专题或学科所需的信息 资源,是当前科研院所,教学单位以及数字资源建设中网络信息资源采集的有力工 具。 与大型综合性通用搜索引擎相比,基于领域的搜索引擎主要具有以下几个特 点:其一,由于专注于某一特定学科领域,可以利用专业词汇表进行规范和控制, 对相应的关键词进行深入的分析和研究,大大提高了查全率与查准率。其二,由于 采集的信息专业性强,数量较少,可以由专家对自动采集的信息进一步分类标引, 进一步优化和组织整理,提高信息的质量,建立起一个高质量的、专业信息收录全 面并能够实时更新的索引数据库。其三,由于索引的数据库规模小,有利于缩短查 询响应的时间,可以采用复杂的查询语法,提高用户的准确查询精度。 但是,目前基于领域的搜索引擎检索功能上和通用搜索引擎相比显得过于简 单,其中一些只有简单关键词检索功能,检索词问逻辑关系的限定不是很全面,从 检索界面语言上看,专业搜索引擎的界面语言单一,大部分为英文检索界面,不能 选择设定其他语种。a g r i s c a p e 虽然提供有4 种语言检索界面,但只有英语界面才能 进行检索,其他语种界面实际上是收录相应语言网站的目录。而这些英语界面的专 i i i 基于领域的信息分类和搜索技术的研究 业搜索引擎也仅支持英文关键词检索,不能进行交叉语言检索,因此专业搜索引擎 的检索功能有待进一步的完善。 综上,本课题提出一种针对特定领域的基于数据挖掘算法的中文搜索引擎设计 方案,结合上面几种方式的优点,将改进的关联规则算法应用于文本聚类中,支持 用户用中文自然语言检索,实现了抽取信息的智能化、数据库的自动更新化。 关键词:数据挖掘;关联规则;文本聚类;搜索引擎 i v 济南大学硕士学位论文 a b s t r a c t a l o n g 、加t 1 1t h ef a s td e v e l o p m e n to fi n t e r n e ta n dt h ei n c r e a s eo fa l lk i n d so fn e t w o r k i n f o r m a t i o n ,i tb e c o m e sm o r ea n dm o r ed i f f i c u l tf o rp e o p l et of i n do u tt h ei n f o r m a t i o n w h i c ht h e yr e a l l yn e e d s os e a r c he n g i n ei su s e dt o q u e r yi n f o r m a t i o n n o ws o m e m a t u r i t y , l a r g e - s c a l ea n dg e n e r a l - p u r p o s es e a r c he n g i n e s ,s u c ha sg o o g l ea n db a i d u , h a v er e a l i z e ds o m ep o w e r f u ls e a r c hf u n c t i o n s h o w e v e r , t os o m ee x t e n t ,t h e yc a n tm e e t t h eu s e r s s e a r c h i n gn e e di ns p e c i a lf i e l d s f o re x a m p l e ,e x c e s s i v ei n f o r m a t i o ni s r e t u r n e db a c ka n de v e nm u c ha d v e r t i s e m e n ti n f o r m a t i o ni sc o n t a i n e d s oa l li n t e l l i g e n t s e a r c he n g i n eb a s e do ns p e c i a lf i e l d si sd e m a n d e d u r g e n t l y s e a r c he n g i n eb a s e do ns p e c i a lf i e l d sc a nb en a m e da st o p i c - b a s e ds e a r c he n g i n e ,o r s p e c i a l t yv e r t i c a ls e a r c he n g i n e ,o rs e a r c he n g i n eb a s e do ns p e c i a ls u b j e c ti nt e r m so f i n f o r m a t i o ns e r v i c e i ti sm a i n l yu s e dt os e a r c ha n dq u e r yi n f o r m a t i o no ni n t e r n e t a t p r e s e n t ,t h e r ea r et w ok i n d so fs e a r c he n g i n eb a s e do ns p e c i a lf i e l d s :o n ei sb a s e do n c o n t e n tw h i c hi n c l u d e sas p e c i a lk e y w o r d st a b l ea n dt h en e t w o r k s p i d e rc a nd os e a r c h i n g a c c o r d i n gt ot h i sk e y w o r d st a b l e t h eo t h e ro n ei sb m e do na n a l y s i so fw e b p a g el i n k s i t s e a r c h e st h er e l a t e di n f o r m a t i o n b ya n a l y z i n gt h el i n k sa m o n gw e bp a g e s i nt h i s d i s s e r t a t i o n , t h es e a r c he n g i n eb a s e do nc o n t e n ti sa p p l i e d t o p i c b a s e ds e a r c he n g i n e f a c e s s p e c i f i cs u b j e c ta r e a s ,a n di t i su s e dt os e a r c ht h ei n f o r m a t i o nr e s o u r c e a u t o m a t i c a l l ya c c o r d i n gt ot h eg i v e ns u b j e c tn e e d e db yu s e r s i ti sap o w e r f u lt o o lt o g a t h e ri n f o r m a t i o na u t o m a t i c a l l yf r o mn e t w o r ki nr e s e a r c hi n s t i t u t e ,t e a c h i n gu n i t sa n d n u m e r i cr e s o u r c ec o n s t r u c t i n g c o m p a r e dw i t ht h ei n t e g r a t e dg e n e r a l - p u r p o s es e a r c he n g i n e ,t h es e a r c he n g i n e b a s e do ns p e c i a lf i e l d sh a st h ef o l l o w i n g f e a t u r e s :f i r s t l y , d u et of o c u s i n go ns o m ec e r t a i n s u b j e c t s ,t h ed a t a b a s ec a nb ec o n t r o l l e db ys p e c i a lv o c a b u l a r y a tt h es a m et i m e ,t h e c o r r e s p o n d i n gk e y w o r d sh a v eb e e na n a l y s e d ,s ot h er e c a l lr a t i oa n dp r e c i s i o nr a t i oc a nb e i m p r o v e d s e c o n d l y , b e c a u s et h ei n f o r m a t i o nc o l l e c t e di ss p e c i a la n df e w e rt h a nt h e i n t e g r a t e dg e n e r a l - p u r p o s es e a r c he n g i n e s ,i tc a nb ec l a s s i f i e d ,o p t i m i z e da n do r g a n i z e d f u r t h e rb ye x p e r t ,a n dt h e nt h ei n f o r m a t i o nq u a l i t yc a l lb ei m p r o v e de f f e c t i v e l y t h e i n d e xd a t a b a s ew h i c hi so fc o m p r e h e n s i v ei n f o r m a t i o ni ns p e c i a lf i e l d si ss e tu ps o o n a t v 基于领域的信息分类和搜索技术的研究 t h es a m et i m e ,t h i sh i g h - q u a l i t ) ,d a t a b a s ec a l lb eu p d a t e di nt i m e t h i r d l y , a st h es c a l eo f t h ei n d e xd a t a b a s ei ss m a l l e rw h i c hi s p r o p i t i o u st os h o r t e nt h et i m eo fq u e r y , t h e c o m p l i c a t e dq u e r ys y n t a xc a l lb ea d o p t e dt oi m p r o v eu s e r s q u e r ya c c u r a c y h o w e v e r , t h ef u n c t i o no ft h es e a r c he n g i n eb a s e do ns p e c i a lf i e l d si sm u c hs i m p l e r t h a nt h ei n t e g r a t e da l l p u r p o s es e a r c he n g i n es of a r s o m eo ft h e s ee n g i n e sc a l lo n l y s e a r c ht h ei n f o r m a t i o nb a s e do ns i m p l ek e y w o r d s ,a n dt h el o g i c a lr e l a t i o nb e t w e e n k e y w o r d si sn o tv e r yc o m p r e h e n s i v e 1 1 1 ei n t e r f a c el a n g u a g ei ss i n g l ea n dm o s to fs e a r c h e n g i n e sa r eo n l yd e s i g n e di ne n g l i s h a l t h o u g ht h ei n t e r f a c e sp r o v i d e db ya g r i s c a p ea r e d e s i g n e di nf o u rl a n g u a g e s ,o n l yt h ei n t e r f a c ei ne n g l i s hc a l lb eu s e da n d t h ei n t e r f a c e si n o t h e rl a n g u a g e sa r eo n l ye m b o d y e di nt h ec o r r e s p o n d i n gw e b s i t e sc a t a l o g t h e s es e a r c h e n g i n e sb a s e do ns p e c i a lf i e l d sw h i c ha l ed e s i g n e di ne n g l i s hi n t e r f a c eo n l yp r o v i d e e n g l i s hk e y w o r d ss e a r c ha n dt h ei n f o r m a t i o nb a s e do nc r o s s - l a n g u a g ek c y w o r d sc a n tb e s e a r c h e d s ot h es e a r c hf u n c t i o no fs e a r c he n g i n eb a s e do ns p e c i a lf i e l d ss h o u l db e c o n s u m m a t e df u r t h e r i nc o n c l u s i o n ,as e to fc h i n e s es e a r c he n g i n es c h e m ea b o u ts p e c i a lf i e l d sb a s e do n d a t am i n i n gi sp u tf o r w a r di nt h i sp a p e r i tc o m b i n e ss o m ea d v a n t a g e so fm e t h o d sa b o v e a n da p p l i e st h ei m p r o v e da s s o c i a t i o nr u l e sa l g o r i t h mt ot e x tc l u s t e r i n ga l g o r i t h m f i n a l l y t h i ss e a r c he n g i n er e a l i z e st h a tu s e r sc a ns e a r c ht h ei n f o r m a t i o ni nc h i n e s e a tt h es a m e t i m e ,u s e r sc a ne x t r a c tt h ei n f o r m a t i o ni n t e l l i g e n t l ya n dt h ed a t a b a s ec a nb eu p d a t e d a u t o m a t i c a l l y k e y w o r d s :d a t am i n i n g ;a s s o c i a t i o nr u l e ;t e x tc l u s t e r i n g ;s e a r c he n g i n e v i 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律责任由本人承担。 论文作者签名:毯_ s 日期: 趁笪2 :瞧 关于学位论文使用授权的声明 本人完全了解济南大学有关保留、使用学位论文的规定,同意 学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借鉴;本人授权济南大学可以将学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:主蕉喹导师签名日期:翌2 :尘:! 莎 济南大学硕士学位论文 第一章绪论 1 1 课题背景、目的和意义 随着i n t e r a c t 的发展与应用,智能化信息技术得到迅猛发展,网络成了人们获取信 息的有效工具。但是,网络信息资源量爆炸性的增长,使得人们从浩瀚的信息世界里 查询到自己所需要的信息越来越困难,于是需要借助搜索引擎来进行查询。同时,网 络信息的迅猛增长也使得搜索引擎面临了前所未有的挑战,搜索引擎如何适应这种规 模的急剧膨胀,成为一个备受关注的问题。目前已成熟的大型通用搜索引擎有谷歌, 百度等,但它们在一定程度上不能满足用户对特定领域信息的搜索需求,存在特定领 域检索精度不高、反馈量过大、资源分类过于笼统、查询结果显示顺序比较混乱等问 题,为此基于领域的快速准确的搜索引擎成了迫切的需要i l 】。 一般通用搜索引擎的缺点主要来源于它们力图覆盖整个网络,并为所有可能的主 题提供查询服务的目标,而基于领域的搜索引擎克服了以上的缺点,拥有更好的查全 率和查准率,因为它们将搜索的内容限定在一定的领域里,有效缩减了搜集的范围i z j 。 与大型综合性通用搜索引擎相比,基于领域的搜索引擎主要具有以下几个特点【2 】:其 一,由于专注于某一特定学科领域,可以利用专业词汇表进行规范和控制,对相应的 关键词进行深入的分析和研究,大大提高了查全率与查准率。其二,由于采集的信息 专业性强,数量较少,可以由专家对自动采集的信息进一步分类标引,进一步优化和 组织整理,提高信息的质量,建立起一个高质量的、专业信息收录全面并能够实时更 新的索引数据库。其三,由于索引的数据库规模小,有利于缩短查询响应的时间,可 以采用复杂的查询语法,提高用户的准确查询精度。 本课题研究的目的是利用现有的自然语言理解技术,改革一般搜索系统模式,充 分利用网络资源,通过机器处理自动理解用户提交的用自然语言描述的检索信息,并 自动返回相关信息,其中包括自然语言理解技术、文本分类技术【3 ,4 】和数据挖掘技术【5 】 与数据仓库【6 】技术,最终实现了检索信息的智能化、数据仓库的自动更新化目的,从 而使得用户可以更加方便的使用系统,管理员可以更加容易的管理系统,系统返回的 信息具有更高的相关性。简而言之,返回结果更有效,查询更省时,管理更方便,减 轻了系统管理员的负担,更好地帮助用户搜索,提高了基于领域的搜索引擎的质量和 效率。 由于基于领域的搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不 1 摹于领域的信息分类和搜索技术的研究 够等提出来的新的搜索引擎服务模式,它通过针对某一特定领域、某一特定人群或某 一特定需求提供的有一定价值的信息和相关服务,其特点就是“专、精、深”,且具 有行业色彩阴,所以相比较通用搜索引擎的海量信息无序化而言,基于领域的搜索引 擎显得更加专注、具体和深入。 1 2 国内外研究动态 目前,国内外已有许多优秀的基于领域的专业搜索引擎【8 1 ,例如: ( 1 ) 针对数学和统计学的专业搜索引擎 m a t h s e a r c h ( w w w m a t h s u s y d e d u a u :8 0 0 0 m a t h s e a r c h h t r n l ) ,由网络机器人( 网络蜘 蛛) 自动搜索、筛选和标引,可向用户提供文章标题、网址、描述信息、网页语言、 网站类型及所在地区、相关度百分比,并具有网页类聚的功能,无资源分类方式;可 限制多个检索词是否出现在同一句子当中;检索界面语言英文;检索结果显示标题、 网址、网页文件大小、检索词出现的次数;不支持字段检索。 ( 2 ) 针对化学化工信息的专业搜索引擎 c h e m i n d u s t r y ( w w w c h e m i n d u s t r y c o m ) ,涵盖4 5 0 0 0 多个站点和大量的网页,上百 万个网页,由编辑搜集、标引,也可由网站提交,可提供文章相关度、检索词词频以 及信息提供机构的相关信息,按所涉及学科内容和资源类型两种标准进行划分;支持 a n d ,0 1 ,n o t ,+ 号,一号,截词符木,精确词组检索使用双引号;可对资源类型、所在 地区、所属分类作限制;检索界面语言英文;检索结果显示百分比相关度、检索词出 现频率、信息提供机构的性质及所在地区、描述信息;不支持字段检索。 ( 3 ) 针对法律的专业搜索引擎 f i n d l a w ( w w w f i n d l a w t o m ) ,i 丰l g o o g l e 提供技术支持,支持一号,可显示标题、网 址、描述信息、具有近似搜索的能力;规模较大,人工标引;资源分类方式根据适用 对象划分为商业资源、学生资源、公众与客户资源:不支持字段检索。 ( 4 ) 针对生命科学领域的专业搜索引擎 b i o p o r t f o l i o ( w w w b i o p o r t f o l i o c o m i n d c x s h t m l ) ,有5 0 0 0 个生命科学站点、1 5 0 0 万网页,并标引文件类型,没有资源分类方式:可设置检索是否使用布尔运算符: 一- 可限定时间范围;检索界面语言英文;。检索结果显示网址、描述信息、文件类型, 提供近似搜索功能,检索结果的排序方式包括按相关度、日期优先、相关度优先; 不支持字段检索。 ( 5 ) 针对生物学的专业搜索引擎 2 济南大学硕十学位论文 b i o l o g y b r o w s e r ( w w w b i o l o g y b r o w s e r c o r n ) ,对动物学内容采用动物学扩展词典 进行标引,资源分类方式根据生物体、所涉及学科内容和所在地区分成三个大类;检 索词问的逻辑关系可设为“a n yt e r m 、“a l lt e r m s ”两种方式;可对所属类别作限制: 检索界面语言英文:检索结果显示标题、所属分类和描述信息;不支持字段检索。 ( 6 ) 针对医学的专业搜索引擎 h o n c o d e ( w w w h o n c n h o n c o d e ) ,有2 8 0 0 个认证过的站点,h o n s e l e c 精选站点使 用m e s h 主题词表进行标引,资源分类方式分为认证站点、精选站点、新闻、图片、 会议:简单关键词检索,空格表示逻辑与关系;检索界面语言英文:检索结果显示标 题、网址、描述信息、网页语言、网站类型及所在地区、相关度百分比,并具网页类 聚功能;不支持字段检索。 ( 7 ) 针对医学的专业搜索引擎 m e d i e a l w o r l d s e a r e h ( w w w m w s e a r c h c o r n ) ,机器人自动搜索,经人工筛选后再由 机器人自动标引,标引时结合u m i s ,无资源分类;支持布尔检索,用户检索时,系 统显示检索词的同义词及其注释,用户可从中选词进行缩检与扩检;检索界面语言英 文;检索结果显示标题、描述信息,检索结果按相关度、网页大小进行排序;不支持 字段检索。 ( 8 ) 针对农业及相关产业的专题搜索引擎 a g r i s e a p e ( w w w a g r i s c a p e c o r n ) ,由编辑搜集站点或者由网站提交编辑标引,资源 分类方式以检索的事物为中心进行分类;简单关键词检索,空格表示逻辑与关系;检 索界面语言英语、中文、西班牙语、法语:检索结果显示标题、所在地区、所属分类、 描述信息:不支持字段检索。 ( 9 ) 针对商业的专题搜索引擎 b u s i n e s s ( w w w b u s i n e s s e o m ) ,有4 0 万个商业性站点,专家标弓l ,资源分类方式 根据涉及的行业内容划分为2 4 大类,同时建立有流行目录;g o o s e 技术支持,支持+ 号,一号,词干检索;检索界面语言英语;检索结果显示标题、网址、描述信息,提 供相似网页功能;不支持字段检索。 ( 1 0 ) 国内比较成熟的专题搜索引擎有化学之门 ( w w w e h e m o n l i n e n e t c h e m d o o r ) ,1 0 0 0 0 多个站点,由用户提交,编辑搜集,资源 分类方式按所涉及学科内容和资源类型两种标准进行划分,检索词间的逻辑关系可设 成“与 、“或 两种方式,字段检索支持网址、标题和网站说明;可以对网页使用 基于领域的信息分类和搜索技术的研究 语言作限制;检索界面语言是中文;检索结果显示标题、网页使用语言、和描述信息。 综上,可以看出,专业搜索引擎检索在功能上和通用搜索引擎相比显得过于简单。 一些引擎只有简单关键词检索功能,检索词间逻辑关系的限定不是很全面,很少支持 字段检索,缺乏必要的限定功能。从检索界面语言上看,专业搜索引擎的界面语言单 一,大部分为英文检索界面,不能选择设定其他语种。a g f i s c a p e 虽然提供有4 种语言 检索界面,但只有英语界面才能进行检索,其他语种界面实际上是收录相应语言网站 的目录。而这些英语界面的专业搜索引擎也仅支持英文关键词检索,不能进行交叉语 言检索1 9 1 ,因此专业搜索引擎的检索功能有待进一步的完善。 1 3 论文的组织结构 论文从结构上分为以下五个部分: 第一章,首先对课题研究的背景作了大体的介绍,阐述了课题研究的目的和意 义,然后分析了当前国内外的发展动态,并叙述了论文的组织结构和主要研究成果。 第二章,阐述了课题所涉及的两大主要技术数据仓库技术和数据挖掘技 术,主要分析了数据库与数据仓库的区别以及数据仓库的结构体系和数据模型等。 第三章,讲述了文本挖掘的概念,挖掘过程、方法及其应用,因为本课题的工 作主要属于文本挖掘的范畴,所以对文本挖掘过程和方法作了详细的介绍。 第四章,本课题对文本聚类和关联规则算法两个经典算法做了大量的研究、改 进与应用,在本章中对这两部分进行了详细的分析与算法实现演示,同时深入研究 了课题中涉及到的其他相关算法,如分词算法,权重计算算法,文本特征向量表示 方法,特征选择方法,相似度计算方法等。针对每一种方法进行详细讲解,并将其 在系统中的应用给予实现。 第五章,给出了系统数据仓库的设计与实现方案流程图,演示了本系统数据仓 库整理与实现的过程;然后给出了本搜索系统的总体功能框架设计与搜索中相关算 法的流程,并演示了用户的搜索过程。 第六章,给出了后台文档库的多次文本聚类的测试结果和系统搜索的结果,并 对结果进行分析比较。 第七章,总结全文,并对下一步的工作进行展望。 1 4 论文的主要研究成果 本文结合国内外各类搜索引擎的优点,提出一种针对特定领域的基于数据挖掘 算法的中文搜索引擎设计方案,将改进的关联规则算法应用于文本聚类中,支持用 4 济南大学硕士学位论文 户用中文自然语言检索,实现了抽取信息的智能化、数据库的自动更新化。最终论 文取得的研究成果主要包括: ( 1 ) 利用数据挖掘算法将某大学虚拟社区多年积累的海量论坛帖子数据整理出 一个分类存储可以直接用于数据挖掘的数据仓库。 ( 2 ) 将关联规则算法应用于虚拟社区论坛信息库中,得出了基于关键词的关联 规则,用于计算关键词间的关联度,进而计算文档( 论坛帖子) 之间的相似度。 ( 3 ) 针对现有的文本聚类算法对于小文档聚类效果差的问题,提出了一种改进 的k 1 l r l e l , n s 聚类算法,该算法的文档相似度计算是利用关键词的关联度的方法与空 间向量模型并行挖掘的思想得出的,这种聚类算法有效地解决了论坛内帖子文档集 的聚类问题,实验证明提高了聚类的准确率和召回率。 ( 4 ) 实现了一个基于限定领域的高效快速准确的中文智能搜索引擎。经过反复 测试,证实本系统实现了抽取信息的智能化、数据库的自动更新化。 5 济南大学硕士学位论文 2 1 数据仓库 第二章数据仓库与数据挖掘原理 数据仓库( d a t aw a r e h o u s e ) 的概念是由w h i n m o n 在1 9 9 2 年出版的建立数 据仓库( b u i l d i n gt h ed a t aw a r e h o u s e ) 一书中提出的。数据仓库是以关系数据库、 并行处理和分布式技术为基础的信息新技术。 从目前的形势看,数据仓库技术已紧跟i n t e m e t 而上,成为信息社会中获得企 业竞争优势的又一关键技术。数据仓库是面向主题的、集成的、稳定的、不同时间 的数据集合,用于支持经营管理中的决策制定过程【l o l 。 2 1 1 数据库与数据仓库 传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作, 即对一个或一组记录的查询和修改,主要是为企业特定的应用服务的。用户关心的 是响应时间,数据的安全性和完整性。数据仓库用于决策分析,也称分析型处理, 它是建立在决策支持系统( d s s ) 基础上。数据库与数据仓库的对比如表2 1 所示。 表2 1 数据库与数据仓库对比 数据库数据仓库 面向应用面向主题 数据是详细的数据是综合的或提炼的 保持当前数据保存过去和现在的数据 数据是可更新的数据不更新 对数据操作是重复的对数据的操作是启发式的 操作需求是事先可知操作需求是临时决定的 一个操作存取一个记录 个操作存取一个集合 数据非冗余 数据时常冗余 操作比较频繁操作相对不频繁 查询的是原始数据查询的是经过加工的数据 事务处理需要的是当前数据 决策分析需要过去、现在的数据 很少有复杂的计算 很多复杂的计算 支持事物处理 支持决策分析 2 1 2 数据仓库系统结构 数据仓库系统由数据仓库、仓库管理和分析工具三部分组成。其结构形式如图 2 1 所示【1 0 l 。 7 基于领域的信息分类和搜索技术的研究 ( 一一1 数据建模查询工具 关糸毅瑶库 一, 抽取、转换、 综合数据 o l a p 工具 l h 装载( e t l ) i k ”“6 ” j 当前数据 d m 工具 一茸种粒棍r1 、广 元数据 i 。艿旧取明 历史数据c s 工具 系统管理 源数据 仓库管理数据仓库分析工具 图2 1 数据仓库系统结构图 数据仓库的数据来源于多个数据源。源数据包括企业内部数据、市场调查报告 以及各种文档之类的外部数据。 ( 1 ) 数据获取:这个部分负责从外部数据源获取数据,数据被区分出来,进行 拷贝或重新定义格式等处理后,准备装入数据仓库。 ( 2 ) 数据存储和管理:这个部分负责数据仓库的内部维护和管理,提供的服务 包括数据存储的组织、数据的维护、数据的分发及数据仓库的例行维护等,这些工 作需要利用数据库管理系统( d b m s ) 的功能。 ( 3 ) 信息访问:这个部分属于数据仓库的前端,面向不向种类的最终用户。 主 要由查询生成工具、多维分析工具和数据挖掘工具等工具集组成,以实现决策支持 系统的各种要求。 进一步考虑,我们可以认为数据仓库首先是一个数据库系统,可以视为一种满 足数据仓库管理要求的特殊数据库系统,其基本功能可以具体细分为如图2 2 所示 的5 个部分。 源数据库集合数据仓库数据 最终用户 图2 2 数据仓库细化结构图 ( 1 ) 数据定义:主要完成数据仓库的结构和环境的定义,包括:定义数据仓库 中数据库的模式、数据仓库的数据源和从数据源提取数据时的一组规则或模型。 8 研再大掌坝士掌位论文 ( 2 ) 数据提取:数据提取部分负责从数据源提取数据,并对获得的源数据 ( s o u r c ed a t a ) 进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语 义规范,所以也称为“数据泵 ( d a t ap u m p ) 。 ( 3 ) 数据管理:数据管理由一组系统服务工具组成,负责数据的分配和维护, 支持数据应用。数据分配完成获取数据的存储分布及分发到多台数据库服务器,维 护服务完成数据的转储和恢复、安全性定义和检测等。另外,用户直接输入系统的 数据也由该部分完成。 ( 4 ) 信息日录:数据仓库管理的数据是描述系统状态变化的综合性数据,提供 各级管理分析与决策的应用,满足数据仓库的开发人员和维护人员进行数据维护的 需要。信息目录描述系统数据的定义和组织,通过它用户或开发人员可以了解数据 仓库中存放的数据,以及如何访问、使用和管理。按数据仓库数据管理与应用要求, 其信息目录可以设计为3 个子部分:技术目录、业务目录和信息导航目录。 ( 5 ) 数据应用:数据仓库的数据应用除了一般的直接检索性使用外,还应当能 够完成比较常用的数据表示和分析j 如图表表示、统计分析、结构分析、相关分析 和时间序列分析等。对于涉及到众多数据的综合性较强的分析,可以借助专业数据 分析上具。在客户机服务器体系结构下,这部分功能可以放在客户端来完成,以便 充分利用目前微机上丰富的数据分析软件。数据分析与报表是从大量的数据中提取 出原来未知的数据间相互关系,找出数据间潜在的模式,发现经营者可能忽略的信 息,并为企业做出基于知识的决策。它包括报表生成工具、o l a p 、数据挖掘、决 策支持工具,其中比较重要的是0 l a p 和数据挖掘【l l 】。 2 1 3 数据仓库数据模型 所谓数据模型,就是对现实世界进行抽象的工具,抽象的程度不同,也就形成 了不同抽象级别层次上的数据模型。数据仓库的数据模型与操作型数据库的三级数 据模型又有一定的区别,主要表现在: ( 1 ) 数据仓库的数据模型中不包含纯操作型的数据。 ( 2 ) 数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分。 ( 3 ) 数据仓库的数据模型中增加了一些导出数据。 可以看出,上述三点差别也就是操作型环境中的数据与数据仓库中的数据之间 的差别,同样是数据仓库为面向数据分析处理所要求的,虽然存在着这样的差别, 在数据仓库设计中,仍然存在着三级数据模型,即概念模型、逻辑模型和物理模型。 9 幂于领域的信息分类和搜索技术的研冗 a ) 概念模型 概念模型是主观与客观之间的桥梁,它是用于我们为一定的目标设计系统、收 集信息而服务的一个概念性的工具。具体到计算机系统来说,概念模型是客观世界 到机器世界的一个中间层次。人们首先将现实世界抽象为信息世界,然后将信息世 界转化为机器世界,信息世界中的这一信息结构,即是我们所说的概念模型。 概念模型最常用的表示方法是e 川法( 实体一联系法) ,这种方法用e - r 图 作为它的描述工具,e 呻图描述的是实体以及实体之间的联系。由于e - l 己图具有 良好的可操作性,形式简单,易于理解,便于与用户交流,对客观世界的描述能力 也较强,在数据库设计方面更得到了广泛的应用。因为目前的数据仓库一般建立在 关系数据库的基础之上,为了和原有数据库的概念模型相一致,采用e - _ r 图作为 数据仓库的概念模型仍然是较为适合的。 b ) 逻辑模型 目前数据仓库一般建立在关系数据库基础之上,因此,在数据仓库的设计中采 用的逻辑模型就是关系模型。无论是主题还是主题之间的联系,都用关系来表示, 我们认为,关系模型概念简单、清晰、用户易懂、易用,有严格的数学基础和在此 基础上发展的关系数据理论;关系模型简化了程序员的工作和数据仓库设计开发的 工作,当前比较成熟的商品化数据库产品都是基于关系模型的,因此采用关系模型 作为数据仓库的逻辑模型是合适的。 数据仓库的逻辑模型描述了数据仓库的主题的逻辑实现,即每个主题所对应的 关系表的关系模式的定义。 c ) 物理模型 所谓数据仓库的物理模型就是逻辑模型在数据仓库中的实现,如物理存取方 式、数据存储结构、数据存放位置以及存储分配等等。物理模型是在逻辑模型的基 础之上实现的,在进行物理模型设计实现时,所考虑的主要因素有:i o 存取时间、 空间利用率和维护代价;在进行数据仓库的物理模型设计时,考虑到数据仓库的数 据量大但是操作单一的特点,可采取其他的一些提高数据仓库性能的技术,如:合 并表、建立数据序列、引入冗余、进一步细分数据、生成导出数据、建立广义索引 等等【1 2 1 。 2 1 4 数据抽取、转换和装载 数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、装载( l o a d ) 的过程简称e t l ,它是 1 0 研雨大学坝十学位论文 构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断 变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库系统中有可能存 在着大量的噪声数据,引起的主要原因有:滥用缩写词、惯用语、数据输入错误、 重复记录、丢失值、拼写变化等。即便是一个设计和规划良好的数据库系统,如果 其中存在着大量的噪声数据,那么这个系统也是没有任何意义的,因为“垃圾进, 垃圾出 ( g a r b a g ei n ,g a r b a g eo u t ) ,系统根本就不可能为决策分析系统提供任何支 持。为了清除噪声数据,必须在数据库系统中进行数据清洗。 数据抽取、转换和装载完成如下任务:从源数据抽取数据、进行一定的变换、 装载到数据仓库。在上述过程中,需要进行如下数据处理【1 3 1 。 ( 1 ) 简单变换:是数据变换最简单的形式,一次只针对一个字段,而不是考虑 相关字段的值。主要有数据类型的转换、日期时间的格式转换、字段解码等。 ( 2 ) 清洁和刷洗:目的是为了保证前后一致地格式化和使用某一字段或相关的 字段群。清洁和刷洗是两个可以互换的术语,指的是比简单变换更为复杂的一种变 换。在这种变换中,要检查的是字段和字段组中的实际内容而不仅是存储格式。一 种检查是检查数据字段值的有效值,它指的是检验一个字段的有效值以保证它落在 预期的范围之内,通常是数字范围和日期范围。数据刷洗的另一主要类型是重新格 式化某些类型的数据,这种方法适用于可以用许多不同方式存储在不同数据来源中 的信息,必须在数据仓库中把这类信息转换成一种统一的表示方式。 ( 3 ) 集成:要把从来源全然不同的数据结合在一起,真正的困难在于将其集成 一个紧密结合的数据模型。这些数据来源往往遵守的不是同一套业务规则,在生成 新数据时,必须考虑到这一差异。 ( 4 ) 聚集和概括:大多数数据仓库都要用到数据的某种聚集和概括。这通常有 助于将某实例的数目减少到易于驾驭的水平,也有助于预先计算出广泛的概括数 字,以使每个查询不必计算它们。概括是指按照一个和几个业务维将相近的数值加 在一起,聚集是将不同业务元素加在一起或为一个公共总数,在数据仓库中它们是 以相同的方式进行的。 2 1 5 创建数据仓库的模式 创建数据仓库的方式,根据其出现的先后顺序,主要分为两种模式:自顶向下 ( t o p d o w n ) ,自底向上( b o t t o m u p ) 。 ( 1 ) 自顶向下 1 1 摹于领域的信息分类和搜累技术的研冤 这种模式首先把o l t p 数据通过e t l 汇集到数据仓库中,然后再把数据通过复 制的方式推进各个数据集市中,其优点在于:数据来源固定,可以确保数据的完整 性;数据格式与单位一致,可以确保跨越不同数据集市进行分析的正确性;数据集 市可以保证有共享的字段,因为都是从数据仓库中分离出来的。 ( 2 ) 自底向上 。 这种模式首先将o l t p 数据通过e t l 汇集到数据集市中,然后通过复制的方式 提升到数据仓库中,其优点在于:由于首先构建数据集市的工作相对简单,所以容 易成功;这种模式也是实现快速数据传送的原型。 2 2 数据挖掘 数据挖掘( d a t am i n i n g ) ,又称为数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,l d ) ,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理 解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘 知 识。 2 2 1 从机器学习到数据挖掘 机器学习( m a c h i n el e a r n i n g ) 是研究计算机怎样模拟或实现人类的学习行为, 以获取新的知识
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化工分公司安全培训计划课件
- 刺刺鬼的刺掉了课件
- 初级安全培训教材课件
- 内镜生物监测课件
- 化工产品检验课件
- 二手车贷款营销方案(3篇)
- 兴化工伤预防培训课件
- 母婴电商营销方案(3篇)
- 江口县营销优化方案(3篇)
- 内蒙消防与安全培训课件
- 2025年高压电工考试题库:基础理论知识要点
- 2025中秋国庆双节安全培训
- 刑事谅解协议书范本6篇
- 护理员安全培训内容课件
- 2025年全国中小学校党组织书记网络培训示范班在线考试题库及答案
- Starter Unit 1 Hello!单元测试(解析版)
- 金税四期培训
- 托管班安全培训课件
- 汽车制造生产知识培训课件
- 2025年全国中小学校党组织书记网络培训示范班在线考试题库及答案
- 2025年县处级领导干部政治理论考试试题库(附答案)
评论
0/150
提交评论