




已阅读5页,还剩69页未读, 继续免费阅读
(计算机应用技术专业论文)基于xml的web数据挖掘.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着i n t e r n e t 的迅速发展,越来越多的数据库和信息系统不断 加入网络,使得网络上存在大量的数据,面对如此缤纷复杂的w e b 空间,如何从浩如烟海的网络数据中发掘所需信息已经成为人们所关 注的一个重要问题。虽然用户可以依赖于各种搜索引擎快速、高效、 准确地检索到相关的信息,但是要想找到用户所需要的信息,还是有 很大的困难。近年来出现的w e b 数据挖掘,特别是基于x m l 的w e b 数据挖掘对解决这个难题提供了一个有效手段。 本文研究了基于x m l 的w e b 数据挖掘的基本方法和技术。阐明了 数据挖掘的必要性、基本方法、主要过程、所涉及到的技术,以及数 据挖掘和在线分析处理的联系等,并阐述了x m l 的相关技术。在此基 础上,探讨了x m l 与w e b 数据挖掘技术,认为基于x m l 的w e b 挖掘分 为x m l 结构上的挖掘和x m l 内容上的挖掘;x m l 在w e b 挖掘中主要有 数据交换、实现异构数据集成、裁减信息内容、将负载从w e b 服务器 转到w e b 客户端等四类应用,基于x m l 的w e b 数据挖掘可分为确定业 务对象、数据准备、数据挖掘、模式评价四个步骤。 论文重点研究了非结构化文档向结构化文档转化的方法,设计并 实现从非规则、非严谨的h t m l 文档向结构化x m l 文档转化的过程, 根据用户浏览网页的行为建立用户的兴趣模型,利用x m l 数据抽取 技术将半结构化数据映射为结构化数据,建立了一个基于x m l 的w e b 数据挖掘系统。此系统可以帮助用户更好地从网络环境中挖掘到自己 需要的信息。由用户的c o o k i e s 获得用户在某个域名上的点击次数和 登陆次数,从收藏夹中获得用户收藏夹上的记录和收藏夹中记录的访 问次数,或者利用钩子函数进行用户浏览网页的动态分析,并根据这 些数据建立和更新用户兴趣模型。根据x m l 文档的结构特征从x m l 网页中抽取网页的特征向量,采用改进了的t f _ i d f 公式计算其特征 权值。根据网页特征向量与用户兴趣向量的值计算它们的相似度,把 相似度进行排序,根据用户需求把相似度大的网页推荐给用户,把用 户最感兴趣的信息放在最前面。所有的研究目的就是提供一个实用的 w e b 挖掘系统,帮助人们更好地找到自己所要的知识。 在理论论证基础上,论文对挖掘原型进行系统设计、功能模块分 解和实验分析。最后,指出了基于x m l 的w e b 数据挖掘的研究方向、 应用前景和它所面i 临的挑战。这一技术将成为未来i n t e r n e t 环境中主流 的网络计算技术。 关键词数据挖掘,x m l ,用户兴趣模型,网页推荐 i i a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r a c t ,m o r ea n dm o r ed a t a b a s e s a n di n f o r m a t i o ns y s t e mj o i nt h en e t w o r ku n c e a s i n g l y , w h i c hc a u s e s m a s s i v ed a t ai nt h en e t w o r k f a c i n gs u c hr i o t o u sc o m p l e xw e bs p a c e , h o wt oe x c a v a t et h en e e d e di n f o r m a t i o nf r o mt h ev o l u m i n o u sn e t w o r k d a t ah a sa l r e a d yb e c o m ea ni m p o r t a n tq u e s t i o n a l t h o u g ht h eu s e rm a y r e l yo nv a r i o u sk i n d so fs e a r c he n g i n et o r e t r i e v et h ec o n n e c t e d i n f o r m a t i o nf a s t ,h i g h l ye f f e c t i v e ,a n da c c u r a t e l y , i ti ss t i l ld i f f i c u l tt of m d t h ei n f o r m a t i o nw h i c ht h eu s e rn e e d s i nr e c e n ty e a r s ,t h ew e bd a t a m i n i n g ,e s p e c i a l l yt h ew e b d a t am i n i n gw h i c hb a s e do n ) 几,p r o v i d e a ne f f e c t i v em e t h o dt os o l v et h i sd i f f i c u l tp r o b l e m t h i sa r t i c l es t u d i e st h ee s s e n t i a lm e t h o da n dt e c h n o l o g yo f t h ew e b d a t am i n i n gw h i c hb a s e do nt h ex 几i l l u s t r a t e st h en e c e s s i t y , e s s e n t i a l m e t h o d ,m a i np r o c e s s ,c o n c e r n i n gt e c h n o l o g yo ft h ed a t am i n i n g ,a sw e l l a st h er e l a t i o no ft h ed a t am i n i n ga n dt h eo n l i n ea n a l y s i sp r o c e s s i n ge t c , i ta l s oe l a b o r a t e st h er e l a t e dt e c h n o l o g yo fx m 吐w i t ht h i sf o u n d a t i o n i t d i s c u s s e st h et e c h n o l o g yo ft h ex a n dt h e 、e bd a t am i n i n g r e g a r d s t h a tt h ew e bd a t am i n i n gw h i c hb a s e do nx m lc a nb ed i v i d e si n t ox m l s t r u c t u r ee x c a v a t i o na n dx m ec o n t e n te x c a v a t i o n ;x m lm a i n l yh a sf o u r k i n d so fa p p l i c a t i o n s :t h ed a t ae x c h a n g e ,i s o m e r i s md a t ai n t e g r a t i o n r e a l i z a t i o n i n f o r m a t i o nc o n t e n tr e d u c t i o na n dt or u mt h el p a df r o m b s e r v e ri n t ow e bc l i e n ts i d e n e 吧bd a t am i n i n gm a yb ed i v i d e di n t o f o u rs t e p s :t h es e r v i c eo b j e c td e t e r m i n a t i o n ,d a t ap r e p a r a t i o n ,d a t am i n i n g a n d p a u e ma p p r a i s e s t h ep a p e re m p h a s e so nt h em e t h o do ft r a n s f o r m i n gn o n - s t r u c t u r e d o c u m e n t si n t os t r u c t u r ed o c u m e n t s ,t h ep r o c e s so f t r a n s f o r m i n gt h en o n - r u l eh 眦d o c u m e n t si n t ot h es t r u c t u r ex m 吐d o c u m e n t s t oe s t a b l i s h t h eu s e ri n t e r e s tm o d e la c c o r d i n gt ot h eu s e r sw e bs c a n n i n gb e h a v e w i t l l t h eh e l po fx m ld a t ae x t r a c tt e c h n o l o g y , i tc h a n g e st h eh a l fs t r u c t u r e d a t ai n t os t r u c t u r ed a t a , a n dt h e ne s t a b l i s h e st h ew e bd a t am i n i n g s y s t e mw h i c hb a s e do nt h ex m 吐1 1 1 i ss y s t e mm a yh e l pt h eu s e rt oh a v e ab e t t e re x c a v a t i o no ft h en e e d e di n f o r m a t i o nf r o mt h en e t w o r k e n v i r o n m e n t a c c o r d i n gt ot h eu s e r sc o o k i e st oo b t a i nh i sc l i c k i n ga n d l a n d i n gt i m e si ns o m ed o m a i nn a m e ;a n dt oo b t a i nt h er e c o r d sa n dt h e i v i s i t i n gt i m e so ft h eb o o k m a r kf r o mt h eu s e r sb o o k m a r lo rt oh a v ea d y n a m i ca n a l y s i so nh o m e p a g es c a n n i n go ft h er s e rw i t ht h eh e l po ft h e h o o kf u n c t i o n ,t h e r e f o r e ,a c c o r d i n gt ot h e s ed a t a , t oe s t a b l i s ht h eu s e r i n t e r e s tm o d e l s a c c o r d i n gt ot h ec h a r a c t e r i s t i c so fx m ld o c u m e n t s s t r u c t u r e ,t oe x t r a c tt h eh o m e p a g ec h a r a c t e r i s t i cv e c t o rf r o mt h ex m l h o m e p a g e ,a n dt oc a l c u l a t ei t sp o w e rv a l u ew i t ht h ei m p r o v e dt f - i d f f o r m u l a a c c o r d i n gt ot h eh o m e p a g ec h a r a c t e r i s t i cv e c t o ra n du s e r i n t e r e s tv e c t o rt oc a l c u l a t et h e i rs i m i l a r i t yv a l u e ,h e n c e ,o r d e rt h e m a c c o r d i n gt ot h es i m i l a r i t yv a l u e s o ,t or e c o m m e n dt h eh o m e p a g ew i t h g r e a t e rs i m i l a r i t yt ot h eu s e ra c c o r d i n gt ot h eu s e r sd e m a n d ,a n dt op u t t h em o s ti n t e r e s t e di n f o r m a t i o no nt h em o s tf r o n t i t sg o a li st op r o v i d ea p r a c t i c a lw 曲d i g g i n gt 0 0 1 a n dh e l pt h ep e o p l et of i n dt h e i rm o s tn e e d e d k n o w l e a g e w i t ht h ef o u n d a t i o no f t h e o r yp r o o f , t h ep a p e rc a r r i e so nt h es y s t e m d e s i g n , f u n c t i o nm o d u l ed e c o m p o s i t i o na n dt h ee x p e r i m e n ta n a l y s i st o t h ee x c a v a t i o np r o t o t y p e f i n a l l y , i tp o i n t so u tt h er e s e a r c hd i r e c t i o n , a p p l i c a t i o np r o s p e c t sa n dt h ec h a l l e n g eo ft h e 、e bd a t am i n i n gw h i c h b a s e do nt h ex m l t h i st e c h n o l o g yw i l lb e c o m et h em a i nn e t w o r k c a l c u l a t i n gt e c h n i q u ei nt h ef u t u r ei n t e r a c te n v i r o n m e n t k e yw o r d sw e bd a t am i n i n g ,x m l ,u s e ri n t e r e s tm o d e l ,h o m e p a g e r e c o m m e n d a t i o n u 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在在论文中作了明确的说 明。 作者签名:也日期: 关于学位论文使用授权说明 年山当 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名:盥垃导师签名逊0 眺盟让月翌日 硕士学位论文 第一章绪论 第一章绪论 1 1 研究背景 随着数据库技术的迅速发展以及数据库管理系统( d b m s ,d a t a b a s e m a n a g e m e n ts y s t e m ) 的广泛应用,人们拥有和积累的数据越来越多。面对如此 庞大的数据,人们迫切需要将这些信息转换成有用的知识,以便帮助人们进行 决策和研究。传统的以数据库为中心,进行事务处理、批处理及决策分析等各 种类型的数据处理模式,已经不能满足用户的需求。嘲 i n t e r n e t 以超过预计的速度发展,2 0 0 5 年7 月2 1 日,中国互联网络信息中心 ( c n n i c ) “第十六次中国互联网络发展状况统计报告”显示,截至n 2 0 0 5 年6 月 3 0 日,我国上网用户总数突破1 亿,上网计算机数达多j 4 5 6 0 万台,网络国际出口 带宽总数达到总容量为8 2 6 1 7 m ,网站数量达到6 7 7 9 1 个。0 1 网络的信息量迅速增 长。面对海量的数据信息,对于这些数据怎样进行复杂的应用成了数据库技术 的研究热点。用户可以依赖于各种搜索引擎快速、高效、准确地检索信息,但 是现有的搜索引擎为用户带来了一些不便:不能进行网络应用资源( 如应用程 序) 的检索;查询速度很慢:只能检索到很少的资源类型;查准率和查全率很 差;基本上与用户应用相分离。锄k e e n 的调查显示,人们平均每天有四个问题需 要从外界获取答案,其中3 1 的人使用搜索引擎寻找答案。1 r o p e rs t a r c h 的调 查指出,3 6 的i n t e r n e t 用户一个星期花两个小时在网上搜索;7 1 的用户在使 用搜索引擎时遇到麻烦;平均搜索1 2 分钟以上发现搜索受挫,搜索受挫中4 6 是 由于链接错误。嘲i n t e r n e t 用户希望出现更有效的、更准确的搜索工具,以便快 速、准确地找到所需要的信息。 数据挖掘( d a t am i n i n g ) 正是在上述背景下产生和迅速发展起来的。嘲嘲 数据挖掘成为新一代的、智能的、辅助人类从海量数据中发现有用知识的一种 新技术。数据挖掘又被称为“数据库中的知识发现”( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,k d d ) 。1 数据挖掘就是从大量的数据中发现隐含的规律性的内容, 解决数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数 据挖掘技术的最重要的应用,将数据挖掘应用于i n t e r n e t 可以提高查询的速度 和效率。n 0 1 w e b 上的数据最大特点就是半结构化。面向w e b 的数据挖掘比面向单个数据 仓库的数据挖掘要复杂得多。以x m l 为基础的嗍环境是直接面对w e b 数据的,x i l l 可以兼容原有的w e b 应用和实现w e b 中的信息共享与交换。x m l 是一种半结构化的 硕士学位论文第一章绪论 数据模型,可以简单地将x m l 的文档描述与关系数据库中的属性一一对应起来, 实施精确查询与模型抽取。同时运用x m l 的扩展功能不仅能从w 髓服务器下载大 量的信息,还能大大减少网络业务量。【i ”但是x m l 有文本文档和半结构化数据的 弱点,如解析文档时必须采用顺序读取的方式,访问效率不高;对信息的组织 不规则,或者其结构可能经常变等。n 2 1 从而开发出有效的针对) ( m l 的数据挖掘方 法成为数据挖掘领域和x m l 技术领域的一项重要课题。 1 2 研究意义 当今是一个网络化的时代,通信、计算机和网络技术正改变着整个人类社 会,大量信息在给人们带来方便的同时也带来了一大堆问题,学会如何抛弃无 用的信息和如何提高信息利用率成为当今世界的一个重要研究热点。最近的一 次g a r t n e rg r o u p 高级技术调查把数据挖掘和人工智能列为“未来三到五年内将 对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖 掘列为未来五年内投资焦点的十大新兴技术前两位。“”根据g a r t n e r 的h p c 研究 表明。“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地 需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建 新的商业增长点,以及挖掘出用户所需要的信息。“”w e b 数据挖掘是一项复杂的 技术,由于w e b 数据挖掘比单个数据仓库的挖掘要复杂的多,因而w e b 数据挖掘 成了一个难以解决的问题。基于x m l 的w e b 数据挖掘正是面对这一挑战而发展起 来的。x m l 的出现为解决w e b 数据挖掘带来了机会。 由于x m l 能很容易使不同来源的结构化的数据结合在一起,因而使搜索多样 的不兼容的数据库成为可能,从而为解决w e b 数据挖掘难题提供了条件。“”) ( m l 的扩展性和灵活性允许x m l 描述不同种类应用软件中的数据,能描述搜集w e b 页 面中的数据记录。同时,基于x m l 的数据是自我描述的,数据不需要有内部描述 就被能够交换和处理。从而作为表示结构化数据的一个工业标准的x m l 为软件开 发者、w e b 站点和终端使用者提供了许多有利条件。随着x m l 作为在w e b 上交换数 据的一种标准方式的出现,面向w e b 的数据挖掘将会变得越来越简单。 由此,基于x m l 的w e b 数据挖掘技术的研究无疑有重要的意义。x m l 提供了一 种独立的运行程序的方法来共享数据,“”它是用来自动描述信息的一种新的标 准语言,能使计算机通信把i n t e r n e t 的功能由信息传递扩大到人类其他多种多 样的活动中去。 x m l 解决了两个w e b 问题,即i n t e r n e t 发展速度快而接入速度慢的问题,以 及可利用的信息多,难以找到自己需要的那部分信息的问题。“”基于酬l 的w e b 数据挖掘技术能增加结构和语义信息,可使计算机和服务器即时处理多种形式 的信息。因此,运用x m l 的扩展功能不仅能从w e b 服务器下载大量的信息,还能 2 硕士学位论文 第一章绪论 大大减少网络业务量。由于) ( m l 能够标记更多的信息,所以它就能使用户很轻松 地找到所需要的信息。利用x 札,w e b 设计人员不仅能创建文字和图形,而且还 能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超级链接 结构和样式表。“”】( m l 在三层架构上为数据处理提供了很好的方法。使用可升级 的三层模型,y j d l 可以从存在的数据中产生出来,使用) 【m l 结构化的数据可以从 表现形式中分离出来。 本课题的研究可应用于以下方面:w e b 客户端在两个或更多异质数据库之间 进行通信的应用;将大部分处理负载从w e b 服务器转至u w e b 客户端的应用;w e b 客 户端将同样的数据以不同的浏览形式提供给不同的用户的应用;智能w e b 代理根 据个人用户的需要裁减信息内容的应用。“” 1 3 研究现状 数据挖掘的基本问题就在于数据的数量大和维数高( 数据结构非常复杂) , 如何进行探索,选择分析变量,就成为首先要解决的问题。面对庞大的数据, 现有的统计方法主要是对数据进行抽样。而如何抽样,抽取多大的样本,如何 评价抽样的效果,都是值得研究的难题。既然数据是海量的,那么数据中就会 隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价;各 种不同的模型如何应用,其效果如何评价;不同的人对同样的数据进行挖掘, 可能产生不同的结果,甚至差异很大,等等,这些都涉及到可靠性、私有性和 安全性的问题。面对互联网的发展迅速,如何进行互联网和非标准数据的挖掘, 成为研究的焦点问题,同时,数据挖掘的结果是不确定的,要和专业知识相结 合才能对其做出判断。 当前的数据挖掘研究基本上集中在以下几个方面:发现语言的形式化描述; 寻求数据挖掘过程中的可视化方法( 便于在知识发现的过程中进行人机交互) ; 研究在网络环境下的数据挖掘技术( w e bm i n i n g ) ;加强对各种非结构化数据 的开采( d a t am i n i n gf o ra u d i o & v i d e o ) ;探索新的分析和建立模型的方法, 以便处理结构比较复杂和独特的数据类型;交互式发现;知识的维护与更新。“1 数据挖掘的热点包括网站的数据挖掘( w e bs i t ed a t am i n i n g ) 、2 生物信息 或基因( b i o i n f o r m a t i c s g e n o m i c s ) 的数据挖掘以及文本的数据挖掘( t e x t u a l m i n i n g ) 等。嘲 随着w e b 技术的发展,各类电子商务网站风起云涌,建立起一个网站并不困 难,困难的是如何让电子网站有效益。在对网站进行数据挖掘时,所需要的数 据主要来自于客户的背景信息( 主要来自于客户的登记表) 和浏览者的点击流 ( c l i c k s t r e a m ,考察客户的行为表现) 。客户对自己的背景信息十分珍重, 一般不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。 硕士学位论文 第章绪论 在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进 而再加以利用。u ” 人们很关心的一个话题是文本数据挖掘。例如,在客户服务中心,把同客 户的谈话转化为文本数据,再对这些数据进行挖掘。进而了解客户对服务的满 意程度和客户的需求,以及客户之间的相互关系等信息。文本数据挖掘并不是 一件容易的事情,尤其是在分析方法方面,还有很多需要研究的问题。目前市 场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一 下某些词汇的出现频率,并没有真正的分析功能。 生物信息或基因数据挖掘对于人类特别重要。基因的组合千变万化,得某 种病的病人的基因和正常人的基因到底差别多大,能否找出其中不同的地方, 进而对其不同之处加以改变,使之成为正常基因,这都需要数据挖掘技术的支 持。对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复 杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法 上讲,更需要一些新的算法。 国外w e b 数据挖掘的研究一般集中于学习算法的研究、数据挖掘的实际应用 以及有关数据挖掘理论方面。研究热点主要集中在:网站的数据挖掘( w e bs i t e d a t am i n i n g ) 、生物信息或基因的数据挖掘以及文本的数据挖掘( t e x t u a l m i n i n g ) 。知识发现方法的研究进一步发展,如b a y e s ( 贝叶斯) 方法汹1 以及 b o o s t i n g 方法“1 的提高;传统的统计学回归法在k d d 中的应用;k d d 与数据库的 紧密结合等。在应用方面,k d d 商业软件工具不断产生和完善,注重建立解决问 题的整体系统,而不是孤立的过程。其用户主要集中在大型银行、保险公司、 电信公司和销售业;很多计算机公司也非常重视数据挖掘的开发应用,i b m 和微 软都成立了相应的研究中心进行这方面的工作。比如:w e b w a t c h e r 是由c m u ( 卡 内基梅隆大学) 开发的一个可安装在一个嗍站点上的导游器,它对来访的 用户的访问行为进行在线学习,通过对站点上主页的超文本结构和以前用户浏 览路径的学习,建立起一个经验模型。a l t av i s t ad i s c o v e r y 是由d e c 公司开 发的一个新型的桌面信息检索工具,它提供了对桌面、i n t e r n e t 。u s e n e t 数据 的无缝集成,可以基于内容在本地盘、网络盘、i n t e r n e t 的搜索空间进行检索, 可以自动对所搜索到的文档进行总结,寻找与当前网页相关联的网页。国外的 数据挖掘已经有不少成功案例。著名的s a se n t e r p r i s em i n e r 、n c rt e r a d a t a w a r e h o u s em i n e r 、s p s sc l e m e n t i n e7 0 、i b md b 2i n t e l l i g e n tm i n e 、s q ls e r v e r 2 0 0 0 数据挖掘组件、o r a c l e 9 id a t am i n i n g 、c ac l e v e r p a t hp r e d i c t i v ea n a l y s i s s e r v e r 、德门软件d m i n e r 等。啪1 这些产品各有特色:n c r 、i b m 、o p a c l e 等数据 挖掘工具可以直接在数据库上进行挖掘;s a s 提供了数据获取、取样、筛选、转 换工具来构造要挖掘的数据集;s p s s 针对具体应用领域推出了多个应用模版, 4 硕士学位论文第一章绪论 以简化应用开发过程。 尽管数据挖掘的好处已经引起国内许多企业的重视,但实施的并不多,更 多的企业还在观望和考虑。目前国内企业实现数据挖掘的困难主要有:缺少数 据积累;难于构建业务模型;各类人员之间的沟通存在障碍;缺少有经验的实 施者;初期资金投入较大,尤其是国内对w e b 数据挖掘的研究起步较晚,还没有 形成整体力量。 1 9 9 3 年,国家自然科学基金首次支持对该领域的研究。目前进行的大多数 研究项目是由政府资助进行的,如国家自然科学基金、8 6 3 计划、”九五计划等。 许多科研单位和高校开展了数据挖掘的基础理论及其应用的研究。m 1 其中,北 京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京 大学也在开展对数据立方体代数的研究,华中科技大学、浙江大学、复旦大学、 中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算 法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究 了非结构化数据的知识发现以及w e b 数据挖掘。 9 0 年代末,挖掘系统一般考虑的是整体用户的需求,很少考虑个体用户的 喜好和需求。其实不同知识结构的用户对文档相关性的判断以及对检索结果的 要求是不同的,即使同一个用户,在不同时期对文档的需求也有所不同”用 户兴趣建模是为用户提供个性化信息服务的信息检索或信息过滤系统的核心组 成部分,它能够获取每个用户的不同信息需求。嘲为了跟踪用户的兴趣与行为, 系统为每个用户建立一个用户描述文件( u s e r p r o f i l e ) ,即个性化服务的文件, 用来保存用户兴趣。阳1 在检索过程中,结合用户兴趣对检索结果进行过滤, 以实现检索结果的个性化。啦,当前发现用户兴趣主要有两种方式:一是显示获 取,即通过用户主动提供自己的兴趣来获得用户的个性化向量;潍1 二是隐式获 取,即通过用户访问w e b 的相关反馈信息来更新用户的个性化向量。姗目前建 立用户兴趣的方式还存在一定的缺陷。啪1 诸如,以关键字方式提供用户兴趣的 用户经常不能准确表达自己的兴趣;从目标样本文档提取用户兴趣的不能全面 发现用户的兴趣;呻1 用户主动方式建立兴趣的不能自动更新用户的兴趣向量。 2 0 0 0 年以后,把x m l 和数据挖掘结合起来的研究逐渐增多,由于x m l 广泛 应用于w e b 上,因此基于x m l 的w e b 数据的研究越来越受到人们的重视。x m l 作 为新一代的标记语言,正在成为i n t e r n e t 上数据描述和数据交换的标准。 当前在x 札上的挖掘主要是针对文本内容方面的,在挖掘过程中经常要抽取 网页的特征向量。抽取特征向量时一般采用t f - i d f 公式“”计算其特征词在文档 中的权值,这种方法还存在一定的局限性。 目前) 【m l 还没有在网络以外的领域得到实质性的应用,一些关于x w l 的新技 术规范,如各种查询语言、应用编程接口等还没有发展成熟和得到正式的认可。 硕士学位论文 第一章绪论 1 4 本文主要研究工作和主要内容 论文主要研究基于x m l 的w e b 挖掘技术,使用户能够从浩瀚的网络环境中挖 掘到自己需要的信息。论文的研究工作主要包括:研究非结构化文档向结构化 文档转化的方法;设计并实现从非规则、非严谨的h t m l 文档向结构化x m l 文档转 化的过程;由用户的c o o k i e s 获得用户在某个域名上的点击次数和登陆次数,从 收藏夹中获得用户收藏夹上的记录和收藏夹中记录的访问次数,或者利用钩子 函数进行用户浏览网页的动态分析,并根据这些分析数据建立用户兴趣模型; 从x m l 代码的网页中抽取网页的特征向量,采用改进的t f - i d f 公式计算其权值, 计算网页特征向量与用户兴趣向量的相似度;把网页根据相似度进行排序,根 据用户需求把相似度大的推荐给用户。 论文的主要内容如下: 第一章、阐述基于x m l 的w e b 数据挖掘技术的研究意义和现状。x m l 提供了一 种独立的运行程序的方法来共享数据,是自动描述信息的一种新的标准语言, 能使计算机通信把i n t e r n e t 的功能由信息传递扩大到人类其他的活动中。 第二章、研究数据挖掘技术及x w l 技术的相关知识。数据挖掘是从大量的、 不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、 人们事先不知道的、又是潜在有用的信息和知识的过程。数据挖掘中常用的技 术主要有人工神经网络、决策树、遗传算法及近邻算法等。x m l 是一种中介标示 语言,是用来创造标记语言的元语言,可提供描述结构化资料的格式。x m l 具有 简单性、开放性、有效性、可扩展性和结构化等特性。 第三章、探讨w e b 挖掘技术和x m l 相结合的技术。基于x m l 的w e b 数据可很好 实现w e b 中的信息共享与交换,可很容易地将x m l 的文档描述与关系数据库中的 属性一一对应起来,实施精确的查询与模型抽取。 第四章、讨论基于x m l 的w e b 数据挖掘系统。设计基于n m l 的w e b 数据挖掘原 型,分析各部分的功能;重点研究用户兴趣模型的建立,根据日志建立用户个 性化兴趣模型;分析x m l 页面,并对其进行特征提取;通过兴趣向量和网页特征 向量的相似度的计算,得到相似度大于阀值的网页,把这些网页推荐给用户。 第五章、阐述系统的实现过程,并分析实验结果。详细描述系统各模块的 集体功能,并详细介绍几个重要模块的具体实现过程。最后通过试验数据来验 证系统设计的合理性。 第六章、得出结论和对基于x m l 的w e b 挖掘技术的发展趋势作出说明。随着 i n t e r n e t 的发展。x m l 正处于不断发展中,实现对y d d l 整合的实际数据源或某领 域的专用数据源进行挖掘,以获取有用的知识将成为未来i n t e r n e t 环境中主流 技术。 6 硕士学位论文 第二章相关技术 第二章相关技术 2 1 数据挖掘技术 自2 0 世纪6 0 年代以来人们利用信息技术生产和搜集数据的能力大幅度提 高,千千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等领 域,如何才能不被信息的汪洋大海所淹没,如何把这些数据转化成有用的信息 和知识,如何提高信息的利用率,成为企业决策和业务发展服务首要考虑的问 题。只有充分利用它为公司自身的业务决策和战略发展服务才能使数据真正成 为一个公司的资源,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面 对“人们被数据淹没,同时却仍然感到知识饥饿”的挑战,数据挖掘技术应运 而生,并得以蓬勃发展,而且越来越显示出其强大的生命力。 2 1 1 数据挖掘的概念 数据挖掘( d a t am i n i n g ) 是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、又是潜在有用 的信息和知识的过程。1 这里的数据源必须是大量的、真实的、含噪声的;发 现的是用户感兴趣的知识;发现的知识是可理解的、可接受的、可运用的。 广义上说,数据、信息是知识的表现形式。通常把数据看作是形成知识的 源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据 库中的数据,也可以是半结构化的,如文本、图形和图像数据,甚至可以是分 布在网络上的异构型数据。发现知识的方法很多,可以是数学的、非数学的, 也可以是演绎的、归纳的。发现的知识不仅可以用于信息管理,查询优化,决 策支持和过程控制等,还可以用于数据自身的维护。m 1 数据挖掘是- f 交叉学 科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识, 提供决策支持。 随着数据开采和知识发现( d m k d ,d a t aw i n i n ga n dk n o v l e d g ed i s c o v e r y ) 研究发展,数据挖掘和知识发现的研究形成了三大技术支柱:数据库、人工智 能和数理统计。目前d m k d 的主要研究内容包括基础理论、发现算法、数据仓库、 可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、 半结构化和非结构化数据中的知识发现以及网上数据挖掘等。 数据挖掘所发现的最常见的知识有四类:广义知识( g e n e r a l i z a t i o n ,是 类别特征的概括性描述知识) 、关联知识( a s s o c i a t i o n ,是反映一个事件和其 他事件之间依赖或关联的知识) 、分类知识( c l a s s i f i c a t i o n & c 1 u s t e r i n g ,是 7 硕士学位论文第二章相关技术 反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识) 、预测 型知识( p r e d i c t i o n ,是根据时间序列型的数据,由历史的和当前的数据去推 测未来的数据,也可认为是以时间为关键属性的关联知识) 。此外,还可以发 现其他类型的知识,如偏差型知识( d e v i a t i o n ) 等。 2 1 2 数据挖掘分类 骶b 上信息的多样性决定了w e b 挖掘任务的多样性,根据挖掘对象的不同将 数据挖掘分为内容挖掘、结构挖掘和使用挖掘三类。 内容挖掘是对页面内容进行挖掘。现有的数据挖掘大都是针对w e b 页面 展开的,其挖掘对象是w e b 页面中的文本信息和多媒体信息( 如:图片,音频, 图像,视频等) 。现有的h t 札页面内容缺乏标准的描述方式,难以挖掘。为了 解决这个难题,1 9 9 8 年w 唧社团提出了x m l 语言标准。该标准通过把一些描述 页面内容的标记添加到h t m l 页面中,用于对h t m l 页面内容进行自描述等。w e b 内容挖掘又可分为w e b 文本挖掘和w e b 多媒体挖掘。 文本挖掘是对网页上大量文档的集合的内容进行总结、分类、聚类、关联 分析,以及利用文档进行趋势预测。无论文本挖掘的目的是什么,文本挖掘的 一般处理过程为:首先对挖掘对象建立其特征表示。对于i n t e r n e t 上的文本数 据进行挖掘应该要将这些文档转化成一种类似关系数据库中记录的较规整且能 反映文档内容特征的表示,一般采用文档特征向量。在目前所采用的文档表示 方法中,存在的一个共同的不合人意的地方是文档特征向量具有太多的维数, 使得特征子集的选取成为i n t e r n e t 上文本数据挖掘过程中的必不可少的一个环 节。在完成文档特征向量维数的缩减后,便可利用数据挖掘的各种方法,如分 类、聚类、关联分析等来提取面向特定应用的知识模式,最后对挖掘结果进行 评价,若评价结果满足一定的要求则输出,否则返回到以前的某个环节,分析 改进后进行新一轮的挖掘工作。 多媒体挖掘过程是先要应用多媒体信息特征提取工具,形成特征二维表, 然后就可以采用传统的数据挖掘方法进行挖掘。在特征提取阶段,利用多媒体 信息提取工具进行特征提取。抽取出i m a g e 和v i d e o 的文件名、u r l 、父u r l 、 类型、键值表和颜色向量等。然后对这些特征进行挖掘操作,根据提供的某种 类标,针对特征集,利用决策树进行分类。 结构挖掘是对页面之间的结构进行挖掘。整个w e b 空间里,有用的知识不 仅包含在w e b 页面的内容之中,而且也包含在页面的结构之中。w e b 结构挖掘可 为超链接挖掘、内容结构挖掘和u r l 挖掘。w e b 结构挖掘目标趋向于w e b 文档的 链接结构,揭示出蕴含于文档结构中的个性化信息,其处理的数据类型为w e b 的结构化数据。结构数据是描述网页内容组织方式的数据,页内结构可以用超 硕士学位论文 第二章相关技术 文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链 结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引 用与被引用关系等。 使用挖掘是对用户访问w e b 时在服务器上留下的访问记录进行挖掘,即对 用户访问w e b 站点的存取方式进行挖掘。挖掘的对象是在服务器上的包括s e r v e r l o gd a t a 等日志。通常采用的挖掘的手段是:路径分析、关联规则和序列模式 的发现、聚类和分类。w e b 访问信息挖掘可以从w e b 服务器那里自动发现用户存 取w e b 页面的模式,得出群体用户或单个用户的访问模式和兴趣。 2 1 3 数据挖掘的常用技术 数据挖掘中常用的技术主要有以下几种:人工神经网络、决策树、遗传算 法及近邻算法等。 人工神经网络是仿照生理神经网络结构的非线形预测模型,通过学习进行 模式识别。人工神经网络特点( 区别于冯氏计算机) :大规模并行计算;非线 性处理:鲁棒性;自组织及自适应性:学习能力;分布式存储,存储与计算相 结合;联想能力。神经网络常用于分类和回归。人工神经网络的优越性有三 个方面:第一,具有自学习功能。如实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水杯形联想题目及答案
- matlab考试操作题及答案
- 养成亲社会行为课件 2025-2026学年统编版道德与法治八年级上册
- 工程渠道同步开拓方案(3篇)
- 2025年冀教版七年级英语上册全册教案
- 2025年现代物流师考试试题及答案
- 工程运营维护技术方案(3篇)
- 工程项目方案意义(3篇)
- 工程路段项目分工方案(3篇)
- 中医妇科学测试题与答案
- 水果生态示范园建设项目可行性研究报告
- 2023年四川雅安石棉县考调事业单位工作人员33人考试备考题库及答案解析
- 金属的切割简介课件
- (完整版)书籍装帧设计
- 人美版《书法练习与指导》四年级上册整册教案
- 汉字形旁分类及其组字表
- NY-T 4251-2022 牧草全程机械化生产技术规范
- 代建项目安全生产管理办法20191226
- 2023年云南空港百事特商务有限公司招聘笔试题库及答案解析
- YS/T 690-2009天花吊顶用铝及铝合金板、带材
- GB/T 41-20161型六角螺母C级
评论
0/150
提交评论