 
         
         
         
         
        
            已阅读5页,还剩59页未读,            继续免费阅读
        
        (计算机应用技术专业论文)基于粒计算的web结构模型的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
            摘要 摘要 随着w e b 技术的迅猛发展,如何有效处理与w e b 相关的问题变得越来越迫 切。在这一背景下,一个崭新的研究方向娟b 智能( w e bi n t e l l i g e n c e ,w i ) 应运而生,并成为了近年来w e b 理论与应用领域的一个新的研究与应用热点, 它是人工智能和高级信息技术在新的w r e b 和i n t e r n e t 环境下相互融合的产物。本 文对w e b 智能的核心技术_ w e b 挖掘技术进行了基于粒计算理论的研究,在 w e b 网站结构中引入信息粒的思想,提出了一种新的基于粒的w e b 结构模型, 有效地解决了w e b 站组织结构改善和优化的部分问题。 本文研究的主要内容如下: 第一,分析研究了w e b 智能技术的发展,然后描绘了w e b 站的组织结构, 并对w e b 挖掘技术进行了广泛的探讨,最后对粒计算理论进行了详细的阐述, 研究了其核心思想,特别介绍了粗糙集理论和商空间理论。 第二,对抽象粒概念进行了研究及描述,基于粒计算理论,提出了一种新 的w e b 结构粒模型,提出了基于网站组织结构的信息粒概念,并定义了粒的相 关影响因子,如页面结构粒度、页面结构相似度、页面重要度、页面相关粒、 用户相似粒等,同时基于某一实际网站部分结构分别进行了举例及计算分析。 第三,通过研究w e b 站结构优化技术,基于w e b 结构粒模型,提出了一种 启发式信息粒计算方法,该方法能结合w e b 挖掘理论技术,生成有效的能对网 站组织结构进行调整改善的相关规则,最终达到优化w e b 结构的目的,最后对 该方法进行了实验分析。 关键词:w e b 结构;粒计算;粒度模型;粒影响因子 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fw e bt e c h n o l o g y , i ti sb e c o m i n gi n c r e a s i n g l y u r g e n tt h a th o wt od e a lw i t hr e l a t i o n a lq u e s t i o n so fw e be f f i c i e n t l y u n d e rt h i s b a c k g r o u n d ,an e wr e s e a r c hd i r e c t i o nw h i c hw a sn a m e dw e bi n t e l l i g e n c e ( w dh a s a p p e a r e d , a n di tb e c o m e sah o ti s s u eo fa p p f i c a f i o ni nt h ef i e l do fw e bt h e o r yi n r e c e n ty e a r s w ii sap r o d u c tw h i c hm i x i n gt h ea r t i f i c i a li n t e l l i g e n c ea n da d v a n c e d i n f o r m a t i o nt e c h n o l o g yu n d e rt h en e we n v i r o n m e n to fw e ba n di n t e m e t t h i s d i s s e r t a t i o ng i v e sar e s e a r c ho fg r a n u l a t i o nc a l c u l a t i o nt h e o r yo nw e bm i n i n g t e c h n o l o g y , w h i c hi st h ec o r et e c h n o l o g yo fw i ,a n db r i n g si nt h ei d e ao fi n f o r m a t i o n g r a n u l a t i o nt ow e bs t r u c t u r e an e ww e bs t r u c t u r eo fg r a n u l a r i t ym o d e li sp r e s e n t e d , w h i c hc a ns o l v et h ei m p r o v i n ga n do p t i m i z i n gp r o b l e m so fw e bo r g a n i z a t i o n s t r u c t u r e t h em a i nc o n t e n t si n c l u d e : f i r s t l y , t h ep a p e rc o n e e n 仃a t e so ns t u d y i n gt h ed e v e l o p m e n to fw e bi n t e l l i g e n c e t e c h n o l o g y , d e s c r i b e st h eo r g a n i z a t i o n a ls t r u c t u r eo fw e b ,d i s c u s s e st h ew e bm i n i n g t e c h n o l o g yw i d e l y ,e l a b o r a t e st h et h e o r yo fg r a n u l a rc o m p u t i n g ( g r c ) ,a n dr e s e a r c h i t sc o r ei d e a ,e s p e c i a l l y , i n t r o d u c e st h et h e o r yo fr o u g hs e ta n dt h e o r yo fq u o t i e n t s p a c e s e c o n d l y , t h ec o n c e p t i o no fa b s t r a c tg r a n u l ei so u t l i n e d an e wg r a n u l a r i t y m o d e lo fw e bs t r u c t u r ei sp r e s e n t e db a s i n go nt h et h e o r yo fg r a n u l a rc o m p u t i n g ,a n d ac o n c e p t i o no fi n f o r m a t i o ng r a n u l a t i o ni sp r e s e n t e db a s i n go nt h eo r g a n i z a t i o n a l s t r u c t u r eo fw e b s i t e t h ep a p e rd e f m e ss o m er e l a t i v ei m p a c tf a c t o r sa b o u tg r a n u l e , s u c ha s ,w e b p a g es t r u c t u r eg r a n u l a r i t y , w e b p a g es t r u c t u r es i m i l a r i t y , w e b p a g e s i g n i f i c a n c y ,w e b p a g er e l a t i o n a lg r a n u l e ,u s e rs i m i l a rg r a n u l e ,e r e f i n a l l y , s o m e e x a m p l e sa l eg i v e nt oc a l c u l a t et h i sb a s i n go n aa c t u a lp a r to f w e b s i t es t r u c t u r e n l i r d l y 砸ms t u d y i n gt h et e c h n o l o g yo fo p t i m i z i n gw e b s i t es t r u c t u r e ,an e w h e u r i s t i cm e t h o do fc a l c u l a t i n gi n f o r m a t i o ng r a n u l e si sp r e s e n t e db a s i n go nt h e g r a n u l a r i t ym o d e lo fw e bs t r u c t u r e ,w h i c hc a l lg e n e r a t ee f f i c i e n t l yr e l a t i o n a lr u l e s t h a tc a na d j u s ta n di m p r o v et h eo r g a n i z a t i o n a ls t r u c t u r eo fw e b s i t e ,a n dr e a c ht h e i i i a b s t r a c t u l t i m a t ep u r p o s eo fo p t i m i z i n gw e b s t r u c t u r e f i i l a l l y , t h e r ei sae x p e r i m e n t a la n a l y s i s o ft h em e t h o d k e yw o r d s :w e bs t r u c t u r e ;g r a n u l a rc o m p u t i n g ;o r a n u l a r i t ym o d e l ;i m p a c tf a c t o r s o fg r a n u l e w 学位论文独创性声明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得南昌大学或其他教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 , p 学位论文作者签名( 手写) :石彳、扒签字e l 期: z 驴f 晖f 月7 日 学位论文版权使用授权书 本学位论文作者完全了解南昌大学有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权直昌太堂可以将学位论文的全部或部分内容编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。同时授 权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名( 手写) :疋彳、乞 签字日期:z 口j 萨f 月7 日 既孑 月 几傅q , 乒 r 皋 x o 写 硝 手 批 洋 声 名 期 签 日 师 字 导 签 第1 章绪论 第1 章绪论 随着i n t e r a c t 技术的迅猛发展,i n t e r n e t 已经成为了一个巨大的、分布式的数 据库,根据2 0 0 9 年7 月1 6 日中国互联网络信息中一t 1 , ( c n n i c ) 发布的第2 4 次 中国互联网络发展状况统计报告显示,全国网站数量约为3 0 6 万个,域名总 数为1 ,6 2 6 万个,全国网页总数数以百亿计。如此庞大的i n t e r n e t 规模将大大 增加w e b 页面存储、管理和检索上的困难度,而且原有的基于数据库和文本的 理论、方法和技术也将很难直接应用到w e b 上,因此,如何增强和发展相关的 理论和技术来有效处理与w e b 相关的问题己成为一个亟待解决的新课题。在这 一背景下,一个崭新的研究方向w c b 智能( w e bi n t e l l i g e n c e ,w i ) 应运而生, 并成为了近年来w e b 理论与应用领域的一个新的研究与应用热点,它是人工智 能和高级信息技术在新的w e b 和i n t e r a c t 环境下相互融合的产物。 本章首先介绍本文的研究背景与意义,然后介绍了研究的内容和目的,并 分析了相关领域的国内外研究现状,最后介绍了论文的结构。 1 1 研究背景与意义 面对如电子商务等w e b 应用日益广泛的发展,w e b 上的数据量正以几何级 数的方式激增,从而导致了w e b 数据的随机性、可能性、模糊性、粗糙性等不 确定性特征表现的日益突出,当前的w e b 技术在处理不确定的w e b 数据或信息 时将难以对其进行有效的知识发现和决策制定。因此,w e b 的不确定性问题己 经成为了制约电子商务、搜索引擎和知识发现等w e b 应用发展的短板,如何解 决这一问题将是发展语义w 曲和推动w e b 应用发展所要面对的一个长期挑战。 粒计算( g r a n u l a rc o m p u t i n g ,g r c ) 理论是解决不确定性问题的有效理论之 一。它从不同粒层次上研究问题,从人类求解问题的经验方法中提取基本原理 如粒、层次、等级;在可以容忍的程度内,对不精确的、不确定的和模糊的问 题,探索求解使其达到可处理性、鲁棒性、小代价和协调性【1 1 1 2 1 。o r e 并不针对 特殊问题或特殊环境建立具体的方法,而是建立在更高层次上。g r c 是粒数学 的子集,也是词计算理论、粗糙集理论、商空间理论和区间计算等的超集,可 看作是软计算科学的一个分支。当前,g r e 已成为研究模糊的、不完整的、不精 第l 章绪论 确的及海量的信息处理问题的重要工具,也是人工智能研究领域的热点之一。 电子商务是指通过i n t e r n e t 进行的商务活动,它通过简单、快捷、低成本的 电子通讯方式,在买卖双方互不谋面的情况下进行各种商贸活动,并广受众企 业的青睐。电子商务网站是企业进行电子商务的平台和窗口,由若干网页和数 据库组成。在成千上万的网站上,如何吸引用户驻留在自己的网站上是网站发 展的关键所在,也是其生命线。对电子商务网站进行优化可以改进网站设计和 布局,大大方便用户访问站点,并能为客户实现个性化服务,最终达到提高用 户忠诚度的目的。w e b 挖掘正是实现网站优化的关键技术,可以为电子商务面 临的问题提供有效的解决途径。 本文对w e b 智能的核心技术_ w e b 挖掘技术进行了基于粒计算理论的研 究,在w e b 网站结构中引入信息粒的思想,提出了一种新的基于粒的w e b 结构 模型,有效地解决了w e b 站组织结构改善和优化的部分问题。把粒计算理论结 合到w e b 结构挖掘中是对w e b 智能研究的一种有益的尝试。 1 2 研究的目的与内容 1 2 1 研究的目的 本文的研究是以w e b 智能和粒计算理论为基点,对w e b 挖掘理论与粒计算 理论进行融合和扩展,进而提出w e b 网站组织结构的信息粒概念和粒度模型, 同时对影响网站组织改善的相关因素及粒度进行定义及讨论,然后在这一基础 上,提出一种启发式信息粒计算方法,并结合w e b 挖掘技术,提取出优化网站 结构的相应规则,从而达到调整改善w e b 组织结构的目的。 1 2 2 研究的内容 主要的研究内容包括: 分析研究了w e b 智能技术的发展,并对其核心技术- w 曲挖掘技术进 行了广泛的探讨; 阐述了粒计算理论,研究了其核心思想,特别介绍了商空间理论本 文建模的主要理论基础; 提出了一种新的w e b 结构粒度模型,提出了基于网站组织结构的信息粒 概念,并在此基础上定义了粒的相关影响因子; 基于w e b 结构粒模型,提出了一种启发式信息粒计算方法,该方法能结 2 第l 章绪论 合w e b 挖掘理论技术,生成有效的能对网站组织结构进行调整改善的相 关规则,最终实现对w e b 结构的优化,最后对该方法进行了实验分析及 对比。 1 3 相关领域国内外研究现状 1 3 1w e b 智能 w e b 智能( w e bi n t e l l i g e n c e ,w i ) 是由日本的n i n gz h o n g 、香港的j i m i n gl i u 和加拿大的y y y a o 等人在2 0 0 0 年第2 4 届国际计算机软件和应用年会( i e e e c o m p s a c ) 数据挖掘和w r e b 信息系统分会上首次提出的一个新的研究领埘3 1 。 w i 主要的研究对象是将人工智能、知识工程的知识应用到互联网上的各种理论 与技术,最终实现一个智能的网络环境。 第一届i e e e w i c a c m 网络智能与智能体技术联合国际会议( w i i a t2 0 0 1 ) 于2 0 0 1 年1 0 月在日本召开闱;第二届w i i a t 国际联合会议于2 0 0 3 年l o 月在 加拿大举行【5 】,都取得了十分丰硕的成果。2 0 0 4 年9 月第三届w i i a t 国际联合 会议在北京召开,这是w i i a t 国际联合会议首次在中国召开,本次会议受到了 国内外许多专家学者的关注,3 0 0 余名国内外学者汇聚北京。2 0 0 6 年1 2 月在香 港会议展览中- g , ( h k c e c ) 召开了2 0 0 6 年度i e e e w i c a c m 主办的数据挖掘一 网络智能一智能代理技术联合国际会议( i c d m - w i i a t2 0 0 6 ) ; i c d m w i - i a t 2 0 0 9 联合国际会议于2 0 0 9 年9 月在意大利米兰召开。这些国际会议的召开对 w e b 智能的发展具有重要意义。 在国内方面,第一届中国w e b 智能学术研讨会( c w i ) 于2 0 0 7 年8 月在山西 太原举行;2 0 0 8 年8 月河南新乡举办了第二届中国w e b 智能学术研讨会( c m ) ; 第三届中国w e b 智能学术研讨会( c w l 2 0 0 9 ) 于2 0 0 9 年8 月在河北省石家庄市召 开,来自全国六十多所院校的1 6 4 位代表出席了本次会议,大会邀请了张钹院 士、n i n gz h o n g 教授、t yl i n 教授等知名专家作特邀大会报告。 w i 目前还没有一个公认的正式定义,n i n gz h o n g 等人给出了w i 的初步概 念阡惆。一种观点认为,、是指在w e b 和i n t e m e t 上充分利用人工智能( a i ) 和 高级信息技术0 t ) ,把触和i t 应用到基于w e b 的智能信息系统的设计与实现上; 另一种观点认为,w i 是指在w e b 支持的系统、环境和活动中,探测人工智能和 高级信息技术的基本作用和实际影响,让人们在生活、工作和娱乐中充分利用 3 第l 章绪论 w e b 基础结构所提供的全局连通性的理论和技术。n i n gz h o n g 在文献 9 1 d 0 给出 了一个定义:w i - m + i t 。这个公式说明w i 是朋和i t 的融合,a i 和i t 是w i 的基础。 目前,的具体研究内容包括 9 1 f l l 】:w e b 信息系统的环境和基础、w e b 信 息管理、w e b 挖掘、w e ba g e n t 、w e b 信息检索、w e b 人本媒体工程( w e bh u m a n m e d i ae n g i n e e r i n g ) 以及基于w | e b 的应用等7 个方面。随着i n t e m e t 的不断发展和 m 研究的不断深入,w i 的研究范围将会进一步变化和扩展1 1 2 1 。 w e b 挖掘是w i 的核心技术之一。o r e ne t i o n i0 3 】在1 9 9 6 年首次提出w e b 数 据挖掘这一概念。w e b 挖掘就是运用数据挖掘技术在w e b 文档与服务器上自动 发现并提取有用信息。w e b 挖掘是- i q 涉及面很广的交叉性新兴学科,涉及到 人工智能、可视化、数据库、w e b 技术、机器学习与自然语言处理等领域。根 据挖掘的对象不同,w e b 挖掘可分为三类:w e b 内容挖掘、w e b 结构挖掘、w e b 使用挖掘【1 4 1 - 1 6 1 。 w e b 智能为新一代具有w e b 的信息系统的研制和开发提供了难得的机会和 挑战,可以预见,随着w e b 的进一步深入发展,w e b 智能研究将成为解决w e b 一系列问题的关键。 下面是w 曲智能的几个重要发展趋势: ( 1 ) 电子商务 电子商务是w e b 智能研究最重要的原因之一。基于w e b 智能技术,经营者 可以跟踪用户行为、分析用户潜在的需求能力,从而为用户提供更加个性化的 服务。运用w e b 挖掘技术可以通过对网页和w e b 服务的挖掘得到重要的模式信 息,这些信息在电子商务的客户关系管理和目标市场中将起到重要作用。 ( 2 ) 信息检索 信息检索是一个较早的研究领域,由于w e b 信息的复杂性,如何在w e b 上 进行高效准确的信息检索变得尤为重要。这个领域的主题包括w e b 的语义模型、 文本挖掘、w e b 链接结构挖掘等。近年来,搜索引擎变得越来越重要,新的搜 索引擎不断涌现,相关技术不断被提出,说明信息检索也是w e b 智能研究的重 要方向。 ( 3 ) 对于w e b 自身的理解 对于w e b 自身的理解,可以从两个角度考虑,即w e b 图结构和w e b 语义。 w e b 图结构研究大大推动了w e b 爬行算法,网络社n ( c o m m u n i t y ) 的发现和w e b 4 第1 章绪论 的社会学现象等研究工作。w e b 语义的研究工作,目标在于将w e b 上的信息组 织成计算机可理解和处理的形式,从而改善现在的w e b 信息不可以互相理解和 利用率低的现象,也为更加准确的检索信息提供了可能。 ( 4 ) 基于w e b 的智能代理 基于w e b 的智能代理是一种软件程序,它的主要作用是探查和开发基于w e b 的服务的自治实体及展示和解释w e b 生成的规则的原型实体。智能的w e b 代理 可以代表它们的用户做出决策,并在动态变化、不可预期的环境中自我调节。 1 3 2 计算w e b 智能 计算w e b 智能( c o m p u t a t i o n a lw e bi n t e l l i g e n c e ,c w i ) 这一概念是由y a n - q i n g z h a n g 和t y l i i l 在2 0 0 2 年国际计算智能大会( w c c l 2 0 0 2 ) q b 的f u z z i e e e 0 2 会 议上首次提出的。他们认为,计算w e b 智f l 皂( c o m p u t a t i o n a lw e bi n t e l l i g e n c e ,c m ) 是计算智能( c o m p u t a t i o n a li n t e l l i g e n c e ,c i ) 和w e b 技术( w e bt e c h n o l o g y ,w d 的混合( h y b r i d ) 技术,它的目标是提高i n t e r n e t 和无线网络上电子商务应用的智 能性( q u a l 时o fi n t e l l i g e n c e ,q o i ) 1 7 1 1 羽。这说明了c i 和m 是c w i 的基础,而 c w i 是c i 和w t 的融合,即:c w i = c i + w t 。从广义上来说,w i 应该包括 c w i ,c w i 是w i 重要的组成部分。 作为c i 和w t 的混合技术,c w i 主要采用了概率计算、神经计算、进化计 算、模糊计算、粗糙计算、粒度技术和智能a g e m 等技术。目前,c w i 有7 个 主要的研究领埘1 7 1 ,包括模糊w e b 智能f f u z z yw 曲i n t e l l i g e n c e ,f w i ) 、粒 度w e b 智能( g r a n u l a rw e bi n t e l l i g e n c e ,g w i ) 、粗糙w e b 智f l 邑( r o u g hw e b i n t e l l i g e n c e ,r m ) 、神经w e b 智能( n e u r a lw e bi n t e u i g e n e e ,n w l ) 、进化 w e b 智能( e v o l u t i o n a r yw e bi n t e l l i g e n c e ,e w i ) 、概率w e b 智能( p r o b a b i l i s t i ew e b i n t e l l i g e n c e ,p w i ) 、混合w e b 智能( h y b r i dw e bi n t e l l i g e n c e ,h w i ) 。 本文研究属于粒度w e b 智能( g w i ) 研究范畴。粒度w e b 智能基于粒度计算 和w t 两个主要技术,以设计粒度智能a g e n t 系统来有效地处理电子商务应用 中的数据粒、信息粒和知识粒为主要目标,并作为一个新的、有着广泛应用前 景的研究领域,受到国际上越来越多的关注。当前,对c w i 的理论和应用研究 总体上还处于起步阶段,还有大量问题亟待解决。随着研究的不断深入,c w i 必将在未来的电子商务等w e b 应用中发挥越来越重要的作用。 5 第1 章绪论 1 4 论文结构 本论文共分为五章: 第一章“绪论 ,介绍了研究的背景与意义,研究的目的与内容以及相关 领域国内外研究现状。 第二章“相关理论技术研究 ,介绍了w ,e b 挖掘技术,描绘了w e b 的组织 结构,最后探讨了粒计算理论的相关知识,如粒及粒度、粒层和粒结构、商空 间理论等。 第三章“w e b 结构粒度模型 ,进行了抽象粒描述,提出了一种新的w e b 结构粒模型,提出了基于网站组织结构的信息粒概念,并定义了粒的相关影响 因子,如页面结构粒度、页面结构相似度、页面重要度、页面相关粒、用户相 似粒等,同时基于某一实际网站部分结构分别进行了举例及计算分析。 第四章“优化w e b 结构的信息粒计算方法 ,基于w e b 结构粒模型,提 出了一种启发式信息粒计算方法,该方法能结合w e b 挖掘理论技术,生成有效 的能对网站组织结构进行调整改善的相关规则,最终达到优化w e b 结构的目的, 最后对该方法进行了实验分析。 第五章“结论与展望,对全文所进行的主要工作和研究成果进行总结, 并对还需要进一步研究的工作进行了展望。 6 第2 章相关理论技术研究 第2 章相关理论技术研究 2 1w 曲技术 2 1 1w e b 简介 w e b 是一种体系结构,是i n t e m e t 提供的一种界面友好的信息服务。w e b 上海量的信息是由彼此关联的文档组成,这些文档称为主页( h o m ep a g e ) 或页面 ( p a g e ) ,它是一种超文本( h y p e r t e x t ) 信息,而使其连接在一起的是超链接 ( h y p e d i n k ) 。通过w e b 可以访问遍布于i n t e m e t 主机上的链接文档。 w e b 有以下五个特点: ( 1 ) w 曲是图形化的和易于导航的( n a v i g a t e ) 在w e b 之前,i n t e m e t 上的信息只具有文本形式。而w e b 可以在一个页面上 同时显示色彩丰富的图形和文本的性能,将图形、音频、视频信息集合于一体。 同时,w e b 是非常易于导航的,只需要从一个连接跳到另一个连接,就可以在 各页各站点之间进行浏览了。 ( 2 ) w e b 与平台无关 w e b 不受平台的限制,无论是什么系统平台,比如w i n d o w s 平台、u n i x 平台,用户都可以使用浏览器对w w w 进行访问。 ( 3 ) w e b 是分布式的 大量的图形、音频和视频信息会占用相当大的磁盘空间,w e b 把信息放在 不同的站点上,使在物理上并不一定在一个站点的信息在逻辑上一体化。 ( 4 ) w e b 是动态的 信息的提供者会对w e b 站点的信息包含站点本身的信息及时进行更新,以 确保用户对站点的持续关注。所以w e b 站点上的信息是动态的。 ( 5 ) w e b 是交互的 w e b 的交互性表现在它的超连接上,用户可以自主的决定欲浏览的站点及 浏览的顺序。另外,通过f o r m 的形式可以从服务器方获得动态的信息,用户 通过填写f o r m 向服务器提交请求,服务器根据用户的请求返回相应信息。 2 1 2w e b 结构 w w w ( w o r l dw i d ew e b ) 是由大量的w e b 站点构成的,每个w e b 站点又包含 7 第2 章相关理论技术研究 许多的w e b 页面。w e b 页面与普通文档不同,其所含信息包括以下3 个部分: 网页正文、网页所含的超文本标记和网页间的超链接。从广义上看,w e b 结构 包括:网页内部内容用h t m l 、x m l 表示成的树形结构、文档u r l 中的目录 路径结构和网页之间的超链接结构。 网站结构包括物理结构和逻辑结构。( 1 ) 网站物理结构是指网站真实的目录 及文件所存储的位置所决定的结构。( 2 ) 网站逻辑结构( 或称链接结构) ,是指由网 页内部链接所形成的逻辑的或链接的网络结构。本文建立的粒度模型是基于网 站逻辑结构,主要研究网站逻辑结构的优化。 网页分两种:导航网页和目的网页。( 1 ) 导航网页是指到达目的网页的途经 网页。它只提供链接作用,其网页内容不是用户所需要的,用户会经常往返于 这些页面上,但不会在上面花费大量时间。因此导航网页应该位于易于用户寻 找到目的网页的路径上,而且是最短路径上,用户途经的导航网页越少,到达 目的网页的时间就越短。( 2 ) 目的网页是用户真正要寻找的包括信息、娱乐、产 品等内容的网页。用户一旦找到所需内容网页就会花许多时间驻留在这个网页。 链接可分为基本链接和附加链接两类【1 9 1 。( 1 ) 基本链接用于反映商品目录结 构,通常不能随意删除;( 2 ) 附加链接用于方便顾客浏览,可根据网站设计者的 需要进行增减。 如果忽略掉w e b 页面上的文本和其它内容,只考虑页面间的超链,w w w 可 以被看作是一个以w e b 页面为节点、页面之间超链为有向边所构成的网状结构 的有向图g ,g = ,e ) ,结点v v 代表一个w e b 页面,有向边( v l ,v 2 ) e 代表从结点v 1 指向结点v 2 的超链接。如图2 1 所示。 图2 1 网站结构链接图 8 第2 章相关理论技术研究 2 2w e b 数据挖掘技术 2 2 1w e b 挖掘背景 随着互联网络和移动通信等信息技术的飞速发展,i n t e r n e t 已全方面的渗入 到了人类的生产和生活之中,并成为了人类不可或缺的“朋友”。目前,w e b 已 发展成为一个分布广泛的和全球性的巨大信息空间,它涉及新闻、金融管理、 教育科研、广告、娱乐、电子商务、政府、军事和许多其它信息服务。虽然w e b 页面数量正以惊人的速度在增长,用户可用知识信息越来越庞大,但这也导致 了用户在w e b 上寻找自己所需信息的困难。据说9 9 的w r e b 信息相对9 9 0 6 的用 户是无用的。虽然这看起来不是很明显,但一个人只是关心w e b 上的很小很小 一部分信息确是事实,w e b 所包含的其余信息对用户来说是不感兴趣的,而且 会淹没所希望得到的搜索结梨硎。 于是,如何从浩瀚的网络信息中高效地寻找出准确的知识,就成为了i n t e m e t 用户们的最迫切需求。而搜索引擎【2 i j 的出现,如g o o g l e ,b a i d u 等,满足了人们 的这种迫切需求。虽然当前的搜索技术能在一定程度上帮助用户们从w e b 中获 取有用的知识,但面对如此海量的w e b 信息资源空间,它们也很难将用户需求 信息快速、准确、全面地搜索出来。 将传统的数据挖掘( d a t am i n i n g ) 技术与w e b 有机地结合在一起,对信息进 行w e b 挖掘是解决当前问题的一个有效的方法 2 2 1 。w e b 挖掘就是运用数据挖掘 技术在w e b 文档与服务器上自动发现并提取有用信息,其主要目标是从分散在 i n t e m e t 上的半结构化的h t m l 页面中挖掘出用户所需信息,形成结构化数据, 且结构化的结果数据可用于数据库挖掘、文本生成等后续w e b 信息处型驯。它 是数据库、信息检索、人工智能、机器学习与自然语言处理等几个相关研究领 域的聚合。 通过w e b 页面的数据挖掘,可以从中提取出用户需要的有用的知识,比如 通过对用户访问行为、频度及内容等进行分析,可以得到关于群体用户访问行 为和方式的有效认识,从而改进w e b 设计,这将有助于开展更具针对性的电子 商务活动 2 , 1 1 。 2 2 2w e b 挖掘概述 o r e ne t i o n i t l 3 1 在1 9 9 6 年首次提出w e b 数据挖掘这概念。它从数据挖掘发 9 第2 章相关理论技术研究 展而来,是数据挖掘技术在w e b 技术中的应用。w e b 挖掘是从w w w 上抽取知 识的过程,从与w w w 相关的资源和行为中抽取感兴趣的、有用的模式和隐含 信息,也是将数据挖掘技术和理论应用于w w w 资源的一个新兴研究领域。它 综合运用了计算机网络、数据库与数据仓库、可视化、统计学等众多领域的技 术。 w e b 数据挖掘的原理如图2 2 所示。 图2 2 w e b 数据挖掘原理 ( 1 ) 数据采集 w e b 环境所提供的数据源包括w e b 页面数据、超链接数据和记录用户访问 情况的数据等。通常,数据采集由3 个过程组成:数据搜索、数据选择和数据 收集。 ( 2 ) 数据预处理 把采集的w e b 数据进行数据处理,对明显错误的数据和冗余的数据实行清 除,然后将数据进一步转换为适用于数据挖掘的形式,为下一步的数据挖掘过 程做好准备。 ( 3 ) 数据挖掘 通过对经预处理后的数据根据其不同类型和规模选择合适的方法进行挖 掘,并最终发现相关规则和用户访问模式。数据挖掘过程一般由3 个主要的阶 段组成:数据准备、挖掘操作、结果表达和解释。若决策者不满意所获得的信 息,可对此阶段进行重复操作,直到满足决策者期望。 ( 4 ) 分析与评估 对数据挖掘所得到的知识模式或规则进行过滤,并进行可信度和有效性分 析,对其做出评估结论,从而为决策提供信息支持。 ( 5 ) 知识表述 利用数据挖掘工具,从w e b 数据中挖掘出来的知识模式需用适当的形式表 现出来,以方便用户接受和相互交流【2 3 1 。 2 2 3w e b 挖掘分类 一般地,根据所挖掘的w e b 数据的类型的不同,可把w e b 挖掘分为以下三 l o 第2 章相关理论技术研究 类:w e b 内容挖掘( w e bc o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 、 w e b 使用挖掘m bu s a g em i n i n g ) 2 5 1 。如图2 3 所示。 图2 3w e b 数据挖掘分类 2 2 3 1w e b 内容挖掘 w e b 内容挖掘是对w e b 上大量文档的集合进行总结、分类、聚类或关联分 析来获取有用信息,其主要目的是通过改进信息查询与过滤的过程,建立新的 w 曲数据模型,最终进行不只是基于关键字的更复杂的查询。 w e b 内容挖掘包括两种方式:( 1 ) w e b 文档挖掘,如w e b 查询语言w e bl o g 、 w e bo q l 等;( 2 ) 搜索结果挖掘,如w e bs q l 及对搜素引擎的返回结果进行聚类 的技术等。 根据对象的不同,将w e b 文档挖掘又分为两类,即w e b 文本挖掘和w e b 多媒体挖掘。目前,w e b 文本挖掘是w e b 内容挖掘的主要研究方向。 w e b 文本挖掘主要针对w r e b 上大量文档集合的内容进行总结、分类、聚 类、关联分析,也包括用w e b 文档进行趋势预测。其一般处理过程如图2 4 所 示。 分析 评秸 图2 4w e b 文本挖掘的般处理过程 ( 1 ) 对i n t e r n e t 上的文本数据,如一组以h t m l 格式表示的文档集,将其转 化成一种与关系数据库中的记录类似的规整的且能反映文档内容特征的表示, l l 第2 章相关理论技术研究 一般地,采用文档特征向量。 ( 2 ) 对文档特征向量的维数进行缩减,并采用数据挖掘的各种方法,如分类、 聚类、关联分析等,提取出面向特定应用的知识模式。 ( 3 ) 对挖掘结果进行评价,若评价结果能够满足预定要求则进行结果输出, 否则,返回到以前的某个环节,分析改进后进行新一轮的处理工作。 一w e b 多媒体数据挖掘针对多媒体数据库中的数据进行隐藏知识的提取、 多媒体数据的关联、或其他没有直接储存在多媒体数据库中的模式的发现。多 媒体挖掘首先充分利用h t m l 的标签信息对网页中的多媒体数据进行特征提 取,这些特征一般包括图像或视频的文件名u r l 、类型、键值表、颜色向量等, 然后结合传统的数据挖掘方法进行进一步的信息挖掘 2 6 1 。 2 2 3 2w e b 结构挖掘 w e b 结构挖掘根据w w w 的组织结构和链接关系进行知识推导,对w e b 页 面间的结构进行挖掘,并找出数据链的结构进行分类、聚类,从而发现页面间 的关系,找到权威页面,进而进一步地提高搜索引擎的性能,同时还可以用来 指导页面采集工作,提高采集效率。它通过分析页面链接和被链接数量以及对 象来挖掘w e b 潜在的链接结构模式,最终建立w e b 自身的链接结构模式。 w e b 结构挖掘一般分为文档内结构挖掘、超链接挖掘以及u r l 挖掘。它将 w e b 看作一个有向或无向图的形式,进而抽象w e b 页面为图的顶点,页面间的 超链接为图的边,从而利用图论对w e b 的拓扑结构进行分析研究。 w e b 结构挖掘的应用非常广泛,主要包括: ( 1 ) 指导采集网页 利用网页间链接的信息对网页质量进行评定,按照网页的质量依次对网页 进行采集,使得用户能从少量的网页中找到高质量的网页; ( 2 ) 聚类检索结果 目前大多数方法都是采用文本相似度对搜索结果进行聚类,结果不太令人 满意。有的研究者运用链接分析对检索结果进行聚类,采用c o c i t a t i o n 和 c o u p l i n g 方法进行文档聚类,以便用户查询; ( 3 ) 识别社区团体 在网络上有由许多在线的有共同兴趣的创建、使用、维护的网页,这些网 页组成虚拟的社会团体; 1 2 第2 章相关理论技术研究 ( 4 ) 自动分类资源 大部分搜索引擎都是按照层次型进行分类的,目前的分类方法主要有s v m 方法与贝叶斯概率方法【2 _ 7 】。 2 2 3 3w e b 使用挖掘 用户浏览网页过程中会产生大量的数据,包括服务器端访问日志、代理端 访问日志和客户端访问日志。w e b 使用挖掘正是依靠对这些相关数据的分析, 发现访问者访问w e b 页面的模式及日志记录中的规律,从而识别出访问者的兴 趣、频率、满意度,进而发现潜在用户,并增强站点的服务竞争力,最终为站 点经营者提供各种利于w e b 站点改进的信息,如改善w e b 站点的导航功能、改 进w e b 应用的系统设计和识别广告的最佳位置等。 w e b 使用挖掘的基本流程一般包括数据预处理、模式识别和模式分析,其基 本流程如图2 5 所示。 图2 5w e b 使用挖掘基本流程 ( 1 ) 数据预处理 针对各种收集到的“第二手数据,通过数据清洗、用户识别、会话识别、 路径补充、格式化和事务识别等操作,形成用户会话文件,从而为后续的模式 识别提供结构化的、可靠的、整合的数据。 ( 2 ) 模式识别 结合数据挖掘领域的一些技术和算法,如路径分析、关联规则、聚类和分 类掣冽,挖掘w r e b 使用模式。 ( 3 ) 模式分析 通过对模式识别算法找到的模式集合进行分析,并利用相关的模式分析技 术和工具,如知识查询、可视化技术和联机分析处理( o l a p ) 等【2 9 】【3 0 l ,筛选出用 户感兴趣的模式、规则。 1 3 第2 章相关理论技术研究 2 2 4w 曲挖掘的应用 w e b 挖掘技术是学界研究的一个热点,已经广泛应用于金融业、零售业、 远程通信业、政府管理、制造业、医疗服务和体育等行业中,其应用前景主要 表现在如下三个方面: ( 1 ) 电子商务 在电子商务中,通过与w e b 挖掘技术的良好结合,企业能更有效地确认目 标市场,从而对决策进行改进以获得更大的竞争优势,最终得到对特定消费个 体或群体进行定向营销的决策信息。其功能表现在以下几个方面:( a ) 客户分类 和客户聚类;( b ) 找到潜在的客户;( c ) 保留客户的驻留时间。 ( 2 ) 网站设计 在网站设计中,通过对网站内容的挖掘,特别是对文本内容的挖掘,网站 经营者能更有效地组织网站信息,如通过应用自动归类技术,对网站信息实现 层次性组织;通过挖掘用户访问日志中的记录信息,可以发        
    温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 过年升级活动方案
- 迪士尼花车活动方案
- 蜂蜜促销活动方案
- 装修公司看工地活动方案
- 贸易协会活动方案
- 落户慰问活动方案
- 诚信创意活动方案
- DB41∕T 1713-2018 普通干线公路养护大中修实施方案编制规程
- 基孔肯雅热诊疗方案2025年版培训课件、测试题及参考答案
- 2025年临床医师《医学基础理论》备考题库及答案解析
- 2026年一级造价师之建设工程计价考试题库500道附完整答案【名校卷】
- 山东省青岛2025年七年级上学期语文期中试卷附答案
- 冷库储存生姜合同范本
- 服务营销的考试题及答案
- 2025年场地租赁合同模板下载
- 高素质农民的有关课件
- 2025年四川烟草专卖局考试真题
- 2024年国家级检验检测机构资质认定评审员考试模拟试题及答案
- 彩绘曼陀罗课件
- 湾汇云中心公馆500㎡超豪宅方案
- 农发行保定市清苑区2025秋招笔试综合模拟题库及答案
 
            
评论
0/150
提交评论