(计算机应用技术专业论文)基于web挖掘技术的网页分类研究.pdf_第1页
(计算机应用技术专业论文)基于web挖掘技术的网页分类研究.pdf_第2页
(计算机应用技术专业论文)基于web挖掘技术的网页分类研究.pdf_第3页
(计算机应用技术专业论文)基于web挖掘技术的网页分类研究.pdf_第4页
(计算机应用技术专业论文)基于web挖掘技术的网页分类研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于web挖掘技术的网页分类研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

6 6 徐法艳:基于w r e b 挖掘技术的网页分类研究 扬州大学学位论文原创性声明和版权使用授权书 学位论文原创性声明 本人声明:所呈交的学位论文是在导师指导下独立进行研究工作所取 得的研究成果。除文中已经标明引用的内容外,本论文不包含其他个人或 集体已经发表的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 学位论文作者签名:徐弦仡 签字日期:2 口6g 年多月1日 学位论文版权使用授权书 本人完全了解学校有关保留、使用学位论文的规定,即:学校有权保 留并向国家有关部门或机构送交学位论文的复印件和电子文档,允许论文 被查阅和借阅。本人授权扬州大学可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编 学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中国 学位论文全文数据库,并通过网络向社会公众提供信息服务。 学位论文作者签名:侩蜴艳 导师签名: 签字日期: 2 口pg 年多月1日签字日期:似年二月 f 日 徐法艳:基于w e b 挖掘技术的网页分类研究 捅姜 随着计算机硬件存储能力和软件环境的不断提高,万维网( w o r l dw i d e w e b ) 数据膨胀使得人们拥有的数据和资源不断增加,万维网的结构也变 得更加复杂。万维网数据的海量、异构和分布性等特点为该领域的研究提 出挑战。近年来,w e b 挖掘已经引起了信息产业界的极大关注,其主要原 因是可以利用万维网的海量数据,并且需要将这些数据转换成有用的信息 和知识。用户在线活动潜在目标是多样化的。理解用户在线活动的目标和 意向可为用户提供个性化服务,提高用户满意度。如电子商务网站可以根 据用户浏览网页时是否有参与娱乐活动的意向来摆放娱乐产品。 近年来w e b 2 0 的话题都引起了广泛地讨论,网络上w e b 2 0 相关主题 的应用正在兴起。它应用包括以用户为中心的发布和知识管理平台,如: 维基( w i k i s ) ,博客( b l o g s ) ,和社会资源共享系统。社会化标签服务, 如d e l i c i o u s 和f l i c k r ,不仅为用户标注提供友好的用户界面,而且允许 用户在网络上共享这些标签。本文结合网页内容和标签建立虚拟文档对网 页分类,取得了满意的效果,为进一步数据挖掘任务提供基础。 本文主要做了以下几方面工作。 1 用户娱乐憨挖掘。理解用用户在线活动的目标和意向为信息提供 者带来很大帮助。本文对娱乐意向进行定义,提出了基于网页内容建立机 器学习模型学习用户娱乐意向的框架。基于该框架,通过分类算法构建从 网页来获取用户的娱乐意向模型。实验结果表明,出现频率高的特征词更 大比例具有娱乐意向,网页娱乐意向识别能力取得满意效果。 2 社会化书签的特点及表示。标签作为描述网页的关键字,反映了 从用户角度对网页内容的理解,为网页提供了丰富的元数据。本文分析社 会化标签系统特点及规律性,建立用户、标签和网页这种多关系异构对象 的三部图,并对网页标签表示进行定义。 3 基于社会化标签网页分类。在社会化标签环境下,通常用户根据 同一类的标签所标注的网页属于同一类。相应的,用户对同一类网页标注 时,所用的标签是同一类的。因此,本文提出了一种基于社会化标签构造 网页虚拟文档的表示方法。构建对网页局部文本、网页标签和虚拟文档进 2扬州大学硕士学垡笙塞 行分类的模型。通过实验证实了社会化书签对网页分类的作用,基于虚拟 文档的分类算法取得了满意的效果。 关键词:w e b 挖掘,社会化标签,娱乐意向,网页分类,虚拟文档 徐法艳:基于w e b 挖掘技术的网页分类研究 a bs t r a c t w i t ht h ei m p r o v e m e n to fc o m p u t e rh a r d w a r e s t o r a g ec a p a c i t ya n d s o f t w a r ee n v i r o n m e n t ,d a t ae x p a n s i o no fw o r l dw i d ew e bm a k e sd a t aa n d r e s o u r c eo w n e db yp e o p l ei n c r e a s e ,t h es t r u c t u r eo fw o r l dw i d ew e bb e c o m e s m o r e c o m p l e x t o o t h ec h a r a c t e r i s t i c ss u c ha st h em a s s o n e , t h e h e t e r o g e n e o u so n ea n dd i s t r i b u t i v eo n ep o s ec h a l l e n g e st ot h i sa r e a r e c e n t l y w e bm i n i n gh a sa t t r a c t e dm u c ha t t e n t i o ni ni n f o r m a t i o ni n d u s t r y t h er e a s o n f o rt h i ss i t u a t i o ni st h a tw o r l dw i d ed a t ad a t ac a nb eu s e d ,i ti sn e c e s s a r yf o r u st ot r a n s f o r md a t at ou s e f u li n f o r m a t i o na n dk n o w l e d g e t h eg o a l so fu s e r o nl i n ea c t i v i t i e sa r ed i v e r s i t y u n d e r s t a n d i n gg o a l sa n di n t e n t i o nc a ng r e a t l y h e l pi n f b r m a t i o np r o v i d e r st op e r s o n a l i z ec o n t e n t sa n dt h u si m p r o v eu s e r s a t i s f a c t i o n f o re x a m p l e ,e c o m m e r c ew e bs i t e sc a nd i s p l a ye n t e r t a i n m e n t c o n t e n tb a s e do nu s e r s e i r e c e n t l y ,an e wf a m i l yo f “w e b 2 0 ”a p p l i c a t i o ni sc u r r e n t l ye m e r g i n go n t h ew e b t h e s ei n c l u d eu s e r - c e n t r i cp u b l i s h i n ga n dk n o w l e d g em a n a g e m e n t p l a t f o r m sl i k e sw i k i s ,b 1 0 9 s ,a n ds o c i a ls h a r i n gs y s t e m s s o c i a lb o o k m a r k s e r v i c e s , s u c ha s d e l i c i o u sa n df l i c k r ,h a v ea t t r a c t e dc o n s i d e r a b l e u s e r s i n t e r e s ta n da c h i e v e d s i g n i f i c a n t s u c c e s s t h e s es e r v i c e sn o to n l y p r o v i d eu s e r f r i e n d l yi n t e r f a c e sf b rp e o p l et oa n n o t a t ew e br e s o u r c e ,b u ta l s o e n a b l et h e mt os h a r et h ea n n o t a t i o n so nt h ew e b s o c i a la n n o t a t i o n sr e n e c t t h a th o wu s e ru n d e r s t a n dw e br e s o u r c e sc o n t e n ta n dp r o v i d er i c hm e t a - d a t a f o rw e bp a g ec l a s s i n c a t i o n t h i sp a p e rc o m b i n e sw e bp a g ea n dr e l a t e dt a g s c r e a t ev i r t u a ld o c u m e n tt oc l a s s i f yw e bp a g e sa n dg e t sp r o m i s i n gr e s u l t s , w h i c hp r o v i d e sb a s i sf o rf u r t h e rw e bm i n i n gt a s k t h i sp a p e rh a sd o n et h ew o r ko fs e v e r a lr e s p e c t so ft h ef o l l o w i n gm a i n l y : 1 u s e re n t e r t a i n m e n ti n t e n t i o n m i n i n g u n d e r s t a n d i n gg o a l s a n d i n t e n t i o nb e h i n dau s e r s c a ng r e a t l yh e l pi n f o r m a t i o np r o v i d e r s i nt h i sp a p e r , 4 扬州大学硕士学位论文 w ed e f i n et h ee n t e r t a i n m e n ti n t e n t i o n ( e i )a n dp r e s e n tt h ef r a m e w o r ko f b u i l d i n gm a c h i n el e a r n i n gm o d e l st ol e a r ne ib a s e do nw e bp a g e sc o n t e n t b a s e do nt h a tf r a m e w o r k ,w eb u i l dm o d e l st od e t e c te if r o mw e bp a g e s o u r e x p e r i m e n t s s h o wt h a t f r e q u e n tk e y w o r d s a r em o r e l i k e l y t oh a v e e n t e r t a i n m e n ti n t e n t i o n t h ea b 订i t yo f e id e t e c t i o ns h o w sp r o m i s i n gr e s u l t s 2 s o c i a la n n o t a t i o nr e p r e s e n t a t i o na n dd i s t r i b u t i o n t h ea n n o t a t i o ni st h e f r e e l ya n do p e n l ya s s i g n e dt e x t , w h i c ha r es o m ek e y w o r d sd e s c r i b et h e c o n t e n to fi t e mi nd i f 如r e n ta s p e c t s ,t h u sp r o v i d er i c hm e t a - d a t af o rw e bp a g e c l a s s i n c a t i o n w ea n a l y s i st h e d y n a m i c s o ft a g g i n g s y s t e m s a n dt h e d i s t r i b u t i o nt a go f p o p u l a rw e bs i t e t h e nw eb u i l dt h et r i p a r t i t em o d e lf o r r e l a t i o n a l h e t e r o g e n e o u so b je c t s , u s e r ,t a g a n du r la n d g i v e t h e r e p r e s e n t a t i o no fs o c i a la n n o t a t i o n 3 w e bp a g ec l a s s i n c a t i o nb a s e do ns o c i a la n n o t a t i o n i nt h es o c i a l a n n o t a t i o ne n v i r o n m e n t ,t h es a m ec a t e 9 0 r ya n n o t a t i o n sa r eu s u a l l ya s s i g n e dt o t h es a m ec a t e g o r yw e bp a g e sb yu s e r sw i t hc o m m o ni n t e r e s t t h et h e a n n o t a t i o n sa s s i g n e dt ot h es a m ec a t e g o r yw e bp a g e sa r eo ft h es a m e c a t e g o r y i nt h i sp a p e r ,w eb u i l dm o d e lt oc l a s s i f yw e bp a g e s : w e bp a g e c o n t e n t , a n n o t a t i o n sm e t a d a t af b r c o r r e s p o n d i n gp a g e s a n dt h ev i r t u a l d o c u m e n to ft h ew e bp a g ei n t e g r a t i n gt h ea n n o t a t i o nm e t a d a t aa n dt h ec o n t e n t o fw e bp a g e e x p e r i m e n t sc o n n r mt h a tt h et a g sa r ee f 。f e c t i v ef o rw e bp a g e s c l a s s i f i c a t i o na n dt h ev i r t u a ld o c u m e n t _ b a s e dm e t h o ds h o w sp r o m i s er e s u l t s k e y w o r d s : w e bm i n i n g ,s o c i a la n n o t a t i o n ,e n t e r t a i n m e n ti n t e n t i o n , w e bp a g ec l a s s i 伍c a t i o n ,v i r t u a ld o c u m e n t 徐法艳:基于w e b 挖掘技术的网页分类研究 5 1 绪论 自2 0 世纪6 0 年代以来,数据库和信息技术已经系统地从原始的文件 处理深化到复杂而功能强大的数据库系统。尤其在e f c o d d 成功地提出 了关系模型后,为数据库的大发展奠定了坚实的理论基础。随着计算机硬 件存储能力和软件环境的提高,各行各业产生大量的数据。万维网( w o r l d w i d ew e b ) w e b 上包含大量丰富的信息,这使得w e b 成为人们查找信息 以及信息交互的一个重要媒介。数据的极大丰富带来了对强有力的数据分 析工具的需求,大量的数据被描述为“数据丰富,知识匮乏”。 w e b 数据挖掘的对象是来自万维网上的海量数据。w w w 是欧洲粒子 物理研究所的t i mb e m e r s l e e 等人于19 8 9 年发明,最初是为了便于世界 各地的物理学家交流研究成果。经过十几年的发展,目前己成为一个全球 化的信息平台。最近几年,万维网进入一个全新的发展阶段。由以网页 内容为主的w e b l 0 向以用户为中心的w e b 2 o 发展。w e b l 0 主要是网站经 营者向用户传达信息。而w e b 2 o 则是以用户为中心的互动体验,用户既 是讨论的参与者也是信息的提供者。 1 1 选题背景 1 、万维网特点 随着网络的覆盖范围的不断扩大以及网络技术的发展,存在于网络上 的信息资源以飞快的速度传播并迅速增长。数据巨大的网络信息资源来源 于各行各业,包括不同学科、不同领域、不同地区、不同语言的各种信息, 内容丰富,并且以文本、图像、音频、视频、软件和数据库等多种形式存 在。另外交互性也是网络信息传播的一大特点。互联网上信息分布具有很 大的自由度和随意性,缺少必要的质量控制和管理机制,各种虚假信息, 劣质信息充斥互联网,给用户利用网络资源带来了障碍。 万维网上新的应用和服务不断增加。目前,除了传统的w e b 浏览、e m a i l 和搜索引擎等应用,新的应用如网上购物、电子商务、信息推荐系统、手 机上网以及为移动上网用户提供的服务等都不断出现并流行。传统w e b 应 用也在不断的发展并增加新的功能和服务。例如搜索引擎,面向特定文档 的搜索( 如图片,视频等) ,个性化w e b 搜索,根据用户意向的搜索,可 6 扬州大学硕士学位论文 以直观地自定义搜索范围和结果优先排序,m i n s e t 将搜索结果分为购物意 向和研究意向,可以方便地拖动调节阀改变意向比例来调节结果优先显示 顺序等。互联网流量的爆炸式增长,w 曲的基础架构在变得越来越强大, 但高流量的富媒体内容将消耗掉新增加的带宽。比勒尔指出,未来数年后, 互联网上创作、复制的信息量将由2 0 0 6 年的不足2 0 0 e b 增长到近1 0 0 0 e b 。 万维网用户数高速增长。以中国内地的互联网用户数为例,根据中国 互联网络信息中心( c n n i c ) 公布第2 1 次中国互联网络发展状况统计报 告。数据显示,截止2 0 0 7 年1 2 月31 日,我国网民总人数达到2 1 亿 人,半年新增4 8 0 0 万。宽带网民数1 6 3 亿人,手机网民数达到5 0 4 0 万人。 娱乐成为中国网民网络应用的重心,中国互联网娱乐性明显,在所有娱乐 性互联网应用中,网络音乐居中国各项网络应用之首,半年内已有8 6 6 的网民,即1 8l 亿网民收听过网络音乐,7 1 2 的人半年内下载过音乐。 1 6 1 亿网民使用网络影视,有4 0 5 的网民表示半年内下载过网络影视。 数字娱乐成为中国互联网最为重要的网络应用。报告显示,在2 1 亿 网民中,接近2 3 网民或者在网上发过帖子,或给互联网上传过内容,或 多或少参与到“w e b 2 0 ”互动中来。最近几年w e b 2 o 的概念非常盛行,网 民自主创造内容也成为国内外关注的热点。业界普遍认为中国互联网在进 入w e b 2 o 时代。它与w e b l o 最大的不同在于,w e b 2 o 中,个人不是被动 而是作为主体参与到互联网中,个人在作为互联网的使用者之外,还同时 成为了互联网主动的传播者、作者和生产者。 2 、w e b 2 0 和社会化书签 w 曲一直是人们主要获取信息的方式之一,在信息爆炸这一概念逐渐 被人们所接受以来,互联网的信息量更是飞速增长。一方面新的站点和内 容提供商不断的建立,但是另一个方面w e b 网络用户的行为也发生了巨大 的变化,在这些变化之后,隐藏和跟随的是众多网络应用服务,以及商机。 其中最典型的变化,人们认为w 曲进入了2 0 的时代。 w e b 2 0 ,是相对w e b l o ( 2 0 0 3 年以前的互联网模式) 的新的一类互 联网应用的统称,是一次从核心内容到外部应用的革命。由w 曲1 o 单纯 通过网络浏览器浏览h t m l 网页模式向内容更丰富、联系性更强、工具性更 强的w e b 2 o 互联网模式的发展已经成为互联网新的发展趋势。 徐法艳:基于w e b 挖掘技术的网页分类研究 7 从用户的角度讲就是w 曲网页由原来的内容提供商发布内容,用户单 一的接受内容,转变成用户可以主动的参与内容的创造,相互分享内容, 以及针对w e b 内容进行形式多样的讨论、评论和评价行为,这种系列的互 动性行为模式,不仅能够吸引用户产生更多的w e b 网页内容,还会带来积 累性的群聚效应,扩大站点的点击率和价值。 w e b 2 0 被人们广泛的认识,是在出现了b l o g 、w i k i s 、f i l c k e r 等系列 新颖的w 曲服务之后。它们凸现了用户作为互联网的使用者,变得更加的 主动去贡献自己的内容,分享其它用户贡献的内容,而不是像以前一样, 单一的阅读着由专门的互联网内容提供商做的内容,自身能够提供的信息 很少。 w e b 2 0 不仅仅是一次技术上的升级,它更多的是一种观念上的革命。 它所特有的“以人为本”,集合大众智慧的思想,以及参与性、自组织性、 真实性、开放性、去中心化、聚合性、创新性、不断更新、信息传播以微 内容为基础等特征,鼓励全体用户参与知识的创造,每个人都可以向平台 贡献自己的知识,使得知识内容更为丰富和深刻,知识的共享、交流沟通 和加工更为顺畅和富有成效。 用户协同地丰富网络元数据资源。大量用户在很短的时间内就创建了 大量标签。社会化标签成为一个新网络接口,允许用户以自由文本的关键 字对网页,图片和贴子等进行标注。它们的简单,方便使用,在很短的时 间里吸引了大量用用户。所有用户标签默认可公开访问,因而大量有价值 标签元数据可以获取。为数据分析、信息检索和知识发现提供了新的资源, 引起了研究者和企业的广泛关注。爱丁堡举行的第十五届国际万维网会议 ( w w w 2 0 0 6 ) 上成立了网络标签合作工作室( c o l l a r b o r a t i v ew e bt a g g i n g w o r k s h o p ) ,标签流行已成为大趋势【2 1 。 1 2 研究意义 最近几年,数据挖掘已经引起了信息产业界的广泛关注,主要原因对 海量数据加以使用,满足用户的信息需求,并且迫切需要将这些数据转换 成有用的信息和知识。获取的知识可以迅速地反馈到应用领域,并及时指 导管理者。目前数据挖掘的部分成果已经被广泛应用于商务管理、生产控 制、市场分析、工程设计、科学探索和国家安全等领域。同时,作为一个 8 扬州大学硕士学位论文 新兴的交叉领域,数据挖掘还受到了人工智能与机器学习、数据库、统计 学、信息学等多学科的关注,涉及从基础的算法理论到具体的实际应用这 样广泛的范围。目前,复杂类型数据的挖掘需求上升,越来越多的专家学 者开始关注这方面的新应用和理论研究。在学术研究方面,国际上重要的 学术会议( 如:w w w ,s i g i r ,w i s a 等) 这几年来用户意向挖掘和社会 化书签研究成为大会专门工作组( s e s s i o n ) 所讨论的主题。本论文以w e b 挖掘为研究课题,以用户娱乐意向挖掘和社会标签环境下网页分类为重 点。 理解用户在线活动的目标和意向可为用户提供个性化服务,提高用户 满意度。如电子商务网站可以根据用户浏览网页时是否有参与娱乐活动的 意向来摆放娱乐产品。随着社会化书签服务的流行,研究如何有效利用标 签元数据帮助提高网页分类的效果是相当有意义的。把由少量专家的工作 转移到所有w e b 用户共同协作完成,为网络资源提供了丰富的元数据。同 时由于所有用户可以任意地对网络资源进行标注。存在分类准确率低和覆 盖范小的问题。文章中通过结合网页内容和标签数据得到的虚拟文档对网 页分类,所有w e b 用户的参与,新的网页自动地添加进来,取得了满意的 效果。识别用户在线活动的娱乐意向,为用户提供个性化服是相当有意义 的。w e b 2 0 的观念己深入人心,研究如何利用w e b 2 0 环境下所提供的资 源更好服务于用户具有实际意义。 1 3 论文的主要工作 本论文以w e b 挖掘为研究课题,和实际w e b 应用相结合,以用户娱 乐意向挖掘和社会标签环境下网页分类为重点。 1 3 1 基于分类技术的用户意向挖掘 用户在线活动后的目标和喜好引起广泛关注。本文从娱乐角度来关注 用户w e b 搜索后的目标,在无用户显性反馈时,关注具有娱乐意向( 1 0 a d m u s i c 、a r t 、s p o r t 、g a m e 等) 网页,从网页来获取用户的娱乐意向。进行娱 乐意向定义,利用重要性和出现频率提取特征,对每一关键字从普通文本 和标记属性两方面来表示网页特征向量。本文提出了网页娱乐意向学习框 架,通过机器学习方法( s v m ) 建立娱乐意向识别模型,实现了从网页来 识别用户娱乐意向目的。 徐法艳:基于w e b 挖掘技术的网页分类研究 9 1 3 2 社会化标签分布及表示 最近几年,w e b 2 0 应用蓬勃兴起,社会化标签服务日益普及,成为研 究热点。本文进一步分析分布式标签系统的特点及流行网站标签使用频率 分布。在社会化标签环境下,给出了用户、标签和资源这种多关系异构对 象的三部图及网页相关标签的表示。 1 3 3 基于社会化标签的网页分类研究 本文利用社会化标签来提高网页分类的质量。标签是从不同方面描述 网页内容的关键词,所有用户共同参与,包含社会化信息,为w e b 资源提 供丰富的元数据。本文提出构建网页虚拟文档的概念,构建对网页局部文 本、网页标签和虚拟文档进行分类的模型。通过实验证实了社会化标签对 网页分类的作用,基于虚拟文档网页分类算法取得了满意的效果。 1 4 论文的结构组织 本文共分为五章: 第一章简要介绍了网页分类的选题背景及研究意义,描述了论文的主 要研究内容,最后给出论文的组织结构。 第二章对论文中涉及相关技术及概念进行介绍。描述了w e b 挖掘定义 及分类,并对w e b 挖掘的三个类别:w e b 内容挖掘、w e b 结构挖掘和w e b 使用挖掘进行简单介绍。网页分类的基本概念,如网页分类定义、主要分 类算法、特征选择算法和网页分类的评价。最后对w e b 2 o 环境下标签特 点进行描述。 第三章在本文中从娱乐角度对用户在线活动的意向进行了研究。给出 了娱乐意向定义,提出了基于网页内容建立机器学习模型的框架学习用户 e i 。基于该框架,构建从网页来获取用户的娱乐意向模型。通过识别用户 娱乐意向,得到大量关于用户有价值的信息,利用这些信息向用户提供个 性化的服务,更加满足用户的需求,提高信息的利用率。 第四章研究了社会化标签环境下网页分类。通过分析社会化标签数 据,对社会化标签的表示进行定义。基于社会化标签提出一种构造网页虚 拟文档表示的方法,最后,对基于虚拟文档算法和网页局部文本算和标签 数据算法分类进行比较。 第五章对全文工作的总结并对下一步的工作进行了展望。 徐法艳:基于w 曲挖掘技术的网页分类研究 1 1 2w eb 挖掘和分类的相关技术 2 1w e b 挖掘概述 万维网经过十几年的迅速发展,目前已经成为一个全球化的信息平 台。近年来,万维网的规模急剧膨胀。用户数高速增长,新的应用和服务 也在不断出现,使万维网的结构变得更加复杂。用户面对海量信息,往往 无所适从,难以得到有价值的信息。万维网的快速发展和日益流行也带动 了w e b 挖掘技术的发展。w e b 挖掘以w w w 上的数据为分析对象,以抽 取有用知识为目标,把传统数据挖掘技术和万维网结合。 根据所分析数据数据对象的不同,传统的研究工作通常将w e b 挖掘分 为三类:w c b 内容挖掘( w e bc o n t e n tm i n i n g ,w c m ) 、w e b 结构挖掘( w e b s t r u c t u r em i n i n g ,w s m ) 和w e b 使用记录的挖掘( w e bu s a g em i n i n g ,w u m ) 【4 】,如图2 1 所示。挖掘的数据对象分别是w e b 上的内容数据、结构数据 和使用数据,另外,还包括用户的个人信息数据。 图2 1w e b 挖掘分类 内容数据指网页中包含的、网页编缉者试图传达给w e b 用户的数据对 象,其中可以包括纯文本数据、图像数据、视频数据等多媒体数据;以及 通过网页抽取出来的结构化数据等。 结构数据是用来描述we b 信息如何组织的数据,其中包括网页内部结 1 2 扬州大学硕士论文 构数据( i n t r a p a g es t r u c t r u ed a t a ) 和网页间结构数据( i n t e r p a g e s t r u c t u r e ) 。网页内部结构数据指h t m l 或x m l 等标记信息;网页间结构 数据指网页间的超链接结构; 使用数据主要指we b 资源被如何使用的数据,包括用户访问网页的时 间、i p 地址、访问w e b 站点的路径信息以及搜索引擎的点日志数据( c l i c k t h r o u g hd a t a ) 等,使用数据是w e b 用户和w e b 资源之间交互作用的结果; 用户个人信息指描述w e b 用户的数据信息,包括用户的年龄、性别、 收入水平以及用户的兴趣信息等。这些数据通过w e b 用户填写注册表格或 者调查问卷的方式获得。 2 1 1w e b 内容挖掘 w 曲内容挖掘的任务包括从网页内容数据中抽取有用的信息,从w e b 上搜索用户关心的资源,以及对w e b 上的数据进行建模、集成和存储,从 而支持更复杂的查询等。这些数据对象既有文本和超文本数据,也有图形、 图像、语音等多媒体数据;既有来自于数据库的结构化数据,也有用h t m l 标记的半结构化数据和无结构的自由文本。这一领域的研究工作包括:网 页分类( w e bp a g ec l a s s i 6 c a t i o n ) 、网页聚类( w e bp a g ec l u s t e r i n g ) 、信息 检索( i n f o r m a t i o nr e t r i e v a l ) 、网页摘要( w e bp a g es u m m a r i z a t i o n ) 、用户 意向挖掘( i n t e n t i o nm i n i n g ) 等【5 ,6 ,7 ,8 ,9 ,10 1 。 网页分类是w e b 内容挖掘重要内容。分类的概念是在已有数据的基础 上学会一个分类函数或构造一个分类模型,即所谓的分类器( c l a s s i n e r ) 。 它按照预先定义的分类体系( 即分类模型) ,为文档集合中的每个文档确定 一个类别( 即将文档集合中的每个文档归纳入某个类别) ,使得用户不但能 够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容 易。网页文本分类包括网页类型( 文本、图形、图像、声音等) 的确定、分 词或词性的标注、特征词抽取、特征匹配、索引生成等过程。但文本挖掘 处理的是大量非结构化的用自然语言描述的无统一结构的文本数据,在对 文档进行特征提取前,需要先对这些文本数据进行相应的预处理( 这是文本 挖掘的首要步骤) ,它将直接影响文本挖掘的效率和准确度以及最终模式的 有效性。本文中以网页分类为基础,通过对用户在线浏览活动的分析,来 徐法艳:基于w r e b 挖掘技术的网页分类研究 1 3 识别用户娱乐意向。另外,社会化标签是w e b 2 0 的主要应用之一,是网 页内容的简单描述词,反映用户对网页的理解。用户自由标注的标签,为 网页内容提供的新的元数据,于是结合社会化标签对网页进行分类,为用 户提供更好的服务。 2 1 2w e b 结构挖掘 w e b 结构挖掘主要是基于网页间链接结构的分析,帮助网页分类和发 现某个领域网站的链接结构特点,或者把链接结构分析跟网页内容数据相 结合,用于权威网页识别等w e b 挖掘任务。目前对于结构挖掘研究主要是 w e b 链接分析,把网页表示为图的节点,网页之间的链接表示为图的边, 链接分析通过发现图中的模式帮助搜索引擎对网页按照相关性进行排序、 网页分类和发现重复网页等,如p a g e r a n k 算法【1 1 】和h i t s 算法【1 2 1 。 2 1 3w e b 使用挖掘 w e b 使用挖掘也称w e b 日志挖掘( w e bl o gm i n i n g ) ,研究的主要对 象是w e b 日志或用户的个人信息数据。w e b 使用挖掘主要是通过挖掘w e b 日志记录,来发现用户访问w e b 页面的模式、识别电子商务的潜在客户、 提高w e b 上服务信息发布的质量、改进w e b 站点设计和帮助提高个性化 搜索的性能等。这方面的研究主要有:一是通过分析w e b 日志得到用户的 访问模式,手工改进w e b 站点设计;另外是通过让站点自动根据当前用户 的浏览模式来动态调整、定制站点结构和页面内容。 2 2w e b2 o 和娱乐意向挖掘 2 2 1 娱乐意向挖掘 互联网上主要有两种用户在线活动【l3 1 。一是大量研究的浏览活动,如 用户如何浏览一个或多个网站网页;二是近十几年引起广泛关注的搜索。 最近越来越多有关理解用户目标和意向领域的研究工作。理解用户在线活 动的目标和喜好有利于不同类型的信息提供者( 如:娱乐网站,电子商务 网站,搜索引擎等) ,为用户提供个性化服务,提高用户的满意度。近年 1 4 扬州大学硕士论文 来研究者在理解用户的在线活动后的目标和喜好领域作了大量工作 【1 3 ,1 4 ,l5 ,l6 1 。 随着万维网技术的迅速发展,海量的信息以网页的格式存储在i n t e m e t 上。不同用户有不同的信息需求,用户w e b 搜索后的潜在目标是多样化的。 如何理解用户的信息需求,为搜索引擎提出了新的挑战。以前对w e b 搜索 行为研究主是如何搜索和搜索什么,本文考虑的是为什么搜索,从网页角 度来挖掘用户的娱乐意向。 b o r d e r 和r o s e 等将w e b 搜索目标分为三类:信息的( i n f o r m a t i o n a l ) , 导航的( n a v i g a t i o n a l ) 和资源的( t r a n s a c t i o n a lo rr e s o u r c e ) 1 4 1 3 】。信息的是想 获取关于某个主题的相关网页的信息( 例如:找新闻、找评论、找帖子等) 。 导航的是查找具体网页或网站。资源的是进行以网页为中介的活动,得到 所需要的资源( 例如:下载软件、在线购物、订机票等) 。与以前研究的 三种目标不同,本文关注的是从网页识别娱乐意向。当用户浏览网页是否 参与娱乐活动。如:a r t ,s p o r t ,g a m e ,m o v i e ,c a m e r a ,t r a v e l 等。 本文把用户在线活动后有关参与娱乐活动的意向称为娱乐意向。从普 遍用户的角度考虑网页的娱乐意向,采用机器学习的方法把网页分为娱乐 意向和非娱乐意向两类。理解用户在线活动的目标和喜好有利于不同类型 的信息提供者( 如:娱乐网站,电子商务网站,搜索引擎) ,为用户提供 个性化服务,提高用户的满意度。信息提供者理解用户意向可根据用户娱 乐意向摆放娱乐内容。有些网页及关键字娱乐意向带有模糊性,有些网页 无明显娱乐意向,而有时用户可能对娱乐服务的非娱乐方面感兴趣。无结 构的丰富的w e b 文档为网页分类提出新的挑战。准确,自动的分类可以帮 助用户在互联网上找到所需要信息。 2 2 2w e b 2 0 和社会化标签 1 、w e b 2 0 概念及发展现状 w 曲2 0 的概念是2 0 0 4 年3 月美国著名的o r e i l l y 公司的d a l e d o u 曲e r t y 与m e d i a l i v e 公司的c r a i gc l i n e 在一个头脑风暴会议上提出的。 o r e i l l y 公司的副总裁d a l ed o u 曲e r t y 在这次会议上指出,网络不仅没有 破灭,而且随着许多令人激动的新应用程序和网站正在以令人惊讶的规律 徐法艳:基于w r e b 挖掘技术的网页分类研究 1 5 永现,网络比以往的作用更重要。2 0 0 4 年10 月,这两家公司联合召开了 全球第一次w e b 2 0 主题会议。 关于w e b 2 0 目前仍没有明确的定义。t i mo r e i l l y 认为:w e b 2 0 没 有一个明确的界限,而是一个重力核心。不防将w e b 2 o 视作一组原则和 实践,由此来把距离核心或远或远近的网站组成为一个类似太阳系的网络 系统,这些网站或多或少地体现着w e b 2 0 的原则。 中国互联网协会对w 曲2 0 的含义进行了一定的阐述:互联网2 0 ( w e b 2 o ) 是互联网的一次理念和思想体系的升级换代,由原来自上而下 的、由少数资源控制者集中控制、主导的互联网转变为自下而上的由广大 用户集体智慧和力量主导的互联网体系。互联网2 0 内在的动力来源是将 互联网的主导权交还个人,从而充分发掘了个人的积极性,广大个人的贡 献影响和智慧,以及个人联系形成的社群影响就替代了原来少数人所控制 和制造的影响,从而极大释放了个的创作和贡献的潜能,使得互联网的创 造力上升到了新的量级。 w e b 2 0 不仅仅是一次技术上的升级,更多的是一种观念上的升级。它 所特有的“以人为本”,集合群体智慧的思想。相对于w e b l o ( 2 0 0 3 年以 前的互联网模式) ,是新的一类互联网应用的统称,是一次从核心内容到 外部应用的革命。由w e b l 0 单纯通过网络游览器游览h t m l 网页模式向 参与性更强、内容更丰富、工具性更强的w e b 2 0 模式发展已成为互联网 发展的新趋势。 从技术上来说,w e b 2 o 则是以d e l i c i o u s 、f l i c k r 等网站为代表,以 博客( b l o g ) 、标签( t a g ) 、社会性网络( s n s ) 、内容聚合( r s s ) 、维基 ( w i k i ) 等社会性软件的应用为核心,依据六度分隔、长尾理论、x m l 、 a j a x 等新理论和技术实现的新一代互联网模式。 如d e l i c i o u s ( 美味书签) 和f l i c k r 网站,其公司已经在近期获得了 广泛的关注,并且已经在一种被人们成为“分众分类”( f 0 1 k s o n o m y ,有别 于传统分类法) 的概念上成为先行者。“分众分类”是一种使用用户自由选 择的关键词对网站进行协作分类的方式,而这些关键词一般称为标签 ( t a g s ) 。标签运用了像大脑本身所使用的那种多重的、重叠的关联,而不 是死板的分类。如d e l i c i o u s 上,网站w w w n e w e g g c o m 被加上“c o m p u t e r ” 1 6 扬州大学硕士论文 “e l c t r o n i c s “s h o p p i n g 的标签,从而允许系统按照用户行为所产生的自 然方式来。 2 、w e b 2 0 的特征 相对于w e b 2 0 定义上产生的一些分歧,w e b 2 0 的一些特征已经得到 了公认,下面简单的归纳一下【1 9 1 : ( 1 ) 参与性 以个人为中心,个人深度参与到互联网中,而不是作为被动的客体, 也就是说人人既是信息的阅读者,同时也是信息的发布者、传播者、修改 者。通过b l o g ,不需要任何的专业知识,就可以在网络上发布信息。这是 一个革命性的变化。当然,个人并非是孤立的,而是彼此相连。这就引发 第二个特征自组织性。 ( 2 ) 自组织性 以自组织为中心,个人与个人之间,个人创造的内容与内容之间,以 及个人汇聚的群体与群体之间,都以不同的自组织方式架构起来。以自组 织的方式让个人、群体、内容和应用等充分“动”起来,力量得到了最大 程度爆发。 ( 3 ) 真实性 在w e b l 0 时代,强调的是虚拟性,包括b b s 、i m 软件、个人邮箱、 个人主页在内的网络用户所填写的个人信息大多是虚假的,而在w e b 2 0 时代的一项基本的原则就是真实。在w e b 2 o 时代,要隐藏身份的同时, 也就失去了利用w e b 2 o 的便利性,比如你不能把自己的照片共享,也不 能让朋友通过工作单位等相关搜索找到你,而你所发布的信息的可信度也 会大打折扣。 ( 4 ) 免费性 现在无论是b l o g 、w i k i 还是各种s n s 网站,其网站的注册和使用都 是完全免费的。这和w 曲1 0 时代的电子邮箱,个人主页等服务按时间和 空间收费是不同的。 特别是w i k i 项目,如w i k i 大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论