(计算机应用技术专业论文)基于社会化标注的搜索引擎优化研究.pdf_第1页
(计算机应用技术专业论文)基于社会化标注的搜索引擎优化研究.pdf_第2页
(计算机应用技术专业论文)基于社会化标注的搜索引擎优化研究.pdf_第3页
(计算机应用技术专业论文)基于社会化标注的搜索引擎优化研究.pdf_第4页
(计算机应用技术专业论文)基于社会化标注的搜索引擎优化研究.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机应用技术专业论文)基于社会化标注的搜索引擎优化研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

张晖:基于社会化标签的搜索引擎优化研究5 1 扬州大学学位论文原创性声明和版权使用授权书 学位论文原创性声明 本人声明:所呈交的学位论文是在导师指导下独立进行研究工作所取得的研 究成果。除文中已经标明引用的内容外,本论文不包含其他个人或集体已经发表 的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律结果由本人承担。 学位论文作者签名: 否氍呼 签字目期:7 一孑年6 月7 日 学位论文版权使用授权书 本人完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向 国家有关部门或机构送交学位论文的复印件和电子文档,允许论文被查阅和借阅。 本人授权扬州大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学 技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向 社会公众提供信息服务。 学位论文作者签名: 签字日期:以年 导师签名: d 例冷 签字日期:球石月气日 张晖:基丁社会化标注的搜索引擎优化研究 三 丰两姜 社会化标签作为w e b 2 0 中的一种重要技术,最显著的贡献在于完成了用户从 单纯的信息接收者到主动的信息发布者的角色转换,深刻地影响着互联网上的信 息传播模式。通过标签,其他网站或网民可以便捷地对信息进行分类。标签的作 用类似于搜索技术中的关键字,是对信息的个性化描述。由于一般情况下无法对 网络上海量的信息进行全文检索( 只有功能强大的大型搜索引擎才能勉强做到) , 因而,具有标签的信息要比没有标签的信息更容易传播。网民通过“贴”标签来 描述信息,创造易于被他人检索的信息,同时也通过标签的描述来查找自己感兴 趣的信息。并且由于聚合内容技术与标签技术的有机结合,标准化的信息接口降 低了信息传播和信息再次加工的成本,从而降低了人们在获取个性化信息上的时 间成本和经济成本。通过社会化书签,可以用多个标签作为关键字,对所喜爱的 网站或网页( 由网络中的书签所指向) 进行标注,并与其他网民分享。社会化标 签的作用类似于分类式的搜索引擎,其区别在于社会化标签的创建者是一个个普 通网民,而不是什么实力雄厚的公司,因而具有更强的实效性,甚至在分类上更 为准确。 随着w e b 2 o 技术影响力的不断扩大,w e b 上可以挖掘的资源更加丰富。结合社 会化标签来优化搜索引擎的检索效率不但能够快速准确的定位用户所需的信息, 而且能够满足用户对信息个性化方面的需求,从而在很大程度上改善了用户的搜 索体验,因此对这部分内容的研究也将具有重要的商业价值。 论文的主要工作包括以下三个方面: ( 1 ) 基于社会化标注内容的研究 本文主要根据标签的语义来判断社会化标注的内容。通过比较标签与网页内 容之间、标签与标签之间的语义关系,确定标签与网页内容之间、标签与标签之 间的语义相似度,并根据该相似度对搜索引擎用户进行推荐,提高其对搜索的满 意度,从而达到优化搜索引擎的目的。 ( 2 ) 基于社会化标注重要性的研究 衡量标签的重要性有多个方面,本文主要考察的角度是时间。通过对社会化 标签网下新的数据源“标签 的时间因素加以分析和利用,从时间的角度衡量标 签的新颖程度和重要程度,提出了一种新的基于社会化标签的网页排名算法 2 一 扬州大学硕士学位论文 t a g r a n k ,该算法通过对网页上用户的标注行为进行挖掘,计算标签的“热度”, 从而更客观的反应出标签的真实质量,以此提高网页排名的准确性。实验证明该 算法是切实有效的。 ( 3 ) 基于社会化标注个性化的研究 基于社会化标注个性化研究不需要用户的主动参与,而是通过对c o t a g 的数 据加以过滤,对用户的标注数据聚类并获取用户的偏好,达到对t a g 进行层次上 分类的效果,从而得到一个关于用户的特征,根据该特征向用户有的放矢的推荐, 最终成功的为用户提供个性化服务。 关键词:社会化标签,标签,书签,共现t a g ,t a g r a n k ,排名 张晖:基于社会化标注的搜索引擎优化研究 3 一 a bs t r a c t a sav e r yi m p o n a n tt e c l l l l i q u eo fw e b 2 o ,t h em o s tp r o m i n e n tc o n t r i b u t i o no fs o c i a l 锄o t a t i o n si st h a ti t s u c c e s s f u l l ym a k e sw e b u s e r st u mf r o mb e i n g s i m p l e x i n f o 肌a t i o na c c e p t o r st oa c t i v ei n f o m a t i o np r o m u l g a t o r sa n dp r o f o u n d l yi n n u e n c et h e i n f o m a t i o n 把a n s m i t t i n gm o d eo nt h ew e b w i t ht a g s ,o t h e rw e b s i t e so r u s e r sc a n c o n v e n i e n t l yc l a s s i f yt h ei n f o m a t i o n t h ef u n c t i o no ft a g si ss i m i l a rt ow h i c ho ft h e k e y w o r d si ns e a r c ht e c h n i q u e ,i t st h ep e r s o n a l i z e dd e s c r i p t i o nt oi n f o r m a t i o n i nt h e u s u a ls i t u a t i o n ,i t sv e 巧h a r dt oc 姗yt h r o u 曲w h o l e - l e n g t ht e x tr e t r i e v a l ( o n l yt h o s e p o w e r f u ls e a r c he n g i n e sc a nc o n s t r a i n e d l ya c h i e v e ) ,s ot h ea n n o t a t e di n f o 姗a t i o na r e m o r ee a s i l yt r a n s m i tt h a nt h eu n a n n o t a t e d w e bu s e r sd e s c r i b et h ei n f o r m a t i o na n d c r e a t ee a s yr e t r i e v a lb yt h ea c t i o no fa n n o t a t i n g ,a n dt h e yc a n1 0 0 kf o rt h ei n f 0 m a t i o n w h i c ht h e ya r ei n t e r e s t e di n b yt h ed e s c r i p t i o no ft a g s b e c a u s eo ft h e o r g a n i c c o m b i n a t i o no f p o l y m e r i z a t i o n c o n t e n t t e c h n i q u e a n da n n o t a t i o n t e c h n i q u e , s t a n d a r d i z e di n f o r m a t i o ni m e r f a c er e d u c et h ec o s to fi n f o r m a t i o nt r a n s m i t t i n ga n d r e p r o c e s s ,c o n s e q u e n t l y r e d u c et h ec o s to ft i m ea n de c o n o m yw h e np e o p l ew a n tt o a c q u i r ep e r s o n a l i z e di n f o m a t i o n w i t hs o c i a lb o o k m a r k s ,w ec a l lu s em u l t i t a g sa s k e y w o r d st oa n n o t a t et h ew e b s i t e sa n dw e b p a g e ( b ep o i n tt ob yb o o k m a r k so nt h e w e b ) w h i c hw ea r ef o n do f ,a n ds h a r et h e mw i t ho t h e rw e bu s e r s t h ef u n c t i o no f s o c i a la n n o t a t i o n si ss i m i l a rt oc l a s s i f y i n gs e a r c he n g i n e s ,t h ed i f - f e r e n c eb e t w e e nt h e m i st h a tt h ec r e a t o r so fs o c i a la n n o t a t i o n sa r en o m a lw e bu s e r sr a t h e rt h a np o w e r f h l c o 印o r a t i o n s s oi th a sm o r ea c t u a le f f e c ta n dc l a s s i f ym o r ea c c u r a t e l y w i t ht h ei n n u e n c ee x t e n s i o no fw e b2 0t e c h n i q u e ,t h er e s o u r c ew h i c hc a nb ed i g g e d o nw e bi sm o r ea b u n d a n c e u t i l i z i n gs o c i a la n n o t a t i o n st oo p t i m i z et h er e t r i e v a l e m c i e n c yo fs e a r c he n g i n e sc a nn o to n l yq u i c k l ya n da c c u r a t e l yg ot ot h ei n f o m a t i o n w h i c ht h eu s e r sn e e db u ta l s os a t i s f yt h eu s e r s n e e do fp e r s o n a l i z e di n f o m a t i o n t h e r e b y ,i to b v i o u s l yi m p r o v e st h es e a r c he x p e r i e n c eo ft h eu s e r s s ot h er e s e a r c ho n t h i sa s p e c th a ss i g n i f i c a n tc o m m e r c i a lv a l u e t h em a j o rw o r ki nt h i sp a p e ri n c l u d et h ef o l l o w i n gt h r e ep a r t s : ( 1 ) t h er e s e a r c hb a s e do nt h ec o n t e n to fs o c i a la n n o t a t i o n i nt h i sp a p e r ,w eju d g et h ec o n t e mo fs o c i a la n n o t a t i o n sm a i n l yb yt h es e m a n t i co f t a g s b yc o m p a r i n gt h er e l a t i o nb e t w e e nt a g s 、t a g sa n dw e b p a g e ,w em e a s u r et h e s e m a n t i cs i m i l a r i t yo ft h e m a n dc o m m e n dt ot h eu s e r sa c c o r d i n gt ot h i ss e m a n t i c s i m i l a r i t y ,c o n s e q u e n t l y ,a c h i e v et h ea i m t oo p t i m i z es e 2 u r c he n g i n e s ( 2 ) t h er e s e a r c hb a s e do nt h es i g n i f i c a n c eo fs o c i a la n n o t a t i o n t h e r ea r em a n ya s p e c t st os c a l et h es i g n i 丘c a n c eo fs o c i a la n n o t a t i o n i nt h i sp a p e r , w em a i n l yc o n s i d e rt h et i m ef a c t o r w ea n a l y z ea n du t i l i z et h et i m ef a c t o ro ft h en e w d a t as o u r c e t a g t ow e i g ht h ei m p o r t a n c ea n dn o v e l t yo ft a g sa n dp r o p o s ean e w a l g o r i t h mn 锄e dt a g r a n k b a s e do ns o c i a la n n o t a t i o n sf o rp a g er a n k i n g t h i s a l g o r i t h md i g st h ea n n o t a t i o nb e h a v i o ro ft h ew e bu s e r s ,c a l c u l a t e st h e “h e a t ”o ft h e t a g s ,c o n s e q u e n t l y ,i tc a nr e s p o n s et h et r u eq u a l i t yo ft a g sm o r ee x t e m a l l ya n di m p r o v e t h e v e r a c i t yo fp a g er a n k i n g t h ee x p e r i m e n ts h o w st h a to u ra l g o r i t h mw o r k s e f i f e c t i v e l y ( 3 ) t h er e s e a r c hb a s e do nt h ep e r s o n a l i z a t i o no fs o c i a l 锄o t a t i o n t h er e s e a r c hb a s e do nt h ep e r s o n a l i z a t i o no fs o c i a la n n o t a t i o nd o e s n tn e e dt h e a c t i v ep a n i c i p a t i o no fu s e r s ,b u tb yt h ef i l t r a t i o no fc o t a gd a t a ,w ec a nc l u s t e rt h e u s e r s a n n o t a t i o nd a t aa n da c q u i r et h e i rp r e f e r e n c et oc l a s s i f yt a g s i n l e v e l , c o n s e q u e n t l y ,g e ta c h a r a c t e r i s t i ca b o u tt h eu s e r ,a n dp u r p o s e f u l l yc o m m e n dt ot h eu s e r a c c o r d i n g t ot h i s c h a r a c t e r i s t i c ,f i n a l l yp r o v i d ep e r s o n a l i z e d s e r v i c et ot h eu s e r s u c c e s s f u u y k e y w o r d s : s o c i a la n n o t a t i o n ,t a g ,b o o k m a r k ,c o t a g ,t a g r a n k ,r a r 山 张晖:基于社会化标注的搜索引擎优化研究三 第一章绪论 1 1 论文研究背景和意义 1 1 1 研究背景 作为一个巨大的,分布全球的信息服务中心,万维网w w w ( w o r l dw i d ew e b ) 正在以飞快的速度扩展。1 9 9 8 年w w w 上拥有约3 5 亿个文档,每天增加约1 百万 个文档,并且不到9 个月的时间文档总数就会翻一番。到了2 0 0 6 年,由n e t c r a f t 因特网监控公司的数据显示,全球w w w 网站数量已经达到1 亿个。面对浩如烟海 的网络资源,搜索引擎作为一种十分重要的检索工具,为用户提供了一条获取所 需信息的捷径。用户只需要记住搜索引擎的入口,提交查询词即可找到所需的信 息。各种机构为了宣传自己和产品,在搜索世界中展开了激烈的竞争。因此搜索 引擎优化作为一种最基本、难度最高,却最有效的搜索营销手段越来越受到业界 和学术界的重视。 一方面,由于w e b 上的文档和传统的文档相比有很多新的特点,它们是分布 的,异构的,无结构或者半结构的,因此如何实现快速有效的搜索是个严峻的问 题;传统的w e b 搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项 的文档,也有基于目录分类的搜索引擎。传统的s e o 的主要目的是通过优化网页 的关键字分布使得该网页的文字内容可以在几个主要的搜索引擎里获得前十名左 侧搜索排名。因此有些站点会有意增加关键字出现的频率来提高自身在搜索引擎 中的重要性,破坏了搜索引擎结果的客观性和准确性。 另一方面,由于w e b 2 0 的出现及其技术的日益普及,整个i n t e r n e t 发生了 质的变化,以d e l i c i o u s n l ,f l i c k e r 乜1 等为代表的社会化网站j 下在社会化网络 的大环境下日趋壮大,如何更好的利用社会化网络带来的复杂的新的数据源对传 统信息检索技术提出了新的挑战。这些网站的出现及快速成长充分体现了全民参 与的行为,普通的网民已经不再单纯的是信息的被动接收者,而逐渐转变为信息 的主动发布者。用户可以根据自己的理解和判断任意标注他所感兴趣的网络资源 ( 可以是文本文档、图片、一段音频或视频等等) 。换言之,标签体现了用户从自 己的角度概括网络资源内容的着重点或者兴趣点,往往能够比较真实的反映大众 的观感。因此标签对比传统的关键词更有优势,对标签这样一种新的数据源进行 分析和挖掘,能够帮助实现有效的搜索页面排名,从而提高用户的搜索满意度。 6 一 扬州大学硕士学位论文 1 1 2 研究意义 信息获取的途径主要分为两类:一类是通过搜索引擎技术,如网页搜索:另一 类是通过社会关系网,例如内容推送、用户添加的标签等。 网页信息大部分都是非结构化的,通过社会化方式能部分地解决这个问题。 某一网页的信息可能是非结构化的,但当用户为其贴上标签( t a g ) 时,这部分信 息己被打上了结构化的烙印。一定程度上,标签( t a g ) 是对非结构化信息的结构 化分类。而且更为重要的是,标签( t a g ) 这种结构化分类,比以往任何的文本自 动分类和人工的分类目录更加具体和人性化。标签这一新的数据源的出现丰富了 w e b 上可供研究的对象,同时也使得原有的w e b 挖掘算法不能满足社会化网络下 用户对信息的获取需求。原有的w e b 挖掘算法主要考虑用户( u s e r ) 、查询词 ( q u e r y ) 、网页( w e bp a g e ) 三者之间的关系,社会化网络下则必须综合考虑用 户( u s e r ) 、查询词( q u e r y ) 、网页( w e bp a g e ) 、标签( t a g ) 四者之间的相互关 联的关系。如图所示,用户提交查询词,搜索引擎返回相关页面,用户浏览网页, 用户的标注行为等。 据c n n i c 调查报告显示,搜索引擎是用户得知新网站的最主要途径,网站9 0 以上的流量和5 5 的网上交易都依赖于搜索引擎。通过对用户搜索习惯的研究, 搜索引擎营销服务商i p r o s p e c t 在2 0 0 4 年4 月发布的搜索引擎用户态度报告表 明,8 1 7 的用户不会浏览三页之后的搜索结果,甚至5 2 2 的用户只会关注搜索引 擎返回的第一页搜索结果。换句话说,用户往往只关心排在前列的搜索结果。因而 有很多的企业选择了竞价排名或固定排名等方式来为自己的网站做宣传,这种方 式的好处是见效快,马上可以得到流量,但要为每个点击付费,排名越高,价格 越贵,长期做的话,费用会很大,所以只能作为一种短期目标的营销方式来进行。 而通过搜索引擎优化服务得到的访问流量是免费的,从而可以源源不断地获得新 的客户而不需要为点击付出额外的费用,同时不管竞价排名或固定排名的价格便 宜与否都存在一个很大的缺点,那就是只能是在一个搜索引擎有效,而利用搜索 引擎优化技术得到的排名效果却在任何一个搜索引擎都适用,而且就从企业宣传 的角度来说,自然排名的结果也比付费排名更加彰显企业实力,这也正是很多有 远见的企业主为什么要选择搜索引擎优化服务的主要原因。搜索引擎优化相对于 其他传统营销方式有更高的客户转化率( r o i ) ,搜索引擎可以带给商家潜在客户, 增加销售额。以世界最著名的搜索引擎g o o g l e 为例,每天约提供1 5 亿次查询服 张晖:基于社会化标注的搜索引擎优化研究z 务。商务网站如果能在g o 0 9 1 e 搜索引擎排名中获得前1 0 名,必定会给商家带来大 量的订单。正是鉴于这些优点,网站的创建和维护人员对电子商务网站进行专门的 搜索优化是势在必行的。然而,研究发现社会化标签网下书签由标签索引并且单 纯的根据标注行为的次数对书签进行排序,这样做存在两个问题:首先大量的标 注行为中不乏盲从者,即这部分标注行为的数量存在大量的不可靠性;其次新近 出现的网页被以书签形式索引后,由于标注次数少而始终不能为标签所索引,最 终这部分资源无法被大多数用户所用。本文针对目前w e b 2 0 下网页无法进行有效 的排序这一问题,通过对社会化标签网下新的数据源“标签的时间因素加以分 析和利用,提出了一种新的社会化标签的网页排名算法t a g r a n k ,该算法通过对 网页上用户的标注行为进行挖掘,计算标签的“热度”,从而更客观的反应出标签 的真实质量,以此提高网页排名的准确性。 1 2 研究方案 1 2 1 研究的主要内容 针对传统的搜索引擎优化存在的诸多问题,本文提出了基于社会化标注的搜 索引擎优化方法,论文的主要研究内容如下: ( 1 ) 基础理论研究 熟悉了社会化标注及搜索引擎优化的国内外研究现状,发展趋势,主要挑战 等理论基础。学习了现有传统的搜索引擎优化的研究方法。 ( 2 ) 基于社会化标注内容及重要性的搜索引擎优化 研究了共现t a g 之间的语义相似度计算,通过结合网页数及网页摘录的方法 对共现的t a g 之间语义关系的精准刻画,并且通过研究标签的一段时间内的标注 次数及流行程度,判断标注的重要性,从而最终达到对用户推荐的优化。 ( 3 ) 基于社会化标注个性化的搜索引擎优化 对用户在社会化标签网下的标注数据进行聚类,继而依据由此得到的类别, 将用户搜索历史数据中的与用户q u e r i e s 相关的w e b 页面进行分类,从而得到一 个关于用户的特征,最终为用户提供个性化服务。 1 2 2 研究总体方案 ( 1 ) 基于社会化标注内容及重要性的搜索引擎优化 综合了标签的内容,共现标签间的语义关系,标签本身的标注行为及标签的 时间因素对标签的内容及重要性进行统一考量,通过标签的共现相互影响权重, 8 一 扬州大学硕士学位论文 依据共现标签间存在的关系对标签进行聚类从而优化搜索引擎的检索效果。 ( 2 ) 基于社会化标注个性化的搜索引擎优化 通过分析社会化标签网下标签数据的特点,结合对分法和模块函数将聚类的算法 的应用于标签数据,达到将标签数据自动的分类。在得到标签数据的分类后结合 考察用户间共有信息的相似度量来提高个性化服务的在搜索引擎优化中的表现性 能。 1 3 论文的组织结构 本文的主要内容分为五章,具体组织如下: 第一章为绪论。主要介绍了论文的研究背景和意义,以及论文的主要研究内 容和创新点。 第二章为相关概念。详细的介绍搜索引擎优化概述、搜索引擎优化的研究现 状以及目前搜索引擎优化存在的不足;社会化标签概述、社会化标签的研究现状 以及目前对社会化标签应用存在的不足。 第三章为基于社会化标注内容和重要性的搜索引擎优化。提出了一种基于社 会化标注内容以及重要性的搜索引擎优化算法,并进行了实验分析。 第四章为基于社会化标注个性化的搜索引擎优化算法。提出了一种基于社会 化标注个性化的搜索引擎优化算法,并进行了实验分析。 第五章为结束语。主要是对全文的工作进行总结,并对下一步的工作提出展 望。 张晖:基于社会化标注的搜索引擎优化研究! 第二章相关工作 2 1w e b 挖掘概述 数据挖掘是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量 问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的 应用。相对于w e b 上的海量数据而言,传统的数据库中的数据结构性很强,即其 中的数据为完全结构化的数据,而w e b 上的数据最大特点就是半结构化。所谓半 结构化是相对于完全结构化的传统数据库的数据而言。显然,面向w e b 的数据挖 掘比面向单个数据仓库的数据挖掘要复杂得多。随着以数据库、数据仓库等数据 仓储技术为基础的信息系统在各行各业的应用,使海量数据不断产生。随之而来 的问题是如此多的数据无法从表面上看出他们所蕴涵的有用信息,更不用说有效 地指导进一步的工作。如何从大量的数据中找到真j 下有用的信息成为人们关注的 焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。 近年来,随着w e b 技术的快速普及和迅猛发展,使各种信息可以以非常低的 成本在网络上获得,由于w w w 在全球互连互通,可以从中取得的数据量难以计算, 而且w w w 的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强 大支持,如何在w w w 这个全球最大的数据集合中发现有用信息无疑将成为数据挖 掘研究的热点。 w e b 挖掘指使用数据挖掘技术在w w w 数据中发现潜在的、有用的模式或信息。 w e b 挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、 人工智能中的机器学习和神经网络等。 2 1 1w e b 挖掘的特点 1 异构数据库环境 从数据库研究的角度出发,w e b 网站上的信息也可以看作一个数据库,一个 更大、更复杂的数据库。w e b 上的每一个站点就是一个数据源,每个数据源都是 异构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构 数据库环境。如果想要利用这些数据进行数据挖掘,首先,必须要研究站点之间 异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一 的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决w e b 上 的数据查询问题,因为如果所需的数据不能很有效地得到,对这些数据进行分析、 1 0 _ 一 扬州大学硕士学位论文 集成、处理就无从谈起。 2 半结构化的数据结构 w e b 上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据 模型,可以根据模型来具体描述特定的数据。而w e b 上的数据非常复杂,没有特 定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动 态可变性。因而,w e b 上的数据具有一定的结构性,但因自述层次的存在,从而 是一种非完全结构化的数据,这也被称之为半结构化数据。半结构化是w e b 上数 据的最大特点。 2 1 2w e b 挖掘流程 与传统数据和数据仓库相比,w e b 上的信息是非结构化或半结构化的、动态 的、并且是容易造成混淆的,所以很难直接以w e b 网页上的数据进行数据挖掘, 而必须经过必要的数据处理。 ( 1 ) 查找资源:任务是从目标w e b 文档中得到数据,值得注意的是有时信息资 源不仅限于在线w e b 文档,还包括电子邮件、电子文档、新闻组,或者网站的日 志数据甚至是通过w e b 形成的交易数据库中的数据。 ( 2 ) 信息选择和预处理:任务是从取得的w e b 资源中剔除无用信息和将信息进 行必要的整理。例如从w e b 文档中自动去除广告连接、去除多余格式标记、自动 识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。 ( 3 ) 模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间 进行。 ( 4 ) 模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可 以是与分析人员进行交互来完成。 w e b 挖掘作为一个完整的技术体系,在进行挖掘之前的信息检索i r ( i n f o r m a t i o nr e t r i e v a l ) 和信息抽取i e ( i n f o r m a t i o ne x t r a c t i o n ) 相当重要。 信息检索( i r ) 的目的在于找到相关w e b 文档,它只是把文档中的数据看成未经 排序的词组的集合,而信息抽取( i e ) 的目的在于从文档中找到需要的数据项目, 它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组织整 理并适当建立索引。 信息检索( i r ) 和信息抽取( i e ) 技术的研究已近有很长时间,随着w e b 技术 的发展,基于w e b 技术的i r 、i e 得到了更多的重视。由于w e b 数据量非常大, 张晖:基于社会化标注的搜索引擎优化研究旦 而且可能动态变化,用原来手工方式进行信息收集早已经力不从心,目前的研究 方向是用自动化、半自动化的方法在w e b 上进行i r 和i e 。在w e b 环境下既要处 理非结构化文档,又要处理半结构化的数据,最近几年在这两方面都有相应的研 究成果和具体应用,特别是在大型搜索引擎中得到了很好的应用。 2 1 3w e b 挖掘分类 根据对w e b 数据的感兴趣程度不同,w e b 挖掘一般可以分为三类:w e b 内容挖 掘( w e bc o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 、w e b 使 用挖掘( w e bu s a g em i n i n g ) 1 w e b 内容挖掘 w e b 内容挖掘是指从w e b 内容数据文档中发现有用信息,w e b 上的信息五花 八门,传统的i n t e r n e t 由各种类型的服务和数据源组成,包括w w w 、f t p 、t e l n e t 等,现在有更多的数据和端口可以使用,比如政府信息服务、数字图书馆、电子 商务数据,以及其他各种通过w e b 可以访问的数据库。w e b 内容挖掘的对象包括 文本、图象、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文 本进行的w e b 挖掘被归类到基于文本的知识发现( k d t ) 领域,也称文本数据挖掘 或文本挖掘,是w e b 挖掘中比较重要的技术领域,也引起了许多研究者的关注。 最近在w e b 多媒体数据挖掘方面的研究成为另一个热点。 w e b 内容挖掘一般从两个不同的观点来进行研究。从资源查找( i r ) 的观点 来看,w e b 内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户 过滤信息。而从d b 的角度讲w e b 内容挖掘的任务主要是试图对w e b 上的数据进行 集成、建模,以支持对w e b 数据的复杂查询。 2 w e b 结构挖掘 w e b 结构挖掘:w e b 结构挖掘的对象是w e b 本身的超连接,即对w e b 文档的结 构进行挖掘。对于给定的w e b 文档集合,应该能够通过算法发现他们之间连接情 况的有用信息,文档之间的超连接反映了文档之间的包含、引用或者从属关系, 引用文档对被引用文档的说明往往更客观、更概括、更准确。 w e b 结构挖掘在一定程度上得益于社会网络和引用分析的研究。把网页之间 的关系分为i n c o m i n g 连接和o u t g o i n g 连接,运用引用分析方法找到同一网站内 部以及不同网站之间的连接关系。在w e b 结构挖掘领域最著名的算法是h i t s 算法 和p a g e r a n k 算法。他们的共同点是使用一定方法计算w e b 页面之问超连接的质量, 1 2 _ _ 一 扬州人学硕士学位论文 从而得到页面的权重。著名的c l e v e r 和g o 0 9 1 e 搜索引擎就采用了该类算法。 w e b 结构挖掘算法主要有:p a g e r a n 3 算法和h i t s 哺1 算法。 p a g e r a n k 完全依靠的是网络的民主特性,利用大量的链接结构表明某个单独 页面的价值。本质上来说,g o 0 9 1 e 把链接转换为一次投票,当从网页a 链接到 网页b 时,g o 0 9 1 e 就认为“网页a 投了网页b 一票 。g o o g l e 也不是纯粹 考虑投票的数量,还对投票的网页进行分析。本身很重要的网页的投票有助于增 强其他对方网页的重要度。 重要的是,g o o g l e 会记录每次的搜索行为,高质量的网站能够获得较高的 p a g e r a n k 分值。当然,重要的网页如果不能匹配你的查询就没有任何价值。所以, g o 0 9 1 e 把p a g e r a n k 技术及文本匹配技术进行结合从而搜索出既重要又相关的的 结果。g o o g l e 的匹配技术不是只考虑词条在网页上的出现次数,而是检查网页内 容( 及链接网页的内容) 的所有方面,从而决定该网页是否匹配你的查询。 p a g e r a n k 算法除了对搜索结果进行排序外,还可以应用到其它方面,如估算 网络流量,向后链接的预测器,为用户导航等。 3 w e b 使用挖掘 w e b 使用挖掘( w e bu s a g em i n i n g ) :即w e b 使用记录挖掘,也就是w e b 日志 挖掘,在新兴的电子商务领域有重要意义。它通过挖掘相关的w e b 日志记录,来 发现用户访问w e b 页面的模式,通过分析日志记录中的规律,可以识别用户的忠 实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。w e b 使用记 录数据除了服务器的同志记录外还包括代理服务器日志、浏览器端日志、注册信 息、用户会话信息、交易信息、c o o k i e 中的信息、用户查询、鼠标点击流等一切 用户与站点之间可能的交互记录。可见w e b 使用记录的数据量是非常巨大的,而 且数据类型也相当丰富。根据对数据源的不同处理方法,w e b 用法挖掘可以分为 两类,一类是将w e b 使用记录的数据转换并传递进传统的关系表里,再使用数据 挖掘算法对关系表中的数据进行常规挖掘;另一类是将w e b 使用记录的数据直接 预处理再进行挖掘。w e b 用法挖掘中的一个有趣的问题是在多个用户使用同一个 代理服务器的环境下如何标识某个用户,如何识别属于该用户的会话和使用记录, 这个问题看起来不大,但却在很大程度上影响着挖掘质量,所以有人专门在这方 面进行了研究。通常来讲,经典的数据挖掘算法都可以直接用到w e b 用法挖掘上 来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规 张晖:基于社会化标注的搜索引擎优化研究旦 则算法、改进的序列发现算法等。 在w e b 使用挖掘中,根据数据来源、数据类型、数据集合中的用户数量、数 据集合中的服务器数量等将w e b 使用挖掘阳1 分为五类: ( 1 ) 个性挖掘:针对单个用户的使用记录对该用户进行建模,结合该用户基 本信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用户提供与 众不同的个性化服务。 ( 2 ) 系统改进:w e b 服务( 数据库、网络等) 的性能和其他服务质量是衡量 用户满意度的关键指标,w e b 用法挖掘可以通过用户的拥塞记录发现站点的性能 瓶颈,以提示站点管理者改进w e b 缓存策略、网络传输策略、流量负载平衡机制 和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提 高站点安全性,这在电子商务环境下尤为重要。 ( 3 ) 站点修改:站点的结构和内容是吸引用户的关键。w e b 用法挖掘通过挖 掘用户的行为记录和反馈情况为站点设计者提供改进的依,比如页面连接情况应 如何组织、那些页面应能够直接访问等。 ( 4 ) 智能商务:用户怎样使用w e b 站点的信息无疑是电子商务销售商关心的 重点,用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤,w e b 用 法挖掘可以通过分析用户点击流等w e b 日志信息挖掘用户行为的动机,以帮助销 售商合理安排销售策略。 ( 5 ) w e b 特征描述:这类研究跟关注这样通过用户对站点的访问情况统计各 个用户在页面上的交互情况,对用户访问情况进行特征描述。 2 2 搜索引擎优化概述 在所有网络营销手段中,最基本、难度最高,但也最能带来持久影响效果的 当属搜索引擎优化( s e o :s e a r c he n g i n eo p t i m i z a t i o n ) 。搜索引擎( s e a r c he n g i n e ) 是一个根据站点内容,将各种站点分门别类的网站。每个引擎的工作原理都不同, 有的是按m e t a 值来分,有的是根据页面内容,有的按页面标题,还有是综合运用 这些方法。搜索引擎通过运行一种称为“爬虫”的程序查找检索各个站点的内容。 搜索引擎优化就是针对各种搜索引擎的数据检索特点,采取一系列的技术手段, 让网页设计适合搜索引擎的检索原则( 即搜索引擎友好) ,以增加搜索引擎到网站 的目标流量,从而获得搜索引擎收录并在搜索结果排名中靠前,使网页优先被用 户发现,最终提升网站的营销能力或宣传能力。客观地讲,由于用户对搜索引擎使 1 4 _ 。一 扬州大学硕士学位论文 用的习惯依赖性,使得搜索引擎优化已经不独成为一种推广手段,而是网站的基 础建设内容。搜索引擎优化技术包含了用于提高网站在搜索引擎中排名的多种任 务。 2 2 1 搜索引擎优化的研究现状 ( 1 ) 国外s 印发展状况 早在1 9 9 7 年,国外就出现了提供搜索引擎优化相关服务的机构,国外的网站 也早就开始意识到搜索引擎优化对于网络营销的重要性。发展至今,s e 0 在国外 已经是一门相当正规、成熟的行业。有大批的专业的公司,专业的技术人员在为 广大客户网站提供全方位的搜索引擎优化服务。同时,搜索引擎优化技术也得到 了广大网站管理者甚至搜索引擎在内多方面的认同。在g 0 0 g l e 的英文主页上有专 门的关于s e 0 的页面,来表述g o o g l e 对于网站管理者进行s e 0 的观点以及建议, 由此可见s e o 在国外已经是深入人心。 ( 2 ) 国内s e 0 发展状况 在2 0 0 3 年左右,国内开始出现了专门从事搜索引擎优化业务的个人及其相关 机构。经过近五年的发展,国内目前已经出现了一定数量的专业从事s e 0 相关业 务的公司和个人,但是总体来讲鱼龙混杂、多数规模较小、专业性也较差。目前, 大量的国内网站尤其是企业网站的管理者,对搜索引擎优化这一网络营销利器, 还是不够了解或者是重视程度不够,这对s e o 在国内的迅速普及也有一定阻碍。 另一方面国内的一部分不道德的s e o 从业者,为了牟取暴利,急功近利,利用大 量的s e 0 作弊手段,人为的控制搜索结果,制造垃圾信息,这些人的丑陋行为, 严重的影响了s e 0 这个行业的整体声誉,同时他们的网站也受到了g o o g l e 等大搜 索引擎的严惩。总体来说中国的s e o 处于起步阶段,中国的s e 0 拥有巨大的市场, 但是不可否认,国内的s e o 还处于低水平阶段,面临着网站主重视程度不够、s e o 作弊、s e o 相互恶意攻击等很多不利因素,国内刚起步的的s e 0 们需要不断的探 索,提高自身的业务水平,杜绝作弊等不正当s e 0 手段,尽快让s e 0 行业在中国 成熟壮大。 国内很多公司和个人对s e 0 的理解有偏差,比如有的人把s e 0 就等同于网站 优化,而实际上,s e 0 不只是网站优化,网站优化也不只是传统的s e 0 。搜索引擎 优化是一个复杂的,长期的和动态的优化过程,网站优化只是其中针对搜索原理 对网站所作的调整和修改工作而已,这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论